WO2013051101A1 - 時系列データ管理システム,および方法 - Google Patents

時系列データ管理システム,および方法 Download PDF

Info

Publication number
WO2013051101A1
WO2013051101A1 PCT/JP2011/072828 JP2011072828W WO2013051101A1 WO 2013051101 A1 WO2013051101 A1 WO 2013051101A1 JP 2011072828 W JP2011072828 W JP 2011072828W WO 2013051101 A1 WO2013051101 A1 WO 2013051101A1
Authority
WO
WIPO (PCT)
Prior art keywords
time
cluster
series data
feature
leaf
Prior art date
Application number
PCT/JP2011/072828
Other languages
English (en)
French (fr)
Inventor
啓朗 室
勲 軽部
西澤 格
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2011/072828 priority Critical patent/WO2013051101A1/ja
Priority to JP2013537307A priority patent/JP5715261B2/ja
Publication of WO2013051101A1 publication Critical patent/WO2013051101A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0221Preprocessing measurements, e.g. data collection rate adjustment; Standardization of measurements; Time series or signal analysis, e.g. frequency analysis or wavelets; Trustworthiness of measurements; Indexes therefor; Measurements using easily measured parameters to estimate parameters difficult to measure; Virtual sensor creation; De-noising; Sensor fusion; Unconventional preprocessing inherently present in specific fault detection methods like PCA-based methods

Definitions

  • the present invention relates to a preventive maintenance system that estimates abnormal signs and causes from the observed time series data, and particularly to the management and analysis technology of the observed time series data from a large number of sensors installed in the equipment.
  • the plant maintenance system As an implementation form of the plant maintenance system, it is constructed and managed on a time series data management system that collects observation time series data from many sensors deployed in the environment and manages it as a history, or a time series data management system. There is a time-series data analysis system that analyzes the time-series data, detects abnormal signs, and estimates the cause of the abnormality.
  • Time series data management system Functions that a time series data management system should have to manage a large amount of time series data include a function to reduce the amount of data by reversible or irreversible compression of time series, and distributed management of time series data to multiple storages and servers Functions, transferring time-series data with low importance to low-cost backup storage and cloud systems, performing precision reduction operations such as blinking in the time direction, etc., reducing the amount of data, deleting unnecessary time-series data in the past
  • LCM Life Cycle Management
  • LZW Lempel-Ziv-Welch
  • DCT Discrete Cosine Transform
  • Wavelet transform Wavelet transform
  • the time-series data analysis system also includes a time-series data determination system that performs some kind of determination, such as detecting an abnormality by evaluating time-series data using a predetermined determination rule, or determining the cause of the abnormality, It can be classified into a determination rule generation system that extracts and generates the determination rule from series data.
  • Judgment rules given by the time-series data judgment system include, for example, judgment of excess of time-series data and its processed data and thresholds, FTA (Fault Tree Analysis) consisting of these logical sums and logical products,
  • FTA Fra Tree Analysis
  • Patent Literature 1 and Patent Literature 2 time series patterns that can be identified as abnormal are accumulated in advance, and the abnormality is detected or the cause of the abnormality is identified by comparing the similarity between the input time series and these time series patterns.
  • a scheme has been proposed.
  • the decision rule generation system provides analysis algorithms such as principal component analysis, k-means method, hierarchical cluster analysis, and wavelet analysis to assist analysts in generating decision rules by trial and error. providing.
  • Fig. 28 shows a conceptual diagram of a conventional plant maintenance system.
  • the plant maintenance system 2800 has a purpose of performing state-based maintenance by storing time-series data from sensors in a time-series store, detecting an abnormality according to a diagnostic rule, and issuing an alarm.
  • Maintenance system 2800 users are classified into three types: maintenance personnel, time series analysts, and system operators.
  • the maintenance staff receives an alarm from the maintenance system and drafts a maintenance plan.
  • the time series analyst analyzes unknown faults and creates and updates diagnostic rules.
  • the system operator is responsible for maintenance of the maintenance system itself that manages a large amount of time-series data, and performs life-cycle management of time-series data such as data compression, data movement, and data deletion.
  • the life cycle management was performed on a time basis, such as thinning out the data in minutes and saving it for 3 months, and then deleting it.
  • plants have fewer constructions than automobiles, for example, and it is difficult to collect cases. Therefore, abnormal patterns with high importance are managed as cases without reducing accuracy or deleting them even if they are past data.
  • this case collection is managed by documents etc. as the responsibility of the time series analyst. Therefore, there has been a problem that the collection of past data cases may occur due to time-based life cycle management.
  • An object of the present invention is to provide a time-series data management system and method for solving the above-described problems, facilitating discovery and management of abnormal patterns, and performing rig cycle management according to importance. It is in.
  • the present invention is a time series data management system that includes a processing unit and a storage unit and manages time series data, and the processing unit divides the time series data into feature sections. , Forming a feature section management table for managing the data of the feature section, the start time, the end time, and the identifier for identifying the feature section in the storage unit, calculating the similarity between the feature sections, According to similarity, feature sections are clustered hierarchically, and a feature index of a tree structure is formed with the similarity between the clusters of the obtained feature sections as branch clusters and the identifier for identifying the feature sections as leaf clusters Thus, a time series data management system for managing time series data is provided.
  • the present invention provides a time-series data management method in a time-series data management system that includes a processing unit and an input / output unit and manages time-series data, Divide time-series data into feature sections, manage the data of the feature section, start time, end time, and identifier for identifying the feature section, calculate the similarity of the feature section, and calculate the similarity of the calculated feature section Accordingly, by hierarchically clustering the feature intervals, constructing a tree-structured feature index with the similarity between the clusters of the obtained feature intervals as a branch cluster and a leaf cluster as an identifier for identifying the feature interval.
  • a time series data management method for managing series data is provided.
  • time series data can be classified by similarity and importance, and actions such as lossy compression / deletion / distribution management can be defined for each time series. It becomes possible to perform life cycle management based on the state standard. This makes it possible to achieve both the accumulation of time series data necessary for diagnosis and the efficient management of a large amount of time series data.
  • movement of the similarity search function based on 1st Example It is a figure which shows the structure of the case report management table based on a 1st Example. It is a program block diagram which shows the structure of the index management function based on 1st Example. It is a figure which shows an example of the characteristic index display screen which a GUI function provides based on a 1st Example. It is a sequence diagram which shows the usage method of the fact position management function based on 1st Example. It is a figure of the feature index explaining operation of an absorption threshold value management function concerning the 1st example. It is a figure explaining the rule of fact position movement which an abnormal range calculation function applies to the 1st example.
  • a time-series data management system refers to one or more sensors, a time-series store device, a storage device, and one or more user terminals 105 connected to each other via a network. It should be noted that there are cases where the entire system to be configured is called and cases where a configuration including a time series store device and a storage device is called.
  • FIG. 1 is a block diagram showing an overview of the entire system of the time-series data platform according to the first embodiment.
  • the time-series data platform of this embodiment includes one or more sensors 101, a time-series store device 103, a storage device 106, and one or more user terminals 105 used by a user, via networks 102 and 104. It is a self-alignment data management system connected to each other.
  • the network for example, a dedicated network, a wide area network such as a so-called Internet, or a local network such as a LAN (Local Area Network) may be used.
  • LAN Local Area Network
  • the sensor 101 is a device that generates data over time. For example, a sensor attached to a plant facility or equipment, a server log in a data center, a central processing unit (CPU). And performance data such as memory usage rate, RFID (Radio Frequency Identification), vehicle sensors such as cars and trains, etc., but are not limited thereto.
  • the time series data generated by the sensor 101 is input to the time series store device 103 via the network 102.
  • the time-series data may be input every time the time-series data is generated, or may be temporarily stored on the sensor 101 side, for example, the time-series data accumulated for a certain amount such as every day may be input collectively. .
  • the time series store 103 processes the input time series data and then saves it as data in the storage device 106.
  • the storage device 106 may be directly connected to the time series store device 103 as shown, or may be connected via a network.
  • the user terminal 105 issues a search request to the time series store device 103 via the network 104, and acquires time series data collected from the sensor 101 via the network 102 and accumulated in the storage device 106. .
  • FIG. 2 shows in more detail the configuration of the time-series store device 103 that functions as a processing unit of the time-series data management system and the storage device 106 that is a storage unit, with respect to one embodiment of the time-series data platform of FIG. It is a block diagram.
  • the time series store device 103 of this embodiment is a processing unit that stores and searches time series data.
  • the time-series store device 103 can be configured by a normal computer, and includes a memory 206, a processor 205, an input / output device 212, and various interface units connected to each other.
  • the interface unit includes a disk interface (I / F) 208, a sensor interface 204, and a user interface 207.
  • the input / output device 212 and the interface unit, and the user terminal 105 may be collectively referred to as the input / output unit of the present system.
  • the storage device 106 and the memory 206 may be collectively referred to as a storage unit.
  • the time series storage device 103 as this processing unit is connected to the sensor 101 via the sensor interface 204, acquires the time series data 201 from the sensor 101, and executes various processes.
  • the time series data used in this embodiment means data that is generated continuously or intermittently with the passage of time.
  • the time-series store device 103 is connected to the user terminal 105 via the user interface 207, receives the search query 202 from the user terminal, and returns the search result 203.
  • the time series store device 103 is connected to the storage device 106 via the disk interface 208, and stores and acquires the time series data 201 from the sensor 101 and the processing result thereof in the storage device 106.
  • the memory 206 is composed of a storage medium such as RAM (Random Access Memory).
  • the input / output device 212 includes an input unit such as a keyboard and a mouse and a display unit such as a liquid crystal monitor.
  • the display unit such as a liquid crystal monitor can be used as a display unit for realizing a GUI (Graphical User Interface) function described later by being integrated with the display unit of the user terminal 105.
  • GUI Graphic User Interface
  • a time series data registration program 209 that accumulates time series data 201, calculates and accumulates feature values, and a time series that searches time series data based on a search query 202 input from the user terminal 105 are stored.
  • the data search program 210 is stored, and has a buffer 211 that is an area in which the time series data 201 and its processing result can be temporarily stored.
  • each process of the time-series data registration program 209 and the time-series data search program 210 which will be described later, is realized by the processor 205 executing these programs stored in the memory 206.
  • these processes can be realized by hardware by integrating a part or all of them into an integrated circuit.
  • the user terminal 105 is a user terminal that requests the time-series store apparatus 103 to execute a search, transmits a search query 202 indicating a search request, and receives a search result 203.
  • the user terminal 105 also performs an instruction to store the time series data 201 and various settings related to data management.
  • the user terminal 105 has a computer configuration that similarly holds a processor, a memory, and an input / output device.
  • the user terminal 105 may be configured by the same device as the time series store device 103, for example, a first-generation computer.
  • the storage device 106 includes a feature index 213 that manages similar feature sections in a tree structure, a feature section data table 214 that stores feature quantities of time series data, a time series data table 215 that stores time series data, and a feature quantity calculation method And a fact table 216 for managing classifications meaningful to the user as facts.
  • a feature index 213 that manages similar feature sections in a tree structure
  • a feature section data table 214 that stores feature quantities of time series data
  • a time series data table 215 that stores time series data
  • a fact table 216 for managing classifications meaningful to the user as facts.
  • a feature index 213 that manages similar feature sections in a tree structure
  • a feature section data table 214 that stores feature quantities of time series data
  • a time series data table 215 that stores time series data
  • a fact table 216 for managing classifications meaningful to the user as facts.
  • the tables 214, 215, 216, etc. are described as relational database tables, for example,
  • FIG. 3 is a diagram showing an example of the structure of the time series data 201 from the plurality of sensors 101 in FIG.
  • the time-series data has a structure in which sensor observation values acquired from sensing devices, facilities and equipment indicate the observation time and the observation sensor.
  • an observation time 301 that changes in units of seconds and a set of zero or more sensor observation values 302 constitute one record 303, and a plurality of such records are arranged.
  • a structure in which the observation time, observation sensor, and observation value are uniquely determined may be used, and the actual data structure can be expressed in a plurality of formats.
  • the time 301 is omitted from all the records 303, and only one start time and one observation interval can be stored in the header of the entire time series data.
  • an identifier for uniquely identifying the observation sensor may be described in the header of the entire time series data, or when the agreement between the sensor 101 and the time series store device 103 is agreed, the observation in the record 303 You may identify a sensor with the appearance position of a value.
  • the column 302 is one column, and when the sensor 101 issues time series data every time observation is performed, the record 303 is one.
  • FIG. 4 is a program configuration diagram showing the relationship between the registration program 209, search program 210, and data 213 to 215 stored in the storage apparatus 106 in FIG.
  • the registration program 209 includes a collection function 401, a classification function 402, and an action function group 403.
  • the time series data coming from the sensor 101 is collected by the collection function 401 in the registration program 209, the feature quantity is extracted by the classification function 402, and classified based on the feature index 213.
  • the rules defined for each classification Accordingly, one of the functions of the action function group 403 is executed.
  • the action function group 403 is a set of functions that can be added in a plug-in format, and includes, for example, a transfer function 408, a registration function 409, an alarm function 410, and an analysis function 411 as shown in FIG.
  • the registration function 409 has a function of registering the feature section data table 214 and the time series data table 215 generated by the classification function 402 in the database.
  • the alarm function 410 has a function of presenting an appropriate user that an abnormality has occurred.
  • the analysis function 411 has a function of requesting an analysis to an analysis program such as FTA (Fault Tree Analysis).
  • the transfer function 408 relates to the second embodiment described in detail with reference to FIGS. 26 and 27, and is one of a plurality of second time-series store devices distributed on the network. Has a function of transferring time series.
  • the search program 210 includes a GUI function 405, a search function 404, an index management function 406, and a time series management function 407.
  • the GUI function 405 is used to present a screen to the user terminal 105 and accept a query from the user terminal.
  • the GUI function 405 can also be used to present a screen on the display unit of its own input / output device 212.
  • the search function 404 has a function of searching for time series data by specifying a sensor identifier and time, and a function of searching for similar time series data.
  • the index management function 406 has a function of assigning a label that is meaningful to a human to the classification of the feature index and defining an action.
  • the time series management function 407 has a function for performing life cycle management such as accuracy reduction, distributed arrangement, and deletion of time series data according to the feature index.
  • FIG. 5 is a program configuration diagram showing detailed functional blocks of the classification function 402 in the registration program 209 of FIG.
  • the classification function 402 includes a feature section extraction function 503, a clustering function 504, and an action execution function 506.
  • the time-series data 501 input from the collection function 301 is processed into feature amounts in accordance with the feature extraction rules 216 in the feature section extraction function 503, and is divided into feature section data described later with reference to FIG.
  • the feature extraction rule 216 is described in a script language, and the feature section extraction function 503 is a script parser that interprets and executes the feature extraction rule 216.
  • the feature section data generated by the feature section extraction function 503 is classified with reference to the feature index 213 by the clustering function 504.
  • the feature index 213 takes a tree structure in which all feature sections registered so far in the system are hierarchically clustered as will be described in detail later with reference to FIG.
  • the feature index in this embodiment is a tree structure in which feature intervals are clustered hierarchically, the similarity between the obtained feature interval clusters is a branch cluster, and an identifier for identifying the feature interval is a leaf cluster.
  • the newly arrived feature interval data 602 is compared in similarity with the time series pattern of the feature interval data registered in the feature index 213, and is absorbed in the most similar cluster, or the feature index as new feature interval data. Added to the tree structure. Note that the similarity of time series patterns between the feature interval data in the feature index and the arrived feature interval data is calculated by the similarity calculation function 505 in FIG.
  • the action execution function 506 acquires an action 502 to be executed from a fact table 217 described later in FIG. 8 according to a rule described later in the feature index, calls one of the functions of the action function group 403, and sets the action 502 to Execute.
  • FIG. 6 is a conceptual diagram schematically showing an example of the operation of the feature section extraction function 503 in FIG.
  • the feature section extraction function 503 sequentially inputs continuous time series data 601 and converts it into feature quantities representing the features of the time series data 601, and further into a feature section 603 divided by a start time Ts 606 and an end time Te 607.
  • the operation of dividing is performed.
  • the calculation formula of the feature amount may vary depending on the target field, but the following method can be taken as an example.
  • the variance ⁇ per minute of the time-series data in seconds is calculated, and values whose values are below the threshold 604 in the value direction are removed. Then, division is performed when there is no value exceeding the threshold 604 in the period of the threshold 605 in the time direction.
  • time-series data As another example, it is possible to divide time-series data into fixed sections and use data of a specific level that has been subjected to Wavelet transform as a feature amount.
  • data obtained by converting time-series data into feature quantities and further dividing the data into feature sections will be referred to as feature section data.
  • FIG. 7 is a diagram showing an example of the structure of the feature index 213 stored in the storage apparatus 106 of this embodiment and used by the clustering function 504.
  • the feature index 213 takes a binary tree structure similar to a structure known as a dendrogram in the hierarchical clustering technique, and can be stored in, for example, an XML (Extensible Markup Language) language on the storage.
  • the feature index 213 has a recursive structure in which two branch clusters or leaf clusters are connected below the single root cluster 701, and two other branch clusters or leaf clusters are connected below the branch cluster 702. I take the.
  • Child clusters, descendant cluster groups, parent clusters, ancestor cluster groups, and sibling clusters are used in the following meanings.
  • a “child cluster” for a cluster is one of two clusters connected downward to the cluster.
  • the “descendant cluster group” is all cluster groups that recursively include the child cluster and the child clusters of the child cluster.
  • a “parent cluster” is a cluster connected above the cluster.
  • the “ancestor cluster group” is all cluster groups that recursively include the parent cluster and the parent cluster of the parent cluster.
  • the “sibling cluster” means a cluster different from the cluster having the same parent cluster as the cluster.
  • the leaf cluster 703 in FIG. 7 represents a cluster that is a set of similar feature sections, and includes a CID 704 that is an identifier for uniquely identifying the leaf cluster, and a leaf attribute 705.
  • the leaf attribute 705 includes an absorption threshold value D 711 that is a threshold value that regards the feature interval in the leaf cluster as similar, a registered number n 712 that is the number of feature intervals registered in the leaf cluster, and a feature interval that represents the leaf cluster.
  • a leaf cluster can have zero or more FIDs.
  • the branch cluster 702 represents a hierarchical cluster in which leaf clusters are recursively collected according to the similarity, and includes a CID 706 that is an identifier for uniquely identifying the branch cluster and a branch attribute 707.
  • the branch attribute 707 has a similarity D 708 that is the similarity between two partial clusters held by the branch cluster, a CID 709 of a leaf cluster that represents the branch cluster, and an FID 710 that is an identifier to the fact table.
  • a leaf cluster can have zero or more FIDs.
  • the root cluster 701 is a leaf cluster in the initial stage, and becomes a branch cluster when a plurality of leaf clusters are registered.
  • FIG. 8 is a diagram showing an example of the structure of the fact table 217 used in the action execution function 506.
  • the fact table 217 manages classifications meaningful to the user as facts.
  • One row of the fact table is called a fact.
  • Each fact is composed of an FID 801 which is an identifier uniquely indicating the fact, a label 802 of this classification, and an action 803 to be executed on the fact, which will be described later.
  • the label 802 is “abnormal start A”
  • the action 803 describes, for example, “alert issue with importance A rank”.
  • the action 803 is described in a script language, and the action execution function 506 is a script parser that interprets and executes the action 803. Details will be described later with reference to FIG.
  • the clustering function 504 in the time series data management system of the present embodiment shown in FIG. 5 will be described using the flowchart of FIG.
  • feature section data 602 is input, it is determined to which leaf cluster of the feature index 213 the feature section 603 belongs, and an action corresponding to the determined leaf cluster is executed. If there is no corresponding leaf cluster, a new branch cluster and leaf cluster are inserted into the feature index 213, and actions corresponding to the ancestor cluster group are sequentially executed.
  • Step 1 to Step 9 will be described in detail.
  • Step 1> Search for Similar Leaf Clusters For all the leaf clusters 703 in the feature index 213, the similarity with the input feature section 603 is calculated, and the leaf cluster 703 with the smallest similarity is selected as the similar leaf cluster.
  • the similarity calculation is obtained by inputting the feature section data indicated by IID 713 of the representative section of the leaf attribute 705 of the leaf cluster 703 and the feature section data 602 to the similarity calculation function 505.
  • the similarity is a positive value, and the closer the value is to 0, the more similar.
  • Step 2 Leaf cluster absorption determination If the similarity between the leaf cluster selected in Step 1 and the input feature section 603 is smaller than the absorption threshold D 711 of the leaf cluster, the input It is determined that the feature section has been absorbed by the leaf cluster, and the process proceeds to Step 5.
  • Step 3> Insert Edge Search In this step, it is searched in which edge cluster of the feature index the input feature section 603 is inserted.
  • the cluster inclusion determination is recursively performed for each branch cluster 702 from the parent cluster to the root cluster 701 of the leaf cluster selected in Step 1, and a branch cluster is inserted below the highest branch cluster included in the cluster.
  • a plurality of algorithms for determining cluster inclusion can be considered.
  • the first method when the similarity between the leaf cluster selected in Step 1 and the input feature section is smaller than the similarity D of the branch cluster, it is assumed that the cluster is included in the cluster.
  • the second method it is assumed that the similarity between the branch cluster to be included in the inclusion determination and the input feature section is included in the cluster when the similarity is lower than the similarity of the parent cluster of the corresponding branch cluster.
  • Equation 1 When the child cluster is a leaf cluster, the similarity between the child cluster and the input feature section can be calculated using the similarity calculation function 405 by the method of step 1. Further, the number of stored data of the branch cluster can be calculated by the total value of the registered number 712 of the leaf cluster which is the descendant cluster.
  • Branch cluster insertion In this step, branch clusters are inserted. A subtree of the feature index is shown at 701 in FIG. In the tree structure 701, the branch cluster a is the “highest branch cluster included in the cluster” calculated in Step 3, and the leaf cluster calculated in Step 1 exists in the descendant cluster of the cluster b. In the branch cluster insertion operation, a leaf cluster e is generated, a branch cluster d having the leaf cluster e and the branch cluster b as children is generated, and the cluster b and the branch cluster d that are children of the cluster a are replaced with each other. Structure 702 is obtained. As an attribute of the leaf cluster e, the absorption threshold value 511 in FIG. 5 stores an initial value given in advance, and the registration number 512 stores 1. In addition, a value that does not overlap with existing feature section data is generated as the IID of the input feature section data and stored in the representative section IID 513. FID 514 stores an empty set.
  • Step 5 Action execution of unknown leaf cluster
  • the FID value set in advance for the feature index (not shown in Fig. 7) as fact information corresponding to the unknown leaf cluster
  • the fact is searched from the corresponding fact table 217 and the corresponding action is executed.
  • Step 6 Execution of leaf cluster action If the FID 714 of the leaf cluster determined to be absorbed in Step 1 or the newly created leaf cluster e in Step 4 is not an empty set, all registered FIDs are stored in the fact table. Search from 217 and execute the corresponding action.
  • the cluster i taking the smallest value in the set of the following formulas that calculates the sum of the distances from other feature intervals is used as the representative leaf.
  • nj is the number of stored feature sections of cluster j
  • dij is the distance between clusters i and j.
  • the similarity D is recursively calculated as the distance between the representative leaf clusters of the two child clusters by the similarity calculation function 405 using the following equation.
  • Step 9 Recursive processing Steps 7 and 8 are repeated up to the root cluster.
  • FIG. 10 is a diagram for explaining the operation of the similarity calculation function 505 of the present embodiment shown in FIG.
  • DTW Dynamic Time Warping
  • DP matching dynamic programming
  • the similarity for each frame for example, the difference between the values and average values in that frame is used. Then, from the lower left matrix element of the matching matrix 1003 that is the start point of the time series A 1001 and the start point of the time series B 1002, to the upper right matrix element in FIG. 7 that is the end point of the time series A 1001 and the end point of the time series B 1002
  • the route selection is limited to moving in the diagonal, right, and upward directions.
  • a black matrix element in FIG. 7 is one of the paths.
  • the cost of the route is the sum of the similarity of the path-like matrix elements and the diagonal, right, and upward movement penalties, and the right and upward movement penalties are used in the diagonal direction as a penalty for time series expansion and contraction. Have a value greater than the movement penalty.
  • the route having the lowest cost is set as the optimum route, and the route cost is set as the similarity between the time series A 1001 and the time series B 1002.
  • FIG. 11 is a program configuration diagram showing detailed functional blocks of the registration function 409 in FIG.
  • the registration function 409 has two functions, a feature section registration function 1102 for registering the feature section data 214 and a time series registration function 1103 for registering the time series data 215.
  • the action 502 issued by the action execution function 506 of the classification function 402 in FIG. 5 is interpreted by the action execution function 1101 and executes feature section registration 1102, time series registration 1103, or both.
  • the time series registration function 1103 uses the lossy compression function 1104 at the time of registration, and performs lossy compression with reduced precision of the time series data with the precision specified by the action.
  • FIG. 12 is a diagram showing an example of the structure of a table for managing the feature section data 214 and the time series data 215 stored in the storage device 106.
  • the feature section data 214 and the time series data 215 are managed by the same record 1208 on the same table.
  • the feature section data 214 and the time series data 215 are managed as separate tables, that is, a feature section management table and a time series data management table. It doesn't matter.
  • this table one record is stored for a time series section which is a feature section.
  • Record 1208 includes an identifier SID 1201 that uniquely identifies a sensor, a CID 1202 that uniquely identifies a leaf cluster in the feature index 213 into which the feature section is classified, an IID 1203 that uniquely identifies the feature section itself, and a feature section.
  • the feature section management table stores at least IID 1203 for uniquely identifying the feature section itself, feature section start time Ts 1204, feature section end time Te 1205, and feature section data 1206.
  • the time series data 1207 is obtained by dividing the time series data 601 of FIG. 6 in the range from the start time Ts 606 to the end time Te 607, and the feature section data 1206 is the feature section data 602 of FIG. Therefore, IID 1203 is an identifier of the feature section 603 in FIG.
  • the feature interval data 1206 and the time series data 1207 are stored as a time series block in the BLOB (Binary Large Object) format of the relational database.
  • the time series block may be managed by a file system outside the database as a file identified by the file name. Examples 1209 and 1210 of the data structure of the time series block are shown in the lower part of FIG. If the observation interval of time series data is a fixed value such as 1 second interval and is defined by the system, the structure of the time series block is, for example, that only the float type observation values are stored continuously in Example 1209 It can take such a structure.
  • Example 1210 in which the time series data is represented by a pair of relative seconds and observation values from the previous observation value.
  • the structural examples 1209 and 1210 may be further reversibly compressed using an existing data compression function such as gzip or lzma.
  • time series block may be irreversibly compressed by the irreversible compression function 904 and managed by the structural examples 1209 and 1210, and further this is reversibly compressed by using an existing data compression function such as gzip or lzma. It doesn't matter.
  • FIG. 13 is a program configuration diagram showing detailed functional blocks of the search function 404 of FIG.
  • the search function 404 called from the GUI function 405 includes a time specification search function 1302 for searching the corresponding sensor and the time series data 215 of the time range by specifying the sensor identifier SID 1201 and the time range, and the time range and similarity threshold value.
  • a similarity search function 1301 is provided that searches for a set of time-series patterns that are specified and are similar to the time-series data pattern within the corresponding time range and less than the similarity threshold.
  • the similarity search function 1301 uses a feature index 213, feature interval data 214, and a time designation search function 1302.
  • FIG. 14 is a similar case search screen, which is an example of a screen image provided by the GUI function 405 of the present embodiment.
  • the operation of the search function 404 will be described using FIG.
  • Graph 1401 is a graph of time-series data acquired by the timed search function 1302.
  • the maintenance manager selects the time range 1402 with the mouse 1403, designates the similarity threshold with the slide bar 1404, and then presses the similarity search button 1405.
  • a plurality of time series patterns 1406 similar to the lower part of the screen are displayed as a graph.
  • a case report display button is displayed. By pressing the case report display button, the maintenance person can call up the corresponding case report 1407 on the screen.
  • the maintenance staff can efficiently access past cases similar to the current abnormal pattern, so that a maintenance action plan based on the past cases can be made quickly. It becomes like this.
  • ⁇ Step 1> Search for Feature Sections
  • the feature section records existing in the user-specified time range are Search and obtain CID 1202 and IID 1203.
  • Step 2> Search for leaf cluster A leaf cluster that matches the CID acquired in Step 1 is acquired from the feature index 213 in FIG.
  • Step 3 Branch cluster search Starting from the leaf cluster acquired in Step 2, the parent cluster is recursively acquired, and the highest level branch whose branch cluster similarity D 708 does not exceed the similarity threshold specified by the user Search for clusters.
  • Step 4 Search for Similar Leaf Clusters All leaf clusters that are descendant clusters of the branch cluster acquired in Step 3 are searched, and all the CIDs 704 are acquired.
  • Step 5 Acquisition of start / end time of feature interval All feature interval records having all CIDs acquired in Step 4 are searched from the feature interval time series table of FIG. 12, and the start time 1204 and end time 1205 are obtained. get.
  • Step 6 Acquisition of time series data By comparing the start time 1204 and end time 1205 of the time series table in FIG. 12 with the set of search result time ranges acquired in Step 5, it exists in the search result time range. All time series data is acquired and displayed in a graph. Thereby, a set of similar time series patterns 1406 at the bottom of the screen of FIG. 14 can be displayed.
  • FIG. 16 shows an example of the structure of the case report management table 1601 for managing the failure case report used in FIG.
  • the case report management table 1601 functioning as a failure case management table includes a time 1602, an FID 1603 indicating the type of abnormality, and a URL (Uniform Resource Locator) 1604 that is a pointer to access the case report of the case.
  • URL Uniform Resource Locator
  • FID 1603 is the same as the FID 801 of the fact table 217 in FIG. 8, and an abnormal label 802 can be acquired by referring to the fact table 217 using this FID as a key.
  • the case report corresponding to the time series data of the searched feature section by comparing the start time and end time of the feature section record acquired in Step 6 in Fig. 15 with the time 1602 of each record in the case report management table 1601 If the book exists, it can be displayed. As a result, when a failure is found, it is possible to examine the similar pattern of the time-series data of the feature section and determine an action with reference to a case report for the similar pattern.
  • FIG. 17 is a program configuration diagram showing detailed functional blocks of the index management function 406 of FIG.
  • the index management function 406 called from the GUI function 405 updates the feature index 213 and the fact table 217 in accordance with a user operation.
  • the index management function 406 is an index visualization function 1701 that visualizes the feature index 213 as a tree structure graph, and registers, deletes, and repositions the facts managed by the FIDs 710 and 714 in each branch cluster and leaf cluster on the feature index.
  • the normal range calculation function 1706 for automatically setting the absorption threshold and the abnormal range calculation function 1705 for automatically setting the abnormal range from the case report management table of FIG.
  • FIG. 18 shows a feature index display screen, which is an example of a screen image generated by the index visualization function 1701 and displayed by the GUI function 405.
  • FIG. 18 shows the structure of the feature index 213 defined in FIG. 7 as it is visualized with a tree structure graph. A structure in which a branch cluster and a leaf cluster are displayed under the root cluster 1801 is taken.
  • similarity 708 is displayed on the screen as branch cluster information and CID 704 is displayed as leaf cluster information.
  • any attribute selected by the user may be displayed.
  • rectangular portions 1802, 1803, 1804, and 1805 indicated by broken lines surround a branch cluster in which values are stored in the FID and all descendant clusters, and represent a set classified by the fact table 217.
  • Each of the fact table labels 802 in FIG. 8 may be displayed, or the number of sets classified in the fact table may be displayed. The number of sets can be calculated by adding up the registered number 712 of all leaf clusters that are descendant clusters of the branch cluster whose value is stored in the FID.
  • graphs 1806, 1807, and 1808 of feature sections representing the sets classified by the fact table may be displayed.
  • the graphs 1806, 1807, 1808 obtain the representative leaf cluster CID 709 from the branch cluster 702 in which the fact is registered, search for the leaf cluster 703 having the CID, and obtain the representative interval IID 713 of the leaf cluster It is obtained by acquiring a record having the corresponding IID from the feature section data table 214 of FIG. 12, acquiring time-series data from the time-series data table using the start time / end time of the record, and drawing the graph. .
  • the fact position management function 1702 By applying the fact position management function 1702 to the branch cluster or leaf cluster selected by the user or the like on the feature index display screen, the fact can be registered / deleted. Further, the label 802 and the action 803 of the fact table in FIG. 8 can be edited. In addition, the fact registered in the branch cluster can be moved to the position of the upper or lower branch node. As a result, the time series analyst can assign labels such as a normal start pattern, a normal stop pattern, and an abnormal start pattern to the time series patterns automatically classified according to the degree of similarity by the classification function 402, and further measures are not required. It is necessary to take countermeasures, and actions such as issuing warnings to maintenance personnel can be given.
  • the absorption threshold management function 1703 By applying the absorption threshold management function 1703 to the branch cluster selected by the user with the mouse or the like on the feature index display screen, it is possible to instruct that a more detailed classification than the branch cluster is unnecessary. Function 1703 replaces the specified branch cluster with a leaf cluster.
  • the absorption threshold 711 of the leaf cluster is the similarity 708 of the designated branch cluster.
  • the fact position management function registers, deletes, and changes the position of the fact managed by the FIDs 710 and 714 in each branch cluster and leaf cluster on the feature index.
  • a time series analyst 1906 is always alerted when an unknown abnormal pattern occurs, and the time series analyst 1906 warns the maintenance staff 1907 whether the unknown pattern is a normal pattern.
  • a warning is issued to the maintenance staff 1907 for subsequent similar patterns. This makes it possible to collect comprehensive abnormal cases and update diagnostic rules on a daily basis.
  • ⁇ Case 1> When time series pattern A is passed from collection function 401 to classification function 402, if the corresponding pattern is not registered in feature index 213, as shown in Step 5 of FIG. , Unknown leaf cluster A is registered, and the action for the unknown leaf cluster is executed.
  • an action when an unknown leaf cluster located in the descendant of a branch node for which no fact is defined is registered, it is defined that an alarm is issued to the user terminal 105 of the time series analyst 1906.
  • An unknown pattern warning is issued to the time series analyst 1906.
  • the time series analyst 1906 displays the feature index screen shown in FIG. 18 using the GUI function 405, and registers the fact that the time series pattern A is a normal pattern at the position of the leaf cluster A in the area 1901.
  • the feature index changes as in a region 1902 and an unknown pattern warning is issued to the time series analyzer 1906 again.
  • the time series analyst 1906 moves the fact information from the position of the leaf cluster A to the common branch of the leaf cluster A and the leaf cluster A ′. By repeating this multiple times, the unknown abnormality alarm is not issued when the similar pattern A ′′ arrives.
  • the absorption threshold value management function 1703 in FIG. 17 will be described with reference to FIG.
  • the absorption threshold value management function 1703 is used for the user to instruct that further classification is unnecessary.
  • the absorption threshold management function 1703 replaces the branch cluster 2001 specified by the user with the newly generated leaf cluster 2003.
  • the absorption threshold D 2011 of the leaf cluster 2003 is substituted with the similarity D 2004 of the branch cluster 2001.
  • the registration number n 2012 stores the total value of the registration numbers n of all leaf clusters of the descendant cluster group of the branch cluster 2001.
  • the representative section IID 2013 stores the representative section IID of the leaf cluster indicated by the representative leaf CID 2005 of the branch cluster 2001.
  • FID 2014 stores the FID 2006 of the branch cluster 2001.
  • FIG. 21 is a rule of fact position movement applied by the abnormal range calculation function 1705.
  • FIG. 22 shows a flowchart for applying the rule of FIG. 21 in this embodiment.
  • Step 2 Acquisition of CID
  • the corresponding characteristic section data is acquired by comparing the start time 1204 and end time 1205 of the characteristic section data table 214 in FIG. 12 with the time acquired in Step 1, and CID 1202 is acquired. To do.
  • Step 3 Registration of FID
  • the leaf cluster having the CID acquired in Step 2 is searched from the feature index 213 in FIG. 7, and the FID 1603 of the record obtained in Step 1 is stored as the FID 714 of the leaf cluster.
  • Step 4 FID duplication determination When FIDs with different values are already registered in the leaf cluster searched in Step 3, Steps 5, 6, and 7 are executed.
  • Step 5 Acquisition of existing feature section data Feature section data corresponding to the FID already registered in Step 4 is acquired. Specifically, the time 1602 corresponding to the corresponding FID is acquired from the case report management table 1601 in FIG. 16, and the corresponding feature section is compared with the start time 1204 and end time 1205 in the feature section data table 214 in FIG. Get the data.
  • Step 6> Calculation of similarity The similarity is calculated by evaluating the feature interval data acquired in Step 5 and the feature interval data acquired in Step 2 by the similarity calculation function 505 in FIG.
  • Step 7 Reconstructing the feature index All feature interval data having the CID acquired in Step 2 is acquired from the feature interval data table 214, and difference clustering is performed using the clustering function 504 shown in FIG. Replace with leaf cluster. At that time, the absorption threshold value 511 in Step 4 of FIG. 9 is set as the similarity acquired in Step 6. By Steps 5, 6, and 7, the rule of Case 1 in FIG. 21 can be realized.
  • Step 8> Get a set of leaf clusters with the same FID for the feature index.
  • Step 9 Search for branch clusters Search the first branch cluster with a common ancestor by recursively tracing the parent cluster of each leaf cluster.
  • Step 10 Reference all leaf clusters in the descendant cluster group of the branch cluster searched in Step 9, and determine whether there is a leaf cluster whose FID is different from the FID obtained in Step 3.
  • Step 13> Repeat Step 9-12 for all leaf cluster sets obtained in Step 8.
  • the normal range calculation function 1706 extracts normal data with low importance from the feature index.
  • it is known as an empirical rule, Pareto's law, 80:20 rule that a large number of factors are determined by a small number of factors, such as "80% of all defects are caused by 20%" It has been.
  • this rule is applied to the calculation of the normal range.
  • ⁇ Step 1> Increase threshold TH Start the threshold TH from 0 and increase it at fixed intervals.
  • Step 2> Extraction of Branch Cluster Exceeding the Threshold TH The lowest-order branch cluster of the feature index 213 whose similarity D exceeds the threshold TH is extracted. Specifically, if all the lower branch clusters are searched from the root cluster of the feature index 213 and a branch cluster whose similarity D 708 is lower than the threshold TH is found, the branch search is terminated, and the branch cluster is terminated. Add the parent cluster to the list.
  • Step 3> Extract the top 20% branch clusters
  • the set of branch clusters acquired in Step 2 is sorted by the number of feature interval data classified into branch clusters, and the top 20% branch clusters are extracted.
  • the number of feature interval data classified as branch clusters is obtained by summing the registered number n 712 of all leaf clusters that are descendant clusters of branch clusters.
  • Step 4> Calculation of content ratio N Calculate the content ratio N by summing the number of feature interval data classified in the branch cluster set acquired in Step 3 and dividing by the total number of feature interval data registered in the feature index. To do.
  • Step 5> Determination If the content ratio calculated in Step 4 is less than 80%, return to Step 1.
  • Branch cluster removal The branch cluster group in which the number of feature section data classified into branch clusters is smaller than a predetermined threshold is removed from the branch cluster set acquired in Step 3.
  • the absorption threshold management function 1703 By applying the absorption threshold management function 1703 to the branch cluster group calculated by the algorithm of FIG. 23 and replacing the similarity D 708 of each branch cluster with the leaf cluster having the absorption threshold D 711, the importance is low It is possible to automatically reduce the number of feature index branch clusters registered for normal data.
  • the fixed values 80% and 20% are used for explanation, but this value may be any value defined in advance by the system.
  • FIG. 24 is a program configuration diagram showing detailed functional blocks of the time series management function 407 of FIG.
  • the time series management function 407 called from the GUI function 405 updates the time series data 215 by moving / deleting / reducing accuracy in accordance with a user operation.
  • the time series management function 407 uses the time series movement function 2401 for moving the time series data 215 to another system, the time series deletion function 2402 for deleting past unnecessary time series data, and the irreversible compression function 1104 for the past unnecessary. It comprises a time series update function 2403 that reduces the accuracy of accurate data.
  • the time series deletion function 2402 stores the time series data 215 having the CID 704 of the corresponding leaf cluster 703 when “deleted after the specified period” is described for the leaf cluster 703.
  • the corresponding time series data 215 is deleted.
  • the conventional life cycle management function deletes all time-series data after the specified period, but according to this method, only the less important data is selectively deleted according to the characteristics of the time series. Therefore, there is an effect of not deleting past cases such as abnormal patterns.
  • time series deletion function 2402 If the time series pattern targeted by the time series deletion function 2402 is applied to the leaf cluster calculated by the normal range calculation function 1706 described in FIG. 23, 80% of all data older than the deletion target time is deleted. Because it is a target, it has the effect of reducing storage capacity.
  • time series update function 2403 The operation of the time series update function 2403 will be described with reference to FIG.
  • the fact table 217 shown in FIG. 8 indicates that “irreversible compression after the specified period has elapsed” in the fact table 217 shown in FIG. 8, the time series update function 2403 has time series data having the CID 704 of the corresponding leaf cluster 703. If 215 is extracted from the time series data table shown in FIG. 12 and the end time 1205 is older than the current time, the appropriate error tolerance is calculated from the corresponding time series data 215 and the time series data is irreversible. Compress.
  • ⁇ Step 1> Increase error tolerance TH
  • the error tolerance TH starts from 0 and is increased at a fixed interval.
  • Step 2 Lossy compression
  • the lossy compression of the time-series data belonging to the leaf cluster 703 is performed with the error tolerance TH calculated in Step 1.
  • the lossy compression method includes, for example, a linear approximation compression method in which the observed values at three points can be approximated by a straight line with an error less than or equal to a threshold, but there is no limitation on the compression method such as Wavelet compression.
  • Step 3> Calculation of similarity d
  • the time-series data compressed irreversibly in Step 2 is expanded again and converted into feature interval data by the feature interval extraction function 503 in FIG. 5, and the IID 713 of the representative interval of the leaf cluster 703
  • the similarity d with the feature section data indicated by is calculated by the similarity calculation function 505.
  • Step 4 Similarity Comparison
  • the similarity d calculated in Step 3 is compared with the absorption threshold D 711 of the leaf cluster 703. If the similarity d is smaller than the absorption threshold D, Step 1 is executed again.
  • Step 5 Lossy compression Compress time-series data using the error tolerance TH calculated in Step 2.
  • the conventional life cycle management function irreversibly compresses all time-series data that has passed a specified period with a certain error tolerance, whereas this method uses less important data according to the characteristics of the time series. Can be selectively irreversibly compressed, and can be compressed by changing the allowable error rate according to the variation of the time series pattern.
  • FIG. 26 shows an overview of a time-series data management system in which a plurality of second time-series store devices 2601 and second storage devices 2602 are connected to the first time-series store 103 in the time-series data platform of FIG. It is a block diagram.
  • a large amount of time-series data can be distributed and managed by distributing a plurality of time-series store devices.
  • the configuration of the second embodiment will be described in comparison with the configuration of the first embodiment.
  • the time-series moving function 2401 displays the branch corresponding to the branch cluster 702 in the action 803 of the fact table 217 shown in FIG.
  • the cluster 702 and its descendant clusters are moved to the second time-series store device 2601.
  • all time series data 215 having CID 704 of all leaf clusters 703 that are descendant clusters of the branch cluster 702 are extracted from the time series data table shown in FIG.
  • the data table is extracted and moved to the second time-series store device.
  • FIG. 27 is a schematic diagram showing the structure of the feature index 213 stored in the time-series store device 103 and the second time-series store device 2601.
  • the upper diagram of FIG. 27 shows the structure of the characteristic index of the time-series store apparatus 103 before division, that is, the first embodiment.
  • the branch cluster 2701 before the division is replaced with the leaf cluster 2702, and the branch cluster 2701 and its descendant clusters are moved to the second time-series store device 2601.
  • the rule for replacing the branch cluster 2701 with the leaf cluster 2702 is the same as the operation of the absorption threshold value management function 1703 shown in FIG.
  • the FID of the newly created leaf cluster 2702 is registered with the FID of the fact that “transfers time-series data to the specified time-series store device”.
  • the transfer function 408 will be described with reference to FIG.
  • the action issued by the action execution function 506 in FIG. 5 is “transfer time-series data to the specified time-series store device”
  • the transfer function 408 of the action function group 403 is executed.
  • the time series data that has arrived at the collection function 401 of the first time series store 103 is transferred to the second collection function in the second time series store device 2601.
  • the second classification function 402 performs classification using the second feature index having the branch cluster 2703 as a root cluster
  • the second action function group 403 function for example, the analysis function 411 performs processing.
  • the branch nodes to be divided are the branch node group calculated by the normal range calculation function 1706 described with reference to FIG. 23 and other nodes, so that the time series of normal patterns with high occurrence frequency and low importance are obtained. It is possible to distribute the data and the time series data of other patterns with high importance to different second time series store devices. Thereby, it is possible to balance the load of the time-series store device. As described with reference to FIG. 23, 80% time-series data arrives at the time-series store device to which normal pattern time-series data with low importance is transferred, and data registration processing is performed. On the other hand, for the time series data other than the normal pattern, the remaining 20% of the time series data arrives, thereby lowering the registration load.
  • time series analysts and maintenance staff tend to have more search queries for time series data of abnormal patterns.
  • time-series data store device in which an abnormal pattern arrives, it is possible to contribute to the load balance for executing the analysis function 411 having a high processing load.
  • this invention is not limited to the above-mentioned Example, Various modifications are included.
  • the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described.
  • each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit.
  • the above configurations, functions, and the like have been described by exemplifying the case where they are realized by software by executing the programs that realize the respective functions. It can be stored not only in memory, but also in recording devices such as hard disks and SSDs (Solid State Drive), or recording media such as IC cards, SD cards, and DVDs, and can be downloaded and installed via a network as necessary. It is also possible to do.

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

大規模時系列データを特徴に応じて分類管理して,異常パタンの発見や管理を容易にし,管理,時系列データの精度低減・削除・分割システムへの移動等の重要度別のライフサイクル管理を行うことを可能とする。収集機能(401)はセンサ(101)から時系列データを収集し,分類機能(402)では,特徴区間抽出により特徴に応じた特徴区間に分割し,類似度算出により特徴区間同士の類似度を算出することにより,特徴区間の階層クラスタリングを行う。すなわち,特徴区間の出現頻度から平常区間と重要度の高い異常区間に再分類,障害事例から異常区間を再分類,或いはユーザに未知異常パタンの分類を行わせる。そして,分類結果に応じて警報機能により警報を発行し,日常的な漏れのない対策を行わせたり,時系列データの精度低減・削除・分割システムへの移動を行わせたりする。

Description

時系列データ管理システム,および方法
 観測値時系列データから異常予兆や異常原因を推測する予防保全システム,特に装置に配備された多数のセンサからの観測値時系列データの管理・解析技術に関する。
 プラント保全システムの実装形態として,環境に配備された多数のセンサからの観測値時系列データを収集し,履歴として管理する時系列データ管理システムや,時系列データ管理システム上で構築され,管理された時系列データを解析し,異常予兆の検知や異常原因の推定を行う時系列データ解析システムが存在する。
 大量の時系列データを管理するために時系列データ管理システムが備えるべき機能として,時系列を可逆ないし非可逆圧縮してデータ量を削減する機能,時系列データを複数のストレージやサーバに分散管理する機能,重要度の低い時系列データを低コストのバックアップストレージやクラウドシステムへ転送する,時間方向のまびき等の精度低減操作を行い,データ量を削減する,過去の不要な時系列データを削除する,などのLCM(Life Cycle Management)機能が提案されている。時系列データの性質を利用した圧縮方式としては,合同な時系列パタンを辞書化して可逆圧縮するLZW(Lempel-Ziv-Welch)圧縮方式,時系列をDCT(Discrete Cosine Transform)ないしWavelet変換を行った結果の高周波成分を除去することによるJPEGやJPEG2000非可逆圧縮方式が提案されている。
 また,時系列データ解析システムは,時系列データをあらかじめ与えられた判定規則を用いて評価することにより異常を検知する,あるいは異常原因を判定するなど何らかの判定を行う時系列データ判定システムと,時系列データから該判定規則を抽出・生成する判定規則生成システムに分類できる。時系列データ判定システムで与えられる判定規則は,たとえば時系列データやその加工データと閾値との超過判定,これらの論理和・論理積で構成されるFTA(Fault Tree Analysis),プラント正常稼働時の時系列をクラスタリングして生成したクラスタ集合を学習データとして管理して,このクラスタ集合からの乖離から異常を判定するクラスタ判定などが存在する。特許文献1,特許文献2では,あらかじめ異常と特定できる時系列パタンを蓄積し,入力時系列とこれらの時系列パタンの類似度を比較することにより,異常を検知し,あるいは異常原因を特定する方式が提案されている。また,判定規則生成システムは,主成分分析,k-means法,階層クラスタ分析,Wavelet解析等の分析アルゴリズムを提供することにより,分析者が試行錯誤で判定規則を生成することを補助する機能を提供している。
特開2007-11686号公報 特開2003-132088号公報
 図28に従来のプラント保全システムの概念図を示す。プラント保全システム2800は,センサからの時系列データを時系列ストアに格納し,診断規則に従い異常の検知を行い,警報を発行することにより,状態基準保全を行うという目的を持つ。
 保全システム2800のユーザは,保全担当者,時系列解析者,システム運用者という三種類に分類される。保全担当者は,保全システムからの警報を受け取り,保全計画の立案を行う。時系列解析者は,未知な障害を解析して,診断規則の作成・更新を行う。システム運用者は,大量の時系列データを管理する保全システム自体のメンテナンスを担当し,データ圧縮・データ移動・データ削除などの時系列データのライフサイクル管理を行う。
 従来の保全システムでは,保全担当者,時系列解析者,システム運用者間の情報共有手段がシステムとして提供されていなかった。未知の異常事例発見が保全担当者の責任範囲となり,保全担当者と時系列解析者間では,保全担当者が異常の誤検知・未検知を発見した時点で,文書やメール等で時系列解析者に解析を依頼するという形式となっていた。しかし一般に,保全担当者は多忙であり,時系列データを日常的に参照して異常パタンを発見することが困難であり,また診断知識に習熟しているわけでもない。そのため,保全担当者が,発生した時系列データの異常パタンを全て網羅的に収集し,タイムリーに時系列解析者に異常事例を報告することができなかった。一方,時系列解析者は,判定閾値の調整や,診断アルゴリズム自体の変更を行い,システム改変という形で診断規則の更新を行っている。そのため,異常発生から診断規則修正までの期間が長期間となり,日常的に診断規則を修正することができなかった。
 また,大量の時系列データを効率的に管理するためには,従来の時間を基準としたライフサイクル管理ではなく,診断に必要となる重要なデータを残し,重要度の低い平常時のデータについてはデータの精度低減による非可逆圧縮,低コストストレージへの移動,データ削除等,状態を基準としたライフサイクル管理が必要となる。しかし,従来,システム運用者は,保全担当者,時系列解析者との情報共有の機会がなく,時系列解析結果をシステム運用者にフィードバックする手段が存在しなかった。そのため,システム運用者は,全てのデータの精度低減・削除等を全く行わないか,あるいはシステム構築時に決定したLCM(Life Cycle Management)規則に従い,たとえば秒単位のデータは1日分保存し,それ以降は分単位のデータに間引いて3ヶ月保存し,それ以降は削除する,などの,時間基準でのライフサイクル管理を行っていた。しかし一般にプラントは建設件数がたとえば自動車と比較して少なく,事例収集が困難であるため,重要度の高い異常パタンについては,過去データであっても精度低減や削除を行わずに事例として管理する必要がある。従来ではこの事例収集は,時系列解析者の責任として文書等で管理しており,そのため時間基準のライフサイクル管理により,過去データの事例の収集漏れが発生するという課題があった。
 本発明の目的は,上述した課題を解決し,異常パタンの発見や管理を容易にし,重要度別のライグサイクル管理を行うことを可能とする時系列データ管理システム,およびその方法を提供することにある。
 上記の目的を達成するため,本発明においては,処理部と記憶部とを備え,時系列データを管理する時系列データ管理システムであって,処理部は,時系列データを特徴区間に分割し,記憶部に,当該特徴区間のデータ,開始時刻,終了時刻,特徴区間を識別する識別子とを管理する特徴区間管理テーブルを形成し,特徴区間同士の類似度を算出し,算出した特徴区間の類似度に応じて,特徴区間を階層的にクラスタリングし,得られる特徴区間のクラスタ間の類似度を枝クラスタに,当該特徴区間を識別する識別子を葉クラスタに持つ木構造の特徴インデクスを構成することにより,時系列データを管理する時系列データ管理システムを提供する。
 また,上記の目的を達成するため,本発明においては,処理部と入出力部とを備え,時系列データを管理する時系列データ管理システムにおける時系列データ管理方法であって,処理部は,時系列データを特徴区間に分割し,当該特徴区間のデータ,開始時刻,終了時刻,特徴区間を識別する識別子とを管理し,特徴区間の類似度を算出し,算出した特徴区間の類似度に応じて,特徴区間を階層的にクラスタリングし,得られる特徴区間のクラスタ間の類似度を枝クラスタに,特徴区間を識別する識別子を葉クラスタに持つ木構造の特徴インデクスを構成することにより,時系列データを管理する時系列データ管理方法を提供する。
 時系列データを類似度・重要度で分類し,未知異常パタンや既知の重要度の高い異常パタンに対してアクションを実行する手段を提供することにより,漏れのない保全計画の立案や,診断規則の改良を,日常的にかつ対応忘れ等の漏れがなく実行できる。
 また,時系列データを類似度・重要度で分類し,重要度別に時系列データを非可逆圧縮・削除・分散管理等のアクションを定義することが可能となるため,時間基準ではなく重要度等の状態基準でのライフサイクル管理を行うことが可能となる。これにより,診断に必要となる時系列データの蓄積と,大量の時系列データの効率的な管理を両立することが可能となる。
第1の実施例に係る,時系列データプラットフォームのシステムの概要を示すブロック図である。 第1の実施例に係る,時系列ストア装置とストレージ装置の構成を示すブロック図である。 第1の実施例に係る,時系列データの構造を示す図である。 第1の実施例に係る,登録プログラム,検索プログラム,及びデータの構成を示すプログラム構成図である。 第1の実施例に係る,分類機能の構成を示すプログラム構成図である。 第1の実施例に係る,特徴抽出機能の動作の一例を示す概念図である。 第1の実施例に係る,特徴インデクスの構成図である。 第1の実施例に係る,ファクトテーブルの構造を示す図である。 第1の実施例に係る,クラスタリング機能の動作を示すフローチャート図である。 第1の実施例に係る,類似度算出機能の動作を説明する図である。 第1の実施例に係る,登録機能の構成を示すプログラム構成図である。 第1の実施例に係る,特徴区間データ,および時系列データの構造を示す図である。 第1の実施例に係る,検索機能の構成を示すプログラム構成図である。 第1の実施例に係る,GUI(Graphical User Interface)機能が提供する類似事例検索画面の一例を示す図である。 第1の実施例に係る,類似検索機能の動作を示すフローチャート図である。 第1の実施例に係る,事例報告管理テーブルの構造を示す図である。 第1の実施例に係る,インデクス管理機能の構成を示すプログラム構成図である。 第1の実施例に係る,GUI機能が提供する特徴インデクス表示画面の一例を示す図である。 第1の実施例に係る,ファクト位置管理機能の使用方法を示すシーケンス図である。 第1の実施例に係る,吸収閾値管理機能の動作を説明する特徴インデクスの図である。 第1の実施例に係る,異常範囲算出機能の適用するファクト位置移動の規則を説明した図である。 第1の実施例に係る,異常範囲算出機能の動作を説明するフローチャート図である。 第1の実施例に係る,平常範囲算出機能の動作を説明するフローチャート図である。 第1の実施例に係る,時系列管理機能の構成を示すプログラム構成図である。 第1の実施例に係る,時系列更新機能の動作を説明するフローチャート図である。 第2の実施例に係る,時系列データプラットフォームの分散形態におけるシステムの概要を示すブロック図である。 第2の実施例に係る,時系列移動機能の動作を説明する特徴インデクスの図である。 従来のプラント保全システムの概念図である。
 以下,本発明の一実施形態を図面に基づいて説明する。なお,本明細書において,時系列データ管理システムという場合,ネットワークを介して相互に接続される,1個または複数のセンサ,時系列ストア装置,ストレージ装置,及び1個または複数のユーザ端末105で構成されるシステム全体を呼ぶ場合と,時系列ストア装置とストレージ装置からなる構成を呼ぶ場合がある点留意されたい。
 図1は,第1の実施例に係る,時系列データプラットフォームのシステム全体の概要を示すブロック図である。本実施例の時系列データプラットフォームは,1個または複数のセンサ101,時系列ストア装置103,ストレージ装置106,ユーザが使用する1個または複数のユーザ端末105を備え,ネットワーク102,104を介して相互に接続される自毛列データ管理システムである。ネットワークとしては,例えば専用線やいわゆるインターネットなどの広域網,LAN(Local Aria Network)などのローカルなネットワークを用いて良い。
 センサ101は,時間の経過に伴ってデータを発生するものをいう,例えば,プラントの設備や機器に取り付けられたセンサや,データセンタ内のサーバのログ,中央処理部(Central Processing Unit:CPU)やメモリ使用率等のパフォーマンスデータ,RFID(Radio Frequency Identification),自動車や列車等の車両センサ等が考えられるが,これに限定されるものではない。センサ101で発生した時系列データは,ネットワーク102を経由して時系列ストア装置103に入力される。時系列データは,時系列データが発生する毎に入力してもよいし,センサ101側で一時的に蓄積し,例えば1日毎など一定分蓄積された時系列データをまとめて入力してもよい。時系列ストア103は,入力した時系列データを処理した後,ストレージ装置106にデータとして保存する。ストレージ装置106は,図示の様に時系列ストア装置103と直接接続されていてもよいし,ネットワーク経由で接続されていてもよい。ユーザ端末105は,ネットワーク104を介して時系列ストア装置103に対して検索等のリクエストを発行し,センサ101からネットワーク102を介して収集され,ストレージ装置106に蓄積された時系列データを取得する。
 図2は,図1の時系列データプラットフォームの一実施形態に関して,特に時系列データ管理システムの処理部として機能する時系列ストア装置103と,記憶部であるストレージ装置106の構成をより詳細に示すブロック図である。本実施形態の時系列ストア装置103は,時系列データの蓄積と検索を行う処理部である。時系列ストア装置103は,通常のコンピュータで構成でき,相互に接続されたメモリ206,プロセッサ205,入出力装置212,及び各種のインタフェース部からなる。このインタフェース部は,ディスクインタフェース(I/F)208,センサインタフェース204,ユーザインタフェース207を備える。なお,本明細書において,入出力装置212とインタフェース部を,更にはユーザ端末105を纏めて本システムの入出力部と呼ぶ場合がある。同様に,ストレージ装置106とメモリ206を総称して記憶部と呼ぶ場合がある。
 この処理部である時系列ストア装置103は,センサインタフェース204を介してセンサ101と接続され,センサ101から時系列データ201を取得して,各種の処理を実行する。なお,本実施例において用いる時系列データとは,時間の経過に伴って連続または断続的に発生するデータを意味する。また時系列ストア装置103は,ユーザインタフェース207を介してユーザ端末105と接続され,ユーザ端末からの検索クエリ202を受け付け,検索結果203を返戻する。また時系列ストア装置103は,ディスクインタフェース208を介して,ストレージ装置106と接続され,センサ101からの時系列データ201やその処理結果をストレージ装置106に格納し,また取得する。
 メモリ206は,例えばRAM(Random Access Memory)のような記憶媒体で構成される。入出力装置212は,例えばキーボードやマウスなどの入力部,及び液晶モニタなどの表示部で構成される。この液晶モニタなどの表示部は,ユーザ端末105の表示部と一体化されることにより,後で説明するGUI(Graphical User Interface)機能を実現するための表示手段として用いることもできる。
 メモリ206には,時系列データ201の蓄積と特徴量の算出および蓄積を行う時系列データ登録プログラム209と,ユーザ端末105から入力された検索クエリ202に基づいて時系列データの検索を行う時系列データ検索プログラム210が格納されており,時系列データ201やその処理結果を一時的に格納できる領域であるバッファ211を有している。本実施例において,後述する時系列データ登録プログラム209や時系列データ検索プログラム210の各処理は,プロセッサ205が,メモリ206に格納されたこれらのプログラムを実行することにより実現される。ただしこれらの処理は,その一部ないし全てを集積回路化するなどしてハードウェアで実現することもできる。
 ユーザ端末105は,時系列ストア装置103に対して,検索の実行を要求するユーザの端末であり,検索要求を示す検索クエリ202を送信し,検索結果203を受信する。また,ユーザ端末105は,時系列データ201の格納指示や,データ管理に関する各種設定を行うことも行う。ユーザ端末105は,図示していないが,同様にプロセッサ,メモリ,入出力装置を保持したコンピュータ構成を有している。またユーザ端末105は,時系列ストア装置103と同一装置,例えば一代のコンピュータ等で構成されても構わない。
 ストレージ装置106は,類似した特徴区間を木構造で管理する特徴インデクス213,時系列データの特徴量を格納する特徴区間データテーブル214,時系列データを格納する時系列データテーブル215,特徴量算出方法を格納する特徴抽出規則テーブル216,ユーザにとって意味のある分類をファクトとして管理するファクトテーブル217を備える。本実施形態では,処理の対象となるデータを永続的に保持する記憶部として,ストレージ装置106を使用するものを例示して説明するが,記憶媒体としてフラッシュメモリを用いた半導体ディスク装置や,光ディスク装置など,永続的にデータを保持することのできる記憶装置であればどのようなものを用いても構わない。また,テーブル214,215,216等は,例えばリレーショナルデータベースのテーブルとして説明するが,ファイルシステム上に格納された1個ないし複数個のファイルとこれらのファイルにアクセスするためのプログラムなど,テーブルとして表現できる手法であれば,どのようなものをテーブルとして用いても構わない。
 図3は,図2における複数のセンサ101からの時系列データ201の構造の一例を示す図である。時系列データは,センシングデバイスや設備・機器等から取得したセンサ観測値が,その観測時刻と観測センサを示す構造を取る。図3では,秒単位で変化する観測時刻301と,0個以上のセンサ観測値302の集合が1つのレコード303を構成し,このレコードが複数並ぶ,という構成を取る。観測時刻,観測センサ,観測値が一意に決定される構造を取ればよく,実際のデータ構造は複数の形式で表現可能である。例えばセンサ観測間隔が一定間隔であることが保証される場合,全てのレコード303から時刻301を省略し,時系列データ全体のヘッダに開始時刻と観測間隔を1個のみ格納することができる。観測センサについては,時系列データ全体のヘッダに観測センサを一意に識別する識別子を記載してもよいし,センサ101と時系列ストア装置103間で合意が取られている場合,レコード303における観測値の出現位置を持ってセンサを識別してもよい。またセンサ101が単独の観測値しか発行しない場合,列302は1列となり,センサ101が観測を行うたびに時系列データを発行する場合,レコード303は1個となる。
 図4は,図2の登録プログラム209,検索プログラム210,およびストレージ装置106に格納されたデータ213~215の関係を示すプログラム構成図である。登録プログラム209は,収集機能401,分類機能402,およびアクション機能群403から構成される。
 センサ101から到来した時系列データは,登録プログラム209中の収集機能401により収集され,分類機能402により特徴量を抽出され,特徴インデクス213に基づき分類され,その結果,分類毎に定義される規則に従い,アクション機能群403のいずれかの機能が実行される。アクション機能群403はプラグイン形式で追加可能な機能の集合であり,例えば図4に示すように,転送機能408,登録機能409,警報機能410,解析機能411から構成される。
 登録機能409は,分類機能402により生成された特徴区間データテーブル214や,時系列データテーブル215をデータベースに登録する機能を有する。警報機能410は,異常が発生したことを適切なユーザに提示する機能を有する。解析機能411は,FTA(Fault Tree Analysis)等の解析プログラムに解析を依頼する機能を有する。なお,転送機能408は,図26,図27を用いて詳述する第2の実施例に係るものであり,ネットワーク上に分散して配置される複数の第二の時系列ストア装置のいずれかに時系列を転送する機能を有する。
 一方,検索プログラム210は,GUI機能405,検索機能404,インデクス管理機能406,時系列管理機能407から構成される。GUI機能405は,ユーザ端末105に対し,画面を提示し,またユーザ端末からのクエリを受け付けるために利用される。また,このGUI機能405は,それ自身の入出力装置212の表示部への画面提示にも利用することが可能である。検索機能404は,センサ識別子や時刻指定で時系列データの検索を行う機能,類似する時系列データを検索する機能を有する。インデクス管理機能406は,特徴インデクスの分類に,人間にとって意味あるラベルを付与し,アクションを定義する機能を有する。時系列管理機能407は,特徴インデクスに従い,時系列データの精度低減,分散配置,削除などのライフサイクル管理を行う機能を有する。
 図5は,図4の登録プログラム209における分類機能402の詳細な機能ブロックを示すプログラム構成図である。分類機能402は,特徴区間抽出機能503,クラスタリング機能504,アクション実行機能506から構成される。収集機能301から入力される時系列データ501は,特徴区間抽出機能503において,特徴抽出規則216に従い,特徴量に加工され,図6で後述される特徴区間データに分割される。特徴抽出規則216はスクリプト言語で記載され,特徴区間抽出機能503は,特徴抽出規則216を解釈して実行するスクリプトパーサである。次に,特徴区間抽出機能503において生成された特徴区間データは,クラスタリング機能504において,特徴インデクス213を参照しながら分類される。
 特徴インデクス213は,後で図7を用いて詳述するように,これまで本システムに登録された全ての特徴区間を階層的にクラスタリングした木構造を取る。本実施例における特徴インデクスとは,特徴区間を階層的にクラスタリングし,得られる特徴区間のクラスタ間の類似度を枝クラスタに,特徴区間を識別する識別子を葉クラスタに持つ木構造である。新たに到来された特徴区間データ602は,特徴インデクス213に登録された特徴区間データの時系列パタンと類似度を比較され,最も類似したクラスタに吸収されるか,新たな特徴区間データとして特徴インデクスの木構造に追加される。なお,特徴インデクス内の特徴区間データと,到来した特徴区間データとの時系列パタンの類似度は,図5の類似度算出機能505により算出される。その後,アクション実行機能506において,特徴インデクスで定められる後述する規則に従い,図8で後述するファクトテーブル217から実行するアクション502を取得し,アクション機能群403のいずれかの機能を呼び出し,アクション502を実行する。
 図6は,図5の特徴区間抽出機能503の動作の一例を模式的に示す概念図である。特徴区間抽出機能503は,連続した時系列データ601を順次入力し,その時系列データ601の特徴を表す特徴量に変換し,さらに開始時刻Ts 606,終了時刻Te 607で区切られた特徴区間603に分割するという動作を行う。特徴量の算出式は対象分野毎に異なる可能性があるが,一例として以下のような方式を取ることができる。秒単位時系列データの1分間毎の分散σを算出し,その値が値方向の閾値604を下回る値を除去する。そして時間方向の閾値605の期間に閾値604を上回る値が存在しない時点で分割を行う。他の例としては,時系列データを固定区間で分割し,Wavelet変換を行った特定レベルのデータを特徴量とするなどを取ることができる。本明細書において,時系列データを特徴量に変換し,さらに特徴区間に分割したデータのことを特徴区間データと呼ぶことにする。
 図7は,本実施例のストレージ装置106に格納され,クラスタリング機能504で使用される特徴インデクス213の構造の一例を示す図である。特徴インデクス213は,階層型クラスタリング手法においてデンドログラムとして知られる構造と類似した2分木構造を取り,例えばストレージ上では,XML(Extensible Markup Language)言語にて格納することが可能である。特徴インデクス213は,単独の根クラスタ701の下方に枝クラスタあるいは葉クラスタが2つ接続され,枝クラスタ702の下方には別の枝クラスタあるいは葉クラスタが2つ接続される,という再帰的な構造を取る。
 なお本文書では,以降,子クラスタ,子孫クラスタ群,親クラスタ,先祖クラスタ群,兄弟クラスタを以下の意味で用いる。あるクラスタに対する「子クラスタ」とは,該クラスタに下方に接続される2つのクラスタのいずれかの事である。また「子孫クラスタ群」とは,該子クラスタおよび該子クラスタの子クラスタを再帰的に含む全てのクラスタ群である。「親クラスタ」とは,該クラスタの上方に接続されるクラスタである。「先祖クラスタ群」とは,該親クラスタおよびその該親クラスタの親クラスタを再帰的に含む全てのクラスタ群である。また「兄弟クラスタ」とは,該クラスタと同じ親クラスタを持つ該クラスタとは異なるクラスタを意味する。
 図7の葉クラスタ703は類似した特徴区間の集合であるクラスタを表し,当該葉クラスタを一意に識別する識別子であるCID 704と葉属性705から構成される。葉属性705は,該葉クラスタ内の特徴区間を類似とみなす閾値である吸収閾値D 711,該葉クラスタ内に登録された特徴区間数である登録数n 712,該葉クラスタを代表する特徴区間の識別子である代表区間のIID 713,ファクトテーブルへの識別子であるFID 714を持つ。葉クラスタは0個以上のFIDを持つことができる。
 枝クラスタ702は,葉クラスタを再帰的に類似度に応じてまとめた階層型クラスタを表し,枝クラスタを一意に識別する識別子であるCID 706と枝属性707から構成される。枝属性707は,枝クラスタが保有する2つの部分クラスタの類似度である類似度D 708,枝クラスタを代表する葉クラスタのCID 709,ファクトテーブルへの識別子であるFID 710を持つ。葉クラスタは0個以上のFIDを持つことができる。根クラスタ701は,初期段階では葉クラスタであり,葉クラスタが複数登録された時点で枝クラスタとなる。
 図8は,アクション実行機能506において使用されるファクトテーブル217の構造の一例を示す図である。ファクトテーブル217は,ユーザにとって意味のある分類をファクトとして管理する。ファクトテーブルの1行をファクトと呼ぶ。各ファクトは,ファクトを一意に示す識別子であるFID801と,本分類のラベル802,本ファクトに対して実行すべき,後述するアクション803から構成される。ラベル802とは,例えば二行目に示すように,「異常起動A」であり,アクション803は例えば「重要度Aランクで警報発行」という内容が記載される。アクション803はスクリプト言語で記載され,アクション実行機能506は,アクション803を解釈して実行するスクリプトパーサである。詳細は図7を用いて後述するが,新たに到来した特徴区間データが,特徴インデクス213の特定の葉クラスタに最も類似するとして吸収される時,該当の葉クラスタおよびその先祖クラスタである複数の枝クラスタをサーチし,それぞれのクラスタにファクトテーブル217のファクトに対する識別子FID710あるいは714が登録されている場合,図8のファクトテーブル217内の該当FID 801に対応するアクション803を順次実行する。
 図9のフローチャートを用いて,図5に示した本実施例の時系列データ管理システムにおけるクラスタリング機能504について説明する。クラスタリング機能504の概略動作としては,特徴区間データ602を入力し,該特徴区間603が特徴インデクス213のどの葉クラスタに属するかを判定し,判定された葉クラスタに対応するアクションを実行する。また該当葉クラスタが存在しない場合は,特徴インデクス213に新たな枝クラスタと葉クラスタを挿入する,さらにその先祖クラスタ群に対応するアクションを順次実行する,という動作を行う。以下、Step 1~Step 9順次詳述する。
 <Step 1> 類似葉クラスタ探索
  特徴インデクス213の全ての葉クラスタ703に対し,入力された特徴区間603との類似度算出を行い,類似度が最も小さい葉クラスタ703を類似葉クラスタとして選択する。類似度算出は,類似度算出機能505に対し,葉クラスタ703の葉属性705の代表区間のIID 713が示す特徴区間データと,特徴区間データ602を入力することにより得る。なお類似度は正の値を取り,0に近いほど類似しているものとする。
 <Step 2> 葉クラスタ吸収判定
  Step 1で選択された葉クラスタと,入力された特徴区間603との類似度が,当該葉クラスタの吸収閾値D 711よりも小さい値である場合,該入力された特徴区間が該葉クラスタに吸収されたと判定し,Step 5に進む。
 <Step 3> 挿入枝探索
  本ステップでは,入力された特徴区間603が,特徴インデクスのどの枝クラスタに挿入されるかを探索する。Step 1で選択された葉クラスタの親クラスタから根クラスタ701までの各枝クラスタ702について再帰的にクラスタ内包判定を行い,クラスタ内包される最も上位の枝クラスタの下部に枝クラスタを挿入する。このクラスタ内包判定のアルゴリズムは複数考えられる。第一の方法では,Step 1で選択した葉クラスタと,入力された特徴区間との類似度が,枝クラスタの類似度Dよりも小さい場合にクラスタに内包されるとする。第二の方法では,内包判定対象の枝クラスタと,入力された特徴区間との類似度が,該当枝クラスタの親クラスタの類似度よりも小さい場合にクラスタに内包されるとする。
 各枝クラスタと入力された特徴区間との類似度の算出は,下式で示される Ward法で算出できる。(G.N.Lance and W.T.Williams, "A general theory of classificatory sorting strategies. I. Hierarchical systems." Computer Journal, vol.9, pp.373-80 (1967)参照)すなわち2つの子クラスタ(クラスタi,クラスタj)から構成される枝クラスタと,入力された特徴区間oとの距離Dは,クラスタiとクラスタjとの距離Dij,クラスタiと入力された特徴区間oとの距離Dio,クラスタjと入力された特徴区間oとの距離Djo,クラスタiの格納データ数ni,クラスタjの格納データ数nj,入力された特徴区間の格納データ数no(=1)を用いて,以下の式で再帰的に計算できる。
 (数1)
Figure JPOXMLDOC01-appb-I000001

 子クラスタが葉クラスタの場合,子クラスタと入力された特徴区間との類似度は,step 1の方法で類似度算出機能405を使用して算出できる。また枝クラスタの格納データ数は,その子孫クラスタである葉クラスタの登録数712の合計値で算出できる。
 <Step 4> 枝クラスタ挿入
  本ステップでは,枝クラスタを挿入する。図7の701に特徴インデクスの部分木を示す。木構造701において,枝クラスタaがStep 3で算出した「クラスタ内包される最も上位の枝クラスタ」で,クラスタbの子孫クラスタにStep 1で算出した葉クラスタが存在するとする。枝クラスタ挿入操作では,葉クラスタeを生成し,葉クラスタeと該枝クラスタbを子に持つ枝クラスタdを生成し,クラスタaの子であるクラスタbと枝クラスタdを置換することにより木構造702を得る。葉クラスタeの属性として,図5の吸収閾値511はあらかじめ与えられた初期値を,登録数512は1を格納する。また,入力された特徴区間データのIIDとして,既存の特徴区間データと重複しない値を生成し,代表区間IID 513に格納する。また,FID 514は空集合を格納する。
 <Step 5> 未知葉クラスタのアクション実行
  葉クラスタが新規登録された場合,未知葉クラスタに対応するファクト情報として図7には図示していないが特徴インデクスに対してあらかじめ設定しておくFIDの値に従い,該当ファクトテーブル217からファクトを探索し,対応するアクションを実行する。
 <Step 6> 葉クラスタのアクション実行
  Step 1で吸収判定された葉クラスタ,あるいはStep 4で新規作成された葉クラスタeのFID 714が空集合ではない場合,登録されている全てのFIDをファクトテーブル217から探索し,対応するアクションを実行する。
 <Step 7> 枝クラスタ属性更新
  Step 1で判定された葉クラスタ,あるいはStep 4で新規作成された葉クラスタeの先祖クラスタに当たる全ての枝クラスタについて,類似度D 708と,代表葉のCID 709を更新する。計算方法としては,あるクラスタCの子孫にあたる全ての特徴区間iについて,他特徴区間との距離の総和を算出した下式の集合の中で,最も小さい値を取るクラスタiを代表の葉とする。ここで,njはクラスタjの格納特徴区間数,dijはクラスタi,j間の距離である。また,類似度Dは,子の2つのクラスタの代表葉クラスタ間の距離として,類似度算出機能405により下式で再帰的に算出する。
 (数2)
Figure JPOXMLDOC01-appb-I000002

 <step 8> 枝クラスタのアクション実行
  Step 1で判定された葉クラスタ,あるいはStep 4で新規作成された葉クラスタeの先祖クラスタに当たる全ての枝クラスタについて,FID 710が空集合ではない場合,登録されている全てのFIDをファクトテーブル217から探索し,対応するアクションを実行する。
 <step 9> 再帰処理
  Step 7,Step 8を根クラスタまで繰り返す。
 図10は,図5に示した本実施例の類似度算出機能505の動作を説明する図である。一般に時系列データ同士のパタンの類似度比較のためには,時間軸方向の伸縮を考慮する必要がある。時間軸方向の伸縮を考慮した時系列データのパタンの類似度算出のためには,動的計画法(DPマッチング)をベースとしたDTW(Dynamic Time Warping)がよく知られている。DTWは,図10のように,比較対象となる2つの時系列A 1001と時系列B 1002を固定長フレームに分割し,各フレームの全ての組み合わせにおける類似度を算出し,マッチング行列1003を作成する。ここで各フレーム毎の類似度は,たとえばそのフレームにおける値や平均値の差を使用する。そして時系列A 1001の始点であり時系列B 1002の始点であるマッチング行列1003の左下の行列要素から,時系列A 1001の終点であり時系列B 1002の終点である図7右上の行列要素へ至る経路を選択し,その経路のコストを算出することにより時系列A 1001と時系列B 1002の類似度とする。なおその際の経路選択においては,斜め・右・上方向の移動のみに制限する。例えば図7の黒塗りの行列要素が経路の一つである。また経路のコストは,経路状の行列要素の類似度と,斜め・右・上方向の移動ペナルティの合計とし,右方向,上方向の移動ペナルティは,時系列の伸縮に関するペナルティとして,斜め方向の移動ペナルティよりも大きな値を持たせる。このような経路コスト計算において,最小のコストとなる経路コストを取る経路を最適な経路とし,その経路コストを時系列A 1001と時系列B 1002の類似度とする。
 図11は,図4の登録機能409の詳細な機能ブロックを示すプログラム構成図である。登録機能409は,特徴区間データ214を登録する特徴区間登録機能1102と,時系列データ215を登録する時系列登録機能1103の2機能を有する。図5の分類機能402のアクション実行機能506が発行したアクション502は,アクション実行機能1101により解釈され,特徴区間登録1102,時系列登録1103,あるいはその両方を実行する。時系列登録機能1103は,アクションで指定がある場合,登録時に非可逆圧縮機能1104を利用し,アクションにて指定された精度で時系列データの精度を低減した非可逆圧縮を行う。
 図12は,ストレージ装置106に格納される特徴区間データ214,および時系列データ215を管理するテーブルの構造の一例を示す図である。本例では,特徴区間データ214,時系列データ215を同じテーブル上の同じレコード1208で管理する例を示しているが,別テーブル,すなわち特徴区間管理テーブル,及び時系列データ管理テーブルとして管理しても構わない。本テーブルは,特徴区間である時系列区間に対して1レコードが格納される。レコード1208は,センサを一意に識別する識別子であるSID 1201,本特徴区間が分類される特徴インデクス213における葉クラスタを一意に識別するCID 1202,特徴区間自身を一意に識別するIID 1203,特徴区間の開始時刻Ts 1204,特徴区間の終了時刻Te 1205,特徴区間データ1206,時系列データ1207から構成される。特徴区間管理テーブルとしては,少なくとも特徴区間自身を一意に識別するIID 1203,特徴区間の開始時刻Ts 1204,特徴区間の終了時刻Te 1205,特徴区間データ1206を記憶している。
 ここで時系列データ1207は,図6の時系列データ601を,開始時刻Ts 606から終了時刻Te 607までの範囲で分割したものであり,特徴区間データ1206は,図6の特徴区間データ602のことであり,IID 1203は図6の特徴区間603の識別子である。特徴区間データ1206および時系列データ1207は,時系列ブロックとして,関係データベースのBLOB(Binary Large Object)の形式で格納される。時系列ブロックは,ファイル名で識別されるファイルとしてデータベースの外側のファイルシステムで管理してもよい。図12の下部に時系列ブロックのデータ構造の例1209および1210を示す。時系列データの観測間隔が例えば1秒間隔などの固定値であり,システムで定義されている場合,時系列ブロックの構造としては,例えばfloat型の観測値のみを連続して格納する例1209のような構造を取ることができる。
 時系列データに欠損が存在する場合,例えばfloat型NaN値を欠損値nullとして定義することにより管理することができる。また,時系列データの観測間隔が固定ではない場合,時系列データを,前の観測値からの相対秒数と観測値のペアで表す例1210のような構造を取ることもできる。時系列ブロックは,構造例1209や1210をさらにgzipやlzmaなどの既存のデータ圧縮機能を利用して可逆圧縮しても構わない。また時系列ブロックを,非可逆圧縮機能904で非可逆圧縮し,構造例1209や1210で管理してもよく,さらにこれをgzipやlzmaなどの既存のデータ圧縮機能を利用して可逆圧縮しても構わない。
 図13は,図4の検索機能404の詳細な機能ブロックを示すプログラム構成図である。GUI機能405から呼び出される検索機能404は,センサ識別子SID 1201と時間範囲を指定して該当センサ,時間範囲の時系列データ215の検索を行う時間指定検索機能1302と,時間範囲と類似度閾値を指定して,該当時間範囲内の時系列データのパタンと類似度閾値以下で類似する時系列パタンの集合の検索を行う類似検索機能1301から構成される。類似検索機能1301は,特徴インデクス213と特徴区間データ214,時間指定検索機能1302を利用している。
 図14は,本実施例のGUI機能405が提供する画面イメージの一例である,類似事例検索の画面である。図14を用いて,検索機能404の動作を説明する。
 グラフ1401は時間指定検索機能1302により取得した時系列データをグラフ化したものである。保全担当者は時間範囲1402のプラント起動過渡状態に異常を発見したとする。この時,保全管理者は時間範囲1402をマウス1403で選択し,類似度閾値をスライドバー1404で指定した後,類似度検索ボタン1405を押下する。その結果,画面下部に類似する時系列パタン1406が複数個グラフとして表示される。また,検索された類似時系列パタンに関連して障害事例報告書が存在する場合,事例報告書表示ボタンを表示させる。保全担当者は事例報告書表示ボタンを押下することにより,該当する事例報告書1407を画面に呼び出すことが可能となる。保全担当者は,該当報告書を参考にすることにより,今回の異常パタンと類似した過去事例を効率よくアクセスすることができるため,過去事例に則した保全アクション計画を迅速に立案することができるようになる。
 次に,図15のフローチャートを用いて,本実施例の類似検索機能1301について説明する。
 <Step 1> 特徴区間の検索
  図12の特徴区間時系列テーブルの開始時刻1204,終了時刻1205と,ユーザが指定した時間範囲とを比較することにより,ユーザ指定時間範囲に存在する特徴区間レコードを検索し,CID 1202とIID 1203を取得する。
 <Step 2> 葉クラスタの検索
  図7の特徴インデクス213から,Step 1で取得したCIDと一致する葉クラスタを取得する。
 <Step 3> 枝クラスタの検索
  Step 2で取得した葉クラスタから開始し,再帰的に親クラスタを取得し,枝クラスタの類似度D 708がユーザが指定した類似度閾値を超過しない最上位の枝クラスタを探索する。
 <Step 4> 類似葉クラスタの検索
  Step 3で取得した枝クラスタの子孫クラスタとなる全ての葉クラスタを検索し,そのCID 704を全て取得する。
 <Step 5> 特徴区間の開始・終了時刻の取得
  図12の特徴区間時系列テーブルから,Step 4で取得した全CIDを持つ全ての特徴区間レコードを検索し,その開始時刻1204と終了時刻1205を取得する。
 <Step 6> 時系列データの取得
  図12の時系列テーブルの開始時刻1204,終了時刻1205と,Step 5で取得した検索結果時間範囲の集合とを比較することにより,検索結果時間範囲に存在する全ての時系列データを取得し,グラフ表示を行う。これにより,図14の画面下部の類似時系列パタン1406の集合を表示することができる。
 図16は,図14で使用される障害事例報告書等の管理を行うための事例報告管理テーブル1601の構造を示す例である。例えば,障害事例管理テーブルとして機能する事例報告管理テーブル1601は,時刻1602,異常種類を示すFID 1603,当該事例の事例報告書へアクセスするポインタであるURL(Uniform Resource Locator)1604から構成される。
 FID 1603は,図8のファクトテーブル217のFID 801と同じものであり,このFIDをキーにファクトテーブル217を参照することにより,異常のラベル802を取得すことが出来る。図15のStep 6で取得した特徴区間レコードの開始時刻・終了時刻と,事例報告管理テーブル1601の各レコードの時刻1602とを比較することにより,検索した特徴区間の時系列データに対応した事例報告書がもし存在すれば表示することができる。これにより,障害を発見した時に,特徴区間の時系列データの類似パタンを調べ,それに対する事例報告書等を参考にアクションを決めることができる。
 図17は,図4のインデクス管理機能406の詳細な機能ブロックを示すプログラム構成図である。GUI機能405から呼び出されるインデクス管理機能406は,ユーザ操作に応じて特徴インデクス213およびファクトテーブル217の更新を行う。インデクス管理機能406は,特徴インデクス213を木構造グラフとして可視化するインデクス可視化機能1701,特徴インデクス上の各枝クラスタ,葉クラスタでFID 710,714で管理されるファクトの登録・削除・位置変更を行うファクト位置管理機能1702,下位のクラスタを持つ特定の枝クラスタを葉クラスタに変換する吸収閾値管理機能1703,図8のファクトテーブルにおけるラベルやアクションを更新するファクト更新機能,重要度の低い平常データに対する吸収閾値を自動で設定する平常範囲算出機能1706,図16の事例報告管理テーブルから異常範囲を自動で設定する異常範囲算出機能1705から構成される。
 図18は,インデクス可視化機能1701が生成し,GUI機能405で表示される画面イメージの一例である,特徴インデクス表示画面である。図18は,図7で定義される特徴インデクス213の構造をそのまま木構造グラフで可視化したものである。根クラスタ1801の下に枝クラスタ,葉クラスタが表示される構造を取る。図18では,枝クラスタの情報として,画面上に類似度708を表示し,葉クラスタの情報として,CID 704を表示しているが,ユーザの選択する任意の属性を表示して構わない。
 また,破線による矩形部1802,1803,1804,1805は,FIDに値が格納されている枝クラスタと,その全ての子孫クラスタを囲んだものであり,ファクトテーブル217で分類された集合を表す。それぞれ図8のファクトテーブルのラベル802を表示してもよいし,ファクトテーブルで分類された集合の件数を表示してもよい。該集合の件数は,該FIDに値が格納された枝クラスタの子孫クラスタである全ての葉クラスタの登録数712を合計することで算出できる。また,ファクトテーブルで分類された集合を代表する特徴区間のグラフ1806,1807,1808を表示してもよい。該グラフ1806,1807,1808は,ファクトが登録された枝クラスタ702から代表葉クラスタのCID 709を取得し,該CIDを持つ葉クラスタ703を探索し,該葉クラスタの代表区間のIID 713を取得し,図12の特徴区間データテーブル214から該当IIDを持つレコードを取得し,該当レコードの開始時刻・終了時刻を用いて時系列データテーブルから時系列データを取得し,グラフ描画することで得られる。
 特徴インデクス表示画面においてユーザがマウス等で選択した枝クラスタないし葉クラスタに対し,ファクト位置管理機能1702を適用することにより,ファクトの登録・削除を行うことができる。また,図8のファクトテーブルのラベル802,アクション803を編集することができる。また,枝クラスタに登録されているファクトを,その上位ないし下位の枝ノードの位置に移動させることができる。これにより,時系列解析者は,分類機能402により類似度別に自動分類された時系列パタンに対し,通常起動パタン,通常停止パタン,異常起動パタン等のラベルを付与することができ,さらに対策不要である,対策が必要であり,保全担当者へ警報を発行するなどのアクションを付与していくことができる。
 図18の特徴インデクス表示画面において,定義済みのファクトに分類される枝クラスタ・葉クラスタを矩形1803,1804,1805のように囲んで表示することにより,対応の定義されていない未知の時系列パタンが発生したことが確認できるため,漏れの内事例収集と対策を行うことが可能となる。
 特徴インデクス表示画面においてユーザがマウス等で選択した枝クラスタに対し,吸収閾値管理機能1703を適用することにより,該枝クラスタより詳細な分類が不要であることを指示することができる,吸収閾値管理機能1703は,指定した枝クラスタを葉クラスタに置換する。葉クラスタの吸収閾値711は,指定した枝クラスタの類似度708となる。
 図19を用いて,図17のファクト位置管理機能1702の利用目的について説明する。ファクト位置管理機能は,特徴インデクス上の各枝クラスタ,葉クラスタで,FID710,714で管理されるファクトの登録・削除・位置変更を行う。ファクト位置管理機能を用いることにより,未知の異常パタンが発生した場合には必ず時系列解析者1906に警報が発生し,時系列解析者1906が未知パタンを通常パタンか,保全担当者1907に警告すべき異常パタンかを分類することにより,以降の類似パタンは保全担当者1907に警報が発生するようになる。これにより,日常的に網羅的な異常事例収集と診断規則の更新を行うことが可能となる。
 <Case 1>
  時系列パタンAが収集機能401から分類機能402に渡された時,特徴インデクス213に該当パタンが登録されていない場合,図9のStep 5で示した通り,特徴インデクスの部分木1901のように,未知葉クラスタAが登録され,未知葉クラスタに対するアクションが実行される。ここであらかじめアクションとして,ファクトが定義されていない枝ノードの子孫に位置する未知葉クラスタが登録された際,時系列解析者1906のユーザ端末105に対して警報を発行すると定義しておくことにより,時系列解析者1906に対して未知パタン警報が発行される。時系列解析者1906はGUI機能405により,図18に示す特徴インデクス画面を表示し,時系列パタンAは平常パタンであるというファクトを領域1901の葉クラスタAの位置に登録する。時系列パタンAに類似する時系列パタンA’が到来した場合,特徴インデクスは領域1902のように変化し,再び未知パタン警報が時系列解析者1906に発行される。時系列解析者1906はファクト情報を葉クラスタAの位置から,葉クラスタAと葉クラスタA’の共通の枝に移動する。これを複数回繰り返すことにより,類似パタンA’’が到来した段階で未知異常警報が発行されなくなる。
 <Case 2>
  時系列パタンBが収集機能401から分類機能402に渡された時,Case 1と同様に時系列解析者1906に対して未知パタン警報が発行される。時系列解析者1906が,時系列パタンBが異常パタンXであるというファクトを葉クラスタBの位置に登録し,保全担当者1907に警報を発行するというアクションを登録する。Case 1と同様に,類似パタンB’に対してファクトの位置移動を複数回繰り返すことにより,類似パタンB’’が到来した時点で保全担当者1907に警報が発行されるようになる。
 図20を用いて,図17の吸収閾値管理機能1703の動作について説明する。吸収閾値管理機能1703は,これ以上詳細な分類が不要であるということをユーザが指示するために使用する。吸収閾値管理機能1703は,ユーザが指定した枝クラスタ2001を新たに生成した葉クラスタ2003に置換する。その際,葉クラスタ2003の吸収閾値D 2011は,枝クラスタ2001の類似度D 2004を代入する。登録数n 2012は,枝クラスタ2001の子孫クラスタ群の全ての葉クラスタの登録数nの合計値を格納する。代表区間のIID 2013は,枝クラスタ2001の代表葉のCID 2005が示す葉クラスタの代表区間のIIDを格納する。FID 2014は,枝クラスタ2001のFID 2006のFIDを格納する。
 図21,図22を用いて,図17の異常範囲算出機能1705の動作について説明する。異常範囲算出機能1705は,図16の事例報告管理テーブルから登録すべきファクトを取得し,ファクト位置管理機能1702を利用し,ユーザの操作なしで自動的にファクト位置の変更を行うことを目的とする。図21は,異常範囲算出機能1705の適用するファクト位置移動のルールである。
 <Case 1>
  同じ葉クラスタ2101に,異なる識別子F1,F2を持つファクトが重複して登録されている場合,それぞれのファクトが異なる葉クラスタに登録されるように葉クラスタ2102,2103に再分類する。
 <Case 2>
  同じ異常事例であり,共通の識別子F1を持つファクトが葉クラスタ2104および2105に登録されている場合,それぞれの葉クラスタの共通の先祖となる最初の枝クラスタ2106にファクトを移動する。
 <Case 3>
  Case 2の例外として,共通の識別子F1を持つファクトが葉クラスタ2107および2108の共通の先祖となる最初の枝クラスタの子孫クラスタ群に,異なる識別子F2を持つ葉ノード2109が存在する場合,ファクトの移動を行わず,競合警報を発行する。この競合警報が発行されるのは,時系列パタンの分類方法が障害事例を分類するという目的を達成していないことになる。時系列解析者は本競合警報を受け付け,図5の特徴区間抽出機能503で使用される抽出規則を改良することができる。本警報機能により,漏れのない日常的な時系列解析機能の更新を行うことができる。
 図22に,本実施例において,図21のルールの適用を行うためのフローチャートを示す。
 <Step 1> 時刻の取得
  図16の事例報告管理テーブル1601に新たに登録されたレコードから,時刻1602を取得する。
 <Step 2> CIDの取得
  図12の特徴区間データテーブル214の開始時刻1204,終了時刻1205と,Step 1で取得した時刻とを比較することにより対応する特徴区間データを取得し,CID 1202を取得する。
 <Step 3> FIDの登録
  図7の特徴インデクス213から,Step 2で取得したCIDを持つ葉クラスタを探索し,Step 1で求めたレコードのFID1603を葉クラスタのFID 714として格納する。
 <Step 4> FID重複判定
  Step 3で探索した葉クラスタに,異なる値のFIDが既に登録されている場合,Step 5,6,7を実行する。
 <Step 5> 既存特徴区間データの取得
  Step 4で既に登録されているFIDに対応する特徴区間データを取得する。具体的には,図16の事例報告管理テーブル1601から該当FIDに対応する時刻1602を取得し,図12の特徴区間データテーブル214の開始時刻1204,終了時刻1205と比較することにより対応する特徴区間データを取得する。
 <Step 6> 類似度の算出
  Step 5で取得した特徴区間データと,Step 2で取得した特徴区間データを,図5の類似度算出機能505で評価することにより,類似度を算出する。
 <Step 7> 特徴インデクスの再構築
  Step 2で取得したCIDを持つ全ての特徴区間データを特徴区間データテーブル214から取得し,図9で示すクラスタリング機能504を利用して差異クラスタリングを行い,Step 3の葉クラスタと置換する。その際,図9のStep4における吸収閾値511を,Step 6で取得した類似度とする。Step 5,6,7により,図21のCase1のルールが実現できる。
 <Step 8>
  特徴インデクスに対し,同じFIDを持つ葉クラスタの集合を取得する。
 <Step 9> 枝クラスタの探索
  それぞれの葉クラスタの親クラスタを再帰的に辿ることにより,共通の先祖を持つ最初の枝クラスタを探索する。
 <Step 10>
  Step 9で探索した枝クラスタの子孫クラスタ群の全ての葉クラスタを参照し,FIDがStep 3で求めたFIDと異なる値を取る葉クラスタが存在するかどうかを判定する。
 <Step 11>
  異なる値を取る葉クラスタが存在しない場合,FIDをStep 9で探索した枝クラスタに移動する。これにより,Case 2のルールが実現できる。
 <Step 12> 異なる値を取る葉クラスタが存在する場合,FIDの移動を行わずに競合警報を発行する。これにより,Case 3のルールが実現できる。
 <Step 13>
  Step 9-12の処理を,Step 8で取得した全ての葉クラスタの集合に対して繰返す。
 図23を用いて,本実施例の図17の平常範囲算出機能1706の動作について説明する。平常範囲算出機能1706は,特徴インデクスから,重要度の低い平常データを抽出する。一般に,「不良全体の80%は,20%の原因に由来する」等,さまざまな現象において,その大勢が少数の要因によって決定されるという経験則,パレートの法則,80対20の法則として知られている。本発明ではこの法則を平常範囲の算出に適用する。
 <Step 1> 閾値THを増加
  閾値THを,0から開始し,あらかじめ停止した一定間隔で増加させる。
 <Step 2> 閾値THを超過する枝クラスタの抽出
  特徴インデクス213の,類似度Dが閾値THを超過する最下層の枝クラスタを抽出する。具体的には,特徴インデクス213の根クラスタから全ての下位の枝クラスタを探索し,その類似度D 708が閾値THより下回った枝クラスタを発見場合,その枝の探索を終了し,その枝クラスタの親クラスタをリストに追加する。
 <Step 3> 上位20%の枝クラスタを抽出
  Step 2で取得した枝クラスタの集合を,枝クラスタに分類される特徴区間データ数でソートし,上位20%の枝クラスタを抽出する。枝クラスタに分類される特徴区間データ数は,枝クラスタの子孫クラスタである全ての葉クラスタの登録数n 712を合計することで得られる。
 <Step 4> 含有比Nの算出
  Step 3で取得した枝クラスタ集合に分類される特徴区間データ数を合計し,特徴インデクスに登録された全特徴区間データ数で割ることにより,含有比Nを算出する。
 <Step 5> 判定
  Step 4で算出した含有比が,80%より小さければ,Step 1に戻る。
 <Step 6> 枝クラスタ除去
  Step 3で取得した枝クラスタ集合から,枝クラスタに分類される特徴区間データ数が,あらかじめ指定した閾値よりも小さい枝クラスタ群を除去する。
 図23のアルゴリズムで算出した枝クラスタ群に対し,吸収閾値管理機能1703を適用し,それぞれの枝クラスタの類似度D 708を吸収閾値D 711とする葉クラスタに置換することにより,重要度の低い平常データに対する特徴インデクスの枝クラスタ登録数を自動で削減することができる。なお,図23では,固定値80%,20%を用いて説明したが,この値はシステムであらかじめ定義した任意の値で構わない。
 図24は,図4の時系列管理機能407の詳細な機能ブロックを示すプログラム構成図である。GUI機能405から呼び出される時系列管理機能407は,ユーザ操作に応じて時系列データ215の移動・削除・精度低減による更新を行う。時系列管理機能407は,時系列データ215を別システムへ移動させる時系列移動機能2401,過去の不要な時系列データを削除する時系列削除機能2402,非可逆圧縮機能1104を用いて過去の不要なデータの精度を低減させる時系列更新機能2403から構成される。
 時系列削除機能2402は,図8に示すファクトテーブル217において,葉クラスタ703に対し,「指定期間経過後に削除」と記載されている場合,該当葉クラスタ703のCID 704を持つ時系列データ215を図12に示す時系列データテーブルから抽出し,終了時刻1205が現在時刻と比べ該指定期間より古い場合,該当時系列データ215を削除する。従来のライフサイクル管理機能は,指定期間を経過した全ての時系列データを削除するのに対し,本方式によれば時系列の特徴に合わせて重要度の低いデータのみを選択的に削除することができるため,異常パタンなどの過去事例を削除しないという効果がある。また,時系列削除機能2402が対象とする時系列パタンを,図23で説明した平常範囲算出機能1706で算出した葉クラスタに適用すれば,削除対象時刻より古い全データにおける80%のデータが削除対象となるため,ストレージ容量低減の効果がある。
 図25を用いて,時系列更新機能2403の動作を説明する。時系列更新機能2403は,図8に示すファクトテーブル217において,葉クラスタ703に対し,「指定期間経過後に非可逆圧縮」と記載されている場合,該当葉クラスタ703のCID 704を持つ時系列データ215を図12に示す時系列データテーブルから抽出し,終了時刻1205が現在時刻と比べ該指定期間より古い場合,該当時系列データ215から適切な誤差許容率を算出して時系列データを非可逆圧縮する。
 <Step 1> 誤差許容率THを増加
  誤差許容率THを,0から開始し,あらかじめ停止した一定間隔で増加させる。
 <Step 2> 非可逆圧縮
  Step 1で算出した誤差許容率THで該葉クラスタ703に属する時系列データの非可逆圧縮を行う。非可逆圧縮方法は,たとえば3点の観測値が閾値以下の誤差で直線で近似できる場合,中点をまびく線形近似圧縮方法などが存在するが,Wavelet圧縮等,圧縮方式は問わない。
 <Step 3> 類似度dの算出
  Step 2で非可逆圧縮した時系列データを再度展開し,図5の特徴区間抽出機能503で特徴区間データとしたものと,葉クラスタ703の代表区間のIID 713で示される特徴区間データとの類似度dを,類似度算出機能505で算出する。
 <Step 4> 類似度比較
  Step 3で算出した類似度dと,該葉クラスタ703の吸収閾値D 711とを比較し,類似度dが吸収閾値Dよりも小さければ再びStep 1を実行する。
 <Step 5> 非可逆圧縮
  Step 2で算出した誤差許容率THを用いて,時系列データを圧縮する。
 従来のライフサイクル管理機能は,指定期間を経過した全ての時系列データを一定の誤差許容率で非可逆圧縮するのに対し,本方式によれば時系列の特徴に合わせて重要度の低いデータのみを選択的に非可逆圧縮することができ,また時系列パタンのバラツキに合わせて許容誤差率を変更して圧縮することができる。
 次に,図26,図27を用いて,第2の実施例として,複数個の時系列ストア装置を接続した構成の時系列データ管理システムの実施例を説明する。このシステムは,上述した実施例1の時系列移動機能2401が有効に利用される。
 図26は図1の時系列データプラットフォームにおいて,第一の時系列ストア103にさらに第二の時系列ストア装置2601,第二のストレージ装置2602を複数個接続した時系列データ管理システムの概要を示すブロック図である。実施例2の構成においては,複数の時系列ストア装置を分散配置することにより,大量の時系列データを分散管理することができる。以下,実施例1の構成と比較しながら実施例2の構成を説明する。
 本実施例においては,時系列移動機能2401は,図8に示すファクトテーブル217のアクション803において,枝クラスタ702に対し,「指定する時系列ストア装置に分割」と記載されている場合,該当枝クラスタ702およびその子孫クラスタ群を,第二の時系列ストア装置2601に移動させる。また,該枝クラスタ702の子孫クラスタである全ての葉クラスタ703のCID 704を持つ全ての時系列データ215を図12に示す時系列データテーブルから抽出し,同じく全ての特徴区間データ214を特徴区間データテーブルかた抽出し,第二の時系列ストア装置に移動させる。
 図27は,時系列ストア装置103および第二の時系列ストア装置2601に格納される特徴インデクス213の構造を示す模式図である。図27の上図が分割前,すなわち実施例1の時系列ストア装置103の特徴インデクスの構造である。ここで,枝クラスタ2701において分割を行う場合,特徴インデクスは第一の時系列ストア装置103と第二の時系列ストア装置2601のように分割される。ここで,分割前の枝クラスタ2701は,葉クラスタ2702に置換され,枝クラスタ2701およびその子孫クラスタ群は第二の時系列ストア装置2601に移動される。ここで,枝クラスタ2701を葉クラスタ2702へ置換するための規則は,図20に示す吸収閾値管理機能1703の動作と同じとなる。さらに新たに生成した葉クラスタ2702のFID 714に,「指定する時系列ストア装置に時系列データを転送する」と記載したファクトのFIDを登録する。
 図4を用いて,転送機能408の説明を行う。図5のアクション実行機能506が発行したアクションが「指定する時系列ストア装置に時系列データを転送する」である場合,アクション機能群403の転送機能408が実行される。その結果,第一の時系列ストア103の収集機能401に到来した時系列データは,第二の時系列ストア装置2601における第二の収集機能へと転送される。そして,第二の分類機能402により枝クラスタ2703を根クラスタとする第二の特徴インデクスを用いて分類され,第二のアクション機能群403の機能,例えば解析機能411により処理される。
 ここで,分割する枝ノードを,図23で説明した平常範囲算出機能1706で算出した枝ノード群と,それ以外のノードとすることにより,出現頻度の高い,重要度の低い平常パタンの時系列データと,重要度の高い,それ以外のパタンの時系列データを異なる第二の時系列ストア装置に分配することが可能となる。これにより,時系列ストア装置の負荷バランスを取ることができる。重要度の低い平常パタンの時系列データが転送される時系列ストア装置には,図23で説明したとおり,80%の時系列データが到来し,データ登録処理を行うことになる。一方,平常パタン以外の時系列データには,残りの20%の時系列データが到来することにより,登録負荷が低くなる。一般に,時系列解析者や保全担当者は,異常パタンの時系列データに対する検索クエリが多くなる傾向となる。また,異常パタンが到来する時系列データストア装置の負荷を軽減することにより,処理負荷の高い解析機能411を実行するための負荷バランスに貢献することができる。
 なお,本発明は上記した実施例に限定されるものではなく,様々な変形例が含まれる。例えば,上記した実施例は本発明を分かりやすく説明するために詳細に説明したのであり,必ずしも説明の全ての構成を備えるものに限定されものではない。また,実施例の構成の一部について,他の構成の追加・削除・置換をすることが可能である。
 また,上記の各構成,機能,処理部,処理手段等は,それらの一部又は全部を,例えば集積回路で設計する等によりハードウェアで実現してもよい。また,上記の各構成,機能等は,それぞれの機能を実現するプログラムを実行することによりソフトウェアで実現する場合を例示して説明したが,各機能を実現するプログラム,テーブル,ファイル等の情報はメモリのみならず,ハードディスク,SSD(Solid State Drive)等の記録装置,または,ICカード,SDカード,DVD等の記録媒体におくことができるし,必要に応じてネットワーク等を介してダウンロード,インストールすることも可能である。
101 センサ
102,104 ネットワーク
103,2601 時系列ストア装置
105 ユーザ端末
106,2602 ストレージ装置
201 時系列データ
202 検索クリエ
203 検索結果
204 センサインタフェース
205 プロセッサ
206 メモリ
207 ユーザI/F
208 ディスクI/F
209 登録プログラム
210 検索プログラム
211 バッファ
212 入出力装置
213 特徴インデクス
214 特徴区間データ
215,501,601 時系列データ
216 特徴抽出規則
217 ファクトテーブル
301 観測時刻
302 センサ観測値
303 レコード
401 収集機能
402 分類機能
403 アクション機能群
404 検索機能
405 GUI機能
406 インデクス管理機能
407 時系列管理機能
408 転送機能
409 登録機能
410 警報機能
411 解析機能
502,803 アクション
503 特徴区間抽出機能
504 クラスタリング機能
505 類似度算出機能
506 アクション実行機能
602 特徴区間データ
603 特徴区間
604,605 閾値
701,1801 根クラスタ
702,2001,2701,2703 枝クラスタ
703,2003,2702 葉クラスタ
704,706 CID
705,2002 葉属性
707 枝属性
708,2004 類似度D
709,2005 代表葉のCID
710,714,801,1603,2006,2010,2014 FID
711,2007,2011 吸収閾値D
712,2008,2012 登録数n
713,2009,2013 代表区間のIID
802 ラベル
1401 グラフ
1402 時間範囲
1403 マウス
1405 類似度検索ボタン
1406 時系列パタン
1407 事例報告書
1601 事例報告管理テーブル
1602 時刻
1604 URL
1802,1803,1804,1805 矩形部
1806,1807,1808 グラフ
1901,1902,1903 領域
1906 時系列解析者
1907 保全担当者

Claims (15)

  1. 処理部と記憶部とを備え,時系列データを管理する時系列データ管理システムであって,
    前記処理部は,
    前記時系列データをその特徴に応じた特徴区間に分割し,
    前記記憶部に,当該特徴区間のデータ,開始時刻,終了時刻,特徴区間を識別する識別子とを管理する特徴区間管理テーブルを形成し,
    前記特徴区間同士の類似度を算出し,算出した前記特徴区間の類似度に応じて,前記特徴区間を階層的にクラスタリングし,得られる前記特徴区間のクラスタ間の類似度を枝クラスタに,前記特徴区間を識別する識別子を葉クラスタに持つ木構造の特徴インデクスを構成することにより,前記時系列データを管理する,
    ことを特徴とする時系列データ管理システム。
  2. 請求項1に記載の時系列データ管理システムであって,
    表示部と入力部とを更に備え,
    前記表示部は,前記特徴インデックスを表示し,
    前記入力部は,前記枝クラスタないし前記葉クラスタの属性として,前記特徴区間の時系列パタンの意味付けを行うラベルと,対応するアクションを入力可能である,
    ことを特徴とする時系列データ管理システム。
  3. 請求項2に記載の時系列データ管理システムであって,
    前記処理部は,
    前記記憶部に,前記ラベルに係る時刻,及び事例内容を管理する事例報告管理テーブルを形成し,
    前記事例報告管理テーブルの時刻と関連する前記特徴区間と関連した葉クラスタに,前記ラベルを付与し,同種類のラベルが複数のクラスタに存在する場合,複数の前記クラスタの共通の先祖となる最初の枝クラスタに当該ラベルを移動し,
    異なる種類のラベルが同一の葉クラスタに存在する場合,当該葉クラスタに属する前記特徴区間を再分類し,当該異なるラベルが分離される最初の子孫クラスタに当該ラベルを移動する,
    ことを特徴とする時系列データ管理システム。
  4. 請求項3に記載の時系列データ管理システムであって,
    前記処理部は,
    前記特徴区間を前記類似度により分類し,前記時系列パタンの出現頻度から平常データと異常データを分離し,前記平常データに重要度の低いラベルを付与する,
    ことを特徴とする時系列データ管理システム。
  5. 請求項1に記載の時系列データ管理システムであって,
    前記処理部は,
    入力された前記時系列データと,前記葉クラスタの識別子により識別される前記特徴区間の時系列パタンとの類似判定を行い,前記類似度を算出することにより最も類似した葉クラスタを選択し,
    当該葉クラスタの吸収閾値と前記類似度とを比較することにより,当該葉クラスタへの吸収判定を行い,
    当該葉クラスタの上位の前記枝クラスタの類似度との比較を再帰的に行うことにより枝クラスタへの挿入位置を決定し,
    入力された前記時系列データを管理する葉クラスタを当該枝クラスタへ挿入し,
    挿入した前記葉クラスタの上位の枝クラスタの類似度と代表葉クラスタを再帰的に更新する,
    ことを特徴とする時系列データ管理システム。
  6. 請求項5に記載の時系列データ管理システムであって,
    前記処理部は,警報発生機能を備え,前記警報発生機能により警報を発行することにより,前記ラベルの付与されていない時系列パタンの出現をユーザに提示し,ラベル付けの要求を行い,全ての未知異常を収集することを保証する,
    ことを特徴とする時系列データ管理システム。
  7. 請求項5に記載の時系列データ管理システムであって,
    前記処理部は,
    前記枝クラスタないし葉クラスタの属性としてラベル,および実行すべきアクションを管理し,
    入力された前記時系列データが,分類された前記葉クラスタ,およびその上位の枝クラスタ群に記載された前記アクションを再帰的に実行し,
    前記時系列データを前記類似度に応じて前記時系列データの精度低減,削除,警報発行,分散システムへの転送の少なくとも一つを行う,
    ことを特徴とする時系列データ管理システム。
  8. 請求項7に記載の時系列データ管理システムであって,
    前記処理部は,
    前記葉クラスタに属する前記時系列データの精度を低減する時,特定の許容誤差率で持って前記時系列データの精度低減を行うことにより,前記時系列データの類似度を算出し,
    精度低減結果である時系列データが同じ葉クラスタに分類されることをもって該許容誤差率が妥当であると判定する,
    ことを特徴とする時系列データ管理システム。
  9. 請求項7に記載の時系列データ管理システムであって,
    前記処理部は,
    前記時系列データをその類似度により分類し,出現頻度の高いデータを平常データとして重要度を低く設定し,重要度の高い少数データと重要度の低い多数データを別システムにて管理することにより,検索や解析処理を中心に行うシステムと登録を中心に行うシステムとの負荷バランスを取る,
    ことを特徴とする時系列データ管理システム。
  10. 請求項1に記載の時系列データ管理システムであって,
    前記処理部は,
    前記特徴区間管理テーブルから,ユーザ指定時間範囲における前記特徴区間を識別する識別子を抽出し,前記特徴インデクスから当該識別子を持つ葉クラスタを探索し,探索した前記葉クラスタの上位ノードに対し,類似度閾値を超過する最初の枝クラスタを探索し,
    探索された該枝クラスタの下位クラスタの全ての葉クラスタを探索し,
    前記特徴区間管理テーブルから,前記全ての葉クラスタに記載の識別子に対応する全ての前記特徴区間の開始時刻・終了時刻を検索し,検索結果を前記入出力部表示するよう制御する,
    ことを特徴とする時系列データ管理システム。
  11. 処理部と入出力部とを備え,時系列データを管理する時系列データ管理システムにおける時系列データ管理方法であって,
    前記処理部は,
    時系列データをその特徴に応じた特徴区間に分割し,当該特徴区間のデータ,開始時刻,終了時刻,特徴区間を識別する識別子とを管理し,
    前記特徴区間同士の類似度を算出し,算出した前記特徴区間の類似度に応じて,前記特徴区間を階層的にクラスタリングし,得られる前記特徴区間のクラスタ間の類似度を枝クラスタに,前記特徴区間を識別する識別子を葉クラスタに持つ木構造の特徴インデクスを構成することにより,前記時系列データを管理する,
    ことを特徴とする時系列データ管理方法。
  12. 請求項11に記載の時系列データ管理方法であって,
    前記処理部は,
    前記特徴インデクスを前記入出力部に表示し,
    前記入出力部から,前記枝クラスタないし前記葉クラスタの属性として,前記特徴区間の時系列パタンの意味付けを行うラベルと,対応するアクションを入力させるよう制御する,
    ことを特徴とする時系列データ管理方法。
  13. 請求項12に記載の時系列データ管理方法であって,
    前記処理部は,
    前記特徴区間を前記類似度により分類し,前記時系列パタンの出現頻度から平常データと異常データを分離し,前記平常データに重要度の低いラベルを付与する,
    ことを特徴とする時系列データ管理方法。
  14. 請求項11に記載の時系列データ管理方法であって,
    前記処理部は,
    入力された前記時系列データと,前記葉クラスタの識別子により識別される前記特徴区間の時系列パタンとの類似判定を行うことにより前記類似度を算出して,最も類似した葉クラスタを選択し,
    当該葉クラスタの吸収閾値と前記類似度とを比較することにより,当該葉クラスタへの吸収判定を行い,
    当該葉クラスタの上位の前記枝クラスタの類似度との比較を再帰的に行うことにより枝クラスタへの挿入位置を決定し,
    入力された前記時系列データを管理する葉クラスタを当該枝クラスタへ挿入し,
    挿入した前記葉クラスタの上位の枝クラスタの類似度と代表葉クラスタを再帰的に更新する,
    ことを特徴とする時系列データ管理方法。
  15. 請求項11に記載の時系列データ管理方法であって,
    前記処理部は,
    前記特徴区間のデータ,前記開始時刻,前記終了時刻,及び前記特徴区間を識別する識別子を特徴区間管理テーブルで管理し,
    前記特徴区間管理テーブルから,ユーザ指定時間範囲における前記特徴区間を識別する識別子を抽出し,前記特徴インデクスから当該識別子を持つ葉クラスタを探索し,探索した前記葉クラスタの上位ノードに対し,類似度閾値を超過する最初の枝クラスタを探索し,
    探索された該枝クラスタの下位クラスタの全ての葉クラスタを探索し,
    前記特徴区間管理テーブルから,前記全ての葉クラスタに記載の識別子に対応する全ての前記特徴区間の開始時刻・終了時刻を検索し,検索結果を前記入出力部に表示するよう制御する,
    ことを特徴とする時系列データ管理方法。
PCT/JP2011/072828 2011-10-04 2011-10-04 時系列データ管理システム,および方法 WO2013051101A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2011/072828 WO2013051101A1 (ja) 2011-10-04 2011-10-04 時系列データ管理システム,および方法
JP2013537307A JP5715261B2 (ja) 2011-10-04 2011-10-04 時系列データ管理システム,および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/072828 WO2013051101A1 (ja) 2011-10-04 2011-10-04 時系列データ管理システム,および方法

Publications (1)

Publication Number Publication Date
WO2013051101A1 true WO2013051101A1 (ja) 2013-04-11

Family

ID=48043293

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/072828 WO2013051101A1 (ja) 2011-10-04 2011-10-04 時系列データ管理システム,および方法

Country Status (2)

Country Link
JP (1) JP5715261B2 (ja)
WO (1) WO2013051101A1 (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294911A (zh) * 2013-05-23 2013-09-11 中国人民解放军国防科学技术大学 一种时间序列相似度值获取方法及系统
JP2015108990A (ja) * 2013-12-05 2015-06-11 株式会社日立ソリューションズ 異常検出装置及び異常検出方法
WO2016111002A1 (ja) * 2015-01-09 2016-07-14 株式会社日立製作所 データ管理装置及びデータ管理方法
JP2016201011A (ja) * 2015-04-13 2016-12-01 三菱電機株式会社 プラントデータの要約表示装置
CN108319678A (zh) * 2018-01-30 2018-07-24 复旦大学 一种海量时间序列的分布式索引方法
JP2019520659A (ja) * 2016-07-07 2019-07-18 アスペン テクノロジー インコーポレイテッド 時系列パターンモデルを用いて主要パフォーマンス指標(kpi)を監視するコンピュータシステム及び方法
JP2019525297A (ja) * 2016-06-24 2019-09-05 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh スマートな製造組立ラインのパフォーマンスのための視覚的診断/分析システム及び方法
DE112017006859T5 (de) 2017-02-20 2019-09-26 Mitsubishi Electric Corporation Musterextraktionseinrichtung, Musterextraktionsverfahren und Musterextraktionsprogramm
US10572836B2 (en) 2015-10-15 2020-02-25 International Business Machines Corporation Automatic time interval metadata determination for business intelligence and predictive analytics
US11016730B2 (en) 2016-07-28 2021-05-25 International Business Machines Corporation Transforming a transactional data set to generate forecasting and prediction insights
US20210295038A1 (en) * 2020-03-19 2021-09-23 Kabushiki Kaisha Toshiba Information processing device, information processing method, and recording medium
CN113779077A (zh) * 2021-09-28 2021-12-10 京东城市(北京)数字科技有限公司 时间段查询方法、装置、电子设备和存储介质
JPWO2022024946A1 (ja) * 2020-07-28 2022-02-03
WO2022064801A1 (ja) * 2020-09-25 2022-03-31 株式会社 東芝 プラント監視支援装置
US11294364B2 (en) 2018-07-03 2022-04-05 Mitsubishi Electric Corporation Data processing device and data processing method
CN115670418A (zh) * 2023-01-03 2023-02-03 深圳市研强物联技术有限公司 一种基于智能手表用户信息的数据存储方法
CN115858636A (zh) * 2023-03-01 2023-03-28 深圳市宏博信息科技有限公司 面向大数据流的分布式索引搜索方法、装置
CN116089843A (zh) * 2023-04-10 2023-05-09 国网浙江省电力有限公司 一种基于数据聚类的新能源结算数据异常检测与预警方法
US11755945B2 (en) 2019-08-07 2023-09-12 International Business Machines Corporation Time-series data uncertainty reduction

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7218764B2 (ja) * 2019-02-14 2023-02-07 日本電気株式会社 時系列データ処理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1173217A (ja) * 1997-08-27 1999-03-16 Ishikawajima Harima Heavy Ind Co Ltd プラント用インタフェースエージェント
JP2003132088A (ja) * 2001-10-22 2003-05-09 Toshiba Corp 時系列データ検索システム
JP2007011686A (ja) * 2005-06-30 2007-01-18 Yokogawa Electric Corp プラント情報処理システムおよびプラント情報処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1173217A (ja) * 1997-08-27 1999-03-16 Ishikawajima Harima Heavy Ind Co Ltd プラント用インタフェースエージェント
JP2003132088A (ja) * 2001-10-22 2003-05-09 Toshiba Corp 時系列データ検索システム
JP2007011686A (ja) * 2005-06-30 2007-01-18 Yokogawa Electric Corp プラント情報処理システムおよびプラント情報処理方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294911A (zh) * 2013-05-23 2013-09-11 中国人民解放军国防科学技术大学 一种时间序列相似度值获取方法及系统
JP2015108990A (ja) * 2013-12-05 2015-06-11 株式会社日立ソリューションズ 異常検出装置及び異常検出方法
WO2016111002A1 (ja) * 2015-01-09 2016-07-14 株式会社日立製作所 データ管理装置及びデータ管理方法
JP2016201011A (ja) * 2015-04-13 2016-12-01 三菱電機株式会社 プラントデータの要約表示装置
US10572836B2 (en) 2015-10-15 2020-02-25 International Business Machines Corporation Automatic time interval metadata determination for business intelligence and predictive analytics
US10572837B2 (en) 2015-10-15 2020-02-25 International Business Machines Corporation Automatic time interval metadata determination for business intelligence and predictive analytics
JP2019525297A (ja) * 2016-06-24 2019-09-05 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh スマートな製造組立ラインのパフォーマンスのための視覚的診断/分析システム及び方法
JP7009438B2 (ja) 2016-07-07 2022-01-25 アスペン テクノロジー インコーポレイテッド 時系列パターンモデルを用いて主要パフォーマンス指標(kpi)を監視するコンピュータシステム及び方法
JP2019520659A (ja) * 2016-07-07 2019-07-18 アスペン テクノロジー インコーポレイテッド 時系列パターンモデルを用いて主要パフォーマンス指標(kpi)を監視するコンピュータシステム及び方法
US11016730B2 (en) 2016-07-28 2021-05-25 International Business Machines Corporation Transforming a transactional data set to generate forecasting and prediction insights
DE112017006859T5 (de) 2017-02-20 2019-09-26 Mitsubishi Electric Corporation Musterextraktionseinrichtung, Musterextraktionsverfahren und Musterextraktionsprogramm
CN108319678A (zh) * 2018-01-30 2018-07-24 复旦大学 一种海量时间序列的分布式索引方法
US11294364B2 (en) 2018-07-03 2022-04-05 Mitsubishi Electric Corporation Data processing device and data processing method
US11763199B2 (en) 2019-08-07 2023-09-19 International Business Machines Corporation Time-series data uncertainty reduction
US11755945B2 (en) 2019-08-07 2023-09-12 International Business Machines Corporation Time-series data uncertainty reduction
US11803613B2 (en) * 2020-03-19 2023-10-31 Kabushiki Kaisha Toshiba Information processing device, information processing method, and recording medium
US20210295038A1 (en) * 2020-03-19 2021-09-23 Kabushiki Kaisha Toshiba Information processing device, information processing method, and recording medium
JPWO2022024946A1 (ja) * 2020-07-28 2022-02-03
TWI790696B (zh) * 2020-07-28 2023-01-21 日商川崎重工業股份有限公司 狀態監視裝置、狀態異常判別方法以及狀態異常判別程式
WO2022024946A1 (ja) * 2020-07-28 2022-02-03 川崎重工業株式会社 状態監視装置、状態異常判別方法及び状態異常判別プログラム
JP7466652B2 (ja) 2020-07-28 2024-04-12 川崎重工業株式会社 状態監視装置、状態異常判別方法及び状態異常判別プログラム
WO2022064801A1 (ja) * 2020-09-25 2022-03-31 株式会社 東芝 プラント監視支援装置
CN113779077A (zh) * 2021-09-28 2021-12-10 京东城市(北京)数字科技有限公司 时间段查询方法、装置、电子设备和存储介质
CN115670418A (zh) * 2023-01-03 2023-02-03 深圳市研强物联技术有限公司 一种基于智能手表用户信息的数据存储方法
CN115858636A (zh) * 2023-03-01 2023-03-28 深圳市宏博信息科技有限公司 面向大数据流的分布式索引搜索方法、装置
CN115858636B (zh) * 2023-03-01 2023-06-27 深圳市宏博信息科技有限公司 面向大数据流的分布式索引搜索方法、装置
CN116089843A (zh) * 2023-04-10 2023-05-09 国网浙江省电力有限公司 一种基于数据聚类的新能源结算数据异常检测与预警方法
CN116089843B (zh) * 2023-04-10 2023-09-08 国网浙江省电力有限公司 一种基于数据聚类的新能源结算数据异常检测与预警方法

Also Published As

Publication number Publication date
JPWO2013051101A1 (ja) 2015-03-30
JP5715261B2 (ja) 2015-05-07

Similar Documents

Publication Publication Date Title
JP5715261B2 (ja) 時系列データ管理システム,および方法
JP6154542B2 (ja) 時系列データ管理方法及び時系列データ管理システム
WO2021052031A1 (zh) 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质
US20110078106A1 (en) Method and system for it resources performance analysis
US20190079965A1 (en) Apparatus and method for real time analysis, predicting and reporting of anomalous database transaction log activity
CN108182963A (zh) 一种医疗数据处理方法及装置
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
KR20150057322A (ko) 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법
CN111709714B (zh) 基于人工智能的流失人员预测方法和装置
JP6210867B2 (ja) データ関連性解析システムおよびデータ管理装置
Al-Janabi A proposed framework for analyzing crime data set using decision tree and simple k-means mining algorithms
CN114356940A (zh) 电网数据治理平台及方法
CN111984442A (zh) 计算机集群系统的异常检测方法及装置、存储介质
CN110910991A (zh) 一种医用自动图像处理系统
CN113641659A (zh) 医疗特征数据库构建方法、装置、设备及存储介质
CN115130847A (zh) 一种设备画像建模方法及系统
KR101888637B1 (ko) 제조 특화형 알고리즘 템플릿 기반 데이터 분석 방법 및 플랫폼 구조 시스템
CN116894152A (zh) 一种多源数据调研与实时分析方法
CN113742118A (zh) 对数据管道中的异常进行检测的方法和系统
Jabeen et al. Divided we stand out! Forging Cohorts fOr Numeric Outlier Detection in large scale knowledge graphs (CONOD)
US11954945B2 (en) Systems and methods for analyzing machine performance
KR101508068B1 (ko) 데이터 중복성 제거 장치 및 그 방법
CN112488236B (zh) 一种集成的无监督学生行为聚类方法
CN106681791A (zh) 一种基于对称邻居关系的增量式虚拟机异常检测方法
Liu et al. Research on application of data mining in hospital management

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11873556

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013537307

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11873556

Country of ref document: EP

Kind code of ref document: A1