JPWO2013051101A1 - Time-series data management system and method - Google Patents
Time-series data management system and method Download PDFInfo
- Publication number
- JPWO2013051101A1 JPWO2013051101A1 JP2013537307A JP2013537307A JPWO2013051101A1 JP WO2013051101 A1 JPWO2013051101 A1 JP WO2013051101A1 JP 2013537307 A JP2013537307 A JP 2013537307A JP 2013537307 A JP2013537307 A JP 2013537307A JP WO2013051101 A1 JPWO2013051101 A1 JP WO2013051101A1
- Authority
- JP
- Japan
- Prior art keywords
- time
- cluster
- series data
- feature
- leaf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0218—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
- G05B23/0221—Preprocessing measurements, e.g. data collection rate adjustment; Standardization of measurements; Time series or signal analysis, e.g. frequency analysis or wavelets; Trustworthiness of measurements; Indexes therefor; Measurements using easily measured parameters to estimate parameters difficult to measure; Virtual sensor creation; De-noising; Sensor fusion; Unconventional preprocessing inherently present in specific fault detection methods like PCA-based methods
Abstract
大規模時系列データを特徴に応じて分類管理して,異常パタンの発見や管理を容易にし,管理,時系列データの精度低減・削除・分散システムへの移動等の重要度別のライフサイクル管理を行うことを可能とする。収集機能(401)はセンサ(101)から時系列データを収集し,分類機能(402)では,特徴区間抽出により特徴に応じた特徴区間に分割し,類似度算出により特徴区間同士の類似度を算出することにより,特徴区間の階層クラスタリングを行う。すなわち,特徴区間の出現頻度から平常区間と重要度の高い異常区間に再分類,障害事例から異常区間を再分類,或いはユーザに未知異常パタンの分類を行わせる。そして,分類結果に応じて警報機能により警報を発行し,日常的な漏れのない対策を行わせたり,時系列データの精度低減・削除・分散システムへの移動を行わせたりする。Classify and manage large-scale time-series data according to characteristics to make it easier to find and manage abnormal patterns, and manage lifecycle management by importance, such as reducing accuracy, deleting and moving time-series data to distributed systems It is possible to perform. The collection function (401) collects time-series data from the sensor (101), and the classification function (402) divides into feature sections corresponding to the features by feature section extraction, and calculates the similarity between the feature sections by similarity calculation. By calculating, hierarchical clustering of feature sections is performed. In other words, the normal section and the abnormal section with high importance are reclassified from the appearance frequency of the characteristic section, the abnormal section is reclassified from the failure case, or the user classifies the unknown abnormal pattern. Then, according to the classification result, an alarm is issued by an alarm function, and measures are taken to prevent daily omissions, and accuracy of time series data is reduced, deleted, and moved to a distributed system.
Description
観測値時系列データから異常予兆や異常原因を推測する予防保全システム,特に装置に配備された多数のセンサからの観測値時系列データの管理・解析技術に関する。 The present invention relates to a preventive maintenance system for estimating an anomaly sign and anomaly cause from observed time series data, and more particularly, to a technique for managing and analyzing observed time series data from a large number of sensors installed in an apparatus.
プラント保全システムの実装形態として,環境に配備された多数のセンサからの観測値時系列データを収集し,履歴として管理する時系列データ管理システムや,時系列データ管理システム上で構築され,管理された時系列データを解析し,異常予兆の検知や異常原因の推定を行う時系列データ解析システムが存在する。 As an implementation form of the plant maintenance system, it is constructed and managed on a time series data management system that collects observation time series data from many sensors deployed in the environment and manages it as a history, or a time series data management system. There is a time-series data analysis system that analyzes the time-series data, detects abnormal signs, and estimates the cause of the abnormality.
大量の時系列データを管理するために時系列データ管理システムが備えるべき機能として,時系列を可逆ないし非可逆圧縮してデータ量を削減する機能,時系列データを複数のストレージやサーバに分散管理する機能,重要度の低い時系列データを低コストのバックアップストレージやクラウドシステムへ転送する,時間方向のまびき等の精度低減操作を行い,データ量を削減する,過去の不要な時系列データを削除する,などのLCM(Life Cycle Management)機能が提案されている。時系列データの性質を利用した圧縮方式としては,合同な時系列パタンを辞書化して可逆圧縮するLZW(Lempel-Ziv-Welch)圧縮方式,時系列をDCT(Discrete Cosine Transform)ないしWavelet変換を行った結果の高周波成分を除去することによるJPEGやJPEG2000非可逆圧縮方式が提案されている。 Functions that a time series data management system should have to manage a large amount of time series data include a function to reduce the amount of data by reversible or irreversible compression of time series, and distributed management of time series data to multiple storages and servers Functions, transferring time-series data with low importance to low-cost backup storage and cloud systems, performing precision reduction operations such as blinking in the time direction, etc., reducing the amount of data, deleting unnecessary time-series data in the past LCM (Life Cycle Management) features such as As a compression method that uses the characteristics of time series data, LZW (Lempel-Ziv-Welch) compression method that converts lossy compression by converting congruent time series patterns into a dictionary, DCT (Discrete Cosine Transform) or Wavelet transform is applied to time series. JPEG and JPEG2000 lossy compression methods have been proposed by removing high-frequency components as a result.
また,時系列データ解析システムは,時系列データをあらかじめ与えられた判定規則を用いて評価することにより異常を検知する,あるいは異常原因を判定するなど何らかの判定を行う時系列データ判定システムと,時系列データから該判定規則を抽出・生成する判定規則生成システムに分類できる。時系列データ判定システムで与えられる判定規則は,たとえば時系列データやその加工データと閾値との超過判定,これらの論理和・論理積で構成されるFTA(Fault Tree Analysis),プラント正常稼働時の時系列をクラスタリングして生成したクラスタ集合を学習データとして管理して,このクラスタ集合からの乖離から異常を判定するクラスタ判定などが存在する。特許文献1,特許文献2では,あらかじめ異常と特定できる時系列パタンを蓄積し,入力時系列とこれらの時系列パタンの類似度を比較することにより,異常を検知し,あるいは異常原因を特定する方式が提案されている。また,判定規則生成システムは,主成分分析,k-means法,階層クラスタ分析,Wavelet解析等の分析アルゴリズムを提供することにより,分析者が試行錯誤で判定規則を生成することを補助する機能を提供している。
The time-series data analysis system also includes a time-series data determination system that performs some kind of determination, such as detecting an abnormality by evaluating time-series data using a predetermined determination rule, or determining the cause of the abnormality, It can be classified into a determination rule generation system that extracts and generates the determination rule from series data. Judgment rules given by the time series data judgment system include, for example, judgment of time series data and its processed data exceeding the threshold value, FTA (Fault Tree Analysis) composed of these logical sums and logical products, There is a cluster determination in which a cluster set generated by clustering time series is managed as learning data, and abnormality is determined from deviation from this cluster set. In
図28に従来のプラント保全システムの概念図を示す。プラント保全システム2800は,センサからの時系列データを時系列ストアに格納し,診断規則に従い異常の検知を行い,警報を発行することにより,状態基準保全を行うという目的を持つ。
FIG. 28 shows a conceptual diagram of a conventional plant maintenance system. The
保全システム2800のユーザは,保全担当者,時系列解析者,システム運用者という三種類に分類される。保全担当者は,保全システムからの警報を受け取り,保全計画の立案を行う。時系列解析者は,未知な障害を解析して,診断規則の作成・更新を行う。システム運用者は,大量の時系列データを管理する保全システム自体のメンテナンスを担当し,データ圧縮・データ移動・データ削除などの時系列データのライフサイクル管理を行う。
Users of the
従来の保全システムでは,保全担当者,時系列解析者,システム運用者間の情報共有手段がシステムとして提供されていなかった。未知の異常事例発見が保全担当者の責任範囲となり,保全担当者と時系列解析者間では,保全担当者が異常の誤検知・未検知を発見した時点で,文書やメール等で時系列解析者に解析を依頼するという形式となっていた。しかし一般に,保全担当者は多忙であり,時系列データを日常的に参照して異常パタンを発見することが困難であり,また診断知識に習熟しているわけでもない。そのため,保全担当者が,発生した時系列データの異常パタンを全て網羅的に収集し,タイムリーに時系列解析者に異常事例を報告することができなかった。一方,時系列解析者は,判定閾値の調整や,診断アルゴリズム自体の変更を行い,システム改変という形で診断規則の更新を行っている。そのため,異常発生から診断規則修正までの期間が長期間となり,日常的に診断規則を修正することができなかった。 In conventional maintenance systems, information sharing means among maintenance personnel, time series analysts, and system operators has not been provided as a system. The discovery of unknown abnormal cases is the responsibility of the maintenance staff, and the maintenance staff and the time series analyst analyze the time series in documents, emails, etc. when the maintenance staff finds an error detection / not detected. It was in the form of requesting analysis to the person. However, in general, maintenance personnel are busy, it is difficult to find abnormal patterns by referring to time-series data on a daily basis, and they are not familiar with diagnostic knowledge. For this reason, the maintenance staff could not collect all the abnormal patterns of the time series data that occurred and could report the abnormal cases to the time series analyst in a timely manner. On the other hand, time series analysts adjust diagnostic thresholds, change diagnostic algorithms themselves, and update diagnostic rules in the form of system modifications. For this reason, the period from the occurrence of an abnormality to the correction of the diagnostic rule is long, and the diagnostic rule cannot be corrected on a daily basis.
また,大量の時系列データを効率的に管理するためには,従来の時間を基準としたライフサイクル管理ではなく,診断に必要となる重要なデータを残し,重要度の低い平常時のデータについてはデータの精度低減による非可逆圧縮,低コストストレージへの移動,データ削除等,状態を基準としたライフサイクル管理が必要となる。しかし,従来,システム運用者は,保全担当者,時系列解析者との情報共有の機会がなく,時系列解析結果をシステム運用者にフィードバックする手段が存在しなかった。そのため,システム運用者は,全てのデータの精度低減・削除等を全く行わないか,あるいはシステム構築時に決定したLCM(Life Cycle Management)規則に従い,たとえば秒単位のデータは1日分保存し,それ以降は分単位のデータに間引いて3ヶ月保存し,それ以降は削除する,などの,時間基準でのライフサイクル管理を行っていた。しかし一般にプラントは建設件数がたとえば自動車と比較して少なく,事例収集が困難であるため,重要度の高い異常パタンについては,過去データであっても精度低減や削除を行わずに事例として管理する必要がある。従来ではこの事例収集は,時系列解析者の責任として文書等で管理しており,そのため時間基準のライフサイクル管理により,過去データの事例の収集漏れが発生するという課題があった。 Also, in order to efficiently manage a large amount of time-series data, instead of the conventional life cycle management based on time, important data necessary for diagnosis is left, and normal data with low importance are kept. Requires life-cycle management based on state, such as lossy compression due to reduced data accuracy, movement to low-cost storage, and data deletion. However, conventionally, the system operator has no opportunity to share information with the maintenance staff and the time series analyst, and there is no means for feeding back the result of the time series analysis to the system operator. For this reason, the system operator does not reduce or delete the accuracy of all data at all, or according to the LCM (Life Cycle Management) rule determined at the time of system construction, for example, save data for one second for one day. After that, the life cycle management was performed on a time basis, such as thinning out the data in minutes and saving it for 3 months, and then deleting it. In general, however, plants have fewer constructions than automobiles, for example, and it is difficult to collect cases. Therefore, abnormal patterns with high importance are managed as cases without reducing accuracy or deleting them even if they are past data. There is a need. Conventionally, this case collection is managed by documents etc. as the responsibility of the time series analyst. Therefore, there has been a problem that the collection of past data cases may occur due to time-based life cycle management.
本発明の目的は,上述した課題を解決し,異常パタンの発見や管理を容易にし,重要度別のライグサイクル管理を行うことを可能とする時系列データ管理システム,およびその方法を提供することにある。 An object of the present invention is to provide a time-series data management system and method for solving the above-described problems, facilitating discovery and management of abnormal patterns, and performing rig cycle management according to importance. It is in.
上記の目的を達成するため,本発明においては,処理部と記憶部とを備え,時系列データを管理する時系列データ管理システムであって,処理部は,時系列データを特徴区間に分割し,記憶部に,当該特徴区間のデータ,開始時刻,終了時刻,特徴区間を識別する識別子とを管理する特徴区間管理テーブルを形成し,特徴区間同士の類似度を算出し,算出した特徴区間の類似度に応じて,特徴区間を階層的にクラスタリングし,得られる特徴区間のクラスタ間の類似度を枝クラスタに,当該特徴区間を識別する識別子を葉クラスタに持つ木構造の特徴インデクスを構成することにより,時系列データを管理する時系列データ管理システムを提供する。 In order to achieve the above object, the present invention is a time series data management system that includes a processing unit and a storage unit and manages time series data, and the processing unit divides the time series data into feature sections. , Forming a feature section management table for managing the data of the feature section, the start time, the end time, and the identifier for identifying the feature section in the storage unit, calculating the similarity between the feature sections, According to similarity, feature sections are clustered hierarchically, and a feature index of a tree structure is formed with the similarity between the clusters of the obtained feature sections as branch clusters and the identifier for identifying the feature sections as leaf clusters Thus, a time series data management system for managing time series data is provided.
また,上記の目的を達成するため,本発明においては,処理部と入出力部とを備え,時系列データを管理する時系列データ管理システムにおける時系列データ管理方法であって,処理部は,時系列データを特徴区間に分割し,当該特徴区間のデータ,開始時刻,終了時刻,特徴区間を識別する識別子とを管理し,特徴区間の類似度を算出し,算出した特徴区間の類似度に応じて,特徴区間を階層的にクラスタリングし,得られる特徴区間のクラスタ間の類似度を枝クラスタに,特徴区間を識別する識別子を葉クラスタに持つ木構造の特徴インデクスを構成することにより,時系列データを管理する時系列データ管理方法を提供する。 In order to achieve the above object, according to the present invention, there is provided a time series data management method in a time series data management system that includes a processing unit and an input / output unit and manages time series data. Divide time-series data into feature sections, manage the data of the feature section, start time, end time, and identifier for identifying the feature section, calculate the similarity of the feature section, and calculate the similarity of the calculated feature section Accordingly, by hierarchically clustering the feature intervals, constructing a tree-structured feature index with the similarity between the clusters of the obtained feature intervals as a branch cluster and a leaf cluster as an identifier for identifying the feature interval. Provided is a time series data management method for managing series data.
時系列データを類似度・重要度で分類し,未知異常パタンや既知の重要度の高い異常パタンに対してアクションを実行する手段を提供することにより,漏れのない保全計画の立案や,診断規則の改良を,日常的にかつ対応忘れ等の漏れがなく実行できる。 By classifying time-series data according to similarity and importance, and providing a means to execute actions on unknown abnormal patterns and known abnormal patterns with high importance, it is possible to create maintenance plans without omissions and diagnostic rules. Can be carried out on a daily basis and without omissions such as forgetting to respond.
また,時系列データを類似度・重要度で分類し,重要度別に時系列データを非可逆圧縮・削除・分散管理等のアクションを定義することが可能となるため,時間基準ではなく重要度等の状態基準でのライフサイクル管理を行うことが可能となる。これにより,診断に必要となる時系列データの蓄積と,大量の時系列データの効率的な管理を両立することが可能となる。 In addition, time series data can be classified by similarity and importance, and actions such as lossy compression / deletion / distribution management can be defined for each time series. It becomes possible to perform life cycle management based on the state standard. This makes it possible to achieve both the accumulation of time series data necessary for diagnosis and the efficient management of a large amount of time series data.
以下,本発明の一実施形態を図面に基づいて説明する。なお,本明細書において,時系列データ管理システムという場合,ネットワークを介して相互に接続される,1個または複数のセンサ,時系列ストア装置,ストレージ装置,及び1個または複数のユーザ端末105で構成されるシステム全体を呼ぶ場合と,時系列ストア装置とストレージ装置からなる構成を呼ぶ場合がある点留意されたい。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In this specification, a time-series data management system refers to one or more sensors, a time-series store device, a storage device, and one or
図1は,第1の実施例に係る,時系列データプラットフォームのシステム全体の概要を示すブロック図である。本実施例の時系列データプラットフォームは,1個または複数のセンサ101,時系列ストア装置103,ストレージ装置106,ユーザが使用する1個または複数のユーザ端末105を備え,ネットワーク102,104を介して相互に接続される自毛列データ管理システムである。ネットワークとしては,例えば専用線やいわゆるインターネットなどの広域網,LAN(Local Aria Network)などのローカルなネットワークを用いて良い。
FIG. 1 is a block diagram showing an overview of the entire system of the time series data platform according to the first embodiment. The time-series data platform of this embodiment includes one or
センサ101は,時間の経過に伴ってデータを発生するものをいう,例えば,プラントの設備や機器に取り付けられたセンサや,データセンタ内のサーバのログ,中央処理部(Central Processing Unit:CPU)やメモリ使用率等のパフォーマンスデータ,RFID(Radio Frequency Identification),自動車や列車等の車両センサ等が考えられるが,これに限定されるものではない。センサ101で発生した時系列データは,ネットワーク102を経由して時系列ストア装置103に入力される。時系列データは,時系列データが発生する毎に入力してもよいし,センサ101側で一時的に蓄積し,例えば1日毎など一定分蓄積された時系列データをまとめて入力してもよい。時系列ストア103は,入力した時系列データを処理した後,ストレージ装置106にデータとして保存する。ストレージ装置106は,図示の様に時系列ストア装置103と直接接続されていてもよいし,ネットワーク経由で接続されていてもよい。ユーザ端末105は,ネットワーク104を介して時系列ストア装置103に対して検索等のリクエストを発行し,センサ101からネットワーク102を介して収集され,ストレージ装置106に蓄積された時系列データを取得する。
The
図2は,図1の時系列データプラットフォームの一実施形態に関して,特に時系列データ管理システムの処理部として機能する時系列ストア装置103と,記憶部であるストレージ装置106の構成をより詳細に示すブロック図である。本実施形態の時系列ストア装置103は,時系列データの蓄積と検索を行う処理部である。時系列ストア装置103は,通常のコンピュータで構成でき,相互に接続されたメモリ206,プロセッサ205,入出力装置212,及び各種のインタフェース部からなる。このインタフェース部は,ディスクインタフェース(I/F)208,センサインタフェース204,ユーザインタフェース207を備える。なお,本明細書において,入出力装置212とインタフェース部を,更にはユーザ端末105を纏めて本システムの入出力部と呼ぶ場合がある。同様に,ストレージ装置106とメモリ206を総称して記憶部と呼ぶ場合がある。
FIG. 2 shows in more detail the configuration of the time-
この処理部である時系列ストア装置103は,センサインタフェース204を介してセンサ101と接続され,センサ101から時系列データ201を取得して,各種の処理を実行する。なお,本実施例において用いる時系列データとは,時間の経過に伴って連続または断続的に発生するデータを意味する。また時系列ストア装置103は,ユーザインタフェース207を介してユーザ端末105と接続され,ユーザ端末からの検索クエリ202を受け付け,検索結果203を返戻する。また時系列ストア装置103は,ディスクインタフェース208を介して,ストレージ装置106と接続され,センサ101からの時系列データ201やその処理結果をストレージ装置106に格納し,また取得する。
The time
メモリ206は,例えばRAM(Random Access Memory)のような記憶媒体で構成される。入出力装置212は,例えばキーボードやマウスなどの入力部,及び液晶モニタなどの表示部で構成される。この液晶モニタなどの表示部は,ユーザ端末105の表示部と一体化されることにより,後で説明するGUI(Graphical User Interface)機能を実現するための表示手段として用いることもできる。
The
メモリ206には,時系列データ201の蓄積と特徴量の算出および蓄積を行う時系列データ登録プログラム209と,ユーザ端末105から入力された検索クエリ202に基づいて時系列データの検索を行う時系列データ検索プログラム210が格納されており,時系列データ201やその処理結果を一時的に格納できる領域であるバッファ211を有している。本実施例において,後述する時系列データ登録プログラム209や時系列データ検索プログラム210の各処理は,プロセッサ205が,メモリ206に格納されたこれらのプログラムを実行することにより実現される。ただしこれらの処理は,その一部ないし全てを集積回路化するなどしてハードウェアで実現することもできる。
In the
ユーザ端末105は,時系列ストア装置103に対して,検索の実行を要求するユーザの端末であり,検索要求を示す検索クエリ202を送信し,検索結果203を受信する。また,ユーザ端末105は,時系列データ201の格納指示や,データ管理に関する各種設定を行うことも行う。ユーザ端末105は,図示していないが,同様にプロセッサ,メモリ,入出力装置を保持したコンピュータ構成を有している。またユーザ端末105は,時系列ストア装置103と同一装置,例えば一代のコンピュータ等で構成されても構わない。
The
ストレージ装置106は,類似した特徴区間を木構造で管理する特徴インデクス213,時系列データの特徴量を格納する特徴区間データテーブル214,時系列データを格納する時系列データテーブル215,特徴量算出方法を格納する特徴抽出規則テーブル216,ユーザにとって意味のある分類をファクトとして管理するファクトテーブル217を備える。本実施形態では,処理の対象となるデータを永続的に保持する記憶部として,ストレージ装置106を使用するものを例示して説明するが,記憶媒体としてフラッシュメモリを用いた半導体ディスク装置や,光ディスク装置など,永続的にデータを保持することのできる記憶装置であればどのようなものを用いても構わない。また,テーブル214,215,216等は,例えばリレーショナルデータベースのテーブルとして説明するが,ファイルシステム上に格納された1個ないし複数個のファイルとこれらのファイルにアクセスするためのプログラムなど,テーブルとして表現できる手法であれば,どのようなものをテーブルとして用いても構わない。
The
図3は,図2における複数のセンサ101からの時系列データ201の構造の一例を示す図である。時系列データは,センシングデバイスや設備・機器等から取得したセンサ観測値が,その観測時刻と観測センサを示す構造を取る。図3では,秒単位で変化する観測時刻301と,0個以上のセンサ観測値302の集合が1つのレコード303を構成し,このレコードが複数並ぶ,という構成を取る。観測時刻,観測センサ,観測値が一意に決定される構造を取ればよく,実際のデータ構造は複数の形式で表現可能である。例えばセンサ観測間隔が一定間隔であることが保証される場合,全てのレコード303から時刻301を省略し,時系列データ全体のヘッダに開始時刻と観測間隔を1個のみ格納することができる。観測センサについては,時系列データ全体のヘッダに観測センサを一意に識別する識別子を記載してもよいし,センサ101と時系列ストア装置103間で合意が取られている場合,レコード303における観測値の出現位置を持ってセンサを識別してもよい。またセンサ101が単独の観測値しか発行しない場合,列302は1列となり,センサ101が観測を行うたびに時系列データを発行する場合,レコード303は1個となる。
FIG. 3 is a diagram illustrating an example of the structure of the time-
図4は,図2の登録プログラム209,検索プログラム210,およびストレージ装置106に格納されたデータ213〜215の関係を示すプログラム構成図である。登録プログラム209は,収集機能401,分類機能402,およびアクション機能群403から構成される。
FIG. 4 is a program configuration diagram showing the relationship between the
センサ101から到来した時系列データは,登録プログラム209中の収集機能401により収集され,分類機能402により特徴量を抽出され,特徴インデクス213に基づき分類され,その結果,分類毎に定義される規則に従い,アクション機能群403のいずれかの機能が実行される。アクション機能群403はプラグイン形式で追加可能な機能の集合であり,例えば図4に示すように,転送機能408,登録機能409,警報機能410,解析機能411から構成される。
The time series data coming from the
登録機能409は,分類機能402により生成された特徴区間データテーブル214や,時系列データテーブル215をデータベースに登録する機能を有する。警報機能410は,異常が発生したことを適切なユーザに提示する機能を有する。解析機能411は,FTA(Fault Tree Analysis)等の解析プログラムに解析を依頼する機能を有する。なお,転送機能408は,図26,図27を用いて詳述する第2の実施例に係るものであり,ネットワーク上に分散して配置される複数の第二の時系列ストア装置のいずれかに時系列を転送する機能を有する。
The
一方,検索プログラム210は,GUI機能405,検索機能404,インデクス管理機能406,時系列管理機能407から構成される。GUI機能405は,ユーザ端末105に対し,画面を提示し,またユーザ端末からのクエリを受け付けるために利用される。また,このGUI機能405は,それ自身の入出力装置212の表示部への画面提示にも利用することが可能である。検索機能404は,センサ識別子や時刻指定で時系列データの検索を行う機能,類似する時系列データを検索する機能を有する。インデクス管理機能406は,特徴インデクスの分類に,人間にとって意味あるラベルを付与し,アクションを定義する機能を有する。時系列管理機能407は,特徴インデクスに従い,時系列データの精度低減,分散配置,削除などのライフサイクル管理を行う機能を有する。
On the other hand, the
図5は,図4の登録プログラム209における分類機能402の詳細な機能ブロックを示すプログラム構成図である。分類機能402は,特徴区間抽出機能503,クラスタリング機能504,アクション実行機能506から構成される。収集機能301から入力される時系列データ501は,特徴区間抽出機能503において,特徴抽出規則216に従い,特徴量に加工され,図6で後述される特徴区間データに分割される。特徴抽出規則216はスクリプト言語で記載され,特徴区間抽出機能503は,特徴抽出規則216を解釈して実行するスクリプトパーサである。次に,特徴区間抽出機能503において生成された特徴区間データは,クラスタリング機能504において,特徴インデクス213を参照しながら分類される。
FIG. 5 is a program configuration diagram showing detailed functional blocks of the
特徴インデクス213は,後で図7を用いて詳述するように,これまで本システムに登録された全ての特徴区間を階層的にクラスタリングした木構造を取る。本実施例における特徴インデクスとは,特徴区間を階層的にクラスタリングし,得られる特徴区間のクラスタ間の類似度を枝クラスタに,特徴区間を識別する識別子を葉クラスタに持つ木構造である。新たに到来された特徴区間データ602は,特徴インデクス213に登録された特徴区間データの時系列パタンと類似度を比較され,最も類似したクラスタに吸収されるか,新たな特徴区間データとして特徴インデクスの木構造に追加される。なお,特徴インデクス内の特徴区間データと,到来した特徴区間データとの時系列パタンの類似度は,図5の類似度算出機能505により算出される。その後,アクション実行機能506において,特徴インデクスで定められる後述する規則に従い,図8で後述するファクトテーブル217から実行するアクション502を取得し,アクション機能群403のいずれかの機能を呼び出し,アクション502を実行する。
As will be described in detail later with reference to FIG. 7, the
図6は,図5の特徴区間抽出機能503の動作の一例を模式的に示す概念図である。特徴区間抽出機能503は,連続した時系列データ601を順次入力し,その時系列データ601の特徴を表す特徴量に変換し,さらに開始時刻Ts 606,終了時刻Te 607で区切られた特徴区間603に分割するという動作を行う。特徴量の算出式は対象分野毎に異なる可能性があるが,一例として以下のような方式を取ることができる。秒単位時系列データの1分間毎の分散σを算出し,その値が値方向の閾値604を下回る値を除去する。そして時間方向の閾値605の期間に閾値604を上回る値が存在しない時点で分割を行う。他の例としては,時系列データを固定区間で分割し,Wavelet変換を行った特定レベルのデータを特徴量とするなどを取ることができる。本明細書において,時系列データを特徴量に変換し,さらに特徴区間に分割したデータのことを特徴区間データと呼ぶことにする。
FIG. 6 is a conceptual diagram schematically showing an example of the operation of the feature
図7は,本実施例のストレージ装置106に格納され,クラスタリング機能504で使用される特徴インデクス213の構造の一例を示す図である。特徴インデクス213は,階層型クラスタリング手法においてデンドログラムとして知られる構造と類似した2分木構造を取り,例えばストレージ上では,XML(Extensible Markup Language)言語にて格納することが可能である。特徴インデクス213は,単独の根クラスタ701の下方に枝クラスタあるいは葉クラスタが2つ接続され,枝クラスタ702の下方には別の枝クラスタあるいは葉クラスタが2つ接続される,という再帰的な構造を取る。
FIG. 7 is a diagram showing an example of the structure of the
なお本文書では,以降,子クラスタ,子孫クラスタ群,親クラスタ,先祖クラスタ群,兄弟クラスタを以下の意味で用いる。あるクラスタに対する「子クラスタ」とは,該クラスタに下方に接続される2つのクラスタのいずれかの事である。また「子孫クラスタ群」とは,該子クラスタおよび該子クラスタの子クラスタを再帰的に含む全てのクラスタ群である。「親クラスタ」とは,該クラスタの上方に接続されるクラスタである。「先祖クラスタ群」とは,該親クラスタおよびその該親クラスタの親クラスタを再帰的に含む全てのクラスタ群である。また「兄弟クラスタ」とは,該クラスタと同じ親クラスタを持つ該クラスタとは異なるクラスタを意味する。 In this document, child clusters, descendant cluster groups, parent clusters, ancestor cluster groups, and sibling clusters are used as follows. A “child cluster” for a cluster is one of two clusters connected downward to the cluster. The “descendant cluster group” is all cluster groups that recursively include the child cluster and the child clusters of the child cluster. A “parent cluster” is a cluster connected above the cluster. The “ancestor cluster group” is all cluster groups that recursively include the parent cluster and the parent cluster of the parent cluster. The “sibling cluster” means a cluster different from the cluster having the same parent cluster as the cluster.
図7の葉クラスタ703は類似した特徴区間の集合であるクラスタを表し,当該葉クラスタを一意に識別する識別子であるCID 704と葉属性705から構成される。葉属性705は,該葉クラスタ内の特徴区間を類似とみなす閾値である吸収閾値D 711,該葉クラスタ内に登録された特徴区間数である登録数n 712,該葉クラスタを代表する特徴区間の識別子である代表区間のIID 713,ファクトテーブルへの識別子であるFID 714を持つ。葉クラスタは0個以上のFIDを持つことができる。
A leaf cluster 703 in FIG. 7 represents a cluster that is a set of similar feature sections, and includes a
枝クラスタ702は,葉クラスタを再帰的に類似度に応じてまとめた階層型クラスタを表し,枝クラスタを一意に識別する識別子であるCID 706と枝属性707から構成される。枝属性707は,枝クラスタが保有する2つの部分クラスタの類似度である類似度D 708,枝クラスタを代表する葉クラスタのCID 709,ファクトテーブルへの識別子であるFID 710を持つ。葉クラスタは0個以上のFIDを持つことができる。根クラスタ701は,初期段階では葉クラスタであり,葉クラスタが複数登録された時点で枝クラスタとなる。
The branch cluster 702 represents a hierarchical cluster in which leaf clusters are recursively collected according to similarity, and includes a
図8は,アクション実行機能506において使用されるファクトテーブル217の構造の一例を示す図である。ファクトテーブル217は,ユーザにとって意味のある分類をファクトとして管理する。ファクトテーブルの1行をファクトと呼ぶ。各ファクトは,ファクトを一意に示す識別子であるFID801と,本分類のラベル802,本ファクトに対して実行すべき,後述するアクション803から構成される。ラベル802とは,例えば二行目に示すように,「異常起動A」であり,アクション803は例えば「重要度Aランクで警報発行」という内容が記載される。アクション803はスクリプト言語で記載され,アクション実行機能506は,アクション803を解釈して実行するスクリプトパーサである。詳細は図7を用いて後述するが,新たに到来した特徴区間データが,特徴インデクス213の特定の葉クラスタに最も類似するとして吸収される時,該当の葉クラスタおよびその先祖クラスタである複数の枝クラスタをサーチし,それぞれのクラスタにファクトテーブル217のファクトに対する識別子FID710あるいは714が登録されている場合,図8のファクトテーブル217内の該当FID 801に対応するアクション803を順次実行する。
FIG. 8 is a diagram showing an example of the structure of the fact table 217 used in the
図9のフローチャートを用いて,図5に示した本実施例の時系列データ管理システムにおけるクラスタリング機能504について説明する。クラスタリング機能504の概略動作としては,特徴区間データ602を入力し,該特徴区間603が特徴インデクス213のどの葉クラスタに属するかを判定し,判定された葉クラスタに対応するアクションを実行する。また該当葉クラスタが存在しない場合は,特徴インデクス213に新たな枝クラスタと葉クラスタを挿入する,さらにその先祖クラスタ群に対応するアクションを順次実行する,という動作を行う。以下、Step 1〜Step 9順次詳述する。
The
<Step 1> 類似葉クラスタ探索
特徴インデクス213の全ての葉クラスタ703に対し,入力された特徴区間603との類似度算出を行い,類似度が最も小さい葉クラスタ703を類似葉クラスタとして選択する。類似度算出は,類似度算出機能505に対し,葉クラスタ703の葉属性705の代表区間のIID 713が示す特徴区間データと,特徴区間データ602を入力することにより得る。なお類似度は正の値を取り,0に近いほど類似しているものとする。<
<Step 2> 葉クラスタ吸収判定
Step 1で選択された葉クラスタと,入力された特徴区間603との類似度が,当該葉クラスタの吸収閾値D 711よりも小さい値である場合,該入力された特徴区間が該葉クラスタに吸収されたと判定し,Step 5に進む。<
If the similarity between the leaf cluster selected in
<Step 3> 挿入枝探索
本ステップでは,入力された特徴区間603が,特徴インデクスのどの枝クラスタに挿入されるかを探索する。Step 1で選択された葉クラスタの親クラスタから根クラスタ701までの各枝クラスタ702について再帰的にクラスタ内包判定を行い,クラスタ内包される最も上位の枝クラスタの下部に枝クラスタを挿入する。このクラスタ内包判定のアルゴリズムは複数考えられる。第一の方法では,Step 1で選択した葉クラスタと,入力された特徴区間との類似度が,枝クラスタの類似度Dよりも小さい場合にクラスタに内包されるとする。第二の方法では,内包判定対象の枝クラスタと,入力された特徴区間との類似度が,該当枝クラスタの親クラスタの類似度よりも小さい場合にクラスタに内包されるとする。<
各枝クラスタと入力された特徴区間との類似度の算出は,下式で示される Ward法で算出できる。(G.N.Lance and W.T.Williams, "A general theory of classificatory sorting strategies. I. Hierarchical systems." Computer Journal, vol.9, pp.373-80 (1967)参照)すなわち2つの子クラスタ(クラスタi,クラスタj)から構成される枝クラスタと,入力された特徴区間oとの距離Dは,クラスタiとクラスタjとの距離Dij,クラスタiと入力された特徴区間oとの距離Dio,クラスタjと入力された特徴区間oとの距離Djo,クラスタiの格納データ数ni,クラスタjの格納データ数nj,入力された特徴区間の格納データ数no(=1)を用いて,以下の式で再帰的に計算できる。 The similarity between each branch cluster and the input feature interval can be calculated by the Ward method shown in the following equation. (See GNLance and WTWilliams, "A general theory of classificatory sorting strategies. I. Hierarchical systems." Computer Journal, vol.9, pp.373-80 (1967)), ie two child clusters (cluster i, cluster j The distance D between the branch cluster composed of () and the inputted feature interval o is inputted as the distance Dij between the cluster i and the cluster j, the distance Dio between the cluster i and the inputted feature interval o, and the cluster j. Using the distance Djo to the feature section o, the number of stored data ni of cluster i, the number of stored data nj of cluster j, and the number of stored data of input feature section no (= 1) Can be calculated.
(数1)
子クラスタが葉クラスタの場合,子クラスタと入力された特徴区間との類似度は,step 1の方法で類似度算出機能405を使用して算出できる。また枝クラスタの格納データ数は,その子孫クラスタである葉クラスタの登録数712の合計値で算出できる。(Equation 1)
When the child cluster is a leaf cluster, the similarity between the child cluster and the input feature section can be calculated using the
<Step 4> 枝クラスタ挿入
本ステップでは,枝クラスタを挿入する。図7の701に特徴インデクスの部分木を示す。木構造701において,枝クラスタaがStep 3で算出した「クラスタ内包される最も上位の枝クラスタ」で,クラスタbの子孫クラスタにStep 1で算出した葉クラスタが存在するとする。枝クラスタ挿入操作では,葉クラスタeを生成し,葉クラスタeと該枝クラスタbを子に持つ枝クラスタdを生成し,クラスタaの子であるクラスタbと枝クラスタdを置換することにより木構造702を得る。葉クラスタeの属性として,図5の吸収閾値511はあらかじめ与えられた初期値を,登録数512は1を格納する。また,入力された特徴区間データのIIDとして,既存の特徴区間データと重複しない値を生成し,代表区間IID 513に格納する。また,FID 514は空集合を格納する。<
<Step 5> 未知葉クラスタのアクション実行
葉クラスタが新規登録された場合,未知葉クラスタに対応するファクト情報として図7には図示していないが特徴インデクスに対してあらかじめ設定しておくFIDの値に従い,該当ファクトテーブル217からファクトを探索し,対応するアクションを実行する。<
<Step 6> 葉クラスタのアクション実行
Step 1で吸収判定された葉クラスタ,あるいはStep 4で新規作成された葉クラスタeのFID 714が空集合ではない場合,登録されている全てのFIDをファクトテーブル217から探索し,対応するアクションを実行する。<
If the
<Step 7> 枝クラスタ属性更新
Step 1で判定された葉クラスタ,あるいはStep 4で新規作成された葉クラスタeの先祖クラスタに当たる全ての枝クラスタについて,類似度D 708と,代表葉のCID 709を更新する。計算方法としては,あるクラスタCの子孫にあたる全ての特徴区間iについて,他特徴区間との距離の総和を算出した下式の集合の中で,最も小さい値を取るクラスタiを代表の葉とする。ここで,njはクラスタjの格納特徴区間数,dijはクラスタi,j間の距離である。また,類似度Dは,子の2つのクラスタの代表葉クラスタ間の距離として,類似度算出機能405により下式で再帰的に算出する。<
The
(数2)
<step 8> 枝クラスタのアクション実行
Step 1で判定された葉クラスタ,あるいはStep 4で新規作成された葉クラスタeの先祖クラスタに当たる全ての枝クラスタについて,FID 710が空集合ではない場合,登録されている全てのFIDをファクトテーブル217から探索し,対応するアクションを実行する。(Equation 2)
<
If the
<step 9> 再帰処理
Step 7,Step 8を根クラスタまで繰り返す。<
図10は,図5に示した本実施例の類似度算出機能505の動作を説明する図である。一般に時系列データ同士のパタンの類似度比較のためには,時間軸方向の伸縮を考慮する必要がある。時間軸方向の伸縮を考慮した時系列データのパタンの類似度算出のためには,動的計画法(DPマッチング)をベースとしたDTW(Dynamic Time Warping)がよく知られている。DTWは,図10のように,比較対象となる2つの時系列A 1001と時系列B 1002を固定長フレームに分割し,各フレームの全ての組み合わせにおける類似度を算出し,マッチング行列1003を作成する。ここで各フレーム毎の類似度は,たとえばそのフレームにおける値や平均値の差を使用する。そして時系列A 1001の始点であり時系列B 1002の始点であるマッチング行列1003の左下の行列要素から,時系列A 1001の終点であり時系列B 1002の終点である図7右上の行列要素へ至る経路を選択し,その経路のコストを算出することにより時系列A 1001と時系列B 1002の類似度とする。なおその際の経路選択においては,斜め・右・上方向の移動のみに制限する。例えば図7の黒塗りの行列要素が経路の一つである。また経路のコストは,経路状の行列要素の類似度と,斜め・右・上方向の移動ペナルティの合計とし,右方向,上方向の移動ペナルティは,時系列の伸縮に関するペナルティとして,斜め方向の移動ペナルティよりも大きな値を持たせる。このような経路コスト計算において,最小のコストとなる経路コストを取る経路を最適な経路とし,その経路コストを時系列A 1001と時系列B 1002の類似度とする。
FIG. 10 is a diagram for explaining the operation of the
図11は,図4の登録機能409の詳細な機能ブロックを示すプログラム構成図である。登録機能409は,特徴区間データ214を登録する特徴区間登録機能1102と,時系列データ215を登録する時系列登録機能1103の2機能を有する。図5の分類機能402のアクション実行機能506が発行したアクション502は,アクション実行機能1101により解釈され,特徴区間登録1102,時系列登録1103,あるいはその両方を実行する。時系列登録機能1103は,アクションで指定がある場合,登録時に非可逆圧縮機能1104を利用し,アクションにて指定された精度で時系列データの精度を低減した非可逆圧縮を行う。
FIG. 11 is a program configuration diagram showing detailed functional blocks of the
図12は,ストレージ装置106に格納される特徴区間データ214,および時系列データ215を管理するテーブルの構造の一例を示す図である。本例では,特徴区間データ214,時系列データ215を同じテーブル上の同じレコード1208で管理する例を示しているが,別テーブル,すなわち特徴区間管理テーブル,及び時系列データ管理テーブルとして管理しても構わない。本テーブルは,特徴区間である時系列区間に対して1レコードが格納される。レコード1208は,センサを一意に識別する識別子であるSID 1201,本特徴区間が分類される特徴インデクス213における葉クラスタを一意に識別するCID 1202,特徴区間自身を一意に識別するIID 1203,特徴区間の開始時刻Ts 1204,特徴区間の終了時刻Te 1205,特徴区間データ1206,時系列データ1207から構成される。特徴区間管理テーブルとしては,少なくとも特徴区間自身を一意に識別するIID 1203,特徴区間の開始時刻Ts 1204,特徴区間の終了時刻Te 1205,特徴区間データ1206を記憶している。
FIG. 12 is a diagram showing an example of the structure of a table for managing the
ここで時系列データ1207は,図6の時系列データ601を,開始時刻Ts 606から終了時刻Te 607までの範囲で分割したものであり,特徴区間データ1206は,図6の特徴区間データ602のことであり,IID 1203は図6の特徴区間603の識別子である。特徴区間データ1206および時系列データ1207は,時系列ブロックとして,関係データベースのBLOB(Binary Large Object)の形式で格納される。時系列ブロックは,ファイル名で識別されるファイルとしてデータベースの外側のファイルシステムで管理してもよい。図12の下部に時系列ブロックのデータ構造の例1209および1210を示す。時系列データの観測間隔が例えば1秒間隔などの固定値であり,システムで定義されている場合,時系列ブロックの構造としては,例えばfloat型の観測値のみを連続して格納する例1209のような構造を取ることができる。
Here, the
時系列データに欠損が存在する場合,例えばfloat型NaN値を欠損値nullとして定義することにより管理することができる。また,時系列データの観測間隔が固定ではない場合,時系列データを,前の観測値からの相対秒数と観測値のペアで表す例1210のような構造を取ることもできる。時系列ブロックは,構造例1209や1210をさらにgzipやlzmaなどの既存のデータ圧縮機能を利用して可逆圧縮しても構わない。また時系列ブロックを,非可逆圧縮機能904で非可逆圧縮し,構造例1209や1210で管理してもよく,さらにこれをgzipやlzmaなどの既存のデータ圧縮機能を利用して可逆圧縮しても構わない。 If there is a deficiency in the time series data, it can be managed, for example, by defining a float type NaN value as a deficient value null. Further, when the observation interval of the time series data is not fixed, it is possible to adopt a structure like Example 1210 in which the time series data is represented by a pair of relative seconds and observation values from the previous observation value. For the time series block, the structural examples 1209 and 1210 may be further reversibly compressed using an existing data compression function such as gzip or lzma. In addition, the time series block may be irreversibly compressed by the irreversible compression function 904 and managed by the structural examples 1209 and 1210, and further this is reversibly compressed by using an existing data compression function such as gzip or lzma. It doesn't matter.
図13は,図4の検索機能404の詳細な機能ブロックを示すプログラム構成図である。GUI機能405から呼び出される検索機能404は,センサ識別子SID 1201と時間範囲を指定して該当センサ,時間範囲の時系列データ215の検索を行う時間指定検索機能1302と,時間範囲と類似度閾値を指定して,該当時間範囲内の時系列データのパタンと類似度閾値以下で類似する時系列パタンの集合の検索を行う類似検索機能1301から構成される。類似検索機能1301は,特徴インデクス213と特徴区間データ214,時間指定検索機能1302を利用している。
FIG. 13 is a program configuration diagram showing detailed functional blocks of the
図14は,本実施例のGUI機能405が提供する画面イメージの一例である,類似事例検索の画面である。図14を用いて,検索機能404の動作を説明する。
FIG. 14 shows a similar case search screen as an example of a screen image provided by the
グラフ1401は時間指定検索機能1302により取得した時系列データをグラフ化したものである。保全担当者は時間範囲1402のプラント起動過渡状態に異常を発見したとする。この時,保全管理者は時間範囲1402をマウス1403で選択し,類似度閾値をスライドバー1404で指定した後,類似度検索ボタン1405を押下する。その結果,画面下部に類似する時系列パタン1406が複数個グラフとして表示される。また,検索された類似時系列パタンに関連して障害事例報告書が存在する場合,事例報告書表示ボタンを表示させる。保全担当者は事例報告書表示ボタンを押下することにより,該当する事例報告書1407を画面に呼び出すことが可能となる。保全担当者は,該当報告書を参考にすることにより,今回の異常パタンと類似した過去事例を効率よくアクセスすることができるため,過去事例に則した保全アクション計画を迅速に立案することができるようになる。
A
次に,図15のフローチャートを用いて,本実施例の類似検索機能1301について説明する。
Next, the
<Step 1> 特徴区間の検索
図12の特徴区間時系列テーブルの開始時刻1204,終了時刻1205と,ユーザが指定した時間範囲とを比較することにより,ユーザ指定時間範囲に存在する特徴区間レコードを検索し,CID 1202とIID 1203を取得する。<
<Step 2> 葉クラスタの検索
図7の特徴インデクス213から,Step 1で取得したCIDと一致する葉クラスタを取得する。<
<Step 3> 枝クラスタの検索
Step 2で取得した葉クラスタから開始し,再帰的に親クラスタを取得し,枝クラスタの類似度D 708がユーザが指定した類似度閾値を超過しない最上位の枝クラスタを探索する。<
Starting from the leaf cluster acquired in
<Step 4> 類似葉クラスタの検索
Step 3で取得した枝クラスタの子孫クラスタとなる全ての葉クラスタを検索し,そのCID 704を全て取得する。<
Search all leaf clusters that are descendant clusters of the branch cluster acquired in
<Step 5> 特徴区間の開始・終了時刻の取得
図12の特徴区間時系列テーブルから,Step 4で取得した全CIDを持つ全ての特徴区間レコードを検索し,その開始時刻1204と終了時刻1205を取得する。<
<Step 6> 時系列データの取得
図12の時系列テーブルの開始時刻1204,終了時刻1205と,Step 5で取得した検索結果時間範囲の集合とを比較することにより,検索結果時間範囲に存在する全ての時系列データを取得し,グラフ表示を行う。これにより,図14の画面下部の類似時系列パタン1406の集合を表示することができる。<
図16は,図14で使用される障害事例報告書等の管理を行うための事例報告管理テーブル1601の構造を示す例である。例えば,障害事例管理テーブルとして機能する事例報告管理テーブル1601は,時刻1602,異常種類を示すFID 1603,当該事例の事例報告書へアクセスするポインタであるURL(Uniform Resource Locator)1604から構成される。
FIG. 16 shows an example of the structure of a case report management table 1601 for managing the failure case report used in FIG. For example, the case report management table 1601 functioning as a failure case management table includes a
FID 1603は,図8のファクトテーブル217のFID 801と同じものであり,このFIDをキーにファクトテーブル217を参照することにより,異常のラベル802を取得すことが出来る。図15のStep 6で取得した特徴区間レコードの開始時刻・終了時刻と,事例報告管理テーブル1601の各レコードの時刻1602とを比較することにより,検索した特徴区間の時系列データに対応した事例報告書がもし存在すれば表示することができる。これにより,障害を発見した時に,特徴区間の時系列データの類似パタンを調べ,それに対する事例報告書等を参考にアクションを決めることができる。
The
図17は,図4のインデクス管理機能406の詳細な機能ブロックを示すプログラム構成図である。GUI機能405から呼び出されるインデクス管理機能406は,ユーザ操作に応じて特徴インデクス213およびファクトテーブル217の更新を行う。インデクス管理機能406は,特徴インデクス213を木構造グラフとして可視化するインデクス可視化機能1701,特徴インデクス上の各枝クラスタ,葉クラスタでFID 710,714で管理されるファクトの登録・削除・位置変更を行うファクト位置管理機能1702,下位のクラスタを持つ特定の枝クラスタを葉クラスタに変換する吸収閾値管理機能1703,図8のファクトテーブルにおけるラベルやアクションを更新するファクト更新機能,重要度の低い平常データに対する吸収閾値を自動で設定する平常範囲算出機能1706,図16の事例報告管理テーブルから異常範囲を自動で設定する異常範囲算出機能1705から構成される。
FIG. 17 is a program configuration diagram showing detailed functional blocks of the
図18は,インデクス可視化機能1701が生成し,GUI機能405で表示される画面イメージの一例である,特徴インデクス表示画面である。図18は,図7で定義される特徴インデクス213の構造をそのまま木構造グラフで可視化したものである。根クラスタ1801の下に枝クラスタ,葉クラスタが表示される構造を取る。図18では,枝クラスタの情報として,画面上に類似度708を表示し,葉クラスタの情報として,CID 704を表示しているが,ユーザの選択する任意の属性を表示して構わない。
FIG. 18 is a feature index display screen, which is an example of a screen image generated by the
また,破線による矩形部1802,1803,1804,1805は,FIDに値が格納されている枝クラスタと,その全ての子孫クラスタを囲んだものであり,ファクトテーブル217で分類された集合を表す。それぞれ図8のファクトテーブルのラベル802を表示してもよいし,ファクトテーブルで分類された集合の件数を表示してもよい。該集合の件数は,該FIDに値が格納された枝クラスタの子孫クラスタである全ての葉クラスタの登録数712を合計することで算出できる。また,ファクトテーブルで分類された集合を代表する特徴区間のグラフ1806,1807,1808を表示してもよい。該グラフ1806,1807,1808は,ファクトが登録された枝クラスタ702から代表葉クラスタのCID 709を取得し,該CIDを持つ葉クラスタ703を探索し,該葉クラスタの代表区間のIID 713を取得し,図12の特徴区間データテーブル214から該当IIDを持つレコードを取得し,該当レコードの開始時刻・終了時刻を用いて時系列データテーブルから時系列データを取得し,グラフ描画することで得られる。
In addition,
特徴インデクス表示画面においてユーザがマウス等で選択した枝クラスタないし葉クラスタに対し,ファクト位置管理機能1702を適用することにより,ファクトの登録・削除を行うことができる。また,図8のファクトテーブルのラベル802,アクション803を編集することができる。また,枝クラスタに登録されているファクトを,その上位ないし下位の枝ノードの位置に移動させることができる。これにより,時系列解析者は,分類機能402により類似度別に自動分類された時系列パタンに対し,通常起動パタン,通常停止パタン,異常起動パタン等のラベルを付与することができ,さらに対策不要である,対策が必要であり,保全担当者へ警報を発行するなどのアクションを付与していくことができる。
By applying the fact
図18の特徴インデクス表示画面において,定義済みのファクトに分類される枝クラスタ・葉クラスタを矩形1803,1804,1805のように囲んで表示することにより,対応の定義されていない未知の時系列パタンが発生したことが確認できるため,漏れの内事例収集と対策を行うことが可能となる。
In the feature index display screen of FIG. 18, by displaying branch clusters and leaf clusters classified as defined facts as
特徴インデクス表示画面においてユーザがマウス等で選択した枝クラスタに対し,吸収閾値管理機能1703を適用することにより,該枝クラスタより詳細な分類が不要であることを指示することができる,吸収閾値管理機能1703は,指定した枝クラスタを葉クラスタに置換する。葉クラスタの吸収閾値711は,指定した枝クラスタの類似度708となる。
By applying the absorption
図19を用いて,図17のファクト位置管理機能1702の利用目的について説明する。ファクト位置管理機能は,特徴インデクス上の各枝クラスタ,葉クラスタで,FID710,714で管理されるファクトの登録・削除・位置変更を行う。ファクト位置管理機能を用いることにより,未知の異常パタンが発生した場合には必ず時系列解析者1906に警報が発生し,時系列解析者1906が未知パタンを通常パタンか,保全担当者1907に警告すべき異常パタンかを分類することにより,以降の類似パタンは保全担当者1907に警報が発生するようになる。これにより,日常的に網羅的な異常事例収集と診断規則の更新を行うことが可能となる。
The use purpose of the fact
<Case 1>
時系列パタンAが収集機能401から分類機能402に渡された時,特徴インデクス213に該当パタンが登録されていない場合,図9のStep 5で示した通り,特徴インデクスの部分木1901のように,未知葉クラスタAが登録され,未知葉クラスタに対するアクションが実行される。ここであらかじめアクションとして,ファクトが定義されていない枝ノードの子孫に位置する未知葉クラスタが登録された際,時系列解析者1906のユーザ端末105に対して警報を発行すると定義しておくことにより,時系列解析者1906に対して未知パタン警報が発行される。時系列解析者1906はGUI機能405により,図18に示す特徴インデクス画面を表示し,時系列パタンAは平常パタンであるというファクトを領域1901の葉クラスタAの位置に登録する。時系列パタンAに類似する時系列パタンA’が到来した場合,特徴インデクスは領域1902のように変化し,再び未知パタン警報が時系列解析者1906に発行される。時系列解析者1906はファクト情報を葉クラスタAの位置から,葉クラスタAと葉クラスタA’の共通の枝に移動する。これを複数回繰り返すことにより,類似パタンA’’が到来した段階で未知異常警報が発行されなくなる。<
When time series pattern A is passed from
<Case 2>
時系列パタンBが収集機能401から分類機能402に渡された時,Case 1と同様に時系列解析者1906に対して未知パタン警報が発行される。時系列解析者1906が,時系列パタンBが異常パタンXであるというファクトを葉クラスタBの位置に登録し,保全担当者1907に警報を発行するというアクションを登録する。Case 1と同様に,類似パタンB’に対してファクトの位置移動を複数回繰り返すことにより,類似パタンB’’が到来した時点で保全担当者1907に警報が発行されるようになる。<
When the time series pattern B is transferred from the
図20を用いて,図17の吸収閾値管理機能1703の動作について説明する。吸収閾値管理機能1703は,これ以上詳細な分類が不要であるということをユーザが指示するために使用する。吸収閾値管理機能1703は,ユーザが指定した枝クラスタ2001を新たに生成した葉クラスタ2003に置換する。その際,葉クラスタ2003の吸収閾値D 2011は,枝クラスタ2001の類似度D 2004を代入する。登録数n 2012は,枝クラスタ2001の子孫クラスタ群の全ての葉クラスタの登録数nの合計値を格納する。代表区間のIID 2013は,枝クラスタ2001の代表葉のCID 2005が示す葉クラスタの代表区間のIIDを格納する。FID 2014は,枝クラスタ2001のFID 2006のFIDを格納する。
The operation of the absorption threshold
図21,図22を用いて,図17の異常範囲算出機能1705の動作について説明する。異常範囲算出機能1705は,図16の事例報告管理テーブルから登録すべきファクトを取得し,ファクト位置管理機能1702を利用し,ユーザの操作なしで自動的にファクト位置の変更を行うことを目的とする。図21は,異常範囲算出機能1705の適用するファクト位置移動のルールである。
The operation of the abnormal
<Case 1>
同じ葉クラスタ2101に,異なる識別子F1,F2を持つファクトが重複して登録されている場合,それぞれのファクトが異なる葉クラスタに登録されるように葉クラスタ2102,2103に再分類する。<
When facts having different identifiers F1 and F2 are registered in the
<Case 2>
同じ異常事例であり,共通の識別子F1を持つファクトが葉クラスタ2104および2105に登録されている場合,それぞれの葉クラスタの共通の先祖となる最初の枝クラスタ2106にファクトを移動する。<
If the fact is the same abnormal case and the fact having the common identifier F1 is registered in the
<Case 3>
Case 2の例外として,共通の識別子F1を持つファクトが葉クラスタ2107および2108の共通の先祖となる最初の枝クラスタの子孫クラスタ群に,異なる識別子F2を持つ葉ノード2109が存在する場合,ファクトの移動を行わず,競合警報を発行する。この競合警報が発行されるのは,時系列パタンの分類方法が障害事例を分類するという目的を達成していないことになる。時系列解析者は本競合警報を受け付け,図5の特徴区間抽出機能503で使用される抽出規則を改良することができる。本警報機能により,漏れのない日常的な時系列解析機能の更新を行うことができる。<
As an exception to
図22に,本実施例において,図21のルールの適用を行うためのフローチャートを示す。 FIG. 22 shows a flowchart for applying the rule of FIG. 21 in this embodiment.
<Step 1> 時刻の取得
図16の事例報告管理テーブル1601に新たに登録されたレコードから,時刻1602を取得する。<
<Step 2> CIDの取得
図12の特徴区間データテーブル214の開始時刻1204,終了時刻1205と,Step 1で取得した時刻とを比較することにより対応する特徴区間データを取得し,CID 1202を取得する。<
<Step 3> FIDの登録
図7の特徴インデクス213から,Step 2で取得したCIDを持つ葉クラスタを探索し,Step 1で求めたレコードのFID1603を葉クラスタのFID 714として格納する。<
<Step 4> FID重複判定
Step 3で探索した葉クラスタに,異なる値のFIDが既に登録されている場合,Step 5,6,7を実行する。<
If a different FID has already been registered in the leaf cluster searched in
<Step 5> 既存特徴区間データの取得
Step 4で既に登録されているFIDに対応する特徴区間データを取得する。具体的には,図16の事例報告管理テーブル1601から該当FIDに対応する時刻1602を取得し,図12の特徴区間データテーブル214の開始時刻1204,終了時刻1205と比較することにより対応する特徴区間データを取得する。<
In
<Step 6> 類似度の算出
Step 5で取得した特徴区間データと,Step 2で取得した特徴区間データを,図5の類似度算出機能505で評価することにより,類似度を算出する。<
Similarity is calculated by evaluating the feature interval data acquired in
<Step 7> 特徴インデクスの再構築
Step 2で取得したCIDを持つ全ての特徴区間データを特徴区間データテーブル214から取得し,図9で示すクラスタリング機能504を利用して差異クラスタリングを行い,Step 3の葉クラスタと置換する。その際,図9のStep4における吸収閾値511を,Step 6で取得した類似度とする。Step 5,6,7により,図21のCase1のルールが実現できる。<
All feature interval data having the CID acquired in
<Step 8>
特徴インデクスに対し,同じFIDを持つ葉クラスタの集合を取得する。<
Get a set of leaf clusters with the same FID for the feature index.
<Step 9> 枝クラスタの探索
それぞれの葉クラスタの親クラスタを再帰的に辿ることにより,共通の先祖を持つ最初の枝クラスタを探索する。<
<Step 10>
Step 9で探索した枝クラスタの子孫クラスタ群の全ての葉クラスタを参照し,FIDがStep 3で求めたFIDと異なる値を取る葉クラスタが存在するかどうかを判定する。<Step 10>
Reference all leaf clusters in the descendant cluster group of the branch cluster searched in
<Step 11>
異なる値を取る葉クラスタが存在しない場合,FIDをStep 9で探索した枝クラスタに移動する。これにより,Case 2のルールが実現できる。<Step 11>
If there are no leaf clusters with different values, move the FID to the branch cluster searched in
<Step 12> 異なる値を取る葉クラスタが存在する場合,FIDの移動を行わずに競合警報を発行する。これにより,Case 3のルールが実現できる。
<Step 12> If there are leaf clusters with different values, issue a contention warning without moving the FID. As a result,
<Step 13>
Step 9-12の処理を,Step 8で取得した全ての葉クラスタの集合に対して繰返す。<Step 13>
Repeat Step 9-12 for all leaf cluster sets obtained in
図23を用いて,本実施例の図17の平常範囲算出機能1706の動作について説明する。平常範囲算出機能1706は,特徴インデクスから,重要度の低い平常データを抽出する。一般に,「不良全体の80%は,20%の原因に由来する」等,さまざまな現象において,その大勢が少数の要因によって決定されるという経験則,パレートの法則,80対20の法則として知られている。本発明ではこの法則を平常範囲の算出に適用する。
The operation of the normal
<Step 1> 閾値THを増加
閾値THを,0から開始し,あらかじめ停止した一定間隔で増加させる。<
<Step 2> 閾値THを超過する枝クラスタの抽出
特徴インデクス213の,類似度Dが閾値THを超過する最下層の枝クラスタを抽出する。具体的には,特徴インデクス213の根クラスタから全ての下位の枝クラスタを探索し,その類似度D 708が閾値THより下回った枝クラスタを発見場合,その枝の探索を終了し,その枝クラスタの親クラスタをリストに追加する。<
<Step 3> 上位20%の枝クラスタを抽出
Step 2で取得した枝クラスタの集合を,枝クラスタに分類される特徴区間データ数でソートし,上位20%の枝クラスタを抽出する。枝クラスタに分類される特徴区間データ数は,枝クラスタの子孫クラスタである全ての葉クラスタの登録数n 712を合計することで得られる。<
The set of branch clusters acquired in
<Step 4> 含有比Nの算出
Step 3で取得した枝クラスタ集合に分類される特徴区間データ数を合計し,特徴インデクスに登録された全特徴区間データ数で割ることにより,含有比Nを算出する。<
The content ratio N is calculated by summing the number of feature interval data classified in the branch cluster set acquired in
<Step 5> 判定
Step 4で算出した含有比が,80%より小さければ,Step 1に戻る。<
If the content ratio calculated in
<Step 6> 枝クラスタ除去
Step 3で取得した枝クラスタ集合から,枝クラスタに分類される特徴区間データ数が,あらかじめ指定した閾値よりも小さい枝クラスタ群を除去する。<
A branch cluster group in which the number of feature section data classified into branch clusters is smaller than a predetermined threshold is removed from the branch cluster set acquired in
図23のアルゴリズムで算出した枝クラスタ群に対し,吸収閾値管理機能1703を適用し,それぞれの枝クラスタの類似度D 708を吸収閾値D 711とする葉クラスタに置換することにより,重要度の低い平常データに対する特徴インデクスの枝クラスタ登録数を自動で削減することができる。なお,図23では,固定値80%,20%を用いて説明したが,この値はシステムであらかじめ定義した任意の値で構わない。
By applying the absorption
図24は,図4の時系列管理機能407の詳細な機能ブロックを示すプログラム構成図である。GUI機能405から呼び出される時系列管理機能407は,ユーザ操作に応じて時系列データ215の移動・削除・精度低減による更新を行う。時系列管理機能407は,時系列データ215を別システムへ移動させる時系列移動機能2401,過去の不要な時系列データを削除する時系列削除機能2402,非可逆圧縮機能1104を用いて過去の不要なデータの精度を低減させる時系列更新機能2403から構成される。
FIG. 24 is a program configuration diagram showing detailed functional blocks of the time-
時系列削除機能2402は,図8に示すファクトテーブル217において,葉クラスタ703に対し,「指定期間経過後に削除」と記載されている場合,該当葉クラスタ703のCID 704を持つ時系列データ215を図12に示す時系列データテーブルから抽出し,終了時刻1205が現在時刻と比べ該指定期間より古い場合,該当時系列データ215を削除する。従来のライフサイクル管理機能は,指定期間を経過した全ての時系列データを削除するのに対し,本方式によれば時系列の特徴に合わせて重要度の低いデータのみを選択的に削除することができるため,異常パタンなどの過去事例を削除しないという効果がある。また,時系列削除機能2402が対象とする時系列パタンを,図23で説明した平常範囲算出機能1706で算出した葉クラスタに適用すれば,削除対象時刻より古い全データにおける80%のデータが削除対象となるため,ストレージ容量低減の効果がある。
In the fact table 217 shown in FIG. 8, the time-
図25を用いて,時系列更新機能2403の動作を説明する。時系列更新機能2403は,図8に示すファクトテーブル217において,葉クラスタ703に対し,「指定期間経過後に非可逆圧縮」と記載されている場合,該当葉クラスタ703のCID 704を持つ時系列データ215を図12に示す時系列データテーブルから抽出し,終了時刻1205が現在時刻と比べ該指定期間より古い場合,該当時系列データ215から適切な誤差許容率を算出して時系列データを非可逆圧縮する。
The operation of the time
<Step 1> 誤差許容率THを増加
誤差許容率THを,0から開始し,あらかじめ停止した一定間隔で増加させる。<
<Step 2> 非可逆圧縮
Step 1で算出した誤差許容率THで該葉クラスタ703に属する時系列データの非可逆圧縮を行う。非可逆圧縮方法は,たとえば3点の観測値が閾値以下の誤差で直線で近似できる場合,中点をまびく線形近似圧縮方法などが存在するが,Wavelet圧縮等,圧縮方式は問わない。<
The lossy compression of the time series data belonging to the leaf cluster 703 is performed with the error tolerance TH calculated in
<Step 3> 類似度dの算出
Step 2で非可逆圧縮した時系列データを再度展開し,図5の特徴区間抽出機能503で特徴区間データとしたものと,葉クラスタ703の代表区間のIID 713で示される特徴区間データとの類似度dを,類似度算出機能505で算出する。<
The time series data that was irreversibly compressed in
<Step 4> 類似度比較
Step 3で算出した類似度dと,該葉クラスタ703の吸収閾値D 711とを比較し,類似度dが吸収閾値Dよりも小さければ再びStep 1を実行する。<
The similarity d calculated in
<Step 5> 非可逆圧縮
Step 2で算出した誤差許容率THを用いて,時系列データを圧縮する。<
Compress time-series data using the error tolerance TH calculated in
従来のライフサイクル管理機能は,指定期間を経過した全ての時系列データを一定の誤差許容率で非可逆圧縮するのに対し,本方式によれば時系列の特徴に合わせて重要度の低いデータのみを選択的に非可逆圧縮することができ,また時系列パタンのバラツキに合わせて許容誤差率を変更して圧縮することができる。 The conventional life cycle management function irreversibly compresses all time-series data that has passed a specified period with a certain error tolerance, whereas this method uses less important data according to the characteristics of the time series. Can be selectively irreversibly compressed, and can be compressed by changing the allowable error rate according to the variation of the time series pattern.
次に,図26,図27を用いて,第2の実施例として,複数個の時系列ストア装置を接続した構成の時系列データ管理システムの実施例を説明する。このシステムは,上述した実施例1の時系列移動機能2401が有効に利用される。
Next, an embodiment of a time series data management system having a configuration in which a plurality of time series store devices are connected will be described as a second embodiment with reference to FIGS. In this system, the time-
図26は図1の時系列データプラットフォームにおいて,第一の時系列ストア103にさらに第二の時系列ストア装置2601,第二のストレージ装置2602を複数個接続した時系列データ管理システムの概要を示すブロック図である。実施例2の構成においては,複数の時系列ストア装置を分散配置することにより,大量の時系列データを分散管理することができる。以下,実施例1の構成と比較しながら実施例2の構成を説明する。
FIG. 26 shows an overview of a time-series data management system in which a plurality of second time-
本実施例においては,時系列移動機能2401は,図8に示すファクトテーブル217のアクション803において,枝クラスタ702に対し,「指定する時系列ストア装置に分割」と記載されている場合,該当枝クラスタ702およびその子孫クラスタ群を,第二の時系列ストア装置2601に移動させる。また,該枝クラスタ702の子孫クラスタである全ての葉クラスタ703のCID 704を持つ全ての時系列データ215を図12に示す時系列データテーブルから抽出し,同じく全ての特徴区間データ214を特徴区間データテーブルかた抽出し,第二の時系列ストア装置に移動させる。
In this embodiment, the time-
図27は,時系列ストア装置103および第二の時系列ストア装置2601に格納される特徴インデクス213の構造を示す模式図である。図27の上図が分割前,すなわち実施例1の時系列ストア装置103の特徴インデクスの構造である。ここで,枝クラスタ2701において分割を行う場合,特徴インデクスは第一の時系列ストア装置103と第二の時系列ストア装置2601のように分割される。ここで,分割前の枝クラスタ2701は,葉クラスタ2702に置換され,枝クラスタ2701およびその子孫クラスタ群は第二の時系列ストア装置2601に移動される。ここで,枝クラスタ2701を葉クラスタ2702へ置換するための規則は,図20に示す吸収閾値管理機能1703の動作と同じとなる。さらに新たに生成した葉クラスタ2702のFID 714に,「指定する時系列ストア装置に時系列データを転送する」と記載したファクトのFIDを登録する。
FIG. 27 is a schematic diagram showing the structure of the
図4を用いて,転送機能408の説明を行う。図5のアクション実行機能506が発行したアクションが「指定する時系列ストア装置に時系列データを転送する」である場合,アクション機能群403の転送機能408が実行される。その結果,第一の時系列ストア103の収集機能401に到来した時系列データは,第二の時系列ストア装置2601における第二の収集機能へと転送される。そして,第二の分類機能402により枝クラスタ2703を根クラスタとする第二の特徴インデクスを用いて分類され,第二のアクション機能群403の機能,例えば解析機能411により処理される。
The
ここで,分割する枝ノードを,図23で説明した平常範囲算出機能1706で算出した枝ノード群と,それ以外のノードとすることにより,出現頻度の高い,重要度の低い平常パタンの時系列データと,重要度の高い,それ以外のパタンの時系列データを異なる第二の時系列ストア装置に分配することが可能となる。これにより,時系列ストア装置の負荷バランスを取ることができる。重要度の低い平常パタンの時系列データが転送される時系列ストア装置には,図23で説明したとおり,80%の時系列データが到来し,データ登録処理を行うことになる。一方,平常パタン以外の時系列データには,残りの20%の時系列データが到来することにより,登録負荷が低くなる。一般に,時系列解析者や保全担当者は,異常パタンの時系列データに対する検索クエリが多くなる傾向となる。また,異常パタンが到来する時系列データストア装置の負荷を軽減することにより,処理負荷の高い解析機能411を実行するための負荷バランスに貢献することができる。
Here, the branch nodes to be divided are the branch node group calculated by the normal
なお,本発明は上記した実施例に限定されるものではなく,様々な変形例が含まれる。例えば,上記した実施例は本発明を分かりやすく説明するために詳細に説明したのであり,必ずしも説明の全ての構成を備えるものに限定されものではない。また,実施例の構成の一部について,他の構成の追加・削除・置換をすることが可能である。 In addition, this invention is not limited to an above-described Example, Various modifications are included. For example, the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described. In addition, it is possible to add, delete, and replace other configurations for a part of the configuration of the embodiment.
また,上記の各構成,機能,処理部,処理手段等は,それらの一部又は全部を,例えば集積回路で設計する等によりハードウェアで実現してもよい。また,上記の各構成,機能等は,それぞれの機能を実現するプログラムを実行することによりソフトウェアで実現する場合を例示して説明したが,各機能を実現するプログラム,テーブル,ファイル等の情報はメモリのみならず,ハードディスク,SSD(Solid State Drive)等の記録装置,または,ICカード,SDカード,DVD等の記録媒体におくことができるし,必要に応じてネットワーク等を介してダウンロード,インストールすることも可能である。 Each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them, for example, with an integrated circuit. In addition, each configuration, function, etc. has been described by exemplifying a case where it is realized by software by executing a program that realizes each function. However, information on programs, tables, files, etc. that realize each function It can be stored not only in memory but also in recording devices such as hard disks and SSDs (Solid State Drives), or recording media such as IC cards, SD cards, and DVDs, and can be downloaded and installed via a network as necessary. It is also possible to do.
101 センサ
102,104 ネットワーク
103,2601 時系列ストア装置
105 ユーザ端末
106,2602 ストレージ装置
201 時系列データ
202 検索クリエ
203 検索結果
204 センサインタフェース
205 プロセッサ
206 メモリ
207 ユーザI/F
208 ディスクI/F
209 登録プログラム
210 検索プログラム
211 バッファ
212 入出力装置
213 特徴インデクス
214 特徴区間データ
215,501,601 時系列データ
216 特徴抽出規則
217 ファクトテーブル
301 観測時刻
302 センサ観測値
303 レコード
401 収集機能
402 分類機能
403 アクション機能群
404 検索機能
405 GUI機能
406 インデクス管理機能
407 時系列管理機能
408 転送機能
409 登録機能
410 警報機能
411 解析機能
502,803 アクション
503 特徴区間抽出機能
504 クラスタリング機能
505 類似度算出機能
506 アクション実行機能
602 特徴区間データ
603 特徴区間
604,605 閾値
701,1801 根クラスタ
702,2001,2701,2703 枝クラスタ
703,2003,2702 葉クラスタ
704,706 CID
705,2002 葉属性
707 枝属性
708,2004 類似度D
709,2005 代表葉のCID
710,714,801,1603,2006,2010,2014 FID
711,2007,2011 吸収閾値D
712,2008,2012 登録数n
713,2009,2013 代表区間のIID
802 ラベル
1401 グラフ
1402 時間範囲
1403 マウス
1405 類似度検索ボタン
1406 時系列パタン
1407 事例報告書
1601 事例報告管理テーブル
1602 時刻
1604 URL
1802,1803,1804,1805 矩形部
1806,1807,1808 グラフ
1901,1902,1903 領域
1906 時系列解析者
1907 保全担当者101 sensors
102, 104 networks
103, 2601 time series store
105 User terminal
106, 2602 Storage device
201 Time series data
202 Search CLIÉ
203 Results
204 Sensor interface
205 processor
206 memory
207 User I / F
208 Disk I / F
209 Registration Program
210 Search program
211 buffers
212 I / O devices
213 Feature Index
214 Feature section data
215, 501, 601 Time series data
216 Feature extraction rules
217 fact table
301 Observation time
302 Sensor observations
303 records
401 Collection function
402 Classification function
403 action functions
404 search function
405 GUI function
406 Index management function
407 Time series management function
408 Transfer function
409 Registration Function
410 Alarm function
411 Analysis function
502,803 actions
503 Feature section extraction function
504 Clustering function
505 Similarity calculation function
506 Action execution function
602 feature section data
603 feature section
604, 605 threshold
701, 1801 root cluster
702, 2001, 2701, 2703 branch cluster
703, 2003, 2702 leaf cluster
704,706 CID
705, 2002 Leaf attribute
707 Branch attribute
708,2004 Similarity D
709, 2005 CID of representative leaves
710, 714, 801, 1603, 2006, 2010, 2014 FID
711, 2007, 2011 Absorption threshold D
712, 2008, 2012 Number of registrations n
713, 2009, 2013 IID of representative section
802 label
1401 chart
1402 time range
1403 mouse
1405 Similarity search button
1406 time series pattern
1407 Case Report
1601 Case report management table
1602 time
1604 URL
1802, 1803, 1804, 1805 Rectangular part
1806, 1807, 1808 graph
1901, 1902, 1903 area
1906 Time Series Analyst
1907 Maintenance staff
Claims (15)
前記処理部は,
前記時系列データをその特徴に応じた特徴区間に分割し,
前記記憶部に,当該特徴区間のデータ,開始時刻,終了時刻,特徴区間を識別する識別子とを管理する特徴区間管理テーブルを形成し,
前記特徴区間同士の類似度を算出し,算出した前記特徴区間の類似度に応じて,前記特徴区間を階層的にクラスタリングし,得られる前記特徴区間のクラスタ間の類似度を枝クラスタに,前記特徴区間を識別する識別子を葉クラスタに持つ木構造の特徴インデクスを構成することにより,前記時系列データを管理する,
ことを特徴とする時系列データ管理システム。A time-series data management system comprising a processing unit and a storage unit and managing time-series data,
The processor is
Dividing the time series data into feature sections according to the features;
Forming a feature section management table for managing data of the feature section, a start time, an end time, and an identifier for identifying the feature section in the storage unit;
The similarity between the feature sections is calculated, the feature sections are hierarchically clustered according to the calculated similarity of the feature sections, and the similarity between the clusters of the obtained feature sections is defined as a branch cluster. Managing the time-series data by constructing a tree-structured feature index having an identifier for identifying a feature section in a leaf cluster;
A time-series data management system characterized by that.
表示部と入力部とを更に備え,
前記表示部は,前記特徴インデックスを表示し,
前記入力部は,前記枝クラスタないし前記葉クラスタの属性として,前記特徴区間の時系列パタンの意味付けを行うラベルと,対応するアクションを入力可能である,
ことを特徴とする時系列データ管理システム。A time-series data management system according to claim 1,
A display unit and an input unit;
The display unit displays the feature index,
The input unit is capable of inputting a label for giving meaning to a time series pattern of the feature section and a corresponding action as an attribute of the branch cluster or the leaf cluster.
A time-series data management system characterized by that.
前記処理部は,
前記記憶部に,前記ラベルに係る時刻,及び事例内容を管理する事例報告管理テーブルを形成し,
前記事例報告管理テーブルの時刻と関連する前記特徴区間と関連した葉クラスタに,前記ラベルを付与し,同種類のラベルが複数のクラスタに存在する場合,複数の前記クラスタの共通の先祖となる最初の枝クラスタに当該ラベルを移動し,
異なる種類のラベルが同一の葉クラスタに存在する場合,当該葉クラスタに属する前記特徴区間を再分類し,当該異なるラベルが分離される最初の子孫クラスタに当該ラベルを移動する,
ことを特徴とする時系列データ管理システム。A time-series data management system according to claim 2,
The processor is
Forming a case report management table for managing the time related to the label and the case contents in the storage unit,
When the label is assigned to the leaf cluster associated with the feature section associated with the time in the case report management table and the same type of label exists in a plurality of clusters, the first ancestor that is a common ancestor of the plurality of clusters Move the label to the branch cluster
If different types of labels exist in the same leaf cluster, reclassify the feature interval belonging to the leaf cluster and move the label to the first descendant cluster from which the different label is separated.
A time-series data management system characterized by that.
前記処理部は,
前記特徴区間を前記類似度により分類し,前記時系列パタンの出現頻度から平常データと異常データを分離し,前記平常データに重要度の低いラベルを付与する,
ことを特徴とする時系列データ管理システム。A time-series data management system according to claim 3,
The processor is
Classifying the feature sections according to the similarity, separating normal data and abnormal data from the appearance frequency of the time series pattern, and assigning a low importance label to the normal data;
A time-series data management system characterized by that.
前記処理部は,
入力された前記時系列データと,前記葉クラスタの識別子により識別される前記特徴区間の時系列パタンとの類似判定を行い,前記類似度を算出することにより最も類似した葉クラスタを選択し,
当該葉クラスタの吸収閾値と前記類似度とを比較することにより,当該葉クラスタへの吸収判定を行い,
当該葉クラスタの上位の前記枝クラスタの類似度との比較を再帰的に行うことにより枝クラスタへの挿入位置を決定し,
入力された前記時系列データを管理する葉クラスタを当該枝クラスタへ挿入し,
挿入した前記葉クラスタの上位の枝クラスタの類似度と代表葉クラスタを再帰的に更新する,
ことを特徴とする時系列データ管理システム。A time-series data management system according to claim 1,
The processor is
Performing similarity determination between the input time-series data and the time-series pattern of the feature section identified by the identifier of the leaf cluster, and selecting the most similar leaf cluster by calculating the similarity,
By comparing the absorption threshold of the leaf cluster with the similarity, the absorption determination to the leaf cluster is performed,
The insertion position to the branch cluster is determined by recursively comparing with the similarity of the branch cluster above the leaf cluster,
Insert the leaf cluster that manages the input time-series data into the branch cluster,
Recursively update the similarity and representative leaf cluster of the branch cluster above the inserted leaf cluster,
A time-series data management system characterized by that.
前記処理部は,警報発生機能を備え,前記警報発生機能により警報を発行することにより,前記ラベルの付与されていない時系列パタンの出現をユーザに提示し,ラベル付けの要求を行い,全ての未知異常を収集することを保証する,
ことを特徴とする時系列データ管理システム。A time-series data management system according to claim 5,
The processing unit is provided with an alarm generation function, and by issuing an alarm by the alarm generation function, the appearance of the time-series pattern without the label is presented to the user, a labeling request is made, Guarantees that unknown abnormalities are collected,
A time-series data management system characterized by that.
前記処理部は,
前記枝クラスタないし葉クラスタの属性としてラベル,および実行すべきアクションを管理し,
入力された前記時系列データが,分類された前記葉クラスタ,およびその上位の枝クラスタ群に記載された前記アクションを再帰的に実行し,
前記時系列データを前記類似度に応じて前記時系列データの精度低減,削除,警報発行,分散システムへの転送の少なくとも一つを行う,
ことを特徴とする時系列データ管理システム。A time-series data management system according to claim 5,
The processor is
Manage labels and attributes to be executed as attributes of the branch cluster or leaf cluster,
The input time-series data recursively executes the action described in the classified leaf cluster and the upper branch cluster group,
Performing at least one of accuracy reduction, deletion, alarm issuance, and transfer to a distributed system of the time series data in accordance with the similarity.
A time-series data management system characterized by that.
前記処理部は,
前記葉クラスタに属する前記時系列データの精度を低減する時,特定の許容誤差率で持って前記時系列データの精度低減を行うことにより,前記時系列データの類似度を算出し,
精度低減結果である時系列データが同じ葉クラスタに分類されることをもって該許容誤差率が妥当であると判定する,
ことを特徴とする時系列データ管理システム。A time-series data management system according to claim 7,
The processor is
When reducing the accuracy of the time series data belonging to the leaf cluster, the accuracy of the time series data is calculated by reducing the accuracy of the time series data with a specific allowable error rate,
It is determined that the permissible error rate is valid when the time-series data as the accuracy reduction result is classified into the same leaf cluster.
A time-series data management system characterized by that.
前記処理部は,
前記時系列データをその類似度により分類し,出現頻度の高いデータを平常データとして重要度を低く設定し,重要度の高い少数データと重要度の低い多数データを別システムにて管理することにより,検索や解析処理を中心に行うシステムと登録を中心に行うシステムとの負荷バランスを取る,
ことを特徴とする時系列データ管理システム。A time-series data management system according to claim 7,
The processor is
By classifying the time-series data according to their similarity, setting high-frequency data as normal data with low importance, and managing a small number of high-importance data and a large number of low-importance data in separate systems , Balance the load between systems that focus on search and analysis processing and systems that focus on registration,
A time-series data management system characterized by that.
前記処理部は,
前記特徴区間管理テーブルから,ユーザ指定時間範囲における前記特徴区間を識別する識別子を抽出し,前記特徴インデクスから当該識別子を持つ葉クラスタを探索し,探索した前記葉クラスタの上位ノードに対し,類似度閾値を超過する最初の枝クラスタを探索し,
探索された該枝クラスタの下位クラスタの全ての葉クラスタを探索し,
前記特徴区間管理テーブルから,前記全ての葉クラスタに記載の識別子に対応する全ての前記特徴区間の開始時刻・終了時刻を検索し,検索結果を前記入出力部表示するよう制御する,
ことを特徴とする時系列データ管理システム。A time-series data management system according to claim 1,
The processor is
An identifier for identifying the feature section in the user-specified time range is extracted from the feature section management table, a leaf cluster having the identifier is searched from the feature index, and a similarity is determined with respect to the upper nodes of the searched leaf cluster. Search for the first branch cluster that exceeds the threshold,
Search all leaf clusters of the subordinate clusters of the searched branch cluster,
From the feature section management table, search the start time / end time of all the feature sections corresponding to the identifiers described in all the leaf clusters, and control the search results to be displayed on the input / output unit.
A time-series data management system characterized by that.
前記処理部は,
時系列データをその特徴に応じた特徴区間に分割し,当該特徴区間のデータ,開始時刻,終了時刻,特徴区間を識別する識別子とを管理し,
前記特徴区間同士の類似度を算出し,算出した前記特徴区間の類似度に応じて,前記特徴区間を階層的にクラスタリングし,得られる前記特徴区間のクラスタ間の類似度を枝クラスタに,前記特徴区間を識別する識別子を葉クラスタに持つ木構造の特徴インデクスを構成することにより,前記時系列データを管理する,
ことを特徴とする時系列データ管理方法。A time-series data management method in a time-series data management system that includes a processing unit and an input / output unit and manages time-series data,
The processor is
Divide time-series data into feature sections according to the features, manage the feature section data, start time, end time, and identifiers identifying the feature sections,
The similarity between the feature sections is calculated, the feature sections are hierarchically clustered according to the calculated similarity of the feature sections, and the similarity between the clusters of the obtained feature sections is defined as a branch cluster. Managing the time-series data by constructing a tree-structured feature index having an identifier for identifying a feature section in a leaf cluster;
A time-series data management method characterized by the above.
前記処理部は,
前記特徴インデクスを前記入出力部に表示し,
前記入出力部から,前記枝クラスタないし前記葉クラスタの属性として,前記特徴区間の時系列パタンの意味付けを行うラベルと,対応するアクションを入力させるよう制御する,
ことを特徴とする時系列データ管理方法。The time-series data management method according to claim 11,
The processor is
Displaying the feature index at the input / output unit;
Controlling the input / output unit to input a label for meaning the time-series pattern of the feature section and a corresponding action as an attribute of the branch cluster or the leaf cluster;
A time-series data management method characterized by the above.
前記処理部は,
前記特徴区間を前記類似度により分類し,前記時系列パタンの出現頻度から平常データと異常データを分離し,前記平常データに重要度の低いラベルを付与する,
ことを特徴とする時系列データ管理方法。A time-series data management method according to claim 12,
The processor is
Classifying the feature sections according to the similarity, separating normal data and abnormal data from the appearance frequency of the time series pattern, and assigning a low importance label to the normal data;
A time-series data management method characterized by the above.
前記処理部は,
入力された前記時系列データと,前記葉クラスタの識別子により識別される前記特徴区間の時系列パタンとの類似判定を行うことにより前記類似度を算出して,最も類似した葉クラスタを選択し,
当該葉クラスタの吸収閾値と前記類似度とを比較することにより,当該葉クラスタへの吸収判定を行い,
当該葉クラスタの上位の前記枝クラスタの類似度との比較を再帰的に行うことにより枝クラスタへの挿入位置を決定し,
入力された前記時系列データを管理する葉クラスタを当該枝クラスタへ挿入し,
挿入した前記葉クラスタの上位の枝クラスタの類似度と代表葉クラスタを再帰的に更新する,
ことを特徴とする時系列データ管理方法。The time-series data management method according to claim 11,
The processor is
Calculating the similarity by performing a similarity determination between the input time-series data and the time-series pattern of the feature section identified by the identifier of the leaf cluster, and selecting the most similar leaf cluster;
By comparing the absorption threshold of the leaf cluster with the similarity, the absorption determination to the leaf cluster is performed,
The insertion position to the branch cluster is determined by recursively comparing with the similarity of the branch cluster above the leaf cluster,
Insert the leaf cluster that manages the input time-series data into the branch cluster,
Recursively update the similarity and representative leaf cluster of the branch cluster above the inserted leaf cluster,
A time-series data management method characterized by the above.
前記処理部は,
前記特徴区間のデータ,前記開始時刻,前記終了時刻,及び前記特徴区間を識別する識別子を特徴区間管理テーブルで管理し,
前記特徴区間管理テーブルから,ユーザ指定時間範囲における前記特徴区間を識別する識別子を抽出し,前記特徴インデクスから当該識別子を持つ葉クラスタを探索し,探索した前記葉クラスタの上位ノードに対し,類似度閾値を超過する最初の枝クラスタを探索し,
探索された該枝クラスタの下位クラスタの全ての葉クラスタを探索し,
前記特徴区間管理テーブルから,前記全ての葉クラスタに記載の識別子に対応する全ての前記特徴区間の開始時刻・終了時刻を検索し,検索結果を前記入出力部に表示するよう制御する,
ことを特徴とする時系列データ管理方法。The time-series data management method according to claim 11,
The processor is
Managing the feature section data, the start time, the end time, and an identifier for identifying the feature section in a feature section management table;
An identifier for identifying the feature section in the user-specified time range is extracted from the feature section management table, a leaf cluster having the identifier is searched from the feature index, and a similarity is determined with respect to the upper nodes of the searched leaf cluster. Search for the first branch cluster that exceeds the threshold,
Search all leaf clusters of the subordinate clusters of the searched branch cluster,
From the feature section management table, search start time / end time of all the feature sections corresponding to the identifiers described in all the leaf clusters, and control to display the search result on the input / output unit,
A time-series data management method characterized by the above.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2011/072828 WO2013051101A1 (en) | 2011-10-04 | 2011-10-04 | System and method for management of time-series data |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013051101A1 true JPWO2013051101A1 (en) | 2015-03-30 |
JP5715261B2 JP5715261B2 (en) | 2015-05-07 |
Family
ID=48043293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013537307A Expired - Fee Related JP5715261B2 (en) | 2011-10-04 | 2011-10-04 | Time-series data management system and method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5715261B2 (en) |
WO (1) | WO2013051101A1 (en) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294911B (en) * | 2013-05-23 | 2016-12-28 | 中国人民解放军国防科学技术大学 | A kind of time series similarity value-acquiring method and system |
JP6082341B2 (en) * | 2013-12-05 | 2017-02-15 | 株式会社日立ソリューションズ | Abnormality detection apparatus and abnormality detection method |
US20170212935A1 (en) * | 2015-01-09 | 2017-07-27 | Hitachi, Ltd. | Data management apparatus and data management method |
JP2016201011A (en) * | 2015-04-13 | 2016-12-01 | 三菱電機株式会社 | Plant data summary display device |
US10572836B2 (en) | 2015-10-15 | 2020-02-25 | International Business Machines Corporation | Automatic time interval metadata determination for business intelligence and predictive analytics |
HUE060513T2 (en) * | 2016-06-24 | 2023-03-28 | Bosch Gmbh Robert | Visual diagnostics / analytics system and method for smart manufacturing assembly line performance |
JP7009438B2 (en) * | 2016-07-07 | 2022-01-25 | アスペン テクノロジー インコーポレイテッド | Computer systems and methods for monitoring key performance indicators (KPIs) using time series pattern models |
US11016730B2 (en) | 2016-07-28 | 2021-05-25 | International Business Machines Corporation | Transforming a transactional data set to generate forecasting and prediction insights |
WO2018150589A1 (en) | 2017-02-20 | 2018-08-23 | 三菱電機株式会社 | Pattern extraction device, pattern extraction method, and pattern extraction program |
CN108319678A (en) * | 2018-01-30 | 2018-07-24 | 复旦大学 | A kind of distributed index method of magnanimity time series |
WO2020008533A1 (en) | 2018-07-03 | 2020-01-09 | 三菱電機株式会社 | Data processing device and data processing method |
US20220121191A1 (en) * | 2019-02-14 | 2022-04-21 | Nec Corporation | Time-series data processing method |
US11755945B2 (en) | 2019-08-07 | 2023-09-12 | International Business Machines Corporation | Time-series data uncertainty reduction |
JP7132263B2 (en) * | 2020-03-19 | 2022-09-06 | 株式会社東芝 | Information processing device, information processing method and program |
KR20230058060A (en) * | 2020-07-28 | 2023-05-02 | 카와사키 주코교 카부시키가이샤 | State Monitoring Device, State Abnormality Determination Method, and State Abnormality Determination Program |
JP2022053847A (en) * | 2020-09-25 | 2022-04-06 | 株式会社東芝 | Apparatus for assisting plant monitoring |
CN113779077A (en) * | 2021-09-28 | 2021-12-10 | 京东城市(北京)数字科技有限公司 | Time period query method and device, electronic equipment and storage medium |
CN115670418B (en) * | 2023-01-03 | 2023-03-21 | 深圳市研强物联技术有限公司 | Data storage method based on smart watch user information |
CN115858636B (en) * | 2023-03-01 | 2023-06-27 | 深圳市宏博信息科技有限公司 | Big data stream oriented distributed index searching method and device |
CN116089843B (en) * | 2023-04-10 | 2023-09-08 | 国网浙江省电力有限公司 | New energy settlement data anomaly detection and early warning method based on data clustering |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1173217A (en) * | 1997-08-27 | 1999-03-16 | Ishikawajima Harima Heavy Ind Co Ltd | Interface agent for plant |
JP2003132088A (en) * | 2001-10-22 | 2003-05-09 | Toshiba Corp | Time series data retrieval system |
JP2007011686A (en) * | 2005-06-30 | 2007-01-18 | Yokogawa Electric Corp | Plant information processing system and plant information processing method |
-
2011
- 2011-10-04 WO PCT/JP2011/072828 patent/WO2013051101A1/en active Application Filing
- 2011-10-04 JP JP2013537307A patent/JP5715261B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1173217A (en) * | 1997-08-27 | 1999-03-16 | Ishikawajima Harima Heavy Ind Co Ltd | Interface agent for plant |
JP2003132088A (en) * | 2001-10-22 | 2003-05-09 | Toshiba Corp | Time series data retrieval system |
JP2007011686A (en) * | 2005-06-30 | 2007-01-18 | Yokogawa Electric Corp | Plant information processing system and plant information processing method |
Also Published As
Publication number | Publication date |
---|---|
WO2013051101A1 (en) | 2013-04-11 |
JP5715261B2 (en) | 2015-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5715261B2 (en) | Time-series data management system and method | |
JP6154542B2 (en) | Time-series data management method and time-series data management system | |
JP5678620B2 (en) | Data processing method, data processing system, and data processing apparatus | |
US8650063B2 (en) | Program, method and apparatus for modeling workflow | |
US20110078106A1 (en) | Method and system for it resources performance analysis | |
US20160055044A1 (en) | Fault analysis method, fault analysis system, and storage medium | |
CN108182963A (en) | A kind of medical data processing method and processing device | |
US20190079965A1 (en) | Apparatus and method for real time analysis, predicting and reporting of anomalous database transaction log activity | |
US10409817B1 (en) | Database system and methods for domain-tailored detection of outliers, patterns, and events in data streams | |
CN111709714B (en) | Loss personnel prediction method and device based on artificial intelligence | |
US20120192008A1 (en) | Operation management device and operation management method | |
CN109920506A (en) | Medical care statistics report-generating method, device, equipment and storage medium | |
JP6210867B2 (en) | Data relationship analysis system and data management device | |
CN110910991B (en) | Medical automatic image processing system | |
Al-Janabi | A proposed framework for analyzing crime data set using decision tree and simple k-means mining algorithms | |
Vogelgesang et al. | PMCube: a data-warehouse-based approach for multidimensional process mining | |
CN113742118A (en) | Method and system for detecting anomalies in a data pipeline | |
WO2019073512A1 (en) | System analysis method, system analysis device, and program | |
JP5668425B2 (en) | Failure detection apparatus, information processing method, and program | |
US11954945B2 (en) | Systems and methods for analyzing machine performance | |
Jabeen et al. | Divided we stand out! forging cohorts for numeric outlier detection in large scale knowledge graphs (conod) | |
JP2021170244A (en) | Learning model construction system and method of the same | |
Liu et al. | Research on application of data mining in hospital management | |
JP2010102462A (en) | Apparatus, method and program for estimating trouble | |
JP2021028751A (en) | Failure sign diagnosis system and method for the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141224 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5715261 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |