WO2017046906A1 - データ分析装置および分析方法 - Google Patents

データ分析装置および分析方法 Download PDF

Info

Publication number
WO2017046906A1
WO2017046906A1 PCT/JP2015/076363 JP2015076363W WO2017046906A1 WO 2017046906 A1 WO2017046906 A1 WO 2017046906A1 JP 2015076363 W JP2015076363 W JP 2015076363W WO 2017046906 A1 WO2017046906 A1 WO 2017046906A1
Authority
WO
WIPO (PCT)
Prior art keywords
node
records
data
value
variable
Prior art date
Application number
PCT/JP2015/076363
Other languages
English (en)
French (fr)
Inventor
徳永 和朗
俊輔 毛内
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2015/076363 priority Critical patent/WO2017046906A1/ja
Priority to US15/557,542 priority patent/US11244235B2/en
Priority to JP2017540404A priority patent/JP6458157B2/ja
Publication of WO2017046906A1 publication Critical patent/WO2017046906A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Definitions

  • the present invention relates to a data analysis apparatus and an analysis method.
  • ⁇ Analysis of output including various system states or intermediate results is required.
  • An example of a system that requires state analysis is a control system, and system state analysis is required in order to deal with control failures such as a failure or a difference from a predetermined control result.
  • An example of a system that requires output analysis is a sales management system, which can be used to modify and formulate sales plans in relation to customer preferences and sales time (hours, days of the week, months, etc.) It is necessary to analyze the output including intermediate results such as sales. These requests include accurate analysis.
  • Patent Document 1 describes that a decision tree corresponding to a classification rule inherent in data is generated, and new attribute data is added to a classification rule with low classification accuracy to improve classification accuracy. .
  • Patent Document 1 limits the number of attribute types of data and increases the number of attribute types of data when a desired classification accuracy cannot be obtained, thereby obtaining one combination of data attributes constituting a classification rule.
  • the state and output are not always specified by one rule.
  • the attribute of data reflecting the cause of the system abnormality or a combination thereof is not necessarily limited to one. That is, the improvement in accuracy includes not overlooking a plurality of important rules.
  • the data analysis device is required to visualize the rules for classifying data, eliminating the complexity of modeling.
  • a data analysis apparatus for analyzing data having a record including an objective variable and a plurality of explanatory variables creates a node defined by the conditions of the explanatory variable based on the objective variable and the explanatory variable of the record,
  • a node creation unit for associating with a node
  • an evaluation value generation unit for generating, as an evaluation value, a ratio of the number of records whose target variable is a target value of a plurality of records associated with the node, and based on the evaluation value
  • a parameter extracting unit that selects a node and extracts and outputs the condition of the explanatory variable related to the selected node.
  • rules for classifying data can be easily visualized.
  • FIG. 1 is a configuration diagram of the data analysis apparatus 1.
  • the data analysis apparatus 1 is connected to an analysis target system 2 such as a control system or a sales management system, and is connected to an output apparatus 3 that outputs a data analysis result.
  • an analysis target system 2 such as a control system or a sales management system
  • the data analysis apparatus 1 includes a data collection unit 10, a decision tree creation unit 30, an evaluation value generation unit 50, and a parameter extraction unit 80, a collection data table 20, a decision tree table 40, an evaluation result table 60, And the parameter table 90.
  • the data analysis device 1 is a computer having a processing device that executes each processing unit and a storage device that stores each table.
  • each processing unit is configured by a program running on a CPU (Central Processing Unit), and each table is configured by a database stored in a storage device.
  • CPU Central Processing Unit
  • the data collection unit 10 associates the data record collected from the analysis target system with the decision tree node that defines the node based on the condition relating to the data collected by the decision tree creation unit 30.
  • the evaluation value generation unit 50 classifies the records into records belonging to each node based on the conditions relating to the data, further classifies the records into records according to the mode of the objective variable of the decision tree included in the data, A ratio of the number of records further classified with respect to the number of records belonging is generated as an evaluation value.
  • the parameter extraction unit extracts a condition relating to data corresponding to an aspect of the objective variable based on a predetermined criterion relating to the generated evaluation value, and outputs the extracted condition.
  • the operation of each processing unit is as follows.
  • the data collection unit 10 stores the data collected from the analysis target system 2 in the collected data table 20.
  • the decision tree creation unit 30 creates a decision tree from the record of the collected data table 20 and stores it in the decision tree table 40.
  • the evaluation value generation unit 50 calculates an evaluation value of each node of the decision tree, and generates an evaluation result table 60 in which the evaluation value is added to the decision tree table 40.
  • the parameter extraction unit 80 refers to the evaluation result table 60, extracts parameters (data attributes) representing features inherent in the collected data, stores them in the parameter table 90, and outputs them to the output device 3.
  • the output device 3 is, for example, a communication device for network output, a display for display, a terminal equipped with the display, or a printer for printing.
  • FIG. 2 is a process flowchart of the data collection unit 10.
  • the data collection unit 10 collects data from the analysis target system 2 (S11), and stores the collected data in the collected data table 20 (S12).
  • the data to be collected is sensor data in a broad sense.
  • the broad sensor data includes data such as a control target value set by the control device and an abnormality detection output of the abnormality detection device in addition to data of sensors such as a thermometer and an ammeter. These sensor data are output from each sensor at a cycle of 100 ms, 1 second, etc. based on a timer (clock) of the analysis target system 2.
  • sensor data that is output in response to the occurrence of an event called abnormality detection, such as the abnormality detection output of the abnormality detection device.
  • These sensor data are associated with time data (time stamp) representing the time output from each sensor.
  • the data collection unit 10 may collect data from each sensor according to the output cycle, or may collect data by inputting sensor data once accumulated in the analysis target system 2.
  • the data to be collected is log data output by the information processing system periodically or in response to an event that occurs.
  • Log data also includes a time stamp. Therefore, log data output according to the log type, such as data reception of the information processing system, data writing to the storage device, program execution status, etc., is treated as sensor data when the log type is regarded as a sensor. be able to.
  • the data to be collected can be handled in the same manner as the sensor data regardless of the type of the analysis target system 2, and will be described simply as sensor data.
  • FIG. 3 is a configuration example of the collected data table 20.
  • the collected data table 20 has an ID 21 for identifying each record and sensor data 22 to 26 collected from each sensor.
  • the state 26 is an abnormality detection output when the above-described abnormality detection device is regarded as a sensor.
  • the sensor data 22 to 25 are treated as explanatory variables in the decision tree analysis, and the state 26 is treated as an objective variable. Since the decision tree analysis itself is well known, a description thereof will be omitted.
  • the sensor data 22 to 26 included in each record of the collected data table 20 can be regarded as the same time or the same time based on each time data not shown. A thing within a predetermined time (for example, 1/10 of a period) from the reference time is associated.
  • a timer for example, 1/10 of a period
  • the time data time stamp of a specific sensor whose sensor data is collected in the collection data table 20 may be used.
  • the stirring time and reaction time Since it is known in advance, it is preferable to make corrections at these times (advance or delay the time data of each sensor data) and align the sensor data at the same time.
  • the unit of each sensor data in the collected data table 20 is omitted, and the number of records is 40.
  • the state 26 which is an objective variable is represented by two states (an aspect of the objective variable) of a character string “normal” or “abnormal”.
  • the state may be three or more states depending on the analysis target system 2.
  • each state in the state transition diagram can be selected.
  • the analysis target system 2 is a sales management system
  • the sales of a specific item is increasing, the sales of a specific item is decreasing, and the sales of a specific item are above the target value.
  • Various states can be selected, such as (or below).
  • FIG. 4 is a process flowchart of the decision tree creation unit 30.
  • FIG. 5 is a configuration example of the decision tree table 40 created by the decision tree creation unit 30.
  • the decision tree table 40 includes a node ID 41 of each node of the decision tree, a conditional statement 42 that defines the node (a condition that determines whether or not the target record belongs to the node), and a node in the hierarchy of the decision tree (tree structure).
  • Depth hierarchical depth: the number of branches from the root node to the corresponding node) 43, the number of records 44 of the collected data belonging to the node, and the record 26 of the collected data state 26 representing “abnormal”
  • the number of records (abnormal number of records) 45, the number of records 46 in which the collected data state 26 indicates “normal” (number of normal records) 46, and the node ID 47 of the parent node into which the node is divided are shown. Including.
  • the decision tree creation unit 30 repeats the association of the node ID 41 of each node of the decision tree, the conditional statement 42 that defines the node, and the hierarchical depth 43 from the root node to the leaf node (terminal node), and the decision tree table 40 (S31).
  • the root node includes all the records in the collected data table 20, and the node ID 41 is “0” and the hierarchical depth 43 is “0”.
  • the node with the node ID 41 of “1” includes a record whose value of the sensor D25 in the collected data table 20 is 104.9 or less as indicated by the conditional statement 42.
  • the node whose node ID 41 is “2” includes a record in which the value of the sensor D25 is greater than 104.9. Since the nodes with node IDs 41 “1” and “2” are immediately below the node with node ID 41 “0”, the layer depth 43 is “1”. In the same manner, the association is repeated up to the leaf node.
  • the order of determination of the conditional sentence 42 is the order of determination of the value of the sensor D25, determination of the value of the sensor A22 in this example, and so on. It is determined.
  • the judgment criterion is a boundary value of the ratio of the number of normal / abnormal records represented by each record. For example, when the value of sensor D25 is larger than 104.9 with reference to 104.9 (node 2), it is only an abnormal state record, and when it is smaller than 104.9 (node 1), it is a normal state record and an abnormal state. Both records are included. Node 1 is further divided into nodes 3 to 5 based on the value of sensor A22. The value of sensor A22 is based on 19.9 and 20.1, and includes an abnormal record only if it is greater than 19.9 and less than 20.1 (node 4), and less than 19.9 (node 3) or greater than 20.1 (node 5) does not include an abnormal record. The same applies to other sensors based on the numerical values shown.
  • the sensor data (explanatory variable) is used as a conditional statement to try multiple divisions, and the ratio of the target variable state (normal state, abnormal state) is well divided (the proportion of normal state is large)
  • Sensor data and values (divided into nodes and nodes with a high proportion of abnormal states) are adopted as conditional statements for actual division, and node division is performed.
  • the division of the divided nodes is repeated until a predetermined condition (node hierarchy depth, number of records in the node, ratio between normal state and abnormal state, etc.) is reached.
  • Judgment criteria are not necessarily numerical standards.
  • the sensor is not only a type that outputs the target level, but also a type that differentiates the level and outputs a change in the level as sensor data.
  • the temperature (level) is differentiated, and the degree of ascent or descent is, for example, five stages ("rapid rise", “rise”, “no change", ...) Some output as data.
  • a criterion for determination corresponding to a numerical value or character string representing a stage is used.
  • the decision tree creation unit 30 stores the number of records 44 of the collected data table 20 corresponding to each node of the decision tree table 40 in the decision tree table 40 (S32).
  • the decision tree creation unit 30 stores the number of abnormal records 45 and the number of normal records 46 of the collected data table 20 corresponding to each node of the decision tree table 40 in the decision tree table 40 (S33).
  • the number of records shown in FIG. 5 is a numerical example when the number of records in the collected data table 20 is 40.
  • FIG. 6 is a diagram representing the contents (decision tree) of the decision tree table 40 in a tree structure.
  • a conditional statement 42 from the upper node to the lower node is described.
  • the leaf nodes whose records included in FIG. 6 are all abnormal records are node 2 and node 8. This indicates that the state and output of the analysis target system 2 are not necessarily specified by one rule (type of sensor data or a combination thereof).
  • FIG. 7 is a process flowchart of the evaluation value generation unit 50.
  • FIG. 8 is a configuration example of the evaluation result table 60 generated by the evaluation value generation unit 50.
  • the node ID 61, the conditional statement 62, the hierarchy depth 63, the record number 64, the abnormal record number 68, and the normal record number 71 in the evaluation result table 60 are the same as the corresponding items in the decision tree table 40.
  • the evaluation value generation unit 50 copies the contents of the decision tree table 40 and generates the evaluation result table 60.
  • the evaluation result table 60 includes a cover degree 65, an abnormal moderate degree 66, an abnormal fitness degree 67, a normal moderate degree 69, and a normal fitness degree 70.
  • the normal moderate degree 69 and the normal fitness degree 70 are omitted because the explanation is that the abnormality of the abnormal intermediate degree 66 and the abnormal fitness degree 67 is read as normal.
  • the abnormal moderate 66, abnormal fitness 67, normal moderate 69, and normal fitness 70 are evaluation values.
  • Abnormal medium 66 and normal medium 69 are evaluation values representing an index of the accuracy of the rule based on the decision tree.
  • the abnormal fitness level 67 and the normal fitness level 70 are evaluation values as a standard that represent the ratio of the number of abnormal records 68 or the number of normal records 71 included in the node to the total number of records. Therefore, the target level may be called an evaluation value.
  • the evaluation value generation unit 50 obtains the cover degree 65 of each node as described above, and stores it in the evaluation result table 60 (S51). As described above, the evaluation value generation unit 50 obtains the abnormal moderate 66 (S52), the abnormal fitness 67 (S53), the normal moderate 69 (S54), and the normal fitness 70 (S55). Then, each is stored in the evaluation result table 60.
  • FIG. 9 is a process flowchart of the parameter extraction unit 80.
  • the parameter is each sensor data reflected in each state (hereinafter, normal) 26 that is an objective variable, and a condition represented by a conditional statement 62 relating to each sensor data is a rule. Therefore, each rule includes parameters (data) and conditions based thereon.
  • selection criteria are set in advance, such as a rule having a target level of 100% as an evaluation value, a rule having a target level greater than or equal to a predetermined value, and a rule having a target level of k from the top.
  • the selection criteria may be set by the user of the data analysis apparatus.
  • a node having a large number of records may be preferentially selected in consideration of values related to the number of records such as the number of records, the degree of coverage, and the fitness. This is because a node with a large number of records is important and considered to be highly reliable, and a node with a small number of records is considered not to have relatively high reliability and importance. Since the user of the data analysis apparatus can confirm a highly important rule according to the selection criteria as illustrated, a data analysis apparatus capable of visualizing features inherent in sensor data without being involved in unnecessary sensor data is obtained. become.
  • the parameter extraction unit 80 refers to the evaluation result table 60, selects a rule with a high target level for each state, and stores it in the parameter table 90 (S81).
  • FIG. 10 is a configuration example of the parameter table 90.
  • the parameter table 90 associates the state 91 and the rule 92 having a high target level.
  • the state 91 is “abnormal” and “normal” like the state 26.
  • the state 91 may be various states including three or more states.
  • FIG. 10 illustrates a case where “rule with 100% target level” is used as a selection criterion according to the state.
  • the rule in which the abnormal degree 66 of the evaluation result table 60 indicates 100% when the state 91 is “abnormal” corresponds to the node 2 and the node 8, and the conditional statement 62 is the target. It stores in the rule 92 with high degree.
  • the rule in which the normal medium 69 of the evaluation result table 60 indicates 100% corresponds to the node 3, the node 5, the node 6, and the node 9. It is stored in the rule 92 having a high target level.
  • the selection criterion may be set so as to extract a conditional statement of a node having a large number of records (coverage and fitness) and a high target level. .
  • the parameter extraction unit 80 outputs (displays) the contents of the parameter table 90 to the output device 3 (S82). Since the content of the parameter table 90 output to the output device is a rule with a high target level selected according to a predetermined selection criterion, the user of the data analysis unit is particularly focused on when the system status is abnormal. Priority can be given to actions that correspond to rules with high degrees.
  • the parameter extracting unit 80 may extract important parameters or calculate the importance of parameters in addition to outputting the extracted conditional statements (parameters and their values) of each node as they are.
  • the conditional statement of the node having a high normal state ratio has parameters D and A, which are the most important, and then C is important.
  • the importance of each parameter may be converted into a numerical value based on the target level of the node, the number of records, and the like.
  • the importance of the parameter may be extracted for each state (abnormal or normal) of the objective variable, or may be extracted for all states.
  • the data analysis apparatus described it is possible to visualize the characteristics inherent in the data as rules, eliminating the complexity of the decision tree.
  • 1 data analysis device
  • 2 analysis target system
  • 3 output device
  • 10 data collection unit
  • 20 collection data table
  • 30 decision tree creation unit
  • 40 decision tree table
  • 50 evaluation value generation unit
  • 60 Evaluation result table
  • 80 parameter extraction unit
  • 90 parameter table.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

目的変数と複数の説明変数を含むレコードを有するデータを分析するデータ分析装置は、前記レコードの目的変数と説明変数に基づいて前記説明変数の条件で規定されたノードを作成し、前記レコードを前記ノードに対応付けるノード作成部、前記ノードに対応付けられた複数のレコードの、前記目的変数が対象値であるレコードの数の割合を評価値として生成する評価値生成部、および、前記評価値に基づいてノードを選択し、当該選択したノードにかかる前記説明変数の条件を抽出して出力するパラメータ抽出部、を有する。

Description

データ分析装置および分析方法
 本発明は、データ分析装置および分析方法に関する。
 様々なシステムの状態または中間結果を含む出力の分析が要請されている。状態の分析が必要とされるシステムの例として制御システムがあり、その故障や所定の制御結果と異なるなどの制御不良などに対応するためにシステムの状態分析が必要となる。出力の分析が必要とされるシステムの例として売上管理システムがあり、販売計画の修正や策定のために、顧客の嗜好や売上時期(時間、曜日、月など)と関連して、販売品目とその売上高のような中間結果を含む出力の分析が必要となる。これらの要請には精度よく分析することが含まれる。
 このような要請に応える技術的背景として、コンピュータのCPU能力の向上や記憶装置の小型・大容量化がある。さらに各種センサの小型・高精度化なども要請に応える技術的背景である。
 技術的背景により、システムから得られる多種多様なデータを分析対象にすることにより、システムの状態や出力の分析精度の向上が期待できる。この期待に応えるものとして、特許文献1に記載される技術がある。
 特許文献1は、データに内在する分類規則に対応する決定木を生成し、分類精度が低い分類規則に対して新たな属性のデータを追加して、分類精度を向上させることを記載している。
特開2006-48129号公報
 特許文献1に記載されているように、データに内在する分類規則(ルール)を見出すためにモデリングの一つである決定木を用いることは有用である。しかし、多種多様な属性のデータが生成されるシステムの状態や出力の分析に用いると決定木が複雑になり過ぎるという問題がある。この問題を解消するために、決定木が刈込まれる。決定木は、ノードで用いるデータの属性種別数の設定や木の階層数の設定などにより、リーフノードが刈込まれ、単純化される。
 特許文献1は、データの属性種別数を限定して、所望の分類精度が得られない場合、データの属性種別数を増やし、分類規則を構成するデータの属性の一つの組み合わせを得ている。
 複雑なシステムでは、状態や出力は必ずしも一つのルールで特定されるとは限らない。たとえば、システムの異常の原因を反映するデータの属性またはその組み合わせは必ずしも一つに限らない。すなわち、精度の向上には、複数有り得る重要なルールを看過しないことも含まれる。
 そこで、ユーザの観点からデータ分析装置は、モデリングの複雑さを解消した、データを分類するルールの可視化が求められる。
 目的変数と複数の説明変数を含むレコードを有するデータを分析するデータ分析装置は、前記レコードの目的変数と説明変数に基づいて前記説明変数の条件で規定されたノードを作成し、前記レコードを前記ノードに対応付けるノード作成部、前記ノードに対応付けられた複数のレコードの、前記目的変数が対象値であるレコードの数の割合を評価値として生成する評価値生成部、および、前記評価値に基づいてノードを選択し、当該選択したノードにかかる前記説明変数の条件を抽出して出力するパラメータ抽出部、を有する。
 開示する発明によれば、データを分類するためのルールを容易に可視化できる。
データ分析装置の構成図である。 データ収集部の処理フローチャートである。 収集データテーブルの構成例である。 決定木作成部の処理フローチャートである。 決定木テーブルの構成例である。 決定木を木構造表現した図である。 評価値生成部の処理フローチャートである。 評価結果テーブルの構成例である。 パラメータ抽出部の処理フローチャートである。 パラメータテーブルの構成例である。
 図1は、データ分析装置1の構成図である。データ分析装置1は、制御システムや売上管理システムなどの分析対象システム2と接続し、データ分析結果を出力する出力装置3と接続する。
 データ分析装置1は、データ収集部10、決定木作成部30、評価値生成部50、及びパラメータ抽出部80の各処理部、並びに、収集データテーブル20、決定木テーブル40、評価結果テーブル60、及びパラメータテーブル90の各テーブルを有する。データ分析装置1は、各処理部を実行する処理装置、および各テーブルを格納する記憶装置を有するコンピュータである。例えば、各処理部は、CPU(Central Processing Unit)上で稼働するプログラムで構成され、各テーブルは、記憶装置内に記憶されたデータベースで構成される。
 データ収集部10が分析対象システムから収集するデータのレコードを、決定木作成部30が収集するデータに係る条件に基づいてノードを定義する決定木のノードに対応付ける。評価値生成部50は、データに係る条件に基づいて、レコードを各ノードに属するレコードに分類し、データに含まれる、決定木の目的変数の態様に応じたレコードにさらに分類し、各ノードに属するレコードの数に対する、さらに分類したレコードの数の割合を評価値として生成する。パラメータ抽出部は、生成した評価値に関する所定の基準に基づいて、目的変数の態様に対応するデータに係る条件を抽出し、抽出した条件を出力する。このようなデータ分析装置1としての処理を実行するために、各処理部の動作は次のようになる。
 データ収集部10は、分析対象システム2から収集したデータを収集データテーブル20に格納する。決定木作成部30は、収集データテーブル20のレコードから決定木を作成し、決定木テーブル40に格納する。評価値生成部50は、決定木の各ノードの評価値を算出し、決定木テーブル40に評価値を加えた評価結果テーブル60を生成する。パラメータ抽出部80は、評価結果テーブル60を参照し、収集データに内在する特徴を表すパラメータ(データの属性)を抽出し、パラメータテーブル90に格納すると共に、出力装置3に出力する。
 出力装置3は、例えば、ネットワーク出力するための通信装置、表示するためのディスプレイやこれを備えた端末、印刷するためのプリンタである。
 図2は、データ収集部10の処理フローチャートである。データ収集部10は、分析対象システム2からデータを収集し(S11)、収集したデータを収集データテーブル20に格納する(S12)。
 分析対象システム2が制御システムのような場合、収集するデータは、広義のセンサデータである。広義のセンサデータは、温度計や電流計などのセンサのデータの他に、制御装置が設定する制御目標値や異常検知装置の異常検知出力などのデータも含む。これらのセンサデータは、分析対象システム2が持つタイマ(時計)に基づいて、100ms、1秒などの周期で各センサから出力される。また、異常検知装置の異常検知出力のように、異常検知というイベントの発生に応じて出力されるセンサデータもある。これらのセンサデータは、各センサから出力された時刻を表す時刻データ(タイムスタンプ)と対応付けられている。データ収集部10は、各センサから出力周期に対応して収集してもよいし、分析対象システム2に一旦蓄積されたセンサデータを纏めて入力することにより、収集してもよい。
 分析対象システム2が売上管理システムのような情報処理システムの場合、収集するデータは、情報処理システムが周期的に、または発生するイベントに対応して出力するログデータである。ログデータにもタイムスタンプが含まれる。したがって、情報処理システムのデータ受信、記憶装置へのデータ書き込み、プログラムの実行状態などのログの種別に応じて出力されるログデータは、ログの種別をセンサと見做すと、センサデータとして扱うことができる。以下の例示では、分析対象システム2の種類にかかわりなく、収集するデータをセンサデータと同様に扱うことができ、単にセンサデータとして説明する。
 図3は、収集データテーブル20の構成例である。収集データテーブル20は、各レコードを識別するID21、各センサから収集したセンサデータ22~26を有する。状態26は、前述の異常検知装置をセンサと見做したときの異常検知出力である。以下に説明する例示では、センサデータ22~25を決定木分析における説明変数、状態26を目的変数として扱う。決定木分析そのものは、周知であるので説明を省略する。
 分析対象システム2が制御システムのような場合、収集データテーブル20の各レコードに含まれる各センサデータ22~26は、図示を省略する各時刻データに基づいて、同時刻または同時刻と見做せる基準時刻から所定時間(たとえば、周期の1/10)内のものが対応付けられている。基準時刻は、タイマ(時計)の時刻を用いてもよいが、収集データテーブル20にセンサデータが収集される特定のセンサの時刻データ(タイムスタンプ)を用いればよい。
 なお、分析対象システム2が、薬剤を次々に混合、化合させ、各薬剤投入量および最終的な薬剤の成分比をセンサデータとして得るような工程管理システムのような場合は、攪拌時間や反応時間が予め分かっているので、それらの時間で補正(各センサデータの時刻データを早める、または遅らせる)して同時刻のセンサデータとして整列させるとよい。
 ID21が「1」のレコードは、センサAからのセンサデータ22が「19.9」、センサBからのセンサデータ23が「4.9」、・・・、状態26が「正常」である。ここでは、後述する説明を分かり易くするために、収集データテーブル20の各センサデータの単位を省略し、レコード数を40としている。
 また、説明を簡単にするために、目的変数である状態26を文字列「正常」または「異常」の2状態(目的変数の態様)で表している。状態は、分析対象システム2によって3状態以上の場合もある。たとえば、状態遷移図で分析対象システム2の3以上の状態を表現できる制御システムにおいては、状態遷移図の各状態を選択できる。さらに、分析対象システム2が売上管理システムの場合には、特定の品目の売り上げが伸びている状態、特定の品目の売り上げが低下している状態、特定の品目の売り上げが目標値を上回っている(または下回っている)状態など、多様な状態を選択できる。
 図4は、決定木作成部30の処理フローチャートである。図5は、決定木作成部30が作成する決定木テーブル40の構成例である。
 決定木テーブル40は、決定木の各ノードのノードID41、ノードを定義する条件文42(対象のレコードがノードに属するか否かを定める条件)、決定木の(木構造の)階層におけるノードの深度(階層深度:ルートノードから該当ノードに至るブランチの数)43、ノードに属する収集データのレコード数44、レコード数44のレコードの中で収集データの状態26が「異常」を表しているレコード数(異常レコード数)45、および、レコード数44のレコードの中で収集データの状態26が「正常」を表しているレコード数(正常レコード数)46、ノードを分割した親ノードのノードID47を含む。
 決定木作成部30は、決定木の各ノードのノードID41、ノードを定義する条件文42、および階層深度43の対応付けを、ルートノードからリーフノード(末端のノード)まで繰り返し、決定木テーブル40へ格納する(S31)。ルートノードは、収集データテーブル20のすべてのレコードを含み、そのノードID41を「0」、階層深度43を「0」とする。ノードID41が「1」のノードは、その条件文42が表すように、収集データテーブル20のセンサD25の値が104.9以下のレコードを含む。一方、ノードID41が「2」のノードが、センサD25の値が104.9より大のレコードを含む。ノードID41が「1」と「2」のノードはノードID41が「0」のノードの直下にあるので、その階層深度43は「1」である。以下、同様にリーフノードまで対応付けを繰り返す。
 条件文42の判定の順序と各々の判定の基準を簡単に説明する。決定木分析において、条件文42の判定の順序は、本例ではセンサD25の値の判定、センサA22の値の判定、・・・の順序であるが、これらは例えば既知のχ二乗検定を経て決定される。
 判定基準は、各レコードが表す正常状態/異常状態のレコード数の割合の境界値である。たとえば、センサD25の値は、104.9を基準として、104.9より大の場合(ノード2)は、異常状態のレコードのみであり、104.9より小の場合(ノード1)では、正常状態のレコードと異常状態のレコードの両方が含まれている。ノード1をさらにセンサA22の値でノード3~5に分割する。センサA22の値は、19.9および20.1を基準とし、19.9より大で20.1未満の場合(ノード4)のみ異常状態のレコードを含み、19.9より小の場合(ノード3)または20.1より大の場合(ノード5)は、異常状態のレコードが含まれない。他のセンサにおいても、図示する数値を基準として同様である。
 分割対象のノードに対し、センサデータ(説明変数)を条件文に用いて複数通り分割を試み、目的変数である状態(正常状態、異常状態)の割合が上手に分かれる(正常状態の割合が多いノードと異常状態の割合が多いノードに分かれる)センサデータ及び値を、実際に分割を行う条件文として採用しノード分割をおこなう。分割したノードをさらに分割することを、所定の条件(ノードの階層深度、ノード内のレコード数、正常状態と異常状態の割合など)になるまで繰り返す。
 判定基準は、必ずしも数値による基準ではない。センサは対象のレベルを出力する種類だけではなく、レベルを微分し、レベルの変化をセンサデータとして出力する種類もある。たとえば、温度変化を出力するセンサには、温度(レベル)を微分し、上昇度合い又は下降度合いをたとえば、5段階(「急上昇」、「上昇」「変化なし」、・・)などの段階をセンサデータとして出力するものがある。このようなセンサデータの場合、段階を表す数値または文字列に対応する判定の基準を用いる。
 決定木作成部30は、決定木テーブル40の各ノードに該当する収集データテーブル20のレコード数44を決定木テーブル40に格納する(S32)。決定木作成部30は、決定木テーブル40の各ノードに該当する収集データテーブル20の異常レコード数45および正常レコード数46を決定木テーブル40に格納する(S33)。図5に示す各レコード数は、収集データテーブル20のレコード数を40としたときの数値例である。
 図6は、決定木テーブル40の内容(決定木)を木構造表現した図である。木構造表現した決定木は、最上位にルートノード(ノードID41=「0」:ノード0)、各末端にリーフノードを表す。各ブランチには、上位ノードから下位ノードに至る条件文42を記載している。たとえば、ノード8(ノードID41=「8」:以下同様に表記)の条件文42は、ルートノード(ノード0)からノード1、ノード4、およびノード7を経由してノード8に至る各ブランチの条件文のAND条件で得られる。
 図6で含まれるレコードがすべて異常レコードであるリーフノードは、ノード2とノード8である。これは、分析対象システム2の状態や出力は必ずしも一つのルール(センサデータの種別またはその組み合わせ)で特定されるとは限らないことを表している。
 図7は、評価値生成部50の処理フローチャートである。図8は、評価値生成部50が生成する評価結果テーブル60の構成例である。
 評価結果テーブル60のノードID61、条件文62、階層深度63、レコード数64、異常レコード数68、および正常レコード数71は、決定木テーブル40の対応する項目と同じである。これらの項目に関しては、評価値生成部50が決定木テーブル40の内容をコピーして、評価結果テーブル60を生成する。
 さらに評価結果テーブル60は、カバー度65、異常的中度66、異常適応度67、正常的中度69、および正常適応度70を含む。カバー度65は、ノードに含まれるレコード数64の収集データテーブル20の全レコード数(40)に対する割合である。たとえば、ノード3の場合、レコード数64/全レコード数=7/40=17.5%である。異常的中度66は、ノードに含まれる異常レコード数68のレコード数64に対する割合である。たとえば、ノード4の場合、ノード4の異常レコード数68/レコード数64=4/9=44.4%である。異常適応度67は、ノードに含まれる異常レコード数68の全レコード数(40)に対する割合である。たとえば、ノード4の場合、ノード4の異常レコード数68/全レコード数=4/40=10.0%である。正常的中度69および正常適応度70に関しては、異常的中度66および異常適応度67の異常を正常と読み替えた説明になるので省略する。
 異常的中度66、異常適応度67、正常的中度69、および正常適応度70が評価値である。異常的中度66および正常的中度69は決定木によるルールの精度の指標を表す評価値である。異常適応度67および正常適応度70は、そのノードに含まれる異常レコード数68または正常レコード数71の全レコード数に対する割合を表す、目安としての評価値である。したがって、的中度を評価値と呼んでもよい。
 評価値生成部50は、各ノードのカバー度65を前述の説明のように求め、評価結果テーブル60へ格納する(S51)。評価値生成部50は、前述の説明のように、異常的中度66(S52)、異常適応度67(S53)、正常的中度69(S54)、および正常適応度70(S55)を求めて、各々を評価結果テーブル60へ格納する。
 図9は、パラメータ抽出部80の処理フローチャートである。ここで、パラメータとは、目的変数である各状態(以上、正常)26に反映される各センサデータであり、各センサデータに関する条件文62で表される条件がルールである。したがって、各ルールはパラメータ(データ)とそれによる条件を含む。
 ルールの選択に当たっては、100%の評価値としての的中度を有するルール、所定値以上の的中度を有するルール、的中度が上位からk個のルールなどのように予め選択基準を設けてもよいし、選択基準をデータ分析装置のユーザが設定できるようにしてもよい。また、的中度に加え、レコード数、カバー度、適応度といったレコード数にかかわる値を考慮し、レコード数の多いノードを優先的に選択してもよい。レコード数が多いノードは重要でありまた信頼性が高いと考えられ、またレコード数が少ないノードは、信頼性や重要度が相対的に高くないと考えられるからである。例示したような選択基準により、重要性の高いルールをデータ分析装置のユーザが確認できるので、不要なセンサデータに関与することなく、センサデータに内在する特徴を可視化できるデータ分析装置が得られることになる。
 パラメータ抽出部80は、評価結果テーブル60を参照して、状態別に的中度が高いルールを選択し、パラメータテーブル90に格納する(S81)。
 図10は、パラメータテーブル90の構成例である。パラメータテーブル90は、状態91および的中度の高いルール92を対応付けている。状態91は、状態26と同様に「異常」及び「正常」である。前述したように、状態91は、3状態以上の多様な状態であってもよい。「的中度の高い」と図示しているが、図10は、状態に応じて「的中度が100%のルール」を選択基準とした場合を例示している。
 具体的には、状態91が「異常」に関して、評価結果テーブル60の異常的中度66が100%を示しているルールは、ノード2及びノード8に相当し、それらの条件文62を的中度の高いルール92に格納する。また状態91が「正常」に関して、評価結果テーブル60の正常的中度69が100%を示しているルールは、ノード3、ノード5、ノード6及びノード9に相当し、それらの条件文62を的中度の高いルール92に格納する。
 また、的中度のみを選択基準にする他に、レコード数(カバー度、適応度)が多く、かつ、的中度が高いノードの条件文を抽出するように選択基準を設定してもよい。
 パラメータ抽出部80は、パラメータテーブル90の内容を出力装置3に出力(表示)する(S82)。出力装置に出力されたパラメータテーブル90の内容は、所定の選択基準に従って選択された的中度が高いルールであるので、データ分析装置のユーザは、特にシステムの状態が異常の場合に、的中度の高いルールに対応する処置から優先的に実行できる。
 さらに、パラメータ抽出部80は、抽出された各ノードの条件文(パラメータとその値)をそのまま出力する他に、重要なパラメータを抽出したり、パラメータの重要度を算出したりしてもよい。図10の例では、正常状態の割合が高いノードの条件文は、パラメータD及びAを有しておりこれらが最も重要であり、次いでCが重要であることがわかる。また、ノードの的中度やレコード数などに基づいて、各パラメータの重要度を数値化して出力してもよい。パラメータの重要度は、目的変数の状態(異常、正常)ごとに抽出してもよいし、全部の状態で抽出してもよい。
 説明したデータ分析装置によれば、決定木の複雑さを解消した、データに内在する特徴をルールとして可視化できる。特に、システムの異常状態に対して、データ分析装置のユーザが、重要性(的中度)の高いルールに対応する処置から優先的に実行できるので、システムの状態監視技術として有用である。
 1:データ分析装置、2:分析対象システム、3:出力装置、10:データ収集部、20: 収集データテーブル、30: 決定木作成部、40: 決定木テーブル、50:評価値生成部、60: 評価結果テーブル、80: パラメータ抽出部、90: パラメータテーブル。

Claims (10)

  1.  目的変数と複数の説明変数を含むレコードを有するデータを分析するデータ分析装置において、
     前記レコードの目的変数と説明変数に基づいて前記説明変数の条件で規定されたノードを作成し、前記レコードを前記ノードに対応付けるノード作成部、
     前記ノードに対応付けられた複数のレコードの、前記目的変数が対象値であるレコードの数の割合を評価値として生成する評価値生成部、および、
     前記評価値に基づいてノードを選択し、当該選択したノードにかかる前記説明変数の条件を抽出して出力するパラメータ抽出部、を有することを特徴とするデータ分析装置。
  2.  請求項1において、
     前記評価値生成部は、前記目的変数が取りうる値を前記対象値とし、前記ノードごとにそれぞれの前記対象値について前記評価値を生成することを特徴とするデータ分析装置。
  3.  請求項2において、
     前記ノード抽出部は、前記対象値ごとに前記ノードを抽出することを特徴とするデータ分析装置。
  4.  請求項2または3において、
     前記ノード抽出部は、前記ノードの評価値と、前記ノードのレコード数にかかる値に基づいて、前記ノードの選択を行い、
     前記ノードのレコード数にかかる値は、前記ノードに含まれるレコード数、前記ノードに含まれる前記目的変数が対象値のレコード数、前記ノードに含まれる前記目的変数が対象値のレコード数の全レコード数に対する割合、のいずれかであることを特徴とするデータ分析装置。
  5.  請求項1乃至4のいずれかにおいて、
     前記ノード作成部は、決定木分析により、前記ノードを作成することを特徴とするデータ分析装置。
  6.  目的変数と複数の説明変数を含むレコードを有するデータを分析するデータ分析装置におけるデータ分析方法であって、前記データ分析装置は、
     前記レコードの目的変数と説明変数に基づいて前記説明変数の条件で規定されたノードを作成し、
     前記レコードを前記ノードに対応付け、
     前記ノードに対応付けられた複数のレコードの、前記目的変数が対象値であるレコードの数の割合を評価値として生成し、
     前記評価値に基づいてノードを選択し、
     当該選択したノードにかかる前記説明変数の条件を抽出して出力することを特徴とするデータ分析方法。
  7.  請求項6において、前記データ分析装置は、
     前記目的変数が取りうる値を前記対象値とし、前記ノードごとにそれぞれの前記対象値について前記評価値を生成することを特徴とするデータ分析方法。
  8.  請求項7において、
     前記データ分析装置は、前記対象値ごとに前記ノードを抽出することを特徴とするデータ分析方法。
  9.  請求項7または8において、前記データ分析装置は、
     前記ノードの評価値と、前記ノードのレコード数にかかる値に基づいて、前記ノードの選択を行い、
     前記ノードのレコード数にかかる値は、前記ノードに含まれるレコード数、前記ノードに含まれる前記目的変数が対象値のレコード数、前記ノードに含まれる前記目的変数が対象値のレコード数の全レコード数に対する割合、のいずれかであることを特徴とするデータ分析方法。
  10.  請求項6乃至9のいずれかにおいて、前記データ分析装置は、
     決定木分析により、前記ノードを作成することを特徴とするデータ分析方法。
PCT/JP2015/076363 2015-09-16 2015-09-16 データ分析装置および分析方法 WO2017046906A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2015/076363 WO2017046906A1 (ja) 2015-09-16 2015-09-16 データ分析装置および分析方法
US15/557,542 US11244235B2 (en) 2015-09-16 2015-09-16 Data analysis device and analysis method
JP2017540404A JP6458157B2 (ja) 2015-09-16 2015-09-16 データ分析装置および分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/076363 WO2017046906A1 (ja) 2015-09-16 2015-09-16 データ分析装置および分析方法

Publications (1)

Publication Number Publication Date
WO2017046906A1 true WO2017046906A1 (ja) 2017-03-23

Family

ID=58288361

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/076363 WO2017046906A1 (ja) 2015-09-16 2015-09-16 データ分析装置および分析方法

Country Status (3)

Country Link
US (1) US11244235B2 (ja)
JP (1) JP6458157B2 (ja)
WO (1) WO2017046906A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018195133A (ja) * 2017-05-18 2018-12-06 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2020126331A (ja) * 2019-02-01 2020-08-20 株式会社オービック データ分析装置、データ分析方法およびデータ分析プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6917942B2 (ja) * 2018-04-11 2021-08-11 株式会社日立製作所 データ分析サーバ、データ分析システム、及びデータ分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222486A (ja) * 1999-02-02 2000-08-11 Toshiba Corp 訪問販売における営業職員活動分析システム
JP2004220236A (ja) * 2003-01-14 2004-08-05 Nippon Telegr & Teleph Corp <Ntt> データ分析方法、装置、プログラム及び該プログラムを記録した記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048129A (ja) 2004-07-30 2006-02-16 Toshiba Corp データ処理装置、データ処理方法及びデータ処理プログラム
US8250008B1 (en) * 2009-09-22 2012-08-21 Google Inc. Decision tree refinement
US9299035B2 (en) * 2013-11-01 2016-03-29 International Business Machines Corporation Iterative refinement of pathways correlated with outcomes
JP6451736B2 (ja) * 2014-03-28 2019-01-16 日本電気株式会社 価格推定装置、価格推定方法、及び、価格推定プログラム
US9973520B2 (en) * 2014-07-15 2018-05-15 Cisco Technology, Inc. Explaining causes of network anomalies

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222486A (ja) * 1999-02-02 2000-08-11 Toshiba Corp 訪問販売における営業職員活動分析システム
JP2004220236A (ja) * 2003-01-14 2004-08-05 Nippon Telegr & Teleph Corp <Ntt> データ分析方法、装置、プログラム及び該プログラムを記録した記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018195133A (ja) * 2017-05-18 2018-12-06 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2020126331A (ja) * 2019-02-01 2020-08-20 株式会社オービック データ分析装置、データ分析方法およびデータ分析プログラム
JP7197391B2 (ja) 2019-02-01 2022-12-27 株式会社オービック データ分析装置、データ分析方法およびデータ分析プログラム

Also Published As

Publication number Publication date
JP6458157B2 (ja) 2019-01-23
US20180046927A1 (en) 2018-02-15
US11244235B2 (en) 2022-02-08
JPWO2017046906A1 (ja) 2017-12-14

Similar Documents

Publication Publication Date Title
JP6243080B1 (ja) プリプロセッサおよび異常予兆診断システム
JP6601433B2 (ja) イベント解析装置、イベント解析システム、イベント解析方法、イベント解析プログラム及び記録媒体
US20170109668A1 (en) Model for Linking Between Nonconsecutively Performed Steps in a Business Process
CN111459700A (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
WO2021143268A1 (zh) 基于模糊推理理论的电力信息系统健康评估方法及系统
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
US20170109667A1 (en) Automaton-Based Identification of Executions of a Business Process
JP6835098B2 (ja) 要因分析方法、要因分析装置および要因分析プログラム
US20170109639A1 (en) General Model for Linking Between Nonconsecutively Performed Steps in Business Processes
JP2015011027A (ja) 時系列データにおける異常を検出する方法
JP2006318263A (ja) 情報分析システム、情報分析方法及びプログラム
CN106164795B (zh) 用于分类报警的优化方法
CN107944005B (zh) 一种数据展示方法及装置
CN116450399A (zh) 微服务系统故障诊断及根因定位方法
US20170109638A1 (en) Ensemble-Based Identification of Executions of a Business Process
Gitzel Data Quality in Time Series Data: An Experience Report.
JP6458157B2 (ja) データ分析装置および分析方法
US20170109640A1 (en) Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process
JP4314123B2 (ja) アラーム解析装置、アラーム解析方法及びアラーム解析プログラム
US8543552B2 (en) Detecting statistical variation from unclassified process log
JP2019197245A (ja) 情報処理装置、品質関連式生成方法、および品質関連式生成プログラム
JP2010250864A (ja) 情報処理装置およびプログラム
WO2020066124A1 (ja) プロセス状態解析装置及びプロセス状態表示方法
US20170109637A1 (en) Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process
US20170109670A1 (en) Crowd-Based Patterns for Identifying Executions of Business Processes

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15904095

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017540404

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15557542

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15904095

Country of ref document: EP

Kind code of ref document: A1