WO2015030417A1 - 상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체 - Google Patents

상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체 Download PDF

Info

Publication number
WO2015030417A1
WO2015030417A1 PCT/KR2014/007749 KR2014007749W WO2015030417A1 WO 2015030417 A1 WO2015030417 A1 WO 2015030417A1 KR 2014007749 W KR2014007749 W KR 2014007749W WO 2015030417 A1 WO2015030417 A1 WO 2015030417A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
correlation
determining
data set
plant
Prior art date
Application number
PCT/KR2014/007749
Other languages
English (en)
French (fr)
Inventor
서호준
Original Assignee
비앤에프테크놀로지 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 비앤에프테크놀로지 주식회사 filed Critical 비앤에프테크놀로지 주식회사
Publication of WO2015030417A1 publication Critical patent/WO2015030417A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing

Definitions

  • the present invention relates to a data classification method and computer readable storage medium in consideration of correlation, and more particularly, to a method of grouping according to similarity between data and a computer readable storage medium storing a program for performing the method.
  • ancillary equipment such as turbines and auxiliary systems, generators and auxiliary systems, boilers and auxiliary systems, main water supply systems, condensate systems, fuel supply systems, cooling water systems, circulating water systems and auxiliary steam systems
  • turbine and auxiliary system the high pressure turbine, medium pressure turbine, low pressure turbine, main steam control valve system, main steam shutoff valve system, turbine speed control system, turbine bleed system, turbine bearing lubricant system, etc.
  • Each of these systems consists of unit equipment or sub-systems, and these facilities work together to produce electricity. If the operation of these facilities is out of normal or degrades, an alarm will occur or the entire plant or plant will be forcibly shut down when it is no longer dangerous to operate the equipment.
  • the plant facility includes a plurality of modules and a plurality of sensors for monitoring the plurality of modules, and should receive as many as tens of thousands of detection signals per unit time from the plurality of sensors to determine whether the plant is in normal operation.
  • minor failures in one module can cause serious malfunctions throughout the plant. If a plant stops operating, it can lead to large power outages such as blackouts in the high-demand season, as well as the maintenance costs of the plant itself, resulting in significant economic losses.
  • the present invention has been made in view of the above problems, and the present invention provides a data classification method for grouping data on the basis of correlation factors by determining correlation factors between received data and a computer-readable program having stored thereon a program for performing the method. It is to provide a storage medium.
  • Another technical problem to be solved by the present invention is to provide a data classification method for filtering abnormal data in a dataset based on correlation factors and a computer-readable storage medium storing a program for performing the method.
  • the data classification method in consideration of the correlation according to an embodiment of the present invention, receiving a data set including the first and second data that is the operating data received from the equipment of the plant And determining a correlation factor of the dataset and setting the dataset as a first group based on the correlation factor.
  • the determining may include determining coordinates for each unit time of the data set and showing the coordinates.
  • the determining may further include extracting a continuous section of the illustrated coordinates, and the correlation factor may be determined based on the slope of the continuous section.
  • the determining may further include determining a distribution of the illustrated coordinates.
  • the first group may be set based on an absolute value of the correlation factor.
  • the setting may further include setting the data set into a plurality of groups including a second group.
  • the setting may include filtering abnormal data of the data set based on the correlation factor.
  • a computer-readable storage medium comprises the steps of: receiving a dataset including first and second data which is operation data received from equipment of a plant, determining a correlation factor of the dataset And a program for performing a data classification method in consideration of correlations, including setting the data set as a first group based on the correlation factors.
  • the present invention as described above, it is possible to improve the learning efficiency of the data received from the plurality of equipment constituting the plant by grouping the received data set into a plurality of groups based on the correlation factor, and filter the abnormal data to plant You can more accurately monitor the data set that represents the state of.
  • FIG. 1 is a view showing a schematic flow of a data classification method in consideration of a correlation according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a process of determining a correlation factor in a data classification method considering a correlation according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a grouping process of data sets in a data classification method considering a correlation according to an embodiment of the present invention.
  • FIG. 1 is a view showing a schematic flow of a data classification method considering a correlation according to an embodiment of the present invention
  • Figure 2 is a method of determining a correlation factor in a data classification method considering a correlation according to an embodiment of the present invention
  • 3 is a diagram illustrating a grouping process of data sets in a data classification method considering a correlation according to an embodiment of the present invention.
  • the data classification method in consideration of the correlation includes: receiving a data set including first and second data which is operation data received from equipment of a plant (S10), and a correlation factor of the data set Determining (S20, S30) and setting the dataset as a first group based on the correlation factors (S40).
  • Plant plants often have a plurality of modules that are organically combined to closely influence each other. Therefore, the plant equipment includes a plurality of modules and a plurality of sensors for monitoring them in real time.
  • the plant equipment includes a plurality of modules and a plurality of sensors for monitoring them in real time.
  • As a method for determining whether the plant is operating normally in this embodiment, it is possible to manage the history of the data set received from the plurality of equipment constituting the plant.
  • the plant facility can learn the received dataset and compare it with the current state of the plant to determine or predict whether the plant is operating normally.
  • the received data set may be grouped in advance according to the similarity to selectively learn the data group required for the corresponding equipment, and the abnormal data group may be filtered in advance to improve the learning efficiency.
  • a step S10 of receiving a data set including first and second data, which are operation data received from a plurality of equipments constituting the plant may be performed.
  • the plurality of operation data included in the received data set may be different in units or scale.
  • the equipment constituting the power plant includes a coolant pump, a high-pressure turbine, a boiler, a current collector, a generator, and the like.
  • Operation data received from such equipment is various units or scales such as °C, Kw, tons, rpm, and the like.
  • the scale correction process may include a method of extracting a transform factor using an average of maximum and minimum values and correcting a data scale based on the transform factor, but is not limited thereto.
  • Various correction or interpolation techniques may be used.
  • the step S20 of extracting the first data and the second data from the received data set may be performed.
  • various criteria such as extracting in order of importance of determining whether the plant or equipment is operating properly, randomly selecting from a data set, or extracting time-series data, etc. Applicable
  • a correlation factor between the extracted first data and the second data may be determined.
  • the correlation factor may be determined using the slope, distribution, and the like, but is not limited thereto.
  • the correlation factor may be determined in various ways. A detailed process of determining the correlation factor will be described later with reference to FIG. 2.
  • each correlation factor may perform the grouping step S40 based on the absolute value.
  • the K-NN and the Gaussian mixture model (GMM) are used as classifiers for classifying the driving data
  • the data may be grouped using various classification algorithms.
  • K-Neighbor classifier finds K data in the order of closest distance from the given data and assigns the group to the largest group among them.
  • K-Neighbors are a nonparametric learning algorithm and a kind of distance-based classifier.
  • Gaussian mixture models are also useful for classifying data and are commonly used for parametric learning algorithms.
  • Gaussian mixture model is a density estimation method that improves the method of modeling the distribution density of a given data set as a probability density function.
  • the Gaussian mixture model can provide each group of data as a linear combination of Gaussian distributions. Parameters can be inferred from the learned data using a maximum-minimum algorithm
  • abnormal operation data may be filtered in the data set based on the correlation factor.
  • correlation factors By comparing correlation factors, abnormal data having a certain degree of correlation or higher can be filtered in advance for more precise plant monitoring and data learning.
  • FIG. 2 a process of determining a correlation factor in a data classification method considering a correlation according to an embodiment of the present invention is disclosed.
  • an operation (S100) of extracting first data and second data from a received data set may be performed.
  • the first data may be used as reference data and the remaining data sets including the second data may be used as comparison data.
  • the method of selecting the reference data may be data that is an important indicator in plant learning or monitoring, but is not limited thereto.
  • the reference data may be determined based on various criteria.
  • a step (S200) of determining coordinates for each unit time of the first data and the second data may be performed. Since the data generated by the equipment of the plant is generally time series data, each data can be arranged corresponding to the time domain. In an embodiment with reference to FIG. 1, the dataset may not be affected by a unit or scale through a scale correction process.
  • coordinates of the first data and the second data may be performed.
  • the first data can be arranged on the x-axis and the second data on the y-axis, and coordinates for each unit time can be shown in this two-dimensional region. If the value of the first data corresponding to the first unit time is 3 and the value of the second data is 7, it can be shown as D1 (3,7). In this way, the coordinates of the first and second data corresponding to the unit time can be shown.
  • the distributed first data and the second data may be performed to extract a continuous section of coordinates according to a reference (S410) or to determine a distribution of the coordinates (S450).
  • the former step S410 may perform a process of serializing the coordinates of the discontinuous data.
  • the step of extracting the slope of the continuous section may be performed (S420).
  • the correlation factor may be determined using a Pearson correlation coefficient.
  • the present invention is not limited thereto, and the correlation factor may be determined based on various criteria such as characteristics of each device and importance weight of the data.
  • Correlators are statistics that represent the covariate relationship between two variables.
  • correlation factor or correlation coefficient means Pearson's correlation coefficient.
  • Pearson's product moment correlation coefficient, Pearson's r (Pearson's r), r, and R are all other terms that describe Pearson's correlation coefficient. Pearson's correlation coefficient is in the range of -1 ⁇ 1. If the correlation factor between two variables is positive, it is called positive correlation. In other words, when the first variable increases, the second variable also increases.
  • n observations are given by (x1, y1), (x2, y2), ..., (xn, yn), and the mean of x and y is m (x), If m (y), the method of determining the correlation factor r for two variables x and y is as follows.
  • the deviation between each variable and the mean can be obtained.
  • the deviation of x1 in the first observation (x1, y1) is x1-m (x)
  • the deviation of y1 is y1-m (y)
  • the deviation of x and y for the i th observation is xi-m (x), yi-m (x).
  • covariance can be obtained. If variance can determine how a population is distributed based on the mean of one variable, covariance is an indicator of the relationship between two variables, not just one. Covariance can be obtained by multiplying the deviations of two variables and taking their average. The equation for calculating the covariance is as follows.
  • Equation 1 n-1 is used instead of n in the denominator to calculate n averages, which is due to degrees of freedom.
  • xi-m (x), yi-m (y) represent deviations, and the sum of these deviations should always be zero. Therefore, Equations 2 and 3 must be satisfied.
  • the number of freely varying observations may be degrees of freedom.
  • the degree of freedom may be determined to be n-1.
  • the standard deviation of the two variables can be obtained to find the correlation factor by dividing the sum of the covariances by the product of the standard deviations.
  • the sum of standard deviations for xi may be expressed as in Equation 4.
  • the correlation factor r can be determined as follows.
  • the correlation factor r can also be calculated by the following equation.
  • the value of the correlation factor r may have a range equal to or greater than -1 and equal to or less than 1.
  • Correlators have no units and can therefore be defined independently of the unit being measured. Also, the correlator has no directivity. That is, the correlation coefficient of x and y is equal to the correlation coefficient of y and x.
  • the correlation factor between the first and second variables represented by the slope or distribution chart may be determined using the above-described process of obtaining the correlation factor.
  • the correlation factors of the first data and the data set may be compared and grouped based on the correlation factors of the first data and the second data.
  • a grouping process of datasets is disclosed in a data classification method considering a correlation according to an embodiment of the present invention.
  • the reference data is determined from the plurality of operation data included in the data set 10, and the reference correlation factor 20 is determined from the first data which is the reference data and the second data which is the comparison data.
  • a correlation factor between the first data and operation data included in the remaining data sets is determined, and the data set is grouped into a plurality of groups 12 including the first group according to the degree of correlation by comparing with the reference correlation factor 20. can do.
  • K-Neighbor or Gaussian mixture model (GMM) can be used as a method for classifying datasets.
  • the data that does not meet the predetermined correlation may be determined and filtered as the abnormal data (11).
  • the remaining data group 12 excluding the filtered abnormal data 11 may be selectively learned according to the characteristics of the plant or the equipment.
  • the present invention may be implemented by storing computer readable codes in a computer readable storage medium.
  • the computer readable storage medium includes all kinds of storage devices for storing data that can be read by a computer system.
  • the computer readable code when read out from the computer readable storage medium and executed by a processor, is configured to perform the steps of implementing the data classification method in consideration of the abnormal correlation according to the present invention.
  • the computer readable code may be implemented in various programming languages. And the functional program, code and code segments for implementing the embodiments of the present invention can be easily programmed by those skilled in the art to which the present invention belongs.
  • Examples of computer-readable storage media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, and also include implementing in the form of a carrier wave (for example, transmission over the Internet).
  • the computer readable storage medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체가 제공된다. 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법은, 플랜트의 장비로부터 수신된 운전데이터인 제1 및 제2 데이터를 포함하는 데이터셋을 수신하는 단계, 상기 데이터셋의 상관인자를 결정하는 단계 및 상기 상관인자를 기초로 상기 데이터셋을 제1 그룹으로 설정하는 단계를 포함한다. 본 발명의 실 실시예에 따른 컴퓨터 판독가능한 저장매체는, 상기 상관도를 고려한 데이터 분류 방법을 수행하기 위한 프로그램이 저장된다.

Description

상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체
본 발명은 상관도를 고려한 데이터 분류 방법 및 컴퓨터 판독가능한 저장매체에 관한 것으로, 보다 자세하게는 데이터간 유사도에 따른 그룹화 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체에 관한 것이다.
일반적으로 각종 산업플랜트 설비에는 많은 설비들이 존재하며 이들의 작동이 제대로 되고 있는지 여부를 감시하여 심각한 문제가 발생하기 전에 조치를 취할 수 있도록 하고 있다.
예를 들어 발전소의 경우 터빈 및 보조기기 시스템, 발전기 및 보조기기 시스템, 보일러 및 보조기기 시스템, 주 급수 시스템, 응축수 시스템, 연료공급 시스템, 냉각수 시스템, 순환수 시스템, 보조증기 시스템과 같은 부속설비들로 구성되고, 터빈 및 보조기기 시스템의 경우는 다시 고압 터빈, 중압 터빈, 저압 터빈, 주 증기 제어밸브시스템, 주 증기 차단 밸브 시스템, 터빈 속도제어 시스템, 터빈 추기 시스템, 터빈 베어링 윤활유 시스템, 등으로 구성되고, 이들 각 시스템들은 다시 단위 기기나 세부 부속 시스템들로 구성되어 있고, 이러한 설비들이 상호 유기적으로 연계되어 작동함으로써 전기를 생산한다. 이러한 설비들의 운영상태가 정상에서 벗어나거나 성능이 저하될 경우에는 경보를 울리거나 더 이상 설비를 운영하는 것이 위험한 상태에 이르면 해당 설비 또는 플랜트 전체를 강제 정지 시킨다.
따라서 플랜트가 목적하는 제품을 원하는 품질 수준과 비용으로 생산하기 위해서는 플랜트를 구성하는 상기 부속설비들의 가동 상황을 실시간으로 지속적으로 감시하며 최적의 운영상태와 성능을 유지하도록 하여야 할 필요가 있다.
플랜트 설비는 특성상 복수의 모듈과 복수의 모듈을 감시하는 복수의 센서를 포함하고 있고, 이러한 복수의 센서로부터 단위시간당 많게는 수만 개의 감지신호를 수신하여 해당 플랜트 설비의 정상작동 여부를 판단하여야 한다. 발전소 플랜트 설비의 경우, 하나의 모듈에서 발생한 사소한 고장이 플랜트 전체에 심각한 오작동을 일으킬 수 있다. 발전소의 가동이 멈추게 되면 발전소 자체의 정비비용 뿐만 아니라 전력 수요가 높은 계절에는 블랙아웃과 같은 대규모 정전사태로 직결될 수 있고, 이에 따른 경제적 손실 또한 심각할 수 있다.
기존의 산업플랜트에서 이상신호 발생 시 전문가들은 플랜트 설비 계통도(P&ID)를 일일이 확인하면서 이상신호 발생 원인을 규명하지만, 플랜트 설비 특성상 수 만개의 운전신호를 관찰하고 그 신호들 간의 연계성을 분석하여 이상상황과 고장발생 기기를 찾아내는 것은 매우 어렵고 상당한 시간이 소요되므로 이상신호 발생 시 고장발생 기기의 색출과 이로 인한 계통 파급영향을 신속하게 검출하여 적절한 시정조치를 취함으로써 플랜트 운전 안정성을 제고할 수 있는 감시시스템 시스템화 기술이 요구된다.
위와 같은 문제점으로부터 안출된 본 발명이 해결하고자 하는 기술적 과제는, 수신된 데이터간 상관인자를 결정하여 상관인자를 기초로 데이터를 그룹화하는 데이터 분류방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체를 제공하고자 하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 상관인자를 기초로 데이터셋에서 비정상 데이터를 필터링하는 데이터 분류방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체를 제공하고자 하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 언급된 기술적 과제들을 해결하기 위한, 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법은, 플랜트의 장비로부터 수신된 운전데이터인 제1 및 제2 데이터를 포함하는 데이터셋을 수신하는 단계, 상기 데이터셋의 상관인자를 결정하는 단계 및 상기 상관인자를 기초로 상기 데이터셋을 제1 그룹으로 설정하는 단계를 포함한다.
상기 결정하는 단계는, 상기 데이터셋의 단위시간별 좌표를 결정하는 단계 및 상기 좌표를 도시하는 단계를 포함할 수 있다.
상기 결정하는 단계는 상기 도시된 좌표의 연속된 구간을 추출하는 단계를 더 포함하고, 상기 상관인자는 상기 연속된 구간의 기울기를 기초로 결정될 수 있다.
상기 결정하는 단계는, 상기 도시된 좌표의 분포도를 결정하는 단계를 더 포함할 수 있다.
상기 설정하는 단계는, 상기 상관인자의 절대값을 기초로 상기 제1 그룹을 설정할 수 있다.
상기 설정하는 단계는, 상기 데이터셋을 제2 그룹을 포함하는 복수의 그룹으로 설정하는 단계를 더 포함할 수 있다.
상기 설정하는 단계는, 상기 상관인자를 기초로 상기 데이터셋의 비정상데이터를 필터링할 수 있다.
본 발명의 일 실시예에 따른 컴퓨터 판독가능한 저장매체는, 플랜트의 장비로부터 수신된 운전데이터인 제1 및 제2 데이터를 포함하는 데이터셋을 수신하는 단계, 상기 데이터셋의 상관인자를 결정하는 단계 및 상기 상관인자를 기초로 상기 데이터셋을 제1 그룹으로 설정하는 단계를 포함하는 상관도를 고려한 데이터 분류 방법을 수행하기 위한 프로그램이 저장된다.
상기와 같은 본 발명에 따르면, 수신되는 데이터셋을 상관인자를 기초로 복수의 그룹으로 그룹화하여 플랜트를 구성하는 복수의 장비에서 수신되는 데이터의 학습 효율을 향상시킬 수 있으며, 비정상 데이터를 필터링하여 플랜트의 상태를 나타내는 데이터셋을 보다 정확하게 모니터링 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법의 개략적인 흐름을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법에서 상관인자를 결정하는 과정을 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법에서 데이터셋의 그룹화 과정을 나타내는 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
이하, 도면을 참조하여 본 발명의 실시 예들에 따른 상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체에 대해 설명하기로 한다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법의 개략적인 흐름이 개시된다. 도 1은 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법의 개략적인 흐름을 나타내는 도면, 도 2는 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법에서 상관인자를 결정하는 과정을 나타내는 도면, 도 3은 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법에서 데이터셋의 그룹화 과정을 나타내는 도면이다.
구체적으로 본 실시예에 따른 상관도를 고려한 데이터 분류 방법은, 플랜트의 장비로부터 수신된 운전데이터인 제1 및 제2 데이터를 포함하는 데이터셋을 수신하는 단계(S10), 상기 데이터셋의 상관인자를 결정하는 단계(S20, S30) 및 상기 상관인자를 기초로 상기 데이터셋을 제1 그룹으로 설정하는 단계(S40)를 포함한다.
플랜트 설비는 복수의 모듈이 유기적으로 결합되어 상호 밀접한 영향을 미치는 경우가 많다. 따라서 플랜트 설비는 특성상 복수의 모듈과 이를 실시간으로 모니터링하는 복수의 센서를 포함하고 있다. 플랜트의 정상작동 여부를 판단하기 위한 방법으로, 본 실시예에서는 플랜트를 구성하는 복수의 장비로부터 수신한 데이터셋의 히스토리를 관리할 수 있다. 플랜트 설비는 수신된 데이터셋을 학습하고, 이를 플랜트의 현재상태와 비교하여 플랜트의 정상작동 여부를 판단하거나 예측할 수 있다.
하지만, 복수의 센서로부터 단위시간당 많게는 수만 개의 감지신호를 수신하여 해당 플랜트 설비의 정상작동 여부를 판단해야 하고, 비정상 데이터는 학습의 효율을 저하시키는 원인이 될 수 있다. 따라서, 수신되는 데이터셋을 효과적으로 학습할 수 있는 방법과 학습될 데이터셋의 정확도를 향상시키는 방법이 요구된다.
본 실시예에서는 수신되는 데이터셋을 유사도에 따라 미리 그룹화하여 해당 장비에 필요한 데이터그룹을 선택적으로 학습할 수 있고, 비정상 데이터 그룹을 사전에 필터링 하여 학습의 효율성을 향상시킬 수 있다.
이를 위해, 먼저 플랜트를 구성하는 복수의 장비로부터 수신된 운전데이터인 제1 및 제2 데이터를 포함하는 데이터셋을 수신하는 단계(S10)를 수행할 수 있다. 전술한 바와 같이 수신되는 데이터셋에 포함된 복수의 운전데이터는 단위나 스케일 상이할 수 있다. 예를 들어, 발전소를 구성하는 장비로 냉각수펌프, 고압터빈, 보일러, 집전시설, 발전기 등이 포함되고, 이러한 장비로부터 수신되는 운전데이터는 ℃, Kw, 톤(ton), rpm 등 다양한 단위 또는 스케일을 가질 수 있다.
이에 본 실시예에서는 데이터간의 스케일 보정과정을 통하여 단위나 스케일에 따른 데이터 왜곡현상을 방지할 수 있다. 스케일 보정과정은 최대-최소값의 평균을 이용하여 변환인자를 추출하고, 변환인자를 기초로 데이터 스케일을 보정하는 방법이 있을 수 있으나, 이에 한정되는 것은 아니며 다양한 보정 또는 보간기법이 사용될 수 있다.
다음으로, 수신된 데이터셋에서 제1 데이터와 제2 데이터를 추출하는 단계(S20)를 수행할 수 있다. 제1 데이터와 제2 데이터를 추출하는 기준으로, 해당 플랜트 또는 장비의 정상작동여부를 판단하는 중요도 순으로 추출하거나, 데이터 셋에서 무작위로 선별하거나, 시계열상 앞선 데이터를 추출하는 등의 다양한 기준을 적용할 수 있다.
추출된 제1 데이터와 제2 데이터의 상관인자를 결정하는 단계(S30)를 수행할 수 있다. 본 실시예에서는 기울기, 분포도, 등을 이용하여 상관인자를 결정할 수 있으나 이에 한정되는 것은 아니며, 다양한 방법으로 상관인자를 결정할 수 있다. 상관인자를 결정하는 구체적은 과정은 도 2를 참조하여 후술하기로 한다.
마지막으로, 결정된 상관인자를 기초로 데이터셋을 그룹화하는 단계(S40)를 수행할 수 있다. 각각의 운전데이터로부터 생성된 상관인자를 기준 상관인자와 비교하여 유사한 상관도를 가지는 운전데이터를 그룹화 할 수 있다. 이때, 크기는 같지만 음의 값을 가지는 상관인자와 양의 값을 가지는 상관인자가 같은 그룹으로 그룹화하기 위해, 각각의 상관인자는 절대값을 기초로 상기 그룹화 단계(S40)를 수행할 수 있다.
본 실시예에서는 운전데이터를 분류하기 위한 분류기로 K-근접이웃(K-NN)과 가우시안 혼합 모델(GMM)을 이용하였으나, 이에 한정되는 것은 아니고 다양한 분류 알고리즘을 이용하여 데이터를 그룹화 할 수 있다.
K-근접이웃 분류기는 주어진 데이터로부터 거리가 가까운 순서대로 K개의 데이터를 찾은 후, 그 중 가장 많은 수의 데이터가 속한 그룹으로 할당하는 방법이다. K-근접이웃은 비모수적 학습 알고리즘이며, 거리기반 분류기의 한 종류이다.
가우시안 혼합모델(GMM)또한 데이터의 분류에 유용하며, 일반적으로 모수적 학습 알고리즘에 사용된다. 가우시안 혼합 모델은 주어진 데이터셋의 분포 밀도를 하나의 확률밀도 함수로 모델링하는 방법을 개선한 밀도 추정방법이다. 가우시안 혼합 모델은 가우시안 분포의 선형 조합으로 데이터의 각 그룹을 제공할 수 있다. 매개변수는 최대-최소 알고리즘을 사용하여 학습된 데이터에서 추론할 수 있다
또한, 그룹화 단계(S40)에서는, 상관인자를 기초로 데이터셋에서 비정상 운전데이터를 필터링할 수 있다. 상관인자를 비교하여 일정범위 이상의 상관도를 가지는 비정상 데이터를 사전에 필터링하여 보다 정밀한 플랜트 모니터링과 데이터 학습을 할 수 있다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법에서 상관인자를 결정하는 과정이 개시된다.
먼저, 수신된 데이터셋에서 제1 데이터와 제2 데이터를 추출하는 단계(S100)를 수행할 수 있다. 제1 데이터는 기준데이터로, 제2 데이터를 포함한 나머지 데이터셋은 비교데이터로 활용할 수 있다. 전술한 바와 같이, 기준데이터를 선정하는 방법은 플랜트 학습 또는 모니터링에 있어 중요한 지표가 되는 데이터일 수 있으나, 이에 한정되는 것은 아니며 다양한 기준으로 기준데이터를 결정할 수 있다.
다음으로, 제1 데이터와 제2 데이터의 단위시간별 좌표를 결정하는 단계(S200)를 수행할 수 있다. 플랜트의 장비에서 생성되는 데이터는 일반적으로 시계열 데이터이므로, 시간 영역에 대응하여 각각의 데이터를 배치할 수 있다. 도 1을 참조한 일 실시예에서 데이터셋은 스케일 보정과정을 거쳐 단위 혹은 스케일에 따른 영향을 받지 않을 수 있다.
제1 데이터와 제2 데이터의 좌표를 도시하는 단계(S300)를 수행할 수 있다. 예를 들어 제1 데이터를 x축, 제2 데이터를 y축으로 배치하고, 이 2차원 영역에 단위시간별 좌표를 도시할 수 있다. 첫번째 단위시간에 대응하는 제1 데이터의 값이 3, 제2 데이터의 값이 7이면, D1(3,7)과 같이 도시할 수 있다. 이와 같은 방법으로 단위시간에 대응하는 제1 및 제2 데이터의 좌표를 도시할 수 있다.
분포된 제1 데이터 및 제2 데이터는 기준에 따라 좌표의 연속된 구간을 추출하는 단계(S410) 또는 좌표의 분포도를 결정하는 단계(S450)를 수행할 수 있다. 전자의 단계(S410)는 불연속적인 데이터의 좌표를 연속화하는 과정을 수행할 수 있다. 연속된 구간을 추출하면(S410), 연속된 구간의 기울기를 추출하는 단계(S420)를 수행할 수 있다.
상기 S410 내지 S450의 단계를 수행하여, 기울기 또는 분포도를 이용하여 상관인자를 결정하는 단계(S500)를 수행할 수 있다.
본 실시예에서는 피어슨 상관 계수(Pearson correlation coefficient)를 이용하여 상관인자를 결정할 수 있으나, 이에 한정되는 것은 아니며 장비별 특성, 데이터의 중요도 가중치 등의 다양한 기준으로 상관인자를 결정할 수 있다.
상관인자는 두 변수 간의 공변하는 관계를 나타내는 통계량이다. 일반적으로 상관인자 또는 상관계수라고 하면 피어슨 상관계수를 의미한다. 피어슨의 적률 상관 계수(Pearson's product moment correlation coefficient), 피어슨의 r(Pearson's r), r, R 등은 모두 피어슨의 상관 계수를 나타내는 다른 용어들이다. 피어슨의 상관계수는 -1~1의 값 범위를 가지고 있는데, 두 변수간의 상관인자가 양수를 가지는 경우, 양의 상관관계라 한다. 다시말해, 제1 변수가 증가하면 제2 변수도 증가함을 의미한다.
두 변수 x, y에 대해서, n개의 관측치가 (x1,y1), (x2,y2), ..., (xn,yn)과 같이 주어지고, x와 y의 평균을 각각 m(x), m(y)라고 하면, 두 변수 x와 y에 대한 상관인자 r을 결정하는 방법은 다음과 같다.
먼저, 각 변수와 평균 사이의 편차를 구할 수 있다. 첫번째 관측치 (x1,y1)에서 x1의 편차는 x1 - m(x), y1의 편차는 y1 - m(y)이고, 마찬가지의 방법으로 i번째의 관측치에 대한 x와 y의 편차는 xi - m(x), yi - m(x)이다.
다음으로, 공분산을 구할 수 있다. 분산이 어느 하나의 변수의 평균을 기초로 모집단이 어떻게 분포하는가를 확인할 수 있다면, 공분산은 하나의 변수가 아닌 두 변수 사이의 관계를 나타내는 지표이다. 공분산은 두 변수의 편차를 곱하고, 이들의 평균을 구하여 얻을 수 있다. 공분산을 구하는 수학식은 다음과 같다.
수학식 1
Figure PCTKR2014007749-appb-M000001
수학식 1에서, n개의 평균을 구하는데 있어 분모에 n을 쓰지 않고 n-1이 쓰였는데, 이는 자유도에 의한 것이다. 전술한 바와 같이 xi - m(x), yi - m(y)는 편차를 나타내고, 이러한 편차들의 합은 항상 0이 되어야 한다. 따라서 수학식 2 와 수학식 3을 만족해야 한다.
수학식 2
Figure PCTKR2014007749-appb-M000002
수학식 3
Figure PCTKR2014007749-appb-M000003
편차의 합이 0이 되려면, 모든 관측값이 변해도 편차의 합이 0이 되도록 다른 모든 값들에 의해 어느 하나의 값이 결정되어 고정될 수 있다. 여기서, 자유롭게 변하는 관측치의 수가 자유도가 될 수 있다. 본 실시예에서 자유도는 n-1로 결정될 수 있다.
마지막으로, 두 변수의 표준편차를 구하여 공분산의 합을 표준편차의 곱으로 나누어 상관인자를 구할 수 있다. xi에 대한 표준편차의 합은 수학식 4와 같이 나타낼 수 있다.
수학식 4
Figure PCTKR2014007749-appb-M000004
마찬가지로, 자유도에 의해 분모는 n이 아닌 n-1이 될 수 있다. 상관인자 r은 다음과 같이 결정될 수 있다.
수학식 5
Figure PCTKR2014007749-appb-M000005
여기서, 분자와 분모에 포함된 n-1항은 상쇄되므로 무시할 수 있다. 따라서 상관인자 r은 다음의 수학식으로도 산출될 수 있다.
수학식 6
Figure PCTKR2014007749-appb-M000006
전술한 바와 같이, 상관인자 r의 값은 -1보다 같거나 크고, 1보다 같거나 작은 범위를 가질 수 있다. 상관인자는 단위를 갖지 않으므로, 측정되는 단위와 독립적으로 정의될 수 있다. 또한, 상관인자는 방향성을 갖지 않는다. 즉, x와 y의 상관계수는 y와 x의 상관계수와 같다. 전술한 상관인자를 구하는 과정을 이용하여 기울기 또는 분포도로 나타내어진 제1 및 제2 변수간의 상관인자를 결정할 수 있다.
마지막으로, 제1 데이터와 제2 데이터의 상관인자를 기초로, 제1 데이터와 데이터셋의 상관인자를 비교하여 그룹화하는 단계(S600)를 수행할 수 있다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법에서 데이터셋의 그룹화 과정이 개시된다.
데이터셋(10)에 포함된 복수의 운전데이터에서 기준데이터를 결정하고, 기준데이터인 제1 데이터와 와 비교데이터인 제2 데이터에서 기준 상관인자(20)를 결정한다. 제1 데이터와 나머지 데이터셋에 포함된 운전데이터와의 상관인자를 결정하여, 기준 상관인자(20)와 비교하여 상관도에 따라 데이터셋을 제1 그룹을 포함은 복수의 그룹(12)으로 그룹화 할 수 있다. 데이터셋을 분류하기 위한 방법으로, K-근접이웃 또는 가우시안 혼합 모델(GMM)을 이용할 수 있다.
한편, 소정 상관도에 부합하지 않는 데이터는 비정상 데이터(11)로 판단하고 필터링 할 수 있다. 필터링된 비정상 데이터(11)를 제외한 나머지 데이터그룹(12)은 플랜트 또는 장비의 특성에 맞게 선택적으로 학습할 수 있다.
한편, 본 발명은 컴퓨터 판독가능 저장매체에 컴퓨터가 판독 가능한 코드를 저장하여 구현하는 것이 가능하다. 상기 컴퓨터 판독가능 저장매체는 컴퓨터 시스템에 의하여 판독될 수 있는 데이터가 저장되는 모든 종류의 저장장치를 포함한다.
상기 컴퓨터가 판독 가능한 코드는, 상기 컴퓨터 판독가능 저장매체로부터 프로세서에 의하여 독출되어 실행될 때, 본 발명에 따른 비정상 상관도를 고려한 데이터 분류 방법을 구현하는 단계들을 수행하도록 구성된다. 상기 컴퓨터가 판독 가능한 코드는 다양한 프로그래밍 언어들로 구현될 수 있다. 그리고 본 발명의 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 통상의 기술자들에 의하여 용이하게 프로그래밍될 수 있다.
컴퓨터 판독가능 저장매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 반송파(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터 판독가능저장매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행되는 것도 가능하다.
이상 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (8)

  1. 플랜트의 장비로부터 수신된 운전데이터인 제1 및 제2 데이터를 포함하는 데이터셋을 수신하는 단계;
    상기 데이터셋의 상관인자를 결정하는 단계; 및
    상기 상관인자를 기초로 상기 데이터셋을 제1 그룹으로 설정하는 단계를 포함하는, 상관도를 고려한 데이터 분류 방법.
  2. 제1항에서,
    상기 결정하는 단계는,
    상기 데이터셋의 단위시간별 좌표를 결정하는 단계; 및
    상기 좌표를 도시하는 단계를 포함하는, 상관도를 고려한 데이터 분류 방법.
  3. 제2항에서,
    상기 결정하는 단계는 상기 도시된 좌표의 연속된 구간을 추출하는 단계를 더 포함하고, 상기 상관인자는 상기 연속된 구간의 기울기를 기초로 결정되는, 상관도를 고려한 데이터 분류 방법.
  4. 제2항에서,
    상기 결정하는 단계는 상기 도시된 좌표의 분포도를 결정하는 단계를 더 포함하는, 상관도를 고려한 데이터 분류 방법.
  5. 제1항에서,
    상기 설정하는 단계는 상기 상관인자의 절대값을 기초로 상기 제1 그룹을 설정하는, 상관도를 고려한 데이터 분류 방법.
  6. 제1항에서,
    상기 설정하는 단계는 상기 데이터셋을 제2 그룹을 포함하는 복수의 그룹으로 설정하는 단계를 더 포함하는, 상관도를 고려한 데이터 분류 방법.
  7. 제1항에서,
    상기 설정하는 단계는 상기 상관인자를 기초로 상기 데이터셋의 비정상데이터를 필터링하는, 상관도를 고려한 데이터 분류 방법.
  8. 제1항 내지 제7항의 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체.
PCT/KR2014/007749 2013-08-29 2014-08-21 상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체 WO2015030417A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020130102929 2013-08-29
KR10-2013-0102929 2013-08-29

Publications (1)

Publication Number Publication Date
WO2015030417A1 true WO2015030417A1 (ko) 2015-03-05

Family

ID=52586899

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/007749 WO2015030417A1 (ko) 2013-08-29 2014-08-21 상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체

Country Status (1)

Country Link
WO (1) WO2015030417A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020246662A1 (ko) * 2019-06-05 2020-12-10 가온플랫폼 주식회사 산업 플랜트 설비의 신호 그룹 기반 학습 모델을 이용한 운전 예측 시스템, 방법 및 컴퓨터 프로그램

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2533665B2 (ja) * 1989-02-06 1996-09-11 株式会社日立製作所 原子力プラントの異常診断方法及び原子力プラント
JP3665215B2 (ja) * 1999-01-28 2005-06-29 株式会社日立製作所 異常原因特定システムおよびその方法
KR101065767B1 (ko) * 2010-04-22 2011-09-19 주식회사 지오네트 성능저하 및 고장원인 조기 진단방법
JP2013054779A (ja) * 2004-03-03 2013-03-21 Fisher Rosemount Systems Inc 処理プラントにおける異常事態防止

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2533665B2 (ja) * 1989-02-06 1996-09-11 株式会社日立製作所 原子力プラントの異常診断方法及び原子力プラント
JP3665215B2 (ja) * 1999-01-28 2005-06-29 株式会社日立製作所 異常原因特定システムおよびその方法
JP2013054779A (ja) * 2004-03-03 2013-03-21 Fisher Rosemount Systems Inc 処理プラントにおける異常事態防止
KR101065767B1 (ko) * 2010-04-22 2011-09-19 주식회사 지오네트 성능저하 및 고장원인 조기 진단방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020246662A1 (ko) * 2019-06-05 2020-12-10 가온플랫폼 주식회사 산업 플랜트 설비의 신호 그룹 기반 학습 모델을 이용한 운전 예측 시스템, 방법 및 컴퓨터 프로그램

Similar Documents

Publication Publication Date Title
KR102072836B1 (ko) 상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체
CN109308522B (zh) 一种基于循环神经网络的gis故障预测方法
CN115578015B (zh) 基于物联网的污水处理全过程监管方法、系统及存储介质
US9483049B2 (en) Anomaly detection and diagnosis/prognosis method, anomaly detection and diagnosis/prognosis system, and anomaly detection and diagnosis/prognosis program
CN111426950B (zh) 多尺度时空卷积深度信念网络的风力发电机故障诊断方法
WO2015030416A1 (ko) 플랜트 건강상태 예측방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체
CN111832812A (zh) 一种基于深度学习的风电功率短期预测方法
WO2020246662A1 (ko) 산업 플랜트 설비의 신호 그룹 기반 학습 모델을 이용한 운전 예측 시스템, 방법 및 컴퓨터 프로그램
CN109636066A (zh) 一种基于模糊时间序列挖掘的风电输出功率预测方法
CN110263834B (zh) 一种新能源电能质量异常值的检测方法
CN111898669A (zh) 一种基于机器学习的直流矿热炉异常事件预警系统
CN111190349A (zh) 船舶机舱设备状态监测及故障诊断方法、系统及介质
Chen et al. Research on wind power prediction method based on convolutional neural network and genetic algorithm
KR101997580B1 (ko) 상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체
CN115826454A (zh) 一种船舶大型隔振系统、边缘计算系统及方法
WO2018044041A1 (ko) 조기경보시스템에서 외부 영향을 고려한 최신 데이터 학습 방법 및 그 시스템
WO2015030417A1 (ko) 상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체
CN113159503B (zh) 一种远程遥控智能安全评估系统和方法
CN114412685A (zh) 一种水轮发电机组轴承温度分析与异常监测方法
CN112508278A (zh) 一种基于证据回归多模型的多联供系统负荷预测方法
Min et al. Fault prediction for distribution network based on CNN and LightGBM algorithm
CN116704729A (zh) 一种基于大数据分析的工业窑炉预警系统及方法
CN113048012A (zh) 基于混合高斯模型的风电机组偏航角度识别方法和装置
CN113048402A (zh) 中低压管线监控系统及其方法
CN117152355B (zh) 一种基于工厂数据的可视化监管系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14841211

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14841211

Country of ref document: EP

Kind code of ref document: A1