KR20190082715A

KR20190082715A - 상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체

Info

Publication number: KR20190082715A
Application number: KR1020190079144A
Authority: KR
Inventors: 서호준
Original assignee: 비앤에프테크놀로지 주식회사
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2019-07-10
Also published as: KR102072836B1

Abstract

상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체가 제공된다. 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법은, 플랜트의 장비로부터 수신된 운전데이터인 제1 및 제2 데이터를 포함하는 데이터셋을 수신하는 단계, 상기 데이터셋의 상관인자를 결정하는 단계 및 상기 상관인자를 기초로 상기 데이터셋을 제1 그룹으로 설정하는 단계를 포함한다.
본 발명의 실 실시예에 따른 컴퓨터 판독가능한 저장매체는, 상기 상관도를 고려한 데이터 분류 방법을 수행하기 위한 프로그램이 저장된다.

Description

상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체{DATA CLASSIFICATION METHOD BASED ON CORRELATION, AND A COMPUTER-READABLE STOREGE MEDIUM HAVING PROGRAM TO PERFORM THE SAME}

본 발명은 상관도를 고려한 데이터 분류 방법 및 컴퓨터 판독가능한 저장매체에 관한 것으로, 보다 자세하게는 데이터간 유사도에 따른 그룹화 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체에 관한 것이다.

일반적으로 각종 산업플랜트 설비에는 많은 설비들이 존재하며 이들의 작동이 제대로 되고 있는지 여부를 감시하여 심각한 문제가 발생하기 전에 조치를 취할 수 있도록 하고 있다.

예를 들어 발전소의 경우 터빈 및 보조기기 시스템, 발전기 및 보조기기 시스템, 보일러 및 보조기기 시스템, 주 급수 시스템, 응축수 시스템, 연료공급 시스템, 냉각수 시스템, 순환수 시스템, 보조증기 시스템과 같은 부속설비들로 구성되고, 터빈 및 보조기기 시스템의 경우는 다시 고압 터빈, 중압 터빈, 저압 터빈, 주 증기 제어밸브시스템, 주 증기 차단 밸브 시스템, 터빈 속도제어 시스템, 터빈 추기 시스템, 터빈 베어링 윤활유 시스템, 등으로 구성되고, 이들 각 시스템들은 다시 단위 기기나 세부 부속 시스템들로 구성되어 있고, 이러한 설비들이 상호 유기적으로 연계되어 작동함으로써 전기를 생산한다. 이러한 설비들의 운영상태가 정상에서 벗어나거나 성능이 저하될 경우에는 경보를 울리거나 더 이상 설비를 운영하는 것이 위험한 상태에 이르면 해당 설비 또는 플랜트 전체를 강제 정지 시킨다.

따라서 플랜트가 목적하는 제품을 원하는 품질 수준과 비용으로 생산하기 위해서는 플랜트를 구성하는 상기 부속설비들의 가동 상황을 실시간으로 지속적으로 감시하며 최적의 운영상태와 성능을 유지하도록 하여야 할 필요가 있다.

플랜트 설비는 특성상 복수의 모듈과 복수의 모듈을 감시하는 복수의 센서를 포함하고 있고, 이러한 복수의 센서로부터 단위시간당 많게는 수만 개의 감지신호를 수신하여 해당 플랜트 설비의 정상작동 여부를 판단하여야 한다. 발전소 플랜트 설비의 경우, 하나의 모듈에서 발생한 사소한 고장이 플랜트 전체에 심각한 오작동을 일으킬 수 있다. 발전소의 가동이 멈추게 되면 발전소 자체의 정비비용 뿐만 아니라 전력 수요가 높은 계절에는 블랙아웃과 같은 대규모 정전사태로 직결될 수 있고, 이에 따른 경제적 손실 또한 심각할 수 있다.

기존의 산업플랜트에서 이상신호 발생 시 전문가들은 플랜트 설비 계통도(P&ID)를 일일이 확인하면서 이상신호 발생 원인을 규명하지만, 플랜트 설비 특성상 수 만개의 운전신호를 관찰하고 그 신호들 간의 연계성을 분석하여 이상상황과 고장발생 기기를 찾아내는 것은 매우 어렵고 상당한 시간이 소요되므로 이상신호 발생 시 고장발생 기기의 색출과 이로 인한 계통 파급영향을 신속하게 검출하여 적절한 시정조치를 취함으로써 플랜트 운전 안정성을 제고할 수 있는 감시시스템 시스템화 기술이 요구된다.

위와 같은 문제점으로부터 안출된 본 발명이 해결하고자 하는 기술적 과제는, 수신된 데이터간 상관인자를 결정하여 상관인자를 기초로 데이터를 그룹화하는 데이터 분류방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체를 제공하고자 하는 것이다.

본 발명이 해결하고자 하는 다른 기술적 과제는, 상관인자를 기초로 데이터셋에서 비정상 데이터를 필터링하는 데이터 분류방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체를 제공하고자 하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 언급된 기술적 과제들을 해결하기 위한, 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법은, 플랜트의 장비로부터 수신된 운전데이터인 제1 및 제2 데이터를 포함하는 데이터셋을 수신하는 단계, 상기 데이터셋의 상관인자를 결정하는 단계 및 상기 상관인자를 기초로 상기 데이터셋을 제1 그룹으로 설정하는 단계를 포함한다.

상기 결정하는 단계는, 상기 데이터셋의 단위시간별 좌표를 결정하는 단계 및 상기 좌표를 도시하는 단계를 포함할 수 있다.

상기 결정하는 단계는 상기 도시된 좌표의 연속된 구간을 추출하는 단계를 더 포함하고, 상기 상관인자는 상기 연속된 구간의 기울기를 기초로 결정될 수 있다.

상기 결정하는 단계는, 상기 도시된 좌표의 분포도를 결정하는 단계를 더 포함할 수 있다.

상기 설정하는 단계는, 상기 상관인자의 절대값을 기초로 상기 제1 그룹을 설정할 수 있다.

상기 설정하는 단계는, 상기 데이터셋을 제2 그룹을 포함하는 복수의 그룹으로 설정하는 단계를 더 포함할 수 있다.

상기 설정하는 단계는, 상기 상관인자를 기초로 상기 데이터셋의 비정상데이터를 필터링할 수 있다.

본 발명의 일 실시예에 따른 컴퓨터 판독가능한 저장매체는, 플랜트의 장비로부터 수신된 운전데이터인 제1 및 제2 데이터를 포함하는 데이터셋을 수신하는 단계, 상기 데이터셋의 상관인자를 결정하는 단계 및 상기 상관인자를 기초로 상기 데이터셋을 제1 그룹으로 설정하는 단계를 포함하는 상관도를 고려한 데이터 분류 방법을 수행하기 위한 프로그램이 저장된다.

상기와 같은 본 발명에 따르면, 수신되는 데이터셋을 상관인자를 기초로 복수의 그룹으로 그룹화하여 플랜트를 구성하는 복수의 장비에서 수신되는 데이터의 학습 효율을 향상시킬 수 있으며, 비정상 데이터를 필터링하여 플랜트의 상태를 나타내는 데이터셋을 보다 정확하게 모니터링 할 수 있다.

도 1은 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법의 개략적인 흐름을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법에서 상관인자를 결정하는 과정을 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법에서 데이터셋의 그룹화 과정을 나타내는 도면이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

이하, 도면을 참조하여 본 발명의 실시 예들에 따른 상관도를 고려한 데이터 분류 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체에 대해 설명하기로 한다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법의 개략적인 흐름이 개시된다. 도 1은 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법의 개략적인 흐름을 나타내는 도면, 도 2는 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법에서 상관인자를 결정하는 과정을 나타내는 도면, 도 3은 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법에서 데이터셋의 그룹화 과정을 나타내는 도면이다.

구체적으로 본 실시예에 따른 상관도를 고려한 데이터 분류 방법은, 플랜트의 장비로부터 수신된 운전데이터인 제1 및 제2 데이터를 포함하는 데이터셋을 수신하는 단계(S10), 상기 데이터셋의 상관인자를 결정하는 단계(S20, S30) 및 상기 상관인자를 기초로 상기 데이터셋을 제1 그룹으로 설정하는 단계(S40)를 포함한다.

플랜트 설비는 복수의 모듈이 유기적으로 결합되어 상호 밀접한 영향을 미치는 경우가 많다. 따라서 플랜트 설비는 특성상 복수의 모듈과 이를 실시간으로 모니터링하는 복수의 센서를 포함하고 있다. 플랜트의 정상작동 여부를 판단하기 위한 방법으로, 본 실시예에서는 플랜트를 구성하는 복수의 장비로부터 수신한 데이터셋의 히스토리를 관리할 수 있다. 플랜트 설비는 수신된 데이터셋을 학습하고, 이를 플랜트의 현재상태와 비교하여 플랜트의 정상작동 여부 또는 비정상작동 여부를 판단하거나 예측할 수 있다.

하지만, 복수의 센서로부터 단위시간당 많게는 수만 개의 감지신호를 수신하여 해당 플랜트 설비의 정상작동 여부를 판단해야 하고, 비정상 데이터는 학습의 효율을 저하시키는 원인이 될 수 있다. 따라서, 수신되는 데이터셋을 효과적으로 학습할 수 있는 방법과 학습될 데이터셋의 정확도를 향상시키는 방법이 요구된다.

본 실시예에서는 수신되는 데이터셋을 유사도에 따라 미리 그룹화하여 해당 장비에 필요한 데이터그룹을 선택적으로 학습할 수 있고, 비정상 데이터 그룹을 사전에 필터링 하여 학습의 효율성을 향상시킬 수 있다.

이를 위해, 먼저 플랜트를 구성하는 복수의 장비로부터 수신된 운전데이터인 제1 및 제2 데이터를 포함하는 데이터셋을 수신하는 단계(S10)를 수행할 수 있다. 전술한 바와 같이 수신되는 데이터셋에 포함된 복수의 운전데이터는 단위나 스케일 상이할 수 있다. 예를 들어, 발전소를 구성하는 장비로 냉각수펌프, 고압터빈, 보일러, 집전시설, 발전기 등이 포함되고, 이러한 장비로부터 수신되는 운전데이터는 ℃, Kw, 톤(ton), rpm 등 다양한 단위 또는 스케일을 가질 수 있다.

이에 본 실시예에서는 데이터간의 스케일 보정과정을 통하여 단위나 스케일에 따른 데이터 왜곡현상을 방지할 수 있다. 스케일 보정과정은 최대-최소값의 평균을 이용하여 변환인자를 추출하고, 변환인자를 기초로 데이터 스케일을 보정하는 방법이 있을 수 있으나, 이에 한정되는 것은 아니며 다양한 보정 또는 보간기법이 사용될 수 있다.

다음으로, 수신된 데이터셋에서 제1 데이터와 제2 데이터를 추출하는 단계(S20)를 수행할 수 있다. 제1 데이터와 제2 데이터를 추출하는 기준으로, 해당 플랜트 또는 장비의 정상작동여부를 판단하는 중요도 순으로 추출하거나, 데이터 셋에서 무작위로 선별하거나, 시계열상 앞선 데이터를 추출하는 등의 다양한 기준을 적용할 수 있다.

추출된 제1 데이터와 제2 데이터의 상관인자를 결정하는 단계(S30)를 수행할 수 있다. 본 실시예에서는 기울기, 분포도, 등을 이용하여 상관인자를 결정할 수 있으나 이에 한정되는 것은 아니며, 다양한 방법으로 상관인자를 결정할 수 있다. 상관인자를 결정하는 구체적은 과정은 도 2를 참조하여 후술하기로 한다.

마지막으로, 결정된 상관인자를 기초로 데이터셋을 그룹화하는 단계(S40)를 수행할 수 있다. 각각의 운전데이터로부터 생성된 상관인자를 기준 상관인자와 비교하여 유사한 상관도를 가지는 운전데이터를 그룹화 할 수 있다. 이때, 크기는 같지만 음의 값을 가지는 상관인자와 양의 값을 가지는 상관인자가 같은 그룹으로 그룹화하기 위해, 각각의 상관인자는 절대값을 기초로 상기 그룹화 단계(S40)를 수행할 수 있다.

본 실시예에서는 운전데이터를 분류하기 위한 분류기로 K-근접이웃(K-NN)과 가우시안 혼합 모델(GMM)을 이용하였으나, 이에 한정되는 것은 아니고 상관인자를 기준 상관인자와 비교하여 복수의 운전데이터 중 유사한 상관도를 가지는 데이터를 순차적으로 복수의 그룹으로 그룹화하는 등의 다양한 분류 알고리즘을 이용하여 데이터를 그룹화 할 수 있다.

K-근접이웃 분류기는 주어진 데이터로부터 거리가 가까운 순서대로 K개의 데이터를 찾은 후, 그 중 가장 많은 수의 데이터가 속한 그룹으로 할당하는 방법이다. K-근접이웃은 비모수적 학습 알고리즘이며, 거리기반 분류기의 한 종류이다.

가우시안 혼합모델(GMM) 또한 데이터의 분류에 유용하며, 일반적으로 모수적 학습 알고리즘에 사용된다. 가우시안 혼합 모델은 주어진 데이터셋의 분포 밀도를 하나의 확률밀도 함수로 모델링하는 방법을 개선한 밀도 추정방법이다. 가우시안 혼합 모델은 가우시안 분포의 선형 조합으로 데이터의 각 그룹을 제공할 수 있다. 매개변수는 최대-최소 알고리즘을 사용하여 학습된 데이터에서 추론할 수 있다.

또한, 그룹화 단계(S40)에서는, 상관인자를 기초로 데이터셋에서 비정상 운전데이터를 필터링할 수 있다. 상관인자를 비교하여 일정범위 이상의 상관도를 가지는 비정상 데이터를 사전에 필터링하여 보다 정밀한 플랜트 모니터링과 데이터 학습을 할 수 있다. 이때, 비정상 데이터는 소정 상관도에 미치지 못하는 데이터를 의미할 수 있으며, 비정상 범주에 포함되는 비정상 데이터도 상관도에 따라 순차적으로 상기 복수의 그룹으로 그룹화될 수 있다. 그룹화된 비정상 데이터를 이용하여 학습하는 경우, 플랜트 장비의 현재상태와 비교하여 비정상작동 여부를 판단할 수 있다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법에서 상관인자를 결정하는 과정이 개시된다.

먼저, 수신된 데이터셋에서 제1 데이터와 제2 데이터를 추출하는 단계(S100)를 수행할 수 있다. 제1 데이터는 기준데이터로, 제2 데이터를 포함한 나머지 데이터셋은 비교데이터로 활용할 수 있다. 전술한 바와 같이, 기준데이터를 선정하는 방법은 플랜트 학습 또는 모니터링에 있어 중요한 지표가 되는 데이터일 수 있으나, 이에 한정되는 것은 아니며 다양한 기준으로 기준데이터를 결정할 수 있다.

다음으로, 제1 데이터와 제2 데이터의 단위시간별 좌표를 결정하는 단계(S200)를 수행할 수 있다. 플랜트의 장비에서 생성되는 데이터는 일반적으로 시계열 데이터이므로, 시간 영역에 대응하여 각각의 데이터를 배치할 수 있다. 도 1을 참조한 일 실시예에서 데이터셋은 스케일 보정과정을 거쳐 단위 혹은 스케일에 따른 영향을 받지 않을 수 있다.

제1 데이터와 제2 데이터의 좌표를 도시하는 단계(S300)를 수행할 수 있다. 예를 들어 제1 데이터를 x축, 제2 데이터를 y축으로 배치하고, 이 2차원 영역에 단위시간별 좌표를 도시할 수 있다. 첫번째 단위시간에 대응하는 제1 데이터의 값이 3, 제2 데이터의 값이 7이면, D1(3,7)과 같이 도시할 수 있다. 이와 같은 방법으로 단위시간에 대응하는 제1 및 제2 데이터의 좌표를 도시할 수 있다.

분포된 제1 데이터 및 제2 데이터는 기준에 따라 좌표의 연속된 구간을 추출하는 단계(S410) 또는 좌표의 분포도를 결정하는 단계(S450)를 수행할 수 있다. 전자의 단계(S410)는 불연속적인 데이터의 좌표를 연속화하는 과정을 수행할 수 있다. 연속된 구간을 추출하면(S410), 연속된 구간의 기울기를 추출하는 단계(S420)를 수행할 수 있다.

상기 S410 내지 S450의 단계를 수행하여, 기울기 또는 분포도를 이용하여 상관인자를 결정하는 단계(S500)를 수행할 수 있다.

본 실시예에서는 피어슨 상관 계수(Pearson correlation coefficient)를 이용하여 상관인자를 결정할 수 있으나, 이에 한정되는 것은 아니며 장비별 특성, 데이터의 중요도 가중치 등의 다양한 기준으로 상관인자를 결정할 수 있다.

상관인자는 두 변수 간의 공변하는 관계를 나타내는 통계량이다. 일반적으로 상관인자 또는 상관계수라고 하면 피어슨 상관계수를 의미한다. 피어슨의 적률 상관 계수(Pearson's product moment correlation coefficient), 피어슨의 r(Pearson's r), r, R 등은 모두 피어슨의 상관 계수를 나타내는 다른 용어들이다. 피어슨의 상관계수는 -1~1의 값 범위를 가지고 있는데, 두 변수간의 상관인자가 양수를 가지는 경우, 양의 상관관계라 한다. 다시말해, 제1 변수가 증가하면 제2 변수도 증가함을 의미한다.

두 변수 x, y에 대해서, n개의 관측치가 (x1,y1), (x2,y2), ..., (xn,yn)과 같이 주어지고, x와 y의 평균을 각각 m(x), m(y)라고 하면, 두 변수 x와 y에 대한 상관인자 r을 결정하는 방법은 다음과 같다.

먼저, 각 변수와 평균 사이의 편차를 구할 수 있다. 첫번째 관측치 (x1,y1)에서 x1의 편차는 x1 - m(x), y1의 편차는 y1 - m(y)이고, 마찬가지의 방법으로 i번째의 관측치에 대한 x와 y의 편차는 xi - m(x), yi - m(x)이다.

다음으로, 공분산을 구할 수 있다. 분산이 어느 하나의 변수의 평균을 기초로 모집단이 어떻게 분포하는가를 확인할 수 있다면, 공분산은 하나의 변수가 아닌 두 변수 사이의 관계를 나타내는 지표이다. 공분산은 두 변수의 편차를 곱하고, 이들의 평균을 구하여 얻을 수 있다. 공분산을 구하는 수학식은 다음과 같다.

수학식 1에서, n개의 평균을 구하는데 있어 분모에 n을 쓰지 않고 n-1이 쓰였는데, 이는 자유도에 의한 것이다. 전술한 바와 같이 xi - m(x), yi - m(y)는 편차를 나타내고, 이러한 편차들의 합은 항상 0이 되어야 한다. 따라서 수학식 2 와 수학식 3을 만족해야 한다.

편차의 합이 0이 되려면, 모든 관측값이 변해도 편차의 합이 0이 되도록 다른 모든 값들에 의해 어느 하나의 값이 결정되어 고정될 수 있다. 여기서, 자유롭게 변하는 관측치의 수가 자유도가 될 수 있다. 본 실시예에서 자유도는 n-1로 결정될 수 있다.

마지막으로, 두 변수의 표준편차를 구하여 공분산의 합을 표준편차의 곱으로 나누어 상관인자를 구할 수 있다. xi에 대한 표준편차의 합은 수학식 4와 같이 나타낼 수 있다.

마찬가지로, 자유도에 의해 분모는 n이 아닌 n-1이 될 수 있다. 상관인자 r은 다음과 같이 결정될 수 있다.

여기서, 분자와 분모에 포함된 n-1항은 상쇄되므로 무시할 수 있다. 따라서 상관인자 r은 다음의 수학식으로도 산출될 수 있다.

전술한 바와 같이, 상관인자 r의 값은 -1보다 같거나 크고, 1보다 같거나 작은 범위를 가질 수 있다. 상관인자는 단위를 갖지 않으므로, 측정되는 단위와 독립적으로 정의될 수 있다. 또한, 상관인자는 방향성을 갖지 않는다. 즉, x와 y의 상관계수는 y와 x의 상관계수와 같다. 전술한 상관인자를 구하는 과정을 이용하여 기울기 또는 분포도로 나타내어진 제1 및 제2 변수간의 상관인자를 결정할 수 있다.

마지막으로, 제1 데이터와 제2 데이터의 상관인자를 기초로, 제1 데이터와 데이터셋의 상관인자를 비교하여 그룹화하는 단계(S600)를 수행할 수 있다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 상관도를 고려한 데이터 분류 방법에서 데이터셋의 그룹화 과정이 개시된다.

데이터셋(10)에 포함된 복수의 운전데이터에서 기준데이터를 결정하고, 기준데이터인 제1 데이터와 와 비교데이터인 제2 데이터에서 기준 상관인자(20)를 결정한다. 제1 데이터와 나머지 데이터셋에 포함된 운전데이터와의 상관인자를 결정하여, 기준 상관인자(20)와 비교하여 상관도에 따라 데이터셋을 제1 그룹을 포함은 복수의 그룹(12)으로 그룹화 할 수 있다. 데이터셋을 분류하기 위한 방법으로, K-근접이웃 또는 가우시안 혼합 모델(GMM)을 이용할 수 있다.

한편, 소정 상관도에 부합하지 않는 데이터는 비정상 데이터(11)로 판단하고 필터링 할 수 있다. 필터링된 비정상 데이터(11)를 제외한 나머지 데이터그룹(12)은 플랜트 또는 장비의 특성에 맞게 선택적으로 학습할 수 있다.

이와 달리, 소정 상관도에 부합하지 않는 데이터를 선택적으로 학습하여 플랜트 장비의 현재상태와 비교하여 비정상작동 여부를 판단할 수 있다.

한편, 본 발명은 컴퓨터 판독가능 저장매체에 컴퓨터가 판독 가능한 코드를 저장하여 구현하는 것이 가능하다. 상기 컴퓨터 판독가능 저장매체는 컴퓨터 시스템에 의하여 판독될 수 있는 데이터가 저장되는 모든 종류의 저장장치를 포함한다.

상기 컴퓨터가 판독 가능한 코드는, 상기 컴퓨터 판독가능 저장매체로부터 프로세서에 의하여 독출되어 실행될 때, 본 발명에 따른 비정상 상관도를 고려한 데이터 분류 방법을 구현하는 단계들을 수행하도록 구성된다. 상기 컴퓨터가 판독 가능한 코드는 다양한 프로그래밍 언어들로 구현될 수 있다. 그리고 본 발명의 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 통상의 기술자들에 의하여 용이하게 프로그래밍될 수 있다.

컴퓨터 판독가능 저장매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 반송파(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터 판독가능저장매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행되는 것도 가능하다.

이상 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

10: 데이터셋
11: 비정상 데이터
12: 데이터 그룹
20: 상관인자

Claims

플랜트 장비와 연동되는 장치에 의해 수행되는 상관도를 고려한 데이터 분류 방법에 있어서,
상기 플랜트 장비로부터 복수의 운전데이터를 포함하는 데이터셋을 수신하는 단계;
상기 데이터셋의 상관인자를 결정하는 단계; 및
상기 상관인자를 기초로 상기 데이터셋을 복수의 그룹으로 그룹화하는 단계를 포함하되,
상기 데이터셋을 수신하는 단계는,
상기 데이터셋에 포함된 상기 복수의 운전데이터가 서로 다른 스케일을 가지는 경우, 스케일 변환인자를 기초로 상기 복수의 운전데이터 간의 스케일 보정을 수행하고,
상기 복수의 그룹으로 그룹화하는 단계는,
상기 복수의 운전데이터와 상기 상관인자 사이의 상관도에 따라 상기 데이터셋에 포함된 상기 복수의 운전데이터를 복수의 그룹으로 그룹화하는 단계; 및
상기 복수의 그룹별로 상기 복수의 운전데이터를 기초로하여 상기 플랜트 장비의 특성에 맞게 선택적으로 학습하는 단계를 포함하는, 상관도를 고려한 데이터 분류 방법.
제1항에 있어서,
상기 상관인자를 결정하는 단계는,
상기 데이터셋으로부터 기준데이터 및 비교데이터를 추출하는 단계; 및
상기 기준데이터 및 상기 비교데이터 간의 상관인자를 결정하되, 상기 기준데이터로부터 기준 상관인자를 결정하는 단계를 포함하는, 상관도를 고려한 데이터 분류 방법.
제2항에 있어서,
상기 복수의 그룹으로 그룹화하는 단계는,
상기 상관인자를 상기 기준 상관인자와 비교하여 상기 복수의 운전데이터 중 유사한 상관도를 가지는 데이터를 순차적으로 상기 복수의 그룹으로 그룹화하는, 상관도를 고려한 데이터 분류 방법.
제1항에 있어서,
상기 복수의 그룹으로 그룹화하는 단계는,
상기 상관인자를 상기 기준 상관인자와 비교하여 상기 복수의 운전데이터 중 상이한 상관도를 가지는 데이터를 순차적으로 상기 복수의 그룹으로 그룹화하는, 상관도를 고려한 데이터 분류 방법.
제1항에 있어서,
상기 플랜트 장비의 특성에 맞게 선택적으로 학습된 데이터를 기초로 상기 플랜트 장비의 현재상태와 비교하여 정상작동 여부를 판단하는 단계를 더 포함하는, 상관도를 고려한 데이터 분류 방법.
제1항에 있어서,
상기 플랜트 장비의 특성에 맞게 선택적으로 학습된 데이터를 기초로 상기 플랜트 장비의 현재상태와 비교하여 비정상작동 여부를 판단하는 단계를 더 포함하는, 상관도를 고려한 데이터 분류 방법.
제1항에 있어서,
상기 플랜트 장비의 상태를 나타내는 상기 데이터셋을 모니터링하는 단계를 더 포함하는 상관도를 고려한 데이터 분류 방법.
제1항 내지 제7항 중 어느 한 항의 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독가능한 저장매체.