KR102510647B1 - 데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법 - Google Patents

데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법 Download PDF

Info

Publication number
KR102510647B1
KR102510647B1 KR1020210127510A KR20210127510A KR102510647B1 KR 102510647 B1 KR102510647 B1 KR 102510647B1 KR 1020210127510 A KR1020210127510 A KR 1020210127510A KR 20210127510 A KR20210127510 A KR 20210127510A KR 102510647 B1 KR102510647 B1 KR 102510647B1
Authority
KR
South Korea
Prior art keywords
training data
regression model
prediction
equation
case
Prior art date
Application number
KR1020210127510A
Other languages
English (en)
Inventor
김정환
조형태
한인수
임종구
Original Assignee
한국생산기술연구원
지에스칼텍스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국생산기술연구원, 지에스칼텍스 주식회사 filed Critical 한국생산기술연구원
Priority to KR1020210127510A priority Critical patent/KR102510647B1/ko
Application granted granted Critical
Publication of KR102510647B1 publication Critical patent/KR102510647B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Abstract

본 발명은 (a) 훈련 데이터를 군집화한 군집에 제1 훈련 데이터의 선택 비율을 적용한 제1 사례별 공정 예측 모델을 사용하여 예측 성능 지표의 회귀 모델을 개발하는 단계; 및 (b) 상기 회귀 모델을 사용하여 최적의 훈련 데이터를 선택하는 단계;를 포함하는 훈련 데이터 도출 방법에 관한 것이다. 본 발명에 따른 데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법은 데이터 군집화 (Data clustering)을 적용하여 군집화된 훈련 데이터들의 선택 비율에 따른 사례 연구 및 회귀 모델을 수립하여 최적의 훈련 데이터를 제시할 수 있다.

Description

데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법{SELECTING METHOD OF TRAINING DATA BASED ON DATA CLUSTERING FOR PROCESS PREDICTION MODEL DEVELOPMENT}
본 발명은 훈련 데이터 선택 방법에 관한 것으로서, 보다 상세하게는 데이터 군집화 (Data clustering)을 적용하여 군집화된 훈련 데이터들의 선택 비율에 따른 사례 연구 및 회귀 모델을 수립하여 최적의 훈련 데이터를 제시할 수 있는 데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법에 관한 것이다.
대규모의 상업 공정은 다양한 외부 변수 및 환경에 의해 실시간으로 변하는 운전 조건을 이론적으로 예측할 수 없어 작업자의 숙련도에 따라 경험적으로 운전하여 효율적인 운전이 어렵다. 이를 해결하기 위해 공정에서 실시간으로 수집되는 운전 데이터를 이용한 데이터 기반 예측 모델 개발(Data-driven predictive model) 연구가 활발히 이루어지고 있다.
일반적으로 견고하고 높은 성능을 가지는 데이터 기반 예측 모델을 위해서는 예상할 수 있는 모든 데이터의 특징(Feature)이 학습되도록 훈련 데이터를 설정하여 모델을 개발해야 한다. 하지만 공정 데이터는 공정의 운전 상태(공정 가동(Start-up), 예비 운전, 실제 운전, 운전 중지(Shut-down))와 운전 환경 및 조건에 따라 데이터의 값과 특성이 달라지기 때문에 예측 모델을 개발하는데 어려움이 있다. 또한 공정의 상태는 (정상상태, 비정상상태 등) 실시간으로 변하며 공정 상태에 따른 데이터의 비율 또한 일정하지 않기 때문에 훈련 데이터를 설정할 때 특정 운전 상태 및 조건의 데이터만 편향적으로 선택되지 않도록 설정해야 한다.
모든 상업 공정은 활용할 수 있는 데이터들이 다르며 각자 고유의 특징을 가지고 있다. 따라서 일반적인 상업 공정의 데이터 기반 예측 모델을 개발하기 위해서 모델 학습을 위한 훈련 데이터에 공정의 모든 특징이 고르게 반영될 수 있는 훈련 데이터 선택 방법에 대한 연구가 필요하다.
본 발명의 목적은 상기의 문제점을 해결하기 위한 것으로, 데이터 군집화 (Data clustering)을 적용하여 군집화된 훈련 데이터들의 선택 비율에 따른 사례 연구 및 회귀 모델을 수립하여 최적의 훈련 데이터를 제시할 수 있는 데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법을 제공하는데 있다.
또한 본 발명의 다른 목적은 군집화된 데이터들은 군집별로 시각화가 가능하기 때문에 군집화된 데이터를 확인하여 공정의 운전 상태를 쉽고 빠르게 확인할 수 있는 데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법을 제공하는데 있다.
또한 본 발명의 다른 목적은 군집화된 훈련 데이터를 통해 공정의 모든 운전 상태를 고려할 수 있어 특정 운전 상태에 편향되게 학습되는 문제를 방지할 수 있는 데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법을 제공하는데 있다.
본 발명의 일 측면에 따르면, (a) 훈련 데이터를 군집화한 군집에 제1 훈련 데이터의 선택 비율을 적용한 제1 사례별 공정 예측 모델을 사용하여 예측 성능 지표의 회귀 모델을 개발하는 단계; 및 (b) 상기 회귀 모델을 사용하여 최적의 훈련 데이터를 선택하는 단계;를 포함하는 훈련 데이터 도출 방법이 제공된다.
상기 단계 (a)가 (a-1) 훈련 데이터를 복수의 군집으로 군집화(clustering)하는 단계; (a-2) 복수의 상기 군집에 각각 상기 제1 훈련 데이터 선택 비율(data selection ratio)을 적용하여 복수의 제1 사례별 공정 예측 모델을 개발하는 단계; 및 (a-3) 복수의 상기 제1 사례별 공정 예측 모델에 테스트 데이터를 적용하여 상기 군집별 상기 제1 훈련 데이터 선택 비율에 따른 상기 예측 성능 지표의 회귀 모델(regression model)을 개발하는 단계;를 포함할 수 있다.
상기 단계 (a-3)이 복수의 상기 제1 사례별 공정 예측 모델에 각각 동일한 테스트 데이터를 적용하여 상기 사례별 공정 예측 모델의 예측 성능 지표를 구하고, 상기 예측 성능 지표를 비교하여, 상기 군집별로 상기 제1 훈련 데이터 선택 비율에 따른 상기 예측 성능 지표의 회귀 모델(regression model)을 개발하는 단계일 수 있다.
상기 단계 (a-1)의 상기 군집화가 K-평균 군집화(K-means Clustering), 디비스캔 군집화(DBSCAN Clustering), 유사도 전파 군집화(Affinity Propagation Clustering), 계층적 군집화(Hierarchical Clustering) 및 스펙트럴 군집화(Spectral Clustering)로 이루어진 군으로부터 선택된 어느 하나에 의해 수행될 수 있다.
상기 단계 (a-2)의 상기 사례별 공정 예측 모델이 초매개 변수를 추가로 적용하여 개발된 것일 수 있다.
상기 초매개 변수가 최적화기(Optimizer), 활성화 함수(Activation function), 학습 속도(Learning rate), 배치 크기(Batch size), 및 에포크(Epoch)로 이루어진 군으로부터 선택된 1종 이상을 포함할 수 있다.
상기 단계 (a-3)의 상기 예측 성능 지표가 아래 식 1로 표시되는 정확도(R2) 및 아래 식 2로 표시되는 정밀도(RMSE, root mean square error)로 이루어진 군으로부터 선택된 1종 이상을 포함할 수 있다.
[식 1]
Figure 112021110867202-pat00001
[식 2]
Figure 112021110867202-pat00002
상기 식 1 및 식 2에서
N은 데이터 갯수이고,
Figure 112021110867202-pat00003
는 실제 데이터이고,
Figure 112021110867202-pat00004
는 실제 데이터의 평균값이고,
Figure 112021110867202-pat00005
는 사례별 공정 예측 모델을 이용하여 예측한 값이다.
상기 단계 (a-3)의 상기 회귀 모델이 아래 식 3으로 표현될 수 있다.
[식 3]
Figure 112021110867202-pat00006
식 3 에서
ri는 각 군집별 훈련 데이터 선택 비율이고,
A 및 B는 각각 회귀 모델에서 구해지는 계수이고,
C는 상수값이고,
k는 군집의 갯수이다.
상기 단계 (b)가 (b-1) 상기 회귀 모델을 사용하여 최적의 훈련 데이터 선택 비율 후보를 도출하는 단계; (b-2) 최적의 훈련 데이터 선택 비율 후보를 사용하여 상기 회귀 모델의 성능을 검증하는 단계; 및 (b-3) 최적의 훈련 데이터 선택 비율 후보 중 상기 검증을 통과한 것을 최적의 훈련 데이터 선택 비율로 선택하는 단계;를 포함할 수 있다.
상기 단계 (b-1)이 (b-1-1) 상기 회귀 모델에 제약 조건 및 예측 성능 지표의 목적 함수(objective function)를 설정하고, 상기 회귀 모델이 상기 제약 조건을 만족하는 사례를 선택하는 단계; (b-1-2) 상기 제약 조건을 만족하는 선택된 사례 중에서 상기 목적 함수의 값이 가장 높은 사례부터 차례로 n개(n은 2 이상의 자연수 중 어느 하나) 의 사례를 선택하는 단계; 및 (b-1-3) n개 선택된 상기 사례의 훈련 데이터 선택 비율의 평균값을 최적의 훈련 데이터 선택 비율 후보로 도출하는 단계;를 포함할 수 있다.
상기 단계 (b-1-1)에서 상기 회귀 모델이 제2 훈련 데이터 선택 비율(data selection ratio)을 상기 군집에 적용한 사례 중에서 상기 제약 조건을 만족하는 사례를 선택하고, 상기 제2 훈련 데이터 선택 비율의 최대값은 상기 단계 (a)의 제1 훈련 데이터 선택 비율의 최대값 이하이고, 상기 제2 훈련 데이터 선택 비율의 최소값은 상기 단계 (a)의 제1 훈련 데이터 선택 비율의 최소값 이하인 것일 수 있다.
상기 제약 조건이 아래 식 4로 표시되는 조건, 식 5로 표시되는 조건 및 식 6으로 표시되는 조건을 포함할 수 있다.
[식 4]
Figure 112021110867202-pat00007
[식 5]
Figure 112021110867202-pat00008
[식 6]
Figure 112021110867202-pat00009
상기 식 4 내지 식 6에서,
Figure 112021110867202-pat00010
는 군집별 훈련 데이터를 선택한 경우, 회귀 모델을 사용한 경우의 예측 정확도이고,
Figure 112021110867202-pat00011
은 군집화를 적용하지 않고 모든 훈련 데이터를 사용한 경우의 예측 정확도이고,
Figure 112021110867202-pat00012
는 군집별 훈련 데이터를 선택한 경우, 회귀 모델을 사용한 경우의 예측 정밀도이고,
Figure 112021110867202-pat00013
은 군집화를 적용하지 않고 모든 훈련 데이터를 사용한 경우의 예측 정밀도이고,
ri는 각 군집별 데이터 선택 비율이고,
k는 군집의 갯수이다.
상기 목적 함수가 아래 식 7로 표시되고, 상기 식 7은 식 8 및 식 9의 합일 수 있다.
[식 7]
Figure 112023001617622-pat00014
[식 8]
Figure 112021110867202-pat00017
[식 9]
Figure 112021110867202-pat00018
상기 식 7 내지 식 9에서,
Figure 112021110867202-pat00019
는 군집별 훈련 데이터를 선택한 경우, 회귀 모델을 사용한 경우의 예측 정확도이고,
Figure 112021110867202-pat00020
은 군집별 훈련 데이터를 선택한 경우 회귀 모델을 사용한 경우(
Figure 112021110867202-pat00021
) 에서, 제약 조건을 만족하는 경우에서의 가장 낮은 예측 정확도이고,
Figure 112021110867202-pat00022
는 군집별 훈련 데이터를 선택한 경우 회귀 모델을 사용한 경우(
Figure 112021110867202-pat00023
)에서, 제약 조건을 만족하는 경우에서의 가장 높은 예측 정확도이고,
Figure 112021110867202-pat00024
은 군집별 훈련 데이터를 선택한 경우, 회귀 모델을 사용한 경우의 예측 정밀도이고,
Figure 112021110867202-pat00025
군집별 훈련 데이터를 선택한 경우 회귀 모델을 사용한 경우(
Figure 112021110867202-pat00026
)에서, 제약 조건을 만족하는 경우에서의 가장 낮은 예측 정밀도이고,
Figure 112021110867202-pat00027
은 군집별 훈련 데이터를 선택한 경우 회귀 모델을 사용한 경우(
Figure 112021110867202-pat00028
)에서, 제약 조건을 만족하는 경우에서의 가장 높은 예측 정밀도이고,
argmax는 수학에서의 최대 값의 인자(Arguments of the maxima)를 의미하며, 주어진 경우에서의 최대값을 가지는 값을 도출하는 함수이고,
n은 2 이상의 자연수 중 어느 하나이다.
상기 단계 (b-2)가 (b-2-1) 최적의 훈련 데이터 선택 비율 후보를 사용하여 제2 사례별 공정 예측 모델을 개발하는 단계; (b-2-2) 상기 회귀 모델에 테스트 데이터를 적용하여 회귀 모델의 예측 성능 지표를 구하고, 상기 제2 사례별 공정 예측 모델에 상기 테스트 데이터를 적용하여 제2 사례별 공정 예측 모델의 성능지표를 구하는 단계; 및 (b-2-3) 상기 회귀 모델의 예측 성능 지표와 상기 제2 사례별 공정 예측 모델의 예측 성능 지표의 예측 성능 지표 차이를 기준치와 비교하여 검증하는 단계;를 포함할 수 있다.
상기 훈련 데이터 도출 방법이, 단계 (b-2-3)의 상기 예측 성능 지표 차이가 기준치 미만인 경우, 단계 (a) 및 (b)를 다시 수행할 수 있다.
상기 훈련 데이터가 원료조성, 원료의 유량속도, 원료 중 조성성분의 함량, 제품순도, 공정수율, 스팀의 유량속도, 리플럭스(reflux) 유량속도, 냉각수 유량속도, 증류탑의 각 m번째 단의 온도(m은 1 내지 500 중에서 선택된 어느 하나의 정수), 증류탑의 하부(bottom) 압력, 증류탑의 상부(overhead) 압력, 증류탑 상부(overhead)에서 나가는 제품의 유량속도, 증류탑 하부(bottom)에서 나가는 제품의 유량속도 및 증류탑 측면(side)에서 나가는 제품의 유량속도로 이루어진 군으로부터 선택된 1종 이상을 포함할 수 있다.
상기 사례별 공정 예측 모델 또는 상기 회귀 모델이 지도학습, 비지도 학습 및 강화학습으로 이루어진 군으로부터 선택된 어느 하나에 의해 개발된 것일 수 있다.
본 발명의 다른 일 측면에 따르면, 훈련 데이터 도출하기 위한 컴퓨터가 (a) 훈련 데이터를 군집화한 군집에 제1 훈련 데이터의 선택 비율을 적용한 제1 사례별 공정 예측 모델을 사용하여 예측 성능 지표의 회귀 모델을 개발하는 단계; 및 (b) 상기 회귀 모델을 사용하여 최적의 훈련 데이터를 선택하는 단계;를 수행하도록 하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체가 제공된다.
본 발명의 다른 일 측면에 따르면, 훈련 데이터를 포함하는 변수를 수신하는 통신부; 공정 예측 모델 및 회귀 모델을 학습시키고 검증하여 최적의 훈련 데이터를 도출하는 프로세서; 상기 프로세서가 목표로 하는 상기 최적의 훈련 데이터를 도출함에 필요한 저장 공간을 제공하는 저장부;를 포함하는 훈련 데이터 도출 시스템이 제공된다.
상기 프로세서가 (a) 훈련 데이터를 군집화한 군집에 제1 훈련 데이터의 선택 비율을 적용한 제1 사례별 공정 예측 모델을 사용하여 예측 성능 지표의 회귀 모델을 개발하는 단계; 및 (b) 상기 회귀 모델을 사용하여 최적의 훈련 데이터를 선택하는 단계;를 수행할 수 있다.
본 발명에 따른 데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법은 데이터 군집화 (Data clustering)을 적용하여 군집화된 훈련 데이터들의 선택 비율에 따른 사례 연구 및 회귀 모델을 수립하여 최적의 훈련 데이터를 제시할 수 있다.
또한 본 발명은 군집화된 데이터들은 군집별로 시각화가 가능하기 때문에 군집화된 데이터를 확인하여 공정의 운전 상태를 쉽고 빠르게 확인할 수 있다.
또한 본 발명은 군집화된 훈련 데이터를 통해 공정의 모든 운전 상태를 고려할 수 있어 특정 운전 상태에 편향되게 학습되는 문제를 방지할 수 있다.
또한 본 발명은 센서를 통해 데이터가 저장되는 모든 상업 공정에 적용이 가능하며, 특히 시간에 따라 운전 상태나 조건이 크게 달라지는 연속적인 제조 공정에 적합할 수 있다.
도 1은 본 발명의 훈련 데이터 도출 방법의 단계를 보여주는 알고리즘이다.
도 2는 장단기기억(LSTM) 알고리즘의 기본 구조를 보여준다.
도 3은 본 발명의 실시예 1에 사용된 증류 공정의 도식도와 계기의 부착 위치를 보여준다.
도 4a는 군집화 이전의 훈련 데이터이고, 도 4b는 7개의 군집으로 군집화한 군집별 시각화된 데이터이다.
도 5a 및 5b는 군집별 훈련 데이터 선택 비율에 따른 예측 성능(R2 및 RMSE)민감도 분석 결과이다.
도 6은 훈련 데이터 개수에 따른 예측 성능(R2 및 RMSE)분포 결과이다.
도 7은 최적의 훈련 데이터 선택 비율 및 크기를 나타낸 결과이다.
도 8은 본 발명의 실시예 1에 따라 선택된 최적의 훈련 데이터로 학습한 결과이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
또한, 이하에서 사용된 제1, 제 2등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성 요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
또한, 어떤 구성요소가 다른 구성요소 상에 "형성되어" 있다거나 "적층되어" 있다고 언급될 때에는, 그 다른 구성요소의 표면 상의 전면 또는 일면에 직접 부착되어 형성되어 있거나 적층되어 있을 수도 있지만, 중간에 다른 구성요소가 더 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서 "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요서, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도 1은 본 발명의 훈련 데이터 도출 방법의 단계를 보여주는 알고리즘이다. 이하, 도 1을 참조하여 본 발명의 훈련 데이터 도출 방법에 대해 설명하도록 한다.
먼저 훈련 데이터를 군집화한 군집에 제1 훈련 데이터의 선택 비율을 적용한 제1 사례별 공정 예측 모델을 사용하여 예측 성능 지표의 회귀 모델을 개발한다 (단계 a).
상기 단계 (a)가 (a-1) 훈련 데이터를 복수의 군집으로 군집화(clustering)하는 단계; (a-2) 복수의 상기 군집에 각각 상기 제1 훈련 데이터 선택 비율(data selection ratio)을 적용하여 복수의 제1 사례별 공정 예측 모델을 개발하는 단계; 및 (a-3) 복수의 상기 제1 사례별 공정 예측 모델에 테스트 데이터를 적용하여 상기 군집별 상기 제1 훈련 데이터 선택 비율에 따른 상기 예측 성능 지표의 회귀 모델(regression model)을 개발하는 단계;를 포함할 수 있다.
상기 단계 (a-3)이 복수의 상기 제1 사례별 공정 예측 모델에 각각 동일한 테스트 데이터를 적용하여 상기 사례별 공정 예측 모델의 예측 성능 지표를 구하고, 상기 예측 성능 지표를 비교하여, 상기 군집별로 상기 제1 훈련 데이터 선택 비율에 따른 상기 예측 성능 지표의 회귀 모델(regression model)을 개발하는 단계일 수 있다.
상기 단계 (a-1)의 상기 군집화가 K-평균 군집화(K-means Clustering), 디비스캔 군집화(DBSCAN Clustering), 유사도 전파 군집화(Affinity Propagation Clustering), 계층적 군집화(Hierarchical Clustering) 및 스펙트럴 군집화(Spectral Clustering)로 이루어진 군으로부터 선택된 어느 하나에 의해 수행될 수 있다.
상기 단계 (a-2)의 상기 사례별 공정 예측 모델이 초매개 변수를 추가로 적용하여 개발된 것일 수 있다.
상기 초매개 변수가 최적화기(Optimizer), 활성화 함수(Activation function), 학습 속도(Learning rate), 배치 크기(Batch size), 및 에포크(Epoch)로 이루어진 군으로부터 선택된 1종 이상을 포함할 수 있다.
상기 단계 (a-3)의 상기 예측 성능 지표가 아래 식 1로 표시되는 정확도(R2) 및 아래 식(2)로 표시되는 정밀도(RMSE, root mean square error)로 이루어진 군으로부터 선택된 1종 이상을 포함할 수 있다.
[식 1]
Figure 112021110867202-pat00029
[식 2]
Figure 112021110867202-pat00030
상기 식 1 및 식 2에서
N은 데이터 갯수이고,
Figure 112021110867202-pat00031
는 실제 데이터이고,
Figure 112021110867202-pat00032
는 실제 데이터의 평균값이고,
Figure 112021110867202-pat00033
는 사례별 공정 예측 모델을 이용하여 예측한 값이다.
상기 단계 (a-3)의 상기 회귀 모델이 아래 식 3으로 표현될 수 있다.
[식 3]
Figure 112021110867202-pat00034
식 3 에서
ri는 각 군집별 훈련 데이터 선택 비율이고,
A 및 B는 각각 회귀 모델에서 구해지는 계수이고,
C는 상수값이고,
k는 군집의 갯수이다.
상기 사례별 공정 예측 모델 또는 상기 회귀 모델이 지도학습, 비지도 학습 및 강화학습으로 이루어진 군으로부터 선택된 어느 하나에 의해 개발된 것일 수 있다.
상기 사례별 공정 예측 모델 또는 상기 회귀 모델이 LSTM(Long Short Term Memory), GRU(Gated Recurrent Units) 및 RNN(Recurrent Neural Networks)로 이루어진 군으로부터 선택된 어느 하나를 사용해 개발될 수 있다.
상기 사례별 공정 예측 모델 또는 상기 회귀 모델이 Adam, SGD, Adagrad, Adadelta, Momentum, 및 RMSprop로 이루어진 군으로부터 선택된 어느 하나의 최적화 함수를 사용하여 손실함수(error)가 최소가 되도록 수행될 수 있다.
마지막으로 상기 회귀 모델을 사용하여 최적의 훈련 데이터를 선택하여 도출한다 (단계 b).
상기 단계 (b)가 (b-1) 상기 회귀 모델을 사용하여 최적의 훈련 데이터 선택 비율 후보를 도출하는 단계; (b-2) 최적의 훈련 데이터 선택 비율 후보를 사용하여 상기 회귀 모델의 성능을 검증하는 단계; 및 (b-3) 최적의 훈련 데이터 선택 비율 후보 중 상기 검증을 통과한 것을 최적의 훈련 데이터 선택 비율로 선택하는 단계;를 포함할 수 있다.
상기 단계 (b-1)이 (b-1-1) 상기 회귀 모델에 제약 조건 및 예측 성능 지표의 목적 함수(objective function)를 설정하고, 상기 회귀 모델이 상기 제약 조건을 만족하는 사례를 선택하는 단계; (b-1-2) 상기 제약 조건을 만족하는 선택된 사례 중에서 상기 목적 함수의 값이 가장 높은 사례부터 차례로 n개(n은 2 이상의 자연수 중 어느 하나)의 사례를 선택하는 단계; 및 (b-1-3) n개 선택된 상기 사례의 훈련 데이터 선택 비율의 평균값을 최적의 훈련 데이터 선택 비율 후보로 도출하는 단계;를 포함할 수 있다.
상기 단계 (b-1-1)에서 상기 회귀 모델이 제2 훈련 데이터 선택 비율(data selection ratio)을 상기 군집에 적용한 사례 중에서 상기 제약 조건을 만족하는 사례를 선택하고, 상기 제2 훈련 데이터 선택 비율의 최대값은 상기 단계 (a)의 제1 훈련 데이터 선택 비율의 최대값 이하이고, 상기 제2 훈련 데이터 선택 비율의 최소값은 상기 단계 (a)의 제1 훈련 데이터 선택 비율의 최소값 이하인 것일 수 있다.
상기 제약 조건이 아래 식 4로 표시되는 조건, 식 5로 표시되는 조건 및 식 6으로 표시되는 조건을 포함할 수 있다.
[식 4]
Figure 112021110867202-pat00035
[식 5]
Figure 112021110867202-pat00036
[식 6]
Figure 112021110867202-pat00037
상기 식 4 내지 식 6에서,
Figure 112021110867202-pat00038
는 군집별 훈련 데이터를 선택한 경우, 회귀 모델을 사용한 경우의 예측 정확도이고,
Figure 112021110867202-pat00039
은 군집화를 적용하지 않고 모든 훈련 데이터를 사용한 경우의 예측 정확도이고,
Figure 112021110867202-pat00040
는 군집별 훈련 데이터를 선택한 경우, 회귀 모델을 사용한 경우의 예측 정밀도이고,
Figure 112021110867202-pat00041
은 군집화를 적용하지 않고 모든 훈련 데이터를 사용한 경우의 예측 정밀도이고,
ri는 각 군집별 데이터 선택 비율이고,
k는 군집의 갯수이다.
상기 목적 함수가 아래 식 7로 표시되고, 상기 식 7은 식 8 및 식 9의 합일 수 있다.
[식 7]
Figure 112023001617622-pat00042
[식 8]
Figure 112021110867202-pat00045
[식 9]
Figure 112021110867202-pat00046
상기 식 7 내지 식 9에서,
Figure 112021110867202-pat00047
는 군집별 훈련 데이터를 선택한 경우, 회귀 모델을 사용한 경우의 예측 정확도이고,
Figure 112021110867202-pat00048
은 군집별 훈련 데이터를 선택한 경우 회귀 모델을 사용한 경우(
Figure 112021110867202-pat00049
)에서, 제약 조건을 만족하는 경우에서의 가장 낮은 예측 정확도이고,
Figure 112021110867202-pat00050
는 군집별 훈련 데이터를 선택한 경우 회귀 모델을 사용한 경우(
Figure 112021110867202-pat00051
)에서, 제약 조건을 만족하는 경우에서의 가장 높은 예측 정확도이고,
Figure 112021110867202-pat00052
은 군집별 훈련 데이터를 선택한 경우, 회귀 모델을 사용한 경우의 예측 정밀도이고,
Figure 112021110867202-pat00053
군집별 훈련 데이터를 선택한 경우 회귀 모델을 사용한 경우(
Figure 112021110867202-pat00054
)에서, 제약 조건을 만족하는 경우에서의 가장 낮은 예측 정밀도이고,
Figure 112021110867202-pat00055
은 군집별 훈련 데이터를 선택한 경우 회귀 모델을 사용한 경우(
Figure 112021110867202-pat00056
)에서, 제약 조건을 만족하는 경우에서의 가장 높은 예측 정밀도이고,
argmax는 수학에서의 최대 값의 인자(Arguments of the maxima)를 의미하며, 주어진 경우에서의 최대값을 가지는 값을 도출하는 함수이고,
n은 2 이상의 자연수 중 어느 하나이다.
상기 단계 (b-2)가 (b-2-1) 최적의 훈련 데이터 선택 비율 후보를 사용하여 제2 사례별 공정 예측 모델을 개발하는 단계; (b-2-2) 상기 회귀 모델에 테스트 데이터를 적용하여 회귀 모델의 예측 성능 지표를 구하고, 상기 제2 사례별 공정 예측 모델에 상기 테스트 데이터를 적용하여 제2 사례별 공정 예측 모델의 성능지표를 구하는 단계; 및 (b-2-3) 상기 회귀 모델의 예측 성능 지표와 상기 제2 사례별 공정 예측 모델의 예측 성능 지표의 예측 성능 지표 차이를 기준치와 비교하여 검증하는 단계;를 포함할 수 있다.
상기 훈련 데이터 도출 방법이, 단계 (b-2-3)의 상기 예측 성능 지표 차이가 기준치(C) 미만인 경우, 단계 (a) 및 (b)를 다시 수행할 수 있다.
상기 기준치(C)가 -10%≤C≤+10% (±10% 이하)일 수 있다.
상기 훈련 데이터가 원료조성, 원료의 유량속도, 원료 중 조성성분의 함량, 제품순도, 공정수율, 스팀의 유량속도, 리플럭스(reflux) 유량속도, 냉각수 유량속도, 증류탑의 각 m번째 단의 온도(m은 1 내지 500 중에서 선택된 어느 하나의 정수), 증류탑의 하부(bottom) 압력, 증류탑의 상부(overhead) 압력, 증류탑 상부(overhead)에서 나가는 제품의 유량속도, 증류탑 하부(bottom)에서 나가는 제품의 유량속도 및 증류탑 측면(side)에서 나가는 제품의 유량속도로 이루어진 군으로부터 선택된 1종 이상을 포함할 수 있다.
또한 본 발명은 훈련 데이터 도출하기 위한 컴퓨터가 (a) 훈련 데이터를 군집화한 군집에 제1 훈련 데이터의 선택 비율을 적용한 제1 사례별 공정 예측 모델을 사용하여 예측 성능 지표의 회귀 모델을 개발하는 단계; 및 (b) 상기 회귀 모델을 사용하여 최적의 훈련 데이터를 선택하는 단계;를 수행하도록 하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체를 제공한다.
또한 본 발명은 훈련 데이터를 포함하는 변수를 수신하는 통신부; 공정 예측 모델 및 회귀 모델을 학습시키고 검증하여 최적의 훈련 데이터를 도출하는 프로세서; 상기 프로세서가 목표로 하는 상기 최적의 훈련 데이터를 도출함에 필요한 저장 공간을 제공하는 저장부;를 포함하는 훈련 데이터 도출 시스템을 제공한다.
상기 프로세서가 (a) 훈련 데이터를 군집화한 군집에 제1 훈련 데이터의 선택 비율을 적용한 제1 사례별 공정 예측 모델을 사용하여 예측 성능 지표의 회귀 모델을 개발하는 단계; 및 (b) 상기 회귀 모델을 사용하여 최적의 훈련 데이터를 선택하는 단계;를 수행할 수 있다.
[실시예]
실시예 1: 2,3-BDO 증류 공정 적용
도 3은 실시예 1에 사용된 증류 공정의 도식도와 계기의 부착 위치를 보여준다. 도 3을 참조하면, 증류 공정에 사용되는 증류 장치의 주요 부위에 센서를 설치하여 실시간으로 훈련 데이터를 수집하였다.
구체적으로, 단계 (a)의 회귀 모델 개발 단계는 하기 표 1의 알고리즘과 같다.
Input: Clusters for train data , C=C1,C2,C3,C4,…,Ck, k∈N
Selection ratio, r∈0.25, 0.5, 0.75, 1.00
Number of cases (permutation with repetition), N=n(r)k
Predictive model, PM
Test data, Dtest
Output: Predictive model evaluation and RMSE
Regression model
1: // Make clustered train dataset applying selection ratio
2: Train ratio case, Rj={r1,r2,r3,r4,…,rk}
3: Total train ratio case, R={R1,R2,R3,R4,…,RN}, Rj≠Rk (j,k∈N)
4: Train dataset
Figure 112021110867202-pat00057
5: for i=1:N do
6: predictive model(PMi) development with train dataset (Dtrain,i)
7: Predict for test data, PMi(Dtest) = (Ri 2, RMSEi)
8: Gather the predict result,
G= {G1,G2,G3,…,GN,Gi}= PMi(Dtest)= (Ri 2, RMSEi)
9: end
10: // Establish the regression model using G
11: RM= (Rreg 2, RMSEreg)
본 발명에서는 K-평균 군집화 방법을 사용하였으나, 다른 군집화 방법을 사용하여도 무방하다. 먼저 K-평균 군집화를 이용하여 주어진 훈련 데이터를 k개로 군집화한다 (단계 a-1). 이때, 실시예 1에서는 7개의 군집으로 군집화하였고, 도 4a 및 4b를 참조하면, 훈련 데이터를 7개의 군집(C1 내지 C7)으로 군집화한 결과를 확인할 수 있다.
그 후 각 군집의 데이터 중에서 훈련 데이터로 선택하는 비율을 0.25, 0.5, 0.75, 1.00으로 설정하여 사례 연구를 수행한다. 예를 들어 각 군집의 선택 비율을 0.25라 하면 해당 군집의 데이터 중에서 25%의 데이터만을 훈련 데이터로 사용한다는 의미이다. 이 때 각 군집에서 데이터를 선택할 수 있는 비율은 각각 네 가지이므로, k 개의 군집에서 선택할 수 있는 사례는 총 4k 개로, 실시예 1에서 선택할 수 있는 사례는 총 47 개이다.
이어서 데이터 선택 비율에 따른 예측 모델의 성능을 비교하기 위해 동일한 조건에서의 예측 모델을 이용하였다. 본 발명에서 설명하는 예측 모델은 시계열 데이터를 예측하는데 사용하는 알고리즘 중 하나인 장단기기억(LSTM) 알고리즘을 사용하였으며, LSTM의 기본 구조는 도 2와 같다. 예측 모델의 성능은 모델을 구성하는 알고리즘뿐만 아니라 사용자가 직접 정의해줘야 하는 매개변수인 초매개 변수들에 따라 달라지기 때문에 데이터 선택 비율에 따른 예측 성능을 비교하기 위해 본 발명에서는 모두 동일한 값을 사용하였으며 사용된 초매개 변수는 하기 표 2에 나타내었다. 본 발명에서 제시하는 알고리즘과 초매개 변수는 다른 실시예에서 변경될 수 있지만, 본 발명에서 제시하는 방법을 적용할 때에는 처음부터 끝까지 같은 조건을 사용하여야 한다 (단계 a-2).
항목 설정값
Optimizer Adam
Activation function Elu (Exponential Linear Unit)
Learning rate 0.01
Batch size 128
Epoch 30
또한 개발된 예측 모델의 성능 지표로 다양한 지표들을 사용할 수 있으나 본 발명에서 R2과 RMSE를 사용하였다. R2은 예측 모델이 얼마나 설명력이 높은지 판단하는 지표로써 0과 1사이의 값을 가지며 1에 가까울수록 높은 설명력을 갖는다. RMSE는 평균제곱근편차 (Root mean square error)로써 예측값과 실제값의 차이인 잔차의 제곱합을 산술평균한 값의 제곱근으로써 예측값이 얼마나 실제값과 다른지를 나타낸다. R2과 반대로 RMSE는 예측값과 실제값의 잔차를 나타내기 때문에 0에 가까울수록 예측 모델의 성능이 높다.
이와 같이 군집별 데이터 선택 비율에 따른 사례에 대해 각각 예측 모델을 개발하고, 각 모델에 대해 동일한 테스트 데이터를 적용하여 데이터 선택 비율에 따른 예측 성능(R2 및 RMSE)을 비교하였다.
도 5a 및 5b는 군집별 훈련 데이터 선택 비율에 따른 예측 성능(R2 및 RMSE)민감도 분석이고, 도 6은 훈련 데이터 개수에 따른 예측 성능(R2 및 RMSE)분포 결과이다.
도 5a 및 5b를 참조하면, 군집별 훈련 데이터 선택 비율에 따른 예측 성능 변화량을 확인할 수 있다. 5a 및 도 5b에서의 각 군집별 (C1 내지 C7) 막대 그래프는 해당 군집별 훈련 데이터를 0.25, 0.5, 0.75, 1.00으로 선택했을 때의 예측 성능을 평균낸 것이다. 예를 들어 C1의 경우 파란 막대그래프는 C1의 훈련 데이터를 0.25로 동일하며, 다른 군집별 데이터 (C2 내지 C7)의 훈련 데이터를 0.25, 0.5, 0.75, 1.00으로 선택 하는 경우 4k-1 = 46 = 4,096 가지의 평균을 나타낸 것이다. 따라서 군집별 데이터의 선택 비율에 따른 예측 성능 (R2 및 RMSE)의 변화를 확인하면 군집별 데이터 선택 비율에 따른 예측 성능 증감을 확인할 수 있다. 예를 들어 도 5a를 참조하면 C1 및 C3 경우 데이터의 선택 비율이 높아질수록 R2이 증가하기 때문에 훈련 데이터 선택시 모두 선택하는 것이 좋으며, 반대로 반대로 C2, C4 및 C6의 경우 선택 비율이 높아질수록 R2이 감소하기 때문에 훈련 데이터 선택시 적게 선택하는 것이 좋다. 도 5b를 참조하면, 5a와 반대로 군집별 데이터 선택 비율에 따라 RMSE의 성능이 낮아지는 것이 좋은 것이다.
또한 도 6을 참조하면, 군집별 데이터를 선택할 때 전체 데이터의 크기에 따른 예측 성능 변화를 확인할 수 있다. 도 6에서 군집별 데이터에서 선택할 수 있는 크기는 각 군집별 0.25 내지 1.0이기 때문에 모든 군집에서 선택된 데이터의 합은 1.75 내지 7.0의 값을 가진다. 도 6은 선택된 훈련 데이터의 크기에 따라 1.75 내지 3.50일 경우 Small, 3.50 내지 5.25 일 경우 Medium, 5.25 내지 7.0일 경우 Large의 집합으로 구분할 때 각 집합에 따른 예측 성능 분포를 나타낸 것이다. 도 6에서 결과 값은 우하향일수록 높은 성능을 의미하기 때문에, 각 집합의 예측 분포를 확인할 때 훈련 데이터의 크기가 작을수록 예측 성능 분포가 더 조밀하며 높은 성능을 보임을 알 수 있다. 이는 훈련 데이터의 크기에 따라 예측 성능이 달라질 수 있음을 의미하며, 본 실시예 에서는 군집별 군집에서 선택된 데이터의 크기의 합은 1.75 내지 3.50으로 적게 해야 예측 성능이 높으며 예측 성능이 좀더 정밀함을 알 수 있다.
상기 도 5a, 5b 및 6을 바탕으로 예측 성능에 대한 1차 회귀 모델을 개발하였다. 사례 연구를 통해 도출된 1차 회귀 모델은 이후 최적의 훈련 데이터 선택 비율을 도출하기 위해 사용된다(단계 a-3).
다음으로, 단계 (b)는 단계 (a)에서 개발된 회귀 모델에 상기 식 4 내지 6에 따른 제약 조건 및 상기 식 7에 따른 목적함수를 설정하여, 상기 회귀 모델이 상기 제약 조건을 만족하는 사례를 선택한다(단계 b-1-1).
이때, 단계 (a)에서 개발된 회귀 모델에 적용하는 각 군집별 데이터 선택 비율(ri)의 범위는 단계 (a)에서 회귀 모델을 개발할 때 적용했던 범위(0.25 ~1.0) 안에 들어오도록 0.3에서 1.0으로 설정하였으나, 이 범위는 회귀 모델을 개발할 때 사용한 범위의 최소-최대에 포함된다면 다르게 하여도 무방하다. 만약 회귀 모델을 개발할 때 사용한 범위(0.25 ~1.0)를 벗어난 사례를 이용하게 되면 회귀 모델의 결과를 신뢰할 수 없다(외삽의 위험). 또한 회귀 모델에서 각 군집별 훈련 데이터 선택 비율(ri)을 유한한 경우에 대해 사례연구를 수행하기 위해 설정한 범위(0.3≤ ri ≤1.0) 내에서 0.1 간격으로 일정한 비율을 갖는다고 설정하였다(ri = 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0). 따라서 회귀 모델을 이용하여 최적의 훈련 데이터 선택 비율을 도출할 때 고려한 사례의 개수는 8k개이다. 이때, 실시예 1에서는 7개의 군집으로 군집화하였으므로, 최적의 훈련 데이터 선택 비율을 도출할 때 고려한 사례의 개수는 87개이다.
이어서 모든 데이터 선택 사례를 회귀모델에 적용하여 예측 성능을 비교한 후, 상기 목적 함수의 값이 가장 높은 사례부터 차례로 n개(n은 2 이상의 자연수 중 어느 하나)의 사례를 선택하고(단계 b-1-2), n개 선택된 상기 사례의 훈련 데이터 선택 비율의 평균값을 최적의 훈련 데이터 선택 비율 후보로 도출한다(단계 b-1-2). 이때, 실시예 1은 사례 10개에 대한 훈련 데이터 선택 비율의 평균값을 최적의 훈련 데이터로 선택하였다. 이 때 10개의 사례에 대한 평균값을 최적의 훈련 데이터로 선택한 이유는 회귀 모델의 불확실성 때문에 회귀 모델에서 도출한 최적의 훈련 데이터 선택 비율이 실제 예측 모델에서 최적의 성능을 보장할 수 없기 때문에 오차를 줄이기 위함이다.
도 7은 최적의 훈련 데이터 선택 비율 및 크기를 나타낸 결과이다. 도 7을 참조하면, 선택된 훈련 데이터(Proposed case)의 크기가 3.45로 군집화를 적용하지 않은 경우(Base case)보다 약 50.71% 저감되었다.
이어서 도출된 최적의 데이터 선택 비율을 검증하기 위해, 최적의 선택 비율을 이용하여 예측 모델을 개발했을 때의 예측 성능과 회귀 모델에서의 예측값을 비교하였다. 하지만, 개발된 회귀모델의 예측 결과는 실제 예측 모델에서의 결과와 다를 수 있다. 따라서 회귀 모델에서 도출된 예측 성능을 실제 예측 모델의 예측 결과와 비교하여 회귀 모델의 성능을 검증하여야 한다. 검증 방법은 회귀모델에서 도출된 최적의 훈련 데이터 선택 비율을 이용하여 예측 모델을 개발하고(단계 b-2-1), 개발된 예측 모델에서 동일한 테스트 데이터를 예측할 때의 예측 결과를 회귀 모델에서 도출된 예측 결과의 차이를 비교하는 것이다. 만약 회귀 모델의 예측 결과와 예측 모델의 예측 결과가 큰 차이를 보일 경우 회귀 모델을 재개발하여야 한다(단계 b-2-2, b-2-3).
실시예 1에서 개발된 회귀 모델에서 도출된 예측 성능 및 예측 모델의 예측 성능을 비교한 결과를 하기 표 3에 기재하였다.
Case name Selection ratio for each cluster 회귀모델
(Regression model)
예측모델
(Predictive model)
Difference (%)
C1 C2 C3 C4 C5 C6 C7 Total R2 RMSE R2 RMSE R2 RMSE
Q1 0.25 for each cluster 1.75 0.93 7.11 0.93 7.11 0.00 0.01
Q2 0.50 for each cluster 1.75 0.93 7.28 0.93 7.74 0.00 -6.32
Q3 0.75 for each cluster 5.25 0.93 7.45 0.93 7.11 0.00 4.69
Base (i) 1.00 for each cluster 7.00 0.93 7.63 0.93 8.10 0.00 -6.16
Proposed training data
(ii)
1.00 0.30 0.39 0.31 0.84 0.30 0.31 3.45 0.94 6.66 0.93 6.96 1.06 -4.50
Difference (%) (i)-(ii) 0.00 70.0 61.0 69.0 16.0 70.0 69.0 50.71 - - 0.00 14.07 - -
또한 도 8은 본 발명에 따른 선택된 최적의 훈련 데이터로 학습한 결과(Proposed case, 실시예 1)를 모든 훈련 데이터를 사용하여 학습한 결과(Base case) 및 실제 데이터(Actual Data)와 비교한 것이다. 도 8을 참조하면, 본 발명에 따른 선택된 최적의 훈련 데이터로 학습한 경우(Proposed case, 실시예 1), 공정의 시작 부분인 C1, C2 군집에서 개선된 예측 성능을 보인다. 수치적으로 해석한 결과 훈련 데이터를 최적화하는 실시예 1의 경우, 군집화를 적용하지 않은 경우보다 훈련 데이터가 50.71% 정도 줄어들었음에도 불구하고, 훈련 데이터 내 군집별 데이터의 비율 및 개수가 최적화되었기 때문에 예측 성능 지표인 R2은 0.93으로 동일하게 나타났으며, RMSE는 6.96으로 14.07% 향상되었다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허 청구 범위에 의하여 나타내어지며, 특허 청구 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (20)

  1. 컴퓨터가 하기 단계를 수행하는 훈련 데이터 도출 방법에 있어서,
    (a-1) 훈련 데이터를 복수의 군집으로 군집화(clustering)하는 단계;
    (a-2) 복수의 상기 군집에 각각 제1 훈련 데이터 선택 비율(data selection ratio)을 적용하여 복수의 제1 사례별 공정 예측 모델을 개발하는 단계;
    (a-3) 복수의 상기 제1 사례별 공정 예측 모델에 테스트 데이터를 적용하여 상기 군집별 상기 제1 훈련 데이터 선택 비율에 따른 예측 성능 지표의 회귀 모델(regression model)을 개발하는 단계; 및
    (b) 상기 회귀 모델을 사용하여 최적의 훈련 데이터를 선택하는 단계;를 포함하고,
    상기 단계(a-3)의 상기 회귀 모델이 아래 식 3으로 표현되는 것인, 훈련 데이터 도출 방법.
    [식 3]
    Figure 112023500527525-pat00096

    식 3에서,
    ri는 각 군집별 훈련 데이터 선택 비율이고,
    A 및 B는 각각 회귀 모델에서 구해지는 계수이고,
    C는 상수값이고,
    k는 군집의 갯수이다.
  2. 삭제
  3. 제1항에 있어서,
    상기 단계 (a-3)이
    복수의 상기 제1 사례별 공정 예측 모델에 각각 동일한 테스트 데이터를 적용하여 상기 사례별 공정 예측 모델의 예측 성능 지표를 구하고, 상기 예측 성능 지표를 비교하여, 상기 군집별로 상기 제1 훈련 데이터 선택 비율에 따른 상기 예측 성능 지표의 회귀 모델(regression model)을 개발하는 단계인 것을 특징으로 하는 훈련 데이터 도출 방법.
  4. 제1항에 있어서,
    상기 단계 (a-1)의 상기 군집화가 K-평균 군집화(K-means Clustering), 디비스캔 군집화(DBSCAN Clustering), 유사도 전파 군집화(Affinity Propagation Clustering), 계층적 군집화(Hierarchical Clustering) 및 스펙트럴 군집화(Spectral Clustering)로 이루어진 군으로부터 선택된 어느 하나에 의해 수행된 것을 특징으로 하는 훈련 데이터 도출 방법.
  5. 제1항에 있어서,
    상기 단계 (a-2)의 상기 사례별 공정 예측 모델이 초매개 변수를 추가로 적용하여 개발된 것을 특징으로 하는 훈련 데이터 도출 방법.
  6. 제5항에 있어서,
    상기 초매개 변수가 최적화기(Optimizer), 활성화 함수(Activation function), 학습 속도(Learning rate), 배치 크기(Batch size), 및 에포크(Epoch)로 이루어진 군으로부터 선택된 1종 이상을 포함하는 것을 특징으로 하는 훈련 데이터 도출 방법.
  7. 제1항에 있어서,
    상기 단계 (a-3)의 상기 예측 성능 지표가 아래 식 1로 표시되는 정확도(R2) 및 아래 식(2)로 표시되는 정밀도(RMSE, root mean square error)로 이루어진 군으로부터 선택된 1종 이상을 포함하는 것을 특징으로 하는 훈련 데이터 도출 방법.
    [식 1]
    Figure 112023001617622-pat00058

    [식 2]
    Figure 112023001617622-pat00059

    상기 식 1 및 식 2에서
    N은 데이터 갯수이고,
    Figure 112023001617622-pat00060
    는 실제 데이터이고,
    Figure 112023001617622-pat00061
    는 실제 데이터의 평균값이고,
    Figure 112023001617622-pat00062
    는 사례별 공정 예측 모델을 이용하여 예측한 값이다.
  8. 삭제
  9. 제1항에 있어서,
    상기 단계 (b)가
    (b-1) 상기 회귀 모델을 사용하여 최적의 훈련 데이터 선택 비율 후보를 도출하는 단계;
    (b-2) 최적의 훈련 데이터 선택 비율 후보를 사용하여 상기 회귀 모델의 성능을 검증하는 단계; 및
    (b-3) 최적의 훈련 데이터 선택 비율 후보 중 상기 검증을 통과한 것을 최적의 훈련 데이터 선택 비율로 선택하는 단계;를
    포함하는 훈련 데이터 도출 방법.
  10. 제9항에 있어서,
    상기 단계 (b-1)이
    (b-1-1) 상기 회귀 모델에 제약 조건 및 예측 성능 지표의 목적 함수(objective function)를 설정하고, 상기 회귀 모델이 상기 제약 조건을 만족하는 사례를 선택하는 단계;
    (b-1-2) 상기 제약 조건을 만족하는 선택된 사례 중에서 상기 목적 함수의 값이 가장 높은 사례부터 차례로 n개(n은 2 이상의 자연수 중 어느 하나) 의 사례를 선택하는 단계; 및
    (b-1-3) n개 선택된 상기 사례의 훈련 데이터 선택 비율의 평균값을 최적의 훈련 데이터 선택 비율 후보로 도출하는 단계;를
    포함하는 것을 특징으로 하는 훈련 데이터 도출 방법.
  11. 제10항에 있어서,
    상기 단계 (b-1-1)에서 상기 회귀 모델이 제2 훈련 데이터 선택 비율(data selection ratio)을 상기 군집에 적용한 사례 중에서 상기 제약 조건을 만족하는 사례를 선택하고,
    상기 제2 훈련 데이터 선택 비율의 최대값은 상기 단계 (a)의 제1 훈련 데이터 선택 비율의 최대값 이하이고, 상기 제2 훈련 데이터 선택 비율의 최소값은 상기 단계 (a)의 제1 훈련 데이터 선택 비율의 최소값 이하인 것을 특징으로 하는 훈련 데이터 도출 방법.
  12. 제10항에 있어서,
    상기 제약 조건이 아래 식 4로 표시되는 조건, 식 5로 표시되는 조건 및 식 6으로 표시되는 조건을 포함하는 것을 특징으로 하는 훈련 데이터 도출 방법.
    [식 4]
    Figure 112021110867202-pat00064

    [식 5]
    Figure 112021110867202-pat00065

    [식 6]
    Figure 112021110867202-pat00066

    상기 식 4 내지 식 6에서,
    Figure 112021110867202-pat00067
    는 군집별 훈련 데이터를 선택한 경우, 회귀 모델을 사용한 경우의 예측 정확도이고,
    Figure 112021110867202-pat00068
    은 군집화를 적용하지 않고 모든 훈련 데이터를 사용한 경우의 예측 정확도이고,
    Figure 112021110867202-pat00069
    는 군집별 훈련 데이터를 선택한 경우, 회귀 모델을 사용한 경우의 예측 정밀도이고,
    Figure 112021110867202-pat00070
    은 군집화를 적용하지 않고 모든 훈련 데이터를 사용한 경우의 예측 정밀도이고,
    ri는 각 군집별 데이터 선택 비율이고,
    k는 군집의 갯수이다.
  13. 제10항에 있어서,
    상기 목적 함수가 아래 식 7로 표시되고, 상기 식 7은 식 8 및 식 9의 합인 것을 특징으로 하는 훈련 데이터 도출 방법.
    [식 7]
    Figure 112023001617622-pat00071

    [식 8]
    Figure 112023001617622-pat00074

    [식 9]
    Figure 112023001617622-pat00075

    상기 식 7 내지 식 9에서,
    Figure 112023001617622-pat00076
    는 군집별 훈련 데이터를 선택한 경우, 회귀 모델을 사용한 경우의 예측 정확도이고,
    Figure 112023001617622-pat00077
    은 군집별 훈련 데이터를 선택한 경우 회귀 모델을 사용한 경우(
    Figure 112023001617622-pat00078
    )에서, 제약조건을 만족하는 경우에서의 가장 낮은 예측 정확도이고,
    Figure 112023001617622-pat00079
    는 군집별 훈련 데이터를 선택한 경우 회귀 모델을 사용한 경우(
    Figure 112023001617622-pat00080
    )에서, 제약조건을 만족하는 경우에서의 가장 높은 예측 정확도이고,
    Figure 112023001617622-pat00081
    은 군집별 훈련 데이터를 선택한 경우, 회귀 모델을 사용한 경우의 예측 정밀도이고,
    Figure 112023001617622-pat00082
    군집별 훈련 데이터를 선택한 경우 회귀 모델을 사용한 경우(
    Figure 112023001617622-pat00083
    )에서, 제약조건을 만족하는 경우에서의 가장 낮은 예측 정밀도이고,
    Figure 112023001617622-pat00084
    은 군집별 훈련 데이터를 선택한 경우 회귀 모델을 사용한 경우(
    Figure 112023001617622-pat00085
    )에서, 제약조건을 만족하는 경우에서의 가장 높은 예측 정밀도이고,
    argmax는 수학에서의 최대 값의 인자(Arguments of the maxima)를 의미하며, 주어진 경우에서의 최대값을 가지는 값을 도출하는 함수이고,
    n은 2 이상의 자연수 중 어느 하나이다.
  14. 제9항에 있어서,
    상기 단계 (b-2)가
    (b-2-1) 최적의 훈련 데이터 선택 비율 후보를 사용하여 제2 사례별 공정 예측 모델을 개발하는 단계;
    (b-2-2) 상기 회귀 모델에 테스트 데이터를 적용하여 회귀 모델의 예측 성능 지표를 구하고, 상기 제2 사례별 공정 예측 모델에 상기 테스트 데이터를 적용하여 제2 사례별 공정 예측 모델의 성능지표를 구하는 단계; 및
    (b-2-3) 상기 회귀 모델의 예측 성능 지표와 상기 제2 사례별 공정 예측 모델의 예측 성능 지표의 예측 성능 지표 차이를 기준치와 비교하여 검증하는 단계;를 포함하는 것을 특징으로 하는 훈련 데이터 도출 방법.
  15. 제14항에 있어서, 상기 훈련 데이터 도출 방법이
    단계 (b-2-3)의 상기 예측 성능 지표 차이가 기준치 미만인 경우,
    단계 (a) 및 (b)를 다시 수행하는 것을 특징으로 하는 훈련 데이터 도출 방법.
  16. 제1항에 있어서,
    상기 훈련 데이터가 원료조성, 원료의 유량속도, 원료 중 조성성분의 함량, 제품순도, 공정수율, 스팀의 유량속도, 리플럭스(reflux) 유량속도, 냉각수 유량속도, 증류탑의 각 m번째 단의 온도(m은 1 내지 500 중에서 선택된 어느 하나의 정수), 증류탑의 하부(bottom) 압력, 증류탑의 상부(overhead) 압력, 증류탑 상부(overhead)에서 나가는 제품의 유량속도, 증류탑 하부(bottom)에서 나가는 제품의 유량속도 및 증류탑 측면(side)에서 나가는 제품의 유량속도로 이루어진 군으로부터 선택된 1종 이상을 포함하는 것을 특징으로 하는 훈련 데이터 도출 방법.
  17. 제1항에 있어서,
    상기 사례별 공정 예측 모델 또는 상기 회귀 모델이 지도학습, 비지도 학습 및 강화학습으로 이루어진 군으로부터 선택된 어느 하나에 의해 개발된 것을 특징으로 하는 훈련 데이터 도출 방법.
  18. 훈련 데이터 도출하기 위한 컴퓨터가
    (a-1) 훈련 데이터를 복수의 군집으로 군집화(clustering)하는 단계;
    (a-2) 복수의 상기 군집에 각각 제1 훈련 데이터 선택 비율(data selection ratio)을 적용하여 복수의 제1 사례별 공정 예측 모델을 개발하는 단계;
    (a-3) 복수의 상기 제1 사례별 공정 예측 모델에 테스트 데이터를 적용하여 상기 군집별 상기 제1 훈련 데이터 선택 비율에 따른 예측 성능 지표의 회귀 모델(regression model)을 개발하는 단계; 및
    (b) 상기 회귀 모델을 사용하여 최적의 훈련 데이터를 선택하는 단계;를 수행하도록 하기 위한 것이고,
    상기 단계(a-3)의 상기 회귀 모델이 아래 식 3으로 표현되는 것인, 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.
    [식 3]
    Figure 112023500527525-pat00097

    식 3에서,
    ri는 각 군집별 훈련 데이터 선택 비율이고,
    A 및 B는 각각 회귀 모델에서 구해지는 계수이고,
    C는 상수값이고,
    k는 군집의 갯수이다.
  19. 훈련 데이터를 포함하는 변수를 수신하는 통신부;
    공정 예측 모델 및 회귀 모델을 학습시키고 검증하여 최적의 훈련 데이터를 도출하는 프로세서;
    상기 프로세서가 목표로 하는 상기 최적의 훈련 데이터를 도출함에 필요한 저장 공간을 제공하는 저장부를 포함하고,
    상기 프로세서가
    (a-1) 훈련 데이터를 복수의 군집으로 군집화(clustering)하는 단계;
    (a-2) 복수의 상기 군집에 각각 제1 훈련 데이터 선택 비율(data selection ratio)을 적용하여 복수의 제1 사례별 공정 예측 모델을 개발하는 단계;
    (a-3) 복수의 상기 제1 사례별 공정 예측 모델에 테스트 데이터를 적용하여 상기 군집별 상기 제1 훈련 데이터 선택 비율에 따른 예측 성능 지표의 회귀 모델(regression model)을 개발하는 단계; 및
    (b) 상기 회귀 모델을 사용하여 최적의 훈련 데이터를 선택하는 단계;를 수행하도록 하기 위한 것이고,
    상기 단계(a-3)의 상기 회귀 모델이 아래 식 3으로 표현되는 것인, 훈련 데이터 도출 시스템.
    [식 3]
    Figure 112023500527525-pat00098

    식 3에서,
    ri는 각 군집별 훈련 데이터 선택 비율이고,
    A 및 B는 각각 회귀 모델에서 구해지는 계수이고,
    C는 상수값이고,
    k는 군집의 갯수이다.
  20. 삭제
KR1020210127510A 2021-09-27 2021-09-27 데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법 KR102510647B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210127510A KR102510647B1 (ko) 2021-09-27 2021-09-27 데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210127510A KR102510647B1 (ko) 2021-09-27 2021-09-27 데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법

Publications (1)

Publication Number Publication Date
KR102510647B1 true KR102510647B1 (ko) 2023-03-16

Family

ID=85985627

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210127510A KR102510647B1 (ko) 2021-09-27 2021-09-27 데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법

Country Status (1)

Country Link
KR (1) KR102510647B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100987168B1 (ko) * 2008-10-31 2010-10-11 한국전력공사 원격계측 전력 부하패턴의 분류 및 예측 방법
KR102139358B1 (ko) * 2020-04-22 2020-07-29 한국생산기술연구원 머신러닝 기반 플랫폼을 이용한 공정제어방법, 그를 수행하기 위한 컴퓨터 프로그램 매체 및 공정제어장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100987168B1 (ko) * 2008-10-31 2010-10-11 한국전력공사 원격계측 전력 부하패턴의 분류 및 예측 방법
KR102139358B1 (ko) * 2020-04-22 2020-07-29 한국생산기술연구원 머신러닝 기반 플랫폼을 이용한 공정제어방법, 그를 수행하기 위한 컴퓨터 프로그램 매체 및 공정제어장치

Similar Documents

Publication Publication Date Title
US10649794B2 (en) Aggregate features for machine learning
KR101899101B1 (ko) 인공 신경망 기반 예측 모델 생성 장치 및 방법
US20200063665A1 (en) Aero-engine full flight envelope model adaptive modification method based on deep learning algorithm
CN109117353B (zh) 故障诊断结果的融合方法及装置
KR101675198B1 (ko) 다중 의사 결정 문제 해결을 위한 계층적 분석 기법, 회색수 및 엔트로피 기반의 해법 연산 방법
JP2022520247A (ja) センサ計測データ統合
US11593618B2 (en) Data processing apparatus, data processing method, and storage medium
CN110571792A (zh) 一种电网调控系统运行状态的分析评估方法及系统
JP2021099791A (ja) 直接型ニューラルネットワーク構造を用いてアイテムを推奨するシステム、方法、及びコンピュータプログラム
US20190235987A1 (en) Duplicate bug report detection using machine learning algorithms and automated feedback incorporation
CN112100940A (zh) 光纤预制棒一次拉伸工艺参数预测方法及装置
JP2024509741A (ja) パーツ、センサ、および計測データ統合
CN113822499A (zh) 一种基于模型融合的列车备件损耗预测方法
JPH0765168A (ja) 関数近似装置及び方法
KR102510647B1 (ko) 데이터 군집화 기반 공정 예측 모델 개발을 위한 훈련 데이터 선택 방법
CN109829115B (zh) 搜索引擎关键词优化方法
KR102499412B1 (ko) 데이터 특성 기반 산업 공정 예측모델 개발 및 그를 사용한 산업 공정 데이터의 예측 방법
Wang et al. Bayesian sequential data collection for stochastic simulation calibration
CN114692507A (zh) 基于堆叠泊松自编码器网络的计数数据软测量建模方法
US11481267B2 (en) Reinforcement learning approach to root cause analysis
CN111026661B (zh) 一种软件易用性全面测试方法及系统
Perekrest et al. PREDICTION MODEL OF PUBLIC HOUSES’HEATING SYSTEMS: A COMPARISON OF SUPPORT VECTOR MACHINE METHOD AND RANDOM FOREST METHOD
CN114330090A (zh) 一种缺陷检测方法、装置、计算机设备和存储介质
CN108363728A (zh) 一种挖掘特高压变电设备状态数据关联规则的方法及系统
CN114417736B (zh) 色彩配方的评估方法、系统、设备及介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant