KR20240052357A - 인공지능 기술 기반 온라인 디지털 데이터 정제 장치 및 방법 - Google Patents
인공지능 기술 기반 온라인 디지털 데이터 정제 장치 및 방법 Download PDFInfo
- Publication number
- KR20240052357A KR20240052357A KR1020220132301A KR20220132301A KR20240052357A KR 20240052357 A KR20240052357 A KR 20240052357A KR 1020220132301 A KR1020220132301 A KR 1020220132301A KR 20220132301 A KR20220132301 A KR 20220132301A KR 20240052357 A KR20240052357 A KR 20240052357A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- purification
- artificial intelligence
- missing
- quality
- Prior art date
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 81
- 238000005516 engineering process Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims description 88
- 238000004140 cleaning Methods 0.000 title claims description 3
- 238000000746 purification Methods 0.000 claims abstract description 196
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000010801 machine learning Methods 0.000 claims description 61
- 230000002159 abnormal effect Effects 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 43
- 238000013441 quality evaluation Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 24
- 238000007670 refining Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 27
- 238000009434 installation Methods 0.000 description 16
- 239000010410 layer Substances 0.000 description 14
- 238000007726 management method Methods 0.000 description 12
- 230000004913 activation Effects 0.000 description 9
- 238000000513 principal component analysis Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 239000004703 cross-linked polyethylene Substances 0.000 description 6
- 229920003020 cross-linked polyethylene Polymers 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000001303 quality assessment method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000004868 gas analysis Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000011109 contamination Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 238000012502 risk assessment Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000004138 cluster model Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000001931 thermography Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 206010033799 Paralysis Diseases 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
Abstract
본 발명은 인공지능 기술 기반 온라인 디지털 데이터 정제 장치에 관한 것으로, 정제할 원시데이터가 저장되어 있는 데이터베이스에 온라인으로 연계하여 원시데이터를 취득하는 원시데이터 연계모듈; 상기 원시데이터 연계모듈을 통해 연계된 원시데이터를 인공지능 기반 정제 프로세스를 이용하여 정제하는 프로세싱 모듈; 및 상기 프로세싱 모듈에서 처리된 데이터 정제 리포팅 결과를 출력하는 정제 리포팅 출력모듈;을 포함한다.
Description
본 발명은 인공지능 기술 기반 온라인 디지털 데이터 정제 장치 및 방법에 관한 것으로, 보다 상세하게는 기존에 반자동 방식의 정제 기술로 정제한 데이터를, 인공지능 학습을 통해 완전 자동방식으로 데이터의 정제 시스템을 구현할 수 있도록 하는, 인공지능 기술 기반 온라인 디지털 데이터 정제 장치 및 방법에 관한 것이다.
일반적으로 해외의 선진 전력사(즉, 전력회사)는 디지털 데이터 축적에 따라 객관적인 설비 투자기법에 대한 요구가 증가하고, 규제기관에서 송배전 전력사의 투자 적정성 여부를 요구하여 전력설비 자산관리 기술을 도입하여 운영 중이다.
전력설비 자산관리는 데이터를 통해 고장확률을 산출하고, 고장파급의 경제성 평가를 복합적으로 고려한 리스크 기반의 RBM(Risk Based Management) 방식을 따르고 있어, 기존 설비 성능유지 위주의 운영이 아닌 Risk, 비용, 및 성능을 종합평가하는 패러다임으로 전환 중이다.
이러한 자산관리 기술은 ISO55000을 근간으로 하고 있으며, 여기서 자산관리를 위한 프로세스에서 세계적인 전력회사별 자산관리시스템의 기술격차는 자산데이터 품질과 RISK 평가 알고리즘의 정확성에 달려있다고 볼 수 있다.
이에 따라 자산관리시스템(Asset Management System)은 전력설비의 잔여수명 및 비용을 종합평가하여, 리스크 기반 최적 유지보수 및 투자계획을 수립하는 시스템으로서, 해외 전력사들은 투자 적정성 판단을 위해 도입하고 있다.
상기 자산관리시스템은 설비의 데이터 취득으로부터 자산의 성능을 평가하고 최적의 투자계획을 수립함으로써, 투자비용을 절감할 수 있을 뿐 아니라, 계통신뢰도 향상 및 업무효율 개선 측면에서도 다양한 이점이 있다.
참고로 세계적인 전력회사별 자산관리시스템의 기술격차는 연계되는 레거시(Legacy) 데이터와 리스크 평가 알고리즘의 정확성에 달려있다고 볼 수 있다.
그 이유는 자산의 고장확률과 고장영향 기반의 리스크 평가를 통해 설비교체가 이루어지는데, 만약 연계된 Legacy 데이터(예 : 자산정보, 진단정보, 부하정보 등)의 오류나 알고리즘의 정확도 부족으로 인해 잘못된 결과가 도출되면, 교체시기가 달라져 교체비용의 손실로 이어질 수 있기 때문이다.
상기 Legacy 데이터의 정확도를 확보하기 위해 자산별 정제 지침서를 토대로 데이터의 품질평가를 통하여, 정상데이터와 오염데이터를 분류하고 상기 오염데이터를 정제하여 품질을 향상시킬 수 있다. 여기서 상기 오염데이터는 결측데이터와 이상데이터를 통합한 데이터를 의미한다.
이에 따라 전력설비 Legacy 데이터의 품질평가와 정제 시스템은, 한전 전력연구원에서 독립형(Stand-alone) PC 기반 ALICE(Automatic Legacy data Integration and Cleaning Expertise) 프로그램으로 개발된 바 있다.
상기 한전 전력연구원에서 개발된 바 있는 전력설비 Legacy 데이터의 품질평가와 정제 시스템(즉, ALICE)의 특징은, 정제 알고리즘, 품질평가, 통합 알고리즘이 탑재된 시스템이라고 볼 수 있으며, 주된 기능은 Legacy 시스템의 데이터의 정제 기술이라고 할 수 있고, 정제 알고리즘은 설비제원, 점검/진단데이터 및 부하데이터의 규칙, 및 전문가 의견 기반으로 개발되었다.
상기 전력설비 Legacy 데이터의 품질평가와 정제 시스템(즉, ALICE)에서 사용하는 정제 알고리즘은, 6가지 알고리즘(예 : Transform, Criteria, Scanning, Pattern, Historical, Calculation Function)으로 구성되며, 사용자가 데이터 속성에 맞게 함수를 설정하여 사용할 수 있는 특징이 있다.
상기 6가지 정제 알고리즘에서 대표적인 정제함수는 Transform과 Criteria 함수가 있으며, 상기 Transform 함수는 데이터 분포를 확인하여 원하는 데이터로 변환하는 함수이며, 상기 Criteria 함수는 산점도를 확인하여 이상치 상/하한값 기준을 적용하여 처리하는 함수이다.
또한, 상기 전력설비 Legacy 데이터의 품질평가와 정제 시스템(즉, ALICE)은 정제 알고리즘을 통해 정상, 결측, 이상데이터를 분류하는 기능이 구현되어, 본부별, 시트별, 및 칼럼별 데이터에 대한 품질평가 기능을 제공한다. 이후, 결측 및 이상데이터를 현장에서 정제하고 재품질평가 프로세스를 진행하면 정제전후 품질평가 결과를 비교할 수 있다.
이와 같이 상기 전력설비 Legacy 데이터의 품질평가와 정제 시스템(즉, ALICE)의 장점은 기존 수기 정제 방식 대비 정제 프로그램 방식을 추구하기 때문에 소요시간이 6개월에서 7일 이내로 대폭 단축할 수 있고, 데이터 품질을 기존 60~70%에서 95% 이상으로 향상할 수 있다.
다만, 현장사업소에서 상기 전력설비 Legacy 데이터의 품질평가와 정제 시스템(즉, ALICE)을 통해 결측 및 이상데이터를 추출하여 확인하고 수정해야 하는 반자동 방식(Half Automation Processing)이기 때문에 정기적으로 오염데이터를 추출하여 확인하고 수정해야 하는 번거로움이 있을 수 있다.
또한, 기존의 상기 전력설비 Legacy 데이터의 품질평가와 정제 시스템(즉, ALICE)은 오염데이터만을 추출하지만 그 데이터양이 수십만부터 수천만 건의 데이터가 될 수 있어 현장에서 일일이 확인하고 정제하기에 부담이 많이 되고 정제시간이 길어 업무에 지장을 줄 수 있는 단점이 존재한다. 또한 정제 주기는 최소 1년에 1번 주기로 데이터 정제를 수행하여 품질관리가 필요한데, 정제 시점에는 데이터 정확도를 약 95% 이상으로 유지할 수 있으나, 정제 이후 신규 데이터가 축적되면 상기 신규 데이터는 정제가 되지 않았기 때문에 다음 정제 시기까지 데이터의 품질은 감소하게 되어 95% 이상을 유지할 수 없을 수 있다.
따라서 이러한 정제과정을 인공지능 기술로 학습하고 정제를 자동으로 수행할 수 있도록 하는 완전 자동방식(Full Automation Processing) 데이터 정제 시스템의 구현이 필요한 상황이다.
본 발명의 배경기술은 대한민국 공개특허 10-2017-0118811호(2017.10.25. 공개, 발전된 데이터 정화 시스템 및 방법)에 개시되어 있다.
본 발명의 일 측면에 따르면, 본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 기존에 반자동 방식의 정제 기술로 정제한 데이터를, 인공지능 학습을 통해 완전 자동방식으로 데이터의 정제 시스템을 구현할 수 있도록 하는, 인공지능 기술 기반 온라인 디지털 데이터 정제 장치 및 방법을 제공하는 데 그 목적이 있다.
본 발명의 일 측면에 따른 인공지능 기술 기반 온라인 디지털 데이터 정제 장치는, 정제할 원시데이터가 저장되어 있는 데이터베이스에 온라인으로 연계하여 원시데이터를 취득하는 원시데이터 연계모듈; 상기 원시데이터 연계모듈을 통해 연계된 원시데이터를 인공지능 기반 정제 프로세스를 이용하여 정제하는 프로세싱 모듈; 및 상기 프로세싱 모듈에서 처리된 데이터 정제 리포팅 결과를 출력하는 정제 리포팅 출력모듈;을 포함하는 것을 특징으로 한다.
본 발명에 있어서, 상기 프로세싱 모듈은, 원시데이터가 온라인으로 연계되면, 최초로 정제함수 설정을 통해 규칙 및 전문가 의견 기반 정제 프로세스를 수행하여 결측 및 이상데이터를 추출하고, 상기 결측 및 이상데이터에 대한 품질평가를 수행하는 것을 특징으로 한다.
본 발명에 있어서, 상기 프로세싱 모듈은, 상기 규칙 및 전문가 의견 기반 정제 프로세스를 통해 결측 및 이상데이터를 추출하면, 현장에 데이터 수정을 요청하여 결측 및 이상데이터를 직접 정제하고, 상기 결측 및 이상데이터의 정제전후 데이터의 내역을 바탕으로 품질평가를 수행하여 정제전후 품질 변경내용을 비교함으로써 기준 대비 품질 만족도 체크를 추가로 수행하는 것을 특징으로 한다.
본 발명에 있어서, 상기 프로세싱 모듈은, 원시데이터 셋과 현장 데이터를 수정한 수정데이터 셋을 머신러닝 지도 학습 및 비지도 학습을 통해 인공지능 기반 정제 프로세스를 추가로 수행하고, 상기 품질 만족도를 체크한 결과, 상기 인공지능 기반 정제 프로세스를 통해 머신러닝 분류 및 군집화 모델의 정확도가 지정된 기준 미만으로 불만족하다고 판단되면, 다른 머신러닝 재학습 설정을 통해, 상기 머신러닝 분류 및 군집화 모델의 정확도를 향상시키거나, 상기 정제전후 데이터 내역을 추가적으로 확보하여, 머신러닝 지도 학습 및 비지도 학습을 통해, 인공지능 기반 정제 프로세스를 고도화하여 업데이트 하는 것을 특징으로 한다.
본 발명에 있어서, 상기 프로세싱 모듈은, 전체 데이터에 대하여 정제 프로세스 안에서 품질 만족도를 체크한 결과가 기준 이상으로 우수한 품질을 만족하면, 데이터를 실제로 정제하고, 해당 정제내역의 리포팅을 추가로 수행하는 것을 특징으로 한다.
본 발명에 있어서, 상기 리포팅은, 결측 및 이상데이터 내역을 확인할 수 있고, 정제 전후 데이터 품질이 어떻게 변했는지 확인할 수 있는 내용이 포함되는 것을 특징으로 한다.
본 발명의 다른 측면에 따른 인공지능 기술 기반 온라인 디지털 데이터 정제 방법은, 프로세싱 모듈이 원시데이터 연계모듈을 통해 정제할 원시데이터가 저장되어 있는 데이터베이스에 온라인으로 연계하여 원시데이터를 취득하는 단계; 상기 프로세싱 모듈이 상기 원시데이터 연계모듈을 통해 연계된 원시데이터를 인공지능 기반 정제 프로세스를 이용하여 정제하는 단계; 및 상기 프로세싱 모듈에서 처리된 데이터 정제 리포팅 결과를 정제 리포팅 출력모듈을 통해 출력하는 단계;를 포함하는 것을 특징으로 한다.
본 발명에 있어서, 상기 원시데이터를 정제하는 단계에서, 상기 프로세싱 모듈은, 원시데이터가 온라인으로 연계되면, 최초로 정제함수 설정을 통해 규칙 및 전문가 의견 기반 정제 프로세스를 수행하여 결측 및 이상데이터를 추출하고, 상기 결측 및 이상데이터에 대한 품질평가를 수행하는 것을 특징으로 한다.
본 발명에 있어서, 상기 원시데이터를 정제하는 단계에서, 상기 프로세싱 모듈은, 상기 규칙 및 전문가 의견 기반 정제 프로세스를 통해 결측 및 이상데이터를 추출하면, 현장에 데이터 수정을 요청하여 결측 및 이상데이터를 직접 정제하고, 상기 결측 및 이상데이터의 정제전후 데이터의 내역을 바탕으로 품질평가를 수행하여 정제전후 품질 변경내용을 비교함으로써 기준 대비 품질 만족도 체크를 추가로 수행하는 것을 특징으로 한다.
본 발명에 있어서, 상기 원시데이터를 정제하는 단계에서, 상기 프로세싱 모듈은, 원시데이터 셋과 현장 데이터를 수정한 수정데이터 셋을 머신러닝 지도 학습 및 비지도 학습을 통해 인공지능 기반 정제 프로세스를 추가로 수행하고, 상기 품질 만족도를 체크한 결과, 상기 인공지능 기반 정제 프로세스를 통해 머신러닝 분류 및 군집화 모델의 정확도가 지정된 기준 미만으로 불만족하다고 판단되면, 다른 머신러닝 재학습 설정을 통해, 상기 머신러닝 분류 및 군집화 모델의 정확도를 향상시키거나, 상기 정제전후 데이터 내역을 추가적으로 확보하여, 머신러닝 지도 학습 및 비지도 학습을 통해, 인공지능 기반 정제 프로세스를 고도화하여 업데이트 하는 것을 특징으로 한다.
본 발명에 있어서, 상기 원시데이터를 정제하는 단계에서, 상기 프로세싱 모듈은, 전체 데이터에 대하여 정제 프로세스 안에서 품질 만족도를 체크한 결과가 기준 이상으로 우수한 품질을 만족하면, 데이터를 실제로 정제하고, 해당 정제내역의 리포팅을 추가로 수행하는 것을 특징으로 한다.
본 발명에 있어서, 상기 리포팅은, 결측 및 이상데이터 내역을 확인할 수 있고, 정제 전후 데이터 품질이 어떻게 변했는지 확인할 수 있는 내용이 포함되는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 본 발명은 기존에 반자동 방식의 정제 기술로 정제한 데이터를, 인공지능 학습을 통해 완전 자동방식으로 데이터의 정제 시스템을 구현할 수 있도록 한다.
또한 본 발명의 다른 측면에 따르면, 본 발명은 결측 데이터 처리, 이상데이터 처리, 및 품질평가 등을 통해 정확한 데이터를 제공함으로써, 리스크 평가의 정확성을 향상시킬 수 있도록 한다.
도 1은 본 발명의 일 실시 예에 따른 인공지능 기술 기반 온라인 디지털 데이터 정제 장치의 개략적인 구성을 보인 예시도.
도 2는 본 발명의 일 실시 예에 따른 인공지능 기술 기반 온라인 디지털 데이터 정제 방법을 설명하기 위한 흐름도.
도 3은 본 발명의 일 실시 예에 따른 인공지능의 단일 퍼셉트론의 구조를 개략적으로 보인 예시도.
도 4는 본 발명의 일 실시 예에 따른 인공지능의 머신러닝에 사용되는 활성화함수의 종류를 보인 예시도.
도 5는 본 발명의 일 실시 예에 따른 인공지능의 단일 퍼셉트론과 다층 퍼셉트론의 차이를 설명하기 위하여 보인 예시도.
도 6은 본 발명의 일 실시 예에 따른 인공지능의 다층 퍼셉트론의 신경망 모델을 설명하기 위하여 보인 예시도.
도 7은 본 발명의 일 실시 예에 따른 인공지능의 지도학습 기반 머신러닝 분류 모델을 설명하기 위하여 보인 예시도.
도 8은 본 발명의 일 실시 예에 따른 인공지능의 PCA를 이용한 고차원 데이터의 저차원 데이터로의 변환 동작을 설명하기 위하여 보인 예시도.
도 9는 상기 도 8에 있어서, 고유값이 높은 주성분을 찾는 방법을 설명하기 위하여 보인 예시도.
도 10은 상기 도 8에 있어서, PCA를 이용한 머신러닝 군집화 모델 생성 프로세스를 설명하기 위하여 보인 예시도.
도 11은 상기 도 8에 있어서, k-means와 DBSCAN의 군집화 모델의 차이를 설명하기 위하여 보인 예시도.
도 12는 본 발명의 일 실시 예에 따른 케이블 선종 데이터의 결측데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 13은 본 발명의 일 실시 예에 따른 케이블 상 정보 데이터의 결측데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 14는 본 발명의 일 실시 예에 따른 케이블 제작사 데이터의 결측데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 15는 본 발명의 일 실시 예에 따른 케이블 설치년월 데이터의 결측데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 16은 본 발명의 일 실시 예에 따른 케이블 상 정보 데이터의 이상데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 17은 본 발명의 일 실시 예에 따른 케이블 제작사 데이터의 이상데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 18은 본 발명의 일 실시 예에 따른 케이블 설치년월 데이터의 이상데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 19는 본 발명의 일 실시 예에 따른 케이블 상별온도 데이터의 이상데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 20은 본 발명의 일 실시 예에 따른 케이블 종단접속함 절연유 유중가스분석 데이터의 PCA 변환 방법을 설명하기 위하여 보인 예시도.
도 21은 본 발명의 일 실시 예에 따른 케이블 종단접속함 절연유 유중가스분석 데이터의 이상데이터 추출 방법을 설명하기 위하여 보인 예시도.
도 22는 본 발명의 일 실시 예에 따른 Legacy 데이터의 정량적 품질평가 방법을 설명하기 위하여 보인 예시도.
도 23은 본 발명의 일 실시 예에 따른 Legacy 데이터의 본부별 품질평가 결과표를 보인 예시도.
도 24는 본 발명의 일 실시 예에 따른 Legacy 데이터의 컬럼별 품질평가 시각화 결과를 보인 예시도.
도 25는 본 발명의 일 실시 예에 따른 Legacy 데이터의 자동 정제 전후 품질평가 결과를 보인 예시도.
도 26은 본 발명의 일 실시 예에 따른 Legacy 데이터의 자동 정제 전후 품질평가 시각화 결과를 보인 예시도.
도 27은 본 발명의 일 실시 예에 따른 온라인 디지털 데이터 정제 플랫폼 및 자산관리시스템 연계 개념을 설명하기 위하여 보인 예시도.
도 2는 본 발명의 일 실시 예에 따른 인공지능 기술 기반 온라인 디지털 데이터 정제 방법을 설명하기 위한 흐름도.
도 3은 본 발명의 일 실시 예에 따른 인공지능의 단일 퍼셉트론의 구조를 개략적으로 보인 예시도.
도 4는 본 발명의 일 실시 예에 따른 인공지능의 머신러닝에 사용되는 활성화함수의 종류를 보인 예시도.
도 5는 본 발명의 일 실시 예에 따른 인공지능의 단일 퍼셉트론과 다층 퍼셉트론의 차이를 설명하기 위하여 보인 예시도.
도 6은 본 발명의 일 실시 예에 따른 인공지능의 다층 퍼셉트론의 신경망 모델을 설명하기 위하여 보인 예시도.
도 7은 본 발명의 일 실시 예에 따른 인공지능의 지도학습 기반 머신러닝 분류 모델을 설명하기 위하여 보인 예시도.
도 8은 본 발명의 일 실시 예에 따른 인공지능의 PCA를 이용한 고차원 데이터의 저차원 데이터로의 변환 동작을 설명하기 위하여 보인 예시도.
도 9는 상기 도 8에 있어서, 고유값이 높은 주성분을 찾는 방법을 설명하기 위하여 보인 예시도.
도 10은 상기 도 8에 있어서, PCA를 이용한 머신러닝 군집화 모델 생성 프로세스를 설명하기 위하여 보인 예시도.
도 11은 상기 도 8에 있어서, k-means와 DBSCAN의 군집화 모델의 차이를 설명하기 위하여 보인 예시도.
도 12는 본 발명의 일 실시 예에 따른 케이블 선종 데이터의 결측데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 13은 본 발명의 일 실시 예에 따른 케이블 상 정보 데이터의 결측데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 14는 본 발명의 일 실시 예에 따른 케이블 제작사 데이터의 결측데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 15는 본 발명의 일 실시 예에 따른 케이블 설치년월 데이터의 결측데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 16은 본 발명의 일 실시 예에 따른 케이블 상 정보 데이터의 이상데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 17은 본 발명의 일 실시 예에 따른 케이블 제작사 데이터의 이상데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 18은 본 발명의 일 실시 예에 따른 케이블 설치년월 데이터의 이상데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 19는 본 발명의 일 실시 예에 따른 케이블 상별온도 데이터의 이상데이터 자동정제 방법을 설명하기 위하여 보인 예시도.
도 20은 본 발명의 일 실시 예에 따른 케이블 종단접속함 절연유 유중가스분석 데이터의 PCA 변환 방법을 설명하기 위하여 보인 예시도.
도 21은 본 발명의 일 실시 예에 따른 케이블 종단접속함 절연유 유중가스분석 데이터의 이상데이터 추출 방법을 설명하기 위하여 보인 예시도.
도 22는 본 발명의 일 실시 예에 따른 Legacy 데이터의 정량적 품질평가 방법을 설명하기 위하여 보인 예시도.
도 23은 본 발명의 일 실시 예에 따른 Legacy 데이터의 본부별 품질평가 결과표를 보인 예시도.
도 24는 본 발명의 일 실시 예에 따른 Legacy 데이터의 컬럼별 품질평가 시각화 결과를 보인 예시도.
도 25는 본 발명의 일 실시 예에 따른 Legacy 데이터의 자동 정제 전후 품질평가 결과를 보인 예시도.
도 26은 본 발명의 일 실시 예에 따른 Legacy 데이터의 자동 정제 전후 품질평가 시각화 결과를 보인 예시도.
도 27은 본 발명의 일 실시 예에 따른 온라인 디지털 데이터 정제 플랫폼 및 자산관리시스템 연계 개념을 설명하기 위하여 보인 예시도.
이하, 첨부된 도면을 참조하여 본 발명에 따른 인공지능 기술 기반 온라인 디지털 데이터 정제 장치 및 방법의 일 실시 예를 설명한다.
이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시 예에 따른 인공지능 기술 기반 온라인 디지털 데이터 정제 장치의 개략적인 구성을 보인 예시도로서, 이에 도시된 바와 같이, 정제할 원시데이터가 저장되어 있는 데이터베이스(미도시)에 온라인으로 연계하여 원시데이터를 취득하는 원시데이터 연계모듈(110), 상기 원시데이터 연계모듈(110)을 통해 연계된 원시데이터를 정제하는 프로세싱 모듈(120), 및 상기 프로세싱 모듈(120)에서 처리된 데이터 정제 리포팅 결과를 출력하는 정제 리포팅 출력모듈(130)을 포함한다. 이때 상기 프로세싱 모듈(120)은 서버 형태로 구현될 수 있다.
이하 상기 프로세싱 모듈(120)의 데이터 정제 방법을 도 2의 흐름도를 참조하여 설명한다.
도 2는 본 발명의 일 실시 예에 따른 인공지능 기술 기반 온라인 디지털 데이터 정제 방법을 설명하기 위한 흐름도이다.
상기 프로세싱 모듈(120)은 원시데이터가 온라인으로 연계되면(S101), 최초로 정제함수 설정을 통해(S102), 규칙 및 전문가 의견 기반 정제 프로세스를 수행하여(S103), 결측 및 이상데이터를 추출하고(S104) 상기 결측 및 이상데이터에 대한 품질평가를 수행한다(S105).
또한 상기 규칙 및 전문가 의견 기반 정제 프로세스를 통해(S103) 오염데이터(즉, 결측 및 이상데이터)를 추출하면(S104), 상기 프로세싱 모듈(120)은 현장에 데이터 수정을 요청하여 오염데이터를 직접 정제할 수 있으며(S106), 상기 오염데이터의 정제전후 데이터의 내역을 바탕으로(S107) 품질평가를 수행하여(S105) 정제 전후 품질 변경내용을 비교하여(S110), 기준 대비 품질 만족도를 체크한다(S111).
또한 원시데이터 셋과 현장 데이터를 수정한 수정데이터 셋은 머신러닝 지도 학습 및 비지도 학습을 통해(S108) 인공지능 기반 정제 프로세스(즉, 머신러닝 분류 및 군집화 모델을 생성)를 수행한다(S109).
상기 인공지능 기반 정제 프로세스를 통해 머신러닝 분류 및 군집화 모델이 생성되면, 기존 원시데이터에 적용함으로써 모델의 정확도도 확인할 수 있고, 상기 모델의 정확도가 기준을 만족하면 이를 지속적으로 활용할 수 있게 된다.
이때 상기 데이터 품질평가 방법으로서, 규칙 및 전문가 의견 기반 정제 프로세스 또는 인공지능 모델을 선택적으로 사용할 수 있다.
만약 상기 품질 만족도를 체크(S111)한 결과, 상기 인공지능 기반 정제 프로세스를 통해 머신러닝 분류 및 군집화 모델의 정확도가 지정된 기준(예 : 95%) 미만으로 불만족하다고 판단되면(S111의 아니오), 다른 머신러닝 재학습 설정을 통해(S112), 상기 머신러닝 분류 및 군집화 모델의 정확도를 향상시키거나, 상기 정제전후 데이터 내역을 추가적으로 확보하여(S107), 머신러닝 지도 학습 및 비지도 학습을 통해(S108), 인공지능 기반 정제 프로세스를 고도화하여 업데이트 할 수 있다(S109).
상기와 같이 인공지능 모델(즉, 머신러닝 분류 및 군집화 모델)을 활용하게 되면 완전 자동 방식의 인공지능 기반 정제 프로세스를 수행할 수 있다는 것을 의미하기 때문에 정형화된 데이터 셋에서는 규칙 및 전문가 의견 기반 정제 프로세스를 활용하지 않고, 인공지능 모델만 활용하여 현장 업무를 경감할 수 있다.
또한 전체 데이터에 대하여 정제 프로세스 안에서 품질 만족도를 체크한 결과가 기준(예 : 95%) 이상으로 우수한 품질을 만족하면(S111의 예), 데이터를 실제로 정제하고(S113), 해당 정제내역을 리포팅 할 수 있다(S114).
이때 상기 리포팅 내용에는 결측 및 이상데이터 내역을 확인할 수 있고, 정제 전후 데이터 품질이 어떻게 변했는지 확인할 수 있다.
또한 관리자는 데이터 정제 시행 후(S113), 추가적인 데이터 정비 여부를 판단하여(S115), 추가적인 데이터 정비를 원할 경우(S115의 예), 원시데이터를 추가 연계하여 상기 데이터 정제 과정을 수행할 수 있다.
본 실시 예에 따른 장치는 정제 내역이 지속적으로 쌓일 때 마다 학습량이 많아지기 때문에 인공지능 기반 정제 프로세스의 정확도가 향상되는 장점이 있으며, 또한 초기 몇 번의 정제전후 내역을 통해 머신러닝 학습 과정만 거친다면 이후에는 현장사업소 데이터의 확인이 필요 없이 독립적으로 정제 프로세스를 수행할 수 있다.
이하 상기 인공지능 기반 정제 프로세스(즉, 머신러닝 분류 및 군집화 모델을 생성)(S109)에 대해서 보다 구체적으로 설명한다.
① 정제데이터 학습 기반 머신러닝 분류 및 군집화 기법
본 실시 예에 있어서, 머신러닝(인공지능 학습) 모델은, 크게 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 및 강화 학습(Reinforcement Learning)으로 분류할 수 있으며, 상기 지도 학습과 비지도 학습의 차이는, 데이터의 분류 정답에 해당하는 클래스(Class) 또는 라벨(Label)의 유무로써 클래스가 존재하는 지도 학습은 다시 분류(Classification)와 회귀(Regression)로 구분할 수 있다.
여기서, 지도학습 기반 머신러닝 분류는 범주형 출력을 추정하는 문제로써, 주어진 데이터를 클래스 별로 구별해 내는 과정으로 다양한 알고리즘을 통해 데이터 속성과 클래스 값을 학습시키고 모델을 생성한다. 이러한 지도학습은 정답이 정해진 정제 데이터에 활용할 수 있다.
상기 지도학습 기반 머신러닝 분류 기법은, 로지스틱 회귀, 나이브 베이즈(Naive Bayes), 결정 트리(Decision Tree), 및 서포트 벡터 머신(Support Vector Machine) 등 다양한 알고리즘이 존재한다.
반면에 상기 비지도 학습 기반 머신러닝 군집화는 다양한 군집화 알고리즘을 통해 수치형 그룹을 추정하는 문제에 사용하여 이상데이터나 노이즈를 탐색함으로써 정답이 없는 숫자형 진단데이터에 활용할 수 있다. 참고로 상기 비지도 학습 기반 머신러닝 군집화 기법은, k-means, k-medoids, DBSCAN(Density Based Spatial Clustering of Application with Noise) 등 다양한 알고리즘이 존재한다.
일반적으로 머신러닝에서는, 전체 데이터의 70%를 학습데이터로 사용하고, 나머지 30%를 시험데이터로 사용한다.
또한 상기 머신러닝은 다양한 분류 알고리즘을 통해 주어진 데이터의 속성과 클래스를 학습과정에서 패턴을 분석하고, 이를 통해 인공지능 모델을 정의한 후, 신규 시험데이터를 통해 정확도를 측정한다. 또한 시험데이터 셋을 통해 머신러닝 모델의 성능을 관찰하며, 정확도가 부정확하면 머신러닝 모델을 재설계를 통해 정확도를 향상시킨다.
한편 인공지능 기술 기반 정제 알고리즘을 수행하기 위해서는, 선행적으로 규칙 및 전문가 의견 기반으로 정제한 데이터가 필요하다. 그 이유는 머신러닝을 통해 데이터의 정제 전후 패턴을 학습 후, 학습내용을 토대로 자동정제 모델을 개발하여 플랫폼(즉, 인공지능 기술 기반 온라인 디지털 데이터 정제 장치)에 탑재할 수 있기 때문이다.
즉, 전사 Legacy 데이터를 규칙 및 전문가 의견 기반으로 반자동으로 정제가 선행으로 가능하다면, 그 정제 내역을 머신러닝을 통해 학습하여 개발된 모델로 완전자동 정제 알고리즘을 통해 정제가 가능하며, 이후 정제 전후 데이터를 지속 학습하여 업데이트하면 완성도가 점차적으로 향상된 모델로써 사람의 수동정제 개입이 없어도 품질관리가 가능하다.
한편 본 실시 예에서 지도학습 기반 정제데이터 분류모델은, 이진 분류와 다중 분류가 모두 가능한 소프트맥스(Softmax) 함수가 가장 유리하다.
예로써 로지스틱 회귀는 이진 분류이므로 0과 1을 통해 2개의 클래스를 구분하지만, 소프트맥스 함수는 0에서 K-1까지의 정수를 통해 K개의 클래스를 구분할 수 있다. 이때 계산된 K개의 가중합은 동시에 소프트맥스 함수로 입력되어 각 클래스에 속할 확률로 변환되며, 출력은 확률에 해당하므로 0에서 1사이의 값을 가져야 하며, 전체 클래스에 속할 확률을 모두 합하면 1이 된다. 예컨대 상기 조건을 모두 만족시키는 소프트맥스 함수는 아래의 수학식 1과 같다.
상기 소프트맥스 함수는 지수 함수들을 활용하므로 출력은 반드시 양수로 나타나며, 단조 증가 함수라는 특징으로 인해 입력 가중치가 증가할수록 더 큰 출력을 나타내며, 소프트맥스 함수의 입출력 예시는 아래의 수학식 2와 같다.
이때 상기 소프트맥스 함수의 출력은 총 클래스 개수만큼 나타나므로 벡터의 형태라고 할 수 있다.
따라서 출력과 비교하기 위한 라벨 역시 벡터의 형태로 구성되기 때문에 라벨 벡터에서 하나의 원소만 1의 값을 가지고 나머지 모든 원소는 0의 값을 가지도록 설계하며, 1이 있는 자리가 해당 데이터의 실제 클래스를 아래의 수학식 3과 같이 나타낼 수 있다.
상기와 같이 하나의 원소만 1의 값을 가지고 나머지 모든 원소는 0의 값을 가지는 라벨을 원-핫 인코딩 라벨이라 하며, 상기 수학식 3과 같이, 소프트맥스 함수 출력인 각 클래스에 속할 확률 값은 원-핫 인코딩 라벨로 나타낸다.
이하 신경망(Neural Network) 모델에 대해서 설명한다.
퍼셉트론은 인간의 뉴런으로부터 착안된 신경망을 이루는 가장 작은 기본 단위로 입력 값을 받은 후 가중합이 일정 기준으로 넘으면 1, 그렇지 않으면 0을 전달한다. 하나의 퍼셉트론은, 도 3에 도시된 바와 같이, 가중합을 계산하는 단계와 활성화 함수로 이루어지며, 입력 값은 각 엣지(Edge)가 가진 가중치(W1, W2)와 곱해지고 편향(Bias)과 더해져 가중합을 형성하여 활성화 함수를 통과한 후 퍼셉트론으로부터 출력된다. 이때 입력으로부터 출력이 계산되는 연산 과정을 순전파 단계라고하며, 이는 가중치를 갱신하는 훈련 과정의 역전파의 반대 방향으로 이루어진다. 따라서 단일 퍼셉트론을 통한 분류 과정은 선형 분류에 해당하며, 직선으로 클래스를 구분하는 형태라고 할 수 있다.
상기 활성화 함수는 가중합으로부터 출력을 생성하는 함수를 의미하며, 도 4에 도시된 바와 같이, 시그모이드(Sigmoid)를 비롯하여 다양한 함수가 있으며, 모델에 따라 적합한 활성화 함수를 선택하여야만 한다.
예컨대 신경망의 층이 얇을 경우 관습적으로 시그모이드 함수를 사용하며, 층이 깊어지는 딥러닝 기법일 경우 ReLu(Rectified Linear Unit) 함수를 사용한다.
상기 활성화 함수를 선택하는 과정에서 정답은 존재하지 않으며, 테스트 세트의 성능을 관찰하며 최적의 함수를 선택하여야만 한다.
여기서 단일 퍼셉트론은 직선을 통해 클래스를 분류하는 기술이므로, 도 5에 도시된 바와 같이, 비선형 문제를 해결하지 못하는 한계를 극복하기 위하여, 인공지능 학자들은 다양한 해결 방안을 제시하였으며, 이는 다층 퍼셉트론 방법이라 할 수 있다. 상기 다층 퍼셉트론에서 입력층과 출력층을 제외한 나머지 모든 계층은 은닉층에 해당하며, 도 6에 도시된 바와 같이, 은닉층을 구성하는 퍼셉트론 역시 가중합을 계산하는 노드와 활성화 함수로 구성되어 있다.
이와 같은 다층 퍼셉트론은 완전 연결 계층(Fully Connected Layer)이라 하며, 다층 퍼셉트론이 단층 퍼셉트론과 연산에서 차이를 보이기 위해서는 반드시 활성화 함수가 포함되어야만 한다. 상기 활성화 함수는 전체 연산에 비선형성을 증가시켜 기존 직선 분류에 해당하였던 단층 퍼셉트론에서 곡선을 통한 분류를 가능하게 만들어주는 주요 요인이다.
이하 도 7을 참조하여 지도학습 기반 머신러닝 분류 기법에 대해서 설명한다.
상기 지도학습 기반 머신러닝 분류는 정제데이터의 정답이 정해져 있는 경우에 활용할 수 있는 기법이다. 즉, 케이블의 선종, 제작사와 같은 설비제원 데이터는 정제했을 때 정답이 정해진 범주형 데이터이기 때문에 지도학습 기반 머신러닝 모델을 통해 자동 정제할 수 있다. 예컨대 입력데이터가 들어갔을 때 정제하고자 하는 데이터에 맞춰 사전 설정한 데이터 속성만 추출하여 은닉층(Hidden Layer)으로 연결하여 출력이 도출되는 신경망을 구현할 수 있으며, 이를 소프트맥스 함수(Softmax Function)에 연결하면 분류가 된다.
이하 도 8을 참조하여 비지도학습 기반 머신러닝 군집화 기법에 대해서 설명한다.
상기 비지도학습 기반 머신러닝 분류는, 정제데이터의 정답이 정해져 있지 않은 숫자형 데이터에 활용할 수 있는 기법이다. 즉, 케이블의 진단 결과와 같은 수치형 데이터는 비지도학습 기반 머신러닝 모델을 통해 정상데이터 그룹과 이상데이터 그룹으로 정제하여 분류할 수 있다.
이때 데이터의 군집화를 위해서는 PCA(Principal Component Analysis, 주성분 분석) 기법으로 고차원의 데이터를 시각화하는데 주로 사용한다. 즉, 비지도학습의 변수 추출방법(Unsupervised Feature Extraction)의 하나로서, 원시데이터의 분산을 최대한 보존하면서 고차원의 데이터를 저차원의 데이터로 변환하는 방법이라고 할 수 있다.
도 9를 참조하면, 데이터의 변수 축소 시 좌측과 우측 두 개의 축에 사영할 때 손실되는 정보의 양이 적은 축을 선택하는데, 이는 분산이 최대가 되는 것을 의미하며, 분산의 크기는 고유값(Eigenvalue)으로 알 수 있다. 이와 같은 방식으로 분산이 최대가 되는 축을 찾아 그 축을 주성분(Principal Component)으로 선택하며, 다음으로 큰 고유값을 갖는 축과 함께 2차원으로 표현할 수 있으며, 생성된 다른 축들 중 원 데이터의 정보를 잘 나타내지 못하는 축은 제거한다.
여기서 새로운 주성분 축은 고유값의 높은 순서에 따라, 1차원, 2차원, 3차원까지 나타낼 수 있으며 이는 사용자의 설정에 의해 결정된다.
참고로 진단데이터의 경우, 고차원으로 구성되기 때문에 시각화하여 군집화를 구성하기 위해서는 반드시 저차원으로 변환시켜야 하므로, 상기와 같은 PCA 기법을 이용할 수 있으며, 도 10에 도시된 바와 같은 과정을 통해, 이상데이터를 탐지할 수 있다.
즉, 도 10을 참조하면, 모든 입력데이터의 평균을 0으로 크기 조정을 진행하여 정규화 데이터로 만들고 이후 공분산 행렬을 계산하고, 상기 계산된 공분산 행렬을 이용하여 데이터의 고유값과 고유벡터(Eigenvector)를 계산하여 고유값을 크기순으로 정렬한 후, 고유벡터와 정규화된 데이터를 선형 결합해 새로운 변수 Z를 생성한다. 이때 고유값은 생성된 각 변수들의 분산을 나타내기에 전체 분산 중 각 주성분들이 차지하는 비율을 나타낼 수 있으며, 각 고유값의 구성 비율을 나타내는 고유값이 유의미하게 낮아지는 해당 변수까지 선택한다. 보통 2차원으로 시각화하기 때문에 가장 큰 고유값을 갖는 Z1을 주성분으로 선택하고, 다음으로 큰 고유값의 Z2를 두 번째 주성분으로 선택한다. 만약 사용자가 2차원으로 선택하면 앞선 과정에서 선택된 변수들이 새로운 축이 되어, 기존 고차원 데이터의 차원을 2차원으로 축소한다. 그리고 PCA 기법을 사용해 생성된 Z1과 Z2 축을 이용하여 고차원의 데이터를 2차원으로 시각화할 수 있으며, 새로운 Z 데이터를 통해 비지도학습을 사용하여 머신러닝 모델을 생성하여 데이터 군집화를 할 수 있다.
여기서 가장 대표적인 군집화 모델은, 도 11에 도시된 바와 같이, k-means 모델로써 라벨이 없는 데이터들을 군집화 하는 가장 간단한 비지도학습 중 하나이다. 상기 k-means에서 라벨이 없는 데이터에서는 몇 개의 군집이 존재하는지 몰라 분류할 군집 수를 미리 정하기 때문에 클러스터의 개수(k)를 사용자가 정의한다. 또한 상기 k-means 모델은 데이터 좌표값의 평균을 구해 중심부터 거리를 기반으로 군집화하기 때문에 구형으로 뭉쳐져 있는 데이터에는 잘 적용되나, 동떨어져 있는 데이터나 노이즈에 매우 민감하게 반응하며, 사전에 군집화 개수를 정하는 것이 대표적인 단점이다. 반면에 DBSCAN은 일정한 밀도를 가지는 데이터 무리는 동일한 군집이라고 판단하므로, 거리 개념의 군집화 모델인 k-means와 다르기 때문에 이상데이터와 노이즈 데이터 식별에 강한 군집화 모델이다.
② 규칙, 전문가 의견 및 인공지능 기반 정제 알고리즘 - 결측데이터 처리
이하 도 12를 참조하여, 케이블 선종 결측데이터 정제에 대해서 설명한다.
머신러닝 기반 정제 알고리즘이 없을 때 결측데이터는 규칙 및 전문가 의견 기반 정제 알고리즘에 의해 결측데이터로 분류되고 반드시 사람의 수기 정제를 통해 해결될 수 있었다. 따라서 이러한 방식은 현장에서 사람이 확인하여 수정하기 때문에 보다 정확하다고 볼 수 있지만, 결측데이터가 대량으로 존재하거나 물량변동이 심한 경우, 정제작업 요청은 현장의 업무를 마비시킬 수 있고 불만을 초래할 수 있는 리스크가 존재하는 단점이 있다.
따라서 데이터 정제를 완전히 자동화할 수 있는 수단이 필요하며, 향후 디지털 플랫폼 사업이 지금보다 활성화될 때 반드시 요구되는 기술로 대두될 수 있다.
만약 오염데이터를 현장에서 수정하면 정제 후 데이터 내역을 가지고 이전 원시데이터와 비교를 통해 머신러닝으로 학습을 시킬 수 있으며, 인공지능 기술로 전술한 업무 마비나 불만의 리스크를 감소할 수 있다.
예컨대 만약 A-B T/L 회선의 선종이 "OF", "결측"으로 구성되었는데, 일부 구간의 결측데이터를 현장에서 "XLPE"로 수정했다면, 전문가는 기존 OF 케이블 선종이 설치되어 있다가 변전소로 인입되거나 인출되는 구간의 고장시 화재 방지를 위해 XLPE 선종으로 변경한 사례임을 알 수 있다.
이를 정제 전후 데이터로 머신러닝으로 선종, 설치일자, 제작사 등의 데이터 속성을 학습시킨다면 설치일자와 제작사가 다른 점을 통해 XLPE 라고 분류할 수 있으며, A-B T/L 회선 말고도 B-C T/L과 같은 다른 회선의 특징을 참조하여 학습하기 때문에 정확도가 향상될 수 있다.
송전케이블에서 선종은 "OF", "XLPE", "기타", 및"결측"으로 분류할 수 있으며, 머신러닝으로 학습하기 위해서는 문자형 데이터를 숫자형 데이터로 변환할 필요가 있다. 따라서 "OF", "XLPE", "기타", 및"결측"은 "1", "2", "3", "4"와 같이 사전 정의된 숫자형 데이터로 변환하여 학습한다.
이에 새로운 데이터가 들어왔을 때 숫자형으로 변형시켜 놓고, 앞서 학습시켜놓은 모델로 정제를 수행하여 숫자형 데이터로 출력한 후, 마지막에 정해진 내용대로 문자형 데이터로 변형시키면 정제가 완료된다.
만약 입출력 데이터가 서로 다르면 정제가 수행된 것이며, 서로 같다면 정상데이터이므로 정제할 필요가 없는 데이터라고 볼 수 있다. 즉, 입출력 데이터가 서로 다른 데이터만 추출하면 정제내역이라 할 수 있다.
이와 같이 정제 전후 데이터를 학습해놓으면 자동정제가 가능하며, 정제된 내역을 지속적으로 관리하여 계속 학습하면 정확도가 향상된 정제 모델을 확보하게 되며, 별도의 관리 없이 데이터를 자동정제할 수 있다.
이하 도 13을 참조하여, 케이블 상 정보 결측데이터 정제에 대해서 설명한다.
전력설비는 3상 시스템으로 A상, B상, C상으로 구성되어 항상 A상, B상, C상의 개수는 서로 일치해야 하는데 Legacy System에 수기로 입력하게 되면 일부 상 개수가 많거나 적은 오류가 발생할 수 있다. 상기 A, B, C상 순서로 입력되는 것이 정상인데, 데이터 누락으로 인해 "A상, B상, 결측"인 것을 추출하여 결측데이터 유무를 알 수 있고, "A상, B상, C상"으로 입력하는 규칙이 존재하기 때문에 이를 인공지능에 "1, 2, 3"과 같이 학습하여 "A상, B상, C상"으로 정제한다.
또한, 싱글인지 더블 회선이 알 수 있는 S/D 컬럼을 복합적으로 고려하여 학습한다면 자동정제 알고리즘의 정확도는 향상시킬 수 있다.
이하 도 14를 참조하여, 케이블 제작사 결측데이터 정제에 대해서 설명한다.
케이블 제작사명은 수기 입력되는 경우가 많고, 그 결과, 결측데이터가 다수 존재할 수 있다. 대표적으로 도 14에 도시된 바와 같이, LS전선으로 입력되어야 할 제작사명이 결측데이터가 될 수 있다.
이와 같은 결측된 제작사명은 설치일자, 회선코드, 구간코드 등의 숫자형 데이터와 함께 학습시켜 자동정제 하게 되면 LS전선으로 정제된다.
이하 도 15를 참조하여, 설치일자 결측데이터 정제에 대해서 설명한다.
케이블 설치일자는 케이블의 운영년수를 알 수 있는 매우 중요한 데이터임에도 불구하고 수기입력에 따라 설치일자를 결측될 수 있다.
케이블 회선은 일반적으로 장거리 선로이고 설치일자 데이터가 구간별로 존재하기 때문에 회선코드 및 구간코드와 같은 다른 데이터 속성을 함께 머신러닝 모델에 학습시킴으로써 결측된 설치일자 데이터를 인공지능을 통해 자동으로 정확한 설치일자로 정제하게 된다.
③ 규칙, 전문가 의견 및 인공지능 기반 정제 알고리즘 - 이상데이터 처리
이하 도 16을 참조하여, 케이블 상 정보 이상데이터 정제에 대해서 설명한다.
케이블 상 정보는 결측데이터와 마찬가지로 3상 시스템이므로 A상, B상, C상으로 구성되어 항상 A상, B상, C상의 개수는 서로 일치해야 하는데 일부 상 개수가 많거나 적은 오류가 발생할 수 있다.
케이블의 상 정보가 일치하지 않는 것을 확인하면 다양한 예시가 있지만, 일례로써 "A상, B상, B상"으로도 잘못 입력하면, 이는 "A상, B상, C상"으로 규칙적으로 입력되어야 하기 때문에 이를 인공지능에 학습시키게 되면, 기존 "A상, B상, B상"이 "A상, B상, C상"으로 자동으로 정제할 수 있어 사람이 현장에서 확인 수정할 시간을 절약할 수 있다.
또한, 싱글인지 더블 회선이 알 수 있는 S/D 컬럼을 복합적으로 고려하여 학습한다면 자동정제 알고리즘의 정확도는 향상시킬 수 있다.
이하 도 17을 참조하여, 케이블 제작사 이상데이터 정제에 대해서 설명한다.
케이블 제작사명은 수기 입력되는 경우가 많고 그 결과, 사람의 기호에 따라 입력되어 동일한 제작임에도 불구하고 명칭이 매우 다양하며 오탈자가 존재하고 있다. 대표적으로 도 17에 도시된 바와 같이, LS전선으로 입력되어야 할 제작사명이 ㈜LS전선, LS전선㈜, LG전기, LG케이블 등과 같이 입력될 수 있다.
이와 같은 다양한 제작사명은 사전에 사용자가 데이터 프로파일링을 통해 정제 전의 데이터가 정제되었을 때 어떻게 변해야 하는지에 대해 내역을 만들고 머신러닝으로 학습시켜 놓으면 이상데이터가 들어오더라도 모델에 의해 분류되어 자동으로 정확한 제작사명으로 정제할 수 있다.
이하 도 18을 참조하여, 설치일자 이상데이터 정제에 대해서 설명한다.
케이블 설치일자는 케이블의 운영년수를 알 수 있는 매우 중요한 데이터임에도 불구하고 수기입력에 따라 설치일자를 오입력될 수 있다.
케이블 회선은 일반적으로 장거리 선로이고 설치일자 데이터가 구간별로 존재하기 때문에 회선코드 및 구간코드와 같은 다른 데이터 속성을 함께 머신러닝 모델에 학습시킴으로써 이상값의 설치일자 데이터를 인공지능을 통해 자동으로 정확한 설치일자로 정제하게 된다.
이하 도 19를 참조하여, 열화상 진단 이상데이터 정제에 대해서 설명한다.
케이블 및 접속함 점검시 열화상카메라를 이용하여 최대온도를 측정하여 기입하는데, 수기입력시 오기입이 발생하여 정제할 필요가 있다.
일례로 최대온도 22℃로 측정된 값을 기입시 22℃, 22℃ 순으로 입력하다 오타로 222℃를 잘못 입력되어 "22℃, 22℃, 222℃" 로 되어 있는 경우 머신러닝 비지도학습 DBSCAN 군집 모델을 이용하여 이상데이터를 추출하고, 동일접속함의 다른 상 정보의 온도를 확인하여 평균값으로 대체될 수 있다.
이하 도 20을 참조하여, 케이블 종단접속함 절연유 유중가스분석 이상데이터 정제에 대해서 설명한다.
케이블 종단접속함 절연유 유중가스분석을 수행하게 되면 8개 종류의 가스농도가 진단된다. 고차원의 데이터이기 때문에 시각화 및 군집화를 위해 2차원으로 변환할 필요가 있으므로, 전술한 PCA 기법을 이용하여 2차원으로 변환하면 도 20에 도시된 바와 같이 표시될 수 있다.
머신러닝 비지도학습 DBSCAN 군집 모델을 이용하면, 도 21에 도시된 바와 같이, 이상데이터 그룹을 추출할 수 있으며, 해당하는 인덱스를 따라가서 이상값을 해당 가스농도의 평균값으로 대체하거나 사용자가 확인하도록 할 수 있다.
참고로 기존 규칙 및 전문가 의견 기반 정제 알고리즘은, 상, 하한치의 기준을 정해 이상데이터를 분류하였으며, 본 실시 예는 인공지능 방식으로 이상데이터를 군집화하여 별도로 추출할 수 있도록 하는 장점이 있다.
④ 규칙, 전문가 의견 및 인공지능 융복합 기술 기반 품질평가 방법론
이하, 도 22를 참조하여, 데이터 품질평가 방법에 대해서 설명한다.
상기 데이터 품질평가는 인공지능 기반 완전 정제 알고리즘이 진행되기 전에 수행되는 단계로써 기존 데이터 품질 확인용으로 진행하는 단계이다.
기존 규칙 및 전문가 의견 기반 정제 알고리즘을 통해 전체 데이터는, 정상데이터와 오염데이터로 분류되며, 여기서 오염데이터는 결측데이터와 이상데이터로 다시 분류되며, 전체 데이터 대비 분류된 값의 점유율을 계산하여, 도 22에 도시된 바와 같이, 데이터의 정확도와 오염도를 정량화하여 계산할 수 있다.
기존 규칙 및 전문가 의견 기반 정제 프로세스가 완료되면, 도 23에 도시된 바와 같이, 정상, 결측, 이상치의 품질평가 결과를 볼 수 있으며, 컬럼명별로 결측치 건수, 이상치 건수로 오류율을 정량적으로 확인할 수 있으며, 또한, 도 24에 도시된 바와 같이, 컬럼별 품질평가 결과를 시각화하여 볼 수 있다.
한편 규칙 및 전문가 의견 기반 정제 알고리즘을 통하여, 정상, 결측, 오염데이터가 결정되면 현장사업소 확인을 통해 1차적으로 정제를 수행한다.
이에 사용자는 정제 전과 후를 비교하기 위해, 도 25 및 도 26에 도시된 바와 같이, 데이터 항목별로 전후 비교 결과를 시각적으로 보여줄 수 있으며, 전체적인 품질이 어떻게 변했는지 정량적으로 확인할 수 있다.
이때 사용자는 1차 정제 이후, 데이터 품질을 정량적으로 확인하고 정제 전후 내역을 머신러닝 지도학습을 통해 자동정제 모델을 생성할 수 있으며, 1차 정제에서 정제 후 품질평가가 95% 이상으로 양호하지 못하면, 인공지능 기반 자동 정제 알고리즘을 동작하여 앞서 설명한 결측 및 이상데이터 처리방법에 따라 자동으로 2차 정제를 수행하여 데이터 품질이 향상되었는지 도 25 및 도 26에 도시된 바와 같이, 다시 확인할 수 있다.
⑤ 온라인 Legacy 데이터 정제 플랫폼
이하 도 27을 참조하여, 데이터 정제 플랫폼 설계에 대해서 설명한다.
디지털 데이터 자동정제 플랫폼(즉, 본 실시 예에 따른 인공지능 기술 기반 온라인 디지털 데이터 정제 장치)은 온라인 데이터 연계 방식으로써, Legacy System의 대용량 데이터를 ETL(Extract, Transmission, Loader)과 API(Application Program Interface)를 통해 도 27에 도시된 바와 같이, 디지털 데이터 자동정제 플랫폼에 연계가 되어 데이터가 입력된다.
상기 정제 플랫폼은 규칙, 전문가 의견 및 인공지능 기술 기반 데이터 정제 알고리즘을 운영하며, 전체 데이터의 정량적 품질평가가 가능하며 품질평가 결과를 피드백하여 재정제를 통해 품질을 향상하는 구조이다. 이때 데이터 정제를 통해 품질평가 결과가 95% 이상이면, 디지털 자산관리시스템(AMS)에 해당 데이터를 연계함으로써, 리스크 평가 알고리즘이 처리되고 신뢰성 평가를 통해 검토하며 그 결과가 대쉬보드(Dash Board)에 출력되어 나타낼 수 있다.
본 실시 예는 정제를 완전히 자동으로 지속적으로 수행하기 때문에 데이터 정확도가 항시 기준(예 : 95%) 이상을 유지할 수 있으며, 신규 데이터 축적에도 데이터 품질 유지가 가능한 효과가 있다.
또한 본 실시 예는 레거시(Legacy) 데이터를 연계하여 별도의 데이터 수집이 불필요하며, 규칙, 전문가 의견 및 머신러닝 분류 기반 정제 알고리즘으로서, 오염데이터의 완전자동 정제로 부수적인 인적 확인 및 수동정제가 불필요한 장점이 있으며, 정제 데이터의 품질 불량시 재학습을 통해 인공지능 기반 정제 프로세스를 재수행하여 정제 데이터의 품질이 만족될 때까지 지속적으로 피드백 할 수 있으며, 리포팅 기능을 통해 데이터 관리가 가능하므로 편의성을 향상시키는 효과가 있다.
본 발명은 도면에 도시된 실시 예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 기술적 보호범위는 아래의 특허청구범위에 의해서 정하여져야 할 것이다. 또한 본 명세서에서 설명된 구현은, 예컨대, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의(예컨대, 방법으로서만 논의)되었더라도, 논의된 특징의 구현은 또한 다른 형태(예컨대, 장치 또는 프로그램)로도 구현될 수 있다. 장치는 적절한 하드웨어, 소프트웨어 및 펌웨어 등으로 구현될 수 있다. 방법은, 예컨대, 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍 가능한 로직 디바이스 등을 포함하는 프로세싱 디바이스를 일반적으로 지칭하는 프로세서 등과 같은 장치에서 구현될 수 있다. 프로세서는 또한 최종-사용자 사이에 정보의 통신을 용이하게 하는 컴퓨터, 셀 폰, 휴대용/개인용 정보 단말기(personal digital assistant: "PDA") 및 다른 디바이스 등과 같은 통신 디바이스를 포함한다.
110 : 원시데이터 연계모듈
120 : 프로세싱 모듈
130 : 정제 리포팅 출력모듈
120 : 프로세싱 모듈
130 : 정제 리포팅 출력모듈
Claims (12)
- 정제할 원시데이터가 저장되어 있는 데이터베이스에 온라인으로 연계하여 원시데이터를 취득하는 원시데이터 연계모듈;
상기 원시데이터 연계모듈을 통해 연계된 원시데이터를 인공지능 기반 정제 프로세스를 이용하여 정제하는 프로세싱 모듈; 및
상기 프로세싱 모듈에서 처리된 데이터 정제 리포팅 결과를 출력하는 정제 리포팅 출력모듈;을 포함하는 것을 특징으로 하는 인공지능 기술 기반 온라인 디지털 데이터 정제 장치.
- 제 1항에 있어서, 상기 프로세싱 모듈은,
원시데이터가 온라인으로 연계되면, 최초로 정제함수 설정을 통해 규칙 및 전문가 의견 기반 정제 프로세스를 수행하여 결측 및 이상데이터를 추출하고, 상기 결측 및 이상데이터에 대한 품질평가를 수행하는 것을 특징으로 하는 인공지능 기술 기반 온라인 디지털 데이터 정제 장치.
- 제 2항에 있어서, 상기 프로세싱 모듈은,
상기 규칙 및 전문가 의견 기반 정제 프로세스를 통해 결측 및 이상데이터를 추출하면, 현장에 데이터 수정을 요청하여 결측 및 이상데이터를 직접 정제하고,
상기 결측 및 이상데이터의 정제전후 데이터의 내역을 바탕으로 품질평가를 수행하여 정제전후 품질 변경내용을 비교함으로써 기준 대비 품질 만족도 체크를 추가로 수행하는 것을 특징으로 하는 인공지능 기술 기반 온라인 디지털 데이터 정제 장치.
- 제 3항에 있어서, 상기 프로세싱 모듈은,
원시데이터 셋과 현장 데이터를 수정한 수정데이터 셋을 머신러닝 지도 학습 및 비지도 학습을 통해 인공지능 기반 정제 프로세스를 추가로 수행하고,
상기 품질 만족도를 체크한 결과, 상기 인공지능 기반 정제 프로세스를 통해 머신러닝 분류 및 군집화 모델의 정확도가 지정된 기준 미만으로 불만족하다고 판단되면, 다른 머신러닝 재학습 설정을 통해, 상기 머신러닝 분류 및 군집화 모델의 정확도를 향상시키거나, 상기 정제전후 데이터 내역을 추가적으로 확보하여,
머신러닝 지도 학습 및 비지도 학습을 통해, 인공지능 기반 정제 프로세스를 고도화하여 업데이트 하는 것을 특징으로 하는 인공지능 기술 기반 온라인 디지털 데이터 정제 장치.
- 제 4항에 있어서, 상기 프로세싱 모듈은,
전체 데이터에 대하여 정제 프로세스 안에서 품질 만족도를 체크한 결과가 기준 이상으로 우수한 품질을 만족하면, 데이터를 실제로 정제하고,
해당 정제내역의 리포팅을 추가로 수행하는 것을 특징으로 하는 인공지능 기술 기반 온라인 디지털 데이터 정제 장치.
- 제 5항에 있어서, 상기 리포팅은,
결측 및 이상데이터 내역을 확인할 수 있고, 정제 전후 데이터 품질이 어떻게 변했는지 확인할 수 있는 내용이 포함되는 것을 특징으로 하는 인공지능 기술 기반 온라인 디지털 데이터 정제 장치.
- 프로세싱 모듈이 원시데이터 연계모듈을 통해 정제할 원시데이터가 저장되어 있는 데이터베이스에 온라인으로 연계하여 원시데이터를 취득하는 단계;
상기 프로세싱 모듈이 상기 원시데이터 연계모듈을 통해 연계된 원시데이터를 인공지능 기반 정제 프로세스를 이용하여 정제하는 단계; 및
상기 프로세싱 모듈에서 처리된 데이터 정제 리포팅 결과를 정제 리포팅 출력모듈을 통해 출력하는 단계;를 포함하는 것을 특징으로 하는 인공지능 기술 기반 온라인 디지털 데이터 정제 방법.
- 제 7항에 있어서, 상기 원시데이터를 정제하는 단계에서,
상기 프로세싱 모듈은,
원시데이터가 온라인으로 연계되면, 최초로 정제함수 설정을 통해 규칙 및 전문가 의견 기반 정제 프로세스를 수행하여 결측 및 이상데이터를 추출하고, 상기 결측 및 이상데이터에 대한 품질평가를 수행하는 것을 특징으로 하는 인공지능 기술 기반 온라인 디지털 데이터 정제 방법.
- 제 8항에 있어서, 상기 원시데이터를 정제하는 단계에서,
상기 프로세싱 모듈은,
상기 규칙 및 전문가 의견 기반 정제 프로세스를 통해 결측 및 이상데이터를 추출하면, 현장에 데이터 수정을 요청하여 결측 및 이상데이터를 직접 정제하고,
상기 결측 및 이상데이터의 정제전후 데이터의 내역을 바탕으로 품질평가를 수행하여 정제전후 품질 변경내용을 비교함으로써 기준 대비 품질 만족도 체크를 추가로 수행하는 것을 특징으로 하는 인공지능 기술 기반 온라인 디지털 데이터 정제 방법.
- 제 9항에 있어서, 상기 원시데이터를 정제하는 단계에서,
상기 프로세싱 모듈은,
원시데이터 셋과 현장 데이터를 수정한 수정데이터 셋을 머신러닝 지도 학습 및 비지도 학습을 통해 인공지능 기반 정제 프로세스를 추가로 수행하고,
상기 품질 만족도를 체크한 결과, 상기 인공지능 기반 정제 프로세스를 통해 머신러닝 분류 및 군집화 모델의 정확도가 지정된 기준 미만으로 불만족하다고 판단되면, 다른 머신러닝 재학습 설정을 통해, 상기 머신러닝 분류 및 군집화 모델의 정확도를 향상시키거나, 상기 정제전후 데이터 내역을 추가적으로 확보하여,
머신러닝 지도 학습 및 비지도 학습을 통해, 인공지능 기반 정제 프로세스를 고도화하여 업데이트 하는 것을 특징으로 하는 인공지능 기술 기반 온라인 디지털 데이터 정제 방법.
- 제 10항에 있어서, 상기 원시데이터를 정제하는 단계에서,
상기 프로세싱 모듈은,
전체 데이터에 대하여 정제 프로세스 안에서 품질 만족도를 체크한 결과가 기준 이상으로 우수한 품질을 만족하면, 데이터를 실제로 정제하고,
해당 정제내역의 리포팅을 추가로 수행하는 것을 특징으로 하는 인공지능 기술 기반 온라인 디지털 데이터 정제 방법.
- 제 11항에 있어서, 상기 리포팅은,
결측 및 이상데이터 내역을 확인할 수 있고, 정제 전후 데이터 품질이 어떻게 변했는지 확인할 수 있는 내용이 포함되는 것을 특징으로 하는 인공지능 기술 기반 온라인 디지털 데이터 정제 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220132301A KR20240052357A (ko) | 2022-10-14 | 2022-10-14 | 인공지능 기술 기반 온라인 디지털 데이터 정제 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220132301A KR20240052357A (ko) | 2022-10-14 | 2022-10-14 | 인공지능 기술 기반 온라인 디지털 데이터 정제 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240052357A true KR20240052357A (ko) | 2024-04-23 |
Family
ID=90881146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220132301A KR20240052357A (ko) | 2022-10-14 | 2022-10-14 | 인공지능 기술 기반 온라인 디지털 데이터 정제 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20240052357A (ko) |
-
2022
- 2022-10-14 KR KR1020220132301A patent/KR20240052357A/ko active Search and Examination
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vrignat et al. | Sustainable manufacturing, maintenance policies, prognostics and health management: A literature review | |
US11544676B2 (en) | Equipment repair management and execution | |
CN113779496B (zh) | 一种基于设备全景数据的电力设备状态评估方法及系统 | |
EP3223095B1 (en) | Method and apparatus for optimizing diagnostics of rotating equipment | |
CN112668822A (zh) | 科技成果转化平台共享系统、方法、存储介质、手机app | |
CN114066196A (zh) | 一种电网投资策略优化系统 | |
CN114492926A (zh) | 一种煤矿安全隐患文本分析预测方法和系统 | |
CN109829115B (zh) | 搜索引擎关键词优化方法 | |
CN118014616A (zh) | 基于区块链的生产物料价格跟踪系统及方法 | |
CN116542380B (zh) | 基于自然语言的电厂供应链碳足迹优化方法及装置 | |
CN107644042B (zh) | 软件程序点击率预估排序方法及服务器 | |
CN116776209A (zh) | 一种关口计量装置运行状态辨识方法、系统、设备及介质 | |
KR20240052357A (ko) | 인공지능 기술 기반 온라인 디지털 데이터 정제 장치 및 방법 | |
CN115689331A (zh) | 一种基于mlp的输变电工程量合理性分析方法 | |
CN115169426A (zh) | 一种基于相似性学习融合模型的异常检测方法及系统 | |
CN114140259A (zh) | 基于人工智能的核保风控方法、装置、设备及存储介质 | |
CN118569738B (zh) | 一种工程质量审核方法、系统及存储介质 | |
CN117422314B (zh) | 一种基于大数据分析的企业数据评估方法及设备 | |
US20240355460A1 (en) | Systems and methods for improved provider processes using claim likelihood ranking | |
CN116389265A (zh) | 网络运营管理方法及装置、计算机可读存储介质 | |
CN117973627A (zh) | 数据预测方法、装置、设备、存储介质及程序产品 | |
CN117455059A (zh) | 一种基于数据采集的行业趋势评估系统 | |
CN118780615A (zh) | 基于多源数据融合的企业财务风险预测方法 | |
CN116882723A (zh) | 一种烟草制丝大数据与ai信息处理方法 | |
CN117952418A (zh) | 一种电力安全生产智能管控平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |