KR102005952B1 - 기계학습 모델링에서 잡음 데이터 제거를 위한 데이터 정제 장치 및 방법 - Google Patents
기계학습 모델링에서 잡음 데이터 제거를 위한 데이터 정제 장치 및 방법 Download PDFInfo
- Publication number
- KR102005952B1 KR102005952B1 KR1020190016846A KR20190016846A KR102005952B1 KR 102005952 B1 KR102005952 B1 KR 102005952B1 KR 1020190016846 A KR1020190016846 A KR 1020190016846A KR 20190016846 A KR20190016846 A KR 20190016846A KR 102005952 B1 KR102005952 B1 KR 102005952B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- preprocessor
- preprocessing
- order
- machine learning
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000010801 machine learning Methods 0.000 title claims abstract description 29
- 238000007670 refining Methods 0.000 title claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 106
- 238000012546 transfer Methods 0.000 claims abstract description 32
- 238000000746 purification Methods 0.000 claims abstract description 23
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 238000011403 purification operation Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 4
- 238000004140 cleaning Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 31
- 238000010586 diagram Methods 0.000 description 15
- 238000012549 training Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000001419 dependent effect Effects 0.000 description 8
- 230000009467 reduction Effects 0.000 description 8
- 238000007418 data mining Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
도 2는 본 발명의 일 실시예에 따른 학습 데이터를 설명하기위한 예시도,
도 3 은 본 발명의 일 실시예에 따른 분포 전처리기에서 전처리 수행과정을 설명하기 위한 예시도,
도 4는 본 발명의 일 실시예에 따른 분포 전처리기에서 도출되는 히스토그램 그래프의 예시도,
도 5 는 본 발명의 일 실시예에 따른 PAIRS 전처리기에서 전처리 수행과정을 설명하기 위한 예시도,
도 6(a)는 군집을 이루는 독립 변수의 전처리 과정을 설명하기 위한 예시도,
도 6(b)는 군집을 이루지 않는 독립 변수의 전처리 과정을 설명하기 위한 예시도,
도 6(c)는 기타 특징을 보이는 독립 변수의 전처리 과정을 설명하기 위한 예시도,
도 7 은 본 발명의 일 실시예에 따른 HCLUST 전처리기에서 전처리 수행과정을 설명하기 위한 예시도,
도 8 은 hclust() 함수 결과에 의해 도출된 계통도(dendrogram)를 도시한 예시도,
도 9는 본 발명의 일 실시예에 따른 기계학습 모델링에서 데이터의 잡음 데이터 제거를 위한 데이터 정제 방법의 흐름도,
도 10은 본 발명의 일 실시예에 따른 선택된 전처리 수행 과정을 보다 상세히 도시한 예시도이다.
120 : 데이터 전달부 130 : 전처리부
132 : 분포 전처리기 ` 134 : PAIRS 전처리기
136 : HCLUST 전처리기 138 : 샘플링 전처리기
Claims (10)
- 데이터 정제 작업을 수행하기 위한 초기 데이터를 입력 받는 데이터 입력부;
상기 데이터 입력부로 입력받은 초기 데이터의 개략 분석을 수행하여 특징을 분석하고, 전처리 수행 순서를 정의하는 순서 정의부; 및
상기 순서 정의부에서 정의된 전처리 수행 순서에 기반하여 제 1 전처리기를 선택하여, 상기 선택한 제 1 전처리기로 상기 입력받은 초기 데이터를 전달하고, 상기 정의된 전처리 수행 순서에 기반하여 제 2 전처리기를 선택하여, 상기 선택한 제 1 전처리기에서 초기 데이터를 전처리 수행하여 생성되는 제 1 정제 데이터 집합을 상기 제 2 전처리기로 전달하는 데이터 전달부;를 포함하고,
상기 순서 정의부가 상기 입력받은 초기 데이터의 개략 분석을 수행하여 특징을 분석하는 것은, 상기 데이터 입력부로 입력 받은 다수의 초기 데이터들에 대하여 특정 예측자와 다른 예측자간의 차이값들을 산출하고, 산출된 예측자간의 차이값들의 중앙값, 평균, 맨해튼 거리, 유클리드 거리(Euclidean distance), 및 코사인 유사도(Cosine similarity) 중 적어도 하나를 이용하여 특징값을 생성하는 것을 특징으로 하며,
상기 순서 정의부는 전처리 명령이 수행되는 순서를 포함하는 프로그래밍 언어로 전처리 수행 명령을 생성하는 것을 특징으로 하고,
상기 데이터 전달부는, 상기 정의된 전처리 수행 순서에 기반하여 분포 전처리기, PAIRS 전처리기, HCLUST 전처리기 및 샘플링(sampling)전처리기 중 적어도 하나를 선택하는 것을 특징으로 하는 기계학습 모델링에서 데이터의 잡음 데이터 제거를 위한 데이터 정제 장치.
- 제 1 항에 있어서,
상기 데이터 전달부는 상기 정의된 전처리 수행 순서에 기반하여 제 N 전처리기를 선택하고, 상기 선택된 제 N 전처리기로 제 N-1 정제된 데이터 집합을 전달 하는 것을 반복 수행하는 것을 특징으로 하는 기계학습 모델링에서 데이터의 잡음 데이터 제거를 위한 데이터 정제 장치.
- 삭제
- 제 1 항에 있어서,
상기 분포 전처리기는 상기 입력받은 초기 데이터들 간의 상대거리를 구하여, 독립 변수들의 특징을 함축하는 하나의 값으로 표현하고, 상기 표현된 하나의 값을 이용하여 히스토그램 차트를 생성하여 도수 분포 특징을 분석하고 잡음을 제거하는 것을 특징으로 하는 기계학습 모델링에서 데이터의 잡음 데이터 제거를 위한 데이터 정제 장치.
- 제 1 항에 있어서,
상기 PAIRS 전처리기는 상기 입력받은 초기 데이터들 간의 상대거리를 구하여, 독립 변수들의 특징을 함축하는 하나의 값으로 표현하고, 상기 표현된 하나의 값을 Y축으로 놓고, 개별 독립 변수를 X 축으로 하여 특징을 분석하고 예측 오류를 유발하는 잡음을 제거하는 것을 특징으로 하는 기계학습 모델링에서 데이터의 잡음 데이터 제거를 위한 데이터 정제 장치.
- 제 1 항에 있어서,
상기 HCLUST 전처리기는 계층적 군집화(Hierarchical Clustering) 기법을 이용하여 잡음을 제거하는 것을 특징으로 하는 기계학습 모델링에서 데이터의 잡음 데이터 제거를 위한 데이터 정제 장치.
- 삭제
- 기계학습 모델링에서 데이터의 잡음 데이터 제거를 위한 데이터 정제 장치에서 수행되는 데이터 정제 방법에 있어서,
데이터 입력부가 데이터 정제 작업을 수행하기 위한 초기 데이터를 입력 받는 단계;
순서 정의부가 상기 입력받은 초기 데이터의 개략 분석을 수행하여 특징을 분석하고, 전처리 수행 순서를 정의하는 단계;
데이터 전달부가 상기 정의된 전처리 수행 순서에 기반하여 제 1 전처리기를 선택하고, 상기 선택한 제 1 전처리기로 상기 입력받은 초기 데이터를 전달하는 단계;
상기 선택한 제 1 전처리기가 상기 초기 데이터를 전처리 수행하여 제 1 정제 데이터 집합을 생성하는 단계; 및
상기 데이터 전달부가 상기 정의된 전처리 수행 순서에 기반하여 제 2 전처리기를 선택하고, 상기 제 1 정제 데이터 집합을 상기 선택된 제 2 전처리기로 전달하는 단계를 포함하고,
상기 전처리 수행 순서를 정의하는 단계가 상기 입력받은 초기 데이터의 개략 분석을 수행하여 특징을 분석하는 것은, 상기 데이터 입력부로 입력 받은 다수의 초기 데이터들에 대하여 특정 예측자와 다른 예측자간의 차이값들을 산출하고, 산출된 예측자간의 차이값들의 중앙값, 평균, 맨해튼 거리, 유클리드 거리(Euclidean distance), 및 코사인 유사도(Cosine similarity) 중 적어도 하나를 이용하여 특징값을 생성하는 것을 특징으로 하며,
상기 전처리 수행 순서를 정의하는 단계는 전처리 명령이 수행되는 순서를 포함하는 프로그래밍 언어로 전처리 수행 명령을 생성하는 것을 특징으로 하고,
상기 전달하는 단계는, 상기 정의된 전처리 수행 순서에 기반하여 분포 전처리기, PAIRS 전처리기, HCLUST 전처리기 및 샘플링(sampling)전처리기 중 적어도 하나를 선택하는 것을 특징으로 하는 기계학습 모델링에서 데이터의 잡음 데이터 제거를 위한 데이터 정제 방법.
- 제 8 항에 있어서, 상기 전달하는 단계는,
상기 데이터 전달부가 상기 정의된 전처리 수행 순서에 기반하여 제 N 전처리기를 선택하고, 상기 선택된 제 N 전처리기로 제 (N-1) 정제된 데이터 집합을 전달하는 것을 반복 수행하는 것을 특징으로 하는 기계학습 모델링에서 데이터의 잡음 데이터 제거를 위한 데이터 정제 방법.
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190016846A KR102005952B1 (ko) | 2019-02-13 | 2019-02-13 | 기계학습 모델링에서 잡음 데이터 제거를 위한 데이터 정제 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190016846A KR102005952B1 (ko) | 2019-02-13 | 2019-02-13 | 기계학습 모델링에서 잡음 데이터 제거를 위한 데이터 정제 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102005952B1 true KR102005952B1 (ko) | 2019-10-01 |
Family
ID=68207646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190016846A KR102005952B1 (ko) | 2019-02-13 | 2019-02-13 | 기계학습 모델링에서 잡음 데이터 제거를 위한 데이터 정제 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102005952B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210065751A (ko) * | 2019-11-27 | 2021-06-04 | 강릉원주대학교산학협력단 | 결측값 대체 시스템 및 결측값 대체 방법 |
KR20210094810A (ko) | 2020-01-22 | 2021-07-30 | 주식회사 솔루게이트 | 이형 데이터 기반 예측 시스템의 데이터 정제 장치 및 방법 |
CN118332482A (zh) * | 2024-06-14 | 2024-07-12 | 山东农业工程学院 | 基于噪点清洗的土壤数据采集方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160143512A (ko) * | 2015-06-04 | 2016-12-14 | 더 보잉 컴파니 | 머신 러닝을 위한 진보된 분석 기반시설 |
KR20170101493A (ko) | 2016-02-29 | 2017-09-06 | 씨앤에스플러스(주) | 데이터 정제시스템 및 그 정제방법 |
KR20180066714A (ko) | 2016-12-09 | 2018-06-19 | 주식회사 뉴스젤리 | 데이터에 내재된 문제점 제거를 통한 데이터 정제 장치 및 방법 |
KR20180092494A (ko) | 2017-02-09 | 2018-08-20 | 한국전자통신연구원 | 학습 이미지 데이터 정제 시스템 및 그 방법 |
KR20180120056A (ko) * | 2017-04-26 | 2018-11-05 | 김정희 | 학습 데이터 전처리 방법 및 시스템 |
-
2019
- 2019-02-13 KR KR1020190016846A patent/KR102005952B1/ko active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160143512A (ko) * | 2015-06-04 | 2016-12-14 | 더 보잉 컴파니 | 머신 러닝을 위한 진보된 분석 기반시설 |
KR20170101493A (ko) | 2016-02-29 | 2017-09-06 | 씨앤에스플러스(주) | 데이터 정제시스템 및 그 정제방법 |
KR20180066714A (ko) | 2016-12-09 | 2018-06-19 | 주식회사 뉴스젤리 | 데이터에 내재된 문제점 제거를 통한 데이터 정제 장치 및 방법 |
KR20180092494A (ko) | 2017-02-09 | 2018-08-20 | 한국전자통신연구원 | 학습 이미지 데이터 정제 시스템 및 그 방법 |
KR20180120056A (ko) * | 2017-04-26 | 2018-11-05 | 김정희 | 학습 데이터 전처리 방법 및 시스템 |
Non-Patent Citations (1)
Title |
---|
Firoozabadi, Ali Dehghan, et al. Unsupervised Method for Correlated Noise Removal for Multi-wavelength Exoplanet Transit Observations. arXiv preprint arXiv:1706.08556. 2017.* * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210065751A (ko) * | 2019-11-27 | 2021-06-04 | 강릉원주대학교산학협력단 | 결측값 대체 시스템 및 결측값 대체 방법 |
KR102409101B1 (ko) * | 2019-11-27 | 2022-06-14 | 강릉원주대학교산학협력단 | 결측값 대체 시스템 및 결측값 대체 방법 |
KR20210094810A (ko) | 2020-01-22 | 2021-07-30 | 주식회사 솔루게이트 | 이형 데이터 기반 예측 시스템의 데이터 정제 장치 및 방법 |
CN118332482A (zh) * | 2024-06-14 | 2024-07-12 | 山东农业工程学院 | 基于噪点清洗的土壤数据采集方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kauffmann et al. | From clustering to cluster explanations via neural networks | |
US7672915B2 (en) | Method and system for labelling unlabeled data records in nodes of a self-organizing map for use in training a classifier for data classification in customer relationship management systems | |
US11562294B2 (en) | Apparatus and method for analyzing time-series data based on machine learning | |
JP5660078B2 (ja) | 多クラス識別器、方法、およびプログラム | |
KR102005952B1 (ko) | 기계학습 모델링에서 잡음 데이터 제거를 위한 데이터 정제 장치 및 방법 | |
CA2598923C (en) | Method and system for data classification using a self-organizing map | |
Lacerda et al. | Segmentation of connected handwritten digits using Self-Organizing Maps | |
CN117746260B (zh) | 遥感数据智能解析方法及系统 | |
Jun | A forecasting model for technological trend using unsupervised learning | |
EP3745317A1 (en) | Apparatus and method for analyzing time series data based on machine learning | |
CN110647995A (zh) | 规则训练方法、装置、设备及存储介质 | |
CN117155706B (zh) | 网络异常行为检测方法及其系统 | |
Zhang | Application of artificial intelligence recognition technology in digital image processing | |
CN118468061B (zh) | 一种算法自动匹配及参数优化方法及系统 | |
JP7242590B2 (ja) | 機械学習モデル圧縮システム、プルーニング方法及びプログラム | |
JP2011257805A (ja) | 情報処理装置および方法、並びにプログラム | |
CN118312755A (zh) | 一种对工控数据特征重排序的方法及设备 | |
CN116702059B (zh) | 一种基于物联网的智能生产车间管理系统 | |
JP6613937B2 (ja) | 品質予測装置、品質予測方法、プログラム及びコンピュータ読み取り可能な記録媒体 | |
Rahman et al. | Improvement of Starling Image Classification with Gabor and Wavelet Based on Artificial Neural Network | |
CN114821185B (zh) | 图像分类方法、装置、设备及介质 | |
CN117668461A (zh) | 一种基于改进Transformer模型的动态人口识别方法及系统 | |
KR20070059015A (ko) | 시간 가중치 엔트로피를 이용한 결정 트리 생성 방법 및이를 기록한 기록매체 | |
CN119251578A (zh) | 铜基固废物料识别方法、装置、计算机设备及存储介质 | |
CN119475523A (zh) | 一种基于智能优化的建筑设计系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190213 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20190220 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20190213 Patent event code: PA03021R01I Comment text: Patent Application |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20190319 Patent event code: PE09021S01D |
|
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20190723 |
|
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20190725 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20190726 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20220426 Start annual number: 4 End annual number: 6 |