KR102676548B1 - 최적 구간화 기법을 이용한 연속형 데이터 전처리 및 파생 변수 생성 방법 - Google Patents
최적 구간화 기법을 이용한 연속형 데이터 전처리 및 파생 변수 생성 방법 Download PDFInfo
- Publication number
- KR102676548B1 KR102676548B1 KR1020230066171A KR20230066171A KR102676548B1 KR 102676548 B1 KR102676548 B1 KR 102676548B1 KR 1020230066171 A KR1020230066171 A KR 1020230066171A KR 20230066171 A KR20230066171 A KR 20230066171A KR 102676548 B1 KR102676548 B1 KR 102676548B1
- Authority
- KR
- South Korea
- Prior art keywords
- value
- data
- continuous data
- labeled
- continuous
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000007781 pre-processing Methods 0.000 title claims abstract description 17
- 230000002159 abnormal effect Effects 0.000 claims abstract description 29
- 238000002372 labelling Methods 0.000 claims abstract description 9
- 230000009467 reduction Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 101150049912 bin3 gene Proteins 0.000 description 4
- 238000007418 data mining Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011985 exploratory data analysis Methods 0.000 description 1
- 238000011551 log transformation method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/81—Threshold
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Complex Calculations (AREA)
Abstract
Description
도 2는 본 발명의 일 실시예에 따른 최적 비닝 알고리즘을 통한 데이터 전처리 방법을 설명하기 위해 제공되는 도면이다.
도 3은 본 발명에 따라 처리되는 복수 개의 연속형 데이터의 일 예를 그래프로 나타낸 것이다.
도 4는 본 발명의 일 실시예에 따른 최적 비닝 알고리즘을 통한 데이터 전처리 알고리즘을 나타낸 도면이다.
bin | 패킷 길이(x) 범위 | y = 0 정상 패킷 비율 |
y = 1 이상 패킷 비율 |
bin1 | 0≤x < 1188.0 | 0.801386 | 0.198614 |
bin2 | 1188.0 ≤x < 2376.0 | 0.989618 | 0.010382 |
bin3 | 2376.0 ≤x < 3564.0 | 0.974359 | 0.025641 |
bin4 | 3564.0 ≤x < 4752.0 | 0.738462 | 1.261538 |
bin index | 레이블링 값 |
bin1 | 0 |
bin2 | 0 |
bin3 | 0 |
bin4 | 1 |
Packet index | x | y | dx |
1 | 980.2 | 0 | 0 |
2 | 1200.0 | 1 | 0 |
3 | 1534.1 | 0 | 0 |
4 | 3674.3 | 1 | 1 |
… | … | … | … |
9999 | 4600.7 | 0 | 1 |
10000 | 950.3 | 0 | 0 |
Claims (13)
- 제1 값 또는 제2 값으로 각각 사전에 레이블링된 복수 개의 연속형 데이터를 미리 정해진 빈 개수(b)로 구간화하여 빈별로 이상 데이터 비율을 구한 상태에서, 상기 이상 데이터 비율이 임계값(r) 이상인 빈은 상기 제1 값을 레이블링하고 상기 이상 데이터 비율이 r 미만인 빈은 상기 제2 값을 레이블링하며, 상기 복수 개의 연속형 데이터에 이산화 피처 값으로서 해당 연속형 데이터가 속하는 빈의 레이블링 값을 부여하고, 상기 복수 개의 연속형 데이터에 대해 사전에 레이블링된 값과 상기 이산화 피처 값의 비교를 통해 생성된 데이터에 기초하여 성능 지표값을 계산하는 것을 미리 정해진 b와 r의 모든 조합에 대해 수행하는 단계, 및
상기 성능 지표값이 가장 높게 계산된 b와 r의 조합을 결정하는 단계를 포함하고,
[수학식 1]
[수학식 2]
[수학식 3]
[수학식 4]
TP는 상기 복수 개의 연속형 데이터 중에서 사전에 레이블링된 값과 이산화 피처 값이 모두 제1 값인 데이터 개수이고, TN은 상기 복수 개의 연속형 데이터 중에서 사전에 레이블링된 값은 제1 값이고, 이산화 피처 값은 제2 값인 데이터 개수이며, FP는 상기 복수 개의 연속형 데이터 중에서 사전에 레이블링된 값은 제2 값이고, 이산화 피처 값은 제1 값인 데이터 개수이고, FN은 상기 복수 개의 연속형 데이터 중에서 사전에 레이블링된 값과 이산화 피처 값이 모두 제2 값인 데이터 개수이며, 상기 성능 지표값은 수학식 1 내지 수학식 4 중 어느 하나에 의해 계산되는 컴퓨팅 장치를 이용한 데이터 전처리 방법. - 제 1 항에서,
b = n, 2n, …, BM이고, r = m, 2m, …, RM이며,
n은 양의 정수이고, m은 양의 실수이며, BM은 b의 상한으로 설정된 양의 정수이고, RM은 r의 상한으로 설정된 양의 실수인 컴퓨팅 장치를 이용한 데이터 전처리 방법. - 삭제
- 제 1 항에서,
상기 제1 값은 이상(abnormal) 데이터를 나타내고, 상기 제2 값은 정상(normal) 데이터를 나타내는 컴퓨팅 장치를 이용한 데이터 전처리 방법. - 제 1 항에서,
상기 성능 지표값을 계산하는 것을 미리 정해진 b와 r의 모든 조합에 대해 수행하는 단계에 앞서,
상기 복수 개의 연속형 데이터 중에서 이상치를 제거하거나 미리 정해진 값으로 대체하는 이상치 처리 단계, 및
상기 복수 개의 연속형 데이터의 왜도(skewness) 감소를 위한 왜도 감소 처리 단계
중 적어도 하나를 더 포함하는 컴퓨팅 장치를 이용한 데이터 전처리 방법. - 제 1 항에서,
상기 성능 지표값이 가장 높게 계산된 b와 r의 조합에 대해 상기 복수 개의 연속형 데이터에 대해 부여된 이산화 피처 값 데이터를 출력하는 단계
를 더 포함하는 컴퓨팅 장치를 이용한 데이터 전처리 방법. - 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램에서,
적어도 하나의 프로세서에 의해 실행되면, 제1항, 제2항, 제4항 내지 제6항 중 어느 한 항에 기재된 방법을 실행시키는 컴퓨터 프로그램. - 컴퓨팅 장치로서,
적어도 하나의 인스트럭션을 저장하는 메모리; 및
적어도 하나의 프로세서; 를 포함하고,
상기 적어도 하나의 프로세서는 상기 적어도 하나의 인스트럭션에 기초하여,
제1 값 또는 제2 값으로 각각 사전에 레이블링된 복수 개의 연속형 데이터를 미리 정해진 빈 개수(b)로 구간화하여 빈별로 이상 데이터 비율을 구한 상태에서, 상기 이상 데이터 비율이 임계값(r) 이상인 빈은 상기 제1 값을 레이블링하고 상기 이상 데이터 비율이 r 미만인 빈은 상기 제2 값을 레이블링하며, 상기 복수 개의 연속형 데이터에 이산화 피처 값으로서 해당 연속형 데이터가 속하는 빈의 레이블링 값을 부여하고, 상기 복수 개의 연속형 데이터에 대해 사전에 레이블링된 값과 상기 이산화 피처 값의 비교를 통해 생성된 데이터에 기초하여 성능 지표값을 계산하는 것을 미리 정해진 b와 r의 모든 조합에 대해 수행하는 단계, 및
상기 성능 지표값이 가장 높게 계산된 b와 r의 조합을 결정하는 단계를 실행하고,
[수학식 1]
[수학식 2]
[수학식 3]
[수학식 4]
TP는 상기 복수 개의 연속형 데이터 중에서 사전에 레이블링된 값과 이산화 피처 값이 모두 제1 값인 데이터 개수이고, TN은 상기 복수 개의 연속형 데이터 중에서 사전에 레이블링된 값은 제1 값이고, 이산화 피처 값은 제2 값인 데이터 개수이며, FP는 상기 복수 개의 연속형 데이터 중에서 사전에 레이블링된 값은 제2 값이고, 이산화 피처 값은 제1 값인 데이터 개수이고, FN은 상기 복수 개의 연속형 데이터 중에서 사전에 레이블링된 값과 이산화 피처 값이 모두 제2 값인 데이터 개수이며, 상기 성능 지표값은 수학식 1 내지 수학식 4 중 어느 하나에 의해 계산되는 컴퓨팅 장치. - 제 8 항에서,
b = n, 2n, …, BM이고, r = m, 2m, …, RM이며,
n은 양의 정수이고, m은 양의 실수이며, BM은 b의 상한으로 설정된 양의 정수이고, RM은 r의 상한으로 설정된 양의 실수인 컴퓨팅 장치. - 삭제
- 제 8 항에서,
상기 제1 값은 이상(abnormal) 데이터를 나타내고, 상기 제2 값은 정상(normal) 데이터를 나타내는 컴퓨팅 장치. - 제 8 항에서,
상기 성능 지표값을 계산하는 것을 미리 정해진 b와 r의 모든 조합에 대해 수행하는 단계에 앞서,
상기 복수 개의 연속형 데이터 중에서 이상치를 제거하거나 미리 정해진 값으로 대체하는 이상치 처리 단계, 및
상기 복수 개의 연속형 데이터의 왜도(skewness) 감소를 위한 왜도 감소 처리 단계
중 적어도 하나를 더 실행하는 컴퓨팅 장치. - 제 8 항에서,
상기 성능 지표값이 가장 높게 계산된 b와 r의 조합에 대해 상기 복수 개의 연속형 데이터에 대해 부여된 이산화 피처 값 데이터를 출력하는 단계
를 더 실행하는 컴퓨팅 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230196110A KR102738428B1 (ko) | 2023-03-30 | 2023-12-29 | 연속형 데이터 전처리 및 파생 변수 생성 방법 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20230041860 | 2023-03-30 | ||
KR1020230041860 | 2023-03-30 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230196110A Division KR102738428B1 (ko) | 2023-03-30 | 2023-12-29 | 연속형 데이터 전처리 및 파생 변수 생성 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR102676548B1 true KR102676548B1 (ko) | 2024-06-19 |
KR102676548B9 KR102676548B9 (ko) | 2024-09-19 |
Family
ID=91712526
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230066171A KR102676548B1 (ko) | 2023-03-30 | 2023-05-23 | 최적 구간화 기법을 이용한 연속형 데이터 전처리 및 파생 변수 생성 방법 |
KR1020230196110A KR102738428B1 (ko) | 2023-03-30 | 2023-12-29 | 연속형 데이터 전처리 및 파생 변수 생성 방법 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230196110A KR102738428B1 (ko) | 2023-03-30 | 2023-12-29 | 연속형 데이터 전처리 및 파생 변수 생성 방법 |
Country Status (1)
Country | Link |
---|---|
KR (2) | KR102676548B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160130252A (ko) * | 2014-03-06 | 2016-11-10 | 케이엘에이-텐코 코포레이션 | 복합 결함 분류기 |
US20180330300A1 (en) * | 2017-05-15 | 2018-11-15 | Tata Consultancy Services Limited | Method and system for data-based optimization of performance indicators in process and manufacturing industries |
-
2023
- 2023-05-23 KR KR1020230066171A patent/KR102676548B1/ko active IP Right Grant
- 2023-12-29 KR KR1020230196110A patent/KR102738428B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160130252A (ko) * | 2014-03-06 | 2016-11-10 | 케이엘에이-텐코 코포레이션 | 복합 결함 분류기 |
US20180330300A1 (en) * | 2017-05-15 | 2018-11-15 | Tata Consultancy Services Limited | Method and system for data-based optimization of performance indicators in process and manufacturing industries |
Also Published As
Publication number | Publication date |
---|---|
KR102676548B9 (ko) | 2024-09-19 |
KR20240147424A (ko) | 2024-10-08 |
KR102738428B1 (ko) | 2024-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gadde | AI in Dynamic Data Sharding for Optimized Performance in Large Databases | |
US9772886B2 (en) | Optimizing execution and resource usage in large scale computing | |
US10013656B1 (en) | Methods and apparatus for analytical processing of provenance data for HPC workflow optimization | |
CN112633754A (zh) | 一种数据分析模型的建模方法及系统 | |
CN112365070B (zh) | 一种电力负荷预测方法、装置、设备及可读存储介质 | |
US11429525B2 (en) | Reducing cache interference based on forecasted processor use | |
US20230043579A1 (en) | System for monitoring and optimizing computing resource usage of cloud based computing application | |
WO2016178316A1 (ja) | 計算機調達予測装置、計算機調達予測方法、及び、プログラム | |
CN116827950A (zh) | 云资源的处理方法、装置、设备及存储介质 | |
KR102676548B1 (ko) | 최적 구간화 기법을 이용한 연속형 데이터 전처리 및 파생 변수 생성 방법 | |
CN113434702A (zh) | 一种用于图计算的自适应控制方法和系统 | |
CN113163004A (zh) | 一种工业互联网边缘任务卸载决策方法、装置及存储介质 | |
CN113778776A (zh) | 对任务异常进行预警的方法和装置以及存储介质 | |
US11836365B2 (en) | Automatically adjusting storage system configurations in a storage-as-a-service environment using machine learning techniques | |
CN112860523B (zh) | 批量作业处理的故障预测方法、装置和服务器 | |
US20210397485A1 (en) | Distributed storage system and rebalancing processing method | |
Dana Mazraeh et al. | Solving Fredholm integral equations of the second kind using an improved cuckoo optimization algorithm | |
CN109298989A (zh) | 业务指标阈值获取方法及装置 | |
EP3091449B1 (en) | Operating a database system | |
KR101599718B1 (ko) | 데이터베이스 성능 관리 방법 및 장치 | |
US10839042B1 (en) | Summarizing and querying data generated from multiple scenarios of a data-intensive simulation | |
KR101621490B1 (ko) | 쿼리 실행 장치 및 방법, 그리고 그를 이용한 데이터 처리 시스템 | |
CN110895542B (zh) | 高风险sql语句筛选方法及装置 | |
Schopf | A practical methodology for defining histograms for predictions and scheduling | |
CN117235071A (zh) | 数据库的数据行数统计方法及装置、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20230523 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20231121 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20230523 Patent event code: PA03021R01I Comment text: Patent Application |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20231220 Patent event code: PE09021S01D |
|
PA0107 | Divisional application |
Comment text: Divisional Application of Patent Patent event date: 20231229 Patent event code: PA01071R01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20240530 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20240614 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20240614 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PG1701 | Publication of correction |