KR102589602B1 - Apparatus and method for handling missing values - Google Patents
Apparatus and method for handling missing values Download PDFInfo
- Publication number
- KR102589602B1 KR102589602B1 KR1020220152120A KR20220152120A KR102589602B1 KR 102589602 B1 KR102589602 B1 KR 102589602B1 KR 1020220152120 A KR1020220152120 A KR 1020220152120A KR 20220152120 A KR20220152120 A KR 20220152120A KR 102589602 B1 KR102589602 B1 KR 102589602B1
- Authority
- KR
- South Korea
- Prior art keywords
- missing
- processing
- values
- value
- data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000012545 processing Methods 0.000 claims abstract description 261
- 238000004458 analytical method Methods 0.000 claims abstract description 64
- 230000008569 process Effects 0.000 claims description 55
- 238000012217 deletion Methods 0.000 claims description 25
- 230000037430 deletion Effects 0.000 claims description 25
- 238000000513 principal component analysis Methods 0.000 claims description 15
- 238000012790 confirmation Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 8
- 238000004519 manufacturing process Methods 0.000 abstract description 17
- 238000007405 data analysis Methods 0.000 abstract description 7
- 238000007726 management method Methods 0.000 abstract description 7
- 238000012854 evaluation process Methods 0.000 abstract description 4
- 238000012937 correction Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 23
- 230000009466 transformation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Input From Keyboards Or The Like (AREA)
Abstract
본 발명은 결측치 처리를 위한 장치 및 방법에 관한 것으로서, 보다 구체적으로는 결측치 처리를 위한 장치로서, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기; 상기 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기; 및 상기 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명의 특징에 따른 결측치 처리를 위한 방법은, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기; 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기; 및 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하는 결측치 처리를 위한 장치에서 각 단계가 처리되며, (1) 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받는 단계; (2) 결측치 처리 대상이 되는 데이터를 로드 받아 결측치 처리를 위한 데이터를 적재하는 단계; (3) 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하는 단계; (4) 상기 단계 (3)을 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우는 단계; 및 (5) 상기 단계 (4) 이후, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 결측치 처리를 위한 장치 및 방법에 따르면, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기와, 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기와, 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하여 구성함으로써, 생산관리 시스템에서 수집되는 데이터에서 결측치 발생 시, 데이터 분석이 가능하도록 결측치를 추정하여 보정할 수 있도록 할 수 있다.
또한, 본 발명의 결측치 처리를 위한 장치 및 방법에 따르면, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터 입력 UI와, 입력 파라미터로 데이터의 컬럼과 로를 제거하고 남아 있는 결측치를 높은 정확도도 추정하여 보정할 수 있도록 함으로써, 분석을 위한 데이터에서 보다 정확하게 결측치 처리를 수행함은 물론, 결측치 처리를 위해 필요한 파라미터를 입력받을 수 있는 사용자 인터페이스 방식의 제공을 통해 결측치 처리와 평가 과정이 더욱 향상될 수 있도록 할 수 있다.The present invention relates to an apparatus and method for missing value processing, and more specifically, to an apparatus for missing value processing, which receives parameters for missing value processing so that data with missing values can be analyzed, and data subject to missing value processing. Parameter UI input device for loading; a missing value remover for deleting invalid columns and rows containing missing values using parameters for processing missing values input through the parameter UI input device and data subject to loaded missing value processing; And a missing value processor that removes the missing values through the missing value remover, estimates the missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the operation again, and checks the results of the missing value processing. .
In addition, a method for processing missing values according to a feature of the present invention includes a parameter UI input device for receiving parameters for processing missing values so that data with missing values can be analyzed and loading data subject to missing value processing; A missing value remover for deleting invalid columns and rows containing missing values using parameters for processing missing values input through a parameter UI input device and data subject to loaded missing value processing; And each step in the device for missing value processing, including a missing value processor that removes missing values through a missing value remover, estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the operation again, and checks the results of missing value processing. is processed, (1) receiving parameters for processing missing values so that data with missing values can be analyzed; (2) loading data subject to missing value processing and loading data for missing value processing; (3) deleting invalid columns and rows containing missing values using parameters for missing value processing and loaded data subject to missing value processing; (4) estimating missing values from the resulting data remaining after removal through step (3) above and filling the missing values; and (5) after step (4), evaluating whether to repeat the task again and confirming the results of processing missing values.
According to the device and method for processing missing values proposed by the present invention, a parameter UI input device and a parameter for receiving parameters for processing missing values so that data with missing values can be analyzed, and loading data subject to processing missing values. Parameters for missing value processing input through the UI input device, a missing value remover to delete invalid columns and rows containing missing values using the loaded data subject to missing value processing, and a missing value remover. From the data collected from the production management system, it is configured to include a missing value processor that removes and estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the work again, and checks the results of processing the missing values. When missing values occur, the missing values can be estimated and corrected to enable data analysis.
In addition, according to the device and method for processing missing values of the present invention, there is a parameter input UI for processing missing values so that data with missing values can be analyzed, columns and rows of data are removed as input parameters, and the remaining missing values are processed with high accuracy. By allowing for estimation and correction, missing value processing can be performed more accurately on data for analysis, and the missing value processing and evaluation process can be further improved by providing a user interface method that can input the parameters necessary for missing value processing. You can do it.
Description
본 발명은 결측치 처리를 위한 장치 및 방법에 관한 것으로서, 보다 구체적으로는 생산관리 시스템에서 수집되는 데이터에서 결측치 발생 시, 데이터 분석이 가능하도록 결측치를 추정하여 보정할 수 있도록 하는 결측치 처리를 위한 장치 및 방법에 관한 것이다.The present invention relates to a device and method for processing missing values. More specifically, when missing values occur in data collected from a production management system, a device and a method for processing missing values that allow the missing values to be estimated and corrected to enable data analysis. It's about method.
일반적으로 생산관리 시스템(Manufacturing Execution System; MES)은 생산 및 제조 공정에 있어서 생산 절차의 계획, 원재료 준비 계획, 일정 및 주간 계획 데이터 등을 생성하고 생산 공정이 그 계획에 따라 진행될 수 있도록 진도 관리를 하는 시스템이다. 이러한 생산관리 시스템(MES)은 물류 및 작업 내역을 관리하고, 제품의 상태를 파악하여 불량 제품 등을 관리할 수 있으며, 이를 위해 생산 공정을 실시간으로 모니터링하고 생산 공정에 포함되는 각종 공정 설비를 제어한다.In general, a Manufacturing Execution System (MES) generates production procedure plans, raw material preparation plans, schedules, and weekly planning data in the production and manufacturing process, and manages progress to ensure that the production process proceeds according to the plan. It is a system that does. This production management system (MES) manages logistics and work details, identifies product status, and manages defective products. To this end, it monitors the production process in real time and controls various process facilities included in the production process. do.
이러한 생산관리 시스템에서 수집되는 데이터는 생산 공정을 위한 분석이나 사회 과학을 위한 분석에서 필수적으로 분석을 위한 데이터가 필요하다. 그러나 많은 경우에서 생산 설비에서 수집되는 데이터는 결측치가 발생한다. 결측치가 발생하는 원인은 설비의 순간적인 문제나, 노이즈로 인한 데이터 훼손, 분석을 위한 생산 공정 데이터 서머리 과정에서 공정 운영 관련된 문제로 서머리에서 누락 발생, 분석 데이터에 수기 데이터를 포함할 경우 사람의 실수로 인한 누락 등 많은 경우가 있다. 문제는 결측치가 있는 데이터는 분석 알고리즘이 분석을 하지 못하고 프로그램 상에서 대부분 오류를 발생하고 중간 과정에 종료가 된다. 결측치를 포함한 데이터도 여러 가지 형태적 양상이 있으며, 행열 형태의 그리드 데이터에서 군데군데 빠져 있는 경우도 있다. 또한, 데이터 그리드에서 큰 형태의 블록 단위로 결측치가 발생하는 경우도 있다. 또한, 블록 형태의 결측치도 가로와 세로의 크기가 비슷한 정방 형태나, 아니면 가로의 크기가 길거나 아니면 세로의 길이가 긴 형태도 있다. 군데군데 빠지는 결측치는 해당 행이나 열을 삭제하거나 보간법(Interpolation)을 이용해서 추정을 하고 결측 위치를 채우면 되나 크기가 큰 블록 단위의 결측치는 보간법을 사용할 경우 데이터 결손이 많아 정확도가 낮아지고, 행이나 열 전체를 삭제할 경우 알고리즘을 이용한 분석에서 분석 정확도가 낮아진다. 블록 단위의 결측치도 일정 기준을 주어서 삭제하거나 유지할 경우에도 블록의 형태에 따라 행을 먼저 적용할지 열을 먼저 적요 할지에 따라 알고리즘 분석에서 분석 정확도 차이가 난다. 즉, 결측치를 추정할 경우에도 데이터의 상태에 따라 일반적으로 사용하는 보간법이 정확도가 낮아 높은 정확도를 가지는 결측치 추정 방법이 필요하다. 대한민국 공개특허공보 제10-2021-0063866호가 선행기술 문헌으로 개시되고 있다.The data collected from this production management system is essential for analysis of the production process or social science. However, in many cases, data collected from production facilities has missing values. The causes of missing values are momentary problems with equipment, data damage due to noise, omission in the summary due to process operation-related problems during the production process data summary for analysis, and human error when handwritten data is included in the analysis data. There are many cases of omission due to . The problem is that the analysis algorithm cannot analyze data with missing values, and most errors occur in the program and the process is terminated midway. Data including missing values also have various morphological aspects, and may be missing here and there in grid data in the form of rows and columns. Additionally, there are cases where missing values occur in large blocks in the data grid. In addition, missing values in the form of blocks can be square with similar horizontal and vertical sizes, or in the form of long horizontal or long vertical sizes. For missing values that are missing here and there, you can delete the corresponding row or column or use interpolation to estimate and fill in the missing positions. However, for missing values in large blocks, if interpolation is used, accuracy will be lowered due to many data missing, and If you delete an entire column, the analysis accuracy will decrease in analysis using the algorithm. Even when missing values at the block level are deleted or maintained based on a certain standard, there is a difference in analysis accuracy in the algorithm analysis depending on whether rows or columns are applied first depending on the type of block. In other words, even when estimating missing values, depending on the state of the data, the accuracy of the commonly used interpolation method is low, so a missing value estimation method with high accuracy is needed. Republic of Korea Patent Publication No. 10-2021-0063866 is disclosed as a prior art document.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기와, 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기와, 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하여 구성함으로써, 생산관리 시스템에서 수집되는 데이터에서 결측치 발생 시, 데이터 분석이 가능하도록 결측치를 추정하여 보정할 수 있도록 하는, 결측치 처리를 위한 장치 및 방법을 제공하는 것을 그 목적으로 한다.The present invention was proposed to solve the above-mentioned problems of previously proposed methods. It receives parameters for processing missing values so that data with missing values can be analyzed, and parameters for loading data subject to missing value processing. Parameters for processing missing values input through the UI input device and parameter UI input device, and missing values for deleting invalid columns and rows containing missing values using the loaded data subject to processing. The production management system is configured to include a missing value processor that removes missing values through a remover and a missing value remover, estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the work again, and checks the results of processing the missing values. The purpose is to provide a device and method for processing missing values that allows the missing values to be estimated and corrected to enable data analysis when missing values occur in data collected.
또한, 본 발명은, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터 입력 UI와, 입력 파라미터로 데이터의 컬럼과 로를 제거하고 남아 있는 결측치를 높은 정확도도 추정하여 보정할 수 있도록 함으로써, 분석을 위한 데이터에서 보다 정확하게 결측치 처리를 수행함은 물론, 결측치 처리를 위해 필요한 파라미터를 입력받을 수 있는 사용자 인터페이스 방식의 제공을 통해 결측치 처리와 평가 과정이 더욱 향상될 수 있도록 하는, 결측치 처리를 위한 장치 및 방법을 제공하는 것을 또 다른 목적으로 한다.In addition, the present invention provides a parameter input UI for processing missing values so that data with missing values can be analyzed, and columns and rows of data are removed as input parameters, and the remaining missing values can be estimated and corrected with high accuracy, A device for processing missing values that not only performs missing value processing more accurately in data for analysis, but also improves the missing value processing and evaluation process by providing a user interface method that allows input of parameters required for missing value processing. Another purpose is to provide a method and method.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 결측치 처리를 위한 장치는,A device for processing missing values according to the characteristics of the present invention to achieve the above object,
결측치 처리를 위한 장치로서,As a device for processing missing values,
결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기;A parameter UI input device for receiving parameters for processing missing values so that data with missing values can be analyzed, and for loading data subject to missing value processing;
상기 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기; 및a missing value remover for deleting invalid columns and rows containing missing values using parameters for processing missing values input through the parameter UI input device and data subject to loaded missing value processing; and
상기 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하는 것을 그 구성상의 특징으로 한다.Its structural feature includes a missing value processor that removes the missing values through the missing value remover, estimates the missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the operation again, and checks the results of the missing value processing.
바람직하게는, 상기 결측치 제거기는,Preferably, the missing value remover,
상기 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하되, 입력된 데이터에서 첫 번째로 제거할 컬럼(column)과 로(row)를 입력된 파라미터의 삭제 기준에 따라 제거를 진행하는 첫 번째 삭제 제거부;Parameters for missing value processing input through the parameter UI input device and data subject to loaded missing value processing are used, and the column and row to be removed first from the input data are selected among the input parameters. A first deletion removal unit that performs removal according to deletion criteria;
로(row)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 로(row)에서의 비유효치의 개수가 파라미터의 입력된 비율보다 크면 해당 로(row)는 분석 데이터에서 삭제하는 행 비유효치 처리부;If characters other than numbers are entered in a row in addition to missing values, and the number of invalid values in the row, including the number of values outside the normal value, is greater than the input ratio of the parameter, the row is analyzed. Row invalid value processing unit to delete from data;
상기 행 비유효치 처리부의 처리 결과 이후, 파라미터의 결측률(missing rate(row))을 적용하여 로(row)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 로(row)는 삭제하는 행 결측치 처리부;After the processing result of the row invalid value processing unit, the missing rate (row) of the parameter is applied, and if the number of missing values in a row is greater than the missing rate (column), the corresponding row (row) is a row missing value processing unit to delete;
컬럼(column)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 컬럼(column)에서의 비유효치의 개수가 행별 삭제(rowwise deletion)의 파라미터의 입력된 비율보다 크면 해당 컬럼(column)은 분석 데이터에서 삭제하는 열 비유효치 처리부; 및If characters other than numbers are entered in the column in addition to missing values, and the number of invalid values in the column, including the number of values that are outside the normal value, is greater than the input rate of the rowwise deletion parameter, A column invalid value processor that deletes the corresponding column from the analysis data; and
상기 열 비유효치 처리부의 처리 결과 이후, 파라미터의 결측률(missing rate(column))을 적용하여 컬럼(column)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 컬럼(column)을 삭제하는 열 결측치 처리부를 포함하여 구성할 수 있다.After the processing result of the column invalid value processing unit, the missing rate (column) of the parameter is applied and if the number of missing values in the column is greater than the missing rate (column), the corresponding column (column) It can be configured to include a column missing value processing unit that deletes .
더욱 바람직하게는, 상기 결측치 처리기는,More preferably, the missing value processor,
상기 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 주성분 분석을 위한 데이터 표준화를 진행하는 데이터 표준화 처리부;a data standardization processing unit that removes missing values through the missing value remover and standardizes data for principal component analysis on the remaining result data;
상기 데이터 표준화 처리부를 통해 표준화를 진행한 데이터에서 결측치 처리를 위해 첫 번째 분석 과정을 수행하며, 결측 위치에 컬럼(column)과 로(row)의 평균값을 입력하고 주성분 분석 과정을 진행하는 결측치 최초 분석부;The first analysis process is performed to process missing values in the data standardized through the data standardization processing unit, and the average value of the column and row is input into the missing position and the principal component analysis process is performed. wealth;
상기 결측치 최초 분석부를 통해 계산된 결측 위치의 추정값을 결측치 위치에 채우고, 다시 추정값을 계산하는 과정을 진행하는 추정 결측치 분석부;an estimated missing value analysis unit that fills the missing value positions with the estimated value of the missing position calculated through the missing value initial analysis unit and proceeds with the process of calculating the estimated value again;
상기 추정 결측치 분석부에서 진행된 결과를 평가하고, 다시 추정 결측치 분석부의 과정을 진행할지를 결정하는 결측치 처리 계속 진행 확인부; 및a missing value processing continuation confirmation unit that evaluates the results of the estimated missing value analysis unit and determines whether to proceed with the estimated missing value analysis unit again; and
상기 결측치 처리 계속 진행 확인부의 결정으로, 결측치의 처리가 끝난 데이터를 다시 환원하는 작업을 진행하는 데이터 환원부를 포함하여 구성할 수 있다.Based on the decision of the confirmation unit to continue processing the missing values, the data reduction unit may be configured to restore the data for which the processing of the missing values has been completed.
바람직하게는, 상기 파라미터 UI 입력기는,Preferably, the parameter UI input device is:
결측치 처리를 위한 파라미터 입력의 사용자 인터페이스(User Interface)로 구성하되, UI의 좌변으로 각 입력 파라미터의 내용이 정의되고, UI의 우변으로 각 입력 파라미터의 내용에 대한 파라미터 입력창이 배치되며, 각 파라미터의 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하되, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용될 수 있다.It consists of a user interface for parameter input for missing value processing. The contents of each input parameter are defined on the left side of the UI, a parameter input window for the contents of each input parameter is placed on the right side of the UI, and the contents of each parameter are defined. The input window displays the default value (default value) of each parameter, but when the user enters the desired value, it is changed to the entered value and can be used to process missing values.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 결측치 처리를 위한 방법은,The method for processing missing values according to the characteristics of the present invention to achieve the above purpose is:
결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기; 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기; 및 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하는 결측치 처리를 위한 장치에서 각 단계가 처리되며,A parameter UI input device for receiving parameters for processing missing values so that data with missing values can be analyzed, and for loading data subject to missing value processing; A missing value remover for deleting invalid columns and rows containing missing values using parameters for processing missing values input through a parameter UI input device and data subject to loaded missing value processing; And each step in the device for missing value processing, including a missing value processor that removes missing values through a missing value remover, estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the operation again, and checks the results of missing value processing. is processed,
(1) 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받는 단계;(1) receiving parameters for processing missing values so that data with missing values can be analyzed;
(2) 결측치 처리 대상이 되는 데이터를 로드 받아 결측치 처리를 위한 데이터를 적재하는 단계;(2) loading data subject to missing value processing and loading data for missing value processing;
(3) 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하는 단계;(3) deleting invalid columns and rows containing missing values using parameters for missing value processing and loaded data subject to missing value processing;
(4) 상기 단계 (3)을 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우는 단계; 및(4) estimating missing values from the resulting data remaining after removal through step (3) above and filling the missing values; and
(5) 상기 단계 (4) 이후, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.(5) After step (4), the process is characterized in that it includes a step of evaluating whether to repeat the task again and checking the results of processing missing values.
바람직하게는, 상기 단계 (3)에서는,Preferably, in step (3),
(3-1) 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하되, 입력된 데이터에서 첫 번째로 제거할 컬럼(column)과 로(row)를 입력된 파라미터의 삭제 기준에 따라 제거를 진행하는 첫 번째 삭제 제거 진행 단계;(3-1) Use the parameters for missing value processing input through the parameter UI input device and the loaded data subject to missing value processing, and select the column and row to be removed first from the input data. A first deletion removal process step in which removal is performed according to the deletion criteria of the input parameters;
(3-2) 로(row)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 로(row)에서의 비유효치의 개수가 파라미터의 입력된 비율보다 크면 해당 로(row)는 분석 데이터에서 삭제하는 행 비유효치 처리 단계;(3-2) If characters other than numbers are entered in the row in addition to missing values, if the number of invalid values in the row, including the number of values outside the normal value, is greater than the input ratio of the parameter, the corresponding row (row) is a row invalid value processing step to delete from analysis data;
(3-3) 상기 단계 (3-2)의 처리 결과 이후, 파라미터의 결측률(missing rate(row))을 적용하여 로(row)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 로(row)는 삭제하는 행 결측치 처리 단계;(3-3) After the processing result of step (3-2), the missing rate (row) of the parameter is applied so that the number of missing values in the row is greater than the missing rate (column). a row missing value processing step of deleting the corresponding row if it is large;
(3-4) 컬럼(column)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 컬럼(column)에서의 비유효치의 개수가 행별 삭제(rowwise deletion)의 파라미터의 입력된 비율보다 크면 해당 컬럼(column)은 분석 데이터에서 삭제하는 열 비유효치 처리 단계; 및(3-4) If characters other than numbers are entered in the column in addition to missing values, the number of invalid values in the column, including the number of values that are outside the normal value, is set to the parameter for rowwise deletion. a column invalid value processing step of deleting the corresponding column from the analysis data if it is greater than the input ratio; and
(3-5) 상기 단계 (3-4)의 처리 결과 이후, 파라미터의 결측률(missing rate(column))을 적용하여 컬럼(column)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 컬럼(column)을 삭제하는 열 결측치 처리 단계를 포함하여 이루어질 수 있다.(3-5) After the processing result of step (3-4), the missing rate (column) of the parameter is applied so that the number of missing values in the column is greater than the missing rate (column). If it is large, it may include a column missing value processing step of deleting the corresponding column.
더욱 바람직하게는, 상기 단계 (4)에서는,More preferably, in step (4),
(4-1) 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 주성분 분석을 위한 데이터 표준화를 진행하는 데이터 표준화 처리 단계;(4-1) Data standardization processing step of removing missing values through a remover and standardizing data for principal component analysis on the remaining result data;
(4-2) 상기 단계 (4-1)을 통해 표준화를 진행한 데이터에서 결측치 처리를 위해 첫 번째 분석 과정을 수행하며, 결측 위치에 컬럼(column)과 로(row)의 평균값을 입력하고 주성분 분석 과정을 진행하는 결측치 최초 분석 단계;(4-2) The first analysis process is performed to handle missing values in the data standardized through step (4-1), and the average value of the column and row is entered at the missing position and the principal component is entered. Initial analysis of missing values during the analysis process;
(4-3) 상기 단계 (4-2)를 통해 계산된 결측 위치의 추정값을 결측치 위치에 채우고, 다시 추정값을 계산하는 과정을 진행하는 추정 결측치 분석 단계;(4-3) an estimated missing value analysis step of filling the missing value location with the estimated value of the missing location calculated through step (4-2) and proceeding with the process of calculating the estimated value again;
(4-4) 상기 단계 (4-3)에서 진행된 결과를 평가하고, 다시 추정 결측치 분석의 단계 (4-3)의 과정을 진행할지를 결정하는 결측치 처리 계속 진행 확인 단계; 및(4-4) a confirmation step to continue missing value processing, which evaluates the results from step (4-3) and decides whether to proceed with step (4-3) of estimated missing value analysis again; and
(4-5) 상기 단계 (4-4)의 결정으로, 결측치의 처리가 끝난 데이터를 다시 환원하는 작업을 진행하는 데이터 환원 단계를 포함하여 이루어질 수 있다.(4-5) The decision in step (4-4) may include a data reduction step in which data that has been processed for missing values is restored.
바람직하게는, 상기 파라미터 UI 입력기는,Preferably, the parameter UI input device is:
결측치 처리를 위한 파라미터 입력의 사용자 인터페이스(User Interface)로 구성하되, UI의 좌변으로 각 입력 파라미터의 내용이 정의되고, UI의 우변으로 각 입력 파라미터의 내용에 대한 파라미터 입력창이 배치되며, 각 파라미터의 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하되, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용될 수 있다.It consists of a user interface for parameter input for missing value processing. The contents of each input parameter are defined on the left side of the UI, a parameter input window for the contents of each input parameter is placed on the right side of the UI, and the contents of each parameter are defined. The input window displays the default value (default value) of each parameter, but when the user enters the desired value, it is changed to the entered value and can be used to process missing values.
본 발명에서 제안하고 있는 결측치 처리를 위한 장치 및 방법에 따르면, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기와, 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기와, 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하여 구성함으로써, 생산관리 시스템에서 수집되는 데이터에서 결측치 발생 시, 데이터 분석이 가능하도록 결측치를 추정하여 보정할 수 있도록 할 수 있다.According to the device and method for processing missing values proposed by the present invention, a parameter UI input device and a parameter for receiving parameters for processing missing values so that data with missing values can be analyzed, and loading data subject to processing missing values. Parameters for missing value processing input through the UI input device, a missing value remover to delete invalid columns and rows containing missing values using the loaded data subject to missing value processing, and a missing value remover. From the data collected from the production management system, it is configured to include a missing value processor that removes and estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the work again, and checks the results of processing the missing values. When missing values occur, the missing values can be estimated and corrected to enable data analysis.
또한, 본 발명의 결측치 처리를 위한 장치 및 방법에 따르면, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터 입력 UI와, 입력 파라미터로 데이터의 컬럼과 로를 제거하고 남아 있는 결측치를 높은 정확도도 추정하여 보정할 수 있도록 함으로써, 분석을 위한 데이터에서 보다 정확하게 결측치 처리를 수행함은 물론, 결측치 처리를 위해 필요한 파라미터를 입력받을 수 있는 사용자 인터페이스 방식의 제공을 통해 결측치 처리와 평가 과정이 더욱 향상될 수 있도록 할 수 있다.In addition, according to the device and method for processing missing values of the present invention, there is a parameter input UI for processing missing values so that data with missing values can be analyzed, columns and rows of data are removed as input parameters, and the remaining missing values are processed with high accuracy. By allowing for estimation and correction, missing value processing can be performed more accurately in data for analysis, and the missing value processing and evaluation process can be further improved by providing a user interface method that can input the parameters necessary for missing value processing. You can do it.
도 1은 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 구성을 기능블록으로 도시한 도면.
도 2는 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 결측치 제거기의 구성을 기능블록으로 도시한 도면.
도 3은 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 결측치 처리기의 구성을 기능블록으로 도시한 도면.
도 4는 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 파라미터 UI 입력기의 일례의 구성을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 결측치 처리를 위한 방법의 흐름을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S300의 동작 흐름을 도시한 도면.
도 7은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S400의 동작 흐름을 도시한 도면.
도 8은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S420의 동작 흐름을 도시한 도면.
도 9는 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S430의 동작 흐름을 도시한 도면.
도 10은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S440의 동작 흐름을 도시한 도면.Figure 1 is a diagram illustrating the configuration of a device for processing missing values in functional blocks according to an embodiment of the present invention.
Figure 2 is a diagram showing the configuration of a missing value remover of a device for processing missing values according to an embodiment of the present invention in functional blocks.
Figure 3 is a diagram illustrating the configuration of a missing value processor of a device for processing missing values in functional blocks according to an embodiment of the present invention.
Figure 4 is a diagram illustrating an example configuration of a parameter UI input device of a device for processing missing values according to an embodiment of the present invention.
Figure 5 is a diagram illustrating the flow of a method for processing missing values according to an embodiment of the present invention.
Figure 6 is a diagram illustrating the operational flow of step S300 in the method for processing missing values according to an embodiment of the present invention.
Figure 7 is a diagram illustrating the operational flow of step S400 in the method for processing missing values according to an embodiment of the present invention.
Figure 8 is a diagram illustrating the operational flow of step S420 in the method for processing missing values according to an embodiment of the present invention.
Figure 9 is a diagram illustrating the operation flow of step S430 in the method for processing missing values according to an embodiment of the present invention.
Figure 10 is a diagram illustrating the operation flow of step S440 in the method for processing missing values according to an embodiment of the present invention.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.Hereinafter, with reference to the attached drawings, preferred embodiments will be described in detail so that those skilled in the art can easily practice the present invention. However, when describing preferred embodiments of the present invention in detail, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the gist of the present invention, the detailed description will be omitted. In addition, the same symbols are used throughout the drawings for parts that perform similar functions and actions.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.In addition, throughout the specification, when a part is said to be 'connected' to another part, this does not only mean 'directly connected', but also 'indirectly connected' with another element in between. Includes. Additionally, ‘including’ a certain component does not mean excluding other components, but rather including other components, unless specifically stated to the contrary.
도 1은 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 구성을 기능블록으로 도시한 도면이고, 도 2는 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 결측치 제거기의 구성을 기능블록으로 도시한 도면이며, 도 3은 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 결측치 처리기의 구성을 기능블록으로 도시한 도면이고, 도 4는 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 파라미터 UI 입력기의 일례의 구성을 도시한 도면이다. 도 1 내지 도 4에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 결측치 처리를 위한 장치(100)는, 파라미터 UI 입력기(110), 결측치 제거기(120), 및 결측치 처리기(130)를 포함하여 구성될 수 있다.Figure 1 is a diagram showing the configuration of a device for processing missing values according to an embodiment of the present invention in functional blocks, and Figure 2 is a functional block diagram showing the configuration of a missing value remover of a device for processing missing values according to an embodiment of the present invention. It is a diagram shown in blocks, and Figure 3 is a diagram showing the configuration of a missing value processor of a device for processing missing values according to an embodiment of the present invention as a functional block, and Figure 4 is a diagram showing missing value processing according to an embodiment of the present invention. This is a diagram showing the configuration of an example of a parameter UI input device for a device. As shown in FIGS. 1 to 4, the
파라미터 UI 입력기(110)는, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 구성이다. 이러한 파라미터 UI 입력기(110)는 도 4에 도시된 바와 같이, 결측치 처리를 위한 파라미터 입력의 사용자 인터페이스(User Interface)로 구성하되, UI의 좌변으로 각 입력 파라미터의 내용이 정의되고, UI의 우변으로 각 입력 파라미터의 내용에 대한 파라미터 입력창이 배치되며, 각 파라미터의 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하되, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용될 수 있다. 여기서, 파라미터 UI 입력기(110)는 결측치가 있는 데이터의 분석을 위한 파라미터를 입력받는 사용자 인터페이스(UI) 방식으로 GUI 형태로 구성될 수 있다.The parameter
또한, 파라미터 UI 입력기(110)는 도 4에 도시된 바와 같이, 각 입력 파라미터의 내용은 좌변의 창(11, 12, 13, 14, 15, 16, 17)에 나타내고, 각 입력 파라미터의 입력은 우변의 입력창(18, 19, 20, 21, 22, 23, 24)에 배치된다. 여기서, 각 파라미터 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하며, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용될 수 있도록 기능하게 된다.In addition, as shown in FIG. 4, the parameter
또한, 파라미터 UI 입력기(110)는 결측치 처리를 위한 파라미터의 입력 과정을 위해 도 4에 도시된 바와 같이, UI를 출력하고, 사용자의 입력한 값을 이후 결측치 처리에 사용할 수 있다. 여기서, 결측치 처리를 위한 데이터의 적재는 결측치 처리 대상이 되는 데이터를 로드하는 과정으로, 사용자가 UI 상에서 데이터를 복사해서 붙여넣기를 하거나, 엑셀 파일 형식, CSV(Comma-separated values) 파일 형식을 로드하거나, 아니면 데이터 분석 시스템에서 자동으로 서머리된 데이터를 로드할 수 있다.Additionally, the parameter
결측치 제거기(120)는, 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 구성이다. 이러한 결측치 제거기(120)는 도 2에 도시된 바와 같이, 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하되, 입력된 데이터에서 첫 번째로 제거할 컬럼(column)과 로(row)를 입력된 파라미터의 삭제 기준에 따라 제거를 진행하는 첫 번째 삭제 제거부(121)와, 로(row)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 로(row)에서의 비유효치의 개수가 파라미터의 입력된 비율보다 크면 해당 로(row)는 분석 데이터에서 삭제하는 행 비유효치 처리부(122)와, 행 비유효치 처리부(122)의 처리 결과 이후, 파라미터의 결측률(missing rate(row))을 적용하여 로(row)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 로(row)는 삭제하는 행 결측치 처리부(123)와, 컬럼(column)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 컬럼(column)에서의 비유효치의 개수가 행별 삭제(rowwise deletion)의 파라미터의 입력된 비율보다 크면 해당 컬럼(column)은 분석 데이터에서 삭제하는 열 비유효치 처리부(124)와, 열 비유효치 처리부(124)의 처리 결과 이후, 파라미터의 결측률(missing rate(column))을 적용하여 컬럼(column)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 컬럼(column)을 삭제하는 열 결측치 처리부(125)를 포함하여 구성할 수 있다.The missing
결측치 처리기(130)는, 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 구성이다. 이러한 결측치 처리기(130)는 결측치를 채우는 작업을 진행하고, 그 다음 부분은 결측치를 예측 및 추가하며, 결측기 제거 과정의 결과 데이터에서 결측치를 모델링하고, 추정하며, 결측치를 채우며 다시 작업을 반복할지를 평가하는 작업을 한다. 또한, 결측치 처리를 위해 변환한 것을 환원하고(주성분 분석을 위한 주성분 변환을 원래의 데이터로 환원) 최종 결과를 확인하는 과정을 수행할 수 있다.The missing
또한, 결측치 처리기(130)는 도 3에 도시된 바와 같이, 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 주성분 분석을 위한 데이터 표준화를 진행하는 데이터 표준화 처리부(131)와, 데이터 표준화 처리부(131)를 통해 표준화를 진행한 데이터에서 결측치 처리를 위해 첫 번째 분석 과정을 수행하며, 결측 위치에 컬럼(column)과 로(row)의 평균값을 입력하고 주성분 분석 과정을 진행하는 결측치 최초 분석부(132)와, 결측치 최초 분석부(132)를 통해 계산된 결측 위치의 추정값을 결측치 위치에 채우고, 다시 추정값을 계산하는 과정을 진행하는 추정 결측치 분석부(133)와, 추정 결측치 분석부(133)에서 진행된 결과를 평가하고, 다시 추정 결측치 분석부(133)의 과정을 진행할지를 결정하는 결측치 처리 계속 진행 확인부(134)와, 결측치 처리 계속 진행 확인부(134)의 결정으로, 결측치의 처리가 끝난 데이터를 다시 환원하는 작업을 진행하는 데이터 환원부(135)를 포함하여 구성할 수 있다.In addition, as shown in FIG. 3, the missing
도 5는 본 발명의 일실시예에 따른 결측치 처리를 위한 방법의 흐름을 도시한 도면이고, 도 6은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S300의 동작 흐름을 도시한 도면이며, 도 7은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S400의 동작 흐름을 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 결측치 처리를 위한 방법은, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기(110); 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기(120); 및 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기(130)를 포함하는 결측치 처리를 위한 장치(100)에서 각 단계가 처리되며, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받는 단계(S100), 결측치 처리 대상이 되는 데이터를 로드 받아 결측치 처리를 위한 데이터를 적재하는 단계(S200), 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하는 단계(S300), 단계 S300을 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우는 단계(S400), 및 단계 S400 이후, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 단계(S500)를 포함하여 구현될 수 있다.FIG. 5 is a diagram showing the flow of a method for processing missing values according to an embodiment of the present invention, and FIG. 6 is a diagram showing the operation flow of step S300 in the method for processing missing values according to an embodiment of the present invention. It is a diagram, and FIG. 7 is a diagram illustrating the operation flow of step S400 in the method for processing missing values according to an embodiment of the present invention. As shown in FIG. 5, the method for processing missing values according to an embodiment of the present invention involves receiving parameters for processing missing values so that data with missing values can be analyzed, and loading data subject to missing value processing. Parameter
단계 S100에서는, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 단계 S200에서는 결측치 처리 대상이 되는 데이터를 로드 받아 결측치 처리를 위한 데이터를 적재한다. 이러한 단계 S100 및 단계 S200에서의 파라미터 입력 및 데이터 적재는 파라미터 UI 입력기(110)를 통해 실행된다. 여기서, 파라미터 UI 입력기(110)는 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 구성이다.In step S100, parameters for missing value processing are input so that data with missing values can be analyzed, and in step S200, data subject to missing value processing is loaded and data for missing value processing is loaded. Parameter input and data loading in steps S100 and S200 are performed through the parameter
또한, 파라미터 UI 입력기(110)는 도 4에 도시된 바와 같이, 결측치 처리를 위한 파라미터 입력의 사용자 인터페이스(User Interface)로 구성하되, UI의 좌변으로 각 입력 파라미터의 내용이 정의되고, UI의 우변으로 각 입력 파라미터의 내용에 대한 파라미터 입력창이 배치되며, 각 파라미터의 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하되, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용될 수 있다. 여기서, 파라미터 UI 입력기(110)는 결측치가 있는 데이터의 분석을 위한 파라미터를 입력받는 사용자 인터페이스(UI) 방식으로 GUI 형태로 구성될 수 있다.In addition, as shown in FIG. 4, the parameter
또한, 파라미터 UI 입력기(110)는 도 4에 도시된 바와 같이, 각 입력 파라미터의 내용은 좌변의 창(11, 12, 13, 14, 15, 16, 17)에 나타내고, 각 입력 파라미터의 입력은 우변의 입력창(18, 19, 20, 21, 22, 23, 24)에 배치된다. 여기서, 각 파라미터 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하며, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용될 수 있도록 기능하게 된다.In addition, as shown in FIG. 4, the parameter
또한, 파라미터 UI 입력기(110)는 결측치 처리를 위한 파라미터의 입력 과정을 위해 도 4에 도시된 바와 같이, UI를 출력하고, 사용자의 입력한 값을 이후 결측치 처리에 사용할 수 있다. 여기서, 결측치 처리를 위한 데이터의 적재는 결측치 처리 대상이 되는 데이터를 로드하는 과정으로, 사용자가 UI 상에서 데이터를 복사해서 붙여넣기를 하거나, 엑셀 파일 형식, CSV(Comma-separated values) 파일 형식을 로드하거나, 아니면 데이터 분석 시스템에서 자동으로 서머리된 데이터를 로드할 수 있다.Additionally, the parameter
단계 S300에서는, 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제한다. 이러한 단계 S300에서는 도 6에 도시된 바와 같이, 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하되, 입력된 데이터에서 첫 번째로 제거할 컬럼(column)과 로(row)를 입력된 파라미터의 삭제 기준에 따라 제거를 진행하는 첫 번째 삭제 제거 진행 단계(S310)와, 로(row)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 로(row)에서의 비유효치의 개수가 파라미터의 입력된 비율보다 크면 해당 로(row)는 분석 데이터에서 삭제하는 행 비유효치 처리 단계(S320)와, 단계 S320의 처리 결과 이후, 파라미터의 결측률(missing rate(row))을 적용하여 로(row)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 로(row)는 삭제하는 행 결측치 처리 단계(S330)와, 컬럼(column)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 컬럼(column)에서의 비유효치의 개수가 행별 삭제(rowwise deletion)의 파라미터의 입력된 비율보다 크면 해당 컬럼(column)은 분석 데이터에서 삭제하는 열 비유효치 처리 단계(S340)와, 단계 S340의 처리 결과 이후, 파라미터의 결측률(missing rate(column))을 적용하여 컬럼(column)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 컬럼(column)을 삭제하는 열 결측치 처리 단계(S350)를 포함하여 이루어질 수 있다.In step S300, invalid columns and rows containing missing values are deleted using parameters for missing value processing and loaded data subject to missing value processing. In this step S300, as shown in FIG. 6, parameters for missing value processing input through the parameter
또한, 단계 S300에서는 단계 S100과 단계 S200 과정에서 획득한 데이터로 진행한다. 먼저, 단계 S310에서는 First Deletion 제거 단계로서, 입력된 데이터에서 첫 번째로 제거할 행과 열을 기준에 따라 제거를 진행한다. 이때, 행과 열 중 하나의 방향으로만 진행하며, 도 4에서 선택된 행과 열에 따라 19와 20의 기준을 적용하여 제거하게 된다. 또한, 110의 UI에서 컬럼(Column)이 선택되면 19에 입력된 First Deletion rate로 입력된 데이터에서 각 열 중 결측치의 비율이 First Deletion rate보다 크면 해당 열을 분석 데이터에서 삭제하고, 110의 UI에서 Row가 선택되면 20에 입력된 First Deletion rate를 이용하여 입력된 각 행 중 결측치의 비율이 First Deletion rate보다 크면 해당 행을 분석 데이터에서 삭제한다. 이때, First Deletion은 18에서 선택된 방향 하나만 삭제를 진행한다.Additionally, step S300 proceeds with data obtained in steps S100 and S200. First, in step S310, which is the First Deletion removal step, the row and column to be removed first from the input data are removed according to the criteria. At this time, it progresses in only one direction among rows and columns, and is removed by applying the criteria of 19 and 20 according to the row and column selected in FIG. 4. In addition, when a column is selected in the UI of 110, if the ratio of missing values in each column in the data entered with the First Deletion rate entered in 19 is greater than the First Deletion rate, the corresponding column is deleted from the analysis data, and in the UI of 110, When a row is selected, if the ratio of missing values among each row entered using the First Deletion rate entered at 20 is greater than the First Deletion rate, the corresponding row is deleted from the analysis data. At this time, First Deletion deletes only the direction selected in 18.
또한, 단계 S320에서는 행 비유효치 처리 과정으로, 24에서 입력된 비율을 적용한다. 이러한 단계 S320 과정은 행에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함해서 처리하며 행에서 비 유효치의 개수가 24에서 입력된 비율보다 크면 해당 행은 분석 데이터에서 삭제가 된다. 여기서, 단계 S320 과정에서는 결측치와 문자 외에 정상 범위를 벗어난 데이터도 포함이 되어 비율을 계산하는데 정상 범위는 사용자가 임의로 정하거나 아니면, 도 4에 입력부를 추가하여 입력받아 정하거나, 알고리즘 내부적으로 계산하여 사용할 수도 있다.Additionally, in step S320, the ratio input at 24 is applied as a row invalid value processing process. In this step S320 process, if non-numeric characters are entered in addition to missing values in a row, the number of values that are outside the normal value is also included and processed. If the number of invalid values in a row is greater than the ratio entered in 24, the row is deleted from the analysis data. It becomes. Here, in step S320, in addition to missing values and characters, data outside the normal range are also included to calculate the ratio. The normal range is arbitrarily determined by the user, or determined by input by adding an input unit in FIG. 4, or calculated internally in the algorithm. You can also use it.
또한, 단계 S330에서는 행 결측치 처리 과정으로, 단계 S320 과정의 결과로 진행되며, 22에서 입력된 파라미터를 적용한다. 단계 S320 과정은 행에서 결측치의 개수가 21에 입력된 비율보다 크면 해당 행은 삭제한다.Additionally, in step S330, the row missing value processing process is performed as a result of step S320, and the parameters input in
또한, 단계 S340에서는 열 비유효치 처리 과정으로, 23에서 입력된 비율을 적용한다. 단계 S340 과정은 열에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함해서 처리하며 열에서 비 유효치의 개수가 24에서 입력된 비율보다 크면 그 열은 분석 데이터에서 삭제가 된다. 이러한 단계 S340 과정에서는 결측치와 문자 외에 정상 범위를 벗어난 데이터도 포함이 되어 비율을 계산하는데 정상 범위는 사용자가 임의로 정하거나 아니면, 도 4에 입력부를 추가하여 입력받아 정하거나, 알고리즘 내부적으로 계산하여 사용할 수도 있다.Additionally, in step S340, the ratio input in
또한, 단계 S350에서는 열 결측치 처리 과정으로, 단계 S340 과정의 결과로 진행되며, 21에서 입력된 파라미터를 적용한다. 이러한 단계 S350 과정은 열에서 결측치의 개수가 21에 입력된 비율보다 크면 해당 행은 삭제한다.In addition, step S350 is a column missing value processing process, which is carried out as a result of step S340, and the parameters input in
단계 S400에서는 S300을 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우고, 단계 S500에서는 단계 S400 이후, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인한다. 이러한 단계 S400 및 단계 S500의 처리 과정은 결측기 처리기(130)를 통해 실행될 수 있다.In step S400, missing values are estimated from the remaining result data after removal through S300 and the missing values are filled in. In step S500, after step S400, an operation is performed to evaluate whether to repeat the operation again, and the result of processing the missing values is checked. These processing steps S400 and S500 may be executed through the missing
또한, 단계 S400에서는 도 7에 도시된 바와 같이, 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 주성분 분석을 위한 데이터 표준화를 진행하는 데이터 표준화 처리 단계(S410)와, 단계 S410을 통해 표준화를 진행한 데이터에서 결측치 처리를 위해 첫 번째 분석 과정을 수행하며, 결측 위치에 컬럼(column)과 로(row)의 평균값을 입력하고 주성분 분석 과정을 진행하는 결측치 최초 분석 단계(S420)와, 단계 S420을 통해 계산된 결측 위치의 추정값을 결측치 위치에 채우고, 다시 추정값을 계산하는 과정을 진행하는 추정 결측치 분석 단계(S430)와, 단계 S430에서 진행된 결과를 평가하고, 다시 추정 결측치 분석의 단계 S430의 과정을 진행할지를 결정하는 결측치 처리 계속 진행 확인 단계(S440)와, 단계 S440의 결정으로, 결측치의 처리가 끝난 데이터를 다시 환원하는 작업을 진행하는 데이터 환원 단계(S450)를 포함하여 이루어질 수 있다. 여기서, 단계 S410에서는 데이터 표준화 과정으로, 이후 과정에서 주성분 분석을 이용하므로 주성분 분석에서 필수적인 데이터 표준화를 진행하고, 단계 S420에서는 결측치 최초 분석 과정으로, 결측치 처리를 위해 첫 번째 과정을 수행하여 결측 위치에 행과 열의 평균값을 입력하고, 주성분 분석 후 주성분을 분석하는 과정이 진행되며, 단계 S430에서는 추정 결측치 분석 과정으로, 단계 S420 과정에 계산된 결측 위치의 추정값을 결측치 위치에 채우고 다시 추정값을 계산하는 과정을 진행하고, 단계 S440에서는 결측치 처리 계속 진행 확인 과정으로, 단계 S430에서 진행된 결과를 평가하고, 다시 단계 S430 과정을 진행할지를 결정하는 역할을 하며, 단계 S450에서는 데이터 환원 과정으로, 결측치 처리가 끝난 데이터를 다시 환원하는 작업을 하며, 이러한 단계 S450 과정은 PCA 변환 후 진행하였으므로 실제 데이터 영역으로 환원하는 작업이 수행하게 된다.In addition, in step S400, as shown in FIG. 7, a data standardization processing step (S410) of removing missing values through the
도 8은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S420의 동작 흐름을 도시한 도면이다. 도 8에 도시된 바와 같이, 단계 S410 과정의 결과 데이터를 이용하여 진행되면 데이터에서 결측치는 그 결측치가 속한 행과 열의 평균을 이용하여 채우는 단계(S421)와, 단계 S421 과정에서 결측치가 모두 채워진 데이터를 주성분 분석을 이용하여 최적의 주성분 개수를 선택하는 과정의 단계(S422)와, 단계 S422 과정의 최적의 주성분으로 진행을 하며 고유벡터와 평균을 이용하여 단계 S421 과정에서 평균으로 채운 결측치의 추정 값을 계산하는 단계(S423)를 포함하여 이루어질 수 있다.Figure 8 is a diagram illustrating the operation flow of step S420 in the method for processing missing values according to an embodiment of the present invention. As shown in Figure 8, when the process is performed using the result data of step S410, the missing values in the data are filled using the average of the row and column to which the missing values belong (step S421), and the data in which all the missing values are filled in step S421. Step S422 of the process of selecting the optimal number of principal components using principal component analysis, proceeding with the optimal principal components of step S422, and using eigenvectors and averages, the estimated value of the missing values filled with the average in step S421. This may include calculating (S423).
도 9는 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S430의 동작 흐름을 도시한 도면이다. 도 9에 도시된 바와 같이, 단계 S423 과정에서 계산된 결측치의 추정치를 각각의 결측 위치에 채우는 과정을 진행하는 단계(S431)와, 단계 S431 과정에서 채워진 데이터로 최적의 주성분 개수를 선택하는 단계(S432)와, 단계 S432 과정의 최적의 주성분 수로 고유벡터와 결측치의 추정치를 계산하는 단계(S433)를 포함하여 이루어질 수 있다.Figure 9 is a diagram illustrating the operation flow of step S430 in the method for processing missing values according to an embodiment of the present invention. As shown in FIG. 9, a step (S431) of filling each missing position with the estimate of the missing value calculated in step S423, and a step of selecting the optimal number of principal components with the data filled in step S431 ( It may include a step S432) and a step S433 of calculating an estimate of the eigenvector and the missing value using the optimal number of principal components in step S432.
도 10은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S440의 동작 흐름을 도시한 도면이다. 도 10에 도시된 바와 같이, 단계 S440 과정은, 이전 과정의 결과로 진행을 하며 주성분 수만큼 이전의 고유벡터와 현재 고유벡터의 차를 계산하는 단계(S441)와, 이전의 고유벡터에 대한 주성분의 수만큼 고유벡터 차의 총 제곱함(Sum Square)을 계산하는 단계(S442)와, 이전 고유벡터와 현재 고유벡터의 차에 대한 주성분 개수만큼 총 제곱합(Sum Square)을 계산하는 단계(S443)와, 이전 과정의 결과로 단계 S450 과정으로 진행하여 데이터 환원 후 종료를 할지 다시 단계 S430 과정으로 진행하여 결측치의 추정치 정확도를 높일지를 선택하는 단계(S444)를 포함하여 이루어질 수 있다. 즉, 단계 S430 과정으로 진행하여 단계 S440 과정을 다시 수행하여 결측치의 추정치의 정확도가 더 높아지며, 원하는 정도의 정확도를 위하여 여러 번 반복 진행을 할 수 있다.Figure 10 is a diagram illustrating the operation flow of step S440 in the method for processing missing values according to an embodiment of the present invention. As shown in FIG. 10, the step S440 process proceeds with the result of the previous process and includes a step (S441) of calculating the difference between the previous eigenvector and the current eigenvector by the number of main components, and the main component for the previous eigenvector. A step of calculating the sum square of the eigenvector difference as the number of (S442), and a step of calculating the sum square as the number of main components of the difference between the previous eigenvector and the current eigenvector (S443) As a result of the previous process, it may include a step (S444) of selecting whether to proceed to step S450 and end after data reduction or to proceed again to step S430 to increase the accuracy of the estimate of the missing value. That is, by proceeding to step S430 and performing step S440 again, the accuracy of the estimate of the missing value is further increased, and the process can be repeated several times to achieve the desired level of accuracy.
상술한 바와 같이, 본 발명의 일실시예에 따른 결측치 처리를 위한 장치 및 방법은, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기와, 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기와, 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하여 구성함으로써, 생산관리 시스템에서 수집되는 데이터에서 결측치 발생 시, 데이터 분석이 가능하도록 결측치를 추정하여 보정할 수 있도록 할 수 있으며, 특히, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터 입력 UI와, 입력 파라미터로 데이터의 컬럼과 로를 제거하고 남아 있는 결측치를 높은 정확도도 추정하여 보정할 수 있도록 함으로써, 분석을 위한 데이터에서 보다 정확하게 결측치 처리를 수행함은 물론, 결측치 처리를 위해 필요한 파라미터를 입력받을 수 있는 사용자 인터페이스 방식의 제공을 통해 결측치 처리와 평가 과정이 더욱 향상될 수 있도록 할 수 있게 된다.As described above, the apparatus and method for processing missing values according to an embodiment of the present invention is for receiving parameters for processing missing values so that data with missing values can be analyzed, and loading data subject to processing for missing values. Parameters for processing missing values input through the parameter UI input device and the parameter UI input device, and parameters for deleting invalid columns and rows containing missing values using the loaded data subject to processing missing values. Production management is done by including a missing value remover, a missing value handler that estimates missing values from the remaining result data after removal through the missing value remover, fills in the missing values, evaluates whether to repeat the work again, and checks the results of missing value processing. When missing values occur in data collected from the system, the missing values can be estimated and corrected to enable data analysis. In particular, the parameter input UI for processing missing values and input parameters can be used to analyze data with missing values. By removing columns and rows of data and allowing the remaining missing values to be estimated and corrected with high accuracy, missing value processing is performed more accurately in data for analysis, as well as a user interface that allows input of parameters necessary for missing value processing. By providing a method, the missing value handling and evaluation process can be further improved.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.The present invention described above can be modified or applied in various ways by those skilled in the art, and the scope of the technical idea according to the present invention should be determined by the claims below.
100: 본 발명의 일실시예에 따른 결측치 처리를 위한 장치
110: 파라미터 UI 입력기
120: 결측치 제거기
121: 첫 번째 삭제 제거부
122: 행 비유효치 처리부
123: 행 결측치 처리부
124: 열 비유효치 처리부
125: 열 결측치 처리부
130: 결측치 처리기
131: 데이터 표준화 처리부
132: 결측치 최초 분석부
133: 추정 결측치 분석부
134: 결측치 처리 계속 진행 확인부
135: 데이터 환원부
S100: 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받는 단계
S200: 결측치 처리 대상이 되는 데이터를 로드 받아 결측치 처리를 위한 데이터를 적재하는 단계
S300: 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하는 단계
S400: 단계 S300을 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우는 단계
S500: 단계 S400 이후, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 단계100: Device for processing missing values according to an embodiment of the present invention
110: Parameter UI input device
120: Missing value remover
121: First deletion removal unit
122: Row invalid value processing unit
123: Row missing value processing unit
124: Heat invalid value processing unit
125: Column missing value processing unit
130: Missing value handler
131: Data standardization processing unit
132: Missing value initial analysis section
133: Estimated missing value analysis unit
134: Confirmation of continuing missing value processing
135: Data reduction unit
S100: Step of receiving parameters for processing missing values so that data with missing values can be analyzed
S200: Step of loading data subject to missing value processing and loading data for missing value processing
S300: Step of deleting invalid columns and rows containing missing values using parameters for missing value processing and loaded data subject to missing value processing.
S400: Step of estimating missing values from the resulting data remaining after removal through step S300 and filling the missing values.
S500: After step S400, a step is performed to evaluate whether to repeat the task again and check the results of processing missing values.
Claims (8)
결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기(110);
상기 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기(120); 및
상기 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기(130)를 포함하되,
상기 결측치 처리기(130)는,
상기 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 주성분 분석을 위한 데이터 표준화를 진행하는 데이터 표준화 처리부(131);
상기 데이터 표준화 처리부(131)를 통해 표준화를 진행한 데이터에서 결측치 처리를 위해 첫 번째 분석 과정을 수행하며, 결측 위치에 컬럼(column)과 로(row)의 평균값을 입력하고 주성분 분석 과정을 진행하는 결측치 최초 분석부(132);
상기 결측치 최초 분석부(132)를 통해 계산된 결측 위치의 추정값을 결측치 위치에 채우고, 다시 추정값을 계산하는 과정을 진행하는 추정 결측치 분석부(133);
상기 추정 결측치 분석부(133)에서 진행된 결과를 평가하고, 다시 추정 결측치 분석부(133)의 과정을 진행할지를 결정하는 결측치 처리 계속 진행 확인부(134); 및
상기 결측치 처리 계속 진행 확인부(134)의 결정으로, 결측치의 처리가 끝난 데이터를 다시 환원하는 작업을 진행하는 데이터 환원부(135)를 포함하여 구성하는 것을 특징으로 하는, 결측치 처리를 위한 장치.
An apparatus 100 for processing missing values, comprising:
a parameter UI input unit 110 for receiving parameters for processing missing values so that data with missing values can be analyzed, and for loading data subject to missing value processing;
Parameters for missing value processing input through the parameter UI input device 110, and missing values for deleting invalid columns and rows containing missing values using the loaded data subject to missing value processing. remover (120); and
It includes a missing value processor 130 that removes through the missing value remover 120, estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the operation again, and checks the result of processing the missing values,
The missing value processor 130,
a data standardization processing unit 131 that removes missing values through the missing value remover 120 and standardizes the remaining result data for principal component analysis;
The first analysis process is performed to process missing values in the data standardized through the data standardization processing unit 131, and the average value of the column and row is input into the missing position and the principal component analysis process is performed. Missing value initial analysis unit 132;
an estimated missing value analysis unit 133 that fills the missing value positions with the estimated value of the missing position calculated through the missing value initial analysis unit 132 and proceeds with calculating the estimated value again;
a missing value processing continuation confirmation unit 134 that evaluates the results of the estimated missing value analysis unit 133 and determines whether to proceed with the estimated missing value analysis unit 133 again; and
An apparatus for processing missing values, characterized in that it includes a data reduction unit (135) that performs the task of restoring the data for which the missing value processing has been completed, based on the decision of the missing value processing confirmation unit (134).
상기 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하되, 입력된 데이터에서 첫 번째로 제거할 컬럼(column)과 로(row)를 입력된 파라미터의 삭제 기준에 따라 제거를 진행하는 첫 번째 삭제 제거부(121);
로(row)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 로(row)에서의 비유효치의 개수가 파라미터의 입력된 비율보다 크면 해당 로(row)는 분석 데이터에서 삭제하는 행 비유효치 처리부(122);
상기 행 비유효치 처리부(122)의 처리 결과 이후, 파라미터의 결측률(missing rate(row))을 적용하여 로(row)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 로(row)는 삭제하는 행 결측치 처리부(123);
컬럼(column)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 컬럼(column)에서의 비유효치의 개수가 행별 삭제(rowwise deletion)의 파라미터의 입력된 비율보다 크면 해당 컬럼(column)은 분석 데이터에서 삭제하는 열 비유효치 처리부(124); 및
상기 열 비유효치 처리부(124)의 처리 결과 이후, 파라미터의 결측률(missing rate(column))을 적용하여 컬럼(column)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 컬럼(column)을 삭제하는 열 결측치 처리부(125)를 포함하여 구성하는 것을 특징으로 하는, 결측치 처리를 위한 장치.
The method of claim 1, wherein the missing value remover 120,
Parameters for missing value processing input through the parameter UI input device 110 and data subject to loaded missing value processing are used, and the column and row to be removed first from the input data are input. a first deletion removal unit 121 that performs removal according to the deletion criteria of the selected parameters;
If characters other than numbers are entered in a row in addition to missing values, and the number of invalid values in the row, including the number of values outside the normal value, is greater than the input ratio of the parameter, the row is analyzed. a row invalid value processing unit 122 to delete from data;
After the processing result of the row invalid value processing unit 122, the missing rate (row) of the parameter is applied, and if the number of missing values in the row is greater than the missing rate (column), the corresponding row (row) is a row missing value processing unit 123 that deletes;
If characters other than numbers are entered in the column in addition to missing values, and the number of invalid values in the column, including the number of values that are outside the normal value, is greater than the input rate of the rowwise deletion parameter, a column invalid value processing unit 124 that deletes the corresponding column from the analysis data; and
After the processing result of the column invalid value processing unit 124, the missing rate (column) of the parameter is applied and if the number of missing values in the column is greater than the missing rate (column), the corresponding column A device for processing missing values, characterized in that it includes a column missing value processing unit 125 that deletes (column).
결측치 처리를 위한 파라미터 입력의 사용자 인터페이스(User Interface)로 구성하되, UI의 좌변으로 각 입력 파라미터의 내용이 정의되고, UI의 우변으로 각 입력 파라미터의 내용에 대한 파라미터 입력창이 배치되며, 각 파라미터의 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하되, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용되는 것을 특징으로 하는, 결측치 처리를 위한 장치.
The method of claim 1 or 2, wherein the parameter UI input device 110,
It consists of a user interface for parameter input for missing value processing. The contents of each input parameter are defined on the left side of the UI, a parameter input window for the contents of each input parameter is placed on the right side of the UI, and the contents of each parameter are defined. The input window displays the default value (default value) of each parameter, but when the user enters the desired value, it is changed to the entered value and is used to process missing values. A device for processing missing values.
(1) 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받는 단계;
(2) 결측치 처리 대상이 되는 데이터를 로드 받아 결측치 처리를 위한 데이터를 적재하는 단계;
(3) 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하는 단계;
(4) 상기 단계 (3)을 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우는 단계; 및
(5) 상기 단계 (4) 이후, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 단계를 포함하되,
상기 단계 (4)에서는,
(4-1) 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 주성분 분석을 위한 데이터 표준화를 진행하는 데이터 표준화 처리 단계;
(4-2) 상기 단계 (4-1)을 통해 표준화를 진행한 데이터에서 결측치 처리를 위해 첫 번째 분석 과정을 수행하며, 결측 위치에 컬럼(column)과 로(row)의 평균값을 입력하고 주성분 분석 과정을 진행하는 결측치 최초 분석 단계;
(4-3) 상기 단계 (4-2)를 통해 계산된 결측 위치의 추정값을 결측치 위치에 채우고, 다시 추정값을 계산하는 과정을 진행하는 추정 결측치 분석 단계;
(4-4) 상기 단계 (4-3)에서 진행된 결과를 평가하고, 다시 추정 결측치 분석의 단계 (4-3)의 과정을 진행할지를 결정하는 결측치 처리 계속 진행 확인 단계; 및
(4-5) 상기 단계 (4-4)의 결정으로, 결측치의 처리가 끝난 데이터를 다시 환원하는 작업을 진행하는 데이터 환원 단계를 포함하여 이루어지는 것을 특징으로 하는, 결측치 처리를 위한 방법.
a parameter UI input unit 110 for receiving parameters for processing missing values so that data with missing values can be analyzed, and for loading data subject to missing value processing; A missing value remover for deleting invalid columns and rows containing missing values using parameters for missing value processing input through the parameter UI input device 110 and the loaded data subject to missing value processing. (120); and a missing value processor 130 that removes missing values through the missing value remover 120, estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the operation again, and checks the results of missing value processing. Each step is processed in device 100 for,
(1) receiving parameters for processing missing values so that data with missing values can be analyzed;
(2) loading data subject to missing value processing and loading data for missing value processing;
(3) deleting invalid columns and rows containing missing values using parameters for missing value processing and loaded data subject to missing value processing;
(4) estimating missing values from the resulting data remaining after removal through step (3) above and filling the missing values; and
(5) After step (4), it includes the step of evaluating whether to repeat the work again and checking the results of processing missing values,
In step (4),
(4-1) Data standardization processing step of removing missing values through the remover 120 and standardizing data for principal component analysis on the remaining result data;
(4-2) The first analysis process is performed to handle missing values in the data standardized through step (4-1), and the average value of the column and row is entered at the missing position and the principal component is entered. Initial analysis of missing values during the analysis process;
(4-3) an estimated missing value analysis step of filling the missing value location with the estimated value of the missing location calculated through step (4-2) and proceeding with the process of calculating the estimated value again;
(4-4) a confirmation step to continue missing value processing, which evaluates the results from step (4-3) and decides whether to proceed with step (4-3) of estimated missing value analysis again; and
(4-5) A method for processing missing values, characterized in that it includes a data reduction step in which data that has been processed for missing values is restored following the decision in step (4-4).
(3-1) 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하되, 입력된 데이터에서 첫 번째로 제거할 컬럼(column)과 로(row)를 입력된 파라미터의 삭제 기준에 따라 제거를 진행하는 첫 번째 삭제 제거 진행 단계;
(3-2) 로(row)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 로(row)에서의 비유효치의 개수가 파라미터의 입력된 비율보다 크면 해당 로(row)는 분석 데이터에서 삭제하는 행 비유효치 처리 단계;
(3-3) 상기 단계 (3-2)의 처리 결과 이후, 파라미터의 결측률(missing rate(row))을 적용하여 로(row)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 로(row)는 삭제하는 행 결측치 처리 단계;
(3-4) 컬럼(column)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 컬럼(column)에서의 비유효치의 개수가 행별 삭제(rowwise deletion)의 파라미터의 입력된 비율보다 크면 해당 컬럼(column)은 분석 데이터에서 삭제하는 열 비유효치 처리 단계; 및
(3-5) 상기 단계 (3-4)의 처리 결과 이후, 파라미터의 결측률(missing rate(column))을 적용하여 컬럼(column)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 컬럼(column)을 삭제하는 열 결측치 처리 단계를 포함하여 이루어지는 것을 특징으로 하는, 결측치 처리를 위한 방법.
The method of claim 5, wherein in step (3),
(3-1) Parameters for missing value processing input through the parameter UI input device 110 and data subject to loaded missing value processing are used, and a column and row to be removed first from the input data are selected. The first deletion removal process step in which rows) are removed according to the deletion criteria of the input parameters;
(3-2) If characters other than numbers are entered in the row in addition to missing values, if the number of invalid values in the row, including the number of values outside the normal value, is greater than the input ratio of the parameter, the corresponding row (row) is a row invalid value processing step to delete from analysis data;
(3-3) After the processing result of step (3-2), the missing rate (row) of the parameter is applied so that the number of missing values in the row is greater than the missing rate (column). a row missing value processing step of deleting the corresponding row if it is large;
(3-4) If characters other than numbers are entered in the column in addition to missing values, the number of invalid values in the column, including the number of values that are outside the normal value, is set to the parameter for rowwise deletion. a column invalid value processing step of deleting the corresponding column from the analysis data if it is greater than the input ratio; and
(3-5) After the processing result of step (3-4), the missing rate (column) of the parameter is applied so that the number of missing values in the column is greater than the missing rate (column). A method for processing missing values, characterized in that it includes a column missing value processing step of deleting the corresponding column if it is large.
결측치 처리를 위한 파라미터 입력의 사용자 인터페이스(User Interface)로 구성하되, UI의 좌변으로 각 입력 파라미터의 내용이 정의되고, UI의 우변으로 각 입력 파라미터의 내용에 대한 파라미터 입력창이 배치되며, 각 파라미터의 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하되, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용되는 것을 특징으로 하는, 결측치 처리를 위한 방법.The method of claim 5 or 6, wherein the parameter UI input device 110,
It consists of a user interface for parameter input for missing value processing. The contents of each input parameter are defined on the left side of the UI, a parameter input window for the contents of each input parameter is placed on the right side of the UI, and the contents of each parameter are defined. A method for processing missing values, characterized in that the input window displays the default value (default value) of each parameter, but when the user enters the desired value, it is changed to the entered value and used for processing missing values.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220152120A KR102589602B1 (en) | 2022-11-14 | 2022-11-14 | Apparatus and method for handling missing values |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220152120A KR102589602B1 (en) | 2022-11-14 | 2022-11-14 | Apparatus and method for handling missing values |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102589602B1 true KR102589602B1 (en) | 2023-10-17 |
Family
ID=88557541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220152120A KR102589602B1 (en) | 2022-11-14 | 2022-11-14 | Apparatus and method for handling missing values |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102589602B1 (en) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019028834A (en) * | 2017-08-01 | 2019-02-21 | 株式会社東芝 | Abnormal value diagnostic device, abnormal value diagnostic method, and program |
KR20200030303A (en) * | 2018-09-12 | 2020-03-20 | 삼성에스디에스 주식회사 | Method and apparatus for compensating a missing value in data |
KR20200108969A (en) * | 2019-03-12 | 2020-09-22 | 에스케이텔레콤 주식회사 | Method and Apparatus for Cyclic Time Series Data Feature Extraction |
KR102251139B1 (en) * | 2020-10-13 | 2021-05-12 | (주)비아이매트릭스 | A missing value correction system using machine learning and data augmentation |
KR20210063866A (en) * | 2019-11-25 | 2021-06-02 | 주식회사 엑셈 | Method of detecting abnormal data by processing missed value and noise in time series data and system implementing thereof |
KR20210065751A (en) * | 2019-11-27 | 2021-06-04 | 강릉원주대학교산학협력단 | System and method for estimating a missing value |
KR20210086175A (en) * | 2019-12-31 | 2021-07-08 | 주식회사 포스코아이씨티 | Data preprocessing system |
KR102321767B1 (en) * | 2020-11-16 | 2021-11-03 | 충북대학교 산학협력단 | Energy Data Preprocessing Platform System based on Deep Learning Algorithm |
KR102413518B1 (en) * | 2021-12-30 | 2022-06-28 | 주식회사 애자일소다 | Multy classification system and method using secondary verification |
JP2022138758A (en) * | 2021-03-11 | 2022-09-26 | 株式会社日立システムズ | Information processing apparatus, information processing method, and program |
-
2022
- 2022-11-14 KR KR1020220152120A patent/KR102589602B1/en active IP Right Grant
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019028834A (en) * | 2017-08-01 | 2019-02-21 | 株式会社東芝 | Abnormal value diagnostic device, abnormal value diagnostic method, and program |
KR20200030303A (en) * | 2018-09-12 | 2020-03-20 | 삼성에스디에스 주식회사 | Method and apparatus for compensating a missing value in data |
KR20200108969A (en) * | 2019-03-12 | 2020-09-22 | 에스케이텔레콤 주식회사 | Method and Apparatus for Cyclic Time Series Data Feature Extraction |
KR20210063866A (en) * | 2019-11-25 | 2021-06-02 | 주식회사 엑셈 | Method of detecting abnormal data by processing missed value and noise in time series data and system implementing thereof |
KR20210065751A (en) * | 2019-11-27 | 2021-06-04 | 강릉원주대학교산학협력단 | System and method for estimating a missing value |
KR20210086175A (en) * | 2019-12-31 | 2021-07-08 | 주식회사 포스코아이씨티 | Data preprocessing system |
KR102251139B1 (en) * | 2020-10-13 | 2021-05-12 | (주)비아이매트릭스 | A missing value correction system using machine learning and data augmentation |
KR102321767B1 (en) * | 2020-11-16 | 2021-11-03 | 충북대학교 산학협력단 | Energy Data Preprocessing Platform System based on Deep Learning Algorithm |
JP2022138758A (en) * | 2021-03-11 | 2022-09-26 | 株式会社日立システムズ | Information processing apparatus, information processing method, and program |
KR102413518B1 (en) * | 2021-12-30 | 2022-06-28 | 주식회사 애자일소다 | Multy classification system and method using secondary verification |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2321886C2 (en) | System for analyzing design and production processes | |
CN109885469B (en) | Capacity expansion method, prediction model creation method, device, equipment and medium | |
JP5418610B2 (en) | Failure cause extraction apparatus, failure cause extraction method, and program storage medium | |
JP7188950B2 (en) | Data processing method and data processing program | |
CN112686433B (en) | Method, device, equipment and storage medium for predicting express quantity | |
JP7214417B2 (en) | Data processing method and data processing program | |
CN113037577B (en) | Network traffic prediction method, device and computer readable storage medium | |
US9621679B2 (en) | Operation task managing apparatus and method | |
CN107037781A (en) | Process time prediction meanss | |
KR102589602B1 (en) | Apparatus and method for handling missing values | |
KR101831561B1 (en) | Design apparatus and method for using statistical property | |
CN111831631A (en) | Missing value completion apparatus, missing value completion method, and computer-readable medium | |
JP6989464B2 (en) | Software generation method and software generation system | |
US6947876B1 (en) | Method for automated system identification | |
CN112801441B (en) | Analysis system and analysis method | |
JP6493904B2 (en) | Parameter selection method, parameter selection program, and parameter selection device | |
JP6398991B2 (en) | Model estimation apparatus, method and program | |
CN112800037B (en) | Optimization method and device for engineering cost data processing | |
JP2022076750A (en) | Information processing unit, information processing system, and information processing method | |
JP4922644B2 (en) | Time series analysis program, time series analysis system, and time series analysis apparatus used therefor | |
KR20070090542A (en) | Method of setting up an error range and statistical process control method of semiconductor apparatus using the method | |
CN110473161B (en) | Method for creating image chain | |
JP4230890B2 (en) | Model identification device, model identification program, and method of operating model identification device | |
CN111208993A (en) | Process data analysis processing system | |
JP2004220269A (en) | Integrated test management system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |