KR102589602B1 - Apparatus and method for handling missing values - Google Patents

Apparatus and method for handling missing values Download PDF

Info

Publication number
KR102589602B1
KR102589602B1 KR1020220152120A KR20220152120A KR102589602B1 KR 102589602 B1 KR102589602 B1 KR 102589602B1 KR 1020220152120 A KR1020220152120 A KR 1020220152120A KR 20220152120 A KR20220152120 A KR 20220152120A KR 102589602 B1 KR102589602 B1 KR 102589602B1
Authority
KR
South Korea
Prior art keywords
missing
processing
values
value
data
Prior art date
Application number
KR1020220152120A
Other languages
Korean (ko)
Inventor
이혁수
기대욱
Original Assignee
주식회사 티라유텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 티라유텍 filed Critical 주식회사 티라유텍
Priority to KR1020220152120A priority Critical patent/KR102589602B1/en
Application granted granted Critical
Publication of KR102589602B1 publication Critical patent/KR102589602B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

본 발명은 결측치 처리를 위한 장치 및 방법에 관한 것으로서, 보다 구체적으로는 결측치 처리를 위한 장치로서, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기; 상기 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기; 및 상기 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명의 특징에 따른 결측치 처리를 위한 방법은, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기; 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기; 및 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하는 결측치 처리를 위한 장치에서 각 단계가 처리되며, (1) 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받는 단계; (2) 결측치 처리 대상이 되는 데이터를 로드 받아 결측치 처리를 위한 데이터를 적재하는 단계; (3) 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하는 단계; (4) 상기 단계 (3)을 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우는 단계; 및 (5) 상기 단계 (4) 이후, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 결측치 처리를 위한 장치 및 방법에 따르면, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기와, 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기와, 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하여 구성함으로써, 생산관리 시스템에서 수집되는 데이터에서 결측치 발생 시, 데이터 분석이 가능하도록 결측치를 추정하여 보정할 수 있도록 할 수 있다.
또한, 본 발명의 결측치 처리를 위한 장치 및 방법에 따르면, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터 입력 UI와, 입력 파라미터로 데이터의 컬럼과 로를 제거하고 남아 있는 결측치를 높은 정확도도 추정하여 보정할 수 있도록 함으로써, 분석을 위한 데이터에서 보다 정확하게 결측치 처리를 수행함은 물론, 결측치 처리를 위해 필요한 파라미터를 입력받을 수 있는 사용자 인터페이스 방식의 제공을 통해 결측치 처리와 평가 과정이 더욱 향상될 수 있도록 할 수 있다.
The present invention relates to an apparatus and method for missing value processing, and more specifically, to an apparatus for missing value processing, which receives parameters for missing value processing so that data with missing values can be analyzed, and data subject to missing value processing. Parameter UI input device for loading; a missing value remover for deleting invalid columns and rows containing missing values using parameters for processing missing values input through the parameter UI input device and data subject to loaded missing value processing; And a missing value processor that removes the missing values through the missing value remover, estimates the missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the operation again, and checks the results of the missing value processing. .
In addition, a method for processing missing values according to a feature of the present invention includes a parameter UI input device for receiving parameters for processing missing values so that data with missing values can be analyzed and loading data subject to missing value processing; A missing value remover for deleting invalid columns and rows containing missing values using parameters for processing missing values input through a parameter UI input device and data subject to loaded missing value processing; And each step in the device for missing value processing, including a missing value processor that removes missing values through a missing value remover, estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the operation again, and checks the results of missing value processing. is processed, (1) receiving parameters for processing missing values so that data with missing values can be analyzed; (2) loading data subject to missing value processing and loading data for missing value processing; (3) deleting invalid columns and rows containing missing values using parameters for missing value processing and loaded data subject to missing value processing; (4) estimating missing values from the resulting data remaining after removal through step (3) above and filling the missing values; and (5) after step (4), evaluating whether to repeat the task again and confirming the results of processing missing values.
According to the device and method for processing missing values proposed by the present invention, a parameter UI input device and a parameter for receiving parameters for processing missing values so that data with missing values can be analyzed, and loading data subject to processing missing values. Parameters for missing value processing input through the UI input device, a missing value remover to delete invalid columns and rows containing missing values using the loaded data subject to missing value processing, and a missing value remover. From the data collected from the production management system, it is configured to include a missing value processor that removes and estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the work again, and checks the results of processing the missing values. When missing values occur, the missing values can be estimated and corrected to enable data analysis.
In addition, according to the device and method for processing missing values of the present invention, there is a parameter input UI for processing missing values so that data with missing values can be analyzed, columns and rows of data are removed as input parameters, and the remaining missing values are processed with high accuracy. By allowing for estimation and correction, missing value processing can be performed more accurately on data for analysis, and the missing value processing and evaluation process can be further improved by providing a user interface method that can input the parameters necessary for missing value processing. You can do it.

Description

결측치 처리를 위한 장치 및 방법{APPARATUS AND METHOD FOR HANDLING MISSING VALUES}Apparatus and method for handling missing values {APPARATUS AND METHOD FOR HANDLING MISSING VALUES}

본 발명은 결측치 처리를 위한 장치 및 방법에 관한 것으로서, 보다 구체적으로는 생산관리 시스템에서 수집되는 데이터에서 결측치 발생 시, 데이터 분석이 가능하도록 결측치를 추정하여 보정할 수 있도록 하는 결측치 처리를 위한 장치 및 방법에 관한 것이다.The present invention relates to a device and method for processing missing values. More specifically, when missing values occur in data collected from a production management system, a device and a method for processing missing values that allow the missing values to be estimated and corrected to enable data analysis. It's about method.

일반적으로 생산관리 시스템(Manufacturing Execution System; MES)은 생산 및 제조 공정에 있어서 생산 절차의 계획, 원재료 준비 계획, 일정 및 주간 계획 데이터 등을 생성하고 생산 공정이 그 계획에 따라 진행될 수 있도록 진도 관리를 하는 시스템이다. 이러한 생산관리 시스템(MES)은 물류 및 작업 내역을 관리하고, 제품의 상태를 파악하여 불량 제품 등을 관리할 수 있으며, 이를 위해 생산 공정을 실시간으로 모니터링하고 생산 공정에 포함되는 각종 공정 설비를 제어한다.In general, a Manufacturing Execution System (MES) generates production procedure plans, raw material preparation plans, schedules, and weekly planning data in the production and manufacturing process, and manages progress to ensure that the production process proceeds according to the plan. It is a system that does. This production management system (MES) manages logistics and work details, identifies product status, and manages defective products. To this end, it monitors the production process in real time and controls various process facilities included in the production process. do.

이러한 생산관리 시스템에서 수집되는 데이터는 생산 공정을 위한 분석이나 사회 과학을 위한 분석에서 필수적으로 분석을 위한 데이터가 필요하다. 그러나 많은 경우에서 생산 설비에서 수집되는 데이터는 결측치가 발생한다. 결측치가 발생하는 원인은 설비의 순간적인 문제나, 노이즈로 인한 데이터 훼손, 분석을 위한 생산 공정 데이터 서머리 과정에서 공정 운영 관련된 문제로 서머리에서 누락 발생, 분석 데이터에 수기 데이터를 포함할 경우 사람의 실수로 인한 누락 등 많은 경우가 있다. 문제는 결측치가 있는 데이터는 분석 알고리즘이 분석을 하지 못하고 프로그램 상에서 대부분 오류를 발생하고 중간 과정에 종료가 된다. 결측치를 포함한 데이터도 여러 가지 형태적 양상이 있으며, 행열 형태의 그리드 데이터에서 군데군데 빠져 있는 경우도 있다. 또한, 데이터 그리드에서 큰 형태의 블록 단위로 결측치가 발생하는 경우도 있다. 또한, 블록 형태의 결측치도 가로와 세로의 크기가 비슷한 정방 형태나, 아니면 가로의 크기가 길거나 아니면 세로의 길이가 긴 형태도 있다. 군데군데 빠지는 결측치는 해당 행이나 열을 삭제하거나 보간법(Interpolation)을 이용해서 추정을 하고 결측 위치를 채우면 되나 크기가 큰 블록 단위의 결측치는 보간법을 사용할 경우 데이터 결손이 많아 정확도가 낮아지고, 행이나 열 전체를 삭제할 경우 알고리즘을 이용한 분석에서 분석 정확도가 낮아진다. 블록 단위의 결측치도 일정 기준을 주어서 삭제하거나 유지할 경우에도 블록의 형태에 따라 행을 먼저 적용할지 열을 먼저 적요 할지에 따라 알고리즘 분석에서 분석 정확도 차이가 난다. 즉, 결측치를 추정할 경우에도 데이터의 상태에 따라 일반적으로 사용하는 보간법이 정확도가 낮아 높은 정확도를 가지는 결측치 추정 방법이 필요하다. 대한민국 공개특허공보 제10-2021-0063866호가 선행기술 문헌으로 개시되고 있다.The data collected from this production management system is essential for analysis of the production process or social science. However, in many cases, data collected from production facilities has missing values. The causes of missing values are momentary problems with equipment, data damage due to noise, omission in the summary due to process operation-related problems during the production process data summary for analysis, and human error when handwritten data is included in the analysis data. There are many cases of omission due to . The problem is that the analysis algorithm cannot analyze data with missing values, and most errors occur in the program and the process is terminated midway. Data including missing values also have various morphological aspects, and may be missing here and there in grid data in the form of rows and columns. Additionally, there are cases where missing values occur in large blocks in the data grid. In addition, missing values in the form of blocks can be square with similar horizontal and vertical sizes, or in the form of long horizontal or long vertical sizes. For missing values that are missing here and there, you can delete the corresponding row or column or use interpolation to estimate and fill in the missing positions. However, for missing values in large blocks, if interpolation is used, accuracy will be lowered due to many data missing, and If you delete an entire column, the analysis accuracy will decrease in analysis using the algorithm. Even when missing values at the block level are deleted or maintained based on a certain standard, there is a difference in analysis accuracy in the algorithm analysis depending on whether rows or columns are applied first depending on the type of block. In other words, even when estimating missing values, depending on the state of the data, the accuracy of the commonly used interpolation method is low, so a missing value estimation method with high accuracy is needed. Republic of Korea Patent Publication No. 10-2021-0063866 is disclosed as a prior art document.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기와, 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기와, 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하여 구성함으로써, 생산관리 시스템에서 수집되는 데이터에서 결측치 발생 시, 데이터 분석이 가능하도록 결측치를 추정하여 보정할 수 있도록 하는, 결측치 처리를 위한 장치 및 방법을 제공하는 것을 그 목적으로 한다.The present invention was proposed to solve the above-mentioned problems of previously proposed methods. It receives parameters for processing missing values so that data with missing values can be analyzed, and parameters for loading data subject to missing value processing. Parameters for processing missing values input through the UI input device and parameter UI input device, and missing values for deleting invalid columns and rows containing missing values using the loaded data subject to processing. The production management system is configured to include a missing value processor that removes missing values through a remover and a missing value remover, estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the work again, and checks the results of processing the missing values. The purpose is to provide a device and method for processing missing values that allows the missing values to be estimated and corrected to enable data analysis when missing values occur in data collected.

또한, 본 발명은, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터 입력 UI와, 입력 파라미터로 데이터의 컬럼과 로를 제거하고 남아 있는 결측치를 높은 정확도도 추정하여 보정할 수 있도록 함으로써, 분석을 위한 데이터에서 보다 정확하게 결측치 처리를 수행함은 물론, 결측치 처리를 위해 필요한 파라미터를 입력받을 수 있는 사용자 인터페이스 방식의 제공을 통해 결측치 처리와 평가 과정이 더욱 향상될 수 있도록 하는, 결측치 처리를 위한 장치 및 방법을 제공하는 것을 또 다른 목적으로 한다.In addition, the present invention provides a parameter input UI for processing missing values so that data with missing values can be analyzed, and columns and rows of data are removed as input parameters, and the remaining missing values can be estimated and corrected with high accuracy, A device for processing missing values that not only performs missing value processing more accurately in data for analysis, but also improves the missing value processing and evaluation process by providing a user interface method that allows input of parameters required for missing value processing. Another purpose is to provide a method and method.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 결측치 처리를 위한 장치는,A device for processing missing values according to the characteristics of the present invention to achieve the above object,

결측치 처리를 위한 장치로서,As a device for processing missing values,

결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기;A parameter UI input device for receiving parameters for processing missing values so that data with missing values can be analyzed, and for loading data subject to missing value processing;

상기 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기; 및a missing value remover for deleting invalid columns and rows containing missing values using parameters for processing missing values input through the parameter UI input device and data subject to loaded missing value processing; and

상기 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하는 것을 그 구성상의 특징으로 한다.Its structural feature includes a missing value processor that removes the missing values through the missing value remover, estimates the missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the operation again, and checks the results of the missing value processing.

바람직하게는, 상기 결측치 제거기는,Preferably, the missing value remover,

상기 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하되, 입력된 데이터에서 첫 번째로 제거할 컬럼(column)과 로(row)를 입력된 파라미터의 삭제 기준에 따라 제거를 진행하는 첫 번째 삭제 제거부;Parameters for missing value processing input through the parameter UI input device and data subject to loaded missing value processing are used, and the column and row to be removed first from the input data are selected among the input parameters. A first deletion removal unit that performs removal according to deletion criteria;

로(row)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 로(row)에서의 비유효치의 개수가 파라미터의 입력된 비율보다 크면 해당 로(row)는 분석 데이터에서 삭제하는 행 비유효치 처리부;If characters other than numbers are entered in a row in addition to missing values, and the number of invalid values in the row, including the number of values outside the normal value, is greater than the input ratio of the parameter, the row is analyzed. Row invalid value processing unit to delete from data;

상기 행 비유효치 처리부의 처리 결과 이후, 파라미터의 결측률(missing rate(row))을 적용하여 로(row)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 로(row)는 삭제하는 행 결측치 처리부;After the processing result of the row invalid value processing unit, the missing rate (row) of the parameter is applied, and if the number of missing values in a row is greater than the missing rate (column), the corresponding row (row) is a row missing value processing unit to delete;

컬럼(column)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 컬럼(column)에서의 비유효치의 개수가 행별 삭제(rowwise deletion)의 파라미터의 입력된 비율보다 크면 해당 컬럼(column)은 분석 데이터에서 삭제하는 열 비유효치 처리부; 및If characters other than numbers are entered in the column in addition to missing values, and the number of invalid values in the column, including the number of values that are outside the normal value, is greater than the input rate of the rowwise deletion parameter, A column invalid value processor that deletes the corresponding column from the analysis data; and

상기 열 비유효치 처리부의 처리 결과 이후, 파라미터의 결측률(missing rate(column))을 적용하여 컬럼(column)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 컬럼(column)을 삭제하는 열 결측치 처리부를 포함하여 구성할 수 있다.After the processing result of the column invalid value processing unit, the missing rate (column) of the parameter is applied and if the number of missing values in the column is greater than the missing rate (column), the corresponding column (column) It can be configured to include a column missing value processing unit that deletes .

더욱 바람직하게는, 상기 결측치 처리기는,More preferably, the missing value processor,

상기 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 주성분 분석을 위한 데이터 표준화를 진행하는 데이터 표준화 처리부;a data standardization processing unit that removes missing values through the missing value remover and standardizes data for principal component analysis on the remaining result data;

상기 데이터 표준화 처리부를 통해 표준화를 진행한 데이터에서 결측치 처리를 위해 첫 번째 분석 과정을 수행하며, 결측 위치에 컬럼(column)과 로(row)의 평균값을 입력하고 주성분 분석 과정을 진행하는 결측치 최초 분석부;The first analysis process is performed to process missing values in the data standardized through the data standardization processing unit, and the average value of the column and row is input into the missing position and the principal component analysis process is performed. wealth;

상기 결측치 최초 분석부를 통해 계산된 결측 위치의 추정값을 결측치 위치에 채우고, 다시 추정값을 계산하는 과정을 진행하는 추정 결측치 분석부;an estimated missing value analysis unit that fills the missing value positions with the estimated value of the missing position calculated through the missing value initial analysis unit and proceeds with the process of calculating the estimated value again;

상기 추정 결측치 분석부에서 진행된 결과를 평가하고, 다시 추정 결측치 분석부의 과정을 진행할지를 결정하는 결측치 처리 계속 진행 확인부; 및a missing value processing continuation confirmation unit that evaluates the results of the estimated missing value analysis unit and determines whether to proceed with the estimated missing value analysis unit again; and

상기 결측치 처리 계속 진행 확인부의 결정으로, 결측치의 처리가 끝난 데이터를 다시 환원하는 작업을 진행하는 데이터 환원부를 포함하여 구성할 수 있다.Based on the decision of the confirmation unit to continue processing the missing values, the data reduction unit may be configured to restore the data for which the processing of the missing values has been completed.

바람직하게는, 상기 파라미터 UI 입력기는,Preferably, the parameter UI input device is:

결측치 처리를 위한 파라미터 입력의 사용자 인터페이스(User Interface)로 구성하되, UI의 좌변으로 각 입력 파라미터의 내용이 정의되고, UI의 우변으로 각 입력 파라미터의 내용에 대한 파라미터 입력창이 배치되며, 각 파라미터의 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하되, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용될 수 있다.It consists of a user interface for parameter input for missing value processing. The contents of each input parameter are defined on the left side of the UI, a parameter input window for the contents of each input parameter is placed on the right side of the UI, and the contents of each parameter are defined. The input window displays the default value (default value) of each parameter, but when the user enters the desired value, it is changed to the entered value and can be used to process missing values.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 결측치 처리를 위한 방법은,The method for processing missing values according to the characteristics of the present invention to achieve the above purpose is:

결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기; 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기; 및 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하는 결측치 처리를 위한 장치에서 각 단계가 처리되며,A parameter UI input device for receiving parameters for processing missing values so that data with missing values can be analyzed, and for loading data subject to missing value processing; A missing value remover for deleting invalid columns and rows containing missing values using parameters for processing missing values input through a parameter UI input device and data subject to loaded missing value processing; And each step in the device for missing value processing, including a missing value processor that removes missing values through a missing value remover, estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the operation again, and checks the results of missing value processing. is processed,

(1) 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받는 단계;(1) receiving parameters for processing missing values so that data with missing values can be analyzed;

(2) 결측치 처리 대상이 되는 데이터를 로드 받아 결측치 처리를 위한 데이터를 적재하는 단계;(2) loading data subject to missing value processing and loading data for missing value processing;

(3) 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하는 단계;(3) deleting invalid columns and rows containing missing values using parameters for missing value processing and loaded data subject to missing value processing;

(4) 상기 단계 (3)을 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우는 단계; 및(4) estimating missing values from the resulting data remaining after removal through step (3) above and filling the missing values; and

(5) 상기 단계 (4) 이후, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.(5) After step (4), the process is characterized in that it includes a step of evaluating whether to repeat the task again and checking the results of processing missing values.

바람직하게는, 상기 단계 (3)에서는,Preferably, in step (3),

(3-1) 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하되, 입력된 데이터에서 첫 번째로 제거할 컬럼(column)과 로(row)를 입력된 파라미터의 삭제 기준에 따라 제거를 진행하는 첫 번째 삭제 제거 진행 단계;(3-1) Use the parameters for missing value processing input through the parameter UI input device and the loaded data subject to missing value processing, and select the column and row to be removed first from the input data. A first deletion removal process step in which removal is performed according to the deletion criteria of the input parameters;

(3-2) 로(row)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 로(row)에서의 비유효치의 개수가 파라미터의 입력된 비율보다 크면 해당 로(row)는 분석 데이터에서 삭제하는 행 비유효치 처리 단계;(3-2) If characters other than numbers are entered in the row in addition to missing values, if the number of invalid values in the row, including the number of values outside the normal value, is greater than the input ratio of the parameter, the corresponding row (row) is a row invalid value processing step to delete from analysis data;

(3-3) 상기 단계 (3-2)의 처리 결과 이후, 파라미터의 결측률(missing rate(row))을 적용하여 로(row)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 로(row)는 삭제하는 행 결측치 처리 단계;(3-3) After the processing result of step (3-2), the missing rate (row) of the parameter is applied so that the number of missing values in the row is greater than the missing rate (column). a row missing value processing step of deleting the corresponding row if it is large;

(3-4) 컬럼(column)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 컬럼(column)에서의 비유효치의 개수가 행별 삭제(rowwise deletion)의 파라미터의 입력된 비율보다 크면 해당 컬럼(column)은 분석 데이터에서 삭제하는 열 비유효치 처리 단계; 및(3-4) If characters other than numbers are entered in the column in addition to missing values, the number of invalid values in the column, including the number of values that are outside the normal value, is set to the parameter for rowwise deletion. a column invalid value processing step of deleting the corresponding column from the analysis data if it is greater than the input ratio; and

(3-5) 상기 단계 (3-4)의 처리 결과 이후, 파라미터의 결측률(missing rate(column))을 적용하여 컬럼(column)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 컬럼(column)을 삭제하는 열 결측치 처리 단계를 포함하여 이루어질 수 있다.(3-5) After the processing result of step (3-4), the missing rate (column) of the parameter is applied so that the number of missing values in the column is greater than the missing rate (column). If it is large, it may include a column missing value processing step of deleting the corresponding column.

더욱 바람직하게는, 상기 단계 (4)에서는,More preferably, in step (4),

(4-1) 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 주성분 분석을 위한 데이터 표준화를 진행하는 데이터 표준화 처리 단계;(4-1) Data standardization processing step of removing missing values through a remover and standardizing data for principal component analysis on the remaining result data;

(4-2) 상기 단계 (4-1)을 통해 표준화를 진행한 데이터에서 결측치 처리를 위해 첫 번째 분석 과정을 수행하며, 결측 위치에 컬럼(column)과 로(row)의 평균값을 입력하고 주성분 분석 과정을 진행하는 결측치 최초 분석 단계;(4-2) The first analysis process is performed to handle missing values in the data standardized through step (4-1), and the average value of the column and row is entered at the missing position and the principal component is entered. Initial analysis of missing values during the analysis process;

(4-3) 상기 단계 (4-2)를 통해 계산된 결측 위치의 추정값을 결측치 위치에 채우고, 다시 추정값을 계산하는 과정을 진행하는 추정 결측치 분석 단계;(4-3) an estimated missing value analysis step of filling the missing value location with the estimated value of the missing location calculated through step (4-2) and proceeding with the process of calculating the estimated value again;

(4-4) 상기 단계 (4-3)에서 진행된 결과를 평가하고, 다시 추정 결측치 분석의 단계 (4-3)의 과정을 진행할지를 결정하는 결측치 처리 계속 진행 확인 단계; 및(4-4) a confirmation step to continue missing value processing, which evaluates the results from step (4-3) and decides whether to proceed with step (4-3) of estimated missing value analysis again; and

(4-5) 상기 단계 (4-4)의 결정으로, 결측치의 처리가 끝난 데이터를 다시 환원하는 작업을 진행하는 데이터 환원 단계를 포함하여 이루어질 수 있다.(4-5) The decision in step (4-4) may include a data reduction step in which data that has been processed for missing values is restored.

바람직하게는, 상기 파라미터 UI 입력기는,Preferably, the parameter UI input device is:

결측치 처리를 위한 파라미터 입력의 사용자 인터페이스(User Interface)로 구성하되, UI의 좌변으로 각 입력 파라미터의 내용이 정의되고, UI의 우변으로 각 입력 파라미터의 내용에 대한 파라미터 입력창이 배치되며, 각 파라미터의 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하되, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용될 수 있다.It consists of a user interface for parameter input for missing value processing. The contents of each input parameter are defined on the left side of the UI, a parameter input window for the contents of each input parameter is placed on the right side of the UI, and the contents of each parameter are defined. The input window displays the default value (default value) of each parameter, but when the user enters the desired value, it is changed to the entered value and can be used to process missing values.

본 발명에서 제안하고 있는 결측치 처리를 위한 장치 및 방법에 따르면, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기와, 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기와, 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하여 구성함으로써, 생산관리 시스템에서 수집되는 데이터에서 결측치 발생 시, 데이터 분석이 가능하도록 결측치를 추정하여 보정할 수 있도록 할 수 있다.According to the device and method for processing missing values proposed by the present invention, a parameter UI input device and a parameter for receiving parameters for processing missing values so that data with missing values can be analyzed, and loading data subject to processing missing values. Parameters for missing value processing input through the UI input device, a missing value remover to delete invalid columns and rows containing missing values using the loaded data subject to missing value processing, and a missing value remover. From the data collected from the production management system, it is configured to include a missing value processor that removes and estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the work again, and checks the results of processing the missing values. When missing values occur, the missing values can be estimated and corrected to enable data analysis.

또한, 본 발명의 결측치 처리를 위한 장치 및 방법에 따르면, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터 입력 UI와, 입력 파라미터로 데이터의 컬럼과 로를 제거하고 남아 있는 결측치를 높은 정확도도 추정하여 보정할 수 있도록 함으로써, 분석을 위한 데이터에서 보다 정확하게 결측치 처리를 수행함은 물론, 결측치 처리를 위해 필요한 파라미터를 입력받을 수 있는 사용자 인터페이스 방식의 제공을 통해 결측치 처리와 평가 과정이 더욱 향상될 수 있도록 할 수 있다.In addition, according to the device and method for processing missing values of the present invention, there is a parameter input UI for processing missing values so that data with missing values can be analyzed, columns and rows of data are removed as input parameters, and the remaining missing values are processed with high accuracy. By allowing for estimation and correction, missing value processing can be performed more accurately in data for analysis, and the missing value processing and evaluation process can be further improved by providing a user interface method that can input the parameters necessary for missing value processing. You can do it.

도 1은 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 구성을 기능블록으로 도시한 도면.
도 2는 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 결측치 제거기의 구성을 기능블록으로 도시한 도면.
도 3은 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 결측치 처리기의 구성을 기능블록으로 도시한 도면.
도 4는 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 파라미터 UI 입력기의 일례의 구성을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 결측치 처리를 위한 방법의 흐름을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S300의 동작 흐름을 도시한 도면.
도 7은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S400의 동작 흐름을 도시한 도면.
도 8은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S420의 동작 흐름을 도시한 도면.
도 9는 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S430의 동작 흐름을 도시한 도면.
도 10은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S440의 동작 흐름을 도시한 도면.
Figure 1 is a diagram illustrating the configuration of a device for processing missing values in functional blocks according to an embodiment of the present invention.
Figure 2 is a diagram showing the configuration of a missing value remover of a device for processing missing values according to an embodiment of the present invention in functional blocks.
Figure 3 is a diagram illustrating the configuration of a missing value processor of a device for processing missing values in functional blocks according to an embodiment of the present invention.
Figure 4 is a diagram illustrating an example configuration of a parameter UI input device of a device for processing missing values according to an embodiment of the present invention.
Figure 5 is a diagram illustrating the flow of a method for processing missing values according to an embodiment of the present invention.
Figure 6 is a diagram illustrating the operational flow of step S300 in the method for processing missing values according to an embodiment of the present invention.
Figure 7 is a diagram illustrating the operational flow of step S400 in the method for processing missing values according to an embodiment of the present invention.
Figure 8 is a diagram illustrating the operational flow of step S420 in the method for processing missing values according to an embodiment of the present invention.
Figure 9 is a diagram illustrating the operation flow of step S430 in the method for processing missing values according to an embodiment of the present invention.
Figure 10 is a diagram illustrating the operation flow of step S440 in the method for processing missing values according to an embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.Hereinafter, with reference to the attached drawings, preferred embodiments will be described in detail so that those skilled in the art can easily practice the present invention. However, when describing preferred embodiments of the present invention in detail, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the gist of the present invention, the detailed description will be omitted. In addition, the same symbols are used throughout the drawings for parts that perform similar functions and actions.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.In addition, throughout the specification, when a part is said to be 'connected' to another part, this does not only mean 'directly connected', but also 'indirectly connected' with another element in between. Includes. Additionally, ‘including’ a certain component does not mean excluding other components, but rather including other components, unless specifically stated to the contrary.

도 1은 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 구성을 기능블록으로 도시한 도면이고, 도 2는 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 결측치 제거기의 구성을 기능블록으로 도시한 도면이며, 도 3은 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 결측치 처리기의 구성을 기능블록으로 도시한 도면이고, 도 4는 본 발명의 일실시예에 따른 결측치 처리를 위한 장치의 파라미터 UI 입력기의 일례의 구성을 도시한 도면이다. 도 1 내지 도 4에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 결측치 처리를 위한 장치(100)는, 파라미터 UI 입력기(110), 결측치 제거기(120), 및 결측치 처리기(130)를 포함하여 구성될 수 있다.Figure 1 is a diagram showing the configuration of a device for processing missing values according to an embodiment of the present invention in functional blocks, and Figure 2 is a functional block diagram showing the configuration of a missing value remover of a device for processing missing values according to an embodiment of the present invention. It is a diagram shown in blocks, and Figure 3 is a diagram showing the configuration of a missing value processor of a device for processing missing values according to an embodiment of the present invention as a functional block, and Figure 4 is a diagram showing missing value processing according to an embodiment of the present invention. This is a diagram showing the configuration of an example of a parameter UI input device for a device. As shown in FIGS. 1 to 4, the device 100 for processing missing values according to an embodiment of the present invention includes a parameter UI input device 110, a missing value remover 120, and a missing value processor 130. It can be configured to include.

파라미터 UI 입력기(110)는, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 구성이다. 이러한 파라미터 UI 입력기(110)는 도 4에 도시된 바와 같이, 결측치 처리를 위한 파라미터 입력의 사용자 인터페이스(User Interface)로 구성하되, UI의 좌변으로 각 입력 파라미터의 내용이 정의되고, UI의 우변으로 각 입력 파라미터의 내용에 대한 파라미터 입력창이 배치되며, 각 파라미터의 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하되, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용될 수 있다. 여기서, 파라미터 UI 입력기(110)는 결측치가 있는 데이터의 분석을 위한 파라미터를 입력받는 사용자 인터페이스(UI) 방식으로 GUI 형태로 구성될 수 있다.The parameter UI input device 110 is configured to receive parameters for processing missing values so that data with missing values can be analyzed, and to load data subject to missing value processing. As shown in FIG. 4, this parameter UI input device 110 is configured as a user interface for inputting parameters for processing missing values. The contents of each input parameter are defined on the left side of the UI, and the contents of each input parameter are defined on the left side of the UI. A parameter input window for the contents of each input parameter is placed, and the input window for each parameter displays the default value (default value) of each parameter. When the user enters the desired value, it is changed to the entered value and can be used to process missing values. . Here, the parameter UI input device 110 is a user interface (UI) that receives parameters for analysis of data with missing values and may be configured in the form of a GUI.

또한, 파라미터 UI 입력기(110)는 도 4에 도시된 바와 같이, 각 입력 파라미터의 내용은 좌변의 창(11, 12, 13, 14, 15, 16, 17)에 나타내고, 각 입력 파라미터의 입력은 우변의 입력창(18, 19, 20, 21, 22, 23, 24)에 배치된다. 여기서, 각 파라미터 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하며, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용될 수 있도록 기능하게 된다.In addition, as shown in FIG. 4, the parameter UI input device 110 displays the contents of each input parameter in the windows 11, 12, 13, 14, 15, 16, and 17 on the left side, and the input of each input parameter is It is placed in the input windows (18, 19, 20, 21, 22, 23, 24) on the right side. Here, each parameter input window displays the default value (default value) of each parameter, and when the user enters the desired value, it is changed to the entered value and functions so that it can be used for missing value processing.

또한, 파라미터 UI 입력기(110)는 결측치 처리를 위한 파라미터의 입력 과정을 위해 도 4에 도시된 바와 같이, UI를 출력하고, 사용자의 입력한 값을 이후 결측치 처리에 사용할 수 있다. 여기서, 결측치 처리를 위한 데이터의 적재는 결측치 처리 대상이 되는 데이터를 로드하는 과정으로, 사용자가 UI 상에서 데이터를 복사해서 붙여넣기를 하거나, 엑셀 파일 형식, CSV(Comma-separated values) 파일 형식을 로드하거나, 아니면 데이터 분석 시스템에서 자동으로 서머리된 데이터를 로드할 수 있다.Additionally, the parameter UI input device 110 outputs a UI for the parameter input process for missing value processing, as shown in FIG. 4, and the user's input value can be used for subsequent missing value processing. Here, loading data for missing value processing is the process of loading data subject to missing value processing. The user can copy and paste data on the UI, or load Excel file format or CSV (Comma-separated values) file format. Alternatively, you can load the summarized data automatically from your data analysis system.

결측치 제거기(120)는, 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 구성이다. 이러한 결측치 제거기(120)는 도 2에 도시된 바와 같이, 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하되, 입력된 데이터에서 첫 번째로 제거할 컬럼(column)과 로(row)를 입력된 파라미터의 삭제 기준에 따라 제거를 진행하는 첫 번째 삭제 제거부(121)와, 로(row)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 로(row)에서의 비유효치의 개수가 파라미터의 입력된 비율보다 크면 해당 로(row)는 분석 데이터에서 삭제하는 행 비유효치 처리부(122)와, 행 비유효치 처리부(122)의 처리 결과 이후, 파라미터의 결측률(missing rate(row))을 적용하여 로(row)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 로(row)는 삭제하는 행 결측치 처리부(123)와, 컬럼(column)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 컬럼(column)에서의 비유효치의 개수가 행별 삭제(rowwise deletion)의 파라미터의 입력된 비율보다 크면 해당 컬럼(column)은 분석 데이터에서 삭제하는 열 비유효치 처리부(124)와, 열 비유효치 처리부(124)의 처리 결과 이후, 파라미터의 결측률(missing rate(column))을 적용하여 컬럼(column)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 컬럼(column)을 삭제하는 열 결측치 처리부(125)를 포함하여 구성할 수 있다.The missing value remover 120 uses the parameters for missing value processing input through the parameter UI input device 110 and the loaded data subject to missing value processing to select invalid columns and rows containing missing values. ) is configured to delete. As shown in FIG. 2, the missing value remover 120 uses parameters for missing value processing input through the parameter UI input unit 110 and the loaded data subject to missing value processing, and removes the first value from the input data. The first deletion removal unit 121 removes the columns and rows to be removed according to the deletion criteria of the input parameters, and when characters other than numbers are entered in the rows in addition to missing values. , a row invalid value processing unit 122 that deletes the row from the analysis data if the number of invalid values in the row, including the number of values outside the normal value, is greater than the input ratio of the parameter, and a row After the processing result of the invalid value processing unit 122, the missing rate (row) of the parameter is applied, and if the number of missing values in the row is greater than the missing rate (column), the corresponding row (row) ) is a row missing value processing unit 123 that deletes, and when characters other than numbers are input in addition to missing values in a column, the number of invalid values in the column, including the number of values outside the normal value, is deleted row by row. If it is greater than the input ratio of the parameter of (rowwise deletion), the column is deleted from the analysis data. The column invalid value processing unit 124 deletes the column, and the missing rate of the parameter after the processing result of the column invalid value processing unit 124 (missing rate (column)) can be applied to include a column missing value processing unit 125 that deletes the column if the number of missing values in the column is greater than the missing rate (column). there is.

결측치 처리기(130)는, 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 구성이다. 이러한 결측치 처리기(130)는 결측치를 채우는 작업을 진행하고, 그 다음 부분은 결측치를 예측 및 추가하며, 결측기 제거 과정의 결과 데이터에서 결측치를 모델링하고, 추정하며, 결측치를 채우며 다시 작업을 반복할지를 평가하는 작업을 한다. 또한, 결측치 처리를 위해 변환한 것을 환원하고(주성분 분석을 위한 주성분 변환을 원래의 데이터로 환원) 최종 결과를 확인하는 과정을 수행할 수 있다.The missing value processor 130 is configured to estimate missing values from the remaining result data after removal through the missing value remover 120, fill in the missing values, evaluate whether to repeat the operation again, and check the results of missing value processing. This missing value processor 130 performs the task of filling in missing values, and the next part predicts and adds missing values, models and estimates missing values in the resulting data of the missing value removal process, and determines whether to fill in missing values and repeat the task again. Do the evaluation work. In addition, the process of returning the transformation for missing value processing (principal component transformation for principal component analysis back to the original data) and confirming the final result can be performed.

또한, 결측치 처리기(130)는 도 3에 도시된 바와 같이, 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 주성분 분석을 위한 데이터 표준화를 진행하는 데이터 표준화 처리부(131)와, 데이터 표준화 처리부(131)를 통해 표준화를 진행한 데이터에서 결측치 처리를 위해 첫 번째 분석 과정을 수행하며, 결측 위치에 컬럼(column)과 로(row)의 평균값을 입력하고 주성분 분석 과정을 진행하는 결측치 최초 분석부(132)와, 결측치 최초 분석부(132)를 통해 계산된 결측 위치의 추정값을 결측치 위치에 채우고, 다시 추정값을 계산하는 과정을 진행하는 추정 결측치 분석부(133)와, 추정 결측치 분석부(133)에서 진행된 결과를 평가하고, 다시 추정 결측치 분석부(133)의 과정을 진행할지를 결정하는 결측치 처리 계속 진행 확인부(134)와, 결측치 처리 계속 진행 확인부(134)의 결정으로, 결측치의 처리가 끝난 데이터를 다시 환원하는 작업을 진행하는 데이터 환원부(135)를 포함하여 구성할 수 있다.In addition, as shown in FIG. 3, the missing value processor 130 includes a data standardization processor 131 that removes missing values through the remover 120 and standardizes the data for principal component analysis on the remaining result data, and a data standardization processor. The first analysis process is performed to handle missing values in data standardized through (131), and the first missing value analysis unit enters the average values of the column and row at the missing location and performs the principal component analysis process. (132), an estimated missing value analysis unit 133 that fills the missing value position with the estimated value of the missing position calculated through the missing value initial analysis unit 132 and proceeds with the process of calculating the estimated value again, and an estimated missing value analysis unit 133 ), and the missing value processing continuation confirmation unit 134, which determines whether to proceed with the process of the estimated missing value analysis unit 133 again, and the decision of the missing value processing continuation confirmation unit 134 to process the missing values. It may be configured to include a data reduction unit 135 that performs the task of reducing data that has been completed.

도 5는 본 발명의 일실시예에 따른 결측치 처리를 위한 방법의 흐름을 도시한 도면이고, 도 6은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S300의 동작 흐름을 도시한 도면이며, 도 7은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S400의 동작 흐름을 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 결측치 처리를 위한 방법은, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기(110); 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기(120); 및 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기(130)를 포함하는 결측치 처리를 위한 장치(100)에서 각 단계가 처리되며, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받는 단계(S100), 결측치 처리 대상이 되는 데이터를 로드 받아 결측치 처리를 위한 데이터를 적재하는 단계(S200), 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하는 단계(S300), 단계 S300을 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우는 단계(S400), 및 단계 S400 이후, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 단계(S500)를 포함하여 구현될 수 있다.FIG. 5 is a diagram showing the flow of a method for processing missing values according to an embodiment of the present invention, and FIG. 6 is a diagram showing the operation flow of step S300 in the method for processing missing values according to an embodiment of the present invention. It is a diagram, and FIG. 7 is a diagram illustrating the operation flow of step S400 in the method for processing missing values according to an embodiment of the present invention. As shown in FIG. 5, the method for processing missing values according to an embodiment of the present invention involves receiving parameters for processing missing values so that data with missing values can be analyzed, and loading data subject to missing value processing. Parameter UI input device 110 for; A missing value remover for deleting invalid columns and rows containing missing values using parameters for missing value processing input through the parameter UI input device 110 and the loaded data subject to missing value processing. (120); and a missing value processor 130 that removes missing values through the missing value remover 120, estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the operation again, and checks the results of missing value processing. Each step is processed in the device 100, a step of receiving parameters for missing value processing so that data with missing values can be analyzed (S100), loading data subject to missing value processing, and receiving data for missing value processing. A loading step (S200), a step (S300) of deleting invalid columns and rows containing missing values using parameters for missing value processing and the loaded data subject to missing value processing. It includes a step of estimating missing values from the result data that is removed through S300 and filling the missing values (S400), and after step S400, evaluating whether to repeat the operation again and checking the results of processing the missing values (S500). This can be implemented.

단계 S100에서는, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 단계 S200에서는 결측치 처리 대상이 되는 데이터를 로드 받아 결측치 처리를 위한 데이터를 적재한다. 이러한 단계 S100 및 단계 S200에서의 파라미터 입력 및 데이터 적재는 파라미터 UI 입력기(110)를 통해 실행된다. 여기서, 파라미터 UI 입력기(110)는 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 구성이다.In step S100, parameters for missing value processing are input so that data with missing values can be analyzed, and in step S200, data subject to missing value processing is loaded and data for missing value processing is loaded. Parameter input and data loading in steps S100 and S200 are performed through the parameter UI input device 110. Here, the parameter UI input device 110 is configured to receive parameters for processing missing values so that data with missing values can be analyzed, and to load data subject to missing value processing.

또한, 파라미터 UI 입력기(110)는 도 4에 도시된 바와 같이, 결측치 처리를 위한 파라미터 입력의 사용자 인터페이스(User Interface)로 구성하되, UI의 좌변으로 각 입력 파라미터의 내용이 정의되고, UI의 우변으로 각 입력 파라미터의 내용에 대한 파라미터 입력창이 배치되며, 각 파라미터의 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하되, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용될 수 있다. 여기서, 파라미터 UI 입력기(110)는 결측치가 있는 데이터의 분석을 위한 파라미터를 입력받는 사용자 인터페이스(UI) 방식으로 GUI 형태로 구성될 수 있다.In addition, as shown in FIG. 4, the parameter UI input device 110 is configured as a user interface for parameter input for missing value processing. The content of each input parameter is defined on the left side of the UI, and the content of each input parameter is defined on the left side of the UI. A parameter input window for the contents of each input parameter is placed, and the input window for each parameter displays the default value (default value) of each parameter. However, when the user enters the desired value, it is changed to the entered value and can be used to process missing values. there is. Here, the parameter UI input device 110 is a user interface (UI) that receives parameters for analysis of data with missing values and may be configured in the form of a GUI.

또한, 파라미터 UI 입력기(110)는 도 4에 도시된 바와 같이, 각 입력 파라미터의 내용은 좌변의 창(11, 12, 13, 14, 15, 16, 17)에 나타내고, 각 입력 파라미터의 입력은 우변의 입력창(18, 19, 20, 21, 22, 23, 24)에 배치된다. 여기서, 각 파라미터 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하며, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용될 수 있도록 기능하게 된다.In addition, as shown in FIG. 4, the parameter UI input device 110 displays the contents of each input parameter in the windows 11, 12, 13, 14, 15, 16, and 17 on the left side, and the input of each input parameter is It is placed in the input windows (18, 19, 20, 21, 22, 23, 24) on the right side. Here, each parameter input window displays the default value (default value) of each parameter, and when the user enters the desired value, it is changed to the entered value and functions so that it can be used for missing value processing.

또한, 파라미터 UI 입력기(110)는 결측치 처리를 위한 파라미터의 입력 과정을 위해 도 4에 도시된 바와 같이, UI를 출력하고, 사용자의 입력한 값을 이후 결측치 처리에 사용할 수 있다. 여기서, 결측치 처리를 위한 데이터의 적재는 결측치 처리 대상이 되는 데이터를 로드하는 과정으로, 사용자가 UI 상에서 데이터를 복사해서 붙여넣기를 하거나, 엑셀 파일 형식, CSV(Comma-separated values) 파일 형식을 로드하거나, 아니면 데이터 분석 시스템에서 자동으로 서머리된 데이터를 로드할 수 있다.Additionally, the parameter UI input device 110 outputs a UI for the parameter input process for missing value processing, as shown in FIG. 4, and the user's input value can be used for subsequent missing value processing. Here, loading data for missing value processing is the process of loading data subject to missing value processing. The user can copy and paste data on the UI, or load Excel file format or CSV (Comma-separated values) file format. Alternatively, you can load the summarized data automatically from your data analysis system.

단계 S300에서는, 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제한다. 이러한 단계 S300에서는 도 6에 도시된 바와 같이, 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하되, 입력된 데이터에서 첫 번째로 제거할 컬럼(column)과 로(row)를 입력된 파라미터의 삭제 기준에 따라 제거를 진행하는 첫 번째 삭제 제거 진행 단계(S310)와, 로(row)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 로(row)에서의 비유효치의 개수가 파라미터의 입력된 비율보다 크면 해당 로(row)는 분석 데이터에서 삭제하는 행 비유효치 처리 단계(S320)와, 단계 S320의 처리 결과 이후, 파라미터의 결측률(missing rate(row))을 적용하여 로(row)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 로(row)는 삭제하는 행 결측치 처리 단계(S330)와, 컬럼(column)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 컬럼(column)에서의 비유효치의 개수가 행별 삭제(rowwise deletion)의 파라미터의 입력된 비율보다 크면 해당 컬럼(column)은 분석 데이터에서 삭제하는 열 비유효치 처리 단계(S340)와, 단계 S340의 처리 결과 이후, 파라미터의 결측률(missing rate(column))을 적용하여 컬럼(column)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 컬럼(column)을 삭제하는 열 결측치 처리 단계(S350)를 포함하여 이루어질 수 있다.In step S300, invalid columns and rows containing missing values are deleted using parameters for missing value processing and loaded data subject to missing value processing. In this step S300, as shown in FIG. 6, parameters for missing value processing input through the parameter UI input device 110 and data subject to loaded missing value processing are used, and the data to be removed first from the input data is used. The first deletion removal process step (S310), in which columns and rows are removed according to the deletion criteria of the input parameters, and when characters other than numbers are entered in the row in addition to missing values, normal value If the number of invalid values in a row, including the number of values outside of , is greater than the input ratio of the parameter, the row is deleted from the analysis data, a row invalid value processing step (S320), and step S320. After the processing result, the missing rate (row) of the parameter is applied and if the number of missing values in a row is greater than the missing rate (column), the corresponding row is deleted. In step S330, if characters other than numbers are entered in the column in addition to missing values, the number of invalid values in the column, including the number of values outside the normal value, is a parameter for rowwise deletion. If it is greater than the input ratio, the column is deleted from the analysis data in the column invalid value processing step (S340), and after the processing result of step S340, the missing rate (column) of the parameter is applied to the column If the number of missing values in (column) is greater than the missing rate (column), a column missing value processing step (S350) of deleting the corresponding column (column) may be performed.

또한, 단계 S300에서는 단계 S100과 단계 S200 과정에서 획득한 데이터로 진행한다. 먼저, 단계 S310에서는 First Deletion 제거 단계로서, 입력된 데이터에서 첫 번째로 제거할 행과 열을 기준에 따라 제거를 진행한다. 이때, 행과 열 중 하나의 방향으로만 진행하며, 도 4에서 선택된 행과 열에 따라 19와 20의 기준을 적용하여 제거하게 된다. 또한, 110의 UI에서 컬럼(Column)이 선택되면 19에 입력된 First Deletion rate로 입력된 데이터에서 각 열 중 결측치의 비율이 First Deletion rate보다 크면 해당 열을 분석 데이터에서 삭제하고, 110의 UI에서 Row가 선택되면 20에 입력된 First Deletion rate를 이용하여 입력된 각 행 중 결측치의 비율이 First Deletion rate보다 크면 해당 행을 분석 데이터에서 삭제한다. 이때, First Deletion은 18에서 선택된 방향 하나만 삭제를 진행한다.Additionally, step S300 proceeds with data obtained in steps S100 and S200. First, in step S310, which is the First Deletion removal step, the row and column to be removed first from the input data are removed according to the criteria. At this time, it progresses in only one direction among rows and columns, and is removed by applying the criteria of 19 and 20 according to the row and column selected in FIG. 4. In addition, when a column is selected in the UI of 110, if the ratio of missing values in each column in the data entered with the First Deletion rate entered in 19 is greater than the First Deletion rate, the corresponding column is deleted from the analysis data, and in the UI of 110, When a row is selected, if the ratio of missing values among each row entered using the First Deletion rate entered at 20 is greater than the First Deletion rate, the corresponding row is deleted from the analysis data. At this time, First Deletion deletes only the direction selected in 18.

또한, 단계 S320에서는 행 비유효치 처리 과정으로, 24에서 입력된 비율을 적용한다. 이러한 단계 S320 과정은 행에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함해서 처리하며 행에서 비 유효치의 개수가 24에서 입력된 비율보다 크면 해당 행은 분석 데이터에서 삭제가 된다. 여기서, 단계 S320 과정에서는 결측치와 문자 외에 정상 범위를 벗어난 데이터도 포함이 되어 비율을 계산하는데 정상 범위는 사용자가 임의로 정하거나 아니면, 도 4에 입력부를 추가하여 입력받아 정하거나, 알고리즘 내부적으로 계산하여 사용할 수도 있다.Additionally, in step S320, the ratio input at 24 is applied as a row invalid value processing process. In this step S320 process, if non-numeric characters are entered in addition to missing values in a row, the number of values that are outside the normal value is also included and processed. If the number of invalid values in a row is greater than the ratio entered in 24, the row is deleted from the analysis data. It becomes. Here, in step S320, in addition to missing values and characters, data outside the normal range are also included to calculate the ratio. The normal range is arbitrarily determined by the user, or determined by input by adding an input unit in FIG. 4, or calculated internally in the algorithm. You can also use it.

또한, 단계 S330에서는 행 결측치 처리 과정으로, 단계 S320 과정의 결과로 진행되며, 22에서 입력된 파라미터를 적용한다. 단계 S320 과정은 행에서 결측치의 개수가 21에 입력된 비율보다 크면 해당 행은 삭제한다.Additionally, in step S330, the row missing value processing process is performed as a result of step S320, and the parameters input in step 22 are applied. In step S320, if the number of missing values in a row is greater than the ratio entered in 21, the corresponding row is deleted.

또한, 단계 S340에서는 열 비유효치 처리 과정으로, 23에서 입력된 비율을 적용한다. 단계 S340 과정은 열에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함해서 처리하며 열에서 비 유효치의 개수가 24에서 입력된 비율보다 크면 그 열은 분석 데이터에서 삭제가 된다. 이러한 단계 S340 과정에서는 결측치와 문자 외에 정상 범위를 벗어난 데이터도 포함이 되어 비율을 계산하는데 정상 범위는 사용자가 임의로 정하거나 아니면, 도 4에 입력부를 추가하여 입력받아 정하거나, 알고리즘 내부적으로 계산하여 사용할 수도 있다.Additionally, in step S340, the ratio input in step 23 is applied in the column invalid value processing process. In step S340, if characters other than numbers are entered in addition to missing values in the column, the number of values outside the normal value is also processed. If the number of invalid values in the column is greater than the ratio entered in 24, the column is deleted from the analysis data. do. In this step S340, in addition to missing values and characters, data outside the normal range are also included to calculate the ratio. The normal range is arbitrarily determined by the user, or determined by input by adding an input section in Figure 4, or calculated and used internally in the algorithm. It may be possible.

또한, 단계 S350에서는 열 결측치 처리 과정으로, 단계 S340 과정의 결과로 진행되며, 21에서 입력된 파라미터를 적용한다. 이러한 단계 S350 과정은 열에서 결측치의 개수가 21에 입력된 비율보다 크면 해당 행은 삭제한다.In addition, step S350 is a column missing value processing process, which is carried out as a result of step S340, and the parameters input in step 21 are applied. In this step S350 process, if the number of missing values in a column is greater than the ratio entered in 21, the corresponding row is deleted.

단계 S400에서는 S300을 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우고, 단계 S500에서는 단계 S400 이후, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인한다. 이러한 단계 S400 및 단계 S500의 처리 과정은 결측기 처리기(130)를 통해 실행될 수 있다.In step S400, missing values are estimated from the remaining result data after removal through S300 and the missing values are filled in. In step S500, after step S400, an operation is performed to evaluate whether to repeat the operation again, and the result of processing the missing values is checked. These processing steps S400 and S500 may be executed through the missing processor 130.

또한, 단계 S400에서는 도 7에 도시된 바와 같이, 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 주성분 분석을 위한 데이터 표준화를 진행하는 데이터 표준화 처리 단계(S410)와, 단계 S410을 통해 표준화를 진행한 데이터에서 결측치 처리를 위해 첫 번째 분석 과정을 수행하며, 결측 위치에 컬럼(column)과 로(row)의 평균값을 입력하고 주성분 분석 과정을 진행하는 결측치 최초 분석 단계(S420)와, 단계 S420을 통해 계산된 결측 위치의 추정값을 결측치 위치에 채우고, 다시 추정값을 계산하는 과정을 진행하는 추정 결측치 분석 단계(S430)와, 단계 S430에서 진행된 결과를 평가하고, 다시 추정 결측치 분석의 단계 S430의 과정을 진행할지를 결정하는 결측치 처리 계속 진행 확인 단계(S440)와, 단계 S440의 결정으로, 결측치의 처리가 끝난 데이터를 다시 환원하는 작업을 진행하는 데이터 환원 단계(S450)를 포함하여 이루어질 수 있다. 여기서, 단계 S410에서는 데이터 표준화 과정으로, 이후 과정에서 주성분 분석을 이용하므로 주성분 분석에서 필수적인 데이터 표준화를 진행하고, 단계 S420에서는 결측치 최초 분석 과정으로, 결측치 처리를 위해 첫 번째 과정을 수행하여 결측 위치에 행과 열의 평균값을 입력하고, 주성분 분석 후 주성분을 분석하는 과정이 진행되며, 단계 S430에서는 추정 결측치 분석 과정으로, 단계 S420 과정에 계산된 결측 위치의 추정값을 결측치 위치에 채우고 다시 추정값을 계산하는 과정을 진행하고, 단계 S440에서는 결측치 처리 계속 진행 확인 과정으로, 단계 S430에서 진행된 결과를 평가하고, 다시 단계 S430 과정을 진행할지를 결정하는 역할을 하며, 단계 S450에서는 데이터 환원 과정으로, 결측치 처리가 끝난 데이터를 다시 환원하는 작업을 하며, 이러한 단계 S450 과정은 PCA 변환 후 진행하였으므로 실제 데이터 영역으로 환원하는 작업이 수행하게 된다.In addition, in step S400, as shown in FIG. 7, a data standardization processing step (S410) of removing missing values through the remover 120 and standardizing data for principal component analysis on the remaining result data, and standardization through step S410 The first analysis process is performed to process missing values in the data that has been processed, and the first missing value analysis step (S420) is to input the average value of the column and row at the missing position and proceed with the principal component analysis process. An estimated missing value analysis step (S430) in which the estimated value of the missing position calculated through S420 is filled in the missing value position and the estimated value is calculated again, the results obtained in step S430 are evaluated, and the estimated missing value analysis step S430 is performed again. It may include a confirmation step (S440) to continue missing value processing, which determines whether to proceed with the process, and a data reduction step (S450), in which data that has been processed for missing values is restored following the decision in step S440. Here, in step S410, data standardization is performed, which is essential in principal component analysis since principal component analysis is used in the subsequent process. In step S420, the first missing value analysis process is performed, and the first process is performed to process missing values and locate the missing values. The average value of the row and column is entered, and the main component analysis process is performed after principal component analysis. In step S430, the estimated missing value analysis process is performed, and the estimated value of the missing position calculated in step S420 is filled in the missing value position and the estimated value is calculated again. In step S440, it is a confirmation process to continue missing value processing, and it evaluates the results in step S430 and determines whether to proceed with step S430 again. In step S450, it is a data reduction process, and data that has completed missing value processing is processed. The operation of reducing again is performed, and since this step S450 was performed after PCA conversion, the operation of reducing to the actual data area is performed.

도 8은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S420의 동작 흐름을 도시한 도면이다. 도 8에 도시된 바와 같이, 단계 S410 과정의 결과 데이터를 이용하여 진행되면 데이터에서 결측치는 그 결측치가 속한 행과 열의 평균을 이용하여 채우는 단계(S421)와, 단계 S421 과정에서 결측치가 모두 채워진 데이터를 주성분 분석을 이용하여 최적의 주성분 개수를 선택하는 과정의 단계(S422)와, 단계 S422 과정의 최적의 주성분으로 진행을 하며 고유벡터와 평균을 이용하여 단계 S421 과정에서 평균으로 채운 결측치의 추정 값을 계산하는 단계(S423)를 포함하여 이루어질 수 있다.Figure 8 is a diagram illustrating the operation flow of step S420 in the method for processing missing values according to an embodiment of the present invention. As shown in Figure 8, when the process is performed using the result data of step S410, the missing values in the data are filled using the average of the row and column to which the missing values belong (step S421), and the data in which all the missing values are filled in step S421. Step S422 of the process of selecting the optimal number of principal components using principal component analysis, proceeding with the optimal principal components of step S422, and using eigenvectors and averages, the estimated value of the missing values filled with the average in step S421. This may include calculating (S423).

도 9는 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S430의 동작 흐름을 도시한 도면이다. 도 9에 도시된 바와 같이, 단계 S423 과정에서 계산된 결측치의 추정치를 각각의 결측 위치에 채우는 과정을 진행하는 단계(S431)와, 단계 S431 과정에서 채워진 데이터로 최적의 주성분 개수를 선택하는 단계(S432)와, 단계 S432 과정의 최적의 주성분 수로 고유벡터와 결측치의 추정치를 계산하는 단계(S433)를 포함하여 이루어질 수 있다.Figure 9 is a diagram illustrating the operation flow of step S430 in the method for processing missing values according to an embodiment of the present invention. As shown in FIG. 9, a step (S431) of filling each missing position with the estimate of the missing value calculated in step S423, and a step of selecting the optimal number of principal components with the data filled in step S431 ( It may include a step S432) and a step S433 of calculating an estimate of the eigenvector and the missing value using the optimal number of principal components in step S432.

도 10은 본 발명의 일실시예에 따른 결측치 처리를 위한 방법에서, 단계 S440의 동작 흐름을 도시한 도면이다. 도 10에 도시된 바와 같이, 단계 S440 과정은, 이전 과정의 결과로 진행을 하며 주성분 수만큼 이전의 고유벡터와 현재 고유벡터의 차를 계산하는 단계(S441)와, 이전의 고유벡터에 대한 주성분의 수만큼 고유벡터 차의 총 제곱함(Sum Square)을 계산하는 단계(S442)와, 이전 고유벡터와 현재 고유벡터의 차에 대한 주성분 개수만큼 총 제곱합(Sum Square)을 계산하는 단계(S443)와, 이전 과정의 결과로 단계 S450 과정으로 진행하여 데이터 환원 후 종료를 할지 다시 단계 S430 과정으로 진행하여 결측치의 추정치 정확도를 높일지를 선택하는 단계(S444)를 포함하여 이루어질 수 있다. 즉, 단계 S430 과정으로 진행하여 단계 S440 과정을 다시 수행하여 결측치의 추정치의 정확도가 더 높아지며, 원하는 정도의 정확도를 위하여 여러 번 반복 진행을 할 수 있다.Figure 10 is a diagram illustrating the operation flow of step S440 in the method for processing missing values according to an embodiment of the present invention. As shown in FIG. 10, the step S440 process proceeds with the result of the previous process and includes a step (S441) of calculating the difference between the previous eigenvector and the current eigenvector by the number of main components, and the main component for the previous eigenvector. A step of calculating the sum square of the eigenvector difference as the number of (S442), and a step of calculating the sum square as the number of main components of the difference between the previous eigenvector and the current eigenvector (S443) As a result of the previous process, it may include a step (S444) of selecting whether to proceed to step S450 and end after data reduction or to proceed again to step S430 to increase the accuracy of the estimate of the missing value. That is, by proceeding to step S430 and performing step S440 again, the accuracy of the estimate of the missing value is further increased, and the process can be repeated several times to achieve the desired level of accuracy.

상술한 바와 같이, 본 발명의 일실시예에 따른 결측치 처리를 위한 장치 및 방법은, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기와, 파라미터 UI 입력기를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기와, 결측치 제거기를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기를 포함하여 구성함으로써, 생산관리 시스템에서 수집되는 데이터에서 결측치 발생 시, 데이터 분석이 가능하도록 결측치를 추정하여 보정할 수 있도록 할 수 있으며, 특히, 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터 입력 UI와, 입력 파라미터로 데이터의 컬럼과 로를 제거하고 남아 있는 결측치를 높은 정확도도 추정하여 보정할 수 있도록 함으로써, 분석을 위한 데이터에서 보다 정확하게 결측치 처리를 수행함은 물론, 결측치 처리를 위해 필요한 파라미터를 입력받을 수 있는 사용자 인터페이스 방식의 제공을 통해 결측치 처리와 평가 과정이 더욱 향상될 수 있도록 할 수 있게 된다.As described above, the apparatus and method for processing missing values according to an embodiment of the present invention is for receiving parameters for processing missing values so that data with missing values can be analyzed, and loading data subject to processing for missing values. Parameters for processing missing values input through the parameter UI input device and the parameter UI input device, and parameters for deleting invalid columns and rows containing missing values using the loaded data subject to processing missing values. Production management is done by including a missing value remover, a missing value handler that estimates missing values from the remaining result data after removal through the missing value remover, fills in the missing values, evaluates whether to repeat the work again, and checks the results of missing value processing. When missing values occur in data collected from the system, the missing values can be estimated and corrected to enable data analysis. In particular, the parameter input UI for processing missing values and input parameters can be used to analyze data with missing values. By removing columns and rows of data and allowing the remaining missing values to be estimated and corrected with high accuracy, missing value processing is performed more accurately in data for analysis, as well as a user interface that allows input of parameters necessary for missing value processing. By providing a method, the missing value handling and evaluation process can be further improved.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.The present invention described above can be modified or applied in various ways by those skilled in the art, and the scope of the technical idea according to the present invention should be determined by the claims below.

100: 본 발명의 일실시예에 따른 결측치 처리를 위한 장치
110: 파라미터 UI 입력기
120: 결측치 제거기
121: 첫 번째 삭제 제거부
122: 행 비유효치 처리부
123: 행 결측치 처리부
124: 열 비유효치 처리부
125: 열 결측치 처리부
130: 결측치 처리기
131: 데이터 표준화 처리부
132: 결측치 최초 분석부
133: 추정 결측치 분석부
134: 결측치 처리 계속 진행 확인부
135: 데이터 환원부
S100: 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받는 단계
S200: 결측치 처리 대상이 되는 데이터를 로드 받아 결측치 처리를 위한 데이터를 적재하는 단계
S300: 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하는 단계
S400: 단계 S300을 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우는 단계
S500: 단계 S400 이후, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 단계
100: Device for processing missing values according to an embodiment of the present invention
110: Parameter UI input device
120: Missing value remover
121: First deletion removal unit
122: Row invalid value processing unit
123: Row missing value processing unit
124: Heat invalid value processing unit
125: Column missing value processing unit
130: Missing value handler
131: Data standardization processing unit
132: Missing value initial analysis section
133: Estimated missing value analysis unit
134: Confirmation of continuing missing value processing
135: Data reduction unit
S100: Step of receiving parameters for processing missing values so that data with missing values can be analyzed
S200: Step of loading data subject to missing value processing and loading data for missing value processing
S300: Step of deleting invalid columns and rows containing missing values using parameters for missing value processing and loaded data subject to missing value processing.
S400: Step of estimating missing values from the resulting data remaining after removal through step S300 and filling the missing values.
S500: After step S400, a step is performed to evaluate whether to repeat the task again and check the results of processing missing values.

Claims (8)

결측치 처리를 위한 장치(100)로서,
결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기(110);
상기 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기(120); 및
상기 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기(130)를 포함하되,
상기 결측치 처리기(130)는,
상기 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 주성분 분석을 위한 데이터 표준화를 진행하는 데이터 표준화 처리부(131);
상기 데이터 표준화 처리부(131)를 통해 표준화를 진행한 데이터에서 결측치 처리를 위해 첫 번째 분석 과정을 수행하며, 결측 위치에 컬럼(column)과 로(row)의 평균값을 입력하고 주성분 분석 과정을 진행하는 결측치 최초 분석부(132);
상기 결측치 최초 분석부(132)를 통해 계산된 결측 위치의 추정값을 결측치 위치에 채우고, 다시 추정값을 계산하는 과정을 진행하는 추정 결측치 분석부(133);
상기 추정 결측치 분석부(133)에서 진행된 결과를 평가하고, 다시 추정 결측치 분석부(133)의 과정을 진행할지를 결정하는 결측치 처리 계속 진행 확인부(134); 및
상기 결측치 처리 계속 진행 확인부(134)의 결정으로, 결측치의 처리가 끝난 데이터를 다시 환원하는 작업을 진행하는 데이터 환원부(135)를 포함하여 구성하는 것을 특징으로 하는, 결측치 처리를 위한 장치.
An apparatus 100 for processing missing values, comprising:
a parameter UI input unit 110 for receiving parameters for processing missing values so that data with missing values can be analyzed, and for loading data subject to missing value processing;
Parameters for missing value processing input through the parameter UI input device 110, and missing values for deleting invalid columns and rows containing missing values using the loaded data subject to missing value processing. remover (120); and
It includes a missing value processor 130 that removes through the missing value remover 120, estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the operation again, and checks the result of processing the missing values,
The missing value processor 130,
a data standardization processing unit 131 that removes missing values through the missing value remover 120 and standardizes the remaining result data for principal component analysis;
The first analysis process is performed to process missing values in the data standardized through the data standardization processing unit 131, and the average value of the column and row is input into the missing position and the principal component analysis process is performed. Missing value initial analysis unit 132;
an estimated missing value analysis unit 133 that fills the missing value positions with the estimated value of the missing position calculated through the missing value initial analysis unit 132 and proceeds with calculating the estimated value again;
a missing value processing continuation confirmation unit 134 that evaluates the results of the estimated missing value analysis unit 133 and determines whether to proceed with the estimated missing value analysis unit 133 again; and
An apparatus for processing missing values, characterized in that it includes a data reduction unit (135) that performs the task of restoring the data for which the missing value processing has been completed, based on the decision of the missing value processing confirmation unit (134).
제1항에 있어서, 상기 결측치 제거기(120)는,
상기 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하되, 입력된 데이터에서 첫 번째로 제거할 컬럼(column)과 로(row)를 입력된 파라미터의 삭제 기준에 따라 제거를 진행하는 첫 번째 삭제 제거부(121);
로(row)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 로(row)에서의 비유효치의 개수가 파라미터의 입력된 비율보다 크면 해당 로(row)는 분석 데이터에서 삭제하는 행 비유효치 처리부(122);
상기 행 비유효치 처리부(122)의 처리 결과 이후, 파라미터의 결측률(missing rate(row))을 적용하여 로(row)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 로(row)는 삭제하는 행 결측치 처리부(123);
컬럼(column)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 컬럼(column)에서의 비유효치의 개수가 행별 삭제(rowwise deletion)의 파라미터의 입력된 비율보다 크면 해당 컬럼(column)은 분석 데이터에서 삭제하는 열 비유효치 처리부(124); 및
상기 열 비유효치 처리부(124)의 처리 결과 이후, 파라미터의 결측률(missing rate(column))을 적용하여 컬럼(column)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 컬럼(column)을 삭제하는 열 결측치 처리부(125)를 포함하여 구성하는 것을 특징으로 하는, 결측치 처리를 위한 장치.
The method of claim 1, wherein the missing value remover 120,
Parameters for missing value processing input through the parameter UI input device 110 and data subject to loaded missing value processing are used, and the column and row to be removed first from the input data are input. a first deletion removal unit 121 that performs removal according to the deletion criteria of the selected parameters;
If characters other than numbers are entered in a row in addition to missing values, and the number of invalid values in the row, including the number of values outside the normal value, is greater than the input ratio of the parameter, the row is analyzed. a row invalid value processing unit 122 to delete from data;
After the processing result of the row invalid value processing unit 122, the missing rate (row) of the parameter is applied, and if the number of missing values in the row is greater than the missing rate (column), the corresponding row (row) is a row missing value processing unit 123 that deletes;
If characters other than numbers are entered in the column in addition to missing values, and the number of invalid values in the column, including the number of values that are outside the normal value, is greater than the input rate of the rowwise deletion parameter, a column invalid value processing unit 124 that deletes the corresponding column from the analysis data; and
After the processing result of the column invalid value processing unit 124, the missing rate (column) of the parameter is applied and if the number of missing values in the column is greater than the missing rate (column), the corresponding column A device for processing missing values, characterized in that it includes a column missing value processing unit 125 that deletes (column).
삭제delete 제1항 또는 제2항에 있어서, 상기 파라미터 UI 입력기(110)는,
결측치 처리를 위한 파라미터 입력의 사용자 인터페이스(User Interface)로 구성하되, UI의 좌변으로 각 입력 파라미터의 내용이 정의되고, UI의 우변으로 각 입력 파라미터의 내용에 대한 파라미터 입력창이 배치되며, 각 파라미터의 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하되, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용되는 것을 특징으로 하는, 결측치 처리를 위한 장치.
The method of claim 1 or 2, wherein the parameter UI input device 110,
It consists of a user interface for parameter input for missing value processing. The contents of each input parameter are defined on the left side of the UI, a parameter input window for the contents of each input parameter is placed on the right side of the UI, and the contents of each parameter are defined. The input window displays the default value (default value) of each parameter, but when the user enters the desired value, it is changed to the entered value and is used to process missing values. A device for processing missing values.
결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받고, 결측치 처리 대상이 되는 데이터를 로드받기 위한 파라미터 UI 입력기(110); 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하기 위한 결측치 제거기(120); 및 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우며, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 결측치 처리기(130)를 포함하는 결측치 처리를 위한 장치(100)에서 각 단계가 처리되며,
(1) 결측치가 있는 데이터를 분석할 수 있도록 결측치 처리를 위한 파라미터를 입력받는 단계;
(2) 결측치 처리 대상이 되는 데이터를 로드 받아 결측치 처리를 위한 데이터를 적재하는 단계;
(3) 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하여 결측치가 포함된 유효하지 않은 컬럼(column)과 로(row)를 삭제하는 단계;
(4) 상기 단계 (3)을 통해 제거하고 남아 있는 결과 데이터에서 결측치를 추정하고 결측치를 채우는 단계; 및
(5) 상기 단계 (4) 이후, 다시 작업을 반복할지를 평가하는 작업을 하고, 결측치 처리 결과를 확인하는 단계를 포함하되,
상기 단계 (4)에서는,
(4-1) 결측치 제거기(120)를 통해 제거하고 남아 있는 결과 데이터에서 주성분 분석을 위한 데이터 표준화를 진행하는 데이터 표준화 처리 단계;
(4-2) 상기 단계 (4-1)을 통해 표준화를 진행한 데이터에서 결측치 처리를 위해 첫 번째 분석 과정을 수행하며, 결측 위치에 컬럼(column)과 로(row)의 평균값을 입력하고 주성분 분석 과정을 진행하는 결측치 최초 분석 단계;
(4-3) 상기 단계 (4-2)를 통해 계산된 결측 위치의 추정값을 결측치 위치에 채우고, 다시 추정값을 계산하는 과정을 진행하는 추정 결측치 분석 단계;
(4-4) 상기 단계 (4-3)에서 진행된 결과를 평가하고, 다시 추정 결측치 분석의 단계 (4-3)의 과정을 진행할지를 결정하는 결측치 처리 계속 진행 확인 단계; 및
(4-5) 상기 단계 (4-4)의 결정으로, 결측치의 처리가 끝난 데이터를 다시 환원하는 작업을 진행하는 데이터 환원 단계를 포함하여 이루어지는 것을 특징으로 하는, 결측치 처리를 위한 방법.
a parameter UI input unit 110 for receiving parameters for processing missing values so that data with missing values can be analyzed, and for loading data subject to missing value processing; A missing value remover for deleting invalid columns and rows containing missing values using parameters for missing value processing input through the parameter UI input device 110 and the loaded data subject to missing value processing. (120); and a missing value processor 130 that removes missing values through the missing value remover 120, estimates missing values from the remaining result data, fills in the missing values, evaluates whether to repeat the operation again, and checks the results of missing value processing. Each step is processed in device 100 for,
(1) receiving parameters for processing missing values so that data with missing values can be analyzed;
(2) loading data subject to missing value processing and loading data for missing value processing;
(3) deleting invalid columns and rows containing missing values using parameters for missing value processing and loaded data subject to missing value processing;
(4) estimating missing values from the resulting data remaining after removal through step (3) above and filling the missing values; and
(5) After step (4), it includes the step of evaluating whether to repeat the work again and checking the results of processing missing values,
In step (4),
(4-1) Data standardization processing step of removing missing values through the remover 120 and standardizing data for principal component analysis on the remaining result data;
(4-2) The first analysis process is performed to handle missing values in the data standardized through step (4-1), and the average value of the column and row is entered at the missing position and the principal component is entered. Initial analysis of missing values during the analysis process;
(4-3) an estimated missing value analysis step of filling the missing value location with the estimated value of the missing location calculated through step (4-2) and proceeding with the process of calculating the estimated value again;
(4-4) a confirmation step to continue missing value processing, which evaluates the results from step (4-3) and decides whether to proceed with step (4-3) of estimated missing value analysis again; and
(4-5) A method for processing missing values, characterized in that it includes a data reduction step in which data that has been processed for missing values is restored following the decision in step (4-4).
제5항에 있어서, 상기 단계 (3)에서는,
(3-1) 파라미터 UI 입력기(110)를 통해 입력되는 결측치 처리를 위한 파라미터와, 로드한 결측치 처리 대상이 되는 데이터를 이용하되, 입력된 데이터에서 첫 번째로 제거할 컬럼(column)과 로(row)를 입력된 파라미터의 삭제 기준에 따라 제거를 진행하는 첫 번째 삭제 제거 진행 단계;
(3-2) 로(row)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 로(row)에서의 비유효치의 개수가 파라미터의 입력된 비율보다 크면 해당 로(row)는 분석 데이터에서 삭제하는 행 비유효치 처리 단계;
(3-3) 상기 단계 (3-2)의 처리 결과 이후, 파라미터의 결측률(missing rate(row))을 적용하여 로(row)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 로(row)는 삭제하는 행 결측치 처리 단계;
(3-4) 컬럼(column)에서 결측치 이외에도 숫자가 아닌 문자가 입력된 경우, 정상치를 벗어난 수치의 개수도 포함하여 컬럼(column)에서의 비유효치의 개수가 행별 삭제(rowwise deletion)의 파라미터의 입력된 비율보다 크면 해당 컬럼(column)은 분석 데이터에서 삭제하는 열 비유효치 처리 단계; 및
(3-5) 상기 단계 (3-4)의 처리 결과 이후, 파라미터의 결측률(missing rate(column))을 적용하여 컬럼(column)에서 결측치의 개수가 결측률(missing rate(column))보다 크면 해당 컬럼(column)을 삭제하는 열 결측치 처리 단계를 포함하여 이루어지는 것을 특징으로 하는, 결측치 처리를 위한 방법.
The method of claim 5, wherein in step (3),
(3-1) Parameters for missing value processing input through the parameter UI input device 110 and data subject to loaded missing value processing are used, and a column and row to be removed first from the input data are selected. The first deletion removal process step in which rows) are removed according to the deletion criteria of the input parameters;
(3-2) If characters other than numbers are entered in the row in addition to missing values, if the number of invalid values in the row, including the number of values outside the normal value, is greater than the input ratio of the parameter, the corresponding row (row) is a row invalid value processing step to delete from analysis data;
(3-3) After the processing result of step (3-2), the missing rate (row) of the parameter is applied so that the number of missing values in the row is greater than the missing rate (column). a row missing value processing step of deleting the corresponding row if it is large;
(3-4) If characters other than numbers are entered in the column in addition to missing values, the number of invalid values in the column, including the number of values that are outside the normal value, is set to the parameter for rowwise deletion. a column invalid value processing step of deleting the corresponding column from the analysis data if it is greater than the input ratio; and
(3-5) After the processing result of step (3-4), the missing rate (column) of the parameter is applied so that the number of missing values in the column is greater than the missing rate (column). A method for processing missing values, characterized in that it includes a column missing value processing step of deleting the corresponding column if it is large.
삭제delete 제5항 또는 제6항에 있어서, 상기 파라미터 UI 입력기(110)는,
결측치 처리를 위한 파라미터 입력의 사용자 인터페이스(User Interface)로 구성하되, UI의 좌변으로 각 입력 파라미터의 내용이 정의되고, UI의 우변으로 각 입력 파라미터의 내용에 대한 파라미터 입력창이 배치되며, 각 파라미터의 입력창은 각 파라미터의 기본값(디폴트 값)을 표시하되, 사용자가 원하는 값을 입력하면 입력한 값으로 변경되고 결측치 처리에 사용되는 것을 특징으로 하는, 결측치 처리를 위한 방법.
The method of claim 5 or 6, wherein the parameter UI input device 110,
It consists of a user interface for parameter input for missing value processing. The contents of each input parameter are defined on the left side of the UI, a parameter input window for the contents of each input parameter is placed on the right side of the UI, and the contents of each parameter are defined. A method for processing missing values, characterized in that the input window displays the default value (default value) of each parameter, but when the user enters the desired value, it is changed to the entered value and used for processing missing values.
KR1020220152120A 2022-11-14 2022-11-14 Apparatus and method for handling missing values KR102589602B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220152120A KR102589602B1 (en) 2022-11-14 2022-11-14 Apparatus and method for handling missing values

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220152120A KR102589602B1 (en) 2022-11-14 2022-11-14 Apparatus and method for handling missing values

Publications (1)

Publication Number Publication Date
KR102589602B1 true KR102589602B1 (en) 2023-10-17

Family

ID=88557541

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220152120A KR102589602B1 (en) 2022-11-14 2022-11-14 Apparatus and method for handling missing values

Country Status (1)

Country Link
KR (1) KR102589602B1 (en)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028834A (en) * 2017-08-01 2019-02-21 株式会社東芝 Abnormal value diagnostic device, abnormal value diagnostic method, and program
KR20200030303A (en) * 2018-09-12 2020-03-20 삼성에스디에스 주식회사 Method and apparatus for compensating a missing value in data
KR20200108969A (en) * 2019-03-12 2020-09-22 에스케이텔레콤 주식회사 Method and Apparatus for Cyclic Time Series Data Feature Extraction
KR102251139B1 (en) * 2020-10-13 2021-05-12 (주)비아이매트릭스 A missing value correction system using machine learning and data augmentation
KR20210063866A (en) * 2019-11-25 2021-06-02 주식회사 엑셈 Method of detecting abnormal data by processing missed value and noise in time series data and system implementing thereof
KR20210065751A (en) * 2019-11-27 2021-06-04 강릉원주대학교산학협력단 System and method for estimating a missing value
KR20210086175A (en) * 2019-12-31 2021-07-08 주식회사 포스코아이씨티 Data preprocessing system
KR102321767B1 (en) * 2020-11-16 2021-11-03 충북대학교 산학협력단 Energy Data Preprocessing Platform System based on Deep Learning Algorithm
KR102413518B1 (en) * 2021-12-30 2022-06-28 주식회사 애자일소다 Multy classification system and method using secondary verification
JP2022138758A (en) * 2021-03-11 2022-09-26 株式会社日立システムズ Information processing apparatus, information processing method, and program

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028834A (en) * 2017-08-01 2019-02-21 株式会社東芝 Abnormal value diagnostic device, abnormal value diagnostic method, and program
KR20200030303A (en) * 2018-09-12 2020-03-20 삼성에스디에스 주식회사 Method and apparatus for compensating a missing value in data
KR20200108969A (en) * 2019-03-12 2020-09-22 에스케이텔레콤 주식회사 Method and Apparatus for Cyclic Time Series Data Feature Extraction
KR20210063866A (en) * 2019-11-25 2021-06-02 주식회사 엑셈 Method of detecting abnormal data by processing missed value and noise in time series data and system implementing thereof
KR20210065751A (en) * 2019-11-27 2021-06-04 강릉원주대학교산학협력단 System and method for estimating a missing value
KR20210086175A (en) * 2019-12-31 2021-07-08 주식회사 포스코아이씨티 Data preprocessing system
KR102251139B1 (en) * 2020-10-13 2021-05-12 (주)비아이매트릭스 A missing value correction system using machine learning and data augmentation
KR102321767B1 (en) * 2020-11-16 2021-11-03 충북대학교 산학협력단 Energy Data Preprocessing Platform System based on Deep Learning Algorithm
JP2022138758A (en) * 2021-03-11 2022-09-26 株式会社日立システムズ Information processing apparatus, information processing method, and program
KR102413518B1 (en) * 2021-12-30 2022-06-28 주식회사 애자일소다 Multy classification system and method using secondary verification

Similar Documents

Publication Publication Date Title
RU2321886C2 (en) System for analyzing design and production processes
CN109885469B (en) Capacity expansion method, prediction model creation method, device, equipment and medium
JP5418610B2 (en) Failure cause extraction apparatus, failure cause extraction method, and program storage medium
JP7188950B2 (en) Data processing method and data processing program
CN112686433B (en) Method, device, equipment and storage medium for predicting express quantity
JP7214417B2 (en) Data processing method and data processing program
CN113037577B (en) Network traffic prediction method, device and computer readable storage medium
US9621679B2 (en) Operation task managing apparatus and method
CN107037781A (en) Process time prediction meanss
KR102589602B1 (en) Apparatus and method for handling missing values
KR101831561B1 (en) Design apparatus and method for using statistical property
CN111831631A (en) Missing value completion apparatus, missing value completion method, and computer-readable medium
JP6989464B2 (en) Software generation method and software generation system
US6947876B1 (en) Method for automated system identification
CN112801441B (en) Analysis system and analysis method
JP6493904B2 (en) Parameter selection method, parameter selection program, and parameter selection device
JP6398991B2 (en) Model estimation apparatus, method and program
CN112800037B (en) Optimization method and device for engineering cost data processing
JP2022076750A (en) Information processing unit, information processing system, and information processing method
JP4922644B2 (en) Time series analysis program, time series analysis system, and time series analysis apparatus used therefor
KR20070090542A (en) Method of setting up an error range and statistical process control method of semiconductor apparatus using the method
CN110473161B (en) Method for creating image chain
JP4230890B2 (en) Model identification device, model identification program, and method of operating model identification device
CN111208993A (en) Process data analysis processing system
JP2004220269A (en) Integrated test management system

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant