KR102531742B1 - Method and apparatus for null value correction of sensor data - Google Patents

Method and apparatus for null value correction of sensor data Download PDF

Info

Publication number
KR102531742B1
KR102531742B1 KR1020200163181A KR20200163181A KR102531742B1 KR 102531742 B1 KR102531742 B1 KR 102531742B1 KR 1020200163181 A KR1020200163181 A KR 1020200163181A KR 20200163181 A KR20200163181 A KR 20200163181A KR 102531742 B1 KR102531742 B1 KR 102531742B1
Authority
KR
South Korea
Prior art keywords
missing
specific column
value
column
correcting
Prior art date
Application number
KR1020200163181A
Other languages
Korean (ko)
Other versions
KR20220074548A (en
Inventor
반효경
조경운
Original Assignee
이화여자대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이화여자대학교 산학협력단 filed Critical 이화여자대학교 산학협력단
Priority to KR1020200163181A priority Critical patent/KR102531742B1/en
Publication of KR20220074548A publication Critical patent/KR20220074548A/en
Application granted granted Critical
Publication of KR102531742B1 publication Critical patent/KR102531742B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Indication And Recording Devices For Special Purposes And Tariff Metering Devices (AREA)

Abstract

본 발명은 테이블로 구성된 센서 데이터에서 누락된 값을 보정하기 위한 누락값 보정 방법 및 누락값 보정 장치에 관한 것으로, 누락값 보정 방법은 센서로부터 수집된 데이터에서 셀 값이 누락된 특정 칼럼을 검출하고, 특정 칼럼을 제외한 유효 칼럼을 이용하여 특정 칼럼의 누락된 셀 값을 보정한다.The present invention relates to a missing value correction method and a missing value correction device for correcting missing values in sensor data composed of tables. The missing value correction method detects a specific column in which a cell value is missing from data collected from a sensor and , Correct the missing cell value of a specific column using the valid column except for the specific column.

Description

센서 데이터의 누락값 보정 방법 및 누락값 보정 장치{METHOD AND APPARATUS FOR NULL VALUE CORRECTION OF SENSOR DATA}Missing value correction method and missing value correction device of sensor data {METHOD AND APPARATUS FOR NULL VALUE CORRECTION OF SENSOR DATA}

본 발명은 센서 데이터의 누락값 보정 방법 및 누락값 보정 장치에 관한 것으로, 보다 구체적으로는 센서로부터 수집된 센서 데이터에 포함된 누락 값을 자동으로 보정하여 고품질의 데이터를 도출하기 위한 장치 및 방법에 관한 것이다.The present invention relates to a missing value correction method of sensor data and a missing value correction device, and more particularly, to an apparatus and method for deriving high-quality data by automatically correcting missing values included in sensor data collected from a sensor. it's about

일반적으로, 테이블 데이터는 열과 행으로 구성된 데이터로써, 관계형 데이터베이스에서 주로 쓰는 표현 형식이며, 다수의 속성을 가지는 많은 개수의 항목들을 표시하는 방법이다. 테이블 데이터의 각 행은 데이터 항목이며, 열을 각 항목이 가지는 속성으로서 테이블의 각 셀은 항목의 속성값으로 볼 수 있다.In general, table data is data composed of columns and rows, and is an expression format mainly used in relational databases, and is a method of displaying a large number of items having multiple attributes. Each row of the table data is a data item, and each cell of the table can be viewed as an attribute value of the item as a column as an attribute of each item.

테이블의 각 셀 중 일부 데이터가 누락된 테이블 데이터의 경우, 데이터 분석을 하거나 또는, 기계 학습을 위한 훈련 데이터를 사용할 때, 누락된 데이터를 처리하기 위하여 예외 처리를 해야 하는 부담이 발생한다. 이때, 1개 셀의 누락으로 인하여 전체 행 데이터를 사용하지 못하는 경우도 발생할 수 있다.In the case of table data in which some of the data in each cell of the table is missing, the burden of handling exceptions in order to process the missing data occurs when analyzing data or using training data for machine learning. In this case, there may be cases in which entire row data cannot be used due to omission of one cell.

예외 처리를 제공하는 경우, 해당 데이터 항목을 모두 배제하거나 평균값 혹은 단순 유추값 등으로 대치되는데, 데이터 항목을 모두 배제하는 경우에는 유효한 다른 칼럼의 값들을 데이터 분석에서 제외하게 되는 문제가 발생한다. 또한, 평균값 혹은 단순 유추값으로 대치되는 경우에는 누락된 데이터에 대해 특정값으로 평향되는 문제가 발생한다.When exception handling is provided, all corresponding data items are excluded or replaced with average values or simple inference values. However, when all data items are excluded, values of other valid columns are excluded from data analysis. In addition, when the average value or a simple inference value is substituted, there is a problem that the missing data is biased to a specific value.

본 발명은 테이블로 구성된 데이터에서 셀 값이 누락된 특정 칼럼을 검출하고, 특정 칼럼을 제외한 유효 칼럼에 따른 유효 행을 이용하여 누락된 셀 값을 보정함으로써, 특정 칼럼의 오류로 인한 누락된 값이 포함된 전체 행이 데이터 분석에서 제외하는 것을 방지하는 장치 및 방법을 제공한다.The present invention detects a specific column in which a cell value is missing in data composed of a table, and corrects the missing cell value using a valid row according to a valid column excluding the specific column, so that a missing value due to an error in a specific column is corrected. Provided is an apparatus and method for preventing all rows included from being excluded from data analysis.

본 발명은 누락된 셀 값을 포함하는 특정 칼럼을 제외한 유효 칼럼의 모든 행을 학습한 후, 학습 결과에 기반한 특정 칼럼의 누락된 셀 값을 보정함으로써, 테이블을 구성하는 행 간의 연관성에 따른 특정 값으로 편향되는 것을 방지하는 장치 및 방법을 제공한다.In the present invention, after learning all rows of an effective column except for a specific column including a missing cell value, and then correcting the missing cell value of a specific column based on the learning result, a specific value according to the correlation between rows constituting a table. It provides an apparatus and method for preventing bias.

본 발명은 특정 칼럼의 누락된 셀 값을 보정함에 있어, 데이터를 수집하는 과정에서의 공간 유사성 및 시간 유사성을 고려함으로써, 시간 및 장소의 특성에 따른 누락된 셀 값을 보정하는 장치 및 방법을 제공한다.The present invention provides an apparatus and method for correcting missing cell values according to characteristics of time and place by considering spatial similarity and temporal similarity in the process of collecting data when correcting missing cell values of a specific column. do.

본 발명의 일실시예에 따른 누락값 보정 방법은 복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성하는 단계; 상기 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정하는 단계; 및 상기 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정하는 단계;를 포함할 수 있다.A missing value correction method according to an embodiment of the present invention includes generating test data composed of tables using target data collected from sensors installed at a plurality of observation points; determining a specific column in which a cell value is missing among cells forming a table by analyzing the test data; and correcting missing cell values of the specific column by using valid rows according to valid columns excluding the specific column from the test data.

본 발명의 실시예에 따른 생성하는 단계는, 상기 복수의 관측 지점에 설치된 센서로부터 시간에 따른 칼럼(Column) 단위의 대상 데이터를 수집하는 단계; 및 상기 수집된 칼럼 단위의 대상 데이터를 순차적으로 취합하여 누락된 셀 값을 보정하기 위한 테이블로 구성된 검사 데이터를 생성하는 단계;를 포함할 수 있다.The generating step according to an embodiment of the present invention may include collecting target data in a column unit over time from sensors installed at the plurality of observation points; and generating test data composed of tables for correcting missing cell values by sequentially collecting the collected target data in units of columns.

본 발명의 실시예에 따른 결정하는 단계는, 상기 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리 하는 단계; 및 상기 표시 형식이 전처리 된 테이블의 셀들 중 셀 값이 누락된 특정 칼럼을 결정하는 단계;를 포함할 수 있다.The determining step according to an embodiment of the present invention may include pre-processing a display format of a data type represented by cells forming the table; and determining a specific column in which a cell value is missing among cells of the table in which the display format is preprocessed.

본 발명의 실시예에 따른 특정 칼럼의 누락된 셀 값을 보정하는 단계는, 상기 검사 데이터에서 셀 값이 누락된 특정 칼럼의 수집 시간을 추출하는 단계; 시간 유사성에 따른 검사 데이터에서 추출한 수집 시간과 동일 시간에 수집된 적어도 하나의 유효 칼럼을 추출하는 단계; 및 상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정하는 단계;를 포함할 수 있다.Correcting a missing cell value of a specific column according to an embodiment of the present invention may include extracting a collection time of a specific column having a missing cell value from the test data; extracting at least one effective column collected at the same time as the collection time extracted from the test data according to time similarity; and correcting missing cell values of a specific column using cell values of valid rows according to the at least one extracted effective column.

본 발명의 실시예에 따른 특정 칼럼의 누락된 셀 값을 보정하는 단계는, 상기 검사 데이터에서 셀 값이 누락된 특정 칼럼을 수집한 센서의 관측 지점을 추출하는 단계; 공간 유사성에 따른 상기 추출한 센서의 관측 지점과 일정 반경 내에 설치된 서로 다른 관측 지점을 판단하는 단계; 상기 검사 데이터에서 서로 다른 관측 지점에 설치된 센서로부터 수집된 적어도 하나의 유효 칼럼을 추출하는 단계; 및 상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정하는 단계;를 포함할 수 있다.Correcting a missing cell value of a specific column according to an embodiment of the present invention may include extracting an observation point of a sensor that collects a specific column having a missing cell value from the test data; Determining different observation points installed within a certain radius from the observation point of the extracted sensor according to spatial similarity; extracting at least one effective column collected from sensors installed at different observation points from the inspection data; and correcting missing cell values of a specific column using cell values of valid rows according to the at least one extracted valid column.

본 발명의 실시예에 따른 특정 칼럼의 누락된 셀 값을 보정하는 단계는, 상기 유효 칼럼들에 따른 유효 행에 대한 데이터 패턴에 기초하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.In the correcting of the missing cell value of the specific column according to an embodiment of the present invention, the missing cell value of the specific column may be corrected based on a data pattern for valid rows according to the valid columns.

본 발명의 일실시예에 따른 프로세서를 포함하는 누락값 보정 장치에 있어서, 상기 프로세서는, 복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성하고, 상기 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정하고, 상기 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정할 수 있다.In the missing value correction device including a processor according to an embodiment of the present invention, the processor generates test data composed of a table using target data collected from sensors installed at a plurality of observation points, and the test data is analyzed to determine a specific column in which a cell value is missing among cells forming a table, and the missing cell value of the specific column can be corrected using a valid row according to valid columns excluding the specific column in the inspection data. there is.

본 발명의 실시예에 따른 프로세서는, 상기 복수의 관측 지점에 설치된 센서로부터 시간에 따른 칼럼 단위의 대상 데이터를 수집하고, 상기 수집된 칼럼 단위의 대상 데이터를 순차적으로 취합하여 누락된 셀 값을 보정하기 위한 테이블로 구성된 검사 데이터를 생성할 수 있다.The processor according to an embodiment of the present invention collects target data in column units over time from sensors installed at the plurality of observation points, and corrects missing cell values by sequentially collecting the collected target data in column units. It is possible to create inspection data composed of tables for

본 발명의 일실시예에 따른 프로세서는, 상기 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리를 수행하고, 상기 표시 형식이 전처리 된 테이블의 셀들 중 셀 값이 누락된 특정 칼럼을 결정할 수 있다.The processor according to an embodiment of the present invention may perform pre-processing on the display format of the data type indicated by the cells forming the table, and determine a specific column in which the cell value is missing among the cells of the table in which the display format is pre-processed. there is.

본 발명의 일실시예에 따른 프로세서는, 상기 검사 데이터에서 셀 값이 누락된 특정 칼럼의 수집 시간을 추출하고, 시간 유사성에 따른 검사 데이터에서 추출한 수집 시간과 동일 시간에 수집된 적어도 하나의 유효 칼럼을 추출하고, 상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The processor according to an embodiment of the present invention extracts the collection time of a specific column in which the cell value is missing from the test data, and selects at least one effective column collected at the same time as the collection time extracted from the test data according to time similarity. , and missing cell values of a specific column may be corrected using cell values of valid rows according to the extracted at least one effective column.

본 발명의 일실시예에 따른 프로세서는, 상기 검사 데이터에서 셀 값이 누락된 특정 칼럼을 수집한 센서의 관측 지점을 추출하고, 공간 유사성에 따른 상기 추출한 센서의 관측 지점과 일정 반경 내에 설치된 서로 다른 관측 지점을 판단하고, 상기 검사 데이터에서 서로 다른 관측 지점에 설치된 센서로부터 수집된 적어도 하나의 유효 칼럼을 추출하고, 상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.A processor according to an embodiment of the present invention extracts an observation point of a sensor that collects a specific column in which a cell value is missing from the inspection data, and extracts an observation point of the extracted sensor according to spatial similarity and different sensors installed within a certain radius. An observation point is determined, at least one effective column collected from sensors installed at different observation points is extracted from the inspection data, and a cell value of a valid row according to the at least one extracted effective column is used to determine a particular column. Missing cell values can be corrected.

본 발명의 일실시예에 따른 프로세서는, 상기 유효 칼럼들에 따른 유효 행에 대한 데이터 패턴에 기초하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The processor according to an embodiment of the present invention may correct a missing cell value of a specific column based on a data pattern for a valid row according to the valid columns.

본 발명의 일실시예에 따른 누락값 보정 방법은 테이블로 구성된 수집 데이터에서 셀 값이 누락된 특정 칼럼을 검출하고, 특정 칼럼을 제외한 유효 칼럼에 따른 유효 행을 이용하여 누락된 셀 값을 보정함으로써, 특정 칼럼의 오류로 인한 누락된 값이 포함된 전체 행이 데이터 분석에서 제외하는 것을 방지할 수 있다.A missing value correction method according to an embodiment of the present invention detects a specific column in which a cell value is missing from collected data composed of a table, and corrects the missing cell value using a valid row according to an effective column excluding the specific column. , it is possible to prevent the entire row containing missing values due to an error in a specific column from being excluded from data analysis.

본 발명의 일실시예에 따른 누락값 보정 방법은 누락된 셀 값을 포함하는 특정 칼럼을 제외한 유효 칼럼의 모든 행을 학습한 후, 학습 결과에 기반한 특정 칼럼의 누락된 셀 값을 보정함으로써, 테이블을 구성하는 행 간의 연관성에 따른 특정 값으로 편향되는 것을 방할 수 있다.A missing value correction method according to an embodiment of the present invention learns all rows of valid columns except for a specific column including missing cell values, and then corrects missing cell values of a specific column based on the learning result, It is possible to prevent bias to a specific value according to the correlation between rows constituting .

본 발명의 일실시예에 따른 누락값 보정 방법은 특정 칼럼의 누락된 셀 값을 보정함에 있어, 데이터를 수집하는 과정에서의 공간 유사성 및 시간 유사성을 고려함으로써, 시간 및 장소의 특성에 따른 누락된 셀 값을 보정할 수 있다.In correcting the missing cell value of a specific column, the method for correcting missing values according to an embodiment of the present invention considers spatial similarity and temporal similarity in the process of collecting data, Cell values can be corrected.

도 1은 본 발명의 일실시예에 따른 테이블로 구성된 데이터의 누락값을 보정하기 위한 전체적인 동작을 설명하기 위해 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 누락값 보정 장치의 세부적인 동작을 설명하기 위해 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 데이터의 누락값을 예측하기 위한 과정을 설명하기 위해 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 데이터의 누락값을 보정하는 과정을 설명하기 위해 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 누락값 보정 방법을 설명하기 위해 도시한 흐름도이다.
1 is a diagram illustrating an overall operation for correcting missing values of data composed of tables according to an embodiment of the present invention.
2 is a diagram for explaining the detailed operation of the missing value correction device according to an embodiment of the present invention.
3 is a diagram for explaining a process for predicting a missing value of data according to an embodiment of the present invention.
4 is a diagram for explaining a process of correcting a missing value of data according to an embodiment of the present invention.
5 is a flowchart illustrating a missing value correction method according to an embodiment of the present invention.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Specific structural or functional descriptions of the embodiments are disclosed for illustrative purposes only, and may be changed and implemented in various forms. Therefore, the form actually implemented is not limited only to the specific embodiments disclosed, and the scope of the present specification includes changes, equivalents, or substitutes included in the technical idea described in the embodiments.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.Although terms such as first or second may be used to describe various components, such terms should only be construed for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.It should be understood that when an element is referred to as being “connected” to another element, it may be directly connected or connected to the other element, but other elements may exist in the middle.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, terms such as "comprise" or "have" are intended to designate that the described feature, number, step, operation, component, part, or combination thereof exists, but one or more other features or numbers, It should be understood that the presence or addition of steps, operations, components, parts, or combinations thereof is not precluded.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in this specification, it should not be interpreted in an ideal or excessively formal meaning. don't

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일 구성 요소는 동일 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. In the description with reference to the accompanying drawings, the same components are assigned the same reference numerals regardless of reference numerals, and duplicate descriptions thereof will be omitted.

도 1은 본 발명의 일실시예에 따른 테이블로 구성된 센서 데이터의 누락값을 보정하기 위한 전체적인 동작을 설명하기 위해 도시한 도면이다.1 is a diagram illustrating an overall operation for correcting missing values of sensor data composed of tables according to an embodiment of the present invention.

도 1을 참고하면, 누락값 보정 장치(101)는 테이블로 구성된 센서 데이터에서 누락된 셀 값을 자동으로 보정할 수 있다. 자세하게, 누락값 보정 장치(101)는 셀 값이 누락된 특정 칼럼의 유효한 값을 보유한 모든 행들에 대한 센서 데이터의 패턴을 학습하여 누락된 행의 유사한 값을 추출할 수 있다. 여기서, 셀 값이 누락된 특정 칼럼의 유효한 값은 셀 값이 누락된 특정 칼럼을 제외한 나머지 유효 칼럼에서 누락된 셀과 동일한 행의 유효한 값을 의미할 수 있다. 누락값 보정 장치(101)는 행의 유효한 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.Referring to FIG. 1 , the missing value correcting device 101 may automatically correct missing cell values in sensor data composed of tables. In detail, the missing value correcting device 101 may extract similar values of the missing rows by learning a pattern of sensor data for all rows having valid values of a specific column with missing cell values. Here, a valid value of a specific column with a missing cell value may mean a valid value of the same row as a cell missing from other valid columns except for a specific column with a missing cell value. The missing value correcting device 101 may correct missing cell values of a specific column using valid values of the row.

이를 위해, 누락값 보정 장치(101)는 복수의 관측 지점(103)에 설치된 센서로부터 수집한 대상 데이터(102)를 이용하여 테이블로 구성된 검사 데이터를 생성할 수 있다. 누락값 보정 장치(101)는 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리 과정을 수행할 수 있다. 여기서, 전처리 과정은 각 칼럼의 자료형이 수치값이 아닌 경우, 이를 수치값으로 변환하는 과정을 의미할 수 있다. 일례로, 각 칼럼의 자료형이 범주형 데이터의 경우, 가능한 범주 문자열을 순차적인 숫자값으로 변환할 수 있다. 또한, 각 칼럼의 자료형이 텍스트의 경우, 용어 리스트에 기재된 개별 식별자 번호를 기반으로 해당 텍스트를 수치값으로 변환할 수 있다. 또한, 모든 수치값은 정규화를 하여 '0'에서 '1'사이의 값으로 변환할 수 있다. 이때, 수치화가 불가능한 칼럼은 제외한다.To this end, the missing value correcting device 101 may generate test data composed of tables using target data 102 collected from sensors installed at a plurality of observation points 103 . The missing value correcting device 101 may perform a pre-processing of the display format of the data type indicated by the cells forming the table. Here, the preprocessing process may refer to a process of converting the data type of each column into a numeric value when the data type is not a numeric value. For example, if the data type of each column is categorical data, possible categorical strings can be converted into sequential numeric values. Also, if the data type of each column is text, the corresponding text can be converted into a numerical value based on the individual identifier number written in the term list. In addition, all numerical values can be converted into values between '0' and '1' by normalization. In this case, columns that cannot be quantified are excluded.

누락값 보정 장치(101)는 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정할 수 있다. 누락값 보정 장치(101)는 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The missing value correction device 101 may determine a specific column in which a cell value is missing among cells forming a table by analyzing the test data. The missing value correcting device 101 may correct missing cell values of a specific column by using valid rows according to valid columns excluding the specific column from the test data.

도 2는 본 발명의 일실시예에 따른 누락값 보정 장치의 세부적인 동작을 설명하기 위해 도시한 도면이다.2 is a diagram for explaining the detailed operation of the missing value correction device according to an embodiment of the present invention.

도 2를 참고하면, 누락값 보정 장치(201)는 누락값 보정을 위한 프로세서(202)를 포함할 수 있다. 프로세서(202)는 센서로부터 수집된 데이터에서 셀 값이 누락된 특정 칼럼을 검출하고, 특정 칼럼을 제외한 유효 칼럼을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다. 이를 위해, 프로세서(202)는 복수의 관측 지점에 설치된 센서(204)로부터 수집한 대상 데이터(205)를 수신할 수 있다. 프로세서(202)는 수신한 대상 테이블(205)를 취합하여 하나의 테이블로 구성된 검사 데이터(203)를 생성할 수 있다.Referring to FIG. 2 , the missing value correction device 201 may include a processor 202 for correcting missing values. The processor 202 may detect a specific column in which a cell value is missing from data collected from the sensor, and correct the missing cell value of the specific column by using valid columns excluding the specific column. To this end, the processor 202 may receive target data 205 collected from sensors 204 installed at a plurality of observation points. The processor 202 may generate examination data 203 composed of one table by collecting the received target tables 205 .

프로세서(202)는 센서로부터 시간에 따른 칼럼(Column) 단위의 대상 데이터(205)를 수집할 수 있다. 프로세서(202)는 수집된 칼럼 단위의 대상 데이터(205)를 순차적으로 취합하여 누락된 셀 값을 보정하기 위한 테이블로 구성된 검사 데이터(203)를 생성할 수 있다. 프로세서(202)는 센서로부터 대상 데이터(205)를 수집한 시간을 기준으로 순서에 따라 차례대로 취합하여 테이블로 구성된 검사 데이터(203)를 생성할 수 있다.The processor 202 may collect target data 205 in units of columns over time from the sensor. The processor 202 may sequentially collect the collected target data 205 in units of columns to generate examination data 203 configured as a table for correcting missing cell values. The processor 202 may generate the examination data 203 configured as a table by sequentially collecting the target data 205 from the sensor in order based on the collection time.

프로세서(202)는 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정할 수 있다. 프로세서(202)는 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리 과정을 수행할 수 있다. 프로세서(202)는 표시 형식이 전처리 된 테이블의 셀들 중 셀 값이 누락된 특정 칼럼을 결정할 수 있다.The processor 202 may determine a specific column from which a cell value is missing among cells forming a table by analyzing the test data. The processor 202 may perform a pre-processing process on the display format of the data type indicated by the cells forming the table. The processor 202 may determine a specific column in which a cell value is missing among cells of a table in which a display format is preprocessed.

프로세서(202)는 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The processor 202 may correct missing cell values of a specific column by using valid rows according to valid columns excluding the specific column from the examination data.

도 3은 본 발명의 일실시예에 따른 데이터의 누락값을 예측하기 위한 과정을 설명하기 위해 도시한 도면이다.3 is a diagram for explaining a process for predicting a missing value of data according to an embodiment of the present invention.

도 3의 (a)를 살펴보면, 누락값 보정 장치는 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값(302)이 누락된 특정 칼럼(301)을 결정할 수 있다.Referring to (a) of FIG. 3 , the missing value calibrating apparatus may determine a specific column 301 from which a cell value 302 is missing among cells forming a table by analyzing test data.

자세하게, 누락값 보정 장치는 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리 과정을 수행할 수 있다. 여기서, 전처리 과정은 테이블로 구성된 검사 데이터의 각 칼럼이 나타내는 데이터 타입을 보정하는 과정일 수 있다. 누락값 보정 장치는 각 칼럼의 데이터 타입을 식별하고, 식별된 데이터 타입을 수치 값으로 변환하는 작업을 수행할 수 있다. 일례로, 누락값 보정 장치는 칼럼의 데이터 타입이 스트링 타입(string type)인 경우, 스트링 타입으로 표현된 문자열을 순차적인 숫자값 또는, 개별 식별자 번호에 기초한 수치값으로 변환하는 작업을 수행할 수 있다.In detail, the missing value correcting apparatus may perform a pre-processing of the display format of the data type indicated by the cells forming the table. Here, the preprocessing process may be a process of correcting the data type represented by each column of the inspection data composed of a table. The missing value correcting device may perform an operation of identifying a data type of each column and converting the identified data type into a numerical value. For example, when the data type of a column is a string type, the missing value correction device converts a string expressed as a string type into a sequential numeric value or a numeric value based on an individual identifier number. there is.

누락값 보정 장치는 표시 형식이 전처리 된 테이블의 셀들 중 셀 값(302)이 누락된 특정 칼럼(301)을 결정할 수 있다. 누락값 보정 장치는 테이블의 셀들 중 공백값 또는, 문자열의 수치값이 표현된 셀을 검출하고, 해당 셀에 대하여 값이 누락된 것으로 판단할 수 있다.The missing value calibrating device may determine a specific column 301 in which a cell value 302 is missing among cells of a table whose display format is preprocessed. The missing value correcting device may detect a cell expressing a blank value or a numeric value of a character string among cells of the table, and determine that the corresponding cell is missing a value.

도 3의 (b)를 살펴보면, 누락값 보정 장치는 검사 데이터에서 특정 칼럼(301)을 제외한 유효 칼럼들(303)에 따른 유효 행(304)을 이용하여 특정 칼럼(301)의 누락된 셀 값(302)을 보정할 수 있다. 누락값 보정 장치는 누락값 보정 장치는 순 전파 망(FFN) / 역 전파 망(BPN) 또는 회귀 분석을 통한 학습 모델을 활용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.Referring to (b) of FIG. 3 , the missing value correcting device uses the valid row 304 according to the valid columns 303 excluding the specific column 301 from the test data to obtain the missing cell value of the specific column 301. (302) can be corrected. The missing value correction device may correct missing cell values of a specific column by using a forward propagation network (FFN) / back propagation network (BPN) or a learning model through regression analysis.

누락값 보정 장치는 유효 칼럼들(303)에 따른 유효 행(304)의 각 셀 값에 대하여 순 전파 망(FFN) / 역 전파 망(BPN) 또는 회귀 분석을 통한 학습 모델에 적용할 수 있다. 누락값 보정 장치는 이에 따른 결과에 기초하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The missing value correcting device may apply a forward propagation network (FFN) / back propagation network (BPN) or a learning model through regression analysis to each cell value of the valid row 304 according to the valid columns 303 . The missing value correcting device may correct the missing cell value of a specific column based on the result thereof.

이때, 누락값 보정 장치는 특정 칼럼의 누락된 셀 값을 보정함에 있어, 데이터를 수집하는 과정에서의 공간 유사성 및 시간 유사성을 고려함으로써, 시간 및 장소의 특성에 따른 누락된 셀 값을 보정할 수 있다.At this time, the missing value correcting device may correct the missing cell value according to the characteristics of time and place by considering spatial similarity and temporal similarity in the process of collecting data when correcting the missing cell value of a specific column. there is.

① 시간 유사성① time similarity

누락값 보정 장치는 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼이 결정되면, 검사 데이터에서 셀 값이 누락된 특정 칼럼의 수집 시간을 추출할 수 있다. 이때, 수집 시간은 관측 지점에 설치된 센서로부터 일정 주기에 따라 데이터가 수집된 시간일 수 있다. 누락값 보정 장치는 시간 유사성에 따른 검사 데이터에서 추출한 수집 시간과 동일 시간에 수집된 적어도 하나의 유효 칼럼을 추출할 수 있다. 여기서, 추출된 유효 칼럼은 이전에 수집된 데이터로써, 누락된 셀 값이 존재하지 않으며, 누락된 셀 값을 보정하기 위해 활용되는 유효한 값을 갖는 칼럼을 의미할 수 있다. 일례로, 누락값 보정 장치는 현재를 기준으로 일간, 주간, 월간, 년간을 기준으로 동일 시간에 수집된 적어도 하나의 유효 칼럼을 추출할 수 있다.The missing value correcting device may extract a collection time of a specific column having a missing cell value from examination data when a specific column having a missing cell value is determined among cells forming a table. In this case, the collection time may be a time when data is collected according to a predetermined period from a sensor installed at an observation point. The missing value correction device may extract at least one effective column collected at the same time as the collection time extracted from the test data according to time similarity. Here, the extracted effective column is previously collected data, and may refer to a column having a valid value that is used to correct the missing cell value and does not have a missing cell value. For example, the missing value correcting device may extract at least one effective column collected at the same time on a daily, weekly, monthly, or yearly basis based on the present.

그리고, 누락값 보정 장치는 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다. 누락값 보정 장치는 적어도 하나의 유효 칼럼에 포함된 셀 값들 간에 차이 값, 중앙 값, 평균 값을 결정할 수 있다. 누락값 보정 장치는 결정된 각각의 값 들로부터 최적인 특정 칼럼의 누락된 셀 값을 보정할 수 있다.Also, the missing value correcting apparatus may correct missing cell values of a specific column by using cell values of valid rows according to at least one extracted valid column. The missing value correction device may determine a difference value, a median value, and an average value between cell values included in at least one valid column. The missing value correcting device may correct missing cell values of a particular column that are optimal from the determined values.

② 공간 유사성② Spatial similarity

누락값 보정 장치는 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼이 결정되면, 검사 데이터에서 셀 값이 누락된 특정 칼럼을 수집한 센서가 설치된 관측 지점을 판단할 수 있다. 누락값 보정 장치는 공간 유사성에 따른 추출한 센서의 관측 지점과 일정 반경 내에 설치된 서로 다른 관측 지점을 판단할 수 있다. 누락값 보정 장치는 검사 데이터에서 서로 다른 관측 지점에 설치된 센서로부터 수집된 적어도 하나의 유효 칼럼을 추출할 수 있다.When a specific column with missing cell value is determined among cells forming the table, the missing value correcting device may determine an observation point where a sensor that collects a specific column with missing cell value is installed in the examination data. The missing value correction device may determine different observation points installed within a certain radius from the observation point of the extracted sensor according to spatial similarity. The missing value correction device may extract at least one effective column collected from sensors installed at different observation points from the inspection data.

일례로, 셀 값이 누락된 특정 칼럼을 수집한 관측 지점이 강남이며, 인접한 관측 지점이 서초, 은평일 때, 누락값 보정 장치는 검사 데이터에서 서초, 은평에서 수집된 데이터에 해당하는 유효 칼럼을 추출할 수 있다.For example, when the observation point where a specific column with missing cell values was collected is Gangnam, and the adjacent observation points are Seocho and Eunpyeong, the missing value correction device selects a valid column corresponding to the data collected in Seocho and Eunpyeong from the test data. can be extracted.

도 4는 본 발명의 일실시예에 따른 데이터의 누락값을 보정하는 과정을 설명하기 위해 도시한 도면이다.4 is a diagram for explaining a process of correcting a missing value of data according to an embodiment of the present invention.

도 4를 참고하면, 누락값 보정 장치는 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다. 이를 위해, 누락값 보정 장치는 누락값 보정 장치는 순 전파 망(FFN: Feed Forward Network) 및 역 전파 망(BPN: Back Propagation Network)을 활용할 수 있다. 또한, 누락값 보정 장치는 회귀 분석을 통한 학습 모델을 활용할 수 있다.Referring to FIG. 4 , the missing value correcting apparatus may correct missing cell values of a specific column by using valid rows according to valid columns excluding the specific column from the test data. To this end, the missing value correction device may utilize a feed forward network (FFN) and a back propagation network (BPN). In addition, the missing value correction device may utilize a learning model through regression analysis.

누락값 보정 장치는 순 전파 망 및 역 전파 망에 따른 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행에 대한 데이터 패턴을 결정할 수 있다. 누락값 보정 장치는 데이터 패턴에 기초하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The missing value calibrating device may determine a data pattern for a valid row according to valid columns except for a specific column according to the forward propagation network and the reverse propagation network. The missing value correcting device may correct missing cell values of a specific column based on a data pattern.

① 순 전파 망 및 역 전파 망을 활용하는 방법① How to use forward propagation network and reverse propagation network

누락값 보정 장치는 누락된 셀의 개수에 따른 순 전파 망 및 역 전파 망을 활용하여 누락된 셀을 보유한 행들에 대한 누락된 셀 값을 보정할 수 있다. 여기서, 순 전파 망의 입력 개수는 특정 칼럼을 제외한 유효 칼럼의 개수이며, 역 전파 망의 출력 개수는 누락된 셀의 개수일 수 있다. 본 발명은 검사 데이터를 순 전파 망 및 역 전파 망을 학습하기 위한 훈련 데이터로 이용할 수 있으며, 훈련 데이터는 유효 칼럼을 보유한 모든 행의 개수를 포함할 수 있다.The missing value correcting apparatus may correct missing cell values for rows having missing cells by utilizing forward propagation networks and back propagation networks according to the number of missing cells. Here, the number of inputs of the forward propagation network may be the number of valid columns excluding a specific column, and the number of outputs of the back propagation network may be the number of missing cells. In the present invention, test data may be used as training data for learning a forward propagation network and a back propagation network, and the training data may include the number of all rows having valid columns.

순 전파 망의 입력은 검사 데이터에서 누락된 셀을 포함하는 행의 유효 칼럼에 대한 속성값이며, 역 전파 망의 출력은 특정 칼럼의 누락된 셀 값으로 예측된 값일 수 있다.An input of the forward propagation network may be an attribute value for a valid column of a row including a cell that is missing from the inspection data, and an output of the back propagation network may be a value predicted as a missing cell value of a specific column.

② 회귀 분석을 통한 학습 모델을 활용하는 방법② How to use a learning model through regression analysis

누락값 보정 장치는 독립변수(independent variable)가 종속변수(dependent variable)에 미치는 영향을 확인하고자 사용하는 회귀 분석을 이용하여 특정 칼럼의 누락된 셀 값을 예측 및 보정할 수 있다.The missing value correcting device may predict and correct missing cell values of a specific column by using regression analysis used to determine the effect of an independent variable on a dependent variable.

누락값 보정 장치는 값이 누락된 셀이 나타내는 항목을 판단하고, 검사 데이터에서 판단된 항목을 제외한 나머지 항목을 구분할 수 있다. 누락값 보정 장치는 나머지 항목 및 각 항목의 행을 독립 변수로 설정하고, 누락된 셀의 행을 종속 변수로 설정할 수 있다. 누락값 보정 장치는 독립 변수와 종속 변수에 따른 회귀 분석을 통한 학습 모델을 생성할 수 있다. 누락값 보정 장치는 학습 모델을 통한 이용하여 특정 칼럼의 누락된 셀 값을 예측 및 보정할 수 있다.The missing value compensating device may determine an item indicated by a cell having a missing value, and classify items other than the item determined from the test data. The missing value correction device may set the remaining items and rows of each item as independent variables, and set the rows of the missing cells as dependent variables. The missing value correction device may generate a learning model through regression analysis according to an independent variable and a dependent variable. The missing value correcting device may predict and correct missing cell values of a specific column by using a learning model.

도 5는 본 발명의 일실시예에 따른 누락값 보정 방법을 설명하기 위해 도시한 흐름도이다.5 is a flowchart illustrating a missing value correction method according to an embodiment of the present invention.

단계(501)에서 누락값 보정 장치는 복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성할 수 있다. 여기서, 누락값 보정 장치는 복수의 관측 지점에 설치된 센서로부터 시간에 따른 칼럼(Column) 단위의 대상 데이터를 수집할 수 있다. 누락값 보정 장치는 수집된 칼럼 단위의 대상 데이터를 순차적으로 취합하여 누락된 셀 값을 보정하기 위한 테이블로 구성된 검사 데이터를 생성할 수 있다.In step 501, the missing value correction device may generate test data composed of tables using target data collected from sensors installed at a plurality of observation points. Here, the missing value correction device may collect target data in a column unit over time from sensors installed at a plurality of observation points. The missing value correction device may generate examination data composed of a table for correcting missing cell values by sequentially collecting the collected target data in units of columns.

단계(502)에서 누락값 보정 장치는 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정할 수 있다. 누락값 보정 장치는 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리 과정을 수행할 수 있다. 누락값 보정 장치는 표시 형식이 전처리 된 테이블의 셀들 중 셀 값이 누락된 특정 칼럼을 결정할 수 있다.In operation 502, the missing value correcting apparatus may analyze the test data to determine a specific column in which a cell value is missing among cells forming a table. The missing value correcting apparatus may perform a pre-processing of the display format of the data type indicated by the cells forming the table. The missing value correcting device may determine a specific column in which a cell value is missing among cells of a table in which a display format is preprocessed.

단계(503)에서 누락값 보정 장치는 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다. 누락값 보정 장치는 검사 데이터를 생성하기 위해 센서로부터 수집한 대상 데이터의 시간 유사성 또는, 대상 데이터를 수집한 센서가 설치된 위치의 공간 유사성을 고려할 수 있다.In step 503, the missing value correcting device may correct missing cell values of a specific column by using valid rows according to valid columns excluding the specific column from the test data. The missing value correcting device may consider temporal similarity of object data collected from a sensor or spatial similarity of a location where a sensor that collects object data is installed to generate inspection data.

누락값 보정 장치는 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다. 누락값 보정 장치는 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값에 대한 회귀 모델을 통한 학습을 수행하고, 학습 결과에 따른 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The missing value correcting apparatus may correct missing cell values of a specific column by using cell values of effective rows according to at least one extracted effective column. The missing value correcting device may perform learning through a regression model on cell values of valid rows according to at least one extracted valid column, and correct missing cell values of a specific column according to the learning result.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The embodiments described above may be implemented as hardware components, software components, and/or a combination of hardware components and software components. For example, the devices, methods and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate (FPGA). array), programmable logic units (PLUs), microprocessors, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of software. For convenience of understanding, there are cases in which one processing device is used, but those skilled in the art will understand that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include. For example, a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. The device can be commanded. Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed on networked computer systems and stored or executed in a distributed manner. Software and data may be stored on computer readable media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination, and the program instructions recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in the art of computer software. may be Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler.

위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The hardware device described above may be configured to operate as one or a plurality of software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited drawings, those skilled in the art can apply various technical modifications and variations based on this. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims are within the scope of the following claims.

101: 누락값 보정 장치
102: 대상 데이터
103: 관측 지점
101: missing value correction device
102: target data
103: observation point

Claims (12)

복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성하는 단계;
상기 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정하는 단계; 및
상기 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정하는 단계;
를 포함하고,
상기 생성하는 단계는,
상기 복수의 관측 지점에 설치된 센서로부터 시간에 따른 칼럼(Column) 단위의 대상 데이터를 수집하는 단계; 및
상기 수집된 칼럼 단위의 대상 데이터를 순차적으로 취합하여 누락된 셀 값을 보정하기 위한 테이블로 구성된 검사 데이터를 생성하는 단계;
를 포함하는 누락값 보정 방법.
generating test data composed of tables using target data collected from sensors installed at a plurality of observation points;
determining a specific column in which a cell value is missing among cells forming a table by analyzing the test data; and
correcting missing cell values of the specific column by using valid rows according to valid columns excluding the specific column from the test data;
including,
The generating step is
collecting target data in column units over time from sensors installed at the plurality of observation points; and
generating test data composed of tables for correcting missing cell values by sequentially collecting the collected target data in units of columns;
Missing value correction method comprising a.
삭제delete 복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성하는 단계;
상기 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정하는 단계; 및
상기 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정하는 단계;
를 포함하고,
상기 결정하는 단계는,
상기 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리 하는 단계; 및
상기 표시 형식이 전처리 된 테이블의 셀들 중 셀 값이 누락된 특정 칼럼을 결정하는 단계;
를 포함하는 누락값 보정 방법.
generating test data composed of tables using target data collected from sensors installed at a plurality of observation points;
determining a specific column in which a cell value is missing among cells forming a table by analyzing the test data; and
correcting missing cell values of the specific column by using valid rows according to valid columns excluding the specific column from the test data;
including,
The determining step is
pre-processing a display format of a data type represented by cells forming the table; and
determining a specific column in which a cell value is missing among cells of a table in which the display format is preprocessed;
Missing value correction method comprising a.
복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성하는 단계;
상기 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정하는 단계; 및
상기 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정하는 단계;
를 포함하고,
상기 특정 칼럼의 누락된 셀 값을 보정하는 단계는,
상기 검사 데이터에서 셀 값이 누락된 특정 칼럼의 수집 시간을 추출하는 단계;
시간 유사성에 따른 검사 데이터에서 추출한 수집 시간과 동일 시간에 수집된 적어도 하나의 유효 칼럼을 추출하는 단계; 및
상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정하는 단계;
를 포함하는 누락값 보정 방법.
generating test data composed of tables using target data collected from sensors installed at a plurality of observation points;
determining a specific column in which a cell value is missing among cells forming a table by analyzing the test data; and
correcting missing cell values of the specific column by using valid rows according to valid columns excluding the specific column from the test data;
including,
The step of correcting the missing cell value of the specific column,
extracting a collection time of a specific column in which a cell value is missing from the inspection data;
extracting at least one effective column collected at the same time as the collection time extracted from the test data according to time similarity; and
correcting missing cell values of a specific column using cell values of valid rows according to the at least one extracted valid column;
Missing value correction method comprising a.
복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성하는 단계;
상기 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정하는 단계; 및
상기 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정하는 단계;
를 포함하고,
상기 특정 칼럼의 누락된 셀 값을 보정하는 단계는,
상기 검사 데이터에서 셀 값이 누락된 특정 칼럼을 수집한 센서의 관측 지점을 추출하는 단계;
공간 유사성에 따른 상기 추출한 센서의 관측 지점과 일정 반경 내에 설치된 서로 다른 관측 지점을 판단하는 단계;
상기 검사 데이터에서 서로 다른 관측 지점에 설치된 센서로부터 수집된 적어도 하나의 유효 칼럼을 추출하는 단계; 및
상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정하는 단계;
를 포함하는 누락값 보정 방법.
generating test data composed of tables using target data collected from sensors installed at a plurality of observation points;
determining a specific column in which a cell value is missing among cells forming a table by analyzing the test data; and
correcting missing cell values of the specific column by using valid rows according to valid columns excluding the specific column from the test data;
including,
The step of correcting the missing cell value of the specific column,
extracting an observation point of a sensor that has collected a specific column in which a cell value is missing from the inspection data;
Determining different observation points installed within a predetermined radius from the observation point of the extracted sensor according to spatial similarity;
extracting at least one effective column collected from sensors installed at different observation points from the inspection data; and
correcting missing cell values of a specific column using cell values of valid rows according to the at least one extracted valid column;
Missing value correction method comprising a.
제1항에 있어서,
상기 특정 칼럼의 누락된 셀 값을 보정하는 단계는,
상기 유효 칼럼들에 따른 유효 행에 대한 데이터 패턴에 기초하여 특정 칼럼의 누락된 셀 값을 보정하는 누락값 보정 방법.
According to claim 1,
The step of correcting the missing cell value of the specific column,
A missing value correction method for correcting missing cell values of a specific column based on data patterns for valid rows according to the valid columns.
프로세서를 포함하는 누락값 보정 장치에 있어서,
상기 프로세서는,
복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성하고,
상기 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정하고,
상기 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정하며,
상기 검사 데이터를 생성함에 있어,
상기 복수의 관측 지점에 설치된 센서로부터 시간에 따른 칼럼 단위의 대상 데이터를 수집하고,
상기 수집된 칼럼 단위의 대상 데이터를 순차적으로 취합하여 누락된 셀 값을 보정하기 위한 테이블로 구성된 검사 데이터를 생성하는 누락값 보정 장치.
In the missing value correction device including a processor,
the processor,
Generate inspection data composed of tables using target data collected from sensors installed at a plurality of observation points,
Analyzing the inspection data to determine a specific column in which a cell value is missing among cells forming a table;
Correcting the missing cell value of the specific column using valid rows according to valid columns excluding the specific column from the test data;
In generating the inspection data,
Collecting target data in column units over time from sensors installed at the plurality of observation points,
A missing value correcting device that sequentially collects the collected target data in units of columns to generate test data composed of tables for correcting missing cell values.
삭제delete 프로세서를 포함하는 누락값 보정 장치에 있어서,
상기 프로세서는,
복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성하고,
상기 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정하고,
상기 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정하며,
상기 특정 칼럼을 결정함에 있어,
상기 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리를 수행하고,
상기 표시 형식이 전처리 된 테이블의 셀들 중 셀 값이 누락된 특정 칼럼을 결정하는 누락값 보정 장치.
In the missing value correction device including a processor,
the processor,
Generate inspection data composed of tables using target data collected from sensors installed at a plurality of observation points,
Analyzing the inspection data to determine a specific column in which a cell value is missing among cells forming a table;
Correcting the missing cell value of the specific column using valid rows according to valid columns excluding the specific column from the test data;
In determining the specific column,
pre-processing the display format of the data type indicated by the cells forming the table;
A missing value correction device for determining a specific column in which a cell value is missing among cells of a table in which the display format is preprocessed.
프로세서를 포함하는 누락값 보정 장치에 있어서,
상기 프로세서는,
복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성하고,
상기 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정하고,
상기 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정하며,
상기 누락된 셀 값을 보정함에 있어,
상기 검사 데이터에서 셀 값이 누락된 특정 칼럼의 수집 시간을 추출하고,
시간 유사성에 따른 검사 데이터에서 추출한 수집 시간과 동일 시간에 수집된 적어도 하나의 유효 칼럼을 추출하고,
상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정하는 누락값 보정 장치.
In the missing value correction device including a processor,
the processor,
Generate inspection data composed of tables using target data collected from sensors installed at a plurality of observation points,
Analyzing the inspection data to determine a specific column in which a cell value is missing among cells forming a table;
Correcting the missing cell value of the specific column using valid rows according to valid columns excluding the specific column from the test data;
In correcting the missing cell value,
extracting the collection time of a specific column in which the cell value is missing from the inspection data;
Extracting at least one effective column collected at the same time as the collection time extracted from the inspection data according to time similarity,
A missing value correcting device for correcting missing cell values of a specific column using cell values of effective rows according to the extracted at least one effective column.
제7항에 있어서,
상기 프로세서는,
상기 검사 데이터에서 셀 값이 누락된 특정 칼럼을 수집한 센서의 관측 지점을 추출하고,
공간 유사성에 따른 상기 추출한 센서의 관측 지점과 일정 반경 내에 설치된 서로 다른 관측 지점을 판단하고,
상기 검사 데이터에서 서로 다른 관측 지점에 설치된 센서로부터 수집된 적어도 하나의 유효 칼럼을 추출하고,
상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정하는 누락값 보정 장치.
According to claim 7,
the processor,
Extracting observation points of sensors that have collected a specific column in which cell values are missing from the inspection data,
Determining different observation points installed within a certain radius from the observation point of the extracted sensor according to spatial similarity;
Extracting at least one effective column collected from sensors installed at different observation points from the inspection data;
A missing value correcting device for correcting missing cell values of a specific column using cell values of effective rows according to the extracted at least one effective column.
제7항에 있어서,
상기 프로세서는,
상기 유효 칼럼들에 따른 유효 행에 대한 데이터 패턴에 기초하여 특정 칼럼의 누락된 셀 값을 보정하는 누락값 보정 장치.
According to claim 7,
the processor,
A missing value correcting device for correcting missing cell values of a specific column based on data patterns for valid rows according to the valid columns.
KR1020200163181A 2020-11-27 2020-11-27 Method and apparatus for null value correction of sensor data KR102531742B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200163181A KR102531742B1 (en) 2020-11-27 2020-11-27 Method and apparatus for null value correction of sensor data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200163181A KR102531742B1 (en) 2020-11-27 2020-11-27 Method and apparatus for null value correction of sensor data

Publications (2)

Publication Number Publication Date
KR20220074548A KR20220074548A (en) 2022-06-03
KR102531742B1 true KR102531742B1 (en) 2023-05-11

Family

ID=81982698

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200163181A KR102531742B1 (en) 2020-11-27 2020-11-27 Method and apparatus for null value correction of sensor data

Country Status (1)

Country Link
KR (1) KR102531742B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828373A (en) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 Missing data filling method and system based on set partitioning and self-supervision learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102039540B1 (en) 2019-04-23 2019-11-01 (주)위세아이텍 Device and method for automating process of detecting outlier values of big data
KR102099362B1 (en) 2018-10-08 2020-04-09 (주)디지탈쉽 Device and method for a data preparation using a micro service
KR102156757B1 (en) * 2019-09-27 2020-09-16 (주)데이터리퍼블릭 System, method, and computer program for credit evaluation using artificial neural network

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101982929B1 (en) * 2017-09-08 2019-05-27 연세대학교 산학협력단 Apparatus and method for action recongnition
KR102461631B1 (en) * 2018-09-12 2022-10-31 삼성에스디에스 주식회사 Method and apparatus for compensating a missing value in data
KR102604320B1 (en) * 2018-10-31 2023-11-23 한국전자통신연구원 System and method for calibrating simulation model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102099362B1 (en) 2018-10-08 2020-04-09 (주)디지탈쉽 Device and method for a data preparation using a micro service
KR102039540B1 (en) 2019-04-23 2019-11-01 (주)위세아이텍 Device and method for automating process of detecting outlier values of big data
KR102156757B1 (en) * 2019-09-27 2020-09-16 (주)데이터리퍼블릭 System, method, and computer program for credit evaluation using artificial neural network

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
결측치, https://wooono.tistory.com/103

Also Published As

Publication number Publication date
KR20220074548A (en) 2022-06-03

Similar Documents

Publication Publication Date Title
US20200387836A1 (en) Machine learning model surety
US11783034B2 (en) Apparatus and method for detecting malicious script
US20170255669A1 (en) Systems and methods for detection of anomalous entities
US20220004878A1 (en) Systems and methods for synthetic document and data generation
Khan et al. Guidelines for assessing the accuracy of log message template identification techniques
TW202030685A (en) Computer implemented event risk assessment method and device
CN110688288A (en) Automatic testing method, device, equipment and storage medium based on artificial intelligence
US20170140309A1 (en) Database analysis device and database analysis method
US20200125595A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
KR102192196B1 (en) An apparatus and method for detecting malicious codes using ai based machine running cross validation techniques
CN109753408A (en) A kind of process predicting abnormality method based on machine learning
JP2020516897A (en) Inspection method and inspection equipment
KR102531742B1 (en) Method and apparatus for null value correction of sensor data
CN116361788A (en) Binary software vulnerability prediction method based on machine learning
US20180018570A1 (en) Information processing system, change point detection method, and recording medium
Lavalle et al. An approach to automatically detect and visualize bias in data analytics
KR101985850B1 (en) Detection apparatus for detecting anomaly log and operating method of same, and training apparatus and operating method of same
US11989013B2 (en) Abnormality detection apparatus, abnormality detection system, and learning apparatus, and methods for the same and non-temporary computer-readable medium storing the same
CN117574383A (en) Feature fusion and code visualization technology-based software vulnerability detection model method
CN110554952B (en) Search-based hierarchical regression test data generation method
JP2021135930A5 (en)
KR20200071646A (en) Detection apparatus for detecting anomaly log and operating method of same, and training apparatus and operating method of same
Jeyaraman et al. Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications
CN116302984A (en) Root cause analysis method and device for test task and related equipment
Krismayer et al. Supporting the selection of constraints for requirements monitoring from automatically mined constraint candidates

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant