KR20220074548A - Method and apparatus for null value correction of sensor data - Google Patents

Method and apparatus for null value correction of sensor data Download PDF

Info

Publication number
KR20220074548A
KR20220074548A KR1020200163181A KR20200163181A KR20220074548A KR 20220074548 A KR20220074548 A KR 20220074548A KR 1020200163181 A KR1020200163181 A KR 1020200163181A KR 20200163181 A KR20200163181 A KR 20200163181A KR 20220074548 A KR20220074548 A KR 20220074548A
Authority
KR
South Korea
Prior art keywords
missing
column
valid
value
correcting
Prior art date
Application number
KR1020200163181A
Other languages
Korean (ko)
Other versions
KR102531742B1 (en
Inventor
반효경
조경운
Original Assignee
이화여자대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이화여자대학교 산학협력단 filed Critical 이화여자대학교 산학협력단
Priority to KR1020200163181A priority Critical patent/KR102531742B1/en
Publication of KR20220074548A publication Critical patent/KR20220074548A/en
Application granted granted Critical
Publication of KR102531742B1 publication Critical patent/KR102531742B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Abstract

본 발명은 테이블로 구성된 센서 데이터에서 누락된 값을 보정하기 위한 누락값 보정 방법 및 누락값 보정 장치에 관한 것으로, 누락값 보정 방법은 센서로부터 수집된 데이터에서 셀 값이 누락된 특정 칼럼을 검출하고, 특정 칼럼을 제외한 유효 칼럼을 이용하여 특정 칼럼의 누락된 셀 값을 보정한다.The present invention relates to a missing value correction method and a missing value correction apparatus for correcting a missing value in sensor data composed of a table, wherein the missing value correction method detects a specific column in which a cell value is missing from data collected from a sensor, , correct the missing cell value of a specific column by using a valid column excluding a specific column.

Description

센서 데이터의 누락값 보정 방법 및 누락값 보정 장치{METHOD AND APPARATUS FOR NULL VALUE CORRECTION OF SENSOR DATA}Method and device for correcting missing values of sensor data {METHOD AND APPARATUS FOR NULL VALUE CORRECTION OF SENSOR DATA

본 발명은 센서 데이터의 누락값 보정 방법 및 누락값 보정 장치에 관한 것으로, 보다 구체적으로는 센서로부터 수집된 센서 데이터에 포함된 누락 값을 자동으로 보정하여 고품질의 데이터를 도출하기 위한 장치 및 방법에 관한 것이다.The present invention relates to a method for correcting missing values of sensor data and an apparatus for correcting missing values, and more particularly, to an apparatus and method for deriving high-quality data by automatically correcting missing values included in sensor data collected from a sensor. it's about

일반적으로, 테이블 데이터는 열과 행으로 구성된 데이터로써, 관계형 데이터베이스에서 주로 쓰는 표현 형식이며, 다수의 속성을 가지는 많은 개수의 항목들을 표시하는 방법이다. 테이블 데이터의 각 행은 데이터 항목이며, 열을 각 항목이 가지는 속성으로서 테이블의 각 셀은 항목의 속성값으로 볼 수 있다.In general, table data is data composed of columns and rows, and is an expression format mainly used in relational databases, and is a method of displaying a large number of items having multiple attributes. Each row of table data is a data item, and a column is an attribute of each item, and each cell of the table can be viewed as an attribute value of an item.

테이블의 각 셀 중 일부 데이터가 누락된 테이블 데이터의 경우, 데이터 분석을 하거나 또는, 기계 학습을 위한 훈련 데이터를 사용할 때, 누락된 데이터를 처리하기 위하여 예외 처리를 해야 하는 부담이 발생한다. 이때, 1개 셀의 누락으로 인하여 전체 행 데이터를 사용하지 못하는 경우도 발생할 수 있다.In the case of table data in which some data in each cell of the table is missing, when data analysis or training data for machine learning is used, there is a burden of handling the missing data in order to handle the missing data. In this case, the entire row data may not be used due to omission of one cell.

예외 처리를 제공하는 경우, 해당 데이터 항목을 모두 배제하거나 평균값 혹은 단순 유추값 등으로 대치되는데, 데이터 항목을 모두 배제하는 경우에는 유효한 다른 칼럼의 값들을 데이터 분석에서 제외하게 되는 문제가 발생한다. 또한, 평균값 혹은 단순 유추값으로 대치되는 경우에는 누락된 데이터에 대해 특정값으로 평향되는 문제가 발생한다.When exception handling is provided, all data items are excluded or replaced with average values or simple inferred values. However, when all data items are excluded, values in other valid columns are excluded from data analysis. In addition, when an average value or a simple inferred value is substituted, there is a problem in that missing data is biased to a specific value.

본 발명은 테이블로 구성된 데이터에서 셀 값이 누락된 특정 칼럼을 검출하고, 특정 칼럼을 제외한 유효 칼럼에 따른 유효 행을 이용하여 누락된 셀 값을 보정함으로써, 특정 칼럼의 오류로 인한 누락된 값이 포함된 전체 행이 데이터 분석에서 제외하는 것을 방지하는 장치 및 방법을 제공한다.The present invention detects a specific column in which a cell value is missing from table data and corrects the missing cell value by using a valid row according to a valid column except for a specific column, thereby reducing the missing value due to an error in a specific column. An apparatus and method are provided for preventing the entire included row from being excluded from data analysis.

본 발명은 누락된 셀 값을 포함하는 특정 칼럼을 제외한 유효 칼럼의 모든 행을 학습한 후, 학습 결과에 기반한 특정 칼럼의 누락된 셀 값을 보정함으로써, 테이블을 구성하는 행 간의 연관성에 따른 특정 값으로 편향되는 것을 방지하는 장치 및 방법을 제공한다.The present invention learns all rows of a valid column except for a specific column including a missing cell value, then corrects the missing cell value of a specific column based on the learning result, thereby providing a specific value according to the association between rows constituting the table To provide an apparatus and method for preventing deflection.

본 발명은 특정 칼럼의 누락된 셀 값을 보정함에 있어, 데이터를 수집하는 과정에서의 공간 유사성 및 시간 유사성을 고려함으로써, 시간 및 장소의 특성에 따른 누락된 셀 값을 보정하는 장치 및 방법을 제공한다.The present invention provides an apparatus and method for correcting a missing cell value according to a characteristic of time and place by considering spatial similarity and temporal similarity in the process of collecting data in correcting the missing cell value of a specific column do.

본 발명의 일실시예에 따른 누락값 보정 방법은 복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성하는 단계; 상기 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정하는 단계; 및 상기 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정하는 단계;를 포함할 수 있다.A missing value correction method according to an embodiment of the present invention comprises the steps of: generating inspection data composed of a table using target data collected from sensors installed at a plurality of observation points; determining a specific column in which a cell value is missing from among cells forming a table by analyzing the inspection data; and correcting the missing cell value of the specific column by using valid rows according to valid columns except for the specific column in the inspection data.

본 발명의 실시예에 따른 생성하는 단계는, 상기 복수의 관측 지점에 설치된 센서로부터 시간에 따른 칼럼(Column) 단위의 대상 데이터를 수집하는 단계; 및 상기 수집된 칼럼 단위의 대상 데이터를 순차적으로 취합하여 누락된 셀 값을 보정하기 위한 테이블로 구성된 검사 데이터를 생성하는 단계;를 포함할 수 있다.The generating according to an embodiment of the present invention may include: collecting target data in units of columns according to time from sensors installed at the plurality of observation points; and generating test data composed of a table for correcting missing cell values by sequentially collecting the collected column-by-column target data.

본 발명의 실시예에 따른 결정하는 단계는, 상기 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리 하는 단계; 및 상기 표시 형식이 전처리 된 테이블의 셀들 중 셀 값이 누락된 특정 칼럼을 결정하는 단계;를 포함할 수 있다.The determining step according to an embodiment of the present invention may include pre-processing a display format of a data type represented by cells forming the table; and determining a specific column in which a cell value is omitted from among the cells of the table in which the display format has been pre-processed.

본 발명의 실시예에 따른 특정 칼럼의 누락된 셀 값을 보정하는 단계는, 상기 검사 데이터에서 셀 값이 누락된 특정 칼럼의 수집 시간을 추출하는 단계; 시간 유사성에 따른 검사 데이터에서 추출한 수집 시간과 동일 시간에 수집된 적어도 하나의 유효 칼럼을 추출하는 단계; 및 상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정하는 단계;를 포함할 수 있다.The step of correcting the missing cell value of a specific column according to an embodiment of the present invention may include: extracting a collection time of a specific column in which a cell value is missing from the inspection data; extracting at least one valid column collected at the same time as the collection time extracted from the test data according to time similarity; and correcting the missing cell value of a specific column by using the cell value of the valid row according to the extracted at least one valid column.

본 발명의 실시예에 따른 특정 칼럼의 누락된 셀 값을 보정하는 단계는, 상기 검사 데이터에서 셀 값이 누락된 특정 칼럼을 수집한 센서의 관측 지점을 추출하는 단계; 공간 유사성에 따른 상기 추출한 센서의 관측 지점과 일정 반경 내에 설치된 서로 다른 관측 지점을 판단하는 단계; 상기 검사 데이터에서 서로 다른 관측 지점에 설치된 센서로부터 수집된 적어도 하나의 유효 칼럼을 추출하는 단계; 및 상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정하는 단계;를 포함할 수 있다.The step of correcting the missing cell value of a specific column according to an embodiment of the present invention may include: extracting an observation point of a sensor collecting a specific column in which a cell value is missing from the inspection data; determining an observation point of the extracted sensor according to spatial similarity and a different observation point installed within a predetermined radius; extracting at least one valid column collected from sensors installed at different observation points from the inspection data; and correcting the missing cell value of a specific column by using the cell value of the valid row according to the extracted at least one valid column.

본 발명의 실시예에 따른 특정 칼럼의 누락된 셀 값을 보정하는 단계는, 상기 유효 칼럼들에 따른 유효 행에 대한 데이터 패턴에 기초하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.In the correcting of the missing cell value of a specific column according to an embodiment of the present invention, the missing cell value of a specific column may be corrected based on a data pattern for a valid row according to the valid columns.

본 발명의 일실시예에 따른 프로세서를 포함하는 누락값 보정 장치에 있어서, 상기 프로세서는, 복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성하고, 상기 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정하고, 상기 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정할 수 있다.In the missing value correction apparatus including a processor according to an embodiment of the present invention, the processor generates inspection data in a table format by using target data collected from sensors installed at a plurality of observation points, and the inspection data can be analyzed to determine a specific column in which a cell value is missing from among the cells forming the table, and correct the missing cell value of the specific column by using the valid row according to the valid columns except for the specific column in the inspection data. have.

본 발명의 실시예에 따른 프로세서는, 상기 복수의 관측 지점에 설치된 센서로부터 시간에 따른 칼럼 단위의 대상 데이터를 수집하고, 상기 수집된 칼럼 단위의 대상 데이터를 순차적으로 취합하여 누락된 셀 값을 보정하기 위한 테이블로 구성된 검사 데이터를 생성할 수 있다.The processor according to an embodiment of the present invention collects target data in column units according to time from sensors installed at the plurality of observation points, and corrects missing cell values by sequentially collecting the collected target data in column units You can create inspection data consisting of tables for

본 발명의 일실시예에 따른 프로세서는, 상기 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리를 수행하고, 상기 표시 형식이 전처리 된 테이블의 셀들 중 셀 값이 누락된 특정 칼럼을 결정할 수 있다.The processor according to an embodiment of the present invention may pre-process the display format of the data type indicated by the cells forming the table, and determine a specific column in which a cell value is omitted among cells of the table in which the display format has been pre-processed. have.

본 발명의 일실시예에 따른 프로세서는, 상기 검사 데이터에서 셀 값이 누락된 특정 칼럼의 수집 시간을 추출하고, 시간 유사성에 따른 검사 데이터에서 추출한 수집 시간과 동일 시간에 수집된 적어도 하나의 유효 칼럼을 추출하고, 상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The processor according to an embodiment of the present invention extracts a collection time of a specific column in which a cell value is omitted from the inspection data, and at least one valid column collected at the same time as the collection time extracted from the inspection data according to time similarity may be extracted, and the missing cell value of a specific column may be corrected using the cell value of the valid row according to the extracted at least one valid column.

본 발명의 일실시예에 따른 프로세서는, 상기 검사 데이터에서 셀 값이 누락된 특정 칼럼을 수집한 센서의 관측 지점을 추출하고, 공간 유사성에 따른 상기 추출한 센서의 관측 지점과 일정 반경 내에 설치된 서로 다른 관측 지점을 판단하고, 상기 검사 데이터에서 서로 다른 관측 지점에 설치된 센서로부터 수집된 적어도 하나의 유효 칼럼을 추출하고, 상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The processor according to an embodiment of the present invention extracts an observation point of a sensor that has collected a specific column in which a cell value is missing from the inspection data, and is installed within a certain radius from the observation point of the extracted sensor according to spatial similarity. Determining an observation point, extracting at least one valid column collected from sensors installed at different observation points from the inspection data, and using the cell value of a valid row according to the extracted at least one valid column Missing cell values can be corrected.

본 발명의 일실시예에 따른 프로세서는, 상기 유효 칼럼들에 따른 유효 행에 대한 데이터 패턴에 기초하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The processor according to an embodiment of the present invention may correct a missing cell value of a specific column based on a data pattern for a valid row according to the valid columns.

본 발명의 일실시예에 따른 누락값 보정 방법은 테이블로 구성된 수집 데이터에서 셀 값이 누락된 특정 칼럼을 검출하고, 특정 칼럼을 제외한 유효 칼럼에 따른 유효 행을 이용하여 누락된 셀 값을 보정함으로써, 특정 칼럼의 오류로 인한 누락된 값이 포함된 전체 행이 데이터 분석에서 제외하는 것을 방지할 수 있다.The missing value correction method according to an embodiment of the present invention detects a specific column in which a cell value is missing from collected data composed of a table, and corrects the missing cell value by using a valid row according to a valid column except for the specific column. , it is possible to prevent the entire row including missing values due to errors in a specific column from being excluded from data analysis.

본 발명의 일실시예에 따른 누락값 보정 방법은 누락된 셀 값을 포함하는 특정 칼럼을 제외한 유효 칼럼의 모든 행을 학습한 후, 학습 결과에 기반한 특정 칼럼의 누락된 셀 값을 보정함으로써, 테이블을 구성하는 행 간의 연관성에 따른 특정 값으로 편향되는 것을 방할 수 있다.The missing value correction method according to an embodiment of the present invention learns all rows of a valid column except for a specific column including a missing cell value, and then corrects the missing cell value of a specific column based on the learning result. It is possible to prevent bias from being biased to a specific value according to the association between the rows constituting the .

본 발명의 일실시예에 따른 누락값 보정 방법은 특정 칼럼의 누락된 셀 값을 보정함에 있어, 데이터를 수집하는 과정에서의 공간 유사성 및 시간 유사성을 고려함으로써, 시간 및 장소의 특성에 따른 누락된 셀 값을 보정할 수 있다.In the missing value correction method according to an embodiment of the present invention, in correcting a missing cell value of a specific column, spatial similarity and temporal similarity in the process of data collection are taken into consideration, and the missing value according to time and place characteristics is corrected. Cell values can be corrected.

도 1은 본 발명의 일실시예에 따른 테이블로 구성된 데이터의 누락값을 보정하기 위한 전체적인 동작을 설명하기 위해 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 누락값 보정 장치의 세부적인 동작을 설명하기 위해 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 데이터의 누락값을 예측하기 위한 과정을 설명하기 위해 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 데이터의 누락값을 보정하는 과정을 설명하기 위해 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 누락값 보정 방법을 설명하기 위해 도시한 흐름도이다.
1 is a diagram illustrating an overall operation for correcting an omission value of data composed of a table according to an embodiment of the present invention.
2 is a diagram illustrating a detailed operation of an apparatus for correcting a missing value according to an embodiment of the present invention.
3 is a diagram illustrating a process for predicting a missing value of data according to an embodiment of the present invention.
4 is a diagram illustrating a process of correcting an omission value of data according to an embodiment of the present invention.
5 is a flowchart illustrating a method for correcting a missing value according to an embodiment of the present invention.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Specific structural or functional descriptions of the embodiments are disclosed for purposes of illustration only, and may be changed and implemented in various forms. Accordingly, the actual implementation form is not limited to the specific embodiments disclosed, and the scope of the present specification includes changes, equivalents, or substitutes included in the technical spirit described in the embodiments.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.Although terms such as first or second may be used to describe various elements, these terms should be interpreted only for the purpose of distinguishing one element from another. For example, a first component may be termed a second component, and similarly, a second component may also be termed a first component.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.When a component is referred to as being “connected to” another component, it may be directly connected or connected to the other component, but it should be understood that another component may exist in between.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The singular expression includes the plural expression unless the context clearly dictates otherwise. In this specification, terms such as "comprise" or "have" are intended to designate that the described feature, number, step, operation, component, part, or combination thereof exists, and includes one or more other features or numbers, It should be understood that the possibility of the presence or addition of steps, operations, components, parts or combinations thereof is not precluded in advance.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical and scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art. Terms such as those defined in a commonly used dictionary should be interpreted as having a meaning consistent with the meaning in the context of the related art, and should not be interpreted in an ideal or excessively formal meaning unless explicitly defined in the present specification. does not

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일 구성 요소는 동일 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. In the description with reference to the accompanying drawings, the same components are given the same reference numerals regardless of the reference numerals, and the overlapping description thereof will be omitted.

도 1은 본 발명의 일실시예에 따른 테이블로 구성된 센서 데이터의 누락값을 보정하기 위한 전체적인 동작을 설명하기 위해 도시한 도면이다.1 is a diagram illustrating an overall operation for correcting a missing value of sensor data configured in a table according to an embodiment of the present invention.

도 1을 참고하면, 누락값 보정 장치(101)는 테이블로 구성된 센서 데이터에서 누락된 셀 값을 자동으로 보정할 수 있다. 자세하게, 누락값 보정 장치(101)는 셀 값이 누락된 특정 칼럼의 유효한 값을 보유한 모든 행들에 대한 센서 데이터의 패턴을 학습하여 누락된 행의 유사한 값을 추출할 수 있다. 여기서, 셀 값이 누락된 특정 칼럼의 유효한 값은 셀 값이 누락된 특정 칼럼을 제외한 나머지 유효 칼럼에서 누락된 셀과 동일한 행의 유효한 값을 의미할 수 있다. 누락값 보정 장치(101)는 행의 유효한 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.Referring to FIG. 1 , the missing value correcting apparatus 101 may automatically correct a missing cell value in the sensor data configured in a table. In detail, the missing value correcting apparatus 101 may extract a similar value of the missing row by learning a sensor data pattern for all rows having a valid value of a specific column in which a cell value is missing. Here, the valid value of the specific column in which the cell value is missing may mean a valid value in the same row as the missing cell in the remaining valid columns except for the specific column in which the cell value is missing. The missing value correcting apparatus 101 may correct a missing cell value of a specific column by using a valid value of a row.

이를 위해, 누락값 보정 장치(101)는 복수의 관측 지점(103)에 설치된 센서로부터 수집한 대상 데이터(102)를 이용하여 테이블로 구성된 검사 데이터를 생성할 수 있다. 누락값 보정 장치(101)는 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리 과정을 수행할 수 있다. 여기서, 전처리 과정은 각 칼럼의 자료형이 수치값이 아닌 경우, 이를 수치값으로 변환하는 과정을 의미할 수 있다. 일례로, 각 칼럼의 자료형이 범주형 데이터의 경우, 가능한 범주 문자열을 순차적인 숫자값으로 변환할 수 있다. 또한, 각 칼럼의 자료형이 텍스트의 경우, 용어 리스트에 기재된 개별 식별자 번호를 기반으로 해당 텍스트를 수치값으로 변환할 수 있다. 또한, 모든 수치값은 정규화를 하여 '0'에서 '1'사이의 값으로 변환할 수 있다. 이때, 수치화가 불가능한 칼럼은 제외한다.To this end, the missing value correction apparatus 101 may generate the examination data composed of a table by using the target data 102 collected from the sensors installed at the plurality of observation points 103 . The missing value correcting apparatus 101 may pre-process the display format of the data type indicated by the cells forming the table. Here, when the data type of each column is not a numerical value, the preprocessing process may refer to a process of converting the data type into a numerical value. For example, when the data type of each column is categorical data, possible categorical strings can be converted into sequential numeric values. In addition, if the data type of each column is text, the text can be converted to a numeric value based on the individual identifier numbers listed in the term list. Also, all numerical values can be normalized and converted into values between '0' and '1'. In this case, columns that cannot be quantified are excluded.

누락값 보정 장치(101)는 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정할 수 있다. 누락값 보정 장치(101)는 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The missing value correcting apparatus 101 may analyze the inspection data to determine a specific column in which a cell value is omitted from among cells forming a table. The missing value correcting apparatus 101 may correct the missing cell value of the specific column by using valid rows according to valid columns except for the specific column in the inspection data.

도 2는 본 발명의 일실시예에 따른 누락값 보정 장치의 세부적인 동작을 설명하기 위해 도시한 도면이다.2 is a diagram illustrating a detailed operation of an apparatus for correcting a missing value according to an embodiment of the present invention.

도 2를 참고하면, 누락값 보정 장치(201)는 누락값 보정을 위한 프로세서(202)를 포함할 수 있다. 프로세서(202)는 센서로부터 수집된 데이터에서 셀 값이 누락된 특정 칼럼을 검출하고, 특정 칼럼을 제외한 유효 칼럼을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다. 이를 위해, 프로세서(202)는 복수의 관측 지점에 설치된 센서(204)로부터 수집한 대상 데이터(205)를 수신할 수 있다. 프로세서(202)는 수신한 대상 테이블(205)를 취합하여 하나의 테이블로 구성된 검사 데이터(203)를 생성할 수 있다.Referring to FIG. 2 , the missing value correction apparatus 201 may include a processor 202 for correcting missing values. The processor 202 may detect a specific column in which a cell value is omitted from data collected from the sensor, and correct the missing cell value of the specific column by using a valid column excluding the specific column. To this end, the processor 202 may receive the target data 205 collected from the sensors 204 installed at the plurality of observation points. The processor 202 may generate the examination data 203 composed of one table by collecting the received target tables 205 .

프로세서(202)는 센서로부터 시간에 따른 칼럼(Column) 단위의 대상 데이터(205)를 수집할 수 있다. 프로세서(202)는 수집된 칼럼 단위의 대상 데이터(205)를 순차적으로 취합하여 누락된 셀 값을 보정하기 위한 테이블로 구성된 검사 데이터(203)를 생성할 수 있다. 프로세서(202)는 센서로부터 대상 데이터(205)를 수집한 시간을 기준으로 순서에 따라 차례대로 취합하여 테이블로 구성된 검사 데이터(203)를 생성할 수 있다.The processor 202 may collect the target data 205 in units of columns according to time from the sensor. The processor 202 may sequentially collect the collected target data 205 in units of columns to generate the inspection data 203 configured as a table for correcting missing cell values. The processor 202 may generate the examination data 203 composed of a table by sequentially collecting the target data 205 from the sensor in order based on the collection time.

프로세서(202)는 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정할 수 있다. 프로세서(202)는 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리 과정을 수행할 수 있다. 프로세서(202)는 표시 형식이 전처리 된 테이블의 셀들 중 셀 값이 누락된 특정 칼럼을 결정할 수 있다.The processor 202 may analyze the inspection data to determine a specific column in which a cell value is omitted among cells forming the table. The processor 202 may pre-process the display format of the data type indicated by the cells forming the table. The processor 202 may determine a specific column in which a cell value is omitted among cells of the table in which the display format has been preprocessed.

프로세서(202)는 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The processor 202 may correct the missing cell value of the specific column by using valid rows according to valid columns except for the specific column in the inspection data.

도 3은 본 발명의 일실시예에 따른 데이터의 누락값을 예측하기 위한 과정을 설명하기 위해 도시한 도면이다.3 is a diagram illustrating a process for predicting a missing value of data according to an embodiment of the present invention.

도 3의 (a)를 살펴보면, 누락값 보정 장치는 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값(302)이 누락된 특정 칼럼(301)을 결정할 수 있다.Referring to FIG. 3A , the missing value correcting apparatus may determine a specific column 301 in which a cell value 302 is omitted from among cells forming a table by analyzing the inspection data.

자세하게, 누락값 보정 장치는 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리 과정을 수행할 수 있다. 여기서, 전처리 과정은 테이블로 구성된 검사 데이터의 각 칼럼이 나타내는 데이터 타입을 보정하는 과정일 수 있다. 누락값 보정 장치는 각 칼럼의 데이터 타입을 식별하고, 식별된 데이터 타입을 수치 값으로 변환하는 작업을 수행할 수 있다. 일례로, 누락값 보정 장치는 칼럼의 데이터 타입이 스트링 타입(string type)인 경우, 스트링 타입으로 표현된 문자열을 순차적인 숫자값 또는, 개별 식별자 번호에 기초한 수치값으로 변환하는 작업을 수행할 수 있다.In detail, the missing value correcting apparatus may pre-process the display format of the data type indicated by the cells forming the table. Here, the pre-processing process may be a process of correcting the data type indicated by each column of the examination data composed of a table. The missing value correcting apparatus may identify a data type of each column and convert the identified data type into a numeric value. For example, when the data type of the column is a string type, the missing value correction device may convert a string expressed in the string type into a sequential numeric value or a numeric value based on an individual identifier number. have.

누락값 보정 장치는 표시 형식이 전처리 된 테이블의 셀들 중 셀 값(302)이 누락된 특정 칼럼(301)을 결정할 수 있다. 누락값 보정 장치는 테이블의 셀들 중 공백값 또는, 문자열의 수치값이 표현된 셀을 검출하고, 해당 셀에 대하여 값이 누락된 것으로 판단할 수 있다.The missing value correcting apparatus may determine a specific column 301 in which the cell value 302 is omitted from among the cells of the table for which the display format has been pre-processed. The missing value correcting apparatus may detect a cell in which a blank value or a numeric value of a character string is expressed among cells of a table, and determine that a value is missing with respect to the corresponding cell.

도 3의 (b)를 살펴보면, 누락값 보정 장치는 검사 데이터에서 특정 칼럼(301)을 제외한 유효 칼럼들(303)에 따른 유효 행(304)을 이용하여 특정 칼럼(301)의 누락된 셀 값(302)을 보정할 수 있다. 누락값 보정 장치는 누락값 보정 장치는 순 전파 망(FFN) / 역 전파 망(BPN) 또는 회귀 분석을 통한 학습 모델을 활용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.Referring to (b) of FIG. 3 , the missing value correcting apparatus uses a valid row 304 according to valid columns 303 except for the specific column 301 in the inspection data, and the missing cell value of the specific column 301 is used. (302) can be corrected. The missing value correction device can correct the missing cell value of a specific column by using a forward propagation network (FFN) / reverse propagation network (BPN) or a learning model through regression analysis.

누락값 보정 장치는 유효 칼럼들(303)에 따른 유효 행(304)의 각 셀 값에 대하여 순 전파 망(FFN) / 역 전파 망(BPN) 또는 회귀 분석을 통한 학습 모델에 적용할 수 있다. 누락값 보정 장치는 이에 따른 결과에 기초하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The missing value correction apparatus may be applied to a learning model through forward propagation network (FFN)/back propagation network (BPN) or regression analysis for each cell value of the valid row 304 according to the valid columns 303 . The missing value correcting apparatus may correct the missing cell value of a specific column based on a result thereof.

이때, 누락값 보정 장치는 특정 칼럼의 누락된 셀 값을 보정함에 있어, 데이터를 수집하는 과정에서의 공간 유사성 및 시간 유사성을 고려함으로써, 시간 및 장소의 특성에 따른 누락된 셀 값을 보정할 수 있다.In this case, the missing value correction device can correct the missing cell value according to the characteristics of time and place by considering spatial similarity and temporal similarity in the data collection process in correcting the missing cell value of a specific column. have.

① 시간 유사성① time similarity

누락값 보정 장치는 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼이 결정되면, 검사 데이터에서 셀 값이 누락된 특정 칼럼의 수집 시간을 추출할 수 있다. 이때, 수집 시간은 관측 지점에 설치된 센서로부터 일정 주기에 따라 데이터가 수집된 시간일 수 있다. 누락값 보정 장치는 시간 유사성에 따른 검사 데이터에서 추출한 수집 시간과 동일 시간에 수집된 적어도 하나의 유효 칼럼을 추출할 수 있다. 여기서, 추출된 유효 칼럼은 이전에 수집된 데이터로써, 누락된 셀 값이 존재하지 않으며, 누락된 셀 값을 보정하기 위해 활용되는 유효한 값을 갖는 칼럼을 의미할 수 있다. 일례로, 누락값 보정 장치는 현재를 기준으로 일간, 주간, 월간, 년간을 기준으로 동일 시간에 수집된 적어도 하나의 유효 칼럼을 추출할 수 있다.When a specific column in which a cell value is missing is determined among cells forming the table, the missing value correcting apparatus may extract a collection time of a specific column in which a cell value is missing from the inspection data. In this case, the collection time may be a time at which data is collected according to a predetermined period from a sensor installed at the observation point. The missing value correcting apparatus may extract at least one valid column collected at the same time as the collection time extracted from the test data according to time similarity. Here, the extracted valid column is previously collected data, and may refer to a column having a valid value used to correct a missing cell value in which a missing cell value does not exist. As an example, the missing value correcting apparatus may extract at least one valid column collected at the same time based on a daily, weekly, monthly, and yearly basis based on the present.

그리고, 누락값 보정 장치는 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다. 누락값 보정 장치는 적어도 하나의 유효 칼럼에 포함된 셀 값들 간에 차이 값, 중앙 값, 평균 값을 결정할 수 있다. 누락값 보정 장치는 결정된 각각의 값 들로부터 최적인 특정 칼럼의 누락된 셀 값을 보정할 수 있다.In addition, the missing value correcting apparatus may correct the missing cell value of a specific column by using the cell value of the valid row according to the extracted at least one valid column. The missing value correcting apparatus may determine a difference value, a median value, and an average value between cell values included in at least one valid column. The missing value correcting apparatus may correct the missing cell value of an optimal specific column from each of the determined values.

② 공간 유사성② Spatial similarity

누락값 보정 장치는 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼이 결정되면, 검사 데이터에서 셀 값이 누락된 특정 칼럼을 수집한 센서가 설치된 관측 지점을 판단할 수 있다. 누락값 보정 장치는 공간 유사성에 따른 추출한 센서의 관측 지점과 일정 반경 내에 설치된 서로 다른 관측 지점을 판단할 수 있다. 누락값 보정 장치는 검사 데이터에서 서로 다른 관측 지점에 설치된 센서로부터 수집된 적어도 하나의 유효 칼럼을 추출할 수 있다.When a specific column in which a cell value is missing is determined among cells forming the table, the missing value correcting apparatus may determine an observation point in which a sensor collecting a specific column in which a cell value is missing from the inspection data is installed. The missing value correcting apparatus may determine an observation point of the sensor extracted according to spatial similarity and a different observation point installed within a predetermined radius. The missing value correction apparatus may extract at least one valid column collected from sensors installed at different observation points from the inspection data.

일례로, 셀 값이 누락된 특정 칼럼을 수집한 관측 지점이 강남이며, 인접한 관측 지점이 서초, 은평일 때, 누락값 보정 장치는 검사 데이터에서 서초, 은평에서 수집된 데이터에 해당하는 유효 칼럼을 추출할 수 있다.For example, when the observation point where a specific column with missing cell values is collected is Gangnam, and the adjacent observation points are Seocho and Eunpyeong, the missing value correction device selects the valid column corresponding to the data collected in Seocho and Eunpyeong from the inspection data. can be extracted.

도 4는 본 발명의 일실시예에 따른 데이터의 누락값을 보정하는 과정을 설명하기 위해 도시한 도면이다.4 is a diagram illustrating a process of correcting an omission value of data according to an embodiment of the present invention.

도 4를 참고하면, 누락값 보정 장치는 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다. 이를 위해, 누락값 보정 장치는 누락값 보정 장치는 순 전파 망(FFN: Feed Forward Network) 및 역 전파 망(BPN: Back Propagation Network)을 활용할 수 있다. 또한, 누락값 보정 장치는 회귀 분석을 통한 학습 모델을 활용할 수 있다.Referring to FIG. 4 , the missing value correcting apparatus may correct the missing cell value of a specific column by using valid rows according to valid columns except for the specific column in the test data. To this end, the missing value correcting device may utilize a feed forward network (FFN) and a back propagation network (BPN) as the missing value correcting device. Also, the missing value correction apparatus may utilize a learning model through regression analysis.

누락값 보정 장치는 순 전파 망 및 역 전파 망에 따른 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행에 대한 데이터 패턴을 결정할 수 있다. 누락값 보정 장치는 데이터 패턴에 기초하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The missing value correcting apparatus may determine a data pattern for a valid row according to valid columns except for a specific column according to a forward propagation network and a reverse propagation network. The missing value correcting apparatus may correct a missing cell value of a specific column based on the data pattern.

① 순 전파 망 및 역 전파 망을 활용하는 방법① How to utilize a forward propagation network and a reverse propagation network

누락값 보정 장치는 누락된 셀의 개수에 따른 순 전파 망 및 역 전파 망을 활용하여 누락된 셀을 보유한 행들에 대한 누락된 셀 값을 보정할 수 있다. 여기서, 순 전파 망의 입력 개수는 특정 칼럼을 제외한 유효 칼럼의 개수이며, 역 전파 망의 출력 개수는 누락된 셀의 개수일 수 있다. 본 발명은 검사 데이터를 순 전파 망 및 역 전파 망을 학습하기 위한 훈련 데이터로 이용할 수 있으며, 훈련 데이터는 유효 칼럼을 보유한 모든 행의 개수를 포함할 수 있다.The missing value correcting apparatus may correct missing cell values for rows having missing cells by using a forward propagation network and a reverse propagation network according to the number of missing cells. Here, the number of inputs of the forward propagation network may be the number of valid columns excluding a specific column, and the number of outputs of the reverse propagation network may be the number of missing cells. In the present invention, the inspection data may be used as training data for learning a forward propagation network and a reverse propagation network, and the training data may include the number of all rows having valid columns.

순 전파 망의 입력은 검사 데이터에서 누락된 셀을 포함하는 행의 유효 칼럼에 대한 속성값이며, 역 전파 망의 출력은 특정 칼럼의 누락된 셀 값으로 예측된 값일 수 있다.The input of the forward propagation network is an attribute value for a valid column of a row containing missing cells in the inspection data, and the output of the reverse propagation network may be a value predicted by the missing cell value of a specific column.

② 회귀 분석을 통한 학습 모델을 활용하는 방법② How to utilize a learning model through regression analysis

누락값 보정 장치는 독립변수(independent variable)가 종속변수(dependent variable)에 미치는 영향을 확인하고자 사용하는 회귀 분석을 이용하여 특정 칼럼의 누락된 셀 값을 예측 및 보정할 수 있다.The missing value correction apparatus can predict and correct the missing cell value of a specific column by using regression analysis used to check the effect of the independent variable on the dependent variable.

누락값 보정 장치는 값이 누락된 셀이 나타내는 항목을 판단하고, 검사 데이터에서 판단된 항목을 제외한 나머지 항목을 구분할 수 있다. 누락값 보정 장치는 나머지 항목 및 각 항목의 행을 독립 변수로 설정하고, 누락된 셀의 행을 종속 변수로 설정할 수 있다. 누락값 보정 장치는 독립 변수와 종속 변수에 따른 회귀 분석을 통한 학습 모델을 생성할 수 있다. 누락값 보정 장치는 학습 모델을 통한 이용하여 특정 칼럼의 누락된 셀 값을 예측 및 보정할 수 있다.The missing value correcting apparatus may determine an item indicated by a cell in which a value is missing, and may classify items other than the determined item in the inspection data. The missing value correcting apparatus may set the remaining items and rows of each item as independent variables, and set the rows of missing cells as dependent variables. The missing value correction apparatus may generate a learning model through regression analysis according to the independent variable and the dependent variable. The missing value correcting apparatus may predict and correct the missing cell value of a specific column by using the learning model.

도 5는 본 발명의 일실시예에 따른 누락값 보정 방법을 설명하기 위해 도시한 흐름도이다.5 is a flowchart illustrating a method for correcting a missing value according to an embodiment of the present invention.

단계(501)에서 누락값 보정 장치는 복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성할 수 있다. 여기서, 누락값 보정 장치는 복수의 관측 지점에 설치된 센서로부터 시간에 따른 칼럼(Column) 단위의 대상 데이터를 수집할 수 있다. 누락값 보정 장치는 수집된 칼럼 단위의 대상 데이터를 순차적으로 취합하여 누락된 셀 값을 보정하기 위한 테이블로 구성된 검사 데이터를 생성할 수 있다.In step 501 , the missing value correcting apparatus may generate the examination data composed of a table by using target data collected from sensors installed at a plurality of observation points. Here, the missing value correction apparatus may collect target data in units of columns according to time from sensors installed at a plurality of observation points. The missing value correcting apparatus may sequentially collect the collected column-by-column target data to generate the inspection data composed of a table for correcting the missing cell value.

단계(502)에서 누락값 보정 장치는 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정할 수 있다. 누락값 보정 장치는 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리 과정을 수행할 수 있다. 누락값 보정 장치는 표시 형식이 전처리 된 테이블의 셀들 중 셀 값이 누락된 특정 칼럼을 결정할 수 있다.In operation 502 , the missing value correcting apparatus analyzes the inspection data to determine a specific column in which a cell value is missing from among cells forming a table. The missing value correcting apparatus may pre-process the display format of the data type indicated by the cells forming the table. The missing value correction device may determine a specific column in which a cell value is missing from among the cells of the table for which the display format has been pre-processed.

단계(503)에서 누락값 보정 장치는 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다. 누락값 보정 장치는 검사 데이터를 생성하기 위해 센서로부터 수집한 대상 데이터의 시간 유사성 또는, 대상 데이터를 수집한 센서가 설치된 위치의 공간 유사성을 고려할 수 있다.In operation 503 , the missing value correcting apparatus may correct the missing cell value of a specific column by using valid rows according to valid columns except for the specific column in the inspection data. The missing value correcting apparatus may consider temporal similarity of target data collected from a sensor or spatial similarity of a location in which a sensor collecting target data is installed to generate inspection data.

누락값 보정 장치는 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정할 수 있다. 누락값 보정 장치는 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값에 대한 회귀 모델을 통한 학습을 수행하고, 학습 결과에 따른 특정 칼럼의 누락된 셀 값을 보정할 수 있다.The missing value correcting apparatus may correct the missing cell value of a specific column by using the cell value of the valid row according to the extracted at least one valid column. The missing value correcting apparatus may perform learning through a regression model on a cell value of a valid row according to at least one extracted valid column, and may correct a missing cell value of a specific column according to the learning result.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The embodiments described above may be implemented by a hardware component, a software component, and/or a combination of a hardware component and a software component. For example, the apparatus, methods, and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate (FPGA) array), a programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions, may be implemented using a general purpose computer or special purpose computer. The processing device may execute an operating system (OS) and a software application running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For convenience of understanding, although one processing device is sometimes described as being used, one of ordinary skill in the art will recognize that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that can include For example, the processing device may include a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may comprise a computer program, code, instructions, or a combination of one or more thereof, which configures a processing device to operate as desired or is independently or collectively processed You can command the device. The software and/or data may be any kind of machine, component, physical device, virtual equipment, computer storage medium or apparatus, to be interpreted by or to provide instructions or data to the processing device. , or may be permanently or temporarily embody in a transmitted signal wave. The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored in a computer-readable recording medium.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination, and the program instructions recorded on the medium are specially designed and configured for the embodiment, or may be known and available to those skilled in the art of computer software. may be Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.

위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The hardware devices described above may be configured to operate as one or a plurality of software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with reference to the limited drawings, those of ordinary skill in the art may apply various technical modifications and variations based thereon. For example, the described techniques are performed in an order different from the described method, and/or the described components of the system, structure, apparatus, circuit, etc. are combined or combined in a different form than the described method, or other components Or substituted or substituted by equivalents may achieve an appropriate result.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

101: 누락값 보정 장치
102: 대상 데이터
103: 관측 지점
101: missing value correction device
102: target data
103: observation point

Claims (12)

복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성하는 단계;
상기 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정하는 단계; 및
상기 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정하는 단계;
를 포함하는 누락값 보정 방법.
generating inspection data composed of a table using target data collected from sensors installed at a plurality of observation points;
determining a specific column in which a cell value is missing from among cells forming a table by analyzing the inspection data; and
correcting the missing cell value of the specific column by using valid rows according to valid columns except for the specific column in the inspection data;
A method for correcting missing values, including
제1항에 있어서,
상기 생성하는 단계는,
상기 복수의 관측 지점에 설치된 센서로부터 시간에 따른 칼럼(Column) 단위의 대상 데이터를 수집하는 단계; 및
상기 수집된 칼럼 단위의 대상 데이터를 순차적으로 취합하여 누락된 셀 값을 보정하기 위한 테이블로 구성된 검사 데이터를 생성하는 단계;
를 포함하는 누락값 보정 방법.
According to claim 1,
The generating step is
collecting target data in units of columns according to time from sensors installed at the plurality of observation points; and
generating test data composed of a table for correcting missing cell values by sequentially collecting the collected target data in units of columns;
A method for correcting missing values, including
제1항에 있어서,
상기 결정하는 단계는,
상기 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리 하는 단계; 및
상기 표시 형식이 전처리 된 테이블의 셀들 중 셀 값이 누락된 특정 칼럼을 결정하는 단계;
를 포함하는 누락값 보정 방법.
According to claim 1,
The determining step is
pre-processing a display format of data types represented by cells forming the table; and
determining a specific column in which a cell value is missing from among the cells of the table in which the display format has been pre-processed;
A method for correcting missing values, including
제1항에 있어서,
상기 특정 칼럼의 누락된 셀 값을 보정하는 단계는,
상기 검사 데이터에서 셀 값이 누락된 특정 칼럼의 수집 시간을 추출하는 단계;
시간 유사성에 따른 검사 데이터에서 추출한 수집 시간과 동일 시간에 수집된 적어도 하나의 유효 칼럼을 추출하는 단계; 및
상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정하는 단계;
를 포함하는 누락값 보정 방법.
According to claim 1,
The step of correcting the missing cell value of the specific column is,
extracting a collection time of a specific column in which a cell value is omitted from the inspection data;
extracting at least one valid column collected at the same time as the collection time extracted from the test data according to time similarity; and
correcting a missing cell value of a specific column by using a cell value of a valid row according to the extracted at least one valid column;
A method for correcting missing values, including
제1항에 있어서,
상기 특정 칼럼의 누락된 셀 값을 보정하는 단계는,
상기 검사 데이터에서 셀 값이 누락된 특정 칼럼을 수집한 센서의 관측 지점을 추출하는 단계;
공간 유사성에 따른 상기 추출한 센서의 관측 지점과 일정 반경 내에 설치된 서로 다른 관측 지점을 판단하는 단계;
상기 검사 데이터에서 서로 다른 관측 지점에 설치된 센서로부터 수집된 적어도 하나의 유효 칼럼을 추출하는 단계; 및
상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정하는 단계;
를 포함하는 누락값 보정 방법.
According to claim 1,
The step of correcting the missing cell value of the specific column is,
extracting an observation point of a sensor collecting a specific column in which a cell value is missing from the inspection data;
determining an observation point of the extracted sensor according to spatial similarity and a different observation point installed within a predetermined radius;
extracting at least one valid column collected from sensors installed at different observation points from the inspection data; and
correcting a missing cell value of a specific column by using a cell value of a valid row according to the extracted at least one valid column;
A method for correcting missing values, including
제1항에 있어서,
상기 특정 칼럼의 누락된 셀 값을 보정하는 단계는,
상기 유효 칼럼들에 따른 유효 행에 대한 데이터 패턴에 기초하여 특정 칼럼의 누락된 셀 값을 보정하는 누락값 보정 방법.
According to claim 1,
The step of correcting the missing cell value of the specific column is,
A missing value correction method for correcting a missing cell value of a specific column based on a data pattern for a valid row according to the valid columns.
프로세서를 포함하는 누락값 보정 장치에 있어서,
상기 프로세서는,
복수의 관측 지점에 설치된 센서로부터 수집한 대상 데이터를 이용하여 테이블로 구성된 검사 데이터를 생성하고,
상기 검사 데이터를 분석하여 테이블을 형성하는 셀들 중 셀 값이 누락된 특정 칼럼을 결정하고,
상기 검사 데이터에서 특정 칼럼을 제외한 유효 칼럼들에 따른 유효 행을 이용하여 상기 특정 칼럼의 누락된 셀 값을 보정하는 누락값 보정 장치.
A missing value correction device comprising a processor, comprising:
The processor is
Inspection data composed of tables is generated using target data collected from sensors installed at multiple observation points,
Analyze the inspection data to determine a specific column in which a cell value is missing among cells forming a table,
A missing value correction apparatus for correcting a missing cell value of the specific column by using valid rows according to valid columns except for the specific column in the inspection data.
제7항에 있어서,
상기 프로세서는,
상기 복수의 관측 지점에 설치된 센서로부터 시간에 따른 칼럼 단위의 대상 데이터를 수집하고,
상기 수집된 칼럼 단위의 대상 데이터를 순차적으로 취합하여 누락된 셀 값을 보정하기 위한 테이블로 구성된 검사 데이터를 생성하는 누락값 보정 장치.
8. The method of claim 7,
The processor is
Collecting target data in column units according to time from sensors installed at the plurality of observation points,
An apparatus for correcting missing values by sequentially collecting the collected column-by-column target data to generate inspection data composed of a table for correcting missing cell values.
제7항에 있어서,
상기 프로세서는,
상기 테이블을 형성하는 셀들이 나타내는 데이터 타입의 표시 형식을 전처리를 수행하고,
상기 표시 형식이 전처리 된 테이블의 셀들 중 셀 값이 누락된 특정 칼럼을 결정하는 누락값 보정 장치.
8. The method of claim 7,
The processor is
pre-processing the display format of the data type represented by the cells forming the table;
A missing value correction device that determines a specific column in which a cell value is missing from among the cells of the table in which the display format has been pre-processed.
제7항에 있어서,
상기 프로세서는,
상기 검사 데이터에서 셀 값이 누락된 특정 칼럼의 수집 시간을 추출하고,
시간 유사성에 따른 검사 데이터에서 추출한 수집 시간과 동일 시간에 수집된 적어도 하나의 유효 칼럼을 추출하고,
상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정하는 누락값 보정 장치.
8. The method of claim 7,
The processor is
Extracting the collection time of a specific column in which the cell value is missing from the inspection data,
extracting at least one valid column collected at the same time as the collection time extracted from the test data according to time similarity,
A missing value correction apparatus for correcting a missing cell value of a specific column by using a cell value of a valid row according to the extracted at least one valid column.
제1항에 있어서,
상기 프로세서는,
상기 검사 데이터에서 셀 값이 누락된 특정 칼럼을 수집한 센서의 관측 지점을 추출하고,
공간 유사성에 따른 상기 추출한 센서의 관측 지점과 일정 반경 내에 설치된 서로 다른 관측 지점을 판단하고,
상기 검사 데이터에서 서로 다른 관측 지점에 설치된 센서로부터 수집된 적어도 하나의 유효 칼럼을 추출하고,
상기 추출된 적어도 하나의 유효 칼럼에 따른 유효 행의 셀 값을 이용하여 특정 칼럼의 누락된 셀 값을 보정하는 누락값 보정 장치.
According to claim 1,
The processor is
Extracting the observation point of the sensor that collected the specific column in which the cell value is missing from the inspection data,
Determining the observation point of the extracted sensor according to the spatial similarity and different observation points installed within a certain radius,
extracting at least one valid column collected from sensors installed at different observation points from the inspection data;
A missing value correction apparatus for correcting a missing cell value of a specific column by using a cell value of a valid row according to the extracted at least one valid column.
제7항에 있어서,
상기 프로세서는,
상기 유효 칼럼들에 따른 유효 행에 대한 데이터 패턴에 기초하여 특정 칼럼의 누락된 셀 값을 보정하는 누락값 보정 장치.
8. The method of claim 7,
The processor is
A missing value correction apparatus for correcting a missing cell value of a specific column based on a data pattern for a valid row according to the valid columns.
KR1020200163181A 2020-11-27 2020-11-27 Method and apparatus for null value correction of sensor data KR102531742B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200163181A KR102531742B1 (en) 2020-11-27 2020-11-27 Method and apparatus for null value correction of sensor data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200163181A KR102531742B1 (en) 2020-11-27 2020-11-27 Method and apparatus for null value correction of sensor data

Publications (2)

Publication Number Publication Date
KR20220074548A true KR20220074548A (en) 2022-06-03
KR102531742B1 KR102531742B1 (en) 2023-05-11

Family

ID=81982698

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200163181A KR102531742B1 (en) 2020-11-27 2020-11-27 Method and apparatus for null value correction of sensor data

Country Status (1)

Country Link
KR (1) KR102531742B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828373A (en) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 Missing data filling method and system based on set partitioning and self-supervision learning

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190028170A (en) * 2017-09-08 2019-03-18 연세대학교 산학협력단 Apparatus and method for action recongnition
KR102039540B1 (en) * 2019-04-23 2019-11-01 (주)위세아이텍 Device and method for automating process of detecting outlier values of big data
KR20200030303A (en) * 2018-09-12 2020-03-20 삼성에스디에스 주식회사 Method and apparatus for compensating a missing value in data
KR102099362B1 (en) * 2018-10-08 2020-04-09 (주)디지탈쉽 Device and method for a data preparation using a micro service
KR20200049373A (en) * 2018-10-31 2020-05-08 한국전자통신연구원 System and method for calibrating simulation model
KR102156757B1 (en) * 2019-09-27 2020-09-16 (주)데이터리퍼블릭 System, method, and computer program for credit evaluation using artificial neural network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190028170A (en) * 2017-09-08 2019-03-18 연세대학교 산학협력단 Apparatus and method for action recongnition
KR20200030303A (en) * 2018-09-12 2020-03-20 삼성에스디에스 주식회사 Method and apparatus for compensating a missing value in data
KR102099362B1 (en) * 2018-10-08 2020-04-09 (주)디지탈쉽 Device and method for a data preparation using a micro service
KR20200049373A (en) * 2018-10-31 2020-05-08 한국전자통신연구원 System and method for calibrating simulation model
KR102039540B1 (en) * 2019-04-23 2019-11-01 (주)위세아이텍 Device and method for automating process of detecting outlier values of big data
KR102156757B1 (en) * 2019-09-27 2020-09-16 (주)데이터리퍼블릭 System, method, and computer program for credit evaluation using artificial neural network

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
결측치, https://wooono.tistory.com/103 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828373A (en) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 Missing data filling method and system based on set partitioning and self-supervision learning

Also Published As

Publication number Publication date
KR102531742B1 (en) 2023-05-11

Similar Documents

Publication Publication Date Title
CN108563739B (en) Weather data acquisition method and device, computer device and readable storage medium
US8839210B2 (en) Program performance analysis apparatus
US20170228309A1 (en) System and method for equivalence class analysis-based automated requirements-based test case generation
US20090327208A1 (en) Discovering transformations applied to a source table to generate a target table
US11279040B2 (en) Robot process automation apparatus and method for detecting changes thereof
US20170140309A1 (en) Database analysis device and database analysis method
US20200285984A1 (en) System and method for generating a predictive model
US20090217246A1 (en) Evaluating Software Programming Skills
US11158118B2 (en) Language model, method and apparatus for interpreting zoning legal text
US11783034B2 (en) Apparatus and method for detecting malicious script
GB2576659A (en) Entity model establishment
KR102496030B1 (en) Apparatus and method for reinforcement learning for classifying data
US20170091082A1 (en) Test db data generation apparatus
KR102531742B1 (en) Method and apparatus for null value correction of sensor data
US20100077382A1 (en) Computer-readable recording medium string a bug detection support program, similar structure identification information list output program, bug detection support apparatus, and bug detection support method
US20110184938A1 (en) Determining similarity between source code files
KR102192196B1 (en) An apparatus and method for detecting malicious codes using ai based machine running cross validation techniques
JP2016014944A (en) Correlation rule analysis device and correlation rule analysis method
CN110554952B (en) Search-based hierarchical regression test data generation method
KR20210050771A (en) System and method for detecting user interface object based on an image
US10387532B2 (en) Manufacturing control system, manufacturing control method, and manufacturing control program
CN112766245B (en) PDF format file-based visual instrument acquisition method and system
Krismayer et al. Supporting the selection of constraints for requirements monitoring from automatically mined constraint candidates
US9996410B2 (en) Non-transitory computer-readable recording medium storing program for sign detection, sign detection device, and sign detection method
Osman Ambi Detect: An Ambiguous Software Requirements Specification Detection Tool

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant