WO2024029659A1 - Electronic apparatus for performing quality verification of time series data and performing method therefor - Google Patents

Electronic apparatus for performing quality verification of time series data and performing method therefor Download PDF

Info

Publication number
WO2024029659A1
WO2024029659A1 PCT/KR2022/013177 KR2022013177W WO2024029659A1 WO 2024029659 A1 WO2024029659 A1 WO 2024029659A1 KR 2022013177 W KR2022013177 W KR 2022013177W WO 2024029659 A1 WO2024029659 A1 WO 2024029659A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
time series
series data
missing
division cycle
Prior art date
Application number
PCT/KR2022/013177
Other languages
French (fr)
Korean (ko)
Inventor
문재원
금승우
오승택
이지훈
황지수
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Publication of WO2024029659A1 publication Critical patent/WO2024029659A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time

Definitions

  • the present invention relates to an electronic device and method for performing quality verification of time series data.
  • sensor data contains large and small error data. And sensor data is dependent on network status, and the sensor itself may record error values.
  • An embodiment of the present invention provides an electronic device and method for performing quality verification of time series data, which determines the quality of data based on the cycle of time series data and selects and utilizes data that meets the criteria.
  • the quality verification method of time series data includes the steps of refining time series data collected for predetermined characteristic information based on a predetermined reference period; Splitting the refined time series data according to a predetermined division cycle; Verifying the quality of data for time series data divided according to the division cycle; A step of selecting the verified time series data and processing the data according to data supplementation conditions, wherein the step of verifying the quality of the data for the time series data divided according to the division cycle includes the step of verifying the quality of the data for the divided time series data calculating at least one of the degree of continuous missing data and the degree of total missing data in the corresponding division cycle; and determining the divided time series data of the corresponding division period as defective data when each calculated degree exceeds a degree set according to a standard parameter.
  • the step of refining the time series data collected for the predetermined characteristic information based on a predetermined reference period is inferred through the characteristic information of the collected time series data or based on external parameters. It may include setting the reference period.
  • the step of dividing the purified time series data according to a predetermined division cycle is performed according to the division period calculated by applying a predetermined weight determined by reflecting the characteristic information to the reference period.
  • the time series data can be divided.
  • the step of dividing the refined time series data according to a predetermined division period may include deleting time series data that does not satisfy the division period from among the time series data.
  • dividing the refined time series data according to a predetermined division cycle includes dividing the refined time series data based on a first division cycle; and re-dividing the divided time series data based on a second division cycle.
  • the step of verifying the quality of the data for the time series data divided according to the division cycle includes performing the second division cycle on the verified time series data that is determined not to be defective data.
  • a step of recursively verifying quality based on may be further included.
  • the step of verifying the quality of data for time series data divided according to the division cycle includes varying the number of time series data divided according to the second division cycle to the reference parameter.
  • a step of adjusting the set degree of consecutive missing data and the degree of overall missing data may be further included.
  • the multivariate data is arranged into columns and rows according to time information groups according to each characteristic information and division period
  • the step of verifying the quality of data for time series data divided according to the division cycle includes checking whether missing data for each characteristic information exists for each time information group of the multivariate data; If missing data exists in each time information group, first counting is added, and if consecutive missing data exists in a plurality of time information groups adjacent to the time information group to which the first counting is added, the missing data is added. adding a second counting based on the number of consecutive time information groups; And it may include calculating the degree of the continuous missing data for each time information group according to the division period by adding up the first and second counting.
  • the step of adding the second counting may be performed when consecutive missing data exists based on characteristic information in a plurality of time information groups adjacent to the time information group to which the first counting has been added.
  • second counting may be added based on the number of time information groups in which missing data is consecutive based on the characteristic information.
  • the step of adding the second counting includes consecutive time information groups with missing entire characteristic information within the time information group to which the first counting is added and a plurality of adjacent time information groups. If it exists, second counting can be added based on the number of consecutive time information groups.
  • the electronic device divides time series data collected for predetermined characteristic information according to a predetermined division period, and verifies the quality of the data for the time series data divided according to the division period. Afterwards, it includes a processor that selects the verified time series data and processes the data according to data supplementation conditions.
  • quality verification is performed based on time series data with periodic characteristics and defective data is processed, so that data with high data quality can be used for learning and analysis, resulting in overall performance results. can be improved.
  • data to be supplemented is selected based on the status of missing data included in the data, more rational and high-quality data processing is possible.
  • high-quality data is provided based on data supplementation conditions, unreasonable deletion or interpolation work can be avoided, allowing higher quality data analysis to be performed.
  • FIG. 1 is a block diagram showing the configuration of an electronic device according to an embodiment of the present invention.
  • Figure 2 is a diagram showing a flowchart of operations performed by an electronic device according to the first embodiment of the present invention.
  • Figures 3a and 3b are diagrams illustrating an example of refining time series data based on a standard technology cycle.
  • Figure 4 is a diagram showing an example of dividing time series data according to a division cycle.
  • Figure 5 is a diagram to explain the quality verification process of univariate time series data.
  • Figures 6a and 6b are diagrams for explaining the quality verification process of multivariate time series data.
  • Figure 7 is a diagram to explain the process of recursively verifying the quality of data.
  • Figure 8 is a diagram showing data including missing data.
  • Figure 9 is a diagram illustrating an operation flowchart of an electronic device according to a second embodiment of the present invention.
  • Figure 10 is a diagram illustrating setting a section of first data according to a method according to an embodiment of the present invention.
  • FIG. 11 is a diagram illustrating generating second data according to a method according to an embodiment of the present invention.
  • Figure 12 is a diagram illustrating processing of second data based on data supplementation conditions according to a method according to an embodiment of the present invention.
  • Figure 13 is a diagram illustrating processing of second data according to a method according to an embodiment of the present invention.
  • Figure 14 is a diagram illustrating an operation flowchart of an electronic device according to another embodiment of the present invention.
  • Figure 15 is a diagram showing the operation of an electronic device according to an embodiment of the present invention.
  • Figure 16 is a diagram showing the operation of an electronic device according to another embodiment of the present invention.
  • time series data is being actively researched in various fields, and outlier detection technology using time series data detects error data generated by sensor and network abnormalities in time series data or abnormal data sections that occur due to abnormal situations.
  • time series data there is also a data classification and clustering technique to find similarities and patterns between time series data. This reduces the processing cost by reducing the dimension from high dimension to low dimension, effectively extracts similar features, and visually displays them to secure recognition and insight into the data and is used to easily identify similar patterns.
  • a way to solve this problem is to restore and utilize partially lost data as if it were normal data. However, if the amount of lost data is large, restoring and using the data forcibly may lead to incorrect results.
  • an electronic device and method for performing quality verification of time series data enable selection of time series data with usable quality based on the periodic characteristics of the time series data.
  • the purpose is to
  • an embodiment of the present invention can expect high analysis and learning performance due to high quality when using learning analysis based on time series data for which quality verification has been completed.
  • FIGS. 1 to 7 an electronic device and method for performing quality verification of time series data according to an embodiment of the present invention
  • FIGS. 8 to 16 an electronic device that performs data selection based on data supplementation conditions and a method for performing the same (hereinafter referred to as the second embodiment) will be described.
  • the first and second embodiments of the present invention may mutually share or partially apply technical features depending on the embodiment at each stage.
  • FIG. 1 is a block diagram showing the configuration of an electronic device according to an embodiment of the present invention.
  • the electronic device 100 includes an input unit 110, a communication unit 120, a display unit 130, a memory 140, and a processor 150.
  • the input unit 110 generates input data in response to user input of the electronic device 100.
  • the user input is a user input regarding data that the electronic device 100 wants to process, a user input regarding a division cycle, a user input regarding quality verification conditions, a user input regarding data supplementation conditions, and at least one to process missing data. May include user input regarding how to handle missing data.
  • the input unit 110 includes at least one input means.
  • the input unit 110 includes a keyboard, key pad, dome switch, touch panel, touch key, mouse, menu button, etc. may include.
  • the communication unit 120 performs communication with an external device such as a server or a data collection device to receive data.
  • This communication unit 120 may include both a wired communication module and a wireless communication module.
  • the wired communication module can be implemented as a power line communication device, telephone line communication device, home cable (MoCA), Ethernet, IEEE1294, integrated wired home network, and RS-485 control device.
  • wireless communication modules include WLAN (wireless LAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, wireless USB technology and wireless HDMI technology, as well as 5G (5th generation communication) and LTE-A. It may be composed of modules to implement functions such as (long term evolution-advanced), LTE (long term evolution), and Wi-Fi (wireless fidelity).
  • the display unit 130 displays display data according to the operation of the electronic device 100.
  • the display unit 130 displays display data needed to verify data based on data quality verification conditions (e.g., a screen for setting quality verification conditions), and display data needed to select data based on data supplement conditions (e.g. For example, a screen that sets data supplementation conditions) and a screen that displays data processing results, etc. can be displayed.
  • the display unit 130 may display data required to process missing data, for example, a screen for processing abnormal data among collected data, a screen for identifying information about missing data, a screen for receiving user input, A screen displaying data processing results, etc. can be displayed.
  • the display unit 130 includes a liquid crystal display (LCD), a light emitting diode (LED) display, an organic light emitting diode (OLED) display, and a micro electro mechanical systems (MEMS) display. and electronic paper displays.
  • LCD liquid crystal display
  • LED light emitting diode
  • OLED organic light emitting diode
  • MEMS micro electro mechanical systems
  • the display unit 130 may be combined with the input unit 110 and implemented as a touch screen.
  • the memory 140 stores operation programs of the electronic device 100.
  • the memory 140 is a general term for non-volatile storage devices and volatile storage devices that continue to retain stored information even when power is not supplied.
  • memory 120 may include compact flash (CF) cards, secure digital (SD) cards, memory sticks, solid-state drives (SSD), and micro SD.
  • CF compact flash
  • SD secure digital
  • SSD solid-state drives
  • micro SD micro SD.
  • NAND flash memory such as cards
  • magnetic computer storage devices such as hard disk drives (HDD)
  • optical disc drives such as CD-ROM, DVD-ROM, etc. You can.
  • the memory 140 may store data collected from an external device, data on data quality verification conditions, data on data supplementation conditions, information on abnormal data, information on methods for processing missing data, etc.
  • the memory 140 is a model learned to identify at least one method of processing missing data based on information about a model learned to set a section of data to be processed according to the quality of the data or information about missing data. Information about can be stored.
  • the processor 150 may control at least one other component (eg, hardware or software component) of the electronic device 100 by executing software such as a program, and may perform various data processing or calculations.
  • software such as a program
  • the processor 150 divides the time series data collected for predetermined characteristic information according to a predetermined division cycle, verifies the quality of the data for the time series data divided according to the division cycle, and then selects the verified time series data.
  • the data can be processed according to the data supplement conditions.
  • the processor 150 uses machine learning and neural network as an artificial intelligence algorithm to process data according to data purification, division, quality verification, and data supplementation conditions.
  • network or at least one of deep learning algorithms can be used.
  • an artificial intelligence algorithm at least one of machine learning, neural network, or deep learning algorithm may be used.
  • neural network networks include Convolutional Neural Network (CNN) and Deep Neural Network (DNN). Network) and RNN (Recurrent Neural Network).
  • Figure 2 is a diagram showing a flowchart of operations performed by an electronic device according to the first embodiment of the present invention.
  • the processor 150 refines the time series data collected for certain characteristic information based on a predetermined reference period (S210).
  • time series data shows continuous characteristics
  • continuous time series data may repeat over time or show common patterns.
  • time series data may have periodicity, and the periods may show common and repeating patterns based on units such as 'hour, day, week, month, year'.
  • outdoor temperature has both daily and yearly periodicity because it is affected by revolution and rotation.
  • changes in carbon dioxide inside schools are likely to have daily and weekly patterns due to daily routine, and may also have yearly periodicity because indoor window opening patterns vary depending on the external temperature. These patterns play an important role in the analysis and purification of data and must be considered when utilizing the data.
  • predetermined characteristic information refers to characteristic information based on a sensor of time series data. For example, when analyzing climate change in a specific city, the time series data sensed by each sensor is
  • Temperature, humidity, precipitation, traffic volume, population density, etc. over time in a specific city can be characteristic information. Or, when comparing the amount of fine dust in each city, Seoul, Busan, Cheongju, etc. may correspond to the characteristic information.
  • Figures 3a and 3b are diagrams illustrating an example of refining time series data based on a standard technology cycle.
  • the processor 150 may basically generate a reference period so that the time stamp of time series data used as input is uniform.
  • the reference period can be set by various methods.
  • the processor 150 may set the reference period by inferring through characteristic information of the collected time series data, which is the original data, or may set the reference period based on the user's judgment or external parameters.
  • the processor 150 sets a new time stamp according to the reference period and changes the time series data to be described uniformly according to the time stamp. At this time, if some data is missing from the time series data, the processor 150 may mark the missing data to be differentiated (for example, NAN).
  • Figure 3a shows time series data before refinement according to a standard cycle (310), and Figure 3b shows time series data refined according to a standard cycle (320).
  • the standard cycle was set in 1-minute increments, and the time stamp in 1-minute increments was set according to the technology cycle.
  • missing data in Figure 3a is indicated as NAN.
  • the processor 150 divides the refined time series data according to a predetermined division cycle (S220).
  • Figure 4 is a diagram showing an example of dividing time series data according to a division cycle.
  • the processor 150 may divide time series data according to a basic division cycle.
  • the basic division cycle can be set to 'seconds, minutes, hours, days, weeks, months, years'.
  • most time series data has periodic characteristics.
  • the processor 150 sets a predetermined weight ( Time series data can be divided according to the division cycle calculated by applying N). That is, the division cycle can be set to 'basic division cycle * N'. For example, the division cycle can be set to 'default division cycle * N', such as 3 hours, 3 days, 1 year, 2 months, etc.
  • N a basic division cycle
  • the division cycle can be set to 'default division cycle * N', such as 3 hours, 3 days, 1 year, 2 months, etc.
  • the weight corresponding to the pattern is reflected, and when analyzing subway usage, it corresponds to a daily pattern. The weight can be reflected in the basic division cycle.
  • the processor 150 may delete the corresponding data.
  • the processor 150 may delete data that does not completely satisfy the division cycle among the detailed data constituting the time series data without selecting it.
  • data can be selected and utilized as needed even if the division cycle is not completely satisfied.
  • the example in Figure 4 is the result of dividing the time series data (400) of '2020-05-29 23:59:00 ⁇ 2020-06-20 01:00:00' according to the division cycle of 1 day, and the time series The data is divided into 21 parts (400-1 to 400-N) according to the division cycle.
  • the division cycle of 1 day is set to '00:00:00 ⁇ 23:59:59', and each data divided by cycle must be complete and have the same level of detailed data.
  • the processor 150 may delete data of dates '05-29' and '06-20' that do not satisfy the complete division cycle from the entire time series data.
  • the processor 150 may perform a double division. Time series data can be divided by applying a period.
  • the processor 150 may divide the refined time series data based on the first division cycle and re-divide the time series data divided according to the first division cycle based on the second division cycle (or third division cycle, etc.). there is.
  • the first division period may be set to be smaller than the second division period.
  • the processor 150 may divide the time series data divided according to the first division cycle of daily units again according to the second division cycle of weekdays and weekends and select only necessary data.
  • the processor 150 divides the time series data divided according to the first division cycle in daily units again according to the second division cycle of 'Month' and 'Tuesday-Sunday' and the latter 'Tuesday-Sunday' data. You can also select and use only.
  • the processor 150 divides according to the second division cycle of 'Monday' and 'Tuesday-Sunday'.
  • Time series data can be divided again according to the third division cycle of ‘Monday’, ‘Tuesday-Friday’, and ‘Saturday-Sunday’.
  • the second division cycle may be a sub-division cycle of the first division cycle in Table 1.
  • the data can be selected and used as analysis and learning data as shown in the following example.
  • the reason for applying this double division cycle is that, for example, when there is a need to extract only data from 9 to 10 o'clock in the summer of July and August every year, a parameter description method is needed.
  • time series data is divided into year division cycle, month division cycle, week division cycle, and daily division cycle
  • the processor 150 verifies the quality of the data for time series data divided according to the division cycle (S230).
  • the processor 150 checks the status of missing values in the corresponding division cycle for time series data divided according to the division cycle and calculates at least one of the degree of continuous missing data and the degree of total missing data. . In addition, if the calculated degree of continuous missing data and the degree of total missing data exceeds the degree set according to the standard parameter, the processor 150 determines the divided time series data of the corresponding division cycle as defective data.
  • the degree of consecutive missing data and the degree of total missing data refer to concepts such as number, ratio, probability, etc. of data.
  • an embodiment of the present invention can perform quality verification by distinguishing between cases where time series data is univariate data and cases where it is multivariate data.
  • Figure 5 is a diagram to explain the quality verification process of univariate time series data.
  • Univariate data is data that includes only one characteristic information.
  • the processor 150 performs verification on only one characteristic information.
  • the processor 150 may determine the data to be defective if the degree of consecutive missing data or the degree of total missing data is greater than the set reference parameter, or if all of these are satisfied.
  • the number of consecutive missing data in the F1 data 510 is 2 and 1, and the total missing data is The number is calculated as 3.
  • the standard parameter is set to ⁇ Number of consecutive missing data: 2
  • Number of total missing data: 3 ⁇ the number of consecutive missing data in the F1 data 510 may be 2, so the total number of missing data and Regardless, F1 data is determined to be bad data.
  • the reference parameter is set to ⁇ number of consecutive missing data: 5, total number of missing data: 10 ⁇ , the F1 data 510 is determined to be normal data rather than defective.
  • FIGS. 6A and 6B are diagrams for explaining the quality verification process of multivariate time series data 610 and 620.
  • multivariate data is time series data that includes a plurality of characteristic information
  • quality verification of multivariate time series data means verifying the quality of a plurality of characteristic information
  • the processor 150 may organize the time series data by sorting it into columns and rows according to time information groups according to each characteristic information and division cycle. At this time, if there is N characteristic information included in the multivariate time series data, the quality can be verified by selecting data corresponding to 2 to N pieces of characteristic information, that is, a plurality of characteristic information.
  • the processor 150 may determine that a row is missing if there is at least one missing data based on the time information group (row). According to this, in the case of Figure 6a, 6 out of 7 rows are determined to be missing rows.
  • the processor 150 may determine that a row is missing when all of the data constituting a time information group (row) is missing. According to this, in the case of FIG. 6A, one row (P1) is determined to be a missing row, and in FIG. 6B, two rows (P2) are determined to be missing rows.
  • the processor 150 checks whether missing data exists for each characteristic information (column) for each time information group (row) of multivariate data. And, if missing data exists in each time information group, first counting is added, and if consecutive missing data exists in a plurality of time information groups adjacent to the time information group to which the first counting is added, the missing data is consecutive. Add a second counting based on the number of time information groups (rows). Thereafter, the processor 150 may calculate the degree of consecutive missing data for each time information group according to the division cycle by adding the first and second counting.
  • the processor 150 checks whether missing data exists for each characteristic information (column) for each time information group (row) of multivariate data. And, if missing data exists in each time information group, first counting is added, and if continuous missing data exists based on characteristic information in a plurality of time information groups adjacent to the time information group to which the first counting is added. , based on the characteristic information, a second counting is added based on the number of time information groups in which missing data is consecutive. Thereafter, the processor 150 may calculate the degree of consecutive missing data for each time information group according to the division cycle by adding the first and second counting.
  • the number of consecutive missing data is determined as (1, 0, 2, 2, 1, 1, 1), and in the case of Figure 6b, the number of consecutive missing data is (4, 4, 4, 4) , 1, 1, 1).
  • the first counting 1 and missing data consecutive to the first row exists in the adjacent second to fourth rows, respectively (F3 in the second row, F3 in the 3rd row, F2 in the 4th row)
  • And 4 which is the sum of the first and second counting, is calculated as the number of consecutive missing data.
  • the processor 150 checks whether missing data exists for each characteristic information (column) for each time information group (row) of multivariate data. And, if missing data exists in each time information group, first counting is added, and time information groups with all characteristic information missing are consecutively formed within the time information group to which the first counting is added and a plurality of adjacent time information groups. If present, a second counting is added based on the number of consecutive time information groups. Thereafter, the processor 150 may calculate the degree of consecutive missing data for each time information group according to the division cycle by adding the first and second counting.
  • the number of consecutive missing data is determined as (1, 2, 2, 1, 1, 1, 1).
  • And 2 which is the sum of the first and second counting, is calculated as the number of consecutive missing data.
  • an embodiment of the present invention can verify whether bad data is bad by calculating the degree of consecutive missing data according to the above-described method, or can verify whether bad data is bad based on the degree of total missing data.
  • Figure 7 is a diagram to explain the process of recursively verifying the quality of data.
  • the processor 150 may recursively and repeatedly perform quality verification of time series data (S235), and may verify the quality in the order of long-term to short-term cycles.
  • the average statistical quality of the overall missing data may be at a satisfactory level, but if the missing data is concentrated in a specific part or the nature of the distribution causes the problem situation to be concentrated. In some cases, recovery of missing data may be difficult.
  • this may be the case where the quality of the data is verified at one-week intervals and determined to be normal data, but most of the defective data exists only on Thursday.
  • re-verification can be performed by recursively re-dividing the data into sub-cycle data during quality verification.
  • the processor 150 may recursively verify the quality of verified time series data that is divided according to the first division cycle and then determined to be not defective data based on the second division cycle.
  • the processor 150 may adjust at least one of the degree of continuous missing data and the degree of total missing data set in the reference parameter by varying the number of time series data divided according to the second division cycle.
  • the processor 150 selects verified time series data (S240) and processes the data according to data supplementation conditions (S250).
  • the processor 150 selects data that has completed and passed quality verification and then performs supplementary processing on missing data.
  • missing data processing methods are, for example, “mean”, “median”, “frequent”, “ffill”, “bfill”, “linear_interpolation”, “spline_interpolation”, “stineman_interpolation”, “KNN”, “ARIMA”. , “Randomforest”, “NAOMI”, “BRITS”, etc., but is not limited thereto.
  • steps S210 to S250 may be further divided into additional steps or combined into fewer steps, depending on the implementation of the present invention. Additionally, some steps may be omitted or the order between steps may be changed as needed.
  • FIGS. 8 to 16 an electronic device and method for performing data selection based on data supplementation conditions according to a second embodiment of the present invention will be described. Meanwhile, it goes without saying that the content described in FIG. 8 and below can be mutually applied to the electronic device and method for performing quality verification of time series data according to the first embodiment described in FIG. 1 and below.
  • the amount of data deleted varies depending on the location of the missing data, and in some cases, a lot of data may be deleted.
  • a method for eliminating missing values is applied to time series data by interpolating missing data as much as possible.
  • this method may also produce low-quality data due to unreasonable interpolation work if the time series data includes an amount of missing data that exceeds a certain threshold, thereby reducing the meaning of recovery.
  • an electronic device and method for performing data selection based on data supplementation conditions can variably determine the extent to which missing data can be utilized, based on the quality desired by the user. Therefore, even if the time series data includes missing data, the data can be recovered and utilized more efficiently by selecting the selected data.
  • an embodiment of the present invention can handle missing data considering the purpose of utilizing the data or the quantity and quality of the data, and can be applied not only to single data but also to data that is a combination of multiple single data. .
  • FIG. 8 is a diagram illustrating data 800 including missing data.
  • Data 800 in FIG. 8 is a table of data collected according to time (Time, T) for each feature information (Feature, N), and consists of 10 different feature information and 10 times.
  • missing data is comprehensively defined as data that cannot be converted and expressed in any way, such as numbers or letters, and is data that cannot be defined or does not exist. This means that no data was collected at that time, or that data was collected but missing during the process of transmitting to a device such as a server. Missing data values can be expressed in various ways, such as extreme values such as “-999” or fixed characters such as “NaN” or “NA”. However, there are cases where non-standardized notation of missing data makes it difficult to clearly determine normal and abnormal data after the data is recorded. Therefore, representative libraries that process data mark missing data as “NaN” or “NA” for simplicity and functionality.
  • Abnormal data refers to data that has a negative impact on the results when analyzing collected data. For example, it refers to erroneous data such as the collected data has abnormal values or is outside the allowable measurement range of the sensor that collects the data. do.
  • abnormal data among the collected data can be processed by replacing it with missing data, or can be interpolated into appropriate data using data collected before and after the abnormal data.
  • abnormal data is expressed as “NaN” or “NA” and replaced with missing data.
  • the data can be preserved as much as possible by arbitrarily recovering the missing data based on adjacent data or past data.
  • the recovered data is not accurate data, excessive interpolation may result in poor data quality, contaminating the results of analysis and learning.
  • the data in column N3 is interpolated using only the data obtained in rows T1 and T10, so the data generated by interpolation Data quality may decrease.
  • the accuracy of interpolation cannot be guaranteed because missing data occurred irregularly in the data in columns N7, N8, and N10.
  • Figure 9 is a diagram illustrating an operation flowchart of an electronic device according to a second embodiment of the present invention.
  • the processor 150 sets a section of first data to be processed among data collected for at least one characteristic information (S910).
  • characteristic information refers to the content of collected data, and the collected data is collected in time series for at least one piece of characteristic information.
  • the processor 150 may receive data collected from an external device such as a server, but the data may be collected by the electronic device 100 and is not limited to any one.
  • the processor 150 may set the section of the first data based on the required time section. At this time, the first data becomes the object to be processed among the collected data.
  • performance can be improved by excluding data with a lot of missing data from the analysis.
  • performance can be improved by recovering the data using interpolation, etc. and then utilizing it as much as possible.
  • standards are needed for how much data containing missing data will be tolerated and selected. Therefore, appropriately setting the first data can contribute to improving the processing quality of the collected data and produce correct results.
  • the processor 150 may set the first section of the first data based on the degree of missing data included in each section among the plurality of sections of the first data. For example, when setting a time section using collected data, there may be a plurality of sections that can be set as first data. If the degree of missing data included in a specific section among a plurality of sections is small, the quality of the data can be evaluated to be better than that of other sections. Accordingly, the processor 150 may set the section containing the least amount of missing data among the plurality of sections of the first data as the first section of the first data.
  • the processor 150 may set the first section of the first data based on the degree of continuity of the missing data included in the first section or the degree of summation of the missing data included in the first section. For example, in the case of a section containing three consecutive pieces of missing data and a section containing three pieces of missing data but data that are scattered and can be supplemented by interpolation, the latter section is the more valid data and is the first section. It is highly likely that it will be set as a section.
  • the processor 150 identifies the overall degree of missing data in the collected data, and selects a section in which the degree of missing data included in the corresponding section is less compared to the overall degree of missing data as the first section of the first data. It can be set to .
  • the processor 150 generates second data by resetting the missing data included in the section of the first data (S920).
  • the section of the first data may include not only missing data but also uncollected data.
  • Uncollected data refers to cases where, excluding data missing during data collection, when different data are listed in time series, no data is collected because the data collection start time or end time is different.
  • resetting missing data means setting uncollected data included in the section of the first data as missing data. This is to unify the data so that it receives the same processing by changing the format of existing missing data and uncollected data to be the same.
  • the processor 150 processes the second data based on data supplementation conditions provided to select data that needs supplementation (S930).
  • the processor 150 may set data supplementation conditions based on at least one of the ratio, period, and degree of missing data included in the second data.
  • the data supplementation condition may be applied to one data set among the data collected according to at least one characteristic. For example, in the case of data collected for multiple characteristics, it can be applied to the data set collected corresponding to each characteristic. Alternatively, in the case of data collected under two or more different conditions for one characteristic, it can be applied to the data set collected corresponding to each condition.
  • the processor 150 may receive user input for data supplementation conditions through the input unit 110 and set them, or may receive data on data supplementation conditions from an external device through the communication unit 120.
  • the processor 150 performs at least part of the data analysis, processing, and generation of result information to set optimized data supplementation conditions for processing the collected data or secondary data using rule-based or artificial intelligence algorithms such as machine learning and neural networks. It can be performed using at least one of a network or deep learning algorithm.
  • processing the second data means performing various data processing such as selecting third data that satisfies data supplement conditions from the second data, deleting the second data or selected third data, or interpolating. Includes.
  • the processor 150 may process the second data when the ratio of missing data included in the second data is higher than a predefined value.
  • the processor 150 may process the second data when the period of missing data included in the second data is higher than a predefined value.
  • the period of missing data may refer to a period of consecutive missing data or a period of the sum of periods corresponding to missing data distributed in the second data.
  • the processor 150 may process the second data when the degree of missing data included in the second data is higher than a predefined value.
  • the work is performed by selecting data to be supplemented based on the situation of missing data included in the data rather than deleting or interpolating data in batches, thereby performing more rational and high-quality data processing. is possible.
  • only high-quality data can be used by efficiently selecting time series data even if it includes missing data based on the quality desired by the user.
  • Figures 10 to 13 sequentially show an embodiment of processing data collected according to the operation flow previously described in Figure 9.
  • data D1 to D7 collected for one characteristic are processed.
  • the present invention is not limited to this embodiment and can process data collected for a plurality of characteristics, in which case the data shown in FIGS. 10 to 13 exist for each characteristic, or D1 to D7 are each different from each other. It could be a different characteristic.
  • FIG. 10 is a diagram illustrating setting a section of first data according to a method according to an embodiment of the present invention.
  • FIG. 10 describes step S910 of FIG. 9.
  • the processor 150 may set a section 1030 of the first data to be processed in the collected data 1000. According to an embodiment of the present invention, the processor 150 sets the first section 1030 of the first data among the plurality of sections of the first data in consideration of the total missing data 1010 and the uncollected data 1020. You can.
  • the number of missing data and uncollected data is 7, whereas if the section is set one space ahead, the number of missing data and uncollected data is 9.
  • the number of consecutive missing data increases to three, as shown in row D3, and the quality of the data further deteriorates.
  • the section of the first data among the collected data it can contribute to further improving data quality as part of the preprocessing process of selecting data that satisfies data supplementation conditions.
  • FIG. 11 is a diagram illustrating generating second data according to a method according to an embodiment of the present invention.
  • FIG. 11 describes step S920 of FIG. 9.
  • FIG. 11 shows second data 1100 generated by processing the first data previously set in FIG. 10.
  • the processor 150 generates the second data 1100 by resetting the missing data 1010 included in the section 1030 of the first data.
  • resetting the missing data means setting the uncollected data 1020 included in the first data section 1030 as missing data 1010. This is to unify the format of existing missing data (1010) and uncollected data (1020) so that they receive the same processing when processing data.
  • Figure 12 is a diagram illustrating processing of second data based on data supplementation conditions according to a method according to an embodiment of the present invention.
  • Figure 13 is a diagram illustrating processing of second data according to a method according to an embodiment of the present invention. Figures 12 and 13 are described in relation to step S930 of Figure 9.
  • the processor 150 may set data supplementation conditions based on at least one of the ratio, period, and degree of missing data 1010 included in the second data 1100.
  • the processor 150 can process the second data 1100 when the ratio of missing data 1010 included in the second data 1100 is higher than a predefined value. there is.
  • the processor 150 may process the second data 1100 when the period of missing data 1010 included in the second data 1100 is higher than a predefined value.
  • the period of the missing data 1010 may refer to a period of consecutive missing data 1010 or a period of the sum of the periods corresponding to the missing data 1010 distributed in the second data 1100.
  • the processor 150 may process the second data 1100 when the degree of missing data 1010 included in the second data 1100 is higher than a predefined value.
  • the processor 150 processing the second data 1100 includes selecting third data 1110 that satisfies the data supplementation conditions from the second data 1100.
  • the data supplementation condition set for the second data 1100 shown in FIG. 12 is that the number of missing data 1010 is two or more, and the processor 150 supplements the data that satisfies the data supplementation condition. It can be selected as necessary third data (1110).
  • the data supplementation condition may be applied to one data set among the data collected according to at least one characteristic.
  • the second data 1100 is data measuring the amount of fine dust in each city
  • rows D1 to D7 are data on the amount of fine dust collected in different cities.
  • the data supplementation condition for identifying cities in which the number of missing data 1010 is two or more is applied to each of rows D1 to D7, so that the processor 150 determines that the data in rows D3 and D5 of the second data 1100 are data. It can be selected as third data 1110 that needs supplementation.
  • the processor 150 may delete or interpolate the selected third data 1110. In this embodiment, the selected third data 1110 was deleted.
  • the processor 150 identifies missing data among the data remaining after the third data selection and processing as data 1310 requiring interpolation.
  • the processor may perform interpolation on data 1310 that requires interpolation and perform analysis using the recovered data 1300.
  • data requiring supplementation is selected based on data supplementation conditions, so high-quality data can be provided.
  • the analysis is based on the processed data of the selected data, unreasonable deletion or interpolation work can be avoided, allowing higher quality data analysis to be performed.
  • Figure 14 is a diagram illustrating an operation flowchart of an electronic device according to another embodiment of the present invention.
  • the processor 150 processes abnormal data among the collected data (S1410).
  • the operation of the processor 150 in step S1410 may be an operation of processing abnormal data among the first data in relation to step S920 of FIG. 9.
  • the collected data is collected in time series for at least one characteristic information.
  • it may be temperature data collected from a temperature sensor.
  • the processor 150 may receive data collected from an external device such as a server, but the data may be collected by the electronic device 100 and is not limited to any one.
  • the processor 150 may process abnormal data among the collected data by replacing it with missing data, or may interpolate it into appropriate data using data collected before and after the abnormal data.
  • the processor 150 identifies information about missing data including processed abnormal data among the collected data (S1420).
  • the operation of the processor 150 is to identify information about missing data including processed abnormal data among the first data in relation to step S930 of FIG. 9, and at least This may be an operation of processing missing data included in the second data using one missing data processing method.
  • the collected data may include missing data as well as abnormal data.
  • the missing data includes missing data replaced from abnormal data in step S1410 and missing data already included in the collected data.
  • information about missing data includes at least one of information about the location of the missing data and information about the continuity of the missing data.
  • information about the location of missing data includes, for example, information about the row and column where the missing data is located in data in a table format.
  • information about the continuity of missing data includes information about the degree (time) of continuous missing data and information that can identify trends or patterns of missing data, such as the distribution pattern of missing data.
  • the processor 150 may identify information about the missing data that includes at least one of information about the location of the missing data and information about the continuity of the missing data.
  • the processor 150 processes missing data using at least one missing data processing method based on information about the missing data (S1430).
  • the processor 150 may supplement missing data based on information about the location of the missing data and/or information about the continuity of the missing data.
  • the processor 150 may identify the at least one missing data processing method to process the missing data corresponding to at least one section based on information about the missing data.
  • the processor 150 may supplement the missing data by considering parameter information that adjusts the degree of processing of the missing data according to the information about the missing data.
  • Parameter information may include information about a section containing missing data, information about a missing data processing method, missing data processing conditions, etc.
  • a section containing 10 consecutive pieces of missing data can be processed by applying one missing data processing method.
  • a section containing 10 consecutive pieces of missing data can be divided into three sections and processed by applying different missing data processing methods to each section.
  • the final supplemented data value can be derived by applying the average value or a certain ratio of the supplemented data values according to each processing method.
  • the processor 150 may process the missing data based on conditions that determine whether to process the missing data, that is, conditions that determine whether to supplement the data. For example, under conditions such as performing supplementation only when missing data is less than 20% of the total data, missing data does not exceed 30% of the total data, and supplementation is performed only for 10 or less consecutive pieces of missing data. Missing data can be handled accordingly.
  • the processor 150 performs at least part of data analysis, processing, and generation of result information to adjust the degree of processing of missing data according to information about missing data using a rule-based or artificial intelligence algorithm. It can be performed using at least one of machine learning, neural network, or deep learning algorithms.
  • the processor 150 inputs a user input regarding at least one missing data processing method to process missing data corresponding to at least one section through the input unit 110. It can be received through . Accordingly, the processor 150 may supplement the missing data by applying at least one missing data processing method according to parameter information defined by the user.
  • Figure 15 is a diagram showing the operation of an electronic device according to an embodiment of the present invention.
  • the process 1500 of processing missing data is described, and since content overlapping with that described in FIG. 14 is applied in the same manner as in FIG. 14, detailed description thereof will be omitted.
  • the processor 150 processes abnormal data (b) among the collected data (hereinafter referred to as collected data (a)) (1510).
  • abnormal data (b) includes certain abnormal data (b1) and uncertain abnormal data (b2).
  • abnormal data (b1) refers to error data that is clearly determined, such as having a value that exceeds the minimum-maximum range that the value of the collected data (a) can have.
  • Uncertain abnormal data (b2) refers to abnormal data that is not a clear error, but appears uncertain as to whether it is abnormal data, such as a clear difference when compared with data obtained before and after the relevant data.
  • the processor 150 identifies abnormal data (b) including certain abnormal data (b1) and uncertain abnormal data (b2) among the collected data (a), and determines the certain abnormal data (b1) and uncertain abnormal data (b2). Process each. As an example, the processor 150 replaces certain abnormal data (b1) with missing data among the collected data (a) and processes it, replaces uncertain abnormal data (b2) with missing data and processes it, or processes uncertain abnormal data (b2) by replacing it with missing data. Data collected before and after can be used to interpolate to appropriate data. At this time, the processor 150 may receive a user input for determining the value of the uncertain abnormal data b2 through the input unit 110.
  • the processor 150 identifies information about missing data (c) including processed abnormal data among the collected data (a) (1520).
  • the processor 150 processes the missing data c using at least one missing data processing method based on information about the missing data c (1530). As a result, processed data (d) obtained by processing the collected data (a) is obtained.
  • abnormal data can be processed more precisely by distinguishing and processing abnormal data into certain abnormal data and uncertain abnormal data.
  • Figure 16 is a diagram showing the operation of an electronic device according to another embodiment of the present invention.
  • the operation of FIG. 16 explains a method 1600 of integrating a plurality of processed data (d) obtained by separately processing a plurality of collected data (a).
  • Data1, Data2,... In order to integrate a plurality of collected data (a) including DataN, the data processing 1500 described in FIGS. 14 and 15 must be performed first for each collected data. For each collected data (a), the processed data (d) obtained through the data processing (1500) process are Data1', Data2',... , DataN’.
  • the processor 150 according to an embodiment of the present invention combines the obtained processing data (d) (1610).
  • the processor 150 may set the combining section of the plurality of processed data d as shown in Table 3.
  • the processor 150 may reset missing data according to the combining section.
  • resetting missing data means setting the uncollected data as missing data when uncollected data occurs beyond the time period in which the collected data was collected.
  • the purpose is to unify them so that they receive the same processing when processing data. For example, when setting the combining section to combining section 1, some data from data 1 and some data from data 2 Because the entire data and some data from Data 3 are used, there is no need to reset additional missing data.
  • the processor 150 may combine data based on the data collection cycle of the plurality of processed data d.
  • the processor 150 may reindex the data based on the data collection cycle of the plurality of processed data d. More specifically, the processor 150 may upsample or downsample each of the plurality of processed data d based on the data collection cycle of the plurality of processed data d and combine them.
  • downsampling can utilize well-known statistical calculation methods such as average, but upsampling has very diverse processing methods, and the resulting data restoration effects are also very different, so at least one of the missing data processing methods described in FIG. 16 above is used. This can be done by applying one. However, this is only an example, and methods of performing upsampling and downsampling can be applied without limitation.
  • the processor 150 may perform data processing 1620 again on the combined data.
  • data processing 1620 may be the same as data processing 1500, and data processing 1620 and data processing 1500 may be performed on the same processor or different processors.
  • the processor 150 processes each of the plurality of collected data to obtain a plurality of processed data, combines the plurality of processed data, processes abnormal data among the combined data, and processes abnormal data among the combined data.
  • Information on missing data including abnormal data may be identified, and the missing data may be processed using at least one missing data processing method based on the information on the missing data.
  • the processor 150 may process missing data and integrate data (1630).
  • the present invention can be applied to data in which a plurality of single data are combined, so that high-quality data supplementation can be performed even when data are combined.
  • quality verification is performed based on time series data with periodic characteristics and defective data is processed, so that data with high data quality can be used for learning and analysis, resulting in overall performance results. can be improved.
  • data to be supplemented is selected based on the status of missing data included in the data, more rational and high-quality data processing is possible.
  • high-quality data is provided based on data supplementation conditions, unreasonable deletion or interpolation work can be avoided, allowing higher quality data analysis to be performed.
  • the embodiments of the present invention described above may be implemented as a program (or application) and stored in a medium in order to be executed in conjunction with a server, which is hardware.
  • the above-mentioned program is C, C++, JAVA, machine language, etc. that can be read by the processor (CPU) of the computer through the device interface of the computer in order for the computer to read the program and execute the methods implemented in the program.
  • It may include code coded in a computer language. These codes may include functional codes related to functions that define the necessary functions for executing the methods, and include control codes related to execution procedures necessary for the computer's processor to execute the functions according to predetermined procedures. can do.
  • these codes may further include memory reference-related codes that indicate at which location (address address) in the computer's internal or external memory additional information or media required for the computer's processor to execute the above functions should be referenced. there is.
  • the code uses the computer's communication module to determine how to communicate with any other remote computer or server. It may further include communication-related codes regarding whether communication should be performed and what information or media should be transmitted and received during communication.
  • the storage medium refers to a medium that stores data semi-permanently and can be read by a device, rather than a medium that stores data for a short period of time, such as a register, cache, or memory.
  • examples of the storage medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc., but are not limited thereto. That is, the program may be stored in various recording media on various servers that the computer can access or on various recording media on the user's computer. Additionally, the medium may be distributed to computer systems connected to a network, and computer-readable code may be stored in a distributed manner.
  • the steps of the method or algorithm described in connection with embodiments of the present invention may be implemented directly in hardware, implemented as a software module executed by hardware, or a combination thereof.
  • the software module may be RAM (Random Access Memory), ROM (Read Only Memory), EPROM (Erasable Programmable ROM), EEPROM (Electrically Erasable Programmable ROM), Flash Memory, hard disk, removable disk, CD-ROM, or It may reside on any type of computer-readable recording medium well known in the art to which the present invention pertains.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Testing Electric Properties And Detecting Electric Faults (AREA)

Abstract

A method for quality verification of time series data is provided. The method comprises the steps of: refining time series data collected for certain characteristic information, on the basis of a predetermined reference period; partitioning the refined time series data according to a certain partition period; verifying the quality of data for the time series data partitioned according to the partition period; and selecting the time series data that has been completely verified and processing the data according to a data complementary condition.

Description

시계열 데이터의 품질 검증을 수행하는 전자장치 및 그 수행 방법Electronic device and method for performing quality verification of time series data
본 발명은 시계열 데이터의 품질 검증을 수행하는 전자장치 및 그 수행 방법에 관한 것이다.The present invention relates to an electronic device and method for performing quality verification of time series data.
최근 기계학습 기술 및 IoT 디바이스의 보급화로 스마트팜, 스마트 팩토리 등 다양한 분야에서 센서를 이용하여 데이터를 수집하고 의미있는 정보를 추출하기 위한 시도가 계속되고 있다. 이렇게 실시간으로 쌓인 센서 데이터들은 그 규모가 상당하기 때문에 빅데이터 처리 방법을 통해 처리되고 활용되어야 한다.Recently, with the popularization of machine learning technology and IoT devices, attempts to collect data and extract meaningful information using sensors are continuing in various fields such as smart farms and smart factories. Since the sensor data accumulated in this way is so large, it must be processed and utilized through big data processing methods.
하지만, 대부분의 센서 데이터들은 크고 작은 오류 데이터를 포함하고 있다. 그리고 센서 데이터들은 네트워크 상태에 의존적이며, 센서 자체에서 오류값을 기록하기도 한다. However, most sensor data contains large and small error data. And sensor data is dependent on network status, and the sensor itself may record error values.
이러한 오류에 대한 대책이 없다면, 이후의 분석과 학습 등의 전체 성능에 악영향을 미치게 된다.If there is no countermeasure for these errors, the overall performance of subsequent analysis and learning will be adversely affected.
본 발명의 실시예는 시계열 데이터의 주기를 기반으로 데이터의 품질을 판단하고 기준에 적합한 데이터를 선별하여 활용하는, 시계열 데이터의 품질 검증을 수행하는 전자장치 및 그 수행 방법을 제공한다.An embodiment of the present invention provides an electronic device and method for performing quality verification of time series data, which determines the quality of data based on the cycle of time series data and selects and utilizes data that meets the criteria.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical challenge that this embodiment aims to achieve is not limited to the technical challenges described above, and other technical challenges may exist.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제1 측면에 따른 시계열 데이터의 품질 검증 방법은 소정의 특성 정보에 대하여 수집된 시계열 데이터를 사전 결정된 기준 주기에 기초하여 정제하는 단계; 상기 정제된 시계열 데이터를 소정의 분할 주기에 따라 분할하는 단계; 상기 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증하는 단계; 상기 검증 완료된 시계열 데이터를 선택하여 데이터 보완 조건에 따라 데이터를 처리하는 단계를 포함하되, 상기 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증하는 단계는, 상기 분할된 시계열 데이터를 대상으로 해당 분할 주기에서의 연속 누락 데이터의 정도 및 전체 누락 데이터의 정도 중 적어도 하나를 산출하는 단계; 및 상기 산출된 각 정도가 기준 파라미터에 따라 설정된 정도를 초과할 경우 해당 분할 주기의 분할된 시계열 데이터를 불량 데이터로 판단하는 단계를 포함한다.As a technical means for achieving the above-described technical problem, the quality verification method of time series data according to the first aspect of the present invention includes the steps of refining time series data collected for predetermined characteristic information based on a predetermined reference period; Splitting the refined time series data according to a predetermined division cycle; Verifying the quality of data for time series data divided according to the division cycle; A step of selecting the verified time series data and processing the data according to data supplementation conditions, wherein the step of verifying the quality of the data for the time series data divided according to the division cycle includes the step of verifying the quality of the data for the divided time series data calculating at least one of the degree of continuous missing data and the degree of total missing data in the corresponding division cycle; and determining the divided time series data of the corresponding division period as defective data when each calculated degree exceeds a degree set according to a standard parameter.
본 발명의 일부 실시예에 있어서, 상기 소정의 특성 정보에 대하여 수집된 시계열 데이터를 사전 결정된 기준 주기에 기초하여 정제하는 단계는, 상기 수집된 시계열 데이터의 특성 정보를 통해 유추 또는 외부 파라미터에 기반하여 상기 기준 주기를 설정하는 단계를 포함할 수 있다.In some embodiments of the present invention, the step of refining the time series data collected for the predetermined characteristic information based on a predetermined reference period is inferred through the characteristic information of the collected time series data or based on external parameters. It may include setting the reference period.
본 발명의 일부 실시예에 있어서, 상기 정제된 시계열 데이터를 소정의 분할 주기에 따라 분할하는 단계는, 상기 기준 주기에, 상기 특성 정보를 반영하여 결정된 소정의 가중치를 적용하여 산출된 분할 주기에 따라 상기 시계열 데이터를 분할할 수 있다.In some embodiments of the present invention, the step of dividing the purified time series data according to a predetermined division cycle is performed according to the division period calculated by applying a predetermined weight determined by reflecting the characteristic information to the reference period. The time series data can be divided.
본 발명의 일부 실시예에 있어서, 상기 정제된 시계열 데이터를 소정의 분할 주기에 따라 분할하는 단계는, 상기 시계열 데이터 중 상기 분할 주기를 만족하지 않는 시계열 데이터를 삭제하는 단계를 포함할 수 있다.In some embodiments of the present invention, the step of dividing the refined time series data according to a predetermined division period may include deleting time series data that does not satisfy the division period from among the time series data.
본 발명의 일부 실시예에 있어서, 상기 정제된 시계열 데이터를 소정의 분할 주기에 따라 분할하는 단계는, 상기 정제된 시계열 데이터를 제1 분할 주기에 기초하여 분할하는 단계; 및 상기 분할된 시계열 데이터를 제2 분할 주기에 기초하여 재분할하는 단계를 포함할 수 있다.In some embodiments of the present invention, dividing the refined time series data according to a predetermined division cycle includes dividing the refined time series data based on a first division cycle; and re-dividing the divided time series data based on a second division cycle.
본 발명의 일부 실시예에 있어서, 상기 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증하는 단계는, 상기 불량 데이터가 아닌 것으로 판단된 검증 완료된 시계열 데이터를 대상으로 상기 제2 분할 주기에 기초하여 품질을 재귀적으로 검증하는 단계를 더 포함할 수 있다.In some embodiments of the present invention, the step of verifying the quality of the data for the time series data divided according to the division cycle includes performing the second division cycle on the verified time series data that is determined not to be defective data. A step of recursively verifying quality based on may be further included.
본 발명의 일부 실시예에 있어서, 상기 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증하는 단계는, 상기 제2 분할 주기에 따라 분할된 시계열 데이터의 수에 가변하여 상기 기준 파라미터에 설정된 연속 누락 데이터의 정도 및 전체 누락 데이터의 정도를 조정하는 단계를 더 포함할 수 있다.In some embodiments of the present invention, the step of verifying the quality of data for time series data divided according to the division cycle includes varying the number of time series data divided according to the second division cycle to the reference parameter. A step of adjusting the set degree of consecutive missing data and the degree of overall missing data may be further included.
본 발명의 일부 실시예에 있어서, 상기 시계열 데이터가 복수 특성 정보를 포함하는 다변량 데이터인 경우, 상기 다변량 데이터는 상기 각 특성 정보 및 분할 주기에 따른 시간 정보 그룹에 따라 열과 행으로 정렬되어 구성되고, 상기 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증하는 단계는, 상기 다변량 데이터의 상기 각 시간 정보 그룹마다 각 특성 정보에 대한 누락 데이터가 존재하는지 여부를 확인하는 단계; 상기 각 시간 정보 그룹에 누락 데이터가 존재하는 경우 제1 카운팅을 추가하고, 상기 제1 카운팅이 추가된 시간 정보 그룹과 인접하는 복수의 시간 정보 그룹에서 연속되는 누락 데이터가 존재하는 경우 상기 누락 데이터가 연속되는 시간 정보 그룹의 수에 기초하여 제2 카운팅을 추가하는 단계; 및 상기 제1 및 제2 카운팅을 합산하여 분할 주기에 따른 각 시간 정보 그룹에 대한 상기 연속 누락 데이터의 정도를 산출하는 단계를 포함할 수 있다.In some embodiments of the present invention, when the time series data is multivariate data including a plurality of characteristic information, the multivariate data is arranged into columns and rows according to time information groups according to each characteristic information and division period, The step of verifying the quality of data for time series data divided according to the division cycle includes checking whether missing data for each characteristic information exists for each time information group of the multivariate data; If missing data exists in each time information group, first counting is added, and if consecutive missing data exists in a plurality of time information groups adjacent to the time information group to which the first counting is added, the missing data is added. adding a second counting based on the number of consecutive time information groups; And it may include calculating the degree of the continuous missing data for each time information group according to the division period by adding up the first and second counting.
본 발명의 일부 실시예에 있어서, 상기 제2 카운팅을 추가하는 단계는, 상기 제1 카운팅이 추가된 시간 정보 그룹에 인접하는 복수의 시간 정보 그룹에서 특성 정보를 기준으로 연속되는 누락 데이터가 존재하는 경우, 상기 특성 정보를 기준으로 누락 데이터가 연속되는 시간 정보 그룹의 수에 기초하여 제2 카운팅을 추가할 수 있다.In some embodiments of the present invention, the step of adding the second counting may be performed when consecutive missing data exists based on characteristic information in a plurality of time information groups adjacent to the time information group to which the first counting has been added. In this case, second counting may be added based on the number of time information groups in which missing data is consecutive based on the characteristic information.
본 발명의 일부 실시예에 있어서, 상기 제2 카운팅을 추가하는 단계는, 상기 제1 카운팅이 추가된 시간 정보 그룹 및 인접하는 복수의 시간 정보 그룹 내에서 전체 특성 정보가 누락된 시간 정보 그룹이 연속하여 존재하는 경우, 상기 연속되는 시간 정보 그룹의 수에 기초하여 제2 카운팅을 추가할 수 있다.In some embodiments of the present invention, the step of adding the second counting includes consecutive time information groups with missing entire characteristic information within the time information group to which the first counting is added and a plurality of adjacent time information groups. If it exists, second counting can be added based on the number of consecutive time information groups.
또한, 본 발명의 제2 측면에 따른 전자장치는 소정의 특성 정보에 대하여 수집된 시계열 데이터를 소정의 분할 주기에 따라 분할하고, 상기 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증한 후, 상기 검증 완료된 시계열 데이터를 선택하여 데이터 보완 조건에 따라 데이터를 처리하는 프로세서를 포함한다.In addition, the electronic device according to the second aspect of the present invention divides time series data collected for predetermined characteristic information according to a predetermined division period, and verifies the quality of the data for the time series data divided according to the division period. Afterwards, it includes a processor that selects the verified time series data and processes the data according to data supplementation conditions.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.In addition to this, another method for implementing the present invention, another system, and a computer-readable recording medium recording a computer program for executing the method may be further provided.
전술한 본 발명의 일 실시예에 의하면, 주기적 특성을 지닌 시계열 데이터를 기반으로 품질 검증을 수행하여 불량 데이터를 처리함으로써, 높은 데이터 품질을 가진 데이터를 기반으로 학습 및 분석에 활용 가능하여 전체적인 성능 결과를 향상시킬 수 있다.According to an embodiment of the present invention described above, quality verification is performed based on time series data with periodic characteristics and defective data is processed, so that data with high data quality can be used for learning and analysis, resulting in overall performance results. can be improved.
또한, 데이터에 포함된 누락 데이터의 상황에 기초하여 보완할 데이터를 선별하여 작업을 수행하므로, 보다 합리적이고 품질 높은 데이터 처리가 가능하다. 또한, 데이터 보완 조건에 기초하여 양질의 데이터를 제공하므로 무리한 삭제 작업이나, 보간 작업을 피할 수 있어 보다 높은 품질의 데이터 분석을 수행할 수 있다. In addition, since data to be supplemented is selected based on the status of missing data included in the data, more rational and high-quality data processing is possible. In addition, since high-quality data is provided based on data supplementation conditions, unreasonable deletion or interpolation work can be avoided, allowing higher quality data analysis to be performed.
이와 더불어, 누락 데이터를 포함하는 구간의 상태에 따라 최적화된 방법을 적용하여 보완하여 보다 합리적이고 품질 높은 데이터 처리가 가능하며, 데이터 활용 용도에 따라 보간 및 치환 방법을 달리 적용할 수 있으므로, 보다 품질 높은 데이터 보완을 수행할 수 있다. 또한, 복수의 단일 데이터가 결합된 데이터에 대해 적용할 수 있어, 데이터를 결합하는 경우에도 품질 높은 데이터 보완을 수행할 수 있다.In addition, more reasonable and high-quality data processing is possible by applying and supplementing optimized methods according to the status of the section containing missing data. Interpolation and replacement methods can be applied differently depending on the purpose of data use, resulting in higher quality. High data complementation can be performed. In addition, it can be applied to data that is a combination of multiple single data, so high-quality data supplementation can be performed even when combining data.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description below.
도 1은 본 발명의 일 실시예에 따른 전자장치의 구성을 도시한 블록도이다. 1 is a block diagram showing the configuration of an electronic device according to an embodiment of the present invention.
도 2는 본 발명의 제1 실시예에 따른 전자장치에 의해 수행되는 동작 흐름도를 도시한 도면이다. Figure 2 is a diagram showing a flowchart of operations performed by an electronic device according to the first embodiment of the present invention.
도 3a 및 도 3b는 기준 기술 주기에 기반하여 시계열 데이터를 정제한 일 예시를 도시한 도면이다. Figures 3a and 3b are diagrams illustrating an example of refining time series data based on a standard technology cycle.
도 4는 시계열 데이터를 분할 주기에 따라 분할한 일 예시를 도시한 도면이다.Figure 4 is a diagram showing an example of dividing time series data according to a division cycle.
도 5는 단변량 시계열 데이터의 품질 검증 과정을 설명하기 위한 도면이다.Figure 5 is a diagram to explain the quality verification process of univariate time series data.
도 6a 및 도 6b는 다변량 시계열 데이터의 품질 검증 과정을 설명하기 위한 도면이다. Figures 6a and 6b are diagrams for explaining the quality verification process of multivariate time series data.
도 7은 데이터의 품질을 재귀적으로 검증하는 과정을 설명하기 위한 도면이다.Figure 7 is a diagram to explain the process of recursively verifying the quality of data.
도 8은 누락 데이터를 포함하는 데이터를 도시한 도면이다.Figure 8 is a diagram showing data including missing data.
도 9는 본 발명의 제2 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.Figure 9 is a diagram illustrating an operation flowchart of an electronic device according to a second embodiment of the present invention.
도 10은 본 발명의 일 실시예에 따른 수행 방법에 따라 제1 데이터의 구간을 설정하는 모습을 도시한 도면이다.Figure 10 is a diagram illustrating setting a section of first data according to a method according to an embodiment of the present invention.
도 11은 본 발명의 일 실시예에 따른 수행 방법에 따라 제2 데이터를 생성하는 모습을 도시한 도면이다.FIG. 11 is a diagram illustrating generating second data according to a method according to an embodiment of the present invention.
도 12는 본 발명의 일 실시예에 따른 수행 방법에 따라 데이터 보완 조건에 기초하여 제2 데이터를 처리하는 모습을 도시한 도면이다. Figure 12 is a diagram illustrating processing of second data based on data supplementation conditions according to a method according to an embodiment of the present invention.
도 13은 본 발명의 일 실시예에 따른 수행 방법에 따라 제2 데이터를 처리하는 모습을 도시한 도면이다. Figure 13 is a diagram illustrating processing of second data according to a method according to an embodiment of the present invention.
도 14는 본 발명의 다른 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다. Figure 14 is a diagram illustrating an operation flowchart of an electronic device according to another embodiment of the present invention.
도 15는 본 발명의 일 실시예에 따른 전자장치의 동작 모습을 도시한 도면이다. Figure 15 is a diagram showing the operation of an electronic device according to an embodiment of the present invention.
도 16은 본 발명의 다른 실시예에 따른 전자장치의 동작 모습을 도시한 도면이다.Figure 16 is a diagram showing the operation of an electronic device according to another embodiment of the present invention.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.The advantages and features of the present invention and methods for achieving them will become clear by referring to the embodiments described in detail below along with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below and may be implemented in various different forms. The present embodiments are merely provided to ensure that the disclosure of the present invention is complete and to provide a general understanding of the technical field to which the present invention pertains. It is provided to fully inform the skilled person of the scope of the present invention, and the present invention is only defined by the scope of the claims.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.The terminology used herein is for describing embodiments and is not intended to limit the invention. As used herein, singular forms also include plural forms, unless specifically stated otherwise in the context. As used in the specification, “comprises” and/or “comprising” does not exclude the presence or addition of one or more other elements in addition to the mentioned elements. Like reference numerals refer to like elements throughout the specification, and “and/or” includes each and every combination of one or more of the referenced elements. Although “first”, “second”, etc. are used to describe various components, these components are of course not limited by these terms. These terms are merely used to distinguish one component from another. Therefore, it goes without saying that the first component mentioned below may also be a second component within the technical spirit of the present invention.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used in this specification may be used with meanings commonly understood by those skilled in the art to which the present invention pertains. Additionally, terms defined in commonly used dictionaries are not interpreted ideally or excessively unless clearly specifically defined.
이하에서는, 당업자의 이해를 돕기 위하여 본 발명이 제안된 배경에 대하여 먼저 서술하고, 본 발명의 실시예에 대하여 서술하기로 한다.Below, to aid the understanding of those skilled in the art, the background on which the present invention was proposed will first be described, and then the embodiments of the present invention will be described.
IoT 디바이스의 확산 보급으로 대용량의 시계열 데이터가 생산되어 확산 보급됨에 따라, 다양한 산업군에서 시계열 데이터에 대한 분석, 예측, 분류 기법을 적용하여 인사이트를 얻으려는 시도가 계속되고 있다.As large amounts of time series data are produced and distributed due to the widespread use of IoT devices, attempts to gain insight by applying analysis, prediction, and classification techniques to time series data are continuing in various industries.
그리고 국내 정부 및 공공기관을 중심으로 공공데이터 포털, 서울 열린 데이터 광장, 카드 빅데이터 플랫폼 등 중요 데이터를 개방하고 다수의 사용자가 여러 목적으로 활용할 수 있도록 하는 시도 또한 계속되고 있다.In addition, efforts are continuing to open important data and allow many users to utilize it for various purposes, such as the public data portal, Seoul Open Data Plaza, and card big data platform, centered on the domestic government and public institutions.
또한, 스마트팜, 스마트 팩토리, 스마트 시티 등 여러 도메인에서 다양한 센서들을 활용하여 시계열 데이터를 수집하고 기계학습을 적용하여 생산력을 높이려 하고 있다.In addition, we are trying to increase productivity by collecting time series data and applying machine learning using various sensors in various domains such as smart farms, smart factories, and smart cities.
이처럼 시계열 데이터는 여러 분야에서 활발히 연구되고 있으며, 시계열 데이터를 이용하는 이상치 탐지 기술은 시계열 데이터의 센서 및 네트워크 이상으로 생성되는 에러 데이터나 이상 상황으로 발생하는 비정상 데이터 구간을 탐지한다.As such, time series data is being actively researched in various fields, and outlier detection technology using time series data detects error data generated by sensor and network abnormalities in time series data or abnormal data sections that occur due to abnormal situations.
또한, 시계열 데이터를 이용하는 기술의 일 예로, 시계열 데이터 간 유사성 및 패턴을 찾기 위한 데이터 분류 및 클러스터링 기법도 있다. 이는 고차원에서 저차원으로 차원을 축소하여 처리 비용을 감소시키고 효과적으로 유사한 특징들을 추출하며, 이를 시각적으로 보여줌으로써 데이터에 대한 인지와 통찰력을 확보하고, 유사 패턴을 쉽게 파악하는데 사용된다.Additionally, as an example of a technology that uses time series data, there is also a data classification and clustering technique to find similarities and patterns between time series data. This reduces the processing cost by reducing the dimension from high dimension to low dimension, effectively extracts similar features, and visually displays them to secure recognition and insight into the data and is used to easily identify similar patterns.
하지만, 현존하는 시계열 데이터들은 대부분 그대로 사용하기에는 문제가 있다. 즉, 시계열 데이터를 이용하는 기술들은 시계열 데이터가 무결하다는 가정하에 진행되는데, 대부분 실제 상황에서 수집되는 데이터는 시계열이 종종 비동기적이거나 불규칙하게 샘플링이 되며, 중간에 시점이 누락되거나 센서 수집 범위를 벗어난 불완전한 데이터 형태를 지닌 경우가 흔하게 발생한다.However, there are problems with using most of the existing time series data as is. In other words, technologies that use time series data proceed under the assumption that the time series data is flawless. However, in most real-world data collected, the time series is often asynchronous or irregularly sampled, and time points are missing or incomplete beyond the sensor collection range. Cases in the form of data frequently occur.
이러한 데이터들은 대략적인 형태를 파악하여 모니터링하는 정도의 활용은 가능하지만, 그 내용이 불완전하기 때문에 정밀한 분석 및 학습 데이터로 활용하기에는 적절하지 않다.These data can be utilized to the extent of monitoring by identifying their approximate form, but because their contents are incomplete, they are not appropriate for use as detailed analysis and learning data.
이러한 문제를 해결하기 위한 방법으로는 부분적인 유실 데이터를 문제없는 데이터인 것처럼 복원하여 활용하는 방법이 있다. 하지만, 유실 데이터의 양이 많을 경우 무리하게 데이터를 복원하여 사용한다면 오히려 잘못된 결과를 초래할 수 있다.A way to solve this problem is to restore and utilize partially lost data as if it were normal data. However, if the amount of lost data is large, restoring and using the data forcibly may lead to incorrect results.
이를 해결하기 위한 근본적인 해결 방법은 오류 데이터를 포함하는 데이터를 완전히 삭제하고 적합한 데이터 구간만을 활용하는 것이다. 그러나, 삭제시 많은 데이터가 사용되지 못하고 버려지게 되며, 원본 데이터가 부족할 경우 분석 및 활용이 불가할 수 있어 삭제에 대한 기준 제시가 필요하다.The fundamental solution to this problem is to completely delete data including error data and use only appropriate data sections. However, when deleted, a lot of data becomes unusable and is discarded, and if the original data is insufficient, analysis and utilization may not be possible, so it is necessary to provide standards for deletion.
따라서, 해당 데이터들에 대한 적절한 전처리를 통해 사용 가능한 데이터셋을 구성하는 작업이 필요하다.Therefore, it is necessary to construct a usable dataset through appropriate preprocessing of the data.
이러한 문제를 해소하기 위하여, 본 발명의 일 실시예에 따른 시계열 데이터의 품질 검증을 수행하는 전자장치 및 그 수행 방법은 시계열 데이터의 주기적 특성에 기반하여 활용 가능한 품질을 지닌 시계열 데이터를 선별 가능하도록 하는 것을 목적으로 한다. In order to solve this problem, an electronic device and method for performing quality verification of time series data according to an embodiment of the present invention enable selection of time series data with usable quality based on the periodic characteristics of the time series data. The purpose is to
이를 통해, 본 발명의 일 실시예는 품질 검증이 완료된 시계열 데이터를 기반으로 학습 분석 활용시, 높은 품질로 인해 높은 분석 및 학습 성능을 기대할 수 있다.Through this, an embodiment of the present invention can expect high analysis and learning performance due to high quality when using learning analysis based on time series data for which quality verification has been completed.
이하에서는 도 1 내지 도 7을 참조하여 본 발명의 일 실시예에 따른 시계열 데이터의 품질 검증을 수행하는 전자장치 및 그 수행 방법(이하, 제1 실시예)에 대해 설명하도록 한다. 또한, 도 8 내지 도 16에서는 데이터 보완 조건에 기반한 데이터 선별을 수행하는 전자장치 및 그 수행 방법(이하, 제2 실시예)에 대해 설명하도록 한다. 한편, 본 발명에서의 제1 및 제2 실시예는 각 단계에서 실시 형태에 따라 그 기술적 특징을 상호 공유하거나 일부 적용할 수 있음은 물론이다.Hereinafter, an electronic device and method for performing quality verification of time series data according to an embodiment of the present invention (hereinafter referred to as the first embodiment) will be described with reference to FIGS. 1 to 7. In addition, in FIGS. 8 to 16, an electronic device that performs data selection based on data supplementation conditions and a method for performing the same (hereinafter referred to as the second embodiment) will be described. Meanwhile, it goes without saying that the first and second embodiments of the present invention may mutually share or partially apply technical features depending on the embodiment at each stage.
도 1은 본 발명의 일 실시예에 따른 전자장치의 구성을 도시한 블록도이다.1 is a block diagram showing the configuration of an electronic device according to an embodiment of the present invention.
본 발명의 일 실시예에 따른 전자장치(100)는 입력부(110), 통신부(120), 표시부(130), 메모리(140) 및 프로세서(150)를 포함한다.The electronic device 100 according to an embodiment of the present invention includes an input unit 110, a communication unit 120, a display unit 130, a memory 140, and a processor 150.
입력부(110)는 전자장치(100)의 사용자 입력에 대응하여 입력데이터를 발생시킨다. 사용자 입력은 전자장치(100)가 처리하고자 하는 데이터에 관한 사용자 입력이나, 분할 주기에 대한 사용자 입력, 품질 검증 조건에 대한 사용자의 입력, 데이터 보완 조건에 관한 사용자 입력, 누락 데이터를 처리할 적어도 하나의 누락 데이터 처리 방법에 관한 사용자 입력을 포함할 수 있다. The input unit 110 generates input data in response to user input of the electronic device 100. The user input is a user input regarding data that the electronic device 100 wants to process, a user input regarding a division cycle, a user input regarding quality verification conditions, a user input regarding data supplementation conditions, and at least one to process missing data. May include user input regarding how to handle missing data.
입력부(110)는 적어도 하나의 입력수단을 포함한다. 입력부(110)는 키보드(key board), 키패드(key pad), 돔 스위치(dome switch), 터치패널(touch panel), 터치 키(touch key), 마우스(mouse), 메뉴 버튼(menu button) 등을 포함할 수 있다.The input unit 110 includes at least one input means. The input unit 110 includes a keyboard, key pad, dome switch, touch panel, touch key, mouse, menu button, etc. may include.
통신부(120)는 데이터를 수신하기 위해 서버나 데이터 수집 장치 등 외부장치와의 통신을 수행한다. 이와 같은 통신부(120)는 유선 통신 모듈 및 무선 통신 모듈을 모두 포함할 수 있다. 유선 통신 모듈은 전력선 통신 장치, 전화선 통신 장치, 케이블 홈(MoCA), 이더넷(Ethernet), IEEE1294, 통합 유선 홈 네트워크 및 RS-485 제어 장치로 구현될 수 있다. 또한, 무선 통신 모듈은 WLAN(wireless LAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, 무선 USB 기술 및 무선 HDMI 기술, 그밖에 5G(5th generation communication), LTE-A(long term evolution-advanced), LTE(long term evolution), Wi-Fi(wireless fidelity) 등의 기능을 구현하기 위한 모듈로 구성될 수 있다.The communication unit 120 performs communication with an external device such as a server or a data collection device to receive data. This communication unit 120 may include both a wired communication module and a wireless communication module. The wired communication module can be implemented as a power line communication device, telephone line communication device, home cable (MoCA), Ethernet, IEEE1294, integrated wired home network, and RS-485 control device. In addition, wireless communication modules include WLAN (wireless LAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, wireless USB technology and wireless HDMI technology, as well as 5G (5th generation communication) and LTE-A. It may be composed of modules to implement functions such as (long term evolution-advanced), LTE (long term evolution), and Wi-Fi (wireless fidelity).
표시부(130)는 전자장치(100)의 동작에 따른 표시 데이터를 표시한다. 표시부(130)는 데이터 품질 검증 조건에 기초하여 데이터를 검증하기 위해 필요한 표시 데이터(예를 들어, 품질 검증 조건을 설정하는 화면), 데이터 보완 조건에 기초하여 데이터를 선별하기 위해 필요한 표시 데이터(예를 들어, 데이터 보완 조건을 설정하는 화면) 그밖에 데이터의 처리 결과를 표시하는 화면 등을 표시할 수 있다. 또는, 표시부(130)는 누락 데이터를 처리하기 위해 필요한 표시 데이터, 예를 들면, 수집된 데이터 중 이상 데이터를 처리하는 화면, 누락 데이터에 대한 정보를 식별하는 화면, 사용자 입력을 수신하기 위한 화면, 데이터의 처리 결과를 표시하는 화면 등을 표시할 수 있다. 표시부(130)는 액정 디스플레이(LCD; liquid crystal display), 발광 다이오드(LED; light emitting diode) 디스플레이, 유기 발광 다이오드(OLED; organic LED) 디스플레이, 마이크로 전자기계 시스템(MEMS; micro electro mechanical systems) 디스플레이 및 전자 종이(electronic paper) 디스플레이를 포함한다. 표시부(130)는 입력부(110)와 결합되어 터치 스크린(touch screen)으로 구현될 수 있다.The display unit 130 displays display data according to the operation of the electronic device 100. The display unit 130 displays display data needed to verify data based on data quality verification conditions (e.g., a screen for setting quality verification conditions), and display data needed to select data based on data supplement conditions (e.g. For example, a screen that sets data supplementation conditions) and a screen that displays data processing results, etc. can be displayed. Alternatively, the display unit 130 may display data required to process missing data, for example, a screen for processing abnormal data among collected data, a screen for identifying information about missing data, a screen for receiving user input, A screen displaying data processing results, etc. can be displayed. The display unit 130 includes a liquid crystal display (LCD), a light emitting diode (LED) display, an organic light emitting diode (OLED) display, and a micro electro mechanical systems (MEMS) display. and electronic paper displays. The display unit 130 may be combined with the input unit 110 and implemented as a touch screen.
메모리(140)는 전자장치(100)의 동작 프로그램들을 저장한다. 여기에서, 메모리(140)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다. 예를 들어, 메모리(120)는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다. The memory 140 stores operation programs of the electronic device 100. Here, the memory 140 is a general term for non-volatile storage devices and volatile storage devices that continue to retain stored information even when power is not supplied. For example, memory 120 may include compact flash (CF) cards, secure digital (SD) cards, memory sticks, solid-state drives (SSD), and micro SD. This includes NAND flash memory such as cards, magnetic computer storage devices such as hard disk drives (HDD), and optical disc drives such as CD-ROM, DVD-ROM, etc. You can.
메모리(140)는 외부장치로부터 수집한 데이터를 저장하거나, 데이터 품질 검증 조건에 관한 데이터, 데이터 보완 조건에 관한 데이터, 이상 데이터에 관한 정보, 누락 데이터 처리 방법에 관한 정보 등을 저장할 수 있다. 또한, 메모리(140)는 데이터의 품질에 따라 처리하고자 하는 데이터의 구간을 설정하도록 학습된 모델에 관한 정보나, 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 식별하도록 학습된 모델에 관한 정보를 저장할 수 있다.The memory 140 may store data collected from an external device, data on data quality verification conditions, data on data supplementation conditions, information on abnormal data, information on methods for processing missing data, etc. In addition, the memory 140 is a model learned to identify at least one method of processing missing data based on information about a model learned to set a section of data to be processed according to the quality of the data or information about missing data. Information about can be stored.
프로세서(150)는 프로그램 등 소프트웨어를 실행하여 전자장치(100)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다.The processor 150 may control at least one other component (eg, hardware or software component) of the electronic device 100 by executing software such as a program, and may perform various data processing or calculations.
프로세서(150)는 소정의 특성 정보에 대하여 수집된 시계열 데이터를 소정의 분할 주기에 따라 분할하고, 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증한 후, 검증 완료된 시계열 데이터를 선택하여 데이터 보완 조건에 따라 데이터를 처리할 수 있다.The processor 150 divides the time series data collected for predetermined characteristic information according to a predetermined division cycle, verifies the quality of the data for the time series data divided according to the division cycle, and then selects the verified time series data. Thus, the data can be processed according to the data supplement conditions.
한편, 본 발명의 일 실시예에서, 프로세서(150)는 데이터의 정제, 분할, 품질 검증 및 데이터 보완 조건에 따른 데이터를 처리하기 위해, 인공지능(Artificial Intelligence) 알고리즘으로서 기계학습, 신경망 네트워크(neural network), 또는 딥러닝 알고리즘 중 적어도 하나를 이용할 수 있다. 일 예로, 인공지능(Artificial Intelligence) 알고리즘으로서 기계학습, 신경망 네트워크(neural network), 또는 딥러닝 알고리즘 중 적어도 하나를 이용할 수 있으며, 신경망 네트워크의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network)과 같은 모델을 포함할 수 있다.Meanwhile, in one embodiment of the present invention, the processor 150 uses machine learning and neural network as an artificial intelligence algorithm to process data according to data purification, division, quality verification, and data supplementation conditions. network), or at least one of deep learning algorithms can be used. For example, as an artificial intelligence algorithm, at least one of machine learning, neural network, or deep learning algorithm may be used. Examples of neural network networks include Convolutional Neural Network (CNN) and Deep Neural Network (DNN). Network) and RNN (Recurrent Neural Network).
도 2는 본 발명의 제1 실시예에 따른 전자장치에 의해 수행되는 동작 흐름도를 도시한 도면이다.Figure 2 is a diagram showing a flowchart of operations performed by an electronic device according to the first embodiment of the present invention.
먼저, 프로세서(150)는 소정의 특성 정보에 대하여 수집된 시계열 데이터를 사전 결정된 기준 주기에 기초하여 정제한다(S210).First, the processor 150 refines the time series data collected for certain characteristic information based on a predetermined reference period (S210).
일 실시예로, 시계열 데이터는 연속된 특징을 보이고 있으며, 연속된 시계열 데이터들은 시간의 흐름에 따라 반복되거나, 공통적인 패턴을 보일 수 있다. 또한, 시계열 데이터는 주기성을 가질 수 있으며, 그 주기들은 보통 '시간, 일, 주, 월, 년' 등의 단위를 기준으로 공통되고 반복되는 패턴을 보일 수 있다.In one embodiment, time series data shows continuous characteristics, and continuous time series data may repeat over time or show common patterns. Additionally, time series data may have periodicity, and the periods may show common and repeating patterns based on units such as 'hour, day, week, month, year'.
예를 들어, 실외 온도의 경우 공전과 자전의 영향을 받기 때문에 하루 및 년 단위의 주기성을 동시에 갖는다. 또한, 학교 실내의 이산화탄소 변화의 경우, 일과로 인한 하루 및 일주일 단위 패턴을 가질 확률이 높으며, 외부 온도에 따라 실내 창문 개방 패턴이 달라지기 때문에 년 단위의 주기성을 가질 수도 있다. 이러한 패턴은 데이터의 분석 및 정제에 중요한 역할을 하며 데이터의 활용 시 반드시 고려해야 한다.For example, outdoor temperature has both daily and yearly periodicity because it is affected by revolution and rotation. In addition, changes in carbon dioxide inside schools are likely to have daily and weekly patterns due to daily routine, and may also have yearly periodicity because indoor window opening patterns vary depending on the external temperature. These patterns play an important role in the analysis and purification of data and must be considered when utilizing the data.
한편, 본 발명의 일 실시예에서 소정의 특성 정보는 시계열 데이터의 센서에 기반한 특성 정보를 의미한다. 일 예로, 특정 도시의 기후 변화에 대해 분석하는 경우, 각 센서에 의해 센싱된 시계열 데이터는 Meanwhile, in one embodiment of the present invention, predetermined characteristic information refers to characteristic information based on a sensor of time series data. For example, when analyzing climate change in a specific city, the time series data sensed by each sensor is
특정 도시의 시간에 따른 온도, 습도, 강수량, 교통량, 인구 밀집도 등이 특성 정보가 될 수 있다. 혹은 각 도시의 미세먼지 양에 대해 비교하는 경우, 서울시, 부산시, 청주시 등이 특성 정보에 대응될 수 있다.Temperature, humidity, precipitation, traffic volume, population density, etc. over time in a specific city can be characteristic information. Or, when comparing the amount of fine dust in each city, Seoul, Busan, Cheongju, etc. may correspond to the characteristic information.
도 3a 및 도 3b는 기준 기술 주기에 기반하여 시계열 데이터를 정제한 일 예시를 도시한 도면이다.Figures 3a and 3b are diagrams illustrating an example of refining time series data based on a standard technology cycle.
일 실시예로, 프로세서(150)는 기본적으로 입력으로 사용되는 시계열 데이터의 시간 스탬프가 균일하도록 기준 주기를 생성할 수 있다. 하지만, 본 발명의 일 실시예는 반드시 이에 한정되는 것은 아니며, 다양한 방법에 의해 기준 주기를 설정할 수 있다. 일 예로, 프로세서(150)는 원본 데이터인 수집된 시계열 데이터의 특성 정보를 통해 유추하여 기준 주기를 설정하거나, 또는 사용자의 판단이나 외부 파라미터에 기반하여 기준 주기를 설정할 수 있다.In one embodiment, the processor 150 may basically generate a reference period so that the time stamp of time series data used as input is uniform. However, an embodiment of the present invention is not necessarily limited to this, and the reference period can be set by various methods. As an example, the processor 150 may set the reference period by inferring through characteristic information of the collected time series data, which is the original data, or may set the reference period based on the user's judgment or external parameters.
기준 주기가 설정되고 나면 프로세서(150)는 기준 주기에 따라 시간 스탬프를 새롭게 설정하고, 시간 스탬프에 따라 균일하게 시계열 데이터가 기술되도록 변경한다. 이때, 시계열 데이터에 일부 데이터가 누락된 경우 프로세서(150)는 누락 데이터를 차별되도록 표시(예를 들어, NAN)할 수 있다.After the reference period is set, the processor 150 sets a new time stamp according to the reference period and changes the time series data to be described uniformly according to the time stamp. At this time, if some data is missing from the time series data, the processor 150 may mark the missing data to be differentiated (for example, NAN).
도 3a는 기준 주기에 따라 정제하기 전의 시계열 데이터를 나타낸 것이며(310), 도 3b는 기준 주기에 따라 정제한 시계열 데이터를 나타낸 것이다(320). 이때, 기준 주기는 1분 단위로 설정되었으며, 기술 주기에 따라 1분 단위의 시간 스탬프가 설정되도록 하였다. 이때, 도 3a에서 누락된 데이터는 NAN으로 표시하였다.Figure 3a shows time series data before refinement according to a standard cycle (310), and Figure 3b shows time series data refined according to a standard cycle (320). At this time, the standard cycle was set in 1-minute increments, and the time stamp in 1-minute increments was set according to the technology cycle. At this time, missing data in Figure 3a is indicated as NAN.
다시 도 2를 참조하면, 프로세서(150)는 정제된 시계열 데이터를 소정의 분할 주기에 따라 분할한다(S220).Referring again to FIG. 2, the processor 150 divides the refined time series data according to a predetermined division cycle (S220).
도 4는 시계열 데이터를 분할 주기에 따라 분할한 일 예시를 도시한 도면이다. Figure 4 is a diagram showing an example of dividing time series data according to a division cycle.
일 실시예로, 프로세서(150)는 시계열 데이터를 기본 분할 주기에 따라 분할할 수 있다. 이때, 기본 분할 주기는 '초, 분, 시간, 일, 주, 월, 년'으로 설정될 수 있다.In one embodiment, the processor 150 may divide time series data according to a basic division cycle. At this time, the basic division cycle can be set to 'seconds, minutes, hours, days, weeks, months, years'.
다른 실시예로, 대부분의 시계열 데이터는 주기 특성을 가지고 있는바, 특정 패턴에 따른 분석 및 학습 데이터로의 활용을 위하여, 프로세서(150)는 기준 주기에, 특성 정보를 반영하여 결정된 소정의 가중치(N)를 적용하여 산출된 분할 주기에 따라 시계열 데이터를 분할할 수 있다. 즉, 분할 주기는 '기본 분할 주기*N'으로 설정될 수 있다. 예를 들어, 분할 주기는 3시간, 3일, 1년, 2개월 등과 같이'기본 분할 주기*N'으로 설정될 수 있다. 다른 예로, 학교에서 실내 공기질을 분석하는 경우 일주일 단위의 패턴, 하루 단위의 일정 패턴이 나타날 확률이 높으므로, 패턴에 상응하는 가중치를 반영하고, 지하철 이용량을 분석하는 경우 일 단위의 패턴에 상응하는 가중치를 기본 분할 주기에 반영할 수 있다.In another embodiment, most time series data has periodic characteristics. In order to analyze and utilize it as learning data according to a specific pattern, the processor 150 sets a predetermined weight ( Time series data can be divided according to the division cycle calculated by applying N). That is, the division cycle can be set to 'basic division cycle * N'. For example, the division cycle can be set to 'default division cycle * N', such as 3 hours, 3 days, 1 year, 2 months, etc. As another example, when analyzing indoor air quality in a school, there is a high probability that a pattern on a weekly basis or a certain pattern on a daily basis will appear, so the weight corresponding to the pattern is reflected, and when analyzing subway usage, it corresponds to a daily pattern. The weight can be reflected in the basic division cycle.
한편, 프로세서(150)는 시계열 데이터 중 분할 주기를 만족하지 않는 데이터가 존재하는 경우 해당 데이터를 삭제할 수 있다. Meanwhile, if there is data that does not satisfy the division cycle among the time series data, the processor 150 may delete the corresponding data.
일 실시예로, 프로세서(150)는 시계열 데이터를 구성하는 세부 데이터 중 분할 주기를 완전히 만족하지 않는 데이터는 선택하지 않고 삭제할 수 있다. 하지만, 반드시 해당 실시예에만 한정되는 것은 아니며, 분할 주기를 완전히 만족하지 않더라도 필요에 따라 데이터를 선택하여 활용할 수도 있음은 물론이다.In one embodiment, the processor 150 may delete data that does not completely satisfy the division cycle among the detailed data constituting the time series data without selecting it. However, it is not necessarily limited to the corresponding embodiment, and of course, data can be selected and utilized as needed even if the division cycle is not completely satisfied.
일 예로, 시계열 데이터 중 첫 번째 값과 마지막 값이 표 1과 같은 분할 주기를 만족하지 않을 경우 해당 데이터를 제외할 수 있다.For example, if the first and last values of time series data do not satisfy the division cycle as shown in Table 1, the corresponding data can be excluded.
분할 주기split cycle 기간(yyyy-mm-dd HH:MM:SS)period(yyyy-mm-dd HH:MM:SS)
시간hour 00:00~59:5900:00~59:59
Day 00:00:00~23:59:5900:00:00~23:59:59
main MON 00:00:00~SUN23:59:59MON 00:00:00~SUN23:59:59
month 01 00:00:00~31 23:59:5901 00:00:00~31 23:59:59
year 01-01 00:00:00~12-31 23:59:5901-01 00:00:00~12-31 23:59:59
도 4의 예시는 '2020-05-29 23:59:00~2020-06-20 01:00:00'의 시계열 데이터(400)를 대상으로 1일의 분할 주기에 따라 분할한 결과로, 시계열 데이터는 분할 주기에 따라 21개(400-1~400-N)로 분할된 것이다. 이때, 분할 주기 1일은 '00:00:00~23:59:59'로 설정되어 있으며, 주기별로 분할된 각 데이터들은 완전하고 동일한 정도의 세부 데이터를 가지고 있어야 한다. 이에 따라, 프로세서(150)는 완전한 분할 주기를 만족하지 못하는 '05-29', '06-20' 날짜의 데이터는 전체 시계열 데이터에서 삭제할 수 있다.다른 실시예로, 프로세서(150)는 이중 분할 주기를 적용하여 시계열 데이터를 분할할 수 있다. 즉, 프로세서(150)는 정제된 시계열 데이터를 제1 분할 주기에 기초하여 분할하고, 제1 분할 주기에 따라 분할된 시계열 데이터를 제2 분할 주기(또는 제3 분할 주기 등)에 기초하여 재분할 수 있다. 이때, 제1 분할 주기는 반드시 제2 분할 주기보다 작도록 설정될 수도 있음은 물론이다.The example in Figure 4 is the result of dividing the time series data (400) of '2020-05-29 23:59:00 ~ 2020-06-20 01:00:00' according to the division cycle of 1 day, and the time series The data is divided into 21 parts (400-1 to 400-N) according to the division cycle. At this time, the division cycle of 1 day is set to '00:00:00~23:59:59', and each data divided by cycle must be complete and have the same level of detailed data. Accordingly, the processor 150 may delete data of dates '05-29' and '06-20' that do not satisfy the complete division cycle from the entire time series data. In another embodiment, the processor 150 may perform a double division. Time series data can be divided by applying a period. That is, the processor 150 may divide the refined time series data based on the first division cycle and re-divide the time series data divided according to the first division cycle based on the second division cycle (or third division cycle, etc.). there is. At this time, of course, the first division period may be set to be smaller than the second division period.
예를 들어, 프로세서(150)는 일 단위의 제1 분할 주기에 따라 분할된 시계열 데이터를 다시 주중과 주말의 제2 분할 주기에 따라 분할하고, 필요한 데이터만 선택할 수 있다.For example, the processor 150 may divide the time series data divided according to the first division cycle of daily units again according to the second division cycle of weekdays and weekends and select only necessary data.
예를 들어, 프로세서(150)는 일 단위의 제1 분할 주기에 따라 분할된 시계열 데이터를 다시 '월', '화~일'의 제2 분할 주기에 따라 분할하고 후자인 '화~일' 데이터만 선택하여 사용할 수도 있다. For example, the processor 150 divides the time series data divided according to the first division cycle in daily units again according to the second division cycle of 'Month' and 'Tuesday-Sunday' and the latter 'Tuesday-Sunday' data. You can also select and use only.
예를 들어, 박물관에서의 일주일별 특성을 조사하는 경우 특정 요일군마다 비슷한 패턴을 보일 확률이 높으므로, 프로세서(150)는 '월', '화~일'의 제2 분할 주기에 따라 분할된 시계열 데이터를 다시 '월', '화~금', '토~일'의 제3 분할 주기에 따라 분할할 수 있다.For example, when investigating weekly characteristics in a museum, there is a high probability of showing similar patterns for each specific day group, so the processor 150 divides according to the second division cycle of 'Monday' and 'Tuesday-Sunday'. Time series data can be divided again according to the third division cycle of ‘Monday’, ‘Tuesday-Friday’, and ‘Saturday-Sunday’.
또한, 본 발명의 일 실시예에서 제2 분할 주기는 표 1에서의 제1 분할 주기의 하위 분할 주기일 수 있다. 이와 같은 분할 주기를 기반으로 시계열 데이터가 분할하면 다음과 같은 예시와 같이 데이터를 선택하여 분석 및 학습 데이터로 이용할 수 있다. 이처럼 이중 분할 주기를 적용하는 것은 예를 들어 매년 7, 8월 여름의 9-10시까지의 시간대 데이터만 추출해야 할 필요성이 있을 시, 이에 대한 파라미터 기술 방법이 필요하기 때문이다.Additionally, in one embodiment of the present invention, the second division cycle may be a sub-division cycle of the first division cycle in Table 1. When time series data is divided based on this division cycle, the data can be selected and used as analysis and learning data as shown in the following example. The reason for applying this double division cycle is that, for example, when there is a need to extract only data from 9 to 10 o'clock in the summer of July and August every year, a parameter description method is needed.
- 예를 들어, 년 분할 주기 및 월 분할 주기로 시계열 데이터가 분할된 경우, 데이터의 선택 조건을 (year, sub={0:[0,0,0,0,0,0,0,0,0,1,0,0]})로 설정한다면, 1년에 대해 그 다음 하위 기본 분할 주기인 월에 대해 10월 달만 선택할 수 있다.- For example, if time series data is divided into year division cycle and month division cycle, the data selection condition is (year, sub={0:[0,0,0,0,0,0,0,0,0 ,1,0,0]}), only the month of October can be selected for the month that is the next sub-basic division cycle for one year.
- 예를 들어, 년 분할 주기, 월 분할 주기 및 주 분할 주기로 시계열 데이터가 분할된 경우, 데이터의 선택 조건을 (year, sub={0:[0,0,0,0,0,0,0,0,0,1,0,0], 1=[1, 1, 0, 0, 0, 0, 0]})으로 설정한다면, 10월 달에 대해 하위 기준 단위인 주의 월/화 데이터만 선택할 수 있다.- For example, if time series data is divided into year division cycle, month division cycle, and week division cycle, the data selection condition is (year, sub={0:[0,0,0,0,0,0,0 ,0,0,1,0,0], 1=[1, 1, 0, 0, 0, 0, 0]}), only the Monday/Tuesday data of the week, which is the lower standard unit, for the month of October You can choose.
- 예를 들어, 년 분할 주기, 월 분할 주기, 주 분할 주기 및 일 분할 주기로 시계열 데이터가 분할된 경우, 데이터의 선택 조건을 (year, sub={0:[0,0,0,0,0,0,0,0,0,1,0,0], 1:[1, 1, 1, 1, 1, 1, 1], 2:[1, 1, 1, 0, -----]})로 설정한다면, 10월 달에 대해 모든 요일을 선택하고 그 중 1, 2, 3일의 데이터만 선택할 수 있다. - For example, if time series data is divided into year division cycle, month division cycle, week division cycle, and daily division cycle, the data selection condition is (year, sub={0:[0,0,0,0,0 ,0,0,0,0,1,0,0], 1:[1, 1, 1, 1, 1, 1, 1], 2:[1, 1, 1, 0, ----- ]}), you can select all days of the week for the month of October and only select data for days 1, 2, and 3 of them.
다시 도 2를 참조하면, 프로세서(150)는 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증한다(S230).Referring again to FIG. 2, the processor 150 verifies the quality of the data for time series data divided according to the division cycle (S230).
일 실시예로, 프로세서(150)는 분할 주기에 따라 분할된 시계열 데이터를 대상으로 해당 분할 주기에서의 누락 값 상태를 확인하여, 연속 누락 데이터의 정도 및 전체 누락 데이터의 정도 중 적어도 하나를 산출한다. 그리고 프로세서(150)는 산출된 연속 누락 데이터의 정도 및 전체 누락 데이터의 정도가 기준 파라미터에 따라 설정된 정도를 초과할 경우, 해당 분할 주기의 분할된 시계열 데이터를 불량 데이터로 판단하게 된다. In one embodiment, the processor 150 checks the status of missing values in the corresponding division cycle for time series data divided according to the division cycle and calculates at least one of the degree of continuous missing data and the degree of total missing data. . In addition, if the calculated degree of continuous missing data and the degree of total missing data exceeds the degree set according to the standard parameter, the processor 150 determines the divided time series data of the corresponding division cycle as defective data.
여기에서, 연속 누락 데이터의 정도 및 전체 누락 데이터의 정도라 함은 데이터의 개수, 비율, 확률 등의 개념을 의미한다.Here, the degree of consecutive missing data and the degree of total missing data refer to concepts such as number, ratio, probability, etc. of data.
이때, 본 발명의 일 실시예는 시계열 데이터가 단변량 데이터인 경우와 다변량 데이터인 경우를 구분하여 품질 검증을 수행할 수 있다.At this time, an embodiment of the present invention can perform quality verification by distinguishing between cases where time series data is univariate data and cases where it is multivariate data.
도 5는 단변량 시계열 데이터의 품질 검증 과정을 설명하기 위한 도면이다.Figure 5 is a diagram to explain the quality verification process of univariate time series data.
단변량 데이터는 특성 정보가 하나만을 구비한 데이터로, 이 경우 프로세서(150)는 하나의 특성 정보에 대해서만 검증을 수행하게 된다. 그리고 프로세서(150)는 설정된 기준 파라미터보다 연속 누락 데이터의 정도가 많거나 또는 전체 누락 데이터의 정도가 많거나, 이를 모두 만족하는 경우, 해당 데이터를 불량 데이터로 판단할 수 있다.Univariate data is data that includes only one characteristic information. In this case, the processor 150 performs verification on only one characteristic information. In addition, the processor 150 may determine the data to be defective if the degree of consecutive missing data or the degree of total missing data is greater than the set reference parameter, or if all of these are satisfied.
도 5를 참조하면, 전체 시계열 데이터(500) 중 특성 정보 F1에 대해 단변량 데이터(510) 검증을 실시하는 경우, F1 데이터(510)의 연속 누락 데이터의 개수는 2개와 1개, 전체 누락 데이터의 개수는 3개로 산출된다. 이때, 기준 파라미터가 {연속 누락 데이터 개수: 2개, 전체 누락 데이터의 개수: 3개}로 설정된 경우, F1 데이터(510)의 연속 누락 데이터의 개수가 2개인 경우가 있으므로 전체 누락 데이터의 개수와 상관없이 F1 데이터는 불량 데이터로 판별된다. 이와 달리, 기준 파라미터가 {연속 누락 데이터 개수: 5개, 전체 누락 데이터의 개수: 10개}로 설정된 경우라면, F1 데이터(510)는 불량이 아닌 정상 데이터로 판별된다.Referring to FIG. 5, when verifying the univariate data 510 for characteristic information F1 among the entire time series data 500, the number of consecutive missing data in the F1 data 510 is 2 and 1, and the total missing data is The number is calculated as 3. At this time, when the standard parameter is set to {Number of consecutive missing data: 2, Number of total missing data: 3}, the number of consecutive missing data in the F1 data 510 may be 2, so the total number of missing data and Regardless, F1 data is determined to be bad data. In contrast, if the reference parameter is set to {number of consecutive missing data: 5, total number of missing data: 10}, the F1 data 510 is determined to be normal data rather than defective.
도 6a 및 도 6b는 다변량 시계열 데이터(610, 620)의 품질 검증 과정을 설명하기 위한 도면이다.FIGS. 6A and 6B are diagrams for explaining the quality verification process of multivariate time series data 610 and 620.
다변량 데이터는 단변량 데이터와 달리 복수 개의 특성 정보를 구비하는 시계열 데이터이며, 다변량 시계열 데이터의 품질 검증은 복수 개의 특성 정보에 대한 품질을 검증하는 것을 의미한다.Unlike univariate data, multivariate data is time series data that includes a plurality of characteristic information, and quality verification of multivariate time series data means verifying the quality of a plurality of characteristic information.
시계열 데이터가 다변량 데이터인 경우, 프로세서(150)는 각 특성 정보 및 분할 주기에 따른 시간 정보 그룹에 따라 시계열 데이터를 열과 행으로 정렬하여 구성할 수 있다. 이때, 다변량 시계열 데이터에 포함된 특성 정보가 N개인 경우 2개 내지 N개, 즉 복수 개의 특성 정보에 상응하는 데이터를 선택하여 품질을 검증할 수 있다.If the time series data is multivariate data, the processor 150 may organize the time series data by sorting it into columns and rows according to time information groups according to each characteristic information and division cycle. At this time, if there is N characteristic information included in the multivariate time series data, the quality can be verified by selecting data corresponding to 2 to N pieces of characteristic information, that is, a plurality of characteristic information.
일 실시예로, 프로세서(150)는 시간 정보 그룹(행)을 기준으로 하나라도 누락 데이터가 존재하는 경우 누락 행으로 판단할 수 있다. 이에 따르면 도 6a의 경우 7개의 행 중 6개의 행이 누락 행으로 결정된다.In one embodiment, the processor 150 may determine that a row is missing if there is at least one missing data based on the time information group (row). According to this, in the case of Figure 6a, 6 out of 7 rows are determined to be missing rows.
다른 일 실시예로, 프로세서(150)는 시간 정보 그룹(행)을 구성하는 데이터 전체가 누락된 경우 누락 행으로 판단할 수 있다. 이에 따르면 도 6a의 경우 하나의 행(P1)이 누락 행이며, 도 6b는 두 개의 행(P2)이 누락 행으로 결정된다.In another embodiment, the processor 150 may determine that a row is missing when all of the data constituting a time information group (row) is missing. According to this, in the case of FIG. 6A, one row (P1) is determined to be a missing row, and in FIG. 6B, two rows (P2) are determined to be missing rows.
다른 일 실시예로, 프로세서(150)는 다변량 데이터의 각 시간 정보 그룹(행)마다 각 특성 정보(열)에 대한 누락 데이터가 존재하는지 여부를 확인한다. 그리고 각 시간 정보 그룹에 누락 데이터가 존재하는 경우 제1 카운팅을 추가하고, 제1 카운팅이 추가된 시간 정보 그룹과 인접하는 복수의 시간 정보 그룹에서 연속되는 누락 데이터가 존재하는 경우 누락 데이터가 연속되는 시간 정보 그룹(행)의 수에 기초하여 제2 카운팅을 추가한다. 이후, 프로세서(150)는 제1 및 제2 카운팅을 합산하여 분할 주기에 따른 각 시간 정보 그룹에 대한 연속 누락 데이터의 정도를 산출할 수 있다.In another embodiment, the processor 150 checks whether missing data exists for each characteristic information (column) for each time information group (row) of multivariate data. And, if missing data exists in each time information group, first counting is added, and if consecutive missing data exists in a plurality of time information groups adjacent to the time information group to which the first counting is added, the missing data is consecutive. Add a second counting based on the number of time information groups (rows). Thereafter, the processor 150 may calculate the degree of consecutive missing data for each time information group according to the division cycle by adding the first and second counting.
이에 따르면, 도 6a의 경우 연속 누락 데이터의 개수는 (1, 0, 5, 5, 5, 5, 5)로 결정된다. 즉, 제1 행의 경우 자신의 행에 누락 데이터가 존재하므로 제1 카운팅=1을 추가하고, 인접하는 행인 제2 행에 누락 데이터가 없으므로 제2 카운팅=0이 된다. 또한, 제3 행의 경우 자신의 행에 누락 데이터가 존재하므로 제1 카운팅=1을 추가하고, 인접하는 복수의 행인 제4 내지 제7 행에 모두 누락 데이터가 연속하여 존재하므로 그 수에 기초하여 제2 카운팅=4를 추가하며, 제1 및 제2 카운팅을 합산한 5가 연속 누락 데이터의 개수로 산출된다.According to this, in the case of Figure 6a, the number of consecutive missing data is determined as (1, 0, 5, 5, 5, 5, 5). That is, in the case of the first row, since there is missing data in its own row, first counting = 1 is added, and since there is no missing data in the second row, which is an adjacent row, second counting = 0. In addition, in the case of the 3rd row, since there is missing data in its own row, the first counting = 1 is added, and since there is consecutive missing data in all of the 4th to 7th rows, which are multiple adjacent rows, the number is calculated based on the number. The second counting = 4 is added, and 5, the sum of the first and second counting, is calculated as the number of consecutive missing data.
다른 일 실시예로, 프로세서(150)는 다변량 데이터의 각 시간 정보 그룹(행)마다 각 특성 정보(열)에 대한 누락 데이터가 존재하는지 여부를 확인한다. 그리고 각 시간 정보 그룹에 누락 데이터가 존재하는 경우 제1 카운팅을 추가하고, 제1 카운팅이 추가된 시간 정보 그룹과 인접하는 복수의 시간 정보 그룹에서 특성 정보를 기준으로 연속되는 누락 데이터가 존재하는 경우, 특성 정보를 기준으로 누락 데이터가 연속되는 시간 정보 그룹의 수에 기초하여 제2 카운팅을 추가한다. 이후, 프로세서(150)는 제1 및 제2 카운팅을 합산하여 분할 주기에 따른 각 시간 정보 그룹에 대한 연속 누락 데이터의 정도를 산출할 수 있다.In another embodiment, the processor 150 checks whether missing data exists for each characteristic information (column) for each time information group (row) of multivariate data. And, if missing data exists in each time information group, first counting is added, and if continuous missing data exists based on characteristic information in a plurality of time information groups adjacent to the time information group to which the first counting is added. , based on the characteristic information, a second counting is added based on the number of time information groups in which missing data is consecutive. Thereafter, the processor 150 may calculate the degree of consecutive missing data for each time information group according to the division cycle by adding the first and second counting.
이에 따르면, 도 6a의 경우 연속 누락 데이터의 개수는 (1, 0, 2, 2, 1, 1, 1)로 결정되고, 도 6b의 경우 연속 누락 데이터의 개수는 (4, 4, 4, 4, 1, 1, 1)로 결정된다. 일 예로, 도 6a의 제3 행을 살펴보면, 자신의 행에 누락 데이터가 존재하므로 제1 카운팅=1을 추가하고, 인접하는 복수의 행 중에서 열을 기준으로 연속되는 누락 데이터가 존재하는 제4 행 1개가 존재하므로 제2 카운팅=1을 추가한다. 제1 및 제2 카운팅을 합산한 2가 연속 누락 데이터의 개수로 산출된다. 다른 일 예로, 도 6b의 제1 행의 경우, 제1 카운팅=1과, 인접하는 제2 행 내지 제4행에 각각 제1 행과 연속되는 누락 데이터가 존재하므로(제2 행의 F3, 제3 행의 F3, 제4 행의 F2) 제2 카운팅=3이 추가된다. 그리고 제1 및 제2 카운팅을 합산한 4가 연속 누락 데이터의 개수로 산출된다.According to this, in the case of Figure 6a, the number of consecutive missing data is determined as (1, 0, 2, 2, 1, 1, 1), and in the case of Figure 6b, the number of consecutive missing data is (4, 4, 4, 4) , 1, 1, 1). As an example, looking at the third row of FIG. 6A, since there is missing data in its own row, the first counting = 1 is added, and among a plurality of adjacent rows, the fourth row has consecutive missing data based on the column. Since there is 1, add the second counting = 1. 2, which is the sum of the first and second counting, is calculated as the number of consecutive missing data. As another example, in the case of the first row of FIG. 6B, the first counting = 1 and missing data consecutive to the first row exists in the adjacent second to fourth rows, respectively (F3 in the second row, F3 in the 3rd row, F2 in the 4th row) The second counting = 3 is added. And 4, which is the sum of the first and second counting, is calculated as the number of consecutive missing data.
다른 일 실시예로, 프로세서(150)는 다변량 데이터의 각 시간 정보 그룹(행)마다 각 특성 정보(열)에 대한 누락 데이터가 존재하는지 여부를 확인한다. 그리고 각 시간 정보 그룹에 누락 데이터가 존재하는 경우 제1 카운팅을 추가하고, 제1 카운팅이 추가된 시간 정보 그룹 및 인접하는 복수의 시간 정보 그룹 내에서 전체 특성 정보가 누락된 시간 정보 그룹이 연속하여 존재하는 경우, 연속되는 시간 정보 그룹의 수에 기초하여 제2 카운팅을 추가한다. 이후, 프로세서(150)는 제1 및 제2 카운팅을 합산하여 분할 주기에 따른 각 시간 정보 그룹에 대한 연속 누락 데이터의 정도를 산출할 수 있다.In another embodiment, the processor 150 checks whether missing data exists for each characteristic information (column) for each time information group (row) of multivariate data. And, if missing data exists in each time information group, first counting is added, and time information groups with all characteristic information missing are consecutively formed within the time information group to which the first counting is added and a plurality of adjacent time information groups. If present, a second counting is added based on the number of consecutive time information groups. Thereafter, the processor 150 may calculate the degree of consecutive missing data for each time information group according to the division cycle by adding the first and second counting.
이에 따르면, 도 6b의 경우 연속 누락 데이터의 개수는 (1, 2, 2, 1, 1, 1, 1)로 결정된다. 일 예로, 제2 행의 경우 제1 카운팅=1이 추가되고, 인접하는 행 중 전체 특성 정보가 누락된 제3 행이 존재하므로 제2 카운팅=1이 추가된다. 그리고 제1 및 제2 카운팅을 합산한 2가 연속 누락 데이터의 개수로 산출된다.According to this, in the case of Figure 6b, the number of consecutive missing data is determined as (1, 2, 2, 1, 1, 1, 1). For example, in the case of the second row, first counting = 1 is added, and since there is a third row missing all characteristic information among adjacent rows, second counting = 1 is added. And 2, which is the sum of the first and second counting, is calculated as the number of consecutive missing data.
이와 같이, 본 발명의 일 실시예는 전술한 방법에 따라 연속 누락 데이터의 정도를 산출하여 불량 데이터 여부를 검증하거나, 또는 전체 누락 데이터의 정도를 기반으로 불량 데이터 여부를 검증할 수 있다. As such, an embodiment of the present invention can verify whether bad data is bad by calculating the degree of consecutive missing data according to the above-described method, or can verify whether bad data is bad based on the degree of total missing data.
도 7은 데이터의 품질을 재귀적으로 검증하는 과정을 설명하기 위한 도면이다.Figure 7 is a diagram to explain the process of recursively verifying the quality of data.
일 실시예로, 프로세서(150)는 시계열 데이터의 품질 검증을 재귀적으로 반복하여 수행할 수 있으며(S235), 롱텀에서 숏텀 주기의 순서로 검증할 수 있다.In one embodiment, the processor 150 may recursively and repeatedly perform quality verification of time series data (S235), and may verify the quality in the order of long-term to short-term cycles.
즉, 분할 주기로 분할된 시계열 데이터의 품질을 검증했을 때, 전체적인 누락 데이터의 평균 통계적 품질은 만족할 만한 수준이 될 수 있지만, 특정 부분에 누락 데이터가 집중되어 있는 경우나, 분포의 특성상 문제 상황이 집중되어 있는 경우 등에는 누락 데이터의 복구가 어려울 수 있다. In other words, when the quality of time series data divided by the split cycle is verified, the average statistical quality of the overall missing data may be at a satisfactory level, but if the missing data is concentrated in a specific part or the nature of the distribution causes the problem situation to be concentrated. In some cases, recovery of missing data may be difficult.
일 예로, 1주일 간격으로 데이터의 품질을 검증하여 정상 데이터로 판정되었으나, 목요일에만 대부분의 불량 데이터가 존재하는 경우가 이에 해당할 수 있다.For example, this may be the case where the quality of the data is verified at one-week intervals and determined to be normal data, but most of the defective data exists only on Thursday.
따라서, 본 발명의 일 실시예는 기본 분할 주기로 분할한 데이터 셋을 활용한다 하더라도 품질 검증 시 재귀적으로 하위 주기의 데이터로 재분할하여 재검증을 수행할 수 있다.Accordingly, in one embodiment of the present invention, even if a data set divided by a basic division cycle is used, re-verification can be performed by recursively re-dividing the data into sub-cycle data during quality verification.
이를 위해, 프로세서(150)는 제1 분할 주기에 따라 분할된 후 불량 데이터가 아닌 것으로 판단된 검증 완료된 시계열 데이터를 대상으로 제2 분할 주기에 기초하여 품질을 재귀적으로 검증할 수 있다.To this end, the processor 150 may recursively verify the quality of verified time series data that is divided according to the first division cycle and then determined to be not defective data based on the second division cycle.
예를 들어, 제1 분할 주기가 '1주'로 설정되어 분할된 데이터의 품질 검증시 '연속 누락 데이터의 개수=3, 전체 누락 데이터의 개수=30'으로 기준 파라미터가 설정된 경우, 목요일에 연속 누락 데이터의 개수가 2인 패턴의 에러가 14개 존재하는 경우(전체 누락 데이터의 개수=28), 품질 검증은 통과하지만 목요일 데이터는 활용하기가 어렵다고 볼 수 있다.For example, if the first division cycle is set to '1 week' and the standard parameter is set to 'number of consecutive missing data = 3, total number of missing data = 30' when verifying the quality of the divided data, the continuous If there are 14 errors in a pattern where the number of missing data is 2 (total number of missing data = 28), the quality verification is passed, but Thursday data can be considered difficult to utilize.
따라서, 본 발명의 일 실시예는 시계열 데이터를 기본 분할 주기(제1 분할 주기)에 따라 분할하여 이용한다 하더라도, 품질 검증시에는 그 하위 단위인 제2 분할 주기(또는 더 하위 단위인 제3 분할 주기 등)까지 재귀적으로 품질 검증을 수행할 수 있다.Therefore, in one embodiment of the present invention, even if time series data is divided and used according to the basic division cycle (first division cycle), when verifying quality, the second division cycle (or the third division cycle, which is a lower unit) is used when verifying quality. etc.), quality verification can be performed recursively.
한편, 실시예에 따라 프로세서(150)는 제2 분할 주기에 따라 분할된 시계열 데이터의 수에 가변하여 기준 파라미터에 설정된 연속 누락 데이터의 정도 및 전체 누락 데이터의 정도 중 적어도 하나를 조정할 수 있다.Meanwhile, depending on the embodiment, the processor 150 may adjust at least one of the degree of continuous missing data and the degree of total missing data set in the reference parameter by varying the number of time series data divided according to the second division cycle.
다시 도 2를 참조하면, 프로세서(150)는 검증 완료된 시계열 데이터를 선택하고(S240), 데이터 보완 조건에 따라 데이터를 처리한다(S250).Referring again to FIG. 2, the processor 150 selects verified time series data (S240) and processes the data according to data supplementation conditions (S250).
일 실시예로, 프로세서(150)는 품질 검증이 완료되어 통과된 데이터에 대해 선택한 후, 누락 데이터에 대한 보완 처리를 수행한다. 이때 누락 데이터 처리 방법은, 예를 들어, “mean”, “median”, “frequent”, “ffill”, “bfill”, “linear_interpolation”, “spline_interpolation”, “stineman_interpolation”, “KNN”, “ARIMA”, “Randomforest”, “NAOMI”, “BRITS” 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.In one embodiment, the processor 150 selects data that has completed and passed quality verification and then performs supplementary processing on missing data. At this time, missing data processing methods are, for example, “mean”, “median”, “frequent”, “ffill”, “bfill”, “linear_interpolation”, “spline_interpolation”, “stineman_interpolation”, “KNN”, “ARIMA”. , “Randomforest”, “NAOMI”, “BRITS”, etc., but is not limited thereto.
한편, 상술한 설명에서, 단계 S210 내지 단계 S250은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. Meanwhile, in the above description, steps S210 to S250 may be further divided into additional steps or combined into fewer steps, depending on the implementation of the present invention. Additionally, some steps may be omitted or the order between steps may be changed as needed.
이하에서는 도 8 내지 도 16을 참조하여 본 발명의 제2 실시예에 따른 데이터 보완 조건에 기반한 데이터 선별을 수행하는 전자장치 및 그 수행 방법에 대해 설명하도록 한다. 한편, 도 8 이하에서 설명하는 내용은 도 1 이하에서 설명한 제1 실시예에 따른 시계열 데이터의 품질 검증을 수행하는 전자장치 및 그 수행 방법에 상호 적용될 수 있음은 물론이다.Hereinafter, with reference to FIGS. 8 to 16, an electronic device and method for performing data selection based on data supplementation conditions according to a second embodiment of the present invention will be described. Meanwhile, it goes without saying that the content described in FIG. 8 and below can be mutually applied to the electronic device and method for performing quality verification of time series data according to the first embodiment described in FIG. 1 and below.
먼저, 당업자의 이해를 돕기 위하여 본 발명이 제안된 배경에 대하여 먼저 서술하고, 본 발명의 실시예에 대하여 서술하기로 한다.First, to aid the understanding of those skilled in the art, the background on which the present invention was proposed will first be described, and then the embodiments of the present invention will be described.
산업 기술과 정보 통신 기술의 발달에 따라 데이터의 양이 폭발적으로 늘어나고, 이를 활용하는 데이터 마이닝이나 기계학습과 같은 데이터 활용 기술의 성능도 점점 좋아지고 있다. 이때, 데이터 활용 기술을 이용하여 좋은 결과를 얻기 위해서는 데이터가 무결하다는 전제 조건을 만족해야 한다. 그러나 실제 환경에서는 다양한 이유로 빈번하게 누락되거나 이상 데이터가 발생하고 있다. With the development of industrial technology and information and communication technology, the amount of data is increasing explosively, and the performance of data utilization technologies such as data mining and machine learning is gradually improving. At this time, in order to obtain good results using data utilization technology, the prerequisite that the data is flawless must be satisfied. However, in real environments, missing or abnormal data frequently occurs for various reasons.
누락 데이터나 이상 데이터를 포함하는 데이터를 처리하는 경우, 데이터로부터 도출할 수 있는 결론에 상당한 영향을 미칠 수 있다. When processing data that contains missing or anomalous data, this can have a significant impact on the conclusions that can be drawn from the data.
누락 데이터를 처리하는 방법으로, 예를 들어, 테이블 형식으로 이루어진 데이터에서 각각의 행이 독립적인 경우, 누락 데이터를 포함하는 행을 일괄 삭제하는 방법이 가장 널리 쓰이고 있으며 간단하게 처리가 가능하다. 그러나, 이 방법은 시간의 흐름에 의존하는 시계열 데이터의 경우 데이터가 획득된 시간이 중요하기 때문에 임의로 특정 행을 삭제하면 데이터의 연속성을 보장하기 어렵다. 따라서, 시계열 데이터의 경우, 누락 데이터를 부분적으로 삭제하는 것보다 누락 데이터가 발생된 시점의 전후의 데이터 전부를 삭제하는 것이 바람직하다.As a way to handle missing data, for example, when each row is independent in table format data, the method of batch deleting rows containing missing data is the most widely used and simple to process. However, in the case of time series data that depends on the passage of time, this method is difficult to guarantee data continuity if a specific row is arbitrarily deleted because the time at which the data was acquired is important. Therefore, in the case of time series data, it is preferable to delete all data before and after the time the missing data occurs rather than partially deleting the missing data.
이렇게 일괄적으로 누락 데이터를 삭제하는 방법을 활용하는 경우, 누락 데이터의 위치에 따라 삭제되는 데이터의 양이 달라지며, 경우에 따라 많은 데이터가 삭제될 수 있다. When using this method of collectively deleting missing data, the amount of data deleted varies depending on the location of the missing data, and in some cases, a lot of data may be deleted.
그러므로 일반적으로 시계열 데이터는 누락 데이터를 최대한 보간하여 누락 값을 없애는 방법을 적용한다. 그러나, 이 방법 또한 시계열 데이터가 어느 이상의 임계치를 넘어선 양의 누락 데이터를 포함할 경우, 무리한 보간 작업으로 인해 오히려 품질이 낮은 데이터를 생산하게 되어 복구하는 의미가 낮아질 수 있다. Therefore, in general, a method for eliminating missing values is applied to time series data by interpolating missing data as much as possible. However, this method may also produce low-quality data due to unreasonable interpolation work if the time series data includes an amount of missing data that exceeds a certain threshold, thereby reducing the meaning of recovery.
또한 일괄적으로 누락 데이터를 삭제 및 보간 등으로 인해 서로 다른 복수의 데이터 결합 시 필연적으로 나타나는 누락 데이터에 대한 고려가 없는 바, 데이터간 결합으로 인해 나타나는 누락 데이터에 대한 유연한 처리 방법이 필요하다.In addition, there is no consideration for missing data that inevitably appears when combining multiple pieces of data due to deletion and interpolation of missing data in batches, so a flexible processing method for missing data that appears due to combining data is needed.
이를 위해, 본 발명의 일 실시예에 따른 데이터 보완 조건에 기반한 데이터 선별을 수행하는 전자장치 및 그 수행 방법은, 누락 데이터에 대해 활용 가능한 정도를 가변적으로 판단할 수 있으며, 사용자가 원하는 품질에 기반하여 시계열 데이터에 누락 데이터가 포함되더라도 취사 선택하여 데이터를 보다 효율적으로 복구 및 활용할 수 있다. 또한, 본 발명의 일 실시예는 데이터를 활용하는 목적이나 데이터의 양과 질을 고려하여 누락 데이터를 처리할 수 있으며, 단일 데이터뿐만 아니라 복수의 단일 데이터가 결합된 데이터를 대상으로도 적용이 가능하다.To this end, an electronic device and method for performing data selection based on data supplementation conditions according to an embodiment of the present invention can variably determine the extent to which missing data can be utilized, based on the quality desired by the user. Therefore, even if the time series data includes missing data, the data can be recovered and utilized more efficiently by selecting the selected data. In addition, an embodiment of the present invention can handle missing data considering the purpose of utilizing the data or the quantity and quality of the data, and can be applied not only to single data but also to data that is a combination of multiple single data. .
이하 첨부된 도면을 중심으로 상세히 설명하도록 한다.Hereinafter, a detailed description will be given focusing on the attached drawings.
도 8은 누락 데이터를 포함하는 데이터(800)를 도시한 도면이다.FIG. 8 is a diagram illustrating data 800 including missing data.
도 8의 데이터(800)는 각 특성 정보(Feature, N) 별로 시간(Time, T)에 따라 수집된 데이터를 테이블화 한 것으로, 10개의 서로 다른 특성 정보, 10개의 시간으로 구성된다. Data 800 in FIG. 8 is a table of data collected according to time (Time, T) for each feature information (Feature, N), and consists of 10 different feature information and 10 times.
데이터를 분석함에 있어서 무결성을 전제로 하지만 실제 데이터를 수집하는 과정에서 다양한 이유로 빈번하게 누락되거나 이상 데이터가 발생하고 있다. Although integrity is assumed when analyzing data, in the process of collecting actual data, missing or abnormal data is frequently generated for various reasons.
본 발명의 일 실시예에서 누락 데이터는 숫자, 문자 등 어떤 방법으로도 변환되어 표기할 수 없는 데이터로, 정의할 수 없거나, 존재하지 않는 데이터라고 포괄적으로 정의한다. 해당 시간에 수집된 데이터가 없거나, 수집하였으나 서버 등 장치로 전송하는 과정에서 누락된 데이터를 의미한다. 누락 데이터의 값은 “-999”와 같은 극단적인 값을 표기하거나 “NaN”, “NA”와 같이 정해진 문자를 표현하는 등의 다양한 방법으로 표현될 수 있다. 그러나 표준화되지 않은 누락 데이터의 표기법은 데이터가 기록된 후 정상 데이터와 비정상 데이터를 명확하게 판단해 내기 어려운 경우가 존재한다. 따라서, 데이터를 처리하는 대표적인 라이브러리들은 누락 데이터를 단순성과 기능상의 이유로 “NaN” 혹은 “NA” 등으로 표기한다.In one embodiment of the present invention, missing data is comprehensively defined as data that cannot be converted and expressed in any way, such as numbers or letters, and is data that cannot be defined or does not exist. This means that no data was collected at that time, or that data was collected but missing during the process of transmitting to a device such as a server. Missing data values can be expressed in various ways, such as extreme values such as “-999” or fixed characters such as “NaN” or “NA”. However, there are cases where non-standardized notation of missing data makes it difficult to clearly determine normal and abnormal data after the data is recorded. Therefore, representative libraries that process data mark missing data as “NaN” or “NA” for simplicity and functionality.
이상 데이터는 수집된 데이터를 분석함에 있어 결과값에 악영향을 미치는 데이터로써, 예를 들어, 수집된 데이터가 비정상적인 수치를 가지거나, 데이터를 수집하는 센서 등의 허용 측정 범위를 벗어나는 등 오류 데이터를 의미한다. 본 발명에서는, 수집된 데이터 중 이상 데이터는 누락 데이터로 치환하여 처리하거나, 이상 데이터 전후로 수집된 데이터를 이용하여 적절한 데이터로 보간될 수 있다. 본 발명에서는 이상 데이터를 “NaN” 혹은 “NA” 등으로 표기하여 누락 데이터로 치환한다.Abnormal data refers to data that has a negative impact on the results when analyzing collected data. For example, it refers to erroneous data such as the collected data has abnormal values or is outside the allowable measurement range of the sensor that collects the data. do. In the present invention, abnormal data among the collected data can be processed by replacing it with missing data, or can be interpolated into appropriate data using data collected before and after the abnormal data. In the present invention, abnormal data is expressed as “NaN” or “NA” and replaced with missing data.
누락 데이터(810)를 처리하기 위해, 데이터를 일괄 삭제하는 방법을 사용하는 경우, 누락 데이터에 대한 오염을 방지한 완벽한 데이터 셋을 얻을 수 있으나 누락 데이터의 위치에 따라 삭제하는 정도가 커서 데이터로 활용하기에 부족할 수 있다. 예를 들어, 데이터(800)에서 누락 데이터(810)를 포함하는 행을 일괄적으로 삭제하게 되면, T1 행과 T10행이 남는 바, 데이터(800)를 활용하여 유용한 정보를 얻기에 부족할 수 있다. If you use a method of batch deleting data to handle missing data 810, you can obtain a perfect data set that prevents contamination from missing data, but the degree of deletion is large depending on the location of the missing data, so it can be used as data. It may not be enough to do this. For example, if rows containing missing data 810 are collectively deleted from data 800, rows T1 and T10 remain, which may be insufficient to obtain useful information using data 800. .
혹은 누락 데이터(810)를 처리하기 위해, 데이터를 일괄 보간하는 방법을 사용하는 경우, 누락 데이터의 근접 데이터나 과거 데이터를 바탕으로 누락 데이터를 임의로 복구하면 데이터를 최대한 보존할 수 있다. 그러나, 복구된 데이터는 정확한 데이터는 아니므로 무리한 보간을 한다면 데이터의 품질이 좋지 않아 분석 및 학습의 결과를 오염시킬 수 있다.Alternatively, when a method of batch interpolation of data is used to process the missing data 810, the data can be preserved as much as possible by arbitrarily recovering the missing data based on adjacent data or past data. However, since the recovered data is not accurate data, excessive interpolation may result in poor data quality, contaminating the results of analysis and learning.
예를 들어, 데이터(800)에서 누락 데이터(810)를 포함하는 행을 일괄적으로 보간하게 되면, N3 열의 데이터는 T1 행, T10 행에 획득된 데이터만 활용하여 보간하기 때문에, 보간하여 생성된 데이터에 대한 품질이 떨어질 수 있다. 또한, N7 열, N8 열, N10 열의 데이터의 경우에도 불규칙적으로 누락 데이터가 발생하였기 때문에 보간의 정확도를 보장할 수 없다.For example, when rows including missing data 810 in data 800 are batch interpolated, the data in column N3 is interpolated using only the data obtained in rows T1 and T10, so the data generated by interpolation Data quality may decrease. In addition, the accuracy of interpolation cannot be guaranteed because missing data occurred irregularly in the data in columns N7, N8, and N10.
따라서, N3 열, N7 열, N8 열, N10 열의 각 데이터들은 데이터를 복구할 수 있는지, 데이터를 복구하는 것이 데이터의 품질을 더 높이는 것인지 등에 대한 판단 방법이 필요하다.Therefore, for each data in column N3, column N7, column N8, and column N10, a method of determining whether the data can be recovered and whether recovering the data will improve the quality of the data is needed.
도 9는 본 발명의 제2 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.Figure 9 is a diagram illustrating an operation flowchart of an electronic device according to a second embodiment of the present invention.
본 발명의 일 실시예에 따른 프로세서(150)는 적어도 하나의 특성 정보에 대해 수집된 데이터 중 처리하고자 하는 제1 데이터의 구간을 설정한다(S910).The processor 150 according to an embodiment of the present invention sets a section of first data to be processed among data collected for at least one characteristic information (S910).
한편, 특성 정보는 앞서 도 8과 관련하여 설명한 바와 같이, 수집한 데이터의 내용을 의미하며, 수집된 데이터는 적어도 하나의 특성 정보에 대해 시계열적으로 수집된 것이다.Meanwhile, as previously explained in relation to FIG. 8, characteristic information refers to the content of collected data, and the collected data is collected in time series for at least one piece of characteristic information.
프로세서(150)는 서버 등 외부장치로부터 수집된 데이터를 수신할 수 있으나, 전자장치(100)가 수집한 데이터일 수 있고, 어느 하나에 한정되지 않는다. The processor 150 may receive data collected from an external device such as a server, but the data may be collected by the electronic device 100 and is not limited to any one.
프로세서(150)는 필요한 시간 구간을 기준으로 제1 데이터의 구간을 설정할 수 있다. 이때, 제1 데이터는 수집된 데이터 중 처리하고자 하는 대상이 된다. The processor 150 may set the section of the first data based on the required time section. At this time, the first data becomes the object to be processed among the collected data.
수집된 데이터에 대해 분석을 진행할 경우 예를 들어, 클러스트링을 적용한 데이터 패턴 분류 적용 시, 누락 데이터가 많은 데이터는 분석에서 제외하는 것이 성능을 높일 수 있다. 그러나 어느 정도의 누락 데이터를 포함하는 데이터일 경우에는 보간 등을 이용하여 데이터를 복구한 후 최대한 활용하는 것이 성능을 높일 수 있다. 즉 누락 데이터를 포함하는 데이터에 대해서 어느 정도까지 허용하여 선별할 것인지에 대한 기준이 필요하다. 따라서, 제1 데이터를 적절히 설정하는 것은 수집된 데이터의 처리 품질을 높이는 데 기여할 수 있고 올바른 결과를 도출할 수 있다.When analyzing collected data, for example, when applying data pattern classification using clustering, performance can be improved by excluding data with a lot of missing data from the analysis. However, in the case of data containing a certain degree of missing data, performance can be improved by recovering the data using interpolation, etc. and then utilizing it as much as possible. In other words, standards are needed for how much data containing missing data will be tolerated and selected. Therefore, appropriately setting the first data can contribute to improving the processing quality of the collected data and produce correct results.
일 실시예로, 프로세서(150)는 제1 데이터의 복수의 구간 중 각 구간에 포함되는 누락 데이터의 정도에 기초하여 제1 데이터의 제1 구간을 설정할 수 있다. 예를 들어, 수집된 데이터를 이용하여 시간 구간을 설정하는 경우, 제1 데이터로 설정할 수 있는 구간은 복수 개 존재할 수 있다. 복수의 구간 중에서 특정 구간에 포함되는 누락 데이터의 정도가 적으면, 다른 구간에 비해서 데이터의 품질이 좋다고 평가할 수 있다. 따라서, 프로세서(150)는 제1 데이터의 복수의 구간 중 포함되는 누락 데이터의 정도가 가장 적은 구간을 제1 데이터의 제1 구간으로 설정할 수 있다. In one embodiment, the processor 150 may set the first section of the first data based on the degree of missing data included in each section among the plurality of sections of the first data. For example, when setting a time section using collected data, there may be a plurality of sections that can be set as first data. If the degree of missing data included in a specific section among a plurality of sections is small, the quality of the data can be evaluated to be better than that of other sections. Accordingly, the processor 150 may set the section containing the least amount of missing data among the plurality of sections of the first data as the first section of the first data.
또한, 프로세서(150)는 제1 구간에 포함된 누락 데이터의 연속된 정도나, 제1 구간에 포함된 누락 데이터의 합산 정도에 기초하여 제1 데이터의 제1 구간을 설정할 수 있다. 예를 들어, 누락 데이터가 3개 연속된 데이터를 포함하는 구간과, 누락 데이터가 3개 있으나 각각 산포되어 보간으로 보완이 가능한 데이터를 포함하는 구간의 경우, 후자의 구간이 보다 유효한 데이터로 제1 구간으로 설정될 가능성이 높다.Additionally, the processor 150 may set the first section of the first data based on the degree of continuity of the missing data included in the first section or the degree of summation of the missing data included in the first section. For example, in the case of a section containing three consecutive pieces of missing data and a section containing three pieces of missing data but data that are scattered and can be supplemented by interpolation, the latter section is the more valid data and is the first section. It is highly likely that it will be set as a section.
또 다른 실시예로, 프로세서(150)는 수집된 데이터 내 전체 누락 데이터의 정도를 식별하고, 전체 누락 데이터의 정도 대비 해당 구간에 포함된 누락 데이터의 정도가 적은 구간을 제1 데이터의 제1 구간으로 설정할 수 있다. In another embodiment, the processor 150 identifies the overall degree of missing data in the collected data, and selects a section in which the degree of missing data included in the corresponding section is less compared to the overall degree of missing data as the first section of the first data. It can be set to .
본 발명의 일 실시예에 따른 프로세서(150)는 제1 데이터의 구간에 포함된 누락 데이터를 재설정하여 제2 데이터를 생성한다(S920).The processor 150 according to an embodiment of the present invention generates second data by resetting the missing data included in the section of the first data (S920).
제1 데이터의 구간에는 누락 데이터뿐 아니라, 미수집 데이터를 포함할 수 있다. 미수집 데이터는 데이터를 수집하는 도중 누락이 된 데이터를 제외하고, 서로 다른 데이터를 시계열적으로 나열하였을 때, 데이터 수집 시작 시간이나 수집 종료 시간이 달라 수집된 데이터가 없는 경우를 의미한다.The section of the first data may include not only missing data but also uncollected data. Uncollected data refers to cases where, excluding data missing during data collection, when different data are listed in time series, no data is collected because the data collection start time or end time is different.
본 발명의 일 실시예에 따르면, 누락 데이터를 재설정한다는 것은 제1 데이터의 구간에 포함된 미수집 데이터를 누락 데이터로 설정하는 것을 의미한다. 기존 누락 데이터와 미수집 데이터의 형식을 동일하게 변경함으로써 데이터 처리 시 동일한 처리를 받도록 통일하기 위함이다.According to an embodiment of the present invention, resetting missing data means setting uncollected data included in the section of the first data as missing data. This is to unify the data so that it receives the same processing by changing the format of existing missing data and uncollected data to be the same.
본 발명의 일 실시예에 따른 프로세서(150)는 보완이 필요한 데이터를 선별하기 위해 마련된 데이터 보완 조건에 기초하여 제2 데이터를 처리한다(S930).The processor 150 according to an embodiment of the present invention processes the second data based on data supplementation conditions provided to select data that needs supplementation (S930).
본 발명의 일 실시예에 따르면, 프로세서(150)는 제2 데이터에 포함된 누락 데이터의 비율, 기간 및 정도 중 적어도 하나에 기초하여 데이터 보완 조건을 설정할 수 있다. 이때, 데이터 보완 조건은 적어도 하나의 특성에 따라 수집된 데이터 중 하나의 데이터 셋에 적용될 수 있다. 예를 들어, 복수의 특성에 대해 수집한 데이터의 경우, 각 특성에 대응하여 수집된 데이터 셋에 적용될 수 있다. 또는, 하나의 특성에 대해 2 이상의 서로 다른 조건에서 수집한 데이터의 경우, 각 조건에 대응하여 수집된 데이터 셋에 적용될 수 있다.According to an embodiment of the present invention, the processor 150 may set data supplementation conditions based on at least one of the ratio, period, and degree of missing data included in the second data. At this time, the data supplementation condition may be applied to one data set among the data collected according to at least one characteristic. For example, in the case of data collected for multiple characteristics, it can be applied to the data set collected corresponding to each characteristic. Alternatively, in the case of data collected under two or more different conditions for one characteristic, it can be applied to the data set collected corresponding to each condition.
이때, 프로세서(150)는 입력부(110)를 통해 데이터 보완 조건에 대한 사용자 입력을 수신하여 설정하거나, 통신부(120)를 통해 외부장치로부터 데이터 보완 조건에 대한 데이터를 수신할 수 있다. 또한, 프로세서(150)는 수집된 데이터 혹은 제2 데이터를 처리하는 최적화된 데이터 보완 조건을 설정하기 위한 데이터 분석, 처리, 및 결과 정보 생성 중 적어도 일부를 규칙 기반 또는 인공지능알고리즘으로서 기계학습, 신경망 네트워크, 또는 딥러닝 알고리즘 중 적어도 하나를 이용하여 수행할 수 있다. At this time, the processor 150 may receive user input for data supplementation conditions through the input unit 110 and set them, or may receive data on data supplementation conditions from an external device through the communication unit 120. In addition, the processor 150 performs at least part of the data analysis, processing, and generation of result information to set optimized data supplementation conditions for processing the collected data or secondary data using rule-based or artificial intelligence algorithms such as machine learning and neural networks. It can be performed using at least one of a network or deep learning algorithm.
이때, 제2 데이터를 처리하는 것은, 제2 데이터에서 데이터 보완 조건을 만족하는 제3 데이터를 선별하거나, 제2 데이터 혹은 선별된 제3 데이터를 삭제하거나, 보간하는 등 다양한 데이터 처리를 수행하는 것을 포함한다.At this time, processing the second data means performing various data processing such as selecting third data that satisfies data supplement conditions from the second data, deleting the second data or selected third data, or interpolating. Includes.
보다 구체적으로, 데이터 보완 조건에 대해서 살펴보면, 프로세서(150)는 제2 데이터에 포함된 누락 데이터의 비율이 기 정의된 값보다 높을 경우 제2 데이터를 처리할 수 있다. More specifically, looking at data supplementation conditions, the processor 150 may process the second data when the ratio of missing data included in the second data is higher than a predefined value.
프로세서(150)는 제2 데이터에 포함된 누락 데이터의 기간이 기 정의된 값보다 높을 경우 제2 데이터를 처리할 수 있다. 이때, 누락 데이터의 기간은 연속된 누락 데이터에 대한 기간이거나, 제2 데이터에 산포된 누락 데이터에 대응하는 기간을 합산한 기간을 의미할 수 있다.The processor 150 may process the second data when the period of missing data included in the second data is higher than a predefined value. At this time, the period of missing data may refer to a period of consecutive missing data or a period of the sum of periods corresponding to missing data distributed in the second data.
프로세서(150)는 제2 데이터에 포함된 누락 데이터의 정도가 기 정의된 값보다 높을 경우 제2 데이터를 처리할 수 있다.The processor 150 may process the second data when the degree of missing data included in the second data is higher than a predefined value.
본 발명의 일 실시예에 따르면, 데이터를 일괄적으로 삭제하거나, 보간하지 않고, 데이터에 포함된 누락 데이터의 상황에 기초하여 보완할 데이터를 선별하여 작업을 수행하므로, 보다 합리적이고 품질 높은 데이터 처리가 가능하다. According to an embodiment of the present invention, the work is performed by selecting data to be supplemented based on the situation of missing data included in the data rather than deleting or interpolating data in batches, thereby performing more rational and high-quality data processing. is possible.
본 발명의 일 실시예에 따르면, 시계열 데이터를 사용자가 원하는 품질에 기반하여 누락 데이터를 포함하더라도 이를 효율적으로 취사 선택하여 양질의 데이터만 사용할 수 있다.According to an embodiment of the present invention, only high-quality data can be used by efficiently selecting time series data even if it includes missing data based on the quality desired by the user.
도 10 내지 도 13은 앞서 도 9에서 설명한 동작 흐름에 따라 수집된 데이터를 처리하는 하나의 실시예를 순서대로 도시한 것이다. 본 실시예에서는 하나의 특성에 대해 수집된 D1 내지 D7 데이터를 처리한다. 다만, 본 발명은 이 실시예에 한정되지 않고, 복수의 특성에 대해 수집된 데이터를 처리할 수 있으며, 그 경우 도 10 내지 도 13에 도시된 데이터가 특성 별로 존재하거나, D1 내지 D7이 각각 서로 다른 특성일 수 있다. Figures 10 to 13 sequentially show an embodiment of processing data collected according to the operation flow previously described in Figure 9. In this embodiment, data D1 to D7 collected for one characteristic are processed. However, the present invention is not limited to this embodiment and can process data collected for a plurality of characteristics, in which case the data shown in FIGS. 10 to 13 exist for each characteristic, or D1 to D7 are each different from each other. It could be a different characteristic.
도 10은 본 발명의 일 실시예에 따른 수행 방법에 따라 제1 데이터의 구간을 설정하는 모습을 도시한 도면이다. 도 10은 도 9의 S910 단계와 관련하여 서술한다. Figure 10 is a diagram illustrating setting a section of first data according to a method according to an embodiment of the present invention. FIG. 10 describes step S910 of FIG. 9.
도 10은 누락 데이터(1010)와 미수집 데이터(1020)를 포함하는 데이터(1000)를 도시한다. 프로세서(150)는 수집된 데이터(1000)에서 처리하고자 하는 제1 데이터의 구간(1030)을 설정할 수 있다. 본 발명의 일 실시예에 따르면, 프로세서(150)는 전체 누락 데이터(1010)와 미수집 데이터(1020)를 고려하여 제1 데이터의 복수의 구간 중 제1 데이터의 제1 구간(1030)을 설정할 수 있다.10 shows data 1000 including missing data 1010 and uncollected data 1020. The processor 150 may set a section 1030 of the first data to be processed in the collected data 1000. According to an embodiment of the present invention, the processor 150 sets the first section 1030 of the first data among the plurality of sections of the first data in consideration of the total missing data 1010 and the uncollected data 1020. You can.
예를 들어, 현재 설정된 구간(1030)의 경우, 누락 데이터 및 미수집 데이터의 개수가 7개인 반면, 한 칸씩 앞으로 구간을 설정하면, 누락 데이터 및 미수집 데이터의 개수가 9개이다. 또한, D3 행과 같이 연속된 누락데이터의 개수가 3개로 늘어나 데이터의 품질이 더욱 저하되는 것을 알 수 있다.For example, in the case of the currently set section 1030, the number of missing data and uncollected data is 7, whereas if the section is set one space ahead, the number of missing data and uncollected data is 9. In addition, it can be seen that the number of consecutive missing data increases to three, as shown in row D3, and the quality of the data further deteriorates.
본 발명의 일 실시예에 따르면, 수집된 데이터 중 제1 데이터의 구간을 설정함으로써, 데이터 보완 조건을 만족하는 데이터를 선별하는 전처리 과정의 일환으로 데이터 품질을 더욱 높이는 데 기여할 수 있다. According to an embodiment of the present invention, by setting the section of the first data among the collected data, it can contribute to further improving data quality as part of the preprocessing process of selecting data that satisfies data supplementation conditions.
도 11은 본 발명의 일 실시예에 따른 수행 방법에 따라 제2 데이터를 생성하는 모습을 도시한 도면이다. 도 11은 도 9의 S920 단계와 관련하여 서술한다. FIG. 11 is a diagram illustrating generating second data according to a method according to an embodiment of the present invention. FIG. 11 describes step S920 of FIG. 9.
도 11은 앞서 도 10에서 설정된 제1 데이터를 가공하여 생성된 제2 데이터(1100)를 도시한다. 본 발명의 일 실시예에 따르면, 프로세서(150)는 제1 데이터의 구간(1030)에 포함된 누락 데이터(1010)를 재설정하여 제2 데이터(1100)를 생성한다. FIG. 11 shows second data 1100 generated by processing the first data previously set in FIG. 10. According to one embodiment of the present invention, the processor 150 generates the second data 1100 by resetting the missing data 1010 included in the section 1030 of the first data.
이때, 누락 데이터를 재설정한다는 것은 제1 데이터의 구간(1030)에 포함된 미수집 데이터(1020)들을 누락 데이터(1010)로 설정하는 것을 의미한다. 기존 누락 데이터(1010)와 미수집 데이터(1020)의 형식을 동일하게 변경함으로써 데이터 처리 시 동일한 처리를 받도록 통일하기 위함이다.At this time, resetting the missing data means setting the uncollected data 1020 included in the first data section 1030 as missing data 1010. This is to unify the format of existing missing data (1010) and uncollected data (1020) so that they receive the same processing when processing data.
도 12는 본 발명의 일 실시예에 따른 수행 방법에 따라 데이터 보완 조건에 기초하여 제2 데이터를 처리하는 모습을 도시한 도면이다. 도 13은 본 발명의 일 실시예에 따른 수행 방법에 따라 제2 데이터를 처리하는 모습을 도시한 도면이다. 도 12 및 도 13은 도 9의 S930 단계와 관련하여 서술한다. Figure 12 is a diagram illustrating processing of second data based on data supplementation conditions according to a method according to an embodiment of the present invention. Figure 13 is a diagram illustrating processing of second data according to a method according to an embodiment of the present invention. Figures 12 and 13 are described in relation to step S930 of Figure 9.
본 발명의 일 실시예에 따르면, 프로세서(150)는 제2 데이터(1100)에 포함된 누락 데이터(1010)의 비율, 기간 및 정도 중 적어도 하나에 기초하여 데이터 보완 조건을 설정할 수 있다. According to an embodiment of the present invention, the processor 150 may set data supplementation conditions based on at least one of the ratio, period, and degree of missing data 1010 included in the second data 1100.
보다 구체적으로, 데이터 보완 조건에 대해서 살펴보면, 프로세서(150)는 제2 데이터(1100)에 포함된 누락 데이터(1010)의 비율이 기 정의된 값보다 높을 경우 제2 데이터(1100)를 처리할 수 있다. More specifically, looking at the data supplementation conditions, the processor 150 can process the second data 1100 when the ratio of missing data 1010 included in the second data 1100 is higher than a predefined value. there is.
프로세서(150)는 제2 데이터(1100)에 포함된 누락 데이터(1010)의 기간이 기 정의된 값보다 높을 경우 제2 데이터(1100)를 처리할 수 있다. 이때, 누락 데이터(1010)의 기간은 연속된 누락 데이터(1010)에 대한 기간이거나, 제2 데이터(1100)에 산포된 누락 데이터(1010)에 대응하는 기간을 합산한 기간을 의미할 수 있다.The processor 150 may process the second data 1100 when the period of missing data 1010 included in the second data 1100 is higher than a predefined value. At this time, the period of the missing data 1010 may refer to a period of consecutive missing data 1010 or a period of the sum of the periods corresponding to the missing data 1010 distributed in the second data 1100.
프로세서(150)는 제2 데이터(1100)에 포함된 누락 데이터(1010)의 정도가 기 정의된 값보다 높을 경우 제2 데이터(1100)를 처리할 수 있다.The processor 150 may process the second data 1100 when the degree of missing data 1010 included in the second data 1100 is higher than a predefined value.
이때, 프로세서(150)가 제2 데이터(1100)를 처리하는 것은, 제2 데이터(1100)에서 데이터 보완 조건을 만족하는 제3 데이터(1110)를 선별하는 것을 포함한다. At this time, the processor 150 processing the second data 1100 includes selecting third data 1110 that satisfies the data supplementation conditions from the second data 1100.
예를 들어, 도 12에 도시된 제2 데이터(1100)에 대해 설정된 데이터 보완 조건은 누락 데이터(1010)의 개수가 2개 이상이고, 프로세서(150)는 데이터 보완 조건을 만족하는 데이터를 보완이 필요한 제3 데이터(1110)로 선별할 수 있다.For example, the data supplementation condition set for the second data 1100 shown in FIG. 12 is that the number of missing data 1010 is two or more, and the processor 150 supplements the data that satisfies the data supplementation condition. It can be selected as necessary third data (1110).
이때, 데이터 보완 조건은 적어도 하나의 특성에 따라 수집된 데이터 중 하나의 데이터 셋에 적용될 수 있다. 예를 들어, 제2 데이터(1100)가 도시 별 미세먼지 양을 측정한 데이터로써, D1 행 내지 D7 행은 서로 다른 도시에서 수집된 미세먼지 양에 대한 데이터로 가정한다. 누락 데이터(1010)의 개수가 2개 이상인 도시를 식별하는 데이터 보완 조건은 D1 행 내지 D7 행 각각에 적용되어, 프로세서(150)는 제2 데이터(1100) 중 D3 행과 D5 행의 데이터가 데이터 보완이 필요한 제3 데이터(1110)로 선별할 수 있다.At this time, the data supplementation condition may be applied to one data set among the data collected according to at least one characteristic. For example, it is assumed that the second data 1100 is data measuring the amount of fine dust in each city, and rows D1 to D7 are data on the amount of fine dust collected in different cities. The data supplementation condition for identifying cities in which the number of missing data 1010 is two or more is applied to each of rows D1 to D7, so that the processor 150 determines that the data in rows D3 and D5 of the second data 1100 are data. It can be selected as third data 1110 that needs supplementation.
본 발명의 일 실시예에 따른 프로세서(150)는 선별된 제3 데이터(1110)를 삭제하거나, 보간할 수 있다. 본 실시예에서는 선별된 제3 데이터(1110)를 삭제하였다.The processor 150 according to an embodiment of the present invention may delete or interpolate the selected third data 1110. In this embodiment, the selected third data 1110 was deleted.
프로세서(150)는 제3 데이터 선별 및 그에 따른 처리 후 남아있는 데이터 중 누락 데이터는 보간이 필요한 데이터(1310)로 식별한다. 프로세서는 보간이 필요한 데이터(1310)에 대해 보간을 수행하고, 복구된 데이터(1300)를 활용하여 분석을 수행할 수 있다. The processor 150 identifies missing data among the data remaining after the third data selection and processing as data 1310 requiring interpolation. The processor may perform interpolation on data 1310 that requires interpolation and perform analysis using the recovered data 1300.
본 발명의 일 실시예에 따르면, 데이터 보완 조건에 기초하여 보완이 필요한 데이터를 선별하므로, 양질의 데이터를 제공할 수 있다. 또한, 선별된 데이터를 처리한 데이터를 기초로 분석하므로 무리한 삭제 작업이나, 보간 작업을 피할 수 있어 보다 높은 품질의 데이터 분석을 수행할 수 있다. According to an embodiment of the present invention, data requiring supplementation is selected based on data supplementation conditions, so high-quality data can be provided. In addition, since the analysis is based on the processed data of the selected data, unreasonable deletion or interpolation work can be avoided, allowing higher quality data analysis to be performed.
도 14는 본 발명의 다른 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.Figure 14 is a diagram illustrating an operation flowchart of an electronic device according to another embodiment of the present invention.
본 발명의 일 실시예에 따른 프로세서(150)는 수집된 데이터 중 이상 데이터를 처리한다(S1410). S1410 단계에서 프로세서(150)의 동작은 도 9의 S920의 단계와 관련하여 제1 데이터 중 이상 데이터를 처리하는 동작일 수 있다. The processor 150 according to an embodiment of the present invention processes abnormal data among the collected data (S1410). The operation of the processor 150 in step S1410 may be an operation of processing abnormal data among the first data in relation to step S920 of FIG. 9.
수집된 데이터는 적어도 하나의 특성 정보에 대해 시계열적으로 수집된 것이다. 예를 들어 온도 센서로부터 수집된 온도 데이터일 수 있다. 프로세서(150)는 서버 등 외부장치로부터 수집된 데이터를 수신할 수 있으나, 전자장치(100)가 수집한 데이터일 수 있고, 어느 하나에 한정되지 않는다. The collected data is collected in time series for at least one characteristic information. For example, it may be temperature data collected from a temperature sensor. The processor 150 may receive data collected from an external device such as a server, but the data may be collected by the electronic device 100 and is not limited to any one.
본 발명의 일 실시예에 따르면, 프로세서(150)는 수집된 데이터 중 이상 데이터를 누락 데이터로 치환하여 처리하거나, 이상 데이터 전후로 수집된 데이터를 이용하여 적절한 데이터로 보간할 수 있다. According to an embodiment of the present invention, the processor 150 may process abnormal data among the collected data by replacing it with missing data, or may interpolate it into appropriate data using data collected before and after the abnormal data.
일 실시예로, 프로세서(150)는 수집된 데이터 중 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별한다(S1420). S1420 단계에서 프로세서(150)의 동작은 도 9의 S930의 단계와 관련하여 제1 데이터 중 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별하고, 식별된 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 제2 데이터에 포함된 누락 데이터를 처리하는 동작일 수 있다.In one embodiment, the processor 150 identifies information about missing data including processed abnormal data among the collected data (S1420). In step S1420, the operation of the processor 150 is to identify information about missing data including processed abnormal data among the first data in relation to step S930 of FIG. 9, and at least This may be an operation of processing missing data included in the second data using one missing data processing method.
본 발명의 일 실시예에 따르면, 수집된 데이터는 이상 데이터뿐 아니라, 누락 데이터를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 누락 데이터는 S1410 단계에서 이상 데이터로부터 치환된 누락 데이터와, 수집 데이터에 기 포함된 누락 데이터를 포함한다.According to an embodiment of the present invention, the collected data may include missing data as well as abnormal data. According to an embodiment of the present invention, the missing data includes missing data replaced from abnormal data in step S1410 and missing data already included in the collected data.
본 발명의 일 실시예에 따르면, 누락 데이터에 대한 정보는 누락 데이터의 위치에 관한 정보 및 누락 데이터의 연속성에 관한 정보 중 적어도 하나를 포함한다. 본 발명의 일 실시예에 따르면, 누락 데이터의 위치에 관한 정보란, 예를 들어, 테이블 형식으로 이루어진 데이터에서 누락 데이터가 위치한 행, 열에 관한 정보 등을 포함한다. 또한, 누락 데이터의 연속성에 관한 정보란 누락 데이터가 연속된 정도(시간)에 관한 정보, 누락 데이터의 분포 양상 등 누락 데이터의 경향성이나 패턴을 식별할 수 있는 정보 등을 포함한다.According to an embodiment of the present invention, information about missing data includes at least one of information about the location of the missing data and information about the continuity of the missing data. According to an embodiment of the present invention, information about the location of missing data includes, for example, information about the row and column where the missing data is located in data in a table format. In addition, information about the continuity of missing data includes information about the degree (time) of continuous missing data and information that can identify trends or patterns of missing data, such as the distribution pattern of missing data.
따라서, 프로세서(150)는 누락 데이터의 위치에 관한 정보 및 누락 데이터의 연속성에 관한 정보 중 적어도 하나를 포함하는 누락 데이터에 대한 정보를 식별할 수 있다. Accordingly, the processor 150 may identify information about the missing data that includes at least one of information about the location of the missing data and information about the continuity of the missing data.
본 발명의 일 실시예에 따른 프로세서(150)는 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 누락 데이터를 처리한다(S1430).The processor 150 according to an embodiment of the present invention processes missing data using at least one missing data processing method based on information about the missing data (S1430).
본 발명의 일 실시예에 따른 프로세서(150)는 누락 데이터의 위치에 관한 정보 및/또는 누락 데이터의 연속성에 관한 정보에 기초하여 누락 데이터의 보완을 수행할 수 있다.The processor 150 according to an embodiment of the present invention may supplement missing data based on information about the location of the missing data and/or information about the continuity of the missing data.
이때, 프로세서(150)는 누락 데이터에 대한 정보에 기초하여 적어도 하나의 구간에 대응되는 누락 데이터를 처리할 상기 적어도 하나의 누락 데이터 처리 방법을 식별할 수 있다. 프로세서(150)는 누락 데이터에 대한 정보에 따라 누락 데이터의 처리 정도를 조정하는 파라미터 정보를 함께 고려하여 누락 데이터를 보완할 수 있다. 본 실시예에 따른 파라미터 정보는 누락 데이터를 포함하는 구간에 관한 정보나, 누락 데이터 처리 방법에 관한 정보, 누락 데이터 처리 조건 등을 포함할 수 있다. At this time, the processor 150 may identify the at least one missing data processing method to process the missing data corresponding to at least one section based on information about the missing data. The processor 150 may supplement the missing data by considering parameter information that adjusts the degree of processing of the missing data according to the information about the missing data. Parameter information according to this embodiment may include information about a section containing missing data, information about a missing data processing method, missing data processing conditions, etc.
일 예로, 10개의 연속된 누락 데이터를 포함하는 구간에 대해 하나의 누락 데이터 처리 방법을 적용하여 처리할 수 있다. 또 다른 예로, 10개의 연속된 누락 데이터를 포함하는 구간을 세 구간으로 나누고, 각 구간에 대해 서로 다른 누락 데이터 처리 방법을 적용하여 처리할 수 있다. 추가로, 각 구간에 대해서도 복수의 누락 데이터 처리 방법을 적용하여 각 처리 방법에 따라 보완된 데이터 값의 평균값이나, 일정 비율을 적용하여 최종 보완 데이터 값을 도출할 수 있다.As an example, a section containing 10 consecutive pieces of missing data can be processed by applying one missing data processing method. As another example, a section containing 10 consecutive pieces of missing data can be divided into three sections and processed by applying different missing data processing methods to each section. Additionally, by applying multiple missing data processing methods to each section, the final supplemented data value can be derived by applying the average value or a certain ratio of the supplemented data values according to each processing method.
이때, 프로세서(150)는 누락 데이터를 처리할 지 여부를 결정하는 조건, 즉 데이터 보완 여부를 결정하는 조건에 기초하여 누락 데이터를 처리할 수 있다. 예를 들어, 전체 데이터 중 누락 데이터가 20% 이하인 경우에만 보완을 진행하거나, 전체 데이터 중 누락 데이터가 30%를 넘지 않고, 10개 이하의 연속되는 누락 데이터에 대해서만 보완을 수행하는 등의 조건에 따라 누락 데이터를 처리할 수 있다. At this time, the processor 150 may process the missing data based on conditions that determine whether to process the missing data, that is, conditions that determine whether to supplement the data. For example, under conditions such as performing supplementation only when missing data is less than 20% of the total data, missing data does not exceed 30% of the total data, and supplementation is performed only for 10 or less consecutive pieces of missing data. Missing data can be handled accordingly.
본 발명의 일 실시예에 따르면, 프로세서(150)는 누락 데이터에 대한 정보에 따라 누락 데이터의 처리 정도를 조정하기 위한 데이터 분석, 처리, 및 결과 정보 생성 중 적어도 일부를 규칙 기반 또는 인공지능 알고리즘으로서 기계학습, 신경망 네트워크, 또는 딥러닝 알고리즘 중 적어도 하나를 이용하여 수행할 수 있다. According to one embodiment of the present invention, the processor 150 performs at least part of data analysis, processing, and generation of result information to adjust the degree of processing of missing data according to information about missing data using a rule-based or artificial intelligence algorithm. It can be performed using at least one of machine learning, neural network, or deep learning algorithms.
또한, 사용자의 요구에 적응적으로 누락 데이터 보완을 수행하기 위해, 프로세서(150)는 적어도 하나의 구간에 대응되는 누락 데이터를 처리할 적어도 하나의 누락 데이터 처리 방법에 관한 사용자 입력을 입력부(110)를 통해 수신할 수 있다. 따라서, 프로세서(150)는 사용자가 정의한 파라미터 정보에 따라 적어도 하나의 누락 데이터 처리 방법을 적용하여 누락 데이터를 보완할 수 있다.In addition, in order to adaptively compensate for missing data according to the user's request, the processor 150 inputs a user input regarding at least one missing data processing method to process missing data corresponding to at least one section through the input unit 110. It can be received through . Accordingly, the processor 150 may supplement the missing data by applying at least one missing data processing method according to parameter information defined by the user.
본 발명의 일 실시예에 따르면, 누락 데이터를 포함하는 구간의 상태에 따라 최적화된 방법을 적용하여 보완하므로 보다 합리적이고 품질 높은 데이터 처리가 가능하다. According to an embodiment of the present invention, more rational and high-quality data processing is possible by applying and supplementing an optimized method according to the state of the section containing missing data.
본 발명의 일 실시예에 따르면, 데이터 활용 용도에 따라 보간 및 치환 방법을 달리 적용할 수 있으므로, 보다 품질 높은 데이터 보완을 수행할 수 있다.According to an embodiment of the present invention, different interpolation and replacement methods can be applied depending on the purpose of data use, so higher quality data supplementation can be performed.
도 15는 본 발명의 일 실시예에 따른 전자장치의 동작 모습을 도시한 도면이다. 본 실시예에서는 누락 데이터를 처리하는 과정(1500)에 대해서 설명하고, 도 14에서 설명한 내용과 중복되는 내용은 도 14와 동일하게 적용되는 바, 이에 대해서 구체적인 설명은 생략한다.Figure 15 is a diagram showing the operation of an electronic device according to an embodiment of the present invention. In this embodiment, the process 1500 of processing missing data is described, and since content overlapping with that described in FIG. 14 is applied in the same manner as in FIG. 14, detailed description thereof will be omitted.
본 발명의 일 실시예에 따른 프로세서(150)는 수집된 데이터(이하, 수집 데이터(a)라 한다.) 중 이상 데이터(b)를 처리한다(1510). The processor 150 according to an embodiment of the present invention processes abnormal data (b) among the collected data (hereinafter referred to as collected data (a)) (1510).
보다 구체적으로, 이상 데이터(b)는 확실 이상 데이터(b1) 및 불확실 이상 데이터(b2)를 포함한다. 확실 이상 데이터(b1)는 수집 데이터(a)의 값이 가질 수 있는 최소-최대 범위를 넘어선 값을 가지는 등 명확하게 판단되는 오류 데이터를 의미한다. 불확실 이상 데이터(b2)는 명확한 오류는 아니지만 해당 데이터 전후로 획득된 데이터와 비교 시 확연한 차이를 보이는 등과 같이 이상 데이터인지 불확실해 보이는 이상 데이터를 의미한다. More specifically, the abnormal data (b) includes certain abnormal data (b1) and uncertain abnormal data (b2). Clearly abnormal data (b1) refers to error data that is clearly determined, such as having a value that exceeds the minimum-maximum range that the value of the collected data (a) can have. Uncertain abnormal data (b2) refers to abnormal data that is not a clear error, but appears uncertain as to whether it is abnormal data, such as a clear difference when compared with data obtained before and after the relevant data.
프로세서(150)는, 수집 데이터(a) 중 확실 이상 데이터(b1) 및 불확실 이상 데이터(b2)를 포함하는 이상 데이터(b)를 식별하고, 확실 이상 데이터(b1) 및 불확실 이상 데이터(b2)를 각각 처리한다. 일 예로, 프로세서(150)는 수집 데이터(a) 중 확실 이상 데이터(b1)는 누락 데이터로 치환하여 처리하거나, 불확실 이상 데이터(b2)는 누락 데이터로 치환하여 처리하거나, 불확실 이상 데이터(b2) 전후로 수집된 데이터를 이용하여 적절한 데이터로 보간할 수 있다. 이때, 프로세서(150)는 입력부(110)를 통해 불확실 이상 데이터(b2)의 값을 결정하는 사용자입력을 수신할 수 있다.The processor 150 identifies abnormal data (b) including certain abnormal data (b1) and uncertain abnormal data (b2) among the collected data (a), and determines the certain abnormal data (b1) and uncertain abnormal data (b2). Process each. As an example, the processor 150 replaces certain abnormal data (b1) with missing data among the collected data (a) and processes it, replaces uncertain abnormal data (b2) with missing data and processes it, or processes uncertain abnormal data (b2) by replacing it with missing data. Data collected before and after can be used to interpolate to appropriate data. At this time, the processor 150 may receive a user input for determining the value of the uncertain abnormal data b2 through the input unit 110.
본 발명의 일 실시예에 따른 프로세서(150)는 수집 데이터(a) 중 처리된 이상 데이터를 포함하는 누락 데이터(c)에 대한 정보를 식별한다(1520).The processor 150 according to an embodiment of the present invention identifies information about missing data (c) including processed abnormal data among the collected data (a) (1520).
본 발명의 일 실시예에 따른 프로세서(150)는 누락 데이터(c)에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 누락 데이터(c)를 처리한다(1530). 결과적으로, 수집 데이터(a)를 처리한 처리 데이터(d)를 획득하게 된다. The processor 150 according to an embodiment of the present invention processes the missing data c using at least one missing data processing method based on information about the missing data c (1530). As a result, processed data (d) obtained by processing the collected data (a) is obtained.
본 발명의 일 실시예에 따르면, 이상 데이터를 확실 이상 데이터 및 불확실 이상 데이터로 구별하여 처리하므로 보다 정밀하게 이상 데이터를 처리할 수 있다. According to an embodiment of the present invention, abnormal data can be processed more precisely by distinguishing and processing abnormal data into certain abnormal data and uncertain abnormal data.
도 16은 본 발명의 다른 실시예에 따른 전자장치의 동작 모습을 도시한 도면이다. 도 16의 동작 모습은 복수의 수집 데이터(a)를 각각 처리하여 획득한 복수의 처리 데이터(d)를 통합하는 방법(1600)에 대해서 설명한다.Figure 16 is a diagram showing the operation of an electronic device according to another embodiment of the present invention. The operation of FIG. 16 explains a method 1600 of integrating a plurality of processed data (d) obtained by separately processing a plurality of collected data (a).
본 발명의 일 실시예에 따르면, Data1, Data2, …, DataN을 포함하는 복수의 수집 데이터(a)를 통합하기 위해서, 각각의 수집 데이터에 대해 도 14 및 도 15에서 설명한 데이터 처리(1500)가 선행되어야 한다. 각 수집 데이터(a)에 대해 데이터 처리(1500) 과정을 거쳐 획득된 처리 데이터(d)는 Data1’, Data2’, …, DataN’을 포함한다. According to an embodiment of the present invention, Data1, Data2,... , In order to integrate a plurality of collected data (a) including DataN, the data processing 1500 described in FIGS. 14 and 15 must be performed first for each collected data. For each collected data (a), the processed data (d) obtained through the data processing (1500) process are Data1', Data2',... , DataN’.
본 발명의 일 실시예에 따른 프로세서(150)는 획득한 처리 데이터(d)를 결합한다(1610). The processor 150 according to an embodiment of the present invention combines the obtained processing data (d) (1610).
처리 데이터(d)를 결합하는 과정에 대해 표 2의 데이터를 참조하여 구체적으로 살펴본다. 표 2에 나타난 데이터 1, 데이터 2, 데이터 3은 개별적으로 데이터 처리(1500)가 완료된 처리 데이터(d)라고 가정한다.Let's look at the process of combining processed data (d) in detail by referring to the data in Table 2. Data 1, Data 2, and Data 3 shown in Table 2 are assumed to be processed data (d) for which data processing (1500) has been individually completed.
데이터 1 data 1 1/1일 0시 0분 ~ 1/10e일 24시 0분00:00 on 1/1 ~ 24:00 on 1/10e 1분 단위로 측정Measured in 1 minute increments
데이터 2data 2 1/1일 3시~ 1/10일 23시1/1 3:00 ~ 1/10 23:00 1시간 단위로 측정Measured in 1-hour increments
데이터 3data 3 1/1일 0시~ 1/11일 24시0:00 on 1/1 ~ 24:00 on 1/11 3시간 단위로 측정Measured in 3-hour increments
본 발명의 일 실시예에 따르면, 프로세서(150)는 복수의 처리 데이터(d)의 결합구간을 표 3과 같이 설정할 수 있다.According to one embodiment of the present invention, the processor 150 may set the combining section of the plurality of processed data d as shown in Table 3.
결합구간 1 Combined section 1 1/1일 3시~ 1/10일 23시1/1 3:00 ~ 1/10 23:00
결합구간 2 Combined section 2 1/1일 0시 0분 ~ 1/10일 24시 0분1/1 00:00 ~ 1/10 24:00
본 발명의 일 실시예에 따르면, 프로세서(150)는 결합 구간에 따라 누락 데이터를 재설정할 수 있다. 본 발명의 일 실시예에 따르면, 누락 데이터를 재설정한다는 것은 수집 데이터를 수집한 시간 구간보다 확장하여 미수집 데이터가 발생하는 경우, 미수집 데이터를 누락 데이터로 설정하는 것을 의미한다. 기존 누락 데이터와 미수집 데이터의 형식을 동일하게 변경함으로써 데이터 처리 시 동일한 처리를 받도록 통일하기 위함이다.예를 들어, 결합구간을 결합구간 1로 설정하는 경우, 데이터 1의 일부 데이터, 데이터 2의 전체 데이터, 데이터 3의 일부 데이터를 사용하게 되어 추가적인 누락 데이터의 재설정이 불필요하다. According to one embodiment of the present invention, the processor 150 may reset missing data according to the combining section. According to an embodiment of the present invention, resetting missing data means setting the uncollected data as missing data when uncollected data occurs beyond the time period in which the collected data was collected. By changing the format of existing missing data and uncollected data to be the same, the purpose is to unify them so that they receive the same processing when processing data. For example, when setting the combining section to combining section 1, some data from data 1 and some data from data 2 Because the entire data and some data from Data 3 are used, there is no need to reset additional missing data.
그러나, 결합구간을 결합구간 2로 설정하는 경우, 데이터 1은 전체 데이터, 데이터 3은 일부 데이터를 사용하여 누락 데이터 설정이 불필요한 반면, 데이터 2는 1/1일 0시 이후 1/1일 3시 이전과, 1/10일 23시 이후 1/10일 24시 이전의 데이터가 없으므로, 해당 시간에 대응하는 미수집 데이터에 대해 누락 데이터의 재설정이 필요하다. However, when the combined section is set to combined section 2, data 1 uses all data and data 3 uses some data, so setting missing data is unnecessary, while data 2 uses 0:00 on 1/1 day and then 3:00 on 1/1 day. Since there is no data before or after 23:00 on 1/10 and before 24:00 on 1/10, it is necessary to reset missing data for uncollected data corresponding to that time.
본 발명의 일 실시예에 따르면, 프로세서(150)는 복수의 처리 데이터(d)의 데이터 수집 주기에 기초하여 데이터를 결합할 수 있다. 일 예로, 프로세서(150)는 복수의 처리 데이터(d)의 데이터 수집 주기에 기초하여 데이터의 인덱싱을 다시 수행(reindexing) 할 수 있다. 보다 구체적으로, 프로세서(150)는 복수의 처리 데이터(d)의 데이터 수집 주기에 기초하여 복수의 처리 데이터(d) 각각을 업샘플링(upsampling) 또는 다운샘플링(downsampling)하여 결합할 수 있다. According to one embodiment of the present invention, the processor 150 may combine data based on the data collection cycle of the plurality of processed data d. As an example, the processor 150 may reindex the data based on the data collection cycle of the plurality of processed data d. More specifically, the processor 150 may upsample or downsample each of the plurality of processed data d based on the data collection cycle of the plurality of processed data d and combine them.
예를 들어, 결합 주기를 1분 단위로 할 경우 데이터 2와 데이터 3에 대한 업샘플링이 필요하고, 결합 주기를 1시간 단위로 할 경우 데이터 1은 다운샘플링, 데이터 3은 업샘플링이 필요하다.For example, when the combining cycle is set to 1 minute, upsampling is required for data 2 and data 3, and when the combining period is set to 1 hour, downsampling for data 1 and upsampling for data 3 are required.
이때, 다운샘플링은 평균과 같은 널리 알려진 통계적 계산 방법을 활용할 수 있으나, 업샘플링은 처리 하는 방법이 매우 다양하며, 이에 따른 데이터 복원 효과도 매우 다르기 때문에 앞서 도 16에서 서술한 누락 데이터 처리 방법 중 적어도 하나를 적용하여 수행할 수 있다. 다만, 이는 예시에 불과한 바, 업샘플링과 다운샘플링을 수행하는 방법은 제한없이 적용 가능하다.At this time, downsampling can utilize well-known statistical calculation methods such as average, but upsampling has very diverse processing methods, and the resulting data restoration effects are also very different, so at least one of the missing data processing methods described in FIG. 16 above is used. This can be done by applying one. However, this is only an example, and methods of performing upsampling and downsampling can be applied without limitation.
데이터를 결합하고 난 뒤, 프로세서(150)는 결합한 데이터에 다시 데이터 처리(1620)를 수행할 수 있다. 이때, 데이터 처리(1620)는 데이터 처리(1500)와 동일할 수 있으며, 데이터 처리(1620)와 데이터 처리(1500)는 동일 프로세서 혹은 서로 다른 프로세서에서 수행될 수 있다. 보다 구체적으로, 프로세서(150)는, 복수의 수집 데이터를 각각 처리하여 복수의 처리 데이터를 획득하고, 복수의 처리 데이터를 결합하고, 결합된 데이터 중 이상 데이터를 처리하고, 결합된 데이터 중 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별하고, 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 누락 데이터를 처리할 수 있다. 프로세서(150)는 누락 데이터를 처리하여 데이터를 통합(1630)할 수 있다. After combining the data, the processor 150 may perform data processing 1620 again on the combined data. At this time, data processing 1620 may be the same as data processing 1500, and data processing 1620 and data processing 1500 may be performed on the same processor or different processors. More specifically, the processor 150 processes each of the plurality of collected data to obtain a plurality of processed data, combines the plurality of processed data, processes abnormal data among the combined data, and processes abnormal data among the combined data. Information on missing data including abnormal data may be identified, and the missing data may be processed using at least one missing data processing method based on the information on the missing data. The processor 150 may process missing data and integrate data (1630).
본 발명의 일 실시예에 따르면, 복수의 단일 데이터가 결합된 데이터에 대해 적용할 수 있어, 데이터를 결합하는 경우에도 품질 높은 데이터 보완을 수행할 수 있다.According to an embodiment of the present invention, it can be applied to data in which a plurality of single data are combined, so that high-quality data supplementation can be performed even when data are combined.
이와 같은 본 발명의 일 실시예에 의하면, 주기적 특성을 지닌 시계열 데이터를 기반으로 품질 검증을 수행하여 불량 데이터를 처리함으로써, 높은 데이터 품질을 가진 데이터를 기반으로 학습 및 분석에 활용 가능하여 전체적인 성능 결과를 향상시킬 수 있다.According to one embodiment of the present invention, quality verification is performed based on time series data with periodic characteristics and defective data is processed, so that data with high data quality can be used for learning and analysis, resulting in overall performance results. can be improved.
또한, 데이터에 포함된 누락 데이터의 상황에 기초하여 보완할 데이터를 선별하여 작업을 수행하므로, 보다 합리적이고 품질 높은 데이터 처리가 가능하다. 또한, 데이터 보완 조건에 기초하여 양질의 데이터를 제공하므로 무리한 삭제 작업이나, 보간 작업을 피할 수 있어 보다 높은 품질의 데이터 분석을 수행할 수 있다. In addition, since data to be supplemented is selected based on the status of missing data included in the data, more rational and high-quality data processing is possible. In addition, since high-quality data is provided based on data supplementation conditions, unreasonable deletion or interpolation work can be avoided, allowing higher quality data analysis to be performed.
이와 더불어, 누락 데이터를 포함하는 구간의 상태에 따라 최적화된 방법을 적용하여 보완하여 보다 합리적이고 품질 높은 데이터 처리가 가능하며, 데이터 활용 용도에 따라 보간 및 치환 방법을 달리 적용할 수 있으므로, 보다 품질 높은 데이터 보완을 수행할 수 있다. 또한, 복수의 단일 데이터가 결합된 데이터에 대해 적용할 수 있어, 데이터를 결합하는 경우에도 품질 높은 데이터 보완을 수행할 수 있다.In addition, more reasonable and high-quality data processing is possible by applying and supplementing optimized methods according to the status of the section containing missing data. Interpolation and replacement methods can be applied differently depending on the purpose of data use, resulting in higher quality. High data complementation can be performed. In addition, it can be applied to data that is a combination of multiple single data, so high-quality data supplementation can be performed even when combining data.
이상에서 전술한 본 발명의 일 실시예들은, 하드웨어인 서버와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.The embodiments of the present invention described above may be implemented as a program (or application) and stored in a medium in order to be executed in conjunction with a server, which is hardware.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.The above-mentioned program is C, C++, JAVA, machine language, etc. that can be read by the processor (CPU) of the computer through the device interface of the computer in order for the computer to read the program and execute the methods implemented in the program. It may include code coded in a computer language. These codes may include functional codes related to functions that define the necessary functions for executing the methods, and include control codes related to execution procedures necessary for the computer's processor to execute the functions according to predetermined procedures. can do. In addition, these codes may further include memory reference-related codes that indicate at which location (address address) in the computer's internal or external memory additional information or media required for the computer's processor to execute the above functions should be referenced. there is. In addition, if the computer's processor needs to communicate with any other remote computer or server to execute the above functions, the code uses the computer's communication module to determine how to communicate with any other remote computer or server. It may further include communication-related codes regarding whether communication should be performed and what information or media should be transmitted and received during communication.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.The storage medium refers to a medium that stores data semi-permanently and can be read by a device, rather than a medium that stores data for a short period of time, such as a register, cache, or memory. Specifically, examples of the storage medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc., but are not limited thereto. That is, the program may be stored in various recording media on various servers that the computer can access or on various recording media on the user's computer. Additionally, the medium may be distributed to computer systems connected to a network, and computer-readable code may be stored in a distributed manner.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.The steps of the method or algorithm described in connection with embodiments of the present invention may be implemented directly in hardware, implemented as a software module executed by hardware, or a combination thereof. The software module may be RAM (Random Access Memory), ROM (Read Only Memory), EPROM (Erasable Programmable ROM), EEPROM (Electrically Erasable Programmable ROM), Flash Memory, hard disk, removable disk, CD-ROM, or It may reside on any type of computer-readable recording medium well known in the art to which the present invention pertains.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.Above, embodiments of the present invention have been described with reference to the attached drawings, but those skilled in the art will understand that the present invention can be implemented in other specific forms without changing its technical idea or essential features. You will be able to understand it. Therefore, the embodiments described above should be understood in all respects as illustrative and not restrictive.

Claims (11)

  1. 전자장치에 의해 수행되는 방법에 있어서,In a method performed by an electronic device,
    소정의 특성 정보에 대하여 수집된 시계열 데이터를 사전 결정된 기준 주기에 기초하여 정제하는 단계;Refining time series data collected for predetermined characteristic information based on a predetermined reference period;
    상기 정제된 시계열 데이터를 소정의 분할 주기에 따라 분할하는 단계;Splitting the refined time series data according to a predetermined division cycle;
    상기 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증하는 단계; 및Verifying the quality of data for time series data divided according to the division cycle; and
    상기 검증 완료된 시계열 데이터를 선택하여 데이터 보완 조건에 따라 데이터를 처리하는 단계를 포함하되,Including the step of selecting the verified time series data and processing the data according to data supplementation conditions,
    상기 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증하는 단계는,The step of verifying the quality of data for time series data divided according to the division cycle is,
    상기 분할된 시계열 데이터를 대상으로 해당 분할 주기에서의 연속 누락 데이터의 정도 및 전체 누락 데이터의 정도 중 적어도 하나를 산출하는 단계; 및Calculating at least one of the degree of continuous missing data and the degree of total missing data in the corresponding division period for the divided time series data; and
    상기 산출된 각 정도가 기준 파라미터에 따라 설정된 정도를 초과할 경우 해당 분할 주기의 분할된 시계열 데이터를 불량 데이터로 판단하는 단계를 포함하는,Comprising the step of determining the divided time series data of the corresponding division cycle as defective data when the calculated degree exceeds the degree set according to the standard parameter,
    시계열 데이터의 품질 검증 방법.Quality verification methods for time series data.
  2. 제1항에 있어서,According to paragraph 1,
    상기 소정의 특성 정보에 대하여 수집된 시계열 데이터를 사전 결정된 기준 주기에 기초하여 정제하는 단계는,The step of refining the time series data collected for the predetermined characteristic information based on a predetermined reference period is,
    상기 수집된 시계열 데이터의 특성 정보를 통해 유추 또는 외부 파라미터에 기반하여 상기 기준 주기를 설정하는 단계를 포함하는,Comprising the step of setting the reference period based on inference or external parameters through characteristic information of the collected time series data,
    시계열 데이터의 품질 검증 방법.Quality verification methods for time series data.
  3. 제1항에 있어서,According to paragraph 1,
    상기 정제된 시계열 데이터를 소정의 분할 주기에 따라 분할하는 단계는,The step of dividing the refined time series data according to a predetermined division cycle is,
    상기 기준 주기에, 상기 특성 정보를 반영하여 결정된 소정의 가중치를 적용하여 산출된 분할 주기에 따라 상기 시계열 데이터를 분할하는 것인,Splitting the time series data according to a division period calculated by applying a predetermined weight determined by reflecting the characteristic information to the reference period,
    시계열 데이터의 품질 검증 방법.Quality verification methods for time series data.
  4. 제3항에 있어서,According to paragraph 3,
    상기 정제된 시계열 데이터를 소정의 분할 주기에 따라 분할하는 단계는,The step of dividing the refined time series data according to a predetermined division cycle is,
    상기 시계열 데이터 중 상기 분할 주기를 만족하지 않는 시계열 데이터를 삭제하는 단계를 포함하는,Comprising the step of deleting time series data that does not satisfy the division cycle among the time series data,
    시계열 데이터의 품질 검증 방법.Quality verification methods for time series data.
  5. 제1항에 있어서,According to paragraph 1,
    상기 정제된 시계열 데이터를 소정의 분할 주기에 따라 분할하는 단계는,The step of dividing the refined time series data according to a predetermined division cycle is,
    상기 정제된 시계열 데이터를 제1 분할 주기에 기초하여 분할하는 단계; 및Splitting the refined time series data based on a first division cycle; and
    상기 분할된 시계열 데이터를 제2 분할 주기에 기초하여 재분할하는 단계를 포함하는,Comprising the step of re-dividing the divided time series data based on a second division cycle,
    시계열 데이터의 품질 검증 방법.Quality verification methods for time series data.
  6. 제5항에 있어서,According to clause 5,
    상기 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증하는 단계는,The step of verifying the quality of data for time series data divided according to the division cycle is,
    상기 불량 데이터가 아닌 것으로 판단된 검증 완료된 시계열 데이터를 대상으로 상기 제2 분할 주기에 기초하여 품질을 재귀적으로 검증하는 단계를 더 포함하는,Further comprising the step of recursively verifying the quality of the verified time series data determined not to be defective data based on the second division cycle,
    시계열 데이터의 품질 검증 방법.Quality verification methods for time series data.
  7. 제6항에 있어서,According to clause 6,
    상기 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증하는 단계는,The step of verifying the quality of data for time series data divided according to the division cycle is,
    상기 제2 분할 주기에 따라 분할된 시계열 데이터의 수에 가변하여 상기 기준 파라미터에 설정된 연속 누락 데이터의 정도 및 전체 누락 데이터의 정도를 조정하는 단계를 더 포함하는,Further comprising adjusting the degree of continuous missing data and the degree of total missing data set in the reference parameter by varying the number of time series data divided according to the second division cycle,
    시계열 데이터의 품질 검증 방법.Quality verification methods for time series data.
  8. 제1항에 있어서,According to paragraph 1,
    상기 시계열 데이터가 복수 특성 정보를 포함하는 다변량 데이터인 경우, 상기 다변량 데이터는 상기 각 특성 정보 및 분할 주기에 따른 시간 정보 그룹에 따라 열과 행으로 정렬되어 구성되고, When the time series data is multivariate data including a plurality of characteristic information, the multivariate data is arranged into columns and rows according to time information groups according to each characteristic information and division period,
    상기 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증하는 단계는,The step of verifying the quality of data for time series data divided according to the division cycle is,
    상기 다변량 데이터의 상기 각 시간 정보 그룹마다 각 특성 정보에 대한 누락 데이터가 존재하는지 여부를 확인하는 단계;checking whether missing data for each characteristic information exists for each time information group of the multivariate data;
    상기 각 시간 정보 그룹에 누락 데이터가 존재하는 경우 제1 카운팅을 추가하고, 상기 제1 카운팅이 추가된 시간 정보 그룹과 인접하는 복수의 시간 정보 그룹에서 연속되는 누락 데이터가 존재하는 경우 상기 누락 데이터가 연속되는 시간 정보 그룹의 수에 기초하여 제2 카운팅을 추가하는 단계; 및If missing data exists in each time information group, first counting is added, and if consecutive missing data exists in a plurality of time information groups adjacent to the time information group to which the first counting is added, the missing data is added. adding a second counting based on the number of consecutive time information groups; and
    상기 제1 및 제2 카운팅을 합산하여 분할 주기에 따른 각 시간 정보 그룹에 대한 상기 연속 누락 데이터의 정도를 산출하는 단계를 포함하는,Comprising the step of calculating the degree of the continuous missing data for each time information group according to the division period by adding up the first and second counting,
    시계열 데이터의 품질 검증 방법.Quality verification methods for time series data.
  9. 제8항에 있어서,According to clause 8,
    상기 제2 카운팅을 추가하는 단계는, The step of adding the second counting is,
    상기 제1 카운팅이 추가된 시간 정보 그룹에 인접하는 복수의 시간 정보 그룹에서 특성 정보를 기준으로 연속되는 누락 데이터가 존재하는 경우, 상기 특성 정보를 기준으로 누락 데이터가 연속되는 시간 정보 그룹의 수에 기초하여 제2 카운팅을 추가하는 것인,If there is continuous missing data based on characteristic information in a plurality of time information groups adjacent to the time information group to which the first counting has been added, the number of time information groups in which missing data is consecutive based on the characteristic information Adding a second counting based on
    시계열 데이터의 품질 검증 방법.Quality verification methods for time series data.
  10. 제8항에 있어서,According to clause 8,
    상기 제2 카운팅을 추가하는 단계는,The step of adding the second counting is,
    상기 제1 카운팅이 추가된 시간 정보 그룹 및 인접하는 복수의 시간 정보 그룹 내에서 전체 특성 정보가 누락된 시간 정보 그룹이 연속하여 존재하는 경우, 상기 연속되는 시간 정보 그룹의 수에 기초하여 제2 카운팅을 추가하는 것인,If there is a time information group missing all characteristic information consecutively within the time information group to which the first counting is added and a plurality of adjacent time information groups, a second counting is performed based on the number of the consecutive time information groups. Adding ,
    시계열 데이터의 품질 검증 방법.Quality verification methods for time series data.
  11. 전자장치에 있어서,In electronic devices,
    소정의 특성 정보에 대하여 수집된 시계열 데이터를 소정의 분할 주기에 따라 분할하고, 상기 분할 주기에 따라 분할된 시계열 데이터를 대상으로 데이터의 품질을 검증한 후, 상기 검증 완료된 시계열 데이터를 선택하여 데이터 보완 조건에 따라 데이터를 처리하는 프로세서를 포함하는,Split the time series data collected for predetermined characteristic information according to a predetermined division cycle, verify the quality of the data for the time series data divided according to the division cycle, and then select the verified time series data to supplement the data. Including a processor that processes the data in accordance with the terms,
    전자장치.Electronic devices.
PCT/KR2022/013177 2022-08-01 2022-09-02 Electronic apparatus for performing quality verification of time series data and performing method therefor WO2024029659A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220095702A KR20240017694A (en) 2022-08-01 2022-08-01 Electric device for quality verification of time series data and method for performing the same
KR10-2022-0095702 2022-08-01

Publications (1)

Publication Number Publication Date
WO2024029659A1 true WO2024029659A1 (en) 2024-02-08

Family

ID=89849537

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/013177 WO2024029659A1 (en) 2022-08-01 2022-09-02 Electronic apparatus for performing quality verification of time series data and performing method therefor

Country Status (2)

Country Link
KR (1) KR20240017694A (en)
WO (1) WO2024029659A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190026206A1 (en) * 2017-07-18 2019-01-24 Vmware, Inc. Confidence-controlled sampling methods and systems to analyze high-frequency monitoring data and event messages of a distributed computing system
KR20200108969A (en) * 2019-03-12 2020-09-22 에스케이텔레콤 주식회사 Method and Apparatus for Cyclic Time Series Data Feature Extraction
KR102265937B1 (en) * 2020-12-21 2021-06-17 주식회사 모비젠 Method for analyzing sequence data and apparatus thereof
US20220188660A1 (en) * 2020-12-10 2022-06-16 Coupang Corp. Systems and methods for processing data for storing in a feature store and for use in machine learning

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102504381B1 (en) 2020-05-29 2023-03-03 대한민국 Smart farm data processing system and smart farm data processing method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190026206A1 (en) * 2017-07-18 2019-01-24 Vmware, Inc. Confidence-controlled sampling methods and systems to analyze high-frequency monitoring data and event messages of a distributed computing system
KR20200108969A (en) * 2019-03-12 2020-09-22 에스케이텔레콤 주식회사 Method and Apparatus for Cyclic Time Series Data Feature Extraction
US20220188660A1 (en) * 2020-12-10 2022-06-16 Coupang Corp. Systems and methods for processing data for storing in a feature store and for use in machine learning
KR102265937B1 (en) * 2020-12-21 2021-06-17 주식회사 모비젠 Method for analyzing sequence data and apparatus thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LEE, JIHOON; MOON, JAEWON; HWANG, JISOO: "Data Quality Management Method base on Seasonality from Time series Data", PROCEEDINGS OF THE KOREAN SOCIETY OF BROADCAST AND MEDIA ENGINEERS SUMMER CONFERENCE; JUNE 20-22, 2022, 20 June 2022 (2022-06-20), pages 72 - 75, XP009552774 *

Also Published As

Publication number Publication date
KR20240017694A (en) 2024-02-08

Similar Documents

Publication Publication Date Title
WO2017213281A1 (en) Method for de-identifying big data
CN108664603B (en) Method and device for repairing abnormal aggregation value of time sequence data
WO2018092924A1 (en) Method for system resource failure prediction for smart computing
WO2020060130A1 (en) Display apparatus and control method thereof
WO2023132424A1 (en) Method and apparatus for predicting power generation using correlation coefficient-based hierarchical binary clustering and clustering index-based time series prediction
CN106056400A (en) Method, apparatus and system of predicting number of new users
WO2024029659A1 (en) Electronic apparatus for performing quality verification of time series data and performing method therefor
KR20180022030A (en) Cement Lime Sintering Process Temperature Prediction System and Method using the Neural Network Learning
WO2015178716A1 (en) Search method and device
WO2024122786A1 (en) Method for processing electricity consumption data and server implementing same
WO2023090510A1 (en) Electronic device for performing data selection based on data supplementation condition, and executing method thereof
WO2021194089A1 (en) Method for changing graphical user interface of circuit block, and computer-readable storage medium having recorded thereon program including instructions for carrying out each step according to method for changing graphical user interface of circuit block
WO2019098732A1 (en) Method and system for management and operation over image in a computing system
WO2021221372A1 (en) Electronic device for providing information associated with defect of product, and operating method thereof
WO2021230469A1 (en) Item recommendation method
JP7029363B2 (en) Labeling device, labeling method and program
WO2023163405A1 (en) Method and apparatus for updating or replacing credit evaluation model
WO2023163395A1 (en) Method and apparatus for generating artificial intelligence-based credit evaluation model
CN115460383B (en) Compensation for optical variations in image capture device components over time
CN111680218A (en) User interest identification method and device, electronic equipment and storage medium
WO2018191889A1 (en) Photo processing method and apparatus, and computer device
WO2023055047A1 (en) Prediction model training method, information prediction method and corresponding device
WO2023048537A1 (en) Server and method for providing recommendation content
CN112598136B (en) Data calibration method and device
WO2022019478A1 (en) Electronic device and control method therefor

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22954114

Country of ref document: EP

Kind code of ref document: A1