WO2022145689A1 - 전자의무기록에서의 다변량 결측값 대체 방법 - Google Patents
전자의무기록에서의 다변량 결측값 대체 방법 Download PDFInfo
- Publication number
- WO2022145689A1 WO2022145689A1 PCT/KR2021/016005 KR2021016005W WO2022145689A1 WO 2022145689 A1 WO2022145689 A1 WO 2022145689A1 KR 2021016005 W KR2021016005 W KR 2021016005W WO 2022145689 A1 WO2022145689 A1 WO 2022145689A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- data set
- performance evaluation
- predictive model
- value
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000011156 evaluation Methods 0.000 claims abstract description 118
- 238000013523 data management Methods 0.000 claims abstract description 108
- 238000002372 labelling Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims description 68
- 230000001186 cumulative effect Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 48
- 230000000875 corresponding effect Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 9
- 230000007423 decrease Effects 0.000 description 7
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 6
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 6
- BVKZGUZCCUSVTD-UHFFFAOYSA-M Bicarbonate Chemical compound OC([O-])=O BVKZGUZCCUSVTD-UHFFFAOYSA-M 0.000 description 6
- BPYKTIZUTYGOLE-IFADSCNNSA-N Bilirubin Chemical compound N1C(=O)C(C)=C(C=C)\C1=C\C1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(\C=C/3C(=C(C=C)C(=O)N\3)C)N2)CCC(O)=O)N1 BPYKTIZUTYGOLE-IFADSCNNSA-N 0.000 description 6
- 238000007637 random forest analysis Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 3
- VEXZGXHMUGYJMC-UHFFFAOYSA-M Chloride anion Chemical compound [Cl-] VEXZGXHMUGYJMC-UHFFFAOYSA-M 0.000 description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 239000011575 calcium Substances 0.000 description 3
- 229910052791 calcium Inorganic materials 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 229910052698 phosphorus Inorganic materials 0.000 description 3
- 239000011574 phosphorus Substances 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 102000009027 Albumins Human genes 0.000 description 2
- 108010088751 Albumins Proteins 0.000 description 2
- 238000001135 Friedman test Methods 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- LEHOTFFKMJEONL-UHFFFAOYSA-N Uric Acid Chemical compound N1C(=O)NC(=O)C2=C1NC(=O)N2 LEHOTFFKMJEONL-UHFFFAOYSA-N 0.000 description 2
- TVWHNULVHGKJHS-UHFFFAOYSA-N Uric acid Natural products N1C(=O)NC(=O)C2NC(=O)NC21 TVWHNULVHGKJHS-UHFFFAOYSA-N 0.000 description 2
- 238000001793 Wilcoxon signed-rank test Methods 0.000 description 2
- PNNCWTXUWKENPE-UHFFFAOYSA-N [N].NC(N)=O Chemical compound [N].NC(N)=O PNNCWTXUWKENPE-UHFFFAOYSA-N 0.000 description 2
- WQZGKKKJIJFFOK-VFUOTHLCSA-N beta-D-glucose Chemical compound OC[C@H]1O[C@@H](O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-VFUOTHLCSA-N 0.000 description 2
- 235000012000 cholesterol Nutrition 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000009533 lab test Methods 0.000 description 2
- 229940116269 uric acid Drugs 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 235000009413 Ratibida columnifera Nutrition 0.000 description 1
- 241000510442 Ratibida peduncularis Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000012812 general test Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Definitions
- Missing values may be caused by malfunction of the inspection machine, incorrect inspection, or human error.
- the problem of missing values may occur in the process of converting to a machine learning data set. Missing values reduce the number of available data and can negatively affect analysis results. In the medical field, incorrect analysis is fatal as it can lead to misdiagnosis.
- the best way to deal with the missing value problem is to fill in the missing values with actual values. However, filling the medical data with real values may require expensive retesting or the assistance of a medical professional, which is very cumbersome and expensive. Alternatively, it may not be possible to fill in missing values due to patient privacy concerns. Because of this importance, studies on imputation of missing values have been conducted for a long time.
- Missing values can be filled in with appropriate values such as "0" or mean.
- the mean-imputation method is one of the most frequently used methods because it is simple and guarantees performance. However, if there are many missing values, the error may increase and bias may occur.
- statistical methods such as Expectation Maximization (EM) and Multiple Impuations by Chained Equations (MICE) have been used for imputation.
- Machine learning methods have also been used for substitution.
- Multi-Layer-Perceptron (MLP), K-Nearest-Neighbor (KNN), and Decision-Tree (DT) are widely used as machine learning models, and generation models such as Generative Adversarial Networks (GAN) have recently been studied. have.
- a data management method for replacing multivariate missing values in an electronic medical record (EMR) includes: training an imputation model based on a reference data set; applying pseudo labeling to missing values in a candidate data set using an imputation model, training a first predictive model based on the reference data set, and applying the pseudo labeling to the reference data set training a second predictive model by adding a sample data set extracted from the set, comparing performance evaluation values for each of the first predictive model and the second predictive model with each other, and the performance evaluation value
- the method may include converting data satisfying a predetermined condition from among the candidate data sets to which the pseudo labeling is applied into reference data based on the comparison.
- Comparing the performance evaluation values for each of the first predictive model and the second predictive model may include extracting a test data set from the reference data set, the extracted test generating a missing value in a data set, predicting a replacement value for the generated missing value by a predictive model, and calculating an error between the actual value and the replacement value of the test data set as a performance evaluation value of the predictive model may include steps.
- the calculating of the performance evaluation value of the predictive model by calculating an error between the actual value and the substitute value of the test data set may include a mean squared error between the actual value and the substitute value of the test data set. error) as a performance evaluation value of the predictive model.
- Calculating the performance evaluation value of the predictive model by calculating the error between the actual value and the replacement value of the test data set includes classifying the entire data by item and calculating a weight for each item according to data distribution classifying the test data set for each item, and calculating a performance evaluation value of the predictive model by applying a weight for each item to the mean square error of the actual value and the replacement value calculated for each item.
- Calculating the weight for each item according to the data distribution includes calculating a weight for the corresponding item based on first quantile data and third quantile data among data distributed within the corresponding item. can do.
- Comparing the performance evaluation values for each of the first predictive model and the second predictive model may include, in response to a case in which the first performance evaluation value exceeds the second performance evaluation value, the sample assigning a first score to each of the data included in the data set, and in response to the first performance evaluation value being equal to or less than the second performance evaluation value, a second performance evaluation value for each data included in the sample data set It may include the step of assigning a score.
- the step of converting data satisfying a predetermined condition from among the candidate data sets to which the pseudo-labeling is applied to reference data based on the comparison of the performance evaluation values includes: a cumulative score above a threshold score from among the candidate data sets It may include converting the candidate data having , into reference data.
- a data management apparatus for replacing multivariate missing values in an electronic medical record includes a memory for storing a reference data set and a candidate data set, and training an imputation model based on the reference data set, Pseudo-labeling is applied to the missing values of the candidate data set using an imputation model, a first predictive model is trained based on the reference data set, and extracted from the candidate data set to which the pseudo-labeling is applied to the reference data set.
- a second predictive model is trained by adding a sample data set, the performance evaluation values for each of the first predictive model and the second predictive model are compared with each other, and the pseudo-labeling is applied based on the performance evaluation value comparison.
- the processor may include a processor that converts data satisfying a predetermined condition from among the data set into reference data.
- FIG. 1 illustrates a method in which a data management apparatus replaces multivariate missing values in an electronic medical record (EMR) according to an exemplary embodiment.
- EMR electronic medical record
- FIG. 2 illustrates a method of operating a data management apparatus according to an exemplary embodiment in more detail.
- 3 shows a box plot showing the data distribution for each item.
- 5 shows the mean square error of the actual value and the substitute value for all items according to the number of repetitions.
- FIG. 6 shows a graph comparing the performance of a conventional imputation method and a self-training method of a data management method according to an embodiment according to a missing rate.
- FIG. 8 is a block diagram illustrating a configuration of a data management apparatus according to an exemplary embodiment.
- first or second may be used to describe various elements, these terms should be interpreted only for the purpose of distinguishing one element from another.
- a first component may be termed a second component, and similarly, a second component may also be termed a first component.
- One of the statistical methods for substituting missing data is an Expectation-Maximization (EM) algorithm that iteratively estimates maximum likelihood.
- the EM algorithm is an iterative algorithm that finds estimates of parameters with maximum likelihood or maximum posterior probability in a probabilistic model that depend on unobserved latent variables. In the EM algorithm, the steps for calculating the expected values and the maximization steps for obtaining estimates of the parameters are alternately repeated.
- the EM algorithm is an algorithm that searches for a local maximum, and the searched value may not be a global maximum.
- the EM algorithm is a single-imputation method that replaces one value, the more missing values, the lower the accuracy.
- the Multiple Imputation (MI) algorithm compensates for the shortcomings of the single-imputation of the EM algorithm.
- MI Magnetic Ink
- MICE is one of the MI algorithms. Like the MI algorithm, MICE operates under the assumption of random missing (MAR), and when the corresponding algorithm is operated under the assumption that it is not random missing (MAR), biased results may occur.
- MAR Random Missing
- machine learning methods can be used for imputation of missing values.
- Machine learning methods such as MLP, KNN, and DT may be used in bio-informatics or other fields.
- Machine learning methods are strongly influenced by the quantity and quality of training data. Therefore, if a model is trained with a small amount of data, it may become unstable when a large amount of missing values is replaced with the corresponding model.
- the data imputation method according to an embodiment may gradually increase available training data, and is stable even when a large amount of missing values is imputed.
- the proportion of missing values will be small. However, if you try to use rare items (eg, tests that are not performed by most patients), the proportion of missing values increases.
- the trained model is biased and performance is degraded because the training data cannot explain all cases.
- the data management apparatus replaces missing values of data using a method of self-training.
- Self-learning is performed through an iterative process of self-learning and pseudo-labeling.
- Self-learning requires two data sets: a teacher data set and a student data set.
- Complete data in which all data values for each item are filled is called teacher data, and defect data with missing values due to omission of at least some data values for each item is called student data.
- teacher data will be described as reference data
- student data will be described as candidate data.
- the data management apparatus may train the imputation model using the reference data set, and then predict the missing value of the candidate data using the trained imputation model. This process is called pseudo-labeling. Thereafter, the candidate data that is determined to be valid pseudo-labeling applied is converted into reference data. In the next iteration, the data converted from the existing reference data to the candidate data among the candidate data is set as the new reference data to the added data, and the same process is repeated. The iteration process continues until all candidate data are converted into reference data, no more candidate data can become reference data, or the number of iterations reaches a target number. In general, the more iterations, the better the performance.
- a self-learning method has been applied to a regression problem using two k-Nearest-Neighbor (KNN) models model h1 and model h2.
- KNN k-Nearest-Neighbor
- the labeled data used to train the model (h1) is called L1
- the labeled data used to train the model (h2) is called L2.
- Data verified by model h1 is integrated into L2, and data verified by model h2 is integrated into L1.
- the final result (h * (x)) can be obtained as in Equation 1 by averaging the two KNN models (h1) and (h2).
- a multivariate self-training regression method that can be used for a large amount of data may be used.
- the verification time may be shortened by verifying multiple sample data at a time instead of testing data one by one.
- a new impute value for the missing value is verified along with the new validation data.
- a predetermined condition in order for data for which labeling is not specified to be converted into data for which labeling is specified, a predetermined condition must be satisfied.
- the multiple verification values are integrated into the multiple verification data, missing values can be replaced more stably. Individual unlabeled data during multiple sampling is masked for validity.
- FIG. 1 illustrates a method in which a data management apparatus replaces multivariate missing values in an electronic medical record (EMR) according to an exemplary embodiment.
- EMR electronic medical record
- the data management apparatus may train an imputation model based on the reference data set.
- the data management apparatus may apply pseudo-labeling to missing values of the candidate data set using the imputation model.
- step 103 the data management apparatus according to an embodiment trains the first predictive model based on the reference data set, and adds sample data extracted from the candidate data set to which pseudo-labeling is applied to the reference data set to add the second Predictive models can be trained.
- the data management apparatus may calculate a performance evaluation value for each of the first prediction model and the second prediction model, and compare the calculated performance evaluation values with each other.
- step 105 the data management apparatus according to an embodiment selects data satisfying a predetermined condition from among the candidate data sets to which pseudo labeling is applied based on the performance evaluation value comparison between the first predictive model and the second predictive model. It can be converted to reference data.
- FIG. 2 illustrates a method of operating a data management apparatus according to an exemplary embodiment in more detail.
- the data management apparatus may train the imputation model 230 based on the reference data set 210 .
- the data management apparatus may apply pseudo-labeling to the missing values of the candidate data set 220 using the imputation model 230 trained based on the reference data set 210 .
- the data management apparatus uses the trained replacement model 230 for data corresponding to the item when there is a missing value (missing value) among the examination items for any patient. predictable.
- the patient's test items are albumin (Aibumin), calcium (Calcium), bilirubin (Bilirubin), alkaline phosphatase, protein (Protein), chloride ion (Chloride), bicarbonate (Total CO2) It may mean items of cholesterol, glucose, urea nitrogen (BUN), uric acid, phosphorus, PT(INR), PT(%), and CRP(quant).
- the data management apparatus may train the first predictive model 231 based on the reference data set 210 .
- the data management apparatus may train the first predictive model 231 with data excluding the test data set from the reference data set 210 .
- the test data set 240 may be extracted from the reference data set 210 .
- the second The predictive model 232 may be trained. Specifically, the data management apparatus according to an embodiment adds the data obtained by adding the sample data set 221 to data excluding the test data set 240 from the reference data set 210 to generate the second predictive model 232 . can be trained
- step 205 the data management apparatus randomly generates missing values in the test data set 240 extracted from the reference data set 210 , and the first prediction model 231 and the second prediction Each of the models 232 may predict replacement values for missing values in the test data set 240 .
- the first predictive model 231 may predict the missing value of the test data set 240
- the second predictive model 232 may also predict the missing value of the test data set 240 .
- the data management apparatus may calculate performance evaluation values for each of the first prediction model 231 and the second prediction model 232 .
- the data management apparatus may calculate an error between an actual value and a substitute value of the test data set 240 as a performance evaluation value of the predictive model.
- the data management apparatus may calculate a mean squared error (MSE) between an actual value and a substitute value of the test data set 240 as a performance evaluation value of the predictive model.
- MSE mean squared error
- the performance evaluation value of the first predictive model 231 is referred to as a first performance evaluation value 251
- the performance evaluation value of the second predictive model 232 is referred to as a second performance evaluation value 252 .
- the data management apparatus may calculate the performance evaluation value by applying a weight to the error between the actual value and the substitute value of the test data set 240 . This will be described later.
- the data management apparatus may compare the first performance evaluation value 251 and the second performance evaluation value 252 with each other.
- the data management device determines that the pseudo label of the sample data set 221 is valid when the test result of the second predictive model 232 is better than the test result of the first predictive model 231 for the same test data set 240 .
- the test of the predictive model means that it is determined whether the performance of the second predictive model 232 trained on the sample data set 221 is higher than that of the first predictive model 231 , and passing the test means that the second prediction It indicates that the performance of the model 232 is higher than that of the first predictive model 231 .
- the test result of the predictive model may be described as a performance evaluation value of the predictive model.
- the performance evaluation value of the first predictive model 231 and the performance evaluation value of the second predictive model 232 By comparing the performance evaluation value of the first predictive model 231 and the performance evaluation value of the second predictive model 232, the validity of the sample data set 221 used to train the second predictive model 232 can be confirmed. have.
- the data management apparatus responds to the case where the first performance evaluation value 251 exceeds the second performance evaluation value 252 , each included in the sample data set 221 .
- a first score may be assigned to each of the data.
- the data management apparatus gives a second score to each data included in the sample data set 221 . can do.
- the first score may represent 1, and the second score may represent -0.5.
- the data management apparatus performs sampling for extracting the sample data set 221 from the candidate data set 220 a predetermined number of times.
- the data management apparatus may extract another sample data set different from the previous sample data set 221 from the candidate data set 220 .
- the data management device trains a predictive model together with another sample data set 221 and a reference data set 210, compares the performance of the trained predictive model with the first predictive model 231, A first score or a second score may be assigned to included data.
- the data management apparatus may train a predictive model for each extracted sample data set, calculate a performance evaluation value of the predictive model, and compare performance with the first predictive model 231 .
- the data management apparatus may assign a score to each data included in the sample data set.
- the data management apparatus may sample the sample data set from the candidate data set 220 a preset number of times.
- sampling may be performed S/N times during one iteration.
- iteration means extracting a sample data set multiple times to examine all candidate data once, training a predictive model for each sample data set, and comparing the performance of the trained predictive model and the first predictive model Therefore, a series of processes of adding scores to the data included in each sample data set is called an iteration.
- One iteration may include converting a part of the candidate data included in the candidate data set into reference data in the step.
- the data management apparatus may convert candidate data having a cumulative score equal to or greater than a threshold score from the candidate data set 220 into reference data.
- the data management apparatus may generate new reference data by adding candidate data converted into reference data to existing reference data. For example, candidate data having a cumulative score of 4 or more from the candidate data set 220 may be converted into reference data.
- the candidate data x1 is pseudo-labeled with a valid replacement value.
- the performance of the second predictive model trained based on the sample data is deteriorated.
- the candidate data x1 should be converted into reference data, but the performance of the second prediction model is poor, and thus remains as candidate data.
- the candidate data (x2) is pseudo-labeled with an invalid replacement value.
- the candidate data x2 is extracted as a sample data set together with valid candidate data, the performance of the second prediction model is improved.
- the candidate data x2 should remain as candidate data, but may be converted into reference data due to the high performance of the second prediction model. Since the candidate data (x2) is invalid candidate data, if it becomes the reference data, the performance of the entire self-training is deteriorated. Accordingly, in the data management method according to an embodiment, in order to prevent such irrationality, a method of converting only candidate data satisfying a predetermined condition into reference data is used. It will be described in more detail below.
- the data management apparatus predicts a missing value in a candidate data set as a new replacement value at every iteration, and passes a test for a sample data set extracted from the candidate data set, the passed sample data set Substitute values for missing values in .
- the data management apparatus may predict a missing value in a candidate data set as a new replacement value in a next iteration, extract a sample data set, and perform a test. If one candidate data also passes the test in the next iteration, the average value of the current value and the stored value is updated and stored. To manage this, a cumulative score is given to each candidate data.
- a first score may be assigned to each of the data included in the sample data set.
- a second score may be assigned to each data included in the sample data set. For example, the first score may represent +1, and the second score may represent -0.5.
- the data management apparatus may convert a missing value of the candidate data to which a cumulative score greater than or equal to a threshold score is given with a stored value to be converted into reference data.
- a threshold score is given with a stored value to be converted into reference data.
- the candidate data (x1) may belong to several sample data sets, but the sample data set including the candidate data (x1) has a relatively high probability of passing the test, and with a relatively high probability, the cumulative score falls on the threshold score. is reached and converted into reference data. Conversely, a sample data set containing invalid candidate data (x2) has a high probability of failing the test, and therefore a high probability that the cumulative score will not reach the threshold score. According to an embodiment, it is possible to avoid conversion to reference data due to luck in a manner in which a cumulative score is given for each data. If we set the threshold score higher, we need to run more tests and filter out more validated data. However, it may require too many iterations to make it into labeled data.
- the data management apparatus converts candidate data having a cumulative score greater than or equal to a threshold score from among the candidate data sets into reference data, and then converts it into a new reference data set in which the data converted into the reference data is added to the existing reference data.
- the substitution model can be newly trained.
- a new pseudo-labeling is applied to the missing values in the candidate data set from which the candidate data transformed into the reference data has been removed using the imputation model trained on the new existing data set.
- the data management apparatus may newly predict the replacement value with respect to the missing value in the candidate data set by using the new imputation model trained with the new existing data set. Thereafter, some of the candidate data sets may be converted into reference data through the process described in FIG.
- the data management apparatus replaces missing values with a final imputation model for candidate data that has not become reference data until the end.
- the data management apparatus takes a lot of time because it tests all data in iteration and sampling. Accordingly, the data management apparatus according to an embodiment uses a k-Nearest Neighbor (KNN) as a basic model. KNN does not verify all data individually, but instead uses a sample of data. Therefore, it is more efficient for multiple iterations than other algorithms that require analyzing the entire data set. Since the data management method according to an embodiment is for comparing the validity of data in the same prediction model, the absolute performance of the KNN is not important.
- KNN k-Nearest Neighbor
- the reason for testing with sample data composed of a plurality of data instead of testing each data one by one is related to the characteristics of the KNN.
- KNN is calculated based on k adjacent data (k-nearest data). For example, it is assumed that one sample data x is tested. There may be cases where the sample data x is far from all the test data. Even if the sample data x is added to the second predictive model, the performance evaluation value of the second predictive model is not affected. If these cases increase, useless calculations increase and self-training does not work smoothly.
- the sample data set affects the performance evaluation value of the predictive model and the validity of the pseudo label.
- the pseudo-label of the extracted sample data set is valid, the performance of the second predictive model is higher than that of the first predictive model. In other words, the performance evaluation value of the second predictive model appears lower than the performance evaluation value of the first predictive model.
- the pseudo-label of the extracted sample data set is invalid, the performance of the second predictive model appears lower than that of the first predictive model. In other words, the performance evaluation value of the second predictive model appears higher than the performance evaluation value of the first predictive model.
- the sample data set may consist of 50 candidate data.
- the speed of the data management apparatus according to an embodiment may increase and performance may decrease.
- the performance of the data management apparatus according to the embodiment may be improved, but the speed may decrease.
- the number of candidate data included in the sample data set is set too small, the performance of the data management apparatus according to an embodiment may be rather deteriorated. For example, assume that the sample data set consists of 5 candidate data. At this time, it is assumed that one candidate data among the candidate data included in the sample data set is the appropriately replaced sample data and is in the vicinity of the test data.
- the data management apparatus will evaluate the sample data set composed of five candidate data as the appropriately replaced sample data set, and determine that it is a valid sample. This leads to a decrease in the performance of the data management device.
- the number of candidate data included in the sample data set must be sufficiently small and large enough.
- the data management apparatus converts only candidate data satisfying a predetermined condition into reference data in order to avoid converting candidate data into reference data by luck from among the candidate data sets.
- the data management apparatus may apply a stricter standard to determine validity of the sample data set.
- the data management apparatus may additionally use the third predictive model and the fourth predictive model as a comparative model in addition to the first predictive model trained based on the reference data set as a performance comparison model.
- the third predictive model may represent a predictive model trained based on reference data and sample data replaced with a mean
- the fourth predictive model may represent a predictive model trained based on the original reference data.
- the data management apparatus may determine that the sample data set is valid when the performance of the second prediction model is higher than the performance of the first prediction model, the third prediction model, and the fourth prediction model.
- the performance evaluation value of the second predictive model is higher than the performance evaluation value of the first predictive model, the performance evaluation value of the third predictive model, and the performance evaluation value of the fourth predictive model
- a first score may be assigned to each data included in the sample data set.
- the data management device is lower than the performance evaluation value of the second predictive model , that the sample data set on which the second prediction model was trained did not pass the test, a second score may be assigned to each data included in the sample data set.
- Table 1 shows the entire pseudo-code of the data replacement method according to an embodiment.
- Model(data) indicates that the corresponding model (Model) has been trained with data (data).
- KNN(data, k) indicates that a KNN model having k neighbors is trained using data (data).
- I.predict(data) represents the imputation model (I) to predict and impute missing values of data.
- Data[index] represents a value corresponding to the index of the data.
- the data management device causes the first predictive model and the second predictive model to predict the replacement value for the missing value of the test data set, and calculates the error between the actual value of the test data set and the replacement value as a predictive model. It can be calculated as the performance evaluation value of
- the data management apparatus may calculate a mean squared error (MSE) between an actual value and a substitute value of the test data set for each predictive model as a performance evaluation value of the predictive model.
- MSE mean squared error
- the data management apparatus may classify the test data set for each item and calculate a mean square error (MSE i ) between an actual value and a substitute value for data included in the item.
- the data management apparatus may add up the mean square error (MSE i ) for each item and set a value divided by the total number of items as the evaluation index (MSE).
- MSE mean square error
- Equation 2 describes the process of calculating the mean square error of the actual value and the substitute value for each item
- Equation 3 is an evaluation index (MSE) meaning a value obtained by summing the mean square error for each item and dividing by the total number of items ) to calculate the process.
- Equation 2 i represents the index of the item, MSE i represents the mean square error for each item, y i j represents the substitution value for the data, may represent the actual value for the data.
- N may represent the total number of items.
- the data management apparatus may use the MSE evaluation index in consideration of the mean square error of each item as a performance evaluation value of the predictive model.
- the data management apparatus may calculate the performance evaluation value by applying a weight to the error between the actual value and the substitute value of the data set. Specifically, the data management apparatus may classify all data for each item, and calculate a weight for each item according to a data distribution for each item. The data management apparatus may calculate the performance evaluation value of the predictive model by classifying the test data set for each item, and applying a weight for each item to the mean square error of the actual value and the substitute value calculated for each item. In this case, a weight for the corresponding item may be calculated based on the first quantile data and the third quantile data among data distributed within the corresponding item.
- a method of calculating a performance evaluation value by applying a weight to an error between an actual value and a substitute value of a data set of the data management apparatus will be described in more detail.
- 3 shows a box plot showing the data distribution for each item.
- the data management apparatus substitutes data for a plurality of items, and the effect of a pseudo-label may be evaluated as a mean square error between the actual value and the substitute value.
- the mean square error of the actual value and the substitute value is affected by the data distribution for each item. For example, in an item having a high density data distribution, since data is distributed over a small area, it is easy to predict an actual value, and an error between the actual value and the substitute value is small. Conversely, it is difficult to predict the actual value of the data in an item where the data is widely distributed.
- the first predictive model and the second predictive model evaluate the sample data set using the average of the errors of all items.
- the graph 310 is a box plot showing the data distribution of alkaline phosphatase
- the graph 320 is a box plot showing the data distribution of bicarbonate (Total CO2).
- the data of alkaline phosphatase is distributed in a small area. Assume the case of predicting a value in the box 311 of alkaline phosphatase. Because the box 311 itself is small, the prediction of missing values is relatively accurate. Conversely, referring to the graph 311 , the bicarbonate data is distributed over a wide area, and since the size of the box 321 is relatively large, the replacement value of the missing value has a relatively large error from the actual value. In this case, the error between the actual value and the substitute value of the data in the bicarbonate category has a much greater influence on the overall error than in the alkaline posterase category. Consequently, self-training works toward further improving data predictions for the bicarbonate term, even if it worsens the data prediction for the item of alkaline phosphatase.
- the data management apparatus may test the sample data by applying an evaluation index in consideration of the data distribution for each item.
- the data management apparatus may classify all data for each item and calculate a weight for each item according to data distribution.
- the data management apparatus may estimate the data distribution of the corresponding item by using a difference between the first quantile data and the third quantile data among data distributed within the corresponding item. When the data density in the item is high, the difference between the first quantile data and the third quantile data is small, and when the data density in the item is low, the difference between the first quantile data and the third quantile data is large.
- the weight for each item is defined as in Equation 4 below.
- Equation 4 i represents an index of an item, and Q i and Q mean may be defined as in Equations 2 and 3 below.
- Equation 5 represents the third quantile data, represents the first quantile data.
- Equation 6 N represents the total number of items.
- the data management apparatus classifies the test data set by item, and adds a weight ( ), summing the weighted mean square error for each item and dividing by the total number of items (Q-MSE) can be set as the performance evaluation value of the predictive model.
- the evaluation index (Q-MSE) may be expressed as in Equation (7).
- the data management apparatus may use the Q-MSE evaluation index in consideration of the mean square error of each item and the weight according to the data distribution for each item as a performance evaluation value of the predictive model.
- EMR electronic medical record
- 257 items such as physical information, laboratory tests, and echocardiography results may be used, and among them, 241 item values are input to replace missing values of the remaining 16 target items.
- 16 items are albumin, calcium, bilirubin, alkaline phosphatase, protein, chloride, bicarbonate, cholesterol,
- the items of glucose, urea nitrogen (BUN), uric acid, phosphorus (Phosphorus), PT (INR), PT (%), and CRP (quant) can be represented.
- the missing rate within an item varies from 1.5% to 84.9%. Table 2 below exemplarily shows the missing rate for each item.
- Reference data in which all data is recorded for each of the 16 target items may appear as about 9000 pieces, and candidate data having at least one missing value among the 16 target items may appear as about 53,000 pieces.
- the 16 target items may be the results of laboratory tests and may have continuous values.
- the patterns of missing values include Missing at Random (MAR), Missing Completely at Random (MCAR), and Missing Not at Random (MNAR).
- Laboratory data is usually determined whether to test based on observed information.
- the missing laboratory data is correlated with the observed values, and the pattern of missing values is a random missing (MAR) pattern.
- the graph 410 represents the mean square error of the actual value and the replacement value for each item according to the number of iterations when the data management apparatus according to an embodiment uses the evaluation index MSE as the performance evaluation value of the predictive model.
- MSE the evaluation index of the predictive model.
- the graph 420 indicates an error rate according to the number of iterations when the data management apparatus according to an embodiment uses the evaluation index Q-MSE as a performance evaluation value of the predictive model.
- the error rate decreased according to iteration in 14 of 16 items, and the maximum decrease in the error rate was 10.5%. appear. It appears that the error rate increases by 1.5% and 2.45% in the E-ANC item and the PT(INR) item, respectively.
- the PT(%) item has the highest error weight. Referring to the graph of the PT(%) item, in the initial stage of self-training, it is mainly replaced with the actual value of the PT(%) item. It appears to operate in order to minimize the error of the value. After iteration of 3 to 4, the mean square error of other items is reduced and starts to improve, and the PT(%) item oscillates without further improvement.
- the E-ANC item and the PT(INR) item are the two items with the highest data density, and they are ignored in self-learning and the error rate increases with repetition.
- the maximum error rate reduction is about 12.5%.
- the PT(INR) item with the highest data distribution density receives approximately 2.5 times correction
- the PT(%) item with the lowest data distribution density receives approximately 0.5 times correction.
- the error rate is mainly decreased based on the PT(%) item, but in the graph 420, the PT(%) item and the PT(INR) item move in a balanced manner.
- the error rate increased less in the E-ANC item, and the error rate diverges when the evaluation index is MSE in the E-ANC item, but the error rate oscillates when the evaluation index is Q-MSE in the E-ANC item. This means that certain items are less likely to be ignored.
- 5 shows the mean square error of the actual value and the substitute value for all items according to the number of repetitions.
- the graph 510 represents an error rate for all item data according to the number of repetitions when the data management apparatus according to an embodiment uses the evaluation index MSE as a performance evaluation value of the predictive model.
- the graph 520 represents an error rate for all item data according to the number of repetitions when the data management apparatus according to an embodiment uses the evaluation index Q-MSE as a performance evaluation value of the predictive model.
- the error rate of the data management apparatus using the evaluation index Q-MSE becomes lower than the error rate of the data management apparatus using the evaluation index MSE as repetitions are accumulated.
- the data management device uses the evaluation index Q-MSE as the performance evaluation value of the predictive model, points that are ignored or overestimated according to data distribution can be suppressed, and all items can be considered equally.
- FIG. 6 shows a graph comparing the performance of a conventional imputation method and a self-training method of a data management method according to an embodiment according to a missing rate.
- the graph 610 shows an error rate according to a missing rate when the self-learning method according to an embodiment is used. Specifically, the graph 610 shows the error rate according to the missing rate when the evaluation index MSE is used as the performance evaluation value of the predictive model.
- the graph 630 shows the error rate according to the missing rate when the DNN algorithm is used.
- the graph 640 shows the error rate according to the missing rate when the mean (MEAN) algorithm is used.
- the graph 650 shows an error rate according to a missing rate when a random forest (RF) algorithm is used.
- the graph 660 shows the error rate according to the missing rate when the MICE algorithm is used.
- the graph 670 shows the error rate according to the missing rate when the EM algorithm is used.
- the graph 680 shows the error rate according to the missing rate when the KNN algorithm is used.
- the graph 710 shows the number of items having the smallest error rate for each algorithm in the case where the missing rate is 5%.
- the graph 720 shows the number of items having the smallest error rate for each algorithm in the case where the missing rate is 10%.
- the graph 730 shows the number of items having the smallest error rate for each algorithm in the case where the missing rate is 20%.
- the graph 740 shows the number of items having the smallest error rate for each algorithm in the case where the missing rate is 30%.
- the graph 750 shows the number of items having the smallest error rate for each algorithm in the case where the missing rate is 40%.
- the graph 760 shows the number of items having the smallest error rate for each algorithm in the case where the missing rate is 50%.
- the Friedman test can be performed on the three most powerful algorithms (self-learning, MICE, and RF) to confirm the effect of the algorithm.
- the missing rate is 5%
- the p-value of Friedman's test appears as 0.0087, and when the p-value is less than 0.05, the null hypothesis is rejected, meaning that there is an effect according to the algorithm.
- the p-value gradually decreases to 0.0003, indicating that the difference between the algorithms increases.
- Table 3 shows the results of the Friedman test.
- the p-value is greater than 0.05 for all missing rates. This means that the algorithm is not significantly different from mean-imputation. It can be seen that the KNN algorithm has a statistically significant difference with a p value of 0.013 when the missing rate is 5%. However, referring to FIG. 6 , the KNN algorithm performs worse than the mean (MEAN) algorithm. When the missing rate is 10% or more, all p-values are greater than 0.05, so there is no significant difference from the mean value. The MICE algorithm showed a p-value lower than 0.05 in all missing rates, indicating that the MICE algorithm performed significantly better than the mean-imputation in all steps.
- the self-training algorithm used by the data management method is the only algorithm that consistently shows better performance than the average of all items at all missing rates.
- FIG. 8 is a block diagram illustrating a configuration of a data management apparatus according to an exemplary embodiment.
- the data management apparatus 800 may include a communication unit 810 , a memory 820 , and a processor 830 .
- the communication unit 810 may receive electronic medical record (EMR) data from an external device.
- the memory 820 may store a reference data set and a candidate data set.
- the processor 830 may train the imputation model based on the reference data set.
- the processor 830 may apply pseudo-labeling to missing values in the candidate data set using the imputation model.
- the processor 830 may train the first predictive model based on the reference data set, and train the second predictive model by adding the sample data set extracted from the candidate data set to which the pseudo-labeling is applied to the reference data set.
- the processor 830 may compare performance evaluation values for each of the first prediction model and the second prediction model with each other.
- the processor 830 may convert data satisfying a predetermined condition from among the candidate data sets to which the pseudo labeling is applied into reference data based on the performance evaluation value comparison.
- the embodiments described above may be implemented by a hardware component, a software component, and/or a combination of a hardware component and a software component.
- the apparatus, methods and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate (FPGA) array), a programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions, may be implemented using a general purpose computer or special purpose computer.
- the processing device may execute an operating system (OS) and a software application running on the operating system.
- a processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
- OS operating system
- a processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
- the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that can include For example, the processing device may include a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as parallel processors.
- Software may comprise a computer program, code, instructions, or a combination of one or more thereof, which configures a processing device to operate as desired or is independently or collectively processed You can command the device.
- the software and/or data may be any kind of machine, component, physical device, virtual equipment, computer storage medium or apparatus, to be interpreted by or to provide instructions or data to the processing device. , or may be permanently or temporarily embody in a transmitted signal wave.
- the software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored in a computer-readable recording medium.
- the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium.
- the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination, and the program instructions recorded on the medium are specially designed and configured for the embodiment, or may be known and available to those skilled in the art of computer software.
- Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floppy disks.
- - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
- Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
- the hardware devices described above may be configured to operate as one or a plurality of software modules to perform the operations of the embodiments, and vice versa.
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
일 실시예에 따른 전자의무기록(Electronic Medical Record, EMR)에서의 다변량 결측값(missing value)을 대체하는 데이터 관리 방법은, 기준 데이터 세트에 기초하여 대치 모델(imputation model)을 트레이닝 시키는 단계, 대치 모델을 사용하여 후보 데이터 세트의 결측값에 의사 라벨링(pseudo labeling)을 적용하는 단계, 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 기준 데이터 세트에 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시키는 단계, 제1 예측 모델 및 제2 예측 모델 각각에 대한 성능(performance) 평가값을 서로 비교하는 단계, 및 성능 평가값 비교에 기초하여 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 단계를 포함할 수 있다.
Description
이하, 전자의무기록에서 다변량 결측값을 대체하는 기술에 관하여 설명한다.
기계 학습(machine learning)이나 통계 분석(statistical analysis)에서 데이터를 사용하려고 하는 경우에, 결측값(missing value) 문제는 일반적인 문제 중 하나이다. 결측값은 검사 기계의 오작동, 잘못된 검사, 인적 오류(human error)로 인하여 발생될 수 있다. 또한, 기계 학습 데이터 세트로 변환하는 과정에서도 결측값 문제가 발생할 수 있다. 결측값은 사용 가능한 데이터 수를 줄이고, 분석 결과에 부정적인 영향을 줄 수 있다. 의료 분야에서, 부정확한 분석은 오진(misdiagnosis)로 이어질 수 있으므로 치명적이다. 결측값 문제를 처리하는 가장 좋은 방법은 결측값을 실제값(actual value)로 채우는 것이다. 그러나, 의료 데이터를 실제 값으로 채우려면 비용이 많이 드는 재검사(retesting) 또는 전문 의료인의 도움이 필요할 수 있으며, 이는 매우 번거롭고 비용이 많이 든다. 또는, 환자의 프라이버시 문제로 인해 결측값을 채우는 것이 불가능할 수도 있다. 이러한 중요성 때문에, 결측값을 대치(imputation)에 대한 연구가 오랫동안 수행되어 왔다.
결측값은 "0" 또는 평균(mean)과 같은 적절한 값으로 채울 수 있다. 평균 대치(mean-imputation) 방법은 간단하고 성능을 보장하기 때문에 가장 자주 사용되는 방법 중 하나이다. 그러나, 결측값이 많으면 오차가 증가하고 편향이 발생할 수 있다. 종래에는 평균 대치 방법 외에도 Expectation Maximization(EM) 및 Multiple Impuations by Chained Equations(MICE)와 같은 통계적 방법이 대치에 사용되었다. 기계 학습 방법도 대치를 위하여 사용된 바가 있다. 기계 학습 모델로 Multi-Layer-Perceptron(MLP), K-Nearest-Neighbor(KNN), 및 Decision-Tree(DT)가 널리 사용되고 있으며, 최근에는 Generative Adversarial Networks(GAN)와 같은 Generation 모델들도 연구되고 있다.
일 실시예에 따른 전자의무기록(Electronic Medical Record, EMR)에서의 다변량 결측값(missing value)을 대체하는 데이터 관리 방법은, 기준 데이터 세트에 기초하여 대치 모델(imputation model)을 트레이닝 시키는 단계, 상기 대치 모델을 사용하여 후보 데이터 세트의 결측값에 의사 라벨링(pseudo labeling)을 적용하는 단계, 상기 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 상기 기준 데이터 세트에 상기 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시키는 단계, 상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능(performance) 평가값을 서로 비교하는 단계, 및 상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 단계를 포함할 수 있다.
일 실시예에 따른 상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하는 단계는, 상기 기준 데이터 세트로부터 테스트 데이터(test data) 세트를 추출하는 단계, 상기 추출된 테스트 데이터 세트에 결측값을 생성하고, 예측 모델이 상기 생성된 결측값에 대한 대체값을 예측하는 단계, 및 상기 테스트 데이터 세트의 실제값과 대체값의 오차를 상기 예측 모델의 성능 평가값으로 산출하는 단계를 포함할 수 있다.
일 실시예에 따른 상기 테스트 데이터 세트의 실제값과 대체값의 오차를 계산함으로써 상기 예측 모델의 성능 평가값을 산출하는 단계는, 상기 테스트 데이터 세트의 실제값과 대체값의 평균 제곱 오차(mean squared error)를 상기 예측 모델의 성능 평가값으로 산출하는 단계를 포함할 수 있다.
일 실시예에 따른 상기 테스트 데이터 세트의 실제값과 대체값의 오차를 계산함으로써 상기 예측 모델의 성능 평가값을 산출하는 단계는, 전체 데이터를 항목 별로 분류하고, 데이터 분포에 따라 항목 별로 가중치를 계산하는 단계, 상기 테스트 데이터 세트를 항목 별로 분류하고, 항목 별로 산출된 실제값과 대체값의 평균 제곱 오차에 항목 별 가중치를 적용하여 상기 예측 모델의 성능 평가값을 산출하는 단계를 포함할 수 있다.
일 실시예에 따른 상기 데이터 분포에 따라 항목 별로 가중치를 계산하는 단계는, 해당 항목 내에 분포된 데이터 중 제1 분위수 데이터와 제3 분위수 데이터에 기초하여 상기 해당 항목에 대한 가중치를 계산하는 단계를 포함할 수 있다.
일 실시예에 따른 상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하는 단계는, 제1 성능 평가값이 제2 성능 평가값을 초과하는 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제1 점수를 부여하는 단계, 및 상기 제1 성능 평가값이 상기 제2 성능 평가값 이하인 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제2 점수를 부여하는 단계를 포함할 수 있다.
일 실시예에 따른 상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 단계는, 상기 후보 데이터 세트 중으로부터 임계 점수 이상의 누적 점수를 갖는 후보 데이터를 기준 데이터로 변환시키는 단계를 포함할 수 있다.
일 실시예에 따른 전자의무기록에서의 다변량 결측값을 대체하는 대체하는 데이터 관리 장치는, 기준 데이터 세트 및 후보 데이터 세트를 저장하는 메모리, 및 상기 기준 데이터 세트에 기초하여 대치 모델을 트레이닝 시키고, 상기 대치 모델을 사용하여 상기 후보 데이터 세트의 결측값에 의사 라벨링을 적용하며, 상기 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 상기 기준 데이터 세트에 상기 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시키며, 상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하고, 상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 프로세서를 포함할 수 있다.
도 1은 일 실시예에 따른 데이터 관리 장치가 전자의무기록(Electronic Medical Record, EMR)의 다변량 결측값을 대체하는 방법에 대하여 설명한다.
도 2는 일 실시예에 따른 데이터 관리 장치의 동작 방법을 보다 구체적으로 설명한다.
도 3은 항목 별 데이터 분포를 나타내는 박스 플롯(box plot)을 도시한다.
도 4는 반복 횟수에 따른 항목별 실제값과 대체값의 평균 제곱 오차를 나타낸다.
도 5는 반복 횟수에 따른 모든 항목에 대한 실제값과 대체값의 평균 제곱 오차를 나타낸다.
도 6은 종래의 대치 방법(imputation method)과 일 실시예에 따른 데이터 관리 방법의 자가 학습(self-training) 방법의 성능을 결측률(missing rate)에 따라 비교한 그래프를 도시한다.
도 7은 대치 방법(imputation method) 별로 오차율이 가장 작게 나타나는 항목의 수를 도시한다.
도 8은 일 실시예에 따른 데이터 관리 장치의 구성을 나타낸 블록도이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
누락된 데이터를 대치하는 통계적 방법 중 하나는 최대 가능도(maximum likelihood)를 반복적으로 추정하는 EM(Expectation-Maximization) 알고리즘이다. EM 알고리즘은 관측되지 않은 잠재 변수(latent variable)에 의존하는 확률 모델에서 최대 가능도 또는 최대 사후 확률을 가지는 파라미터의 추정치를 찾는 반복 알고리즘이다. EM 알고리즘에서는, 기대값을 계산하기 위한 단계와 파라미터의 추정치를 획득하기 위한 최대화 단계가 교대로 반복된다. EM 알고리즘은 로컬 최대값(local maximum)을 검색하는 알고리즘으로, 검색된 값은 글로벌 최대값(global maximum)이 아닐 수 있다. 또한, EM 알고리즘은 하나의 값을 대체하는 단일 대치(single-imputation) 방법이기 때문에, 결측값이 많을수록 정확도가 떨어질 수 있다. Multiple Imputation(MI) 알고리즘은 EM 알고리즘의 단일-대치(single-imputation)의 단점을 보완한다. MI에서는, 복수개의 대체값이 통계적으로 분석되고 사용된다. MI 알고리즘은 무작위 결측(MAR) 조건들 하에서 동작한다. MICE는 MI 알고리즘들 중 하나이다. MICE는 MI 알고리즘과 마찬가지로 무작위 결측(MAR)의 가정 하에 동작되며, 무작위 결측(MAR)이 아니라는 가정하에 해당 알고리즘이 동작되면 편향된 결과가 발생할 수 있다.
통계적 방법들 외에도, 기계 학습 방법이 결측값 대치(imputation)에 사용될 수 있다. MLP, KNN, 및 DT와 같은 기계 학습 방법은 유전자 정보처리(bio-informatics) 또는 기타 분야들에서 사용될 수 있다. 기계 학습 방법은 트레이닝 데이터의 양과 품질에 크게 영향을 받는다. 따라서, 적은 양의 데이터로 모델을 트레이닝시키면, 해당 모델로 많은 양의 결측값을 대치하는 경우에 불안정(unstable)해질 수 있다. 그러나, 일 실시예에 따른 데이터 대치 방법은 사용 가능한 트레이닝 데이터를 점진적으로 늘릴 수 있고, 많은 양의 결측값을 대치하는 경우에도 안정된다.
기계 학습 방법은 지도 학습(supervised-learning) 환경에서 학습하고 작동하므로, 합리적인 성능을 위하여 충분한 양의 라벨링된 데이터가 필요하다. 대부분의 케이스들을 설명하기에 충분한 데이터가 확보되는 경우, 해당 데이터로 트레이닝된 대치 모델의 대치 결과는 훌륭할 것이다. 그러나, 의료 분야에서 이러한 양질의 데이터를 기대하기는 어렵다. 예를 들어, 모든 환자가 동일한 검사를 받는 것이 아니다. 일반적인 검사는 대부분의 환자에 대하여 수행되지만, 일부 특정 검사는 특정 환자들에게만 수행된다. 이는 분석을 위하여 데이터를 재구성하는 경우에 문제가 된다. 기계 학습에서는 모든 환자에 대하여 분석될 항목들에 대한 완전한 정보를 필요로 한다. 그러나, 일부 검사를 받지 않은 환자는 해당 검사에 해당하는 항목 데이터에 결측값이 존재하게 된다.
일반적인 항목만을 분석하면 결측값의 비율이 적을 것이다. 그러나, 희귀한 항목(예를 들어, 대부분의 환자에 의하여 수행되지 않는 검사 항목)을 사용하려고 한다면 결측값의 비율이 증가한다. 결측값의 비율이 높은 트레이닝 데이터를 갖는 지도 학습 환경에서 모델을 트레이닝시키면, 트레이닝 데이터가 모든 케이스들을 설명할 수 없으므로 트레이닝된 모델은 편향되고 성능이 저하되는 문제점이 나타난다.
일 실시예에 따른 데이터 관리 장치는 이러한 한계를 극복하기 위하여 자가 학습(self-training)의 방법을 사용하여 데이터의 결측값을 대치한다. 자가 학습은 셀프 러닝(self-learning) 및 의사 라벨링(pseudo-labeling)의 반복적인 프로세서를 통하여 수행된다. 셀프 러닝에는 교사(teacher) 데이터 세트 및 학생(student) 데이터 세트의 두가지 데이터 세트가 필요하다. 항목 별 데이터 값이 모두 채워진 완전한 데이터(complete data)를 교사 데이터라고 하며, 항목 별 데이터 값이 일부라도 누락되어 결측값이 있는 결함 데이터를 학생 데이터라고 한다. 이하에서는, 교사 데이터를 기준 데이터로 설명하고, 학생 데이터를 후보 데이터로 설명한다.
일 실시예에 따른 데이터 관리 장치에 대하여 간략히 설명한다. 먼저 일 실시예에 따른 데이터 관리 장치는 기준 데이터 세트로 대치 모델을 트레이닝 시킨 후, 트레이닝된 대치 모델로 후보 데이터의 결측값을 예측할 수 있다. 이러한 프로세스를 의사 라벨링(pseudo-labeling)이라 한다. 이후, 유효한 의사 라벨링이 적용된 것으로 판단된 후보 데이터는 기준 데이터로 변환된다. 다음 반복(iteration)에서는, 기존 기준 데이터에서 후보 데이터 중 기준 데이터로 변환된 데이터가 추가된 데이터에 새로운 기준 데이터로 설정하여 동일한 과정을 반복한다. 반복 과정은 모든 후보 데이터가 기준 데이터로 변환되거나, 더 이상 후보 데이터가 기준 데이터가 될 수 없거나, 반복 횟수가 목표 횟수에 도달할 때까지 지속된다. 일반적으로, 반복 횟수가 많을수록 성능이 향상된다.
한편, 종래 기술에서는 두개의 KNN(k-Nearest-Neighbor) 모델 모델(h1) 및 모델(h2)을 사용하여 회귀 문제(regression problem)에 자가 학습 방법을 적용한 바 있다. 서로 다른 거리 행렬(distance matrices)을 갖는 두개의 KNN 모델을 사용하여 의사 라벨링이 적용된 샘플 데이터을 비교한다. 모델의 성능에 대한 샘플 데이터의 효과를 비교함으로써, 의사 레이블(pseudo label)이 유효한지 여부 및 라벨링 되지 않은 데이터를 라벨링된 데이터 세트에 통합할지 여부를 결정할 수 있다. 모델(h1)을 트레이닝 시키는데 사용되는 라벨링된 데이터를 L1이라고 하고, 모델 (h2)를 트레이닝 시키는데 사용되는 라벨링된 데이터를 L2라 한다. 모델(h1)에 의하여 검증된 데이터는 L2에 통합되고, 모델 h2에 의하여 검증된 데이터는 L1에 통합된다. 최종 결과(h*(x))는 두 개의 KNN모델(h1) 및 모델(h2)를 평균화하여 수학식 1과 같이 얻을 수 있다.
이와 같이, 회귀 문제(regression problem)에 자가 학습을 적용하여 Friedman, Mexican hat, Gabor, 및 polynomial과 같은 여러 데이터 세트에서 성능이 향상되었음을 확인하였다. 그러나, 종래 기술에서는 데이터를 하나씩 테스트하여 라벨링된 데이터에 추가하는 바, 시간이 너무 많이 걸리는 문제점이 있다. 종래의 방법은 사용된 데이터 세트가 1000에서 5000개의 기록에 불과하여, 비교적 적기 때문에 적용 가능하였다. 그러나, 수만에서 수십만 개의 기록이 있는 경우, 데이터 하나씩 계산하는 것은 비효율적이다. 또한, 종래 기술에서는 라벨링이 없는 데이터가 검증(verification)을 통과하면 라벨링이 지정된 데이터가 되어 다음 반복(iteration)에서 라벨링이 적용된 데이터로 사용될 수 있다. 이러한 단일값 라벨링(single-value labeling)은 유효성 검사 세트의 영향을 너무 쉽게 받으며, 다양한 테스트 세트에 대하여 제대로 수행되지 않을 수 있다.
일 실시예에 따른 데이터 관리 장치에서는, 다량의 데이터에 사용될 수 있는 다변량 자가 학습 회귀 방법(multivariate self-traning regression method)이 사용될 수 있다. 일 실시예에 따르면 데이터를 하나씩 테스트하는 대신, 한 번에 여러 샘플 데이터를 검증하여 검증 시간을 단축할 수 있다. 한번의 반복(iteration) 마다, 결측값(missing value)에 대한 새로운 대체값(impute value)이 새로운 검증 데이터와 함께 검증된다. 일 실시예에 따르면, 라벨링이 지정되지 않은 데이터가 라벨링이 지정된 데이터로 변환되기 위하여서는 미리 정한 조건을 만족하여야 한다. 일 실시예에 따르면, 다중 검증 데이터에 다중 검증 값들을 통합하기 때문에, 결측값을 보다 안정적으로 대치할 수 있다. 여러 번 샘플링되는 동안 라벨링이 지정되지 않은 개별 데이터는 유효성(validity)을 위하여 마스크(mask)된다.
도 1은 일 실시예에 따른 데이터 관리 장치가 전자의무기록(Electronic Medical Record, EMR)의 다변량 결측값을 대체하는 방법에 대하여 설명한다.
단계(101)에서는, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트에 기초하여 대치 모델(imputation model)을 트레이닝 시킬 수 있다.
단계(102)에서는, 일 실시예에 따른 데이터 관리 장치가 대치 모델을 사용하여 후보 데이터 세트의 결측값(missing value)에 의사 라벨링(pseudo-labeling)을 적용할 수 있다.
단계(103)에서는, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 기준 데이터 세트에 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터를 추가하여 제2 예측 모델을 트레이닝 시킬 수 있다.
단계(104)에서는, 일 실시예에 따른 데이터 관리 장치가 제1 예측 모델 및 제2 예측 모델 각각에 대한 성능(performance) 평가값을 산출하고, 산출된 성능 평가값을 서로 비교할 수 있다.
단계(105)에서는, 일 실시예에 따른 데이터 관리 장치가 제1 예측 모델 및 제2 예측 모델 사이의 성능 평가값 비교에 기초하여 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시킬 수 있다.
도 2는 일 실시예에 따른 데이터 관리 장치의 동작 방법을 보다 구체적으로 설명한다.
단계(201)에서는, 일 실시예에 따른 데이터 관리 장치는 기준 데이터 세트(210)에 기초하여 대치 모델(230)을 트레이닝 시킬 수 있다.
단계(202)에서는, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트(210)에 기초하여 트레이닝된 대치 모델(230)를 사용하여 후보 데이터 세트(220)의 결측값에 의사 라벨링을 적용할 수 있다. 예시적으로, 일 실시예에 따른 데이터 관리 장치는 임의의 환자에 대하여 검사 항목 중 누락된 값(결측값)이 존재하는 경우, 해당 항목에 대응하는 데이터를 트레이닝된 대치 모델(230)을 사용하여 예측할 수 있다. 예를 들어, 환자의 검사 항목은 알부민(Aibumin), 칼슘(Calcium), 빌리루빈(Bilirubin), 알칼리 포스파타아제(Alkaline phosphatase), 프로틴(Protein), 염화 이온(Chloride), 중탄산염(Total CO2), 콜레스테롤(Cholesterol), 글루코스(Glucose), 요소질소(BUN), 요산(Uric acid), 인(Phosphorus), PT(INR), PT(%), CRP(quant)의 항목을 의미할 수 있다.
단계(203)에서는, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트(210)에 기초하여 제1 예측 모델(231)을 트레이닝 시킬 수 있다. 구체적으로, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트(210)에서 테스트 데이터(test data) 세트를 제외한 데이터로 제1 예측 모델(231)을 트레이닝 시킬 수 있다. 여기서, 테스트 데이터 세트(240)는 기준 데이터 세트(210)로부터 추출될 수 있다.
단계(204)에서는, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트(210) 및 의사 라벨링이 적용된 후보 데이터 세트(220)로부터 추출된 샘플 데이터(sample data) 세트(221)에 기초하여 제2 예측 모델(232)을 트레이닝 시킬 수 있다. 구체적으로, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트(210)에서 테스트 데이터 세트(240)를 제외한 데이터에 샘플 데이터 세트(221)를 추가한 데이터를 추가하여 제2 예측 모델(232)을 트레이닝 시킬 수 있다.
단계(205)에서는, 일 실시예에 따른 데이터 관리 장치는 기준 데이터 세트(210)로부터 추출된 테스트 데이터 세트(240)에 결측값을 무작위로 생성하고, 제1 예측 모델(231) 및 제2 예측 모델(232) 각각은 테스트 데이터 세트(240)의 결측값에 대한 대체값을 예측할 수 있다. 다시 말해, 제1 예측 모델(231)은 테스트 데이터 세트(240)의 결측값을 예측할 수 있고, 제2 예측 모델(232)도 테스트 데이터 세트(240)의 결측값을 예측할 수 있다.
단계(206)에서는, 일 실시예에 따른 데이터 관리 장치는 제1 예측 모델(231) 및 제2 예측 모델(232) 각각에 대한 성능 평가값을 산출할 수 있다. 데이터 관리 장치는, 테스트 데이터 세트(240)의 실제값과 대체값의 오차를 예측 모델의 성능 평가값으로 산출할 수 있다. 구체적으로, 일 실시예에 따른 데이터 관리 장치는 테스트 데이터 세트(240)의 실제값과 대체값의 평균 제곱 오차(mean squared error, MSE)를 예측 모델의 성능 평가값으로 산출할 수 있다. 이하에서는, 제1 예측 모델(231)의 성능 평가값을 제1 성능 평가값(251)이라 하고, 제2 예측 모델(232)의 성능 평가값을 제2 성능 평가값(252)이라 한다.
다른 일 실시예에 따르면, 데이터 관리 장치는 테스트 데이터 세트(240)의 실제값과 대체값의 오차에 가중치를 적용하여 성능 평가값을 산출할 수도 있다. 이에 관하여서는 후술하기로 한다.
단계(207)에서는, 일 실시예에 따른 데이터 관리 장치는 제1 성능 평가값(251)과 제2 성능 평가값(252)을 서로 비교할 수 있다. 데이터 관리 장치는 동일한 테스트 데이터 세트(240)에 대하여, 제2 예측 모델(232)의 테스트 결과가 제1 예측 모델(231)의 테스트 결과 보다 좋으면 샘플 데이터 세트(221)의 의사 레이블이 유효한 것으로 결정할 수 있다. 예측 모델의 테스트란, 샘플 데이터 세트(221)로 트레이닝된 제2 예측 모델(232)의 성능이 제1 예측 모델(231)의 성능보다 높은지 판단한다는 의미이며, 테스트를 통과한다는 의미는 제2 예측 모델(232)의 성능이 제1 예측 모델(231)의 성능보다 높다는 것을 나타낸다. 예측 모델의 테스트 결과는 예측 모델의 성능 평가값으로 설명될 수 있다. 예측 모델의 성능 평가값이 낮을수록 실제값과 대체값의 차이가 적은 것으로 성능이 높은 것으로 판단할 수 있다. 제1 예측 모델(231)의 성능 평가값과 제2 예측 모델(232)의 성능 평가값을 비교함으로써, 제2 예측 모델(232)을 트레이닝 시키는데 사용된 샘플 데이터 세트(221)의 유효성을 확인할 수 있다.
단계(208)에서는, 일 실시예에 따른 데이터 관리 장치는 제1 성능 평가값(251)이 제2 성능 평가값(252)을 초과하는 경우에 응답하여, 샘플 데이터 세트(221)에 포함된 각 데이터 각각에 대하여 제1 점수를 부여할 수 있다. 일 실시예에 따른 데이터 관리 장치는 제1 성능 평가값(251)이 제2 성능 평가값(252) 이하인 경우에 응답하여, 샘플 데이터 세트(221)에 포함된 데이터 각각에 대하여 제2 점수를 부여할 수 있다. 예시적으로, 제1 점수는 1을 나타낼 수 있고, 제2 점수는 -0.5를 나타낼 수 있다.
일 실시예에 따른 데이터 관리 장치는 후보 데이터 세트(220)로부터 샘플 데이터 세트(221)를 추출하는 샘플링(sampling)을 미리 정한 횟수로 수행한다. 데이터 관리 장치는 후보 데이터 세트(220)에서 이전의 샘플 데이터 세트(221)와 상이한 다른 샘플 데이터 세트를 추출할 수 있다. 데이터 관리 장치는 다른 샘플 데이터 세트(221) 및 기준 데이터 세트(210)와 함께 예측 모델을 트레이닝 시키고, 트레이닝된 예측 모델과 제1 예측 모델(231)과의 성능을 비교하여, 다른 샘플 데이터 세트에 포함되는 데이터에 제1 점수 또는 제2 점수를 부여할 수 있다. 다시 말해, 일 실시예에 따른 데이터 관리 장치는 추출된 샘플 데이터 세트 마다 예측 모델을 트레이닝 시키고, 예측 모델의 성능 평가값을 산출하여, 제1 예측 모델(231)과의 성능을 비교할 수 있다. 데이터 관리 장치는 샘플 데이터 세트에 포함된 데이터 각각에 대하여 점수를 부여할 수 있다. 데이터 관리 장치는 미리 설정된 횟수로 후보 데이터 세트(220)에서 샘플 데이터 세트를 샘플링할 수 있다.
예시적으로, 후보 데이터 세트에 포함된 데이터가 S개이고, 샘플 데이터 세트에 포함되는 데이터 수가 N인 경우, 샘플링(sampling)은 한번의 반복(iteration) 동안 S/N 번 수행될 수 있다. 이러한 방식을 사용하면, 확률적으로 모든 후보 데이터를 한 번의 반복(iteration) 동안 한 번 검사하는 것으로 고려될 수 있다. 여기서 반복(iteration)이란, 모든 후보 데이터를 모두 한 번씩 검사하기 위하여 샘플 데이터 세트를 여러 번 추출하고, 각 샘플 데이터 세트 마다 예측 모델을 트레이닝하고, 트레이닝된 예측 모델과 제1 예측 모델의 성능을 비교하여, 각 샘플 데이터 세트에 포함된 데이터에 점수를 부가하는 일련의 과정을 하나의 반복(iteration)이라고 한다. 하나의 반복(iteration)은 단계에서 후보 데이터 세트에 포함된 후보 데이터의 일부를 기준 데이터로 변환시키는 과정까지 포함할 수 있다.
단계(209)에서는, 일 실시예에 따른 데이터 관리 장치는 후보 데이터 세트(220) 중으로부터 임계 점수 이상의 누적 점수를 갖는 후보 데이터를 기준 데이터로 변환시킬 수 있다. 일 실시예에 따른 데이터 관리 장치는, 기존의 기준 데이터에 기준 데이터로 변환된 후보 데이터를 추가하여 새로운 기준 데이터를 생성할 수 있다. 예시적으로, 후보 데이터 세트(220) 중으로부터 누적 점수가 4 이상인 후보 데이터를 기준 데이터로 변환시킬 수 있다.
예시적으로, 후보 데이터(x1)이 유효한 대체값으로 의사 라벨링되었다고 가정한다. 그러나, 후보 데이터(x1)이 유효하지 않은 후보 데이터들과 함께 샘플 데이터 세트로 추출된 경우, 해당 샘플 데이터에 기초하여 트레이닝된 제2 예측 모델의 성능이 저하된다. 이러한 경우, 후보 데이터(x1)은 기준 데이터로 변환되어야 하지만, 제2 예측 모델의 성능이 좋지 않아 후보 데이터로 남아있게 된다. 반대로, 후보 데이터(x2)가 유효하지 않은 대체값으로 의사 라벨링 되었다고 가정한다. 후보 데이터(x2)가 유효한 후보 데이터들과 함께 샘플 데이터 세트로 추출되는 경우, 제2 예측 모델의 성능이 향상된다. 이러한 경우, 후보 데이터(x2)는 후보 데이터로 남아있어야 하지만, 제2 예측 모델의 성능이 높아 기준 데이터로 변환될 수 있다. 후보 데이터(x2)가 유효하지 않은 후보 데이터 이므로, 기준 데이터가 되면 전체 자가 트레이닝의 성능이 저하된다. 따라서, 일 실시예에 따른 데이터 관리 방법에서는 이러한 비합리성을 방지하기 위하여, 미리 정한 조건을 만족하는 후보 데이터만을 기준 데이터로 변환시키는 방법을 사용한다. 아래에서 보다 구체적으로 설명한다.
일 실시예에 따른 데이터 관리 장치는, 매 반복(iteration) 마다 후보 데이터 세트 내의 결측값을 새로운 대체값으로 예측하고, 후보 데이터 세트로부터 추출된 샘플 데이터 세트에 대한 테스트가 통과되면 통과된 샘플 데이터 세트 내의 결측값에 대한 대체값이 저장된다. 일 실시예에 따른 데이터 관리 장치는, 다음 반복에서 후보 데이터 세트 내의 결측값에 대하여 새로운 대체값으로 예측하고, 샘플 데이터 세트를 추출하여 테스트를 수행할 수 있다. 하나의 후보 데이터가 다음 반복에서도 테스트를 통과하는 경우, 현재값(current value) 및 저장값(stored value)의 평균값이 업데이트되어 저장된다. 이를 관리하기 위하여, 후보 데이터 마다 누적 점수를 부여한다. 샘플 데이터 세트가 테스트에 통과하는 경우, 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제1 점수를 부여할 수 있다. 샘플 데이터 세트가 테스트에 통과하지 못하는 경우에는 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제2 점수를 부여할 수 있다. 예를 들어, 제1 점수는 +1을 나타낼 수 있고, 제2 점수는 -0.5를 나타낼 수 있다.
데이터 관리 장치는 임계 점수 이상의 누적 점수가 부여된 후보 데이터의 결측값을 저장값(stored value)으로 대체하여 기준 데이터로 변환시킬 수 있다. 예시적으로, 후보 데이터의 누적 점수가 테스트에서 지속적으로 통과하지 못하여 0이 되는 경우, 해당 후보 데이터의 결측값에 대한 저장값은 0으로 되돌아간다.
후보 데이터(x1)이 유효한 데이터인 경우, 후보 데이터(x1)이 속한 샘플 데이터 세트는 이미 유효한 후보 데이터 하나를 확보한 것이므로 예측 모델의 성능이 향상될 가능성이 높다. 따라서, 후보 데이터(x1)은 여러 샘플 데이터 세트에 속할 수 있으나, 후보 데이터(x1)을 포함하는 샘플 데이터 세트는 테스트에 통과할 확률이 상대적으로 높으며, 상대적으로 높은 확률로 누적 점수가 임계 점수에 도달하여 기준 데이터로 변환된다. 반대로 유효하지 않은 후보 데이터(x2)를 포함하는 샘플 데이터 세트는 테스트에서 통과하지 못할 확률이 높아,누적 점수가 임계 점수에 도달하지 못할 확률이 높다. 일 실시예에 따르면, 데이터 마다 누적 점수를 부여하는 방식으로 운에 의한 기준 데이터로의 변환을 피할 수 있다. 임계 점수를 더 높게 설정하는 경우, 더 많은 테스트를 수행하고 더 많은 검증된 데이터를 필터링해야 한다. 그러나, 라벨링된 데이터로 만들기 위해서는 너무 많은 반복이 필요할 수 있다.
일 실시예에 따른 데이터 관리 장치는 후보 데이터 세트 중으로부터 임계 점수 이상의 누적 점수를 갖는 후보 데이터를 기준 데이터로 변환시킨 후, 기존의 기준 데이터에 기준 데이터로 변환된 데이터가 추가된 새로운 기준 데이터 세트로 대치 모델을 새롭게 트레이닝 시킬 수 있다. 기준 데이터로 변환된 후보 데이터가 제거된 후보 데이터 세트 내의 결측값에는 새로운 기존 데이터 세트로 트레이닝된 대치 모델을 사용하여 새롭게 의사 라벨링이 적용된다. 다시 말해, 일 실시예에 따른 데이터 관리 장치는 다음 반복(iteration)에서, 새로운 기존 데이터 세트로 트레이닝된 새로운 대치 모델을 사용하여 후보 데이터 세트 내의 결측값에 대하여 대체값을 새롭게 예측할 수 있다. 이후로는 도 2에서 설명된 과정을 거쳐 후보 데이터 세트 중의 일부를 기준 데이터로 변환시킬 수 있으며, 이러한 과정은 모든 후보 데이터가 기준 데이터로 변환되거나, 더 이상 후보 데이터가 기준 데이터가 될 수 없거나, 반복 횟수가 목표 횟수에 도달할 때까지 지속될 수 있다. 일 실시예에 따른 데이터 관리 장치는 끝까지 기준 데이터가 되지 않은 후보 데이터에 대해서는 최종 대치 모델(final imputation model)로 결측값을 대체한다.
일 실시예에 따른 데이터 관리 장치는, 반복(iteration) 및 샘플링(sampling)에서 전체 데이터를 테스트하기 때문에 시간이 많이 소요된다. 따라서, 일 실시예에 따른 데이터 관리 장치는 KNN(k-Nearest Neighbor)을 기본 모델로 사용한다. KNN은 모든 데이터를 일일이 검증하지 않고, 대신 데이터의 샘플(sample)을 사용한다. 따라서, 전체 데이터 세트를 분석해야 하는 다른 알고리즘보다 다중 반복(multiple iterations)에 보다 효율적이다. 일 실시예에 따른 데이터 관리 방법은 동일한 예측 모델에서 데이터의 유효성을 비교하기 위한 것이므로, KNN의 절대 성능(absolute performance)은 중요하지 않다.
실제로, 의사 라벨링이 적용된 데이터를 검증하기 위한 가장 신뢰할 수 있는 방법은 데이터를 하나씩 검증하는 것이다. 그럼에도 불구하고, 일 실시예에 따른 데이터 대체 방법에서 데이터를 하나씩 테스트하는 대신 복수의 데이터로 구성된 샘플 데이터로 테스트하는 이유는 KNN의 특성과 관련이 있다. KNN은 k개의 인접 데이터(k-nearest data)를 기반으로 계산된다. 예시적으로, 하나의 샘플 데이터 x를 테스트하는 경우를 가정한다. 샘플 데이터 x가 모든 테스트 데이터에서 멀리 떨어져 있는 경우가 있을 수 있다. 제2 예측 모델에 샘플 데이터 x를 추가하더라도 제2 예측 모델의 성능 평가값에 영향을 주지 않는다. 이러한 경우가 증가하면, 쓸모없는 계산이 증가하고 자가 훈련(self-training)이 원활하게 작동하지 않는다. 반면, 복수의 데이터를 포함하는 샘플 데이터 세트로 샘플링하는 경우, 샘플 데이터 세트는 예측 모델의 성능 평가값 및 의사 레이블의 유효성에 영향을 미친다. 추출된 샘플 데이터 세트의 의사 레이블(pseudo-label)이 유효한 경우, 제2 예측 모델의 성능이 제1 예측 모델의 성능보다 높게 나타난다. 다시 말해, 제2 예측 모델의 성능 평가값이 제1 예측 모델의 성능 평가값 보다 낮게 나타난다. 반대로, 추출된 샘플 데이터 세트의 의사 레이블이 유효하지 않은 경우, 제2 예측 모델의 성능이 제1 예측 모델의 성능보다 낮게 나타난다. 다시 말해, 제2 예측 모델의 성능 평가값이 제1 예측 모델의 성능 평가값 보다 높게 나타난다.
예시적으로, 샘플 데이터 세트는 50개의 후보 데이터로 구성될 수 있다. 일반적으로, 샘플 데이터 세트가 포함하는 후보 데이터의 수가 증가하면 일 실시예에 따른 데이터 관리 장치의 속도가 증가하고, 성능이 저하될 수 있다. 반대로, 샘플 데이터 세트가 포함하는 후보 데이터의 수가 감소하면 일 실시예에 따른 데이터 관리 장치의 성능이 향상되나, 속도가 감소할 수 있다. 그러나, 샘플 데이터 세트가 포함하는 후보 데이터의 수를 너무 작게 설정하는 경우에는 일 실시예에 따른 데이터 관리 장치의 성능이 오히려 저하될 수도 있다. 예를 들어, 샘플 데이터 세트가 5개의 후보 데이터로 구성되었다고 가정한다. 이때, 샘플 데이터 세트가 포함하는 후보 데이터 중 하나의 후보 데이터는 적절히 대체된 샘플 데이터이며, 테스트 데이터의 근처에 있는 것으로 가정한다. 또한, 나머지 4개의 후보 데이터는 불량하게 대체된 샘플 데이터이며, 테스트 데이터에서 멀리 떨어져 있는 것으로 가정한다. 이 경우, 데이터 관리 장치는 5개의 후보 데이터로 구성된 샘플 데이터 세트를 적절히 대체된 샘플 데이터 세트로 평가하며, 유효한 샘플인 것으로 판단할 것이다. 이는 데이터 관리 장치의 성능 저하로 이어진다. 다시 말해, 일 실시예에 따른 데이터 관리 장치의 충분한 성능을 위해서는 샘플 데이터 세트가 포함하는 후보 데이터의 수가 충분히 작으면서도 충분히 커야된다. 더 나아가, 데이터 관리 장치는 후보 데이터 세트 중으로부터 운에 의하여 후보 데이터가 기준 데이터로 변환되는 것을 피하기 위하여, 미리 정한 조건을 만족하는 후보 데이터만을 기준 데이터로 변환시킨다.
더 나아가 다른 일 실시예에 따르면, 데이터 관리 장치는 샘플 데이터 세트에 대한 유효성을 판단하기 위하여 보다 엄격한 표준을 적용할 수도 있다. 데이터 관리 장치는 성능 비교 모델(comparative model)로 기준 데이터 세트에 기초하여 트레이닝 된 제1 예측 모델 이외에도, 제3 예측 모델 및 제4 예측 모델을 추가로 비교 모델로 사용할 수 있다. 제3 예측 모델은 기준 데이터 및 평균값(mean)으로 대체된 샘플 데이터에 기초하여 트레이닝된 예측 모델을 나타낼 수 있고, 제4 예측 모델은 최초의 기준 데이터에 기초하여 트레이닝된 예측 모델을 나타낼 수 있다. 데이터 관리 장치는 제2 예측 모델의 성능이, 제1 예측 모델, 제3 예측 모델, 및 제4 예측 모델의 성능보다 높은 경우에 샘플 데이터 세트가 유효한 것으로 판단할 수 있다. 다시 말해, 일 실시예에 따른 데이터 관리 장치는 제2 예측 모델의 성능 평가값이, 제1 예측 모델의 성능 평가값, 제3 예측 모델의 성능 평가값, 및 제4 예측 모델의 성능 평가값 보다 낮은 경우에 제2 예측 모델을 트레이닝 시킨 샘플 데이터 세트가 테스트에 통과한 것으로, 샘플 데이터 세트에 포함되는 데이터 각각에 제1 점수를 부여할 수 있다. 데이터 관리 장치는 제1 예측 모델의 성능 평가값, 제3 예측 모델의 성능 평가값, 및 제4 예측 모델의 성능 평가값 중 하나라도 제2 예측 모델의 성능 평가값 보다 낮은 값이 존재하는 경우에는, 제2 예측 모델을 트레이닝 시킨 샘플 데이터 세트가 테스트에 통과하지 못한 것으로, 샘플 데이터 세트에 포함되는 데이터 각각에 제2 점수를 부여할 수 있다. 후보 데이터가 효과적으로 대체되어 기준 데이터로 변환되는 경우, 해당 데이터는 평균 또는 초기 기준 데이터에 의하여 대체된 데이터 보다 나은 데이터이므로, 제3 예측 모델 및 제4 예측 모델의 2가지 추가적인 비교 모델을 기준으로 설정할 수 있다.
표 1은 일 실시예에 따른 데이터 대체 방법의 전체 의사 코드(pseudo-code)를 나타낸다.
표 1에서, Model(data)는 해당 모델(Model)이 데이터(data)로 트레이닝 되었음을 나타낸다. 예를 들어, KNN(data, k)는 k개의 주변(neighbor)을 갖는 KNN 모델이 데이터(data)를 사용하여 트레이닝 되었음을 나타낸다. 또한, I.predict(data)는 대치 모델(I)로 데이터의 결측값을 예측하여 대치하는 것을 나타낸다. Data[index]는 데이터의 인덱스에 상응하는 값을 나타낸다.
이하에서는, 일 실시예에 따른 데이터 관리 장치가 제1 예측 모델 및 제2 예측 모델 각각에 대한 성능 평가값을 산출하는 구체적인 방식에 대하여 설명한다.
도 2에서 설명한 바와 같이, 데이터 관리 장치는 제1 예측 모델 및 제2 예측 모델이 테스트 데이터 세트의 결측값에 대한 대체값을 예측하도록 하여, 테스트 데이터 세트의 실제값과 대체값의 오차를 예측 모델의 성능 평가값으로 산출할 수 있다. 일 실시예에 따르면, 데이터 관리 장치는 예측 모델 마다 테스트 데이터 세트에 대한 실제값과 대체값의 평균 제곱 오차(mean squared error, MSE)를 예측 모델의 성능 평가값으로 산출할 수 있다. 구체적으로, 일 실시예에 따른 데이터 관리 장치는 테스트 데이터 세트를 항목 별로 분류하고, 항목 내에 포함된 데이터에 대한 실제값과 대체값의 평균 제곱 오차(MSEi)를 계산할 수 있다. 일 실시예에 따른 데이터 관리 장치는 항목 별 평균 제곱 오차(MSEi)를 합산하고, 항목 총 개수로 나눈 값을 평가 지표(MSE)로 설정할 수 있다. 수학식 2는 항목 별로 실제값과 대체값의 평균 제곱 오차를 계산하는 과정을 설명하며, 수학식 3은 항목 별 평균 제곱 오차를 합산하고, 항목의 총 개수로 나눈 값을 의미하는 평가 지표(MSE)를 계산하는 과정을 설명한다.
수학식 2에서, i는 항목의 인덱스를 나타내며, MSEi는 각 항목 별 평균 제곱 오차를 나타내며, yi
j는 데이터에 대한 대체값을 나타내고, 는 데이터에 대한 실제값을 나타낼 수 있다.
수학식 3에서, N은 전체 항목의 개수를 나타낼 수 있다. 일 실시예에 따른 데이터 관리 장치는 각 항목의 평균 제곱 오차를 고려한 MSE의 평가지표를 예측 모델의 성능 평가 값으로 사용할 수 있다.
다른 일 실시예에 따르면, 데이터 관리 장치는 데이터 세트의 실제값과 대체값의 오차에 가중치를 적용하여 성능 평가값을 산출할 수도 있다. 구체적으로, 데이터 관리 장치는 전체 데이터를 항목 별로 분류하고, 항목 별 데이터 분포에 따라 항목 마다 가중치를 계산할 수 있다. 데이터 관리 장치는 테스트 데이터 세트를 항목 별로 분류하고, 항목 별로 산출된 실제값과 대체값의 평균 제곱 오차에 항목 별 가중치를 적용함으로써 예측 모델의 성능 평가값을 산출할 수 있다. 이때, 해당 항목 내에 분포된 데이터 중 제1 분위수 데이터와 제3 분위수 데이터에 기초하여 해당 항목에 대한 가중치를 계산할 수 있다. 아래에서는, 데이터 관리 장치의 데이터 세트의 실제값과 대체값의 오차에 가중치를 적용하여 성능 평가값을 산출하는 방법을 보다 구체적으로 설명한다.
도 3은 항목 별 데이터 분포를 나타내는 박스 플롯(box plot)을 도시한다.
일 실시예에 따른 데이터 관리 장치는 다수의 항목에 대한 데이터를 대치하고 있으며, 의사 레이블(pseudo-label)의 효과는 실제값과 대체값의 평균 제곱 오차로 평가될 수 있다. 그러나, 실제값과 대체값의 평균 제곱 오차는 항목 별 데이터 분포에 영향을 받는다. 예를 들어, 고밀도(high density)의 데이터 분포를 가지는 항목에서는 데이터가 작은 영역(small area)에 걸쳐 분포하기 때문에 실제값을 예측하기 쉽고, 실제값과 대체값의 오류가 작게 나타난다. 반대로, 데이터가 광범위하게 분산된 항목에서는 데이터의 실제값을 예측하기 어렵다. 일 실시예에 따르면, 제1 예측 모델 및 제2 예측 모델은 모든 항목들의 오류의 평균을 사용하여 샘플 데이터 세트를 평가한다. 그러나, 항목의 데이터 분포가 오류를 결정하기 때문에, 자가 학습은 전체적인 오류(overall error)를 줄이기 위해 광범위하게 데이터가 분포된 항목에 대해서만 적용될 수 있다. 데이터가 광범위하게 분포된 저밀도의 데이터 분포를 가지는 항목의 데이터 오류를 줄이는 것이 데이터가 좁은 영역에 분포된 고밀도의 데이터 분포를 가지는 항목의 데이터 오류를 줄이는 것 보다 전체적인 오류를 줄이는 데 더 유리하기 때문이다. 따라서, 높은 데이터 밀도를 가지는 항목이 자가 학습에서 무시(neglect)될 수 있고, 이는 자가 학습의 성능을 악화시킬 수 있다.
그래프(310)은 알칼리 포스파타아제(Alkaline phosphatase)의 데이터 분포를 나타내는 박스 플롯(box plot)이고, 그래프(320)는 중탄산염(Total CO2)의 데이터 분포를 나타내는 박스 플롯이다.
그래프(310)을 참조하면, 알칼리 포스파타아제의 데이터는 작은 영역 내에 분포되어 있다. 알칼리 포스파타아제의 상자(311)에서 값을 예측하는 경우를 가정한다. 상자(311) 자체가 작기 때문에 결측값의 예측이 비교적 정확하다. 반대로, 그래프(311)을 참조하면, 중탄산염의 데이터는 넓은 영역에 분포되어 있으며, 상자(321)의 크기가 비교적 크기 때문에 결측값의 대체값은 실제값과 오차가 비교적 크게 나타난다. 이 경우, 중탄산염 항목에서 데이터의 실제값과 대체값의 오차가 알칼리 포스타아제 항목에서 보다 전체적인 오차에 훨씬 더 큰 영향을 미친다. 결과적으로, 자가 학습(self-training)은 알칼리성 포스파타아제의 항목에 대한 데이터 예측을 악화시키더라도, 중탄산염 항목에 대한 데이터 예측을 더욱 향상시키는 방향으로 작동한다.
의료 데이터는 항목들 사이에 데이터 분포에 큰 차이가 있으므로, 이러한 특성은 자가 학습에 취약하다. 따라서, 일 실시예에 따른 데이터 관리 장치는 항목 별 데이터 분포를 고려한 평가 지표를 적용하여 샘플 데이터를 테스트할 수 있다. 데이터 관리 장치는 전체 데이터를 항목 별로 분류하고, 데이터 분포에 따라 항목 별로 가중치를 계산할 수 있다. 구체적으로, 데이터 관리 장치는 해당 항목 내에 분포된 데이터 중 제1 분위수 데이터와 제3 분위수 데이터의 차이를 이용하여 해당 항목의 데이터 분포를 추정할 수 있다. 항목 내의 데이터 밀도가 높으면 제1 분위수 데이터와 제3 분위수 데이터의 차이가 작으며, 항목 내의 데이터 밀도가 낮으면 제1 분위수 데이터와 제3 분위수 데이터와의 차이가 커진다. 항목 별 가중치는 아래 수학식 4와 같이 정의된다.
수학식 4에서, i는 항목의 인덱스를 나타내며, Qi 및 Qmean은 아래 수학식 2 및 3과 같이 정의될 수 있다.
수학식 6에서, N은 전체 항목의 개수를 나타낸다.
일 실시예에 따른 데이터 관리 장치는, 테스트 데이터 세트를 항목 별로 분류하고, 항목 별로 산출된 실제값과 대체값의 평균 제곱 오차(MSEi)에 항목별 가중치()를 적용하고, 항목 마다 가중치가 적용된 평균 제곱 오차를 합산하고 항목의 총 개수로 나눈 값(Q-MSE)을 예측 모델의 성능 평가값으로 설정할 수 있다. 평가 지표(Q-MSE)는 수학식 7와 같이 표현될 수 있다.
일 실시예에 따른 데이터 관리 장치는 각 항목의 평균 제곱 오차 및 각 항목 마다 데이터 분포에 따른 가중치를 고려한 Q-MSE의 평가지표를 예측 모델의 성능 평가값으로 사용할 수 있다.
이하에서는, 전자의료기록(EMR) 데이터를 사용하여 일 실시예에 따른 데이터 관리 장치의 결측값 대체 성능 평가 결과를 설명한다.
예를 들어, 물리적 정보(physical information), 실험실 테스트, 심 초음파 결과 등의 257개의 항목이 사용될 수 있고, 이 중 241개의 항목 값은 나머지 16개의 표적(target) 항목의 결측값을 대치하는 입력으로 사용될 수 있다. 16개의 항목은 알부민(Aibumin), 칼슘(Calcium), 빌리루빈(Bilirubin), 알칼리 포스파타아제(Alkaline phosphatase), 프로틴(Protein), 염화 이온(Chloride), 중탄산염(Total CO2), 콜레스테롤(Cholesterol), 글루코스(Glucose), 요소질소(BUN), 요산(Uric acid), 인(Phosphorus), PT(INR), PT(%), CRP(quant)의 항목을 나타낼 수 있다. 항목 내의 결측률(missing rate)은 1.5%에서 84.9%로 다양하게 나타난다. 아래 표 2는 각 항목에 대한 결측률을 예시적으로 나타낸다.
16개의 대상 항목 마다 데이터가 모두 기록된 기준 데이터는 약 9000개로 나타날 수 있고, 16개의 대상 항목 중 적어도 하나의 결측값이 있는 후보 데이터는 약 53,000개로 나타날 수 있다. 16개의 대상 항목은 실험실 테스트의 결과일 수 있고, 연속값(continuous value)을 가질 수 있다.
결측값의 패턴에는 무작위 누락(Missing at Random, MAR), 무작위 완전 누락(Missing Completely at Random, MCAR), 및 무작위가 아닌 누락(Missing Not at Random,, MNAR)이 있다. 실험실 데이터는 일반적으로 관찰된 정보(observed information)를 기반으로 테스트 할지 여부가 결정된다. 따라서, 누락된 실험실 데이터는 관찰된 값과 관련이 있으며, 결측값의 패턴은 무작위 누락(MAR) 패턴이다.
도 4는 반복 횟수에 따른 항목별 실제값과 대체값의 평균 제곱 오차를 나타낸다.
그래프(410)은 일 실시예에 따른 데이터 관리 장치가 평가 지표 MSE를 예측 모델의 성능 평가값으로 사용한 경우, 반복 횟수에 따른 항목별 실제값과 대체값의 평균 제곱 오차를 나타낸다. 이하, 항목별 실제값과 대체값의 평균 제곱 오차를 오차율이라고 설명한다.
그래프(420)는 일 실시예에 따른 데이터 관리 장치가 평가 지표 Q-MSE를 예측 모델의 성능 평가값으로 사용한 경우, 반복 횟수에 따른 오차율을 나타낸다.
그래프(410)을 참조하면, 평가 지표 MSE로 예측 모델의 성능 평가값을 산출하는 경우, 16개의 항목 중 14개의 항목에서 반복(iteration)에 따라 오차율이 감소하였으며, 오차율의 최대 감소는 10.5%로 나타난다. E-ANC 항목 및 PT(INR) 항목에서 각각 오차율이 1.5%, 2.45% 증가하는 것으로 나타난다. PT(%) 항목은 오류(error)의 가중치가 가장 높은 항목으로, PT(%) 항목의 그래프를 참조하면 자가 학습(self-training)의 초기 단계에서는 주로 PT(%) 항목의 실제값과 대체값의 오차를 최소화하기 위하여 동작하는 것으로 나타난다. 3~4의 반복이 진행된 후에는, 다른 항목들의 평균 제곱 오차가 감소되어 개선되기 시작하고, PT(%) 항목이 더 이상 개선되지 않고 진동한다. E-ANC 항목과 PT(INR) 항목은 데이터 밀도가 가장 높은 두가지 항목으로, 자가 학습에서 무시(neglect)되어 오차율이 반복에 따라 증가하는 것으로 나타난다.
그래프(420)을 참조하면, 평가 지표 Q-MSE로 예측 모델의 성능 평가값을 산출하는 경우, 최대 오차율 감소는 약 12.5%로 나타난다. 데이터 분포 밀도가 가장 높은 PT(INR) 항목은 약 2.5배의 보정(correction)을 받으며, 데이터 분포 밀도가 가장 낮은 PT(%) 항목은 약 0.5배의 보정을 받는다. 그 결과, 그래프(410)에서는 주로 PT(%) 항목을 중심으로 오차율이 감소하였으나, 그래프(420)에서는 PT(%) 항목과 PT(INR) 항목이 균형 잡힌 방식으로 이동한다. Q-MSE 평가지표를 예측 모델의 성능 평가값으로 산출하는 경우, 대부분의 항목에서 오차율이 반복에 따라 더 많이 감소하는 것으로 나타난다. 또한, E-ANC 항목에서는 오차율이 덜 증가하였으며, E-ANC 항목에서 평가 지표가 MSE일 때 오차율이 발산하였으나, E-ANC 항목에서 평가 지표가 Q-MSE인 경우 오차율이 진동하는 것으로 나타난다. 이는 특정 항목이 무시될 가능성이 적다는 것을 의미한다.
도 5는 반복 횟수에 따른 모든 항목에 대한 실제값과 대체값의 평균 제곱 오차를 나타낸다.
그래프(510)는 일 실시예에 따른 데이터 관리 장치가 평가 지표 MSE를 예측 모델의 성능 평가값으로 사용한 경우, 반복 횟수에 따른 모든 항목 데이터에 대한 오차율을 나타낸다.
그래프(520)은 일 실시예에 따른 데이터 관리 장치가 평가 지표 Q-MSE를 예측 모델의 성능 평가값으로 사용한 경우, 반복 횟수에 따른 모든 항목 데이터에 대한 오차율을 나타낸다.
그래프(510) 및 그래프(520)을 참조하면, 반복이 누적되면서 평가 지표 Q-MSE를 사용한 데이터 관리 장치의 오차율이 평가 지표 MSE 를 사용한 데이터 관리 장치의 오차율 보다 낮아지는 것을 확인할 수 있다. 데이터 관리 장치가 평가 지표 Q-MSE를 예측 모델의 성능 평가값으로 사용하는 경우, 데이터 분포에 따라 무시되거나 과대 평가되는 지점을 억제할 수 있고, 모든 항목을 균등하게 고려할 수 있다.
도 6은 종래의 대치 방법(imputation method)과 일 실시예에 따른 데이터 관리 방법의 자가 학습(self-training) 방법의 성능을 결측률(missing rate)에 따라 비교한 그래프를 도시한다.
그래프(610)는 일 실시예에 따른 자가 학습 방법을 사용한 경우, 결측률에 따른 오차율을 도시한다. 구체적으로, 그래프(610)은 평가 지표 MSE를 예측 모델의 성능 평가값으로 사용한 경우, 결측률에 따른 오차율을 나타낸다. 그래프(630)는 DNN 알고리즘을 사용한 경우, 결측률에 따른 오차율을 도시한다. 그래프(640)는 평균(MEAN) 알고리즘을 사용한 경우, 결측률에 따른 오차율을 도시한다. 그래프(650)는 RF(Random Forest) 알고리즘을 사용한 경우, 결측률에 따른 오차율을 도시한다. 그래프(660)는 MICE 알고리즘을 사용한 경우, 결측률에 따른 오차율을 도시한다. 그래프(670)는 EM 알고리즘을 사용한 경우, 결측률에 따른 오차율을 도시한다. 그래프(680)는 KNN 알고리즘을 사용한 경우, 결측률에 따른 오차율을 도시한다.
도 7은 대치 방법(imputation method) 별로 오차율이 가장 작게 나타나는 항목의 수를 도시한다.
그래프(710)은 결측률이 5%인 경우에서의 알고리즘 별로 오차율이 가장 작게 나타나는 항목의 수를 나타낸다. 그래프(720)은 결측률이 10%인 경우에서의 알고리즘 별로 오차율이 가장 작게 나타나는 항목의 수를 나타낸다. 그래프(730)은 결측률이 20%인 경우에서의 알고리즘 별로 오차율이 가장 작게 나타나는 항목의 수를 나타낸다. 그래프(740)은 결측률이 30%인 경우에서의 알고리즘 별로 오차율이 가장 작게 나타나는 항목의 수를 나타낸다. 그래프(750)은 결측률이 40%인 경우에서의 알고리즘 별로 오차율이 가장 작게 나타나는 항목의 수를 나타낸다. 그래프(760)은 결측률이 50%인 경우에서의 알고리즘 별로 오차율이 가장 작게 나타나는 항목의 수를 나타낸다. 그래프(710)을 참조하면, 결측률이 5 % 인 경우 자가 학습(self-learning) 알고리즘에서 9 개의 항목, MICE 알고리즘에서 5개의 항목, RF 알고리즘에서 1개의 항목 및 KNN 알고리즘에서 1개의 항목에 대하여 각각 최고의 성능을 보인다. 결측률이 증가함에 따라 자가 학습(self-training)에 대하여 높은 성능을 보이는 항목이 증가하는 것으로 나타난다. 그래프(760)을 참조하면, 결측률이 50 %에 도달한 경우 자가 학습이 13 가지 항목에서 최고의 성능을 보이는 것으로 나타난다.
알고리즘의 영향을 확인하기 위해 가장 강력한 세가지 알고리즘(자가 학습, MICE, RF)에 대하여 Friedman 테스트를 수행할 수 있다. 결측률이 5 % 인 경우 Friedman 검정의 p-값은 0.0087로 나타나며, p-값이 0.05보다 작으면 귀무 가설이 기각되어 알고리즘에 따른 영향이 있음을 의미한다. 그 후 결측률이 증가함에 따라 p-값은 점차적으로 0.0003로 감소하여 알고리즘 간의 차이가 증가함을 나타낸다. 아래, 표 3은 Friedman 테스트의 결과를 나타낸다.
모든 단계에서, 평균 대치(mean-imputation)가 Wilcoxon signed-rank test의 표준 방법으로 사용된다. 6 가지 알고리즘에 Wilcoxon signed-rank test를 적용하였으며, 결과는 아래 표 4와 같이 나타난다.
MLP 알고리즘, RF 알고리즘의 경우 p-값은 모든 결측률에서 0.05보다 크다. 이는 해당 알고리즘이 평균 대치(mean-imputation)과 크게 다르지 않음을 의미한다. KNN 알고리즘은 결측률이 5%인 경우의 p 값이 0.013으로 통계적으로 유의한 차이가 있음을 알 수 있다. 그러나 도 6을 참조하면, KNN 알고리즘이 평균(MEAN) 알고리즘보다 성능이 좋지 않다. 결측률이 10 % 이상인 경우에는 모든 p-값이 0.05보다 크므로 평균값과 유의한 차이가 없다. MICE 알고리즘은 모든 결측률에서 0.05보다 낮은 p-값을 보였으며, MICE 알고리즘은 평균 대치(mean-imputation)보다 모든 단계에서 유의하게 더 잘 수행되었음을 나타낸다. 그러나, 결측률이 증가함에 따라 p-값도 증가하므로, 결측률이 증가함에 따라 MICE 알고리즘은 불안정 해짐을 알 수 있다. 자가 학습 알고리즘과 EM 알고리즘은 모든 결측률에서 가장 낮은 p-값을 보이며, 이는 모든 항목에 대한 p-값이 지속적으로 좋거나 지속적으로 나쁘다는 것을 나타낸다. EM 알고리즘은 단일 대치(single-imputation) 방법이므로 결측률이 높을수록 오류가 더 갑작스럽게 나타난다. 결국, 일 실시예에 따른 데이터 관리 방법이 사용하는 자가 학습(self-training) 알고리즘은 모든 결측률에서 모든 항목의 평균에 비해 지속적으로 더 나은 성능을 보여주는 유일한 알고리즘이다.
도 8은 일 실시예에 따른 데이터 관리 장치의 구성을 나타낸 블록도이다.
일 실시예에 따른 데이터 관리 장치(800)는 통신부(810), 메모리(820), 및 프로세서(830)을 포함할 수 있다. 통신부(810)는 외부 장치로부터 전자의무기록(EMR) 데이터를 수신할 수 있다. 메모리(820)는 기준 데이터 세트 및 후보 데이터 세트를 저장할 수 있다. 프로세서(830)는 기준 데이터 세트에 기초하여 대치 모델을 트레이닝 시킬 수 있다. 프로세서(830)는 대치 모델을 사용하여 후보 데이터 세트의 결측값에 의사 라벨링을 적용할 수 있다. 프로세서(830)는 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 기준 데이터 세트에 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시킬 수 있다. 프로세서(830)는 제1 예측 모델 및 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교할 수 있다. 프로세서(830)는 성능 평가값 비교에 기초하여 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시킬 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Claims (15)
- 전자의무기록(Electronic Medical Record, EMR)에서의 다변량 결측값(missing value)을 대체하는 데이터 관리 방법에 있어서,기준 데이터 세트에 기초하여 대치 모델(imputation model)을 트레이닝 시키는 단계;상기 대치 모델을 사용하여 후보 데이터 세트의 결측값에 의사 라벨링(pseudo labeling)을 적용하는 단계;상기 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 상기 기준 데이터 세트에 상기 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시키는 단계;상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능(performance) 평가값을 서로 비교하는 단계; 및상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 단계를 포함하는 데이터 관리 방법.
- 제1항에 있어서,상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하는 단계는,상기 기준 데이터 세트로부터 테스트 데이터(test data) 세트를 추출하는 단계;상기 추출된 테스트 데이터 세트에 결측값을 생성하고, 예측 모델이 상기 생성된 결측값에 대한 대체값을 예측하는 단계; 및상기 테스트 데이터 세트의 실제값과 대체값의 오차를 상기 예측 모델의 성능 평가값으로 산출하는 단계를 포함하는 데이터 관리 방법.
- 제2항에 있어서,상기 테스트 데이터 세트의 실제값과 대체값의 오차를 계산함으로써 상기 예측 모델의 성능 평가값을 산출하는 단계는,상기 테스트 데이터 세트의 실제값과 대체값의 평균 제곱 오차(mean squared error)를 상기 예측 모델의 성능 평가값으로 산출하는 단계를 포함하는 데이터 관리 방법.
- 제2항에 있어서,상기 테스트 데이터 세트의 실제값과 대체값의 오차를 계산함으로써 상기 예측 모델의 성능 평가값을 산출하는 단계는,전체 데이터를 항목 별로 분류하고, 데이터 분포에 따라 항목 별로 가중치를 계산하는 단계; 및상기 테스트 데이터 세트를 항목 별로 분류하고, 항목 별로 산출된 실제값과 대체값의 평균 제곱 오차에 항목 별 가중치를 적용하여 상기 예측 모델의 성능 평가값을 산출하는 단계;를 포함하는 데이터 관리 방법.
- 제4항에 있어서,상기 데이터 분포에 따라 항목 별로 가중치를 계산하는 단계;해당 항목 내에 분포된 데이터 중 제1 분위수 데이터와 제3 분위수 데이터에 기초하여 상기 해당 항목에 대한 가중치를 계산하는 단계를 포함하는 데이터 관리 방법.
- 제2항에 있어서,상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하는 단계는,제1 성능 평가값이 제2 성능 평가값을 초과하는 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제1 점수를 부여하는 단계; 및상기 제1 성능 평가값이 상기 제2 성능 평가값 이하인 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제2 점수를 부여하는 단계를 포함하는 데이터 관리 방법.
- 제6항에 있어서,상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 단계는,상기 후보 데이터 세트 중으로부터 임계 점수 이상의 누적 점수를 갖는 후보 데이터를 기준 데이터로 변환시키는 단계를 포함하는 데이터 관리 방법.
- 하드웨어와 결합되어 제1항 내지 제7항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
- 전자의무기록에서의 다변량 결측값을 대체하는 대체하는 데이터 관리 장치에 있어서,기준 데이터 세트 및 후보 데이터 세트를 저장하는 메모리;상기 기준 데이터 세트에 기초하여 대치 모델을 트레이닝 시키고, 상기 대치 모델을 사용하여 상기 후보 데이터 세트의 결측값에 의사 라벨링을 적용하며, 상기 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 상기 기준 데이터 세트에 상기 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시키며, 상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하고, 상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 프로세서를 포함하는 데이터 관리 장치.
- 제9항에 있어서,상기 프로세서는,상기 기준 데이터 세트로부터 테스트 데이터 세트를 추출하고, 상기 추출된 테스트 데이터 세트에 결측값을 생성하며, 예측 모델이 상기 생성된 결측값에 대한 대체값을 예측하고, 상기 테스트 데이터 세트의 실제값과 대체값의 오차를 상기 예측 모델의 성능 평가값으로 산출하는데이터 관리 장치.
- 제10항에 있어서,상기 프로세서는,상기 테스트 데이터 세트의 실제값과 대체값의 평균 제곱 오차를 상기 예측 모델의 성능 평가값으로 산출하는데이터 관리 장치.
- 제10항에 있어서,상기 프로세서는,전체 데이터를 항목 별로 분류하고, 데이터 분포에 따라 항목 별로 가중치를 계산하며, 상기 테스트 데이터 세트를 항목 별로 분류하고, 항목 별로 산출된 실제값과 대체값의 평균 제곱 오차에 항목 별 가중치를 적용하여 상기 예측 모델의 성능 평가값을 산출하는데이터 관리 장치.
- 제12항에 있어서,상기 프로세서는,해당 항목 내에 분포된 데이터 중 제1 분위수 데이터와 제3 분위수 데이터에 기초하여 상기 해당 항목에 대한 가중치를 계산하는데이터 관리 장치.
- 제10항에 있어서,상기 프로세서는,제1 성능 평가값이 제2 성능 평가값을 초과하는 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제1 점수를 부여하고, 상기 제1 성능 평가값이 상기 제2 성능 평가값 이하인 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제2 점수를 부여하는데이터 관리 장치.
- 제9항에 있어서,상기 프로세서는,상기 후보 데이터 세트 중으로부터 임계 점수 이상의 누적 점수를 갖는 후보 데이터를 기준 데이터로 변환시키는데이터 관리 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2020-0187989 | 2020-12-30 | ||
KR1020200187989A KR102546108B1 (ko) | 2020-12-30 | 2020-12-30 | 전자의무기록에서의 다변량 결측값 대체 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022145689A1 true WO2022145689A1 (ko) | 2022-07-07 |
Family
ID=82259359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2021/016005 WO2022145689A1 (ko) | 2020-12-30 | 2021-11-05 | 전자의무기록에서의 다변량 결측값 대체 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102546108B1 (ko) |
WO (1) | WO2022145689A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994028A (zh) * | 2024-04-07 | 2024-05-07 | 浙江孚临科技有限公司 | 基于表格型数据的用户还款行为预测方法、系统和存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240037437A (ko) * | 2022-09-14 | 2024-03-22 | 재단법인 아산사회복지재단 | 지역 차분 프라이버시 기반 적대적 생성 네트워크를 활용한 합성 환자 데이터 생성 방법 및 장치 |
KR102600419B1 (ko) * | 2023-05-30 | 2023-11-09 | 주식회사 에비드넷 | 주기변환 데이터베이스와 인공지능을 활용한 능동적 약물 이상반응 탐지 시스템 |
KR102681050B1 (ko) * | 2023-07-25 | 2024-07-05 | 주식회사 휴이노에임 | 심정지 및 사망에 관한 위험도를 추정하기 위한 방법 및 시스템 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070100160A (ko) * | 2006-04-06 | 2007-10-10 | 소니 가부시끼 가이샤 | 학습 장치, 학습 방법, 및 프로그램 |
KR20190030876A (ko) * | 2017-09-15 | 2019-03-25 | 주식회사 셀바스에이아이 | 건강 위험 예측 방법 |
CN110957015A (zh) * | 2019-12-02 | 2020-04-03 | 南开大学 | 电子医疗记录数据的缺失值填充方法 |
KR20200063041A (ko) * | 2018-11-27 | 2020-06-04 | 한국전자통신연구원 | 아키텍처 변이 기반 비지도 학습 및 선택적 오류 전파 기반 지도 학습을 이용한 신경망 학습 방법 및 장치 |
KR20200082893A (ko) * | 2018-12-31 | 2020-07-08 | 한국전자통신연구원 | 시계열 데이터 처리 장치 및 이의 동작 방법 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102461631B1 (ko) * | 2018-09-12 | 2022-10-31 | 삼성에스디에스 주식회사 | 데이터의 결측치 보정 방법 및 장치 |
KR20200125029A (ko) * | 2019-04-25 | 2020-11-04 | 한국전자통신연구원 | 회귀 분석 방법 및 장치 |
-
2020
- 2020-12-30 KR KR1020200187989A patent/KR102546108B1/ko active IP Right Grant
-
2021
- 2021-11-05 WO PCT/KR2021/016005 patent/WO2022145689A1/ko active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070100160A (ko) * | 2006-04-06 | 2007-10-10 | 소니 가부시끼 가이샤 | 학습 장치, 학습 방법, 및 프로그램 |
KR20190030876A (ko) * | 2017-09-15 | 2019-03-25 | 주식회사 셀바스에이아이 | 건강 위험 예측 방법 |
KR20200063041A (ko) * | 2018-11-27 | 2020-06-04 | 한국전자통신연구원 | 아키텍처 변이 기반 비지도 학습 및 선택적 오류 전파 기반 지도 학습을 이용한 신경망 학습 방법 및 장치 |
KR20200082893A (ko) * | 2018-12-31 | 2020-07-08 | 한국전자통신연구원 | 시계열 데이터 처리 장치 및 이의 동작 방법 |
CN110957015A (zh) * | 2019-12-02 | 2020-04-03 | 南开大学 | 电子医疗记录数据的缺失值填充方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994028A (zh) * | 2024-04-07 | 2024-05-07 | 浙江孚临科技有限公司 | 基于表格型数据的用户还款行为预测方法、系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR102546108B1 (ko) | 2023-06-22 |
KR20220095949A (ko) | 2022-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022145689A1 (ko) | 전자의무기록에서의 다변량 결측값 대체 방법 | |
CN115098292B (zh) | 应用程序崩溃根原因识别方法、装置及电子设备 | |
WO2018212396A1 (ko) | 데이터를 분석하는 방법, 장치 및 컴퓨터 프로그램 | |
US20220070266A1 (en) | Systems and methods for estimating typed graphlets in large data | |
WO2022034945A1 (ko) | 데이터 분류를 위한 강화 학습 장치 및 방법 | |
CN111898129B (zh) | 基于Two-Head异常检测模型的恶意代码样本筛选器及方法 | |
Wang | Planning While Learning Operators. | |
US11657323B2 (en) | Machine learning model accuracy fairness | |
WO2013125866A1 (ko) | 컴퓨터 시스템 및 시그니처검증서버 | |
Huang et al. | Towards smarter diagnosis: A learning-based diagnostic outcome previewer | |
Chaudhuri et al. | Functional criticality analysis of structural faults in AI accelerators | |
Schelter et al. | Proactively screening machine learning pipelines with arguseyes | |
WO2020050456A1 (ko) | 설비 데이터의 이상 정도 평가 방법 | |
WO2019117400A1 (ko) | 유전자 네트워크 구축 장치 및 방법 | |
US9646249B2 (en) | Method for inferring attributes of a data set and recognizers used thereon | |
Marin et al. | Clustering recurrent and semantically cohesive program statements in introductory programming assignments | |
US8327312B2 (en) | Assessing printability of a very-large-scale integration design | |
WO2022139168A1 (ko) | 유전자 알고리즘 기반의 단계적인 피처 선택을 이용한 기계학습 방법 및 장치 | |
CN115185920A (zh) | 一种日志类型的检测方法、装置及设备 | |
Pomeranz | Multicycle tests with fault detection test data for improved logic diagnosis | |
US7689399B1 (en) | Automatic extraction of design properties | |
CN110727538A (zh) | 一种基于模型命中概率分布的故障定位系统及方法 | |
Ren et al. | Grace: Interpretable Root Cause Analysis by Graph Convolutional Network for Microservices | |
WO2024117565A1 (ko) | 사이버 물리 시스템 오브 시스템 메타모픽 관계 생성 자동화 기법 | |
CN116360387B (zh) | 融合贝叶斯网络和性能-故障关系图谱的故障定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21915487 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21915487 Country of ref document: EP Kind code of ref document: A1 |