WO2024063195A1 - 샘플 크기가 작고 불균형한 분포를 가진 임상 데이터에서 예측을 위한 통계적학습 프레임워크 - Google Patents

샘플 크기가 작고 불균형한 분포를 가진 임상 데이터에서 예측을 위한 통계적학습 프레임워크 Download PDF

Info

Publication number
WO2024063195A1
WO2024063195A1 PCT/KR2022/016581 KR2022016581W WO2024063195A1 WO 2024063195 A1 WO2024063195 A1 WO 2024063195A1 KR 2022016581 W KR2022016581 W KR 2022016581W WO 2024063195 A1 WO2024063195 A1 WO 2024063195A1
Authority
WO
WIPO (PCT)
Prior art keywords
regression
learning
statistical learning
statistical
cutoff
Prior art date
Application number
PCT/KR2022/016581
Other languages
English (en)
French (fr)
Inventor
이승원
최문호
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Publication of WO2024063195A1 publication Critical patent/WO2024063195A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Definitions

  • the present invention relates to a statistical learning system, especially in cases where the sample size is small and has an unbalanced distribution, such as clinical data, and the predictor variable has a high degree of correlation with other predictor variables, resulting in multicollinearity that has a negative impact during data analysis. It is about a statistical learning system that can be used for data analysis.
  • the process by which a clinician conducts research can generally be viewed as a series of processes in which he or she obtains an idea based on clinical experience, develops a research plan, carries it out, performs statistical analysis, and publishes a paper.
  • statistical analysis can be said to be a decision-making process that reaches reasonable conclusions from collected data, and the selection of appropriate statistical methods and the ability to use and interpret them have a significant impact on all stages of research.
  • various risk factors or many variables are analyzed to evaluate the results, but the final goal is usually to predict or explain the results rather than evaluating the relationship between variables.
  • bias due to confounding effects between variables must be considered in statistical analysis.
  • multivariate analysis can be considered. A method of handling the confounding effects of multiple variables statistically and analyzing two or more variables simultaneously is called multivariate analysis.
  • Multiple regression analysis is an analysis method in which a multivariate variable is divided into several independent variables and one dependent variable (outcome variable) in advance, and the latter is estimated from the information obtained from the former. It is a method for analyzing the integrated influence of several variables. Multiple regression analysis is mainly used as a statistical analysis to evaluate the validity of clinical data.
  • OLS Ordinary Least Squares
  • Multicollinearity refers to a phenomenon in which some variables in the model used in regression analysis have a high degree of correlation with other variables, which has a negative impact on data analysis. Multicollinearity makes model coefficients difficult to interpret and reduces the power of statistical models to identify statistically significant independent variables.
  • Korean Patent No. 2339305 as a prior art that considers the problem of multicollinearity during regression analysis.
  • the prior patent relates to a big data analysis method for estimating the risk to the human body of air pollutants, including fine dust.
  • the prior patent proposes a data analysis method for estimating human risk from air pollutants by solving the multicollinearity problem using convergent cross-mapping.
  • conventional statistical methods that consider multicollinearity have limitations in that they cannot be extended to statistical areas with small sample sizes and unbalanced distribution, such as clinical data.
  • the present applicant proposes that the predictor variable has a high degree of correlation with other predictor variables, so it can be applied to data analysis where multicollinearity, which has a negative impact during data analysis, may occur, and the number of data samples is limited, such as clinical data, and the result We have designed a statistical learning system suitable for the area of statistical analysis where most of the data has an unbalanced distribution.
  • the present invention seeks to provide a learning system capable of interpreting data sets with small samples, unbalanced distribution of events to be analyzed, and multicollinearity characteristics.
  • the present invention seeks to provide a statistical learning system that is capable of handling data sets with small sample sizes and unbalanced distribution of data, and is particularly useful for the analysis of clinical data.
  • the present invention provides a statistical learning system for analyzing the influence of independent variables.
  • a statistical learning module that performs binary classification based on the cutoff of the dependent variable, equipped with a regression analysis model equipped with a normalization technique that maintains features or a dimension transformation technique that transforms the dimension of the independent variable without affecting the dependent variable; a cutoff setting module that optimizes the cutoff value, which is a standard for binary classification of the statistical learning module, for each regression analysis model;
  • a data set expansion module that amplifies the learning number of the learning data set using a cross-validation algorithm, including expanding the size and number of repetitions of the training set of the learning data and statistical analysis of the regression model considering multicollinearity.
  • the statistical learning module may consist of a plurality of regression models, and the regression models are different types of regression models, including least squares regression analysis (OLS, Ordinary Least Squares) and penalty point normalization. Select one of Ridge Regression (RR), Principal Components Regression (PCR), Partial Least Squares (PLS), or Support Vector Regression (SVR) using There may be plural numbers.
  • OLS least squares regression analysis
  • RR Ridge Regression
  • PCR Principal Components Regression
  • PLS Partial Least Squares
  • SVR Support Vector Regression
  • the statistical learning module can perform binary classification according to the presence/absence of the independent variable subject to confirmation of statistical significance, based on the cutoff of the dependent variable.
  • the statistical learning module may apply a default value or a tuned value as a hyperparameter of the regression analysis model in the classification algorithm.
  • the statistical learning module may consist of a plurality of regression analysis models, and the plurality of regression analysis models may be integrated into an ensemble learning algorithm.
  • the cutoff setting module may set the point that maximizes the sum of sensitivity and specificity on an ROC (Receiver Operating Characteristic) curve drawn with sensitivity and specificity as the cutoff.
  • ROC Receiveiver Operating Characteristic
  • the cutoff setting module can optimize the cutoff point according to [Relational Equation 1].
  • SE means sensitivity
  • SP means specificity
  • MAX means maximum value
  • the data set expansion module leaves one sample among the learning data sets (n) as test data in the classification algorithm of the statistical learning module, and re-executes the classification algorithm with the remaining learning data sets (n-1). You can learn.
  • the present invention relates to a statistical learning application stored in a medium for execution on a smart phone, tablet, laptop, or computer having an input means for inputting data, a processing means for processing the input data, and an output means, and the independent variable
  • a regularization technique that maintains multiple variable characteristics while reducing the size of the learning model coefficients or a dimension transformation technique that transforms the dimension of the independent variable without affecting the dependent variable is used.
  • a statistical learning function that is equipped with an applied regression analysis model and performs binary classification based on the cutoff of the dependent variable;
  • a cutoff setting function that optimizes the cutoff value, which is a standard for binary classification, for each regression analysis model when the statistical learning function is executed; and
  • a data set expansion function that amplifies the number of training sessions of the training data set using a cross-validation algorithm.
  • the present invention has the advantage of being able to analyze data sets where the sample size is small, the distribution of events to be analyzed is unbalanced, and multicollinearity may occur, and in particular, it is possible to interpret independent variables that are difficult to analyze for statistical significance.
  • FIG. 1 is a schematic diagram of the configuration of a statistical learning system according to an embodiment of the present invention.
  • Figure 2 shows the LVEF prediction process performed in this experimental example.
  • Figure 3 shows the prediction score distribution of the ischemic heart disease data set.
  • the statistical learning system 1 may include a statistical learning module 10, a cutoff setting module 30, and a data set expansion module 50.
  • the statistical learning module 10 uses a regularization technique that maintains multiple variable characteristics while reducing the size of the learning model coefficients, or an independent variable without affecting the dependent variable.
  • a regression analysis model with a dimension conversion technique that converts the dimensions of is installed, allowing binary classification based on the cutoff of the dependent variable.
  • the statistical learning module 10 is a regression analysis model used to overcome the multicollinearity problem, a regularization technique that maintains multiple variable characteristics while reducing the size of the learning model coefficient, or does not affect the dependent variable. Apply a dimension transformation technique that transforms the dimension of the independent variable without
  • the statistical learning module 10 may be configured with a plurality of regression models, and the regression models are different types of regression models, and the least squares regression analysis (OLS, Ordinary Least Squares), Ridge Regression (RR) with penalty regularization, Principal Components Regression (PCR), Partial Least Squares (PLS), or Support Vector Regression (SVR).
  • OLS Ordinary Least Squares
  • RR Ridge Regression
  • PCR Principal Components Regression
  • PLS Partial Least Squares
  • SVR Support Vector Regression
  • Vector Regression may be selected.
  • Regression analysis using dimension transformation techniques replaces given independent variables with new independent variables with smaller dimensions, with little effect on the dependent variable.
  • regression analysis using a dimensional transformation technique may include PCR or PLS regression analysis.
  • the statistical learning module 10 may perform binary classification according to the presence/absence of the independent variable subject to confirmation of statistical significance, based on the cutoff of the dependent variable.
  • a default value or a tuned value may be applied as a hyperparameter of the regression analysis model in the classification algorithm. Examples of tuning parameters will be described later through the following experimental examples.
  • the statistical learning module 10 may consist of a plurality of regression analysis models, and the plurality of regression analysis models may be integrated into an ensemble learning algorithm.
  • Ordinary Least Squares (OLS), Ridge Regression (RR) using penalty regularization, Principal Components Regression (PCR), and Partial Least Squares Regression ( The analysis model of Partial Least Squares (PLS) or Support Vector Regression (SVR) can be integrated into an ensemble algorithm to perform binary classification through ensemble learning.
  • the cutoff setting module 30 may optimize the cutoff value, which is the standard for binary classification of the statistical learning module 10, for each regression analysis model.
  • the cutoff setting module 30 may set the point that maximizes the sum of sensitivity and specificity in the ROC (Receiver Operating Characteristic) curve drawn by sensitivity and specificity as the cutoff.
  • the cutoff setting module 30 can optimize the cutoff point according to [Relational Equation 1].
  • SE means sensitivity
  • SP means specificity
  • MAX means maximum value
  • the cutoff point can be understood as a discriminant value that defines positive and negative test results when analyzing clinical data. Determining the cutoff point is very important for continuous scale results (predicted probabilities) resulting from classifiers such as logistic regression. Appropriate cutoffs must be selected to avoid incorrect conclusions in clinical practice.
  • the Youden index based on [Relational Equation 1] can be used to set the cutoff as a summary measure used in relation to the ROC curve.
  • the cutoff according to this embodiment provides the best balance between sensitivity and specificity, which can mean the point where the gain or loss in sensitivity and specificity is equal at the point where the slope of the ROC curve is 1.
  • the data set expansion module 50 may amplify the number of training sessions of the training data set using a cross-validation algorithm.
  • the data set expansion module 50 leaves one sample among the learning data sets (n pieces) as test data in the classification algorithm of the existing statistical learning module and retrains the classification algorithm with the remaining learning data sets (n-1 pieces). You can.
  • the data set expansion module 50 can amplify the learning amount and number of data sets using a cross-validation algorithm of LOOCV (Leave-One-Out Cross-Validation).
  • LOOCV Leave-One-Out Cross-Validation
  • IHD Ischemic Heart Disease
  • LVEF Left Ventricular Ejection Fraction
  • GPx3 serum glutathione peroxidase-3
  • ROS Reactive oxygen species
  • Gx glutathione peroxidase
  • GPx1 Eight types have been reported to date. Previous studies of GPx have shown that heterozygous GPx1 deficiency in mice causes endothelial dysfunction, resulting in severe vascular and cardiac abnormalities. Low blood GPx1 activity is also an independent risk factor for cardiovascular events in patients with coronary artery disease. Although GPx1 has been well studied in ischemic heart disease, the protective effect of blood GPx3 has not yet been analyzed.
  • LVEF Left Ventricular Ejection Fraction
  • heart failure is traditionally classified into heart failure with preserved LVEF (LVEF ⁇ 50%) or heart failure with intermediate LVEF (LVEF 41% to 49%) according to left ventricular ejection fraction. %), heart failure with reduced LVEF (LVEF ⁇ 40%).
  • LVEF is the most widely used and accepted echocardiographic parameter because it reflects the systolic function of the left ventricle.
  • Serum GPx3 levels were determined using a commercial enzyme-linked immunosorbent assay (ELISA) kit (AdipoGen Life Sciences, Liestal, Switzerland). Each serum sample was prepared at a 1/500 dilution and 100 ⁇ L was loaded into the wells of the ELISA plate along with standards. After incubating for 1 hour at 37°C, the cells were washed three times and 100 ⁇ L of primary detection antibody was added. After secondary incubation at 37°C for 1 hour, the cells were washed three times and 100 ⁇ L of secondary detection antibody was added.
  • ELISA enzyme-linked immunosorbent assay
  • Figure 2 shows the LVEF prediction process of this experimental example.
  • the statistical learning system (1) according to this example was applied as a model predicting LVEF ⁇ 50%.
  • Multivariate logistic regression and machine learning methods were used with the statistical learning module (10) to binary classify patients with reduced LVEF (LVEF ⁇ 50%) and patients with preserved LVEF (LVEF ⁇ 50%).
  • LVEF left ventricular ejection fraction
  • Figure 3 shows the prediction score distribution of the ischemic heart disease data set.
  • Figure 3 shows the distribution of prediction scores by OLS regression analysis, ridge regression (RR), PCR regression analysis, PLS regression analysis, and SVR regression analysis. For each regression analysis, we predicted cases where the level of Gpx3 was included as an independent variable and cases where it was not included.
  • the general threshold of 0.5 is not an appropriate classification criterion between the LVEF reduced group (lvef-) and the LVEF preserved group (lvef+). Therefore, it can be intuitively confirmed that it is preferable to use the optimal cutoff point (vertical dotted line) rather than simply using 0.5 as the classification threshold. This was confirmed by applying several types of regression analysis to a given data set to examine the distribution of predicted risk scores between patients with reduced LVEF and preserved LVEF. In this experiment, the cutoff setting module 30 applied the Youden index to find the optimal cutoff to distinguish between reduced LVEF and preserved LVEF.
  • the red vertical dotted line which is the cutoff optimized by the cutoff setting module 30, represents the optimal cutoff point for classifying reduced and preserved LVEF.
  • using the optimal cutoff gave better results than simply using 0.5 as the classification criterion.
  • including the GPx3 level in all classification methods gave better results than excluding it.
  • Classification methods evaluated included standard binary class logistic regression, ridge regression, PCR, PLS regression, and SVR regression. Regardless of the classification method used, the execution time of the proposed algorithm was within a few seconds on a typical laptop computer. Penalized regression and model parameter tuning were used in the ridge regression.
  • the regularization is based on a combination of L 1 and L 2 regularization and avoids high variance of the model while controlling the complexity.
  • ⁇ 1 is a parameter that controls the amount of decrease in ⁇
  • ⁇ 2 is related to multicollinearity.
  • a regression model using L 1 constraints is called LASSO regression
  • a model using L 2 constraints is called ridge regression.
  • LASSO regression also performs a variable selection function by reducing some coefficients to 0. Ridge regression tends to select more variables than LASSO as it distributes the weights of the L 2 constraint terms across more variables. This is because LASSO regression selects only one variable among fully correlated variables, whereas ridge regression includes it by assigning equal weights.
  • the parameterization of the normalization constraint function can be expressed as [Relational Equation 3].
  • ⁇ (0,1) determines the influence of the L 1 constraint relative to the L 2 constraint.
  • the two tuning parameters ( ⁇ , ⁇ ) depend on data and cannot be set to advanced values.
  • the optimal combination of tuning parameters is obtained by performing k-fold validation on the training set so that the model's loss function is minimal.
  • PCR is a regression analysis method consisting of two steps.
  • Principal component analysis PCA
  • PCA principal component analysis
  • the transformation is unsupervised learning, so information about the dependent variable is not used. Therefore, the performance of PCR may deteriorate when applied to a data set with characteristics opposite to the variance of the dependent variable.
  • PLS uses supervised learning for dimensional transformation. PLS regression analysis is especially useful when the predictor variables are collinear or when general regression analysis produces coefficients with large standard errors.
  • PCR and PLS regression analysis PCR is an unsupervised method for dimensional transformation, while PLS is a supervised learning method. PCR generates principal components that reflect the covariance structure between independent variables, while PLS regression analysis reflects the covariance structure between independent variables and dependent variables.
  • Support Vector Machine is a well-known machine learning method used in many applications such as reliability analysis or classification and pattern recognition, and involves a supervised training step in which a set of inputs and target outputs are fed to the model. do. The trained model is then used to evaluate a separate test data set.
  • SVM can also be used in regression analysis and is called SVR (Support Vector Regression).
  • SVR is based on the same idea as SVM, but is used to predict real values instead of classification. Given a set of samples, SVR attempts to find a curve that represents them. Support vectors are used to determine the closest boundary between a sample and the curve representing it. The actual curve is best approximated when the distance between the support vector and the regression curve is maximized. Kernel techniques can also be applied to SVR for nonlinear regression. SVM and SVR show balanced prediction performance even when sample size is limited. It can also show good performance even with noisy data.
  • LOOCV is a construct of k-fold cross validation where k is set to the number of samples in the data set. This approach leaves one sample of the data set as test data. That is, if there are n samples in the original data set, the model is trained using n-1 samples, and the remaining sample is used for verification.
  • LOOCV is a computationally expensive procedure, it provides reliable and unbiased estimates of model performance. The LOOCV procedure is suitable when the training data set is small.
  • the LVEF classification algorithm presented in this experiment used the Youden index of the predicted value for the data set used to build the model at each iteration to calculate a cutoff value that distinguishes preserved LVEF from reduced LVEF.
  • the performance of a classification model can be measured in various ways, such as overall accuracy, balanced accuracy, and F1 score.
  • Overall accuracy is the probability that a sample will be classified correctly by the model. That is, it is the sum of true positives and true negatives divided by the total number of specimens tested. Overall accuracy works well for balanced data, but may not be accurate if the data is unbalanced and each class has a different size.
  • Balanced accuracy is the average of sensitivity and specificity and may be a better measure to use for unbalanced data because it is calculated as the average of the corrected proportions for each class.
  • the F1 score is the harmonic average of recall and precision. Because the harmonic mean reflects the size of each class (the number of samples belonging to the class), the F1 score shows good results even for imbalanced data. In this experimental example, balance accuracy and F1 score were used as performance measurement scales.
  • BMI body mass index
  • CABG coronary artery bypass graft
  • CRP C-reactive protein
  • GPx3 glutathione peroxidase-3
  • hs-cTnI high-sensitivity cardiac troponin-I
  • LVEF left ventricular ejection fraction
  • NLR neutrophil-to-lymphocyte ratio
  • PCI percutaneous coronary intervention
  • the F1 score when predicting LVEF ⁇ 50% through OLS regression was 0.444.
  • the balance accuracy of ridge regression analysis was better. The latter result is believed to have occurred due to improvements in regression analysis achieved by reducing the size of the coefficients of each variable as well as the size of the error term.
  • PLS regression showed better performance than PCR, as can be seen in the balanced accuracy scores (0.407 and 0.384, respectively). PLS regression is more efficient than PCR due to the supervised learning-based feature transformation of the algorithm.
  • the SVR classifier showed the best results (0.473) based on F1 score. This is likely because the SVR method recognizes nonlinearities in the data and provides a flexible prediction model.
  • the F1 score of OLS regression was 0.329.
  • the highest balance accuracy was SVR, which was 0.421.
  • the F1 score of the ridge regression analysis was 0.388. It can be seen that in all classification methods, the F1 score is better when the GPx3 level is included than when it is excluded. Similar results were obtained for balance accuracy.
  • ridge regression method In the ridge regression method, limiting the regression coefficient values prevents over/underestimation of highly correlated features, while in the dimensional transformation method, multicollinearity effects are mitigated by newly created features from a combination of existing features.
  • this method was used to reduce the model's prediction error, and it was confirmed that PLS regression analysis had the smallest prediction error among the attempted methods.
  • Ridge regression analysis was effective when considering post-hoc analysis or when there was a need to preserve given characteristics during the model building process. If the above method is not effective, an improved regression analysis method such as PLS regression can be adopted.
  • the best solution may vary depending on the source of multicollinearity and can be appropriately selected in the statistical learning module (10), or by presenting statistical results of multiple regression functions through ensemble learning that integrates them, so that analysts can use more effective regression function techniques. do.
  • the present invention can be effectively used to analyze the effectiveness of independent variables in clinical data, where the sample size is small and has an unbalanced distribution, and the predictor variable has a high degree of correlation with other predictor variables, making data analysis difficult.

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은, 독립 변수의 영향력을 분석하기 위한 통계적 학습 시스템에 있어서, 독립 변수의 정보가 포함된 학습 데이터 세트를 학습할 때, 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법이 적용된 회귀분석 모델이 탑재되어 종속 변수의 컷오프를 기준으로 이진 분류를 수행하는 통계적 학습 모듈; 상기 통계적 학습 모듈의 이진 분류의 기준이 되는 상기 컷오프의 값을 상기 회귀분석 모델 별로 최적화하는 컷오프 설정 모듈; 및 교차 검증의 알고리즘을 이용하여 상기 학습 데이터 세트의 학습 횟수를 증폭시키는 데이터 세트 확장 모듈;을 포함하여, 학습 데이터의 훈련 세트의 크기와 반복 횟수를 확장하고 다중공선성을 고려한 회귀 모델의 통계분석이 수행되는 것을 일 특징으로 한다.

Description

샘플 크기가 작고 불균형한 분포를 가진 임상 데이터에서 예측을 위한 통계적학습 프레임워크
본 발명은 통계적 학습 시스템에 관한 것으로서, 특히 임상데이터와 같이 샘플의 크기가 작고 불균형한 분포를 지니며, 예측 변수가 다른 예측 변수와 상관 정도가 높아 데이터 분석시 부정적인 영향을 미치는 다중공선성이 발생될 수 있는 데이터 분석에 이용될 수 있는 통계적 학습 시스템에 관한 것이다.
임상의가 연구를 수행하는 과정은 대체로 임상 경험을 바탕으로 아이디어를 얻어 연구의 계획을 세우고 이를 수행한 뒤 결과를 통계 분석하여 논문화하는 일련의 과정이라고 볼 수 있다. 이 과정에서 통계 분석은 수집된 자료로부터 합리적인 결론에 도달하는 의사 결정 과정이라고 할 수 있는데, 적절한 통계 방법의 선택과 이의 사용 및 해석 능력은 연구 전 단계에서 크게 영향을 미친다. 의학 연구에서, 결과를 평가하기 위해서는 다양한 위험 인자들, 혹은 많은 변수들이 분석되는데, 최종 목표는 변수들 간의 관계를 평가하기보다는 결과를 예측하거나 설명하기 위한 경우가 대부분이다. 이 때, 통계 분석에서는 변수들 간의 교란 효과(confounding effect)에 의한 편향(bias)이 반드시 고려되어야 한다. 그 방법으로 다변량 분석이 고려될 수 있다. 여러 변수들의 교란 효과를 통계적으로 적절히 처리하며 두 개 이상 여러 개의 변수를 동시에 분석하는 방법을 다변량 분석(multivariate analysis)이라 한다.
다중 회귀 분석은 다변량이 미리 독립 변수 여러 개와 종속 변수(결과 변수) 1개로 나뉘어져 있어서 전자에 의해 얻어진 정보에서 후자를 추정하는 분석법으로, 여러 개의 변수에 의한 통합적인 영향력을 분석하기 위한 방법이다. 다중 회귀 분석은 임상 데이터의 유효성 평가를 위한 통계적 분석으로 주로 사용되고 있다.
일반적으로, 임상 데이터의 분석에는 전통적인 최소 제곱법 회귀분석(OLS, Ordinary Least Squares)이 사용되고 있다. 다만, OLS 회귀분석법은 다중공선성의 문제로부터 자유롭지 못한 한계가 있다. 다중공선성이란 회귀 분석에서 사용된 모형의 일부 변수가 다른 변수와 상관 정도가 높아 데이터 분석시 부정적인 영향을 미치는 현상을 말한다. 다중공선성은 모델 계수를 해석하기 어렵게 하고, 통계적으로 유의한 독립 변수를 식별하려는 통계 모델의 검정력을 감소시킨다.
다중공선성의 문제를 회귀분석시 고려한 종래기술로 한국등록특허 제2339305호가 있다. 상기 선행특허는 미세먼지를 포함하는 대기 오염 물질에 대한 인체 위험도를 추정하기 위한 빅데이터 분석 방법에 관한 것이다. 상기 선행특허는 수렴성 교차 매핑을 이용하여 다중공선성 문제를 해결하여 대기 오염 물질에 대한 인체 위험도를 추정하는 데이터 분석 방법을 제시한다. 그러나, 종래의 다중공선성을 고려한 통계 방법은, 임상데이터와 같이 샘플의 크기가 작고 불균형한 분포를 가진 통계의 영역까지 확장되지 못한 한계가 있다.
이에, 본 출원인은 예측 변수가 다른 예측 변수와 상관 정도가 높아 데이터 분석시 부정적인 영향을 미치는 다중공선성이 발생될 수 있는 데이터 분석에 적용이 가능하고, 임상 데이터와 같이 데이터 샘플의 수가 제약적이고 결과 데이터가 대부분 불균형한 분포를 가진 통계 분석의 영역에도 적합한 통계적 학습 시스템을 고안하게 되었다.
본 발명은 표본이 적고 분석하고자 하는 사건의 분포가 불균형하며 다중공선성적인 특성을 포함하는 데이터 세트의 해석이 가능한 학습 시스템을 제공하고자 한다. 본 발명은, 데이터의 작은 샘플 사이즈와 불균형한 분포를 가진 데이터 세트의 핸들링이 가능하여, 특히 임상 데이터의 분석에 유용한 통계적 학습 시스템을 제공하고자 한다.
상기 목적을 달성하기 위하여 본 발명은, 독립 변수의 영향력을 분석하기 위한 통계적 학습 시스템에 있어서, 독립 변수의 정보가 포함된 학습 데이터 세트를 학습할 때, 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법이 적용된 회귀분석 모델이 탑재되어 종속 변수의 컷오프를 기준으로 이진 분류를 수행하는 통계적 학습 모듈; 상기 통계적 학습 모듈의 이진 분류의 기준이 되는 상기 컷오프의 값을 상기 회귀분석 모델 별로 최적화하는 컷오프 설정 모듈; 및 교차 검증의 알고리즘을 이용하여 상기 학습 데이터 세트의 학습 횟수를 증폭시키는 데이터 세트 확장 모듈;을 포함하여, 학습 데이터의 훈련 세트의 크기와 반복 횟수를 확장하고 다중공선성을 고려한 회귀 모델의 통계분석이 수행되는 것을 일 특징으로 한다.
바람직하게, 상기 통계적 학습 모듈은, 상기 회귀분석 모델이 복수개로 구성될 수 있고, 상기 회귀분석 모델은 서로 다른 유형의 회귀분석 모델이며, 최소 제곱법 회귀분석(OLS, Ordinary Least Squares), 벌점 정규화를 사용하는 능선 회귀분석(RR, Ridge Regression), 주성분 회귀분석(PCR, Principal Components Rregression), 부분최소제곱 회귀분석(PLS, Partial Least Squares), 또는 서포트 벡터 회귀 (SVR, Support Vector Regression) 중 선택된 복수개일 수 있다.
바람직하게, 상기 통계적 학습 모듈은, 종속 변수의 컷오프를 기준으로, 통계적 유의성의 확인 대상이 되는 독립 변수의 유(有)/무(無)에 따른 이진 분류를 각각 수행할 수 있다.
바람직하게 상기 통계적 학습 모듈은, 분류 알고리즘에서 상기 회귀분석 모델의 초매개변수(hyperparameter)로, 디폴트 값(default value) 또는 조절(tuning)된 값이 적용될 수 있다.
바람직하게 상기 통계적 학습 모듈은, 상기 회귀분석 모델이 복수개로 구성될 수 있고, 복수개의 회귀분석 모델이 앙상블(Ensemble Learning) 알고리즘으로 통합될 수 있다.
바람직하게, 상기 컷오프 설정 모듈은, 민감도와 특이도로 그려지는 ROC(Receiver Operating Characteristic) 곡선에서 민감도와 특이도의 합을 최대로 하는 포인트를 상기 컷오프로 설정할 수 있다.
바람직하게, 상기 컷오프 설정 모듈은, [관계식 1]에 따라 상기 컷오프의 포인트를 최적화할 수 있다.
[관계식 1]
MAX(SE+SP-1)
여기서, SE는 민감도(Sensitiveity)를 의미하고 SP는 특이도(Specificity)를 의미하며 MAX는 최대값을 의미한다.
바람직하게, 상기 데이터 세트 확장 모듈은, 상기 통계적 학습 모듈의 분류 알고리즘에서 학습 데이터 세트(n개) 중 하나의 표본을 테스트 데이터로 남기고, 나머지 학습 데이터 세트(n-1개)로 분류 알고리즘을 재학습할 수 있다.
또한, 본 발명은 데이터를 입력하는 입력 수단, 입력된 데이터를 처리하는 처리 수단 및 출력 수단을 갖는 스마트폰, 태블릿, 노트북, 또는 컴퓨터에, 실행시키기 위하여 매체에 저장된 통계적 학습 어플리케이션에 있어서, 독립 변수의 정보가 포함된 학습 데이터 세트를 학습할 때, 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법이 적용된 회귀분석 모델이 탑재되어 종속 변수의 컷오프를 기준으로 이진 분류를 수행하는 통계적 학습 기능; 상기 통계적 학습 기능의 실행시 이진 분류의 기준이 되는 상기 컷오프의 값을 상기 회귀분석 모델 별로 최적화하는 컷오프 설정 기능; 및 교차 검증의 알고리즘을 이용하여 상기 학습 데이터 세트의 학습 횟수를 증폭시키는 데이터 세트 확장 기능;을 포함하는 것을 다른 특징으로 한다.
의생명 분야에서 작은 표본 크기, 데이터의 불균형 및 다중공선성은 일반적으로 데이터의 분석을 어렵게 만든다. 특히, 임상 연구에서는 대부분이 환자를 모집하기 어려운 특성상, 표본 크기가 상대적으로 적을 수 밖에 없으며, 이는 적합된 모델 계수의 높은 변동성을 유발하여 적합 모델의 불안정한 결과를 초래한다.
본 발명은 표본이 적고 분석하고자 하는 사건의 분포가 불균형하며 다중공선성이 발생될 수 있는 데이터 세트를 분석할 수 있고, 특히 통계적 유의성 분석에 어려운 독립변수의 해석이 가능한 이점이 있다.
도 1은 본 발명의 실시예에 따른 통계적 학습 시스템의 구성 개요도이다.
도 2는 본 실험례에서 수행된 LVEF 예측 프로세스를 나타낸다.
도 3은 허혈성 심장병 데이터 세트의 예측 점수 분포를 나타낸다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명을 상세히 설명한다. 다만, 본 발명이 예시적 실시 예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일 참조부호는 실질적으로 동일한 기능을 수행하는 부재를 나타낸다.
본 발명의 목적 및 효과는 하기의 설명에 의해서 자연스럽게 이해되거나 보다 분명해 질 수 있으며, 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
도 1은 본 발명의 실시예에 따른 통계적 학습 시스템(1)의 구성 개요도이다. 도 1을 참조하면, 통계적 학습 시스템(1)은 통계적 학습 모듈(10), 컷오프 설정 모듈(30) 및 데이터 세트 확장 모듈(50)을 포함할 수 있다.
통계적 학습 모듈(10)은 독립 변수의 정보가 포함된 학습 데이터 세트를 학습할 때, 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법이 적용된 회귀분석 모델이 탑재되어 종속 변수의 컷오프를 기준으로 이진 분류를 수행할 수 있다.
통계분석에서 일부 독립변수들이 높은 상관관계가 있거나 데이터 세트의 다른 변수로부터 독립 변수가 계산될 수 있을 때 다중공선성 문제가 발생될 수 있다. 본 실시예에 따른 통계적 학습 모듈(10)은 다중공선성 문제를 극복하기 위해 사용되는 회귀 분석 모델로 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법을 적용한다.
또한 보다 바람직한 실시예로, 통계적 학습 모듈(10)은 상기 회귀분석 모델이 복수개로 구성될 수 있고, 상기 회귀분석 모델은 서로 다른 유형의 회귀분석 모델이며, 최소 제곱법 회귀분석(OLS, Ordinary Least Squares), 벌점 정규화를 사용하는 능선 회귀분석(RR, Ridge Regression), 주성분 회귀분석(PCR, Principal Components Regression), 부분최소제곱 회귀분석(PLS, Partial Least Squares), 또는 서포트 벡터 회귀(SVR, Support Vector Regression) 중 선택된 복수개일 수 있다. 차원변환 기법에 의한 회귀분석은 종속 변수에 거의 영향을 미치지 않으면서 주어진 독립 변수들을 더 작은 차원을 갖는 새로운 독립변수들로 대체한다. 본 실시예로, 차원변환 기법에 의한 회귀분석으로는 PCR, PLS 회귀분석이 해당될 수 있다.
통계적 학습 모듈(10)은 종속 변수의 컷오프를 기준으로, 통계적 유의성의 확인 대상이 되는 독립 변수의 유(有)/무(無)에 따른 이진 분류를 각각 수행할 수 있다.
통계적 학습 모듈(10)은, 분류 알고리즘에서 상기 회귀분석 모델의 초매개변수(hyperparameter)로, 디폴트 값(default value) 또는 조절(tuning)된 값이 적용될 수 있다. 매개변수의 튜닝 실시예는 하기의 실험례를 통해 후술한다.
통계적 학습 모듈(10)은, 상기 회귀분석 모델이 복수개로 구성될 수 있고, 복수개의 회귀분석 모델이 앙상블(Ensemble Learning) 알고리즘으로 통합될 수 있다. 본 실시예로, 최소 제곱법 회귀분석(OLS, Ordinary Least Squares), 벌점 정규화를 사용하는 능선 회귀분석(RR, Ridge Regression), 주성분 회귀분석(PCR, Principal Components Regression), 부분최소제곱 회귀분석(PLS, Partial Least Squares), 또는 서포트 벡터 회귀(SVR, Support Vector Regression)의 분석 모델은 앙상블 알고리즘으로 통합되어 앙상블 학습을 통해 이진 분류를 수행할 수 있다.
컷오프 설정 모듈(30)은 통계적 학습 모듈(10)의 이진 분류의 기준이 되는 상기 컷오프의 값을 상기 회귀분석 모델 별로 최적화할 수 있다. 컷오프 설정 모듈(30)은 민감도와 특이도로 그려지는 ROC(Receiver Operating Characteristic) 곡선에서 민감도와 특이도의 합을 최대로 하는 포인트를 상기 컷오프로 설정할 수 있다.
컷오프 설정 모듈(30)은 [관계식 1]에 따라 상기 컷오프의 포인트를 최적화할 수 있다.
[관계식 1]
MAX(SE+SP-1)
여기서, SE는 민감도(Sensitiveity)를 의미하고 SP는 특이도(Specificity)를 의미하며 MAX는 최대값을 의미한다.
컷오프 포인트는 임상 데이터의 분석시 양성 및 음성의 테스트 결과를 정의하는 판별 값으로 이해될 수 있다. 컷오프 포인트를 결정하는 것은 로지스틱 회귀와 같은 분류기에서 발생하는 연속척도 결과(예측 확률)에 매우 중요하다. 임상 실무에서 잘못된 결론이 도출되지 않도록 하려면 적절한 컷오프를 선정해야 한다. 본 실시예로 ROC 곡선과 관련하여 사용되는 요약 척도로 [관계식 1] 기반의 Youden 지수가 컷오프 설정에 사용될 수 있다. 본 실시예에 따른 컷오프는 민감도와 특이도 간의 최상의 균형을 제공하며, 이는 ROC 곡선의 기울기가 1인 지점에서 민감도와 특이도의 이득 또는 손실이 동일한 지점을 의미할 수 있다.
데이터 세트 확장 모듈(50)은 교차 검증의 알고리즘을 이용하여 상기 학습 데이터 세트의 학습 횟수를 증폭시킬 수 있다.
데이터 세트 확장 모듈(50)은 기 통계적 학습 모듈의 분류 알고리즘에서 학습 데이터 세트(n개) 중 하나의 표본을 테스트 데이터로 남기고, 나머지 학습 데이터 세트(n-1개)로 분류 알고리즘을 재학습할 수 있다.
본 실시예로, 데이터 세트 확장 모듈(50)은 LOOCV(Leave-One-Out Cross-Validation)의 교차 검증 알고리즘을 이용하여 데이터 세트의 학습량과 횟수를 증폭시킬 수 있다. LOOCV의 장점으로는 모든 샘플에 대해서 다 한번씩은 테스트를 수행하는 것으로 어떠한 Randomness도 존재하지 않게 되는 것과, 안정된 결과를 얻을 수 있다는 것이다.
이하에서, 본 실시예에 따른 통계적 학습 시스템을 적용한 실험례를 설명한다.
1. 실험례 :허혈성 심장병에서 글루타티온 퍼옥시다제-3(GPx3) 수준에 기반한 좌심실 박출률(LVEF) 예측
허혈성 심장병(Ischemic Heart Disease, IHD)은 가장 흔한 심혈관 질환이다. 좌심실 박출률(Left Ventricular Ejection Fraction, LVEF)은 좌심실의 수축기 기능에 대한 잘 검증된 지표이며 허혈성 심장병에서 점차 감소한다. 이하의 실험례에서는 허혈성 심장병 환자의 혈청 글루타티온 퍼옥시다제-3(GPx3; IHD에 대한 가능한 항산화 보호제)와 좌심실 박출률 사이의 관계를 밝히는 것을 목적으로 한다.
허혈성 심장병은 고혈압, 당뇨병, 높은 체질량지수(Body Mass Index, BMI), 흡연 등 허혈성 심장병의 많은 위험 요인이 확인된 바 있다. 과산화수소 음이온, 과산화수소, 과산화지질, 과산화질산염과 같은 활성산소종(Reactive Oxygen Species, ROS)은 염증 반응, 세포 사멸, 세포 성장 및 혈관 긴장도의 변화에 관여한다. 활성산소종 생성과 항산화 방어 시스템의 활성 사이의 불균형은 산화 스트레스를 초래하고, 이는 죽상동맥경화증과 관련된 병리학적 변화에 기여한다. 포유동물 세포에서 글루타티온은 글루타티온 과산화효소(Glutathione Peroxidase, GPx)와의 상호작용을 통한 산화 방어 시스템의 필수 구성요소이다.
GPx는 현재까지 8가지 유형이 보고되었다. GPx의 선행 연구로 생쥐의 이형접합 GPx1 결핍은 내피 기능 장애를 일으켜 심각한 혈관 및 심장 이상을 초래했다. 낮은 혈액 GPx1 활성은 또한 관상동맥 질환 환자에서 심혈관 사건의 독립적인 위험 인자이다. 이렇게 허혈성 심장병에서 GPx1은 잘 연구되어 있지만, 혈액 GPx3의 보호 효과에 대한 분석은 아직 이루어지지 않은 실정이다.
한편, LVEF는 좌심실 박출률(Left Ventricular Ejection Fraction)을 의미하며, 심부전은 전통적으로 좌심실 박출률에 따라 보존된 LVEF를 가진 심부전(LVEF ≥ 50%), 중간 LVEF를 가진 심부전(LVEF 41% ~ 49%), 감소된 LVEF를 가진 심부전(LVEF ≤ 40%)의 세 그룹으로 구분된다. LVEF는 좌심실의 수축기 기능을 반영하기 때문에 가장 널리 사용되고 인정되는 심장초음파 파라미터이다.
따라서, 본 실험례에서는 아직 연구되지 않은 GPx3에 대한 독립변수의 통계적 유의성을 확인하고자 한다. 그 방법으로 본 실험례에서는 관상동맥 질환 환자에서 혈청 GPx3 수준과 LVEF를 종속변수로 하여, LVEF 보존(LVEF ≥ 50%) 대 LVEF 감소(LVEF < 50%) 사이의 관계를 조사했다.
1.1. 학습 데이터 세트
2018년 5월, 광주 전남대학교병원에서 229명의 허혈성 심장병 의심환자를 검사하였다. 모든 입원 환자들은 두 명의 심장병 전문의에 의해 검진을 받았다. 허혈성 심장병이 없거나, 2차원 흉부외심초음파검사를 받지 않았거나, 데이터가 누락된 환자는 연구에서 제외돼 최종 표본 크기가 151명이 되었다. 환자는 LVEF가 감소된 환자(n = 20)와 LVEF가 보존된 환자(n = 131)의 두 그룹으로 구분되었다.
모집된 시험 대상자는 ELISA 기반 혈청 GPx3의 농도를 측정하였다. 혈청 GPx3 수준은 상업용 효소결합 면역흡착 분석(ELISA) 키트(AdipoGen Life Sciences, Liestal, Switzerland)를 사용하여 결정되었다. 각 혈청 샘플은 1/500 희석으로 준비하고 100 μL를 표준물질과 함께 ELISA 플레이트의 웰에 로딩했다. 37°C에서 1시간 배양 후 3회 세척하고 1차 검출 항체 100μL를 첨가하였다. 37°C에서 1시간 2차 배양 후 3회 세척하고 2차 검출 항체를 100 μL 첨가하였다. 37°C에서 1시간 3차 배양 후 5회 세척하고 100μL의 기질 용액(발색용)을 첨가하였다. 이어서 플레이트를 어두운 곳에서 상온에서 20분간 배양하고 정지 용액 100μL를 첨가한 후, EVOLIS Twin Plus(Bio-Rad, Hercules, CA)를 사용하여 20분 이내에 450nm에서 샘플의 흡광도를 측정하였다. 모든 실험은 세 번 반복하여 수행되었으며 모든 측정치는 평균을 내었다.
1.2 LVEF 감소 예측 모델
기초적인 통계 분석은 SPSS 버전 25.0(SPSS Inc., Armonk, NY)을 사용하여 수행되었다. 연속형 변수는 Student’s t-검정을 사용하여 분석했으며 범주형 변수는 Pearson 카이제곱검정 또는 Fisher의 정확 검정을 사용하여 분석했다. p-값이 0.05보다 작으면 통계적 유의성을 나타내는 것으로 간주하였다. 좌심실 박출률 감소에 대한 위험 요인을 조사하기 위해 다변량 로지스틱 회귀 분석을 사용하였다. p-값이 0.25 미만인 변수는 다변량 분석에 포함되었다. 우도비 기반 역방향 단계적 로지스틱 회귀 분석을 사용하여 좌심실 박출률 감소에 대한 독립적 위험 요인의 영향을 확인하였다.
도 2는 본 실험례의 LVEF 예측 프로세스를 나타낸다. LVEF < 50% 를 예측하는 모델로 본 실시예에 따른 통계적 학습 시스템(1)을 적용하였다.
통계적 학습 모듈(10)로 다변량 로지스틱 회귀분석과 기계학습 방법을 사용하여 LVEF가 감소된(LVEF < 50%) 환자와 보존된(LVEF ≥ 50%) 환자를 이진 분류하였다.
본 실험례에서, 로지스틱 회귀분에서 일반적으로 발생하는 다중공선성 문제 해결을 위해 L2 벌점 정규화를 사용하는 능선회귀분석, PCR 회귀분석 및 PLS 회귀분석을 적용하였다.
본 실험례에 적용된 통계적 학습 모듈(10)의 좌심실 박출률(LVEF) 분류 알고리즘은 [표 1]과 같다.
[표 1]
Figure PCTKR2022016581-appb-img-000001
본 실험은 감소된 LVEF와 보존된 LVEF를 가진 허혈성 심장병 환자를 구별하기 위해 임상 및 과거 정보를 사용했다. 전체 데이터를 가진 151명의 환자 중 20명만이 LVEF 감소를 보였다. LVEF가 감소된 그룹은 LVEF 보존 그룹보다 훨씬 적기 때문에 일반 이진 분류(즉, 컷오프 0.5)를 사용하면 신뢰할 수 없는 결과가 발생할 위험이 있다.
도 3은 허혈성 심장병 데이터 세트의 예측 점수 분포를 나타낸다. 도 3은OLS 회귀분석, 능선 회귀분석(RR), PCR 회귀분석, PLS 회귀분석, SVR 회귀분석에 의한 예측 점수 분포이다. 각 회귀분석별로 Gpx3의 수준이 독립변수로 포함된 경우와 미포함 된 경우를 각각 예측하였다.
도 3을 참조하면, 일반적인 임계값 0.5는 LVEF 감소된 그룹(lvef-)과 LVEF 보존된 그룹(lvef+) 사이에 적절한 분류 기준이 아님을 확인할 수 있다. 따라서 단순히 분류 임계값으로 0.5를 사용하는 것보다 최적의 컷오프 포인트(수직 점선)를 사용하는 것이 바람직함을 직관적으로 확인할 수 있다. 이는 주어진 데이터 세트에 여러 유형의 회귀분석을 적용하여 LVEF 감소 및 LVEF 보존 환자 간의 예측위험점수(predicted risk scores) 분포를 조사하여 확인되었다. 이 실험에서는 감소된 LVEF와 보존된 LVEF를 구별하기 위한 최적의 컷오프를 구하기 위해 컷오프 설정 모듈(30)이 Youden 지수를 적용하였다.
컷오프 설정 모듈(30)이 최적화한 컷오프인 빨간색 수직 점선은 감소 및 보존된 LVEF를 분류하기 위한 최적의 컷오프 지점을 나타낸다. 모든 회귀모델의 실험례에서, 단순히 0.5를 분류 기준으로 사용하는 것보다 최적의 컷오프(빨간색 수직 점선)을 사용하는 것이 더 좋은 결과를 보인 것을 확인할 수 있다. 또한, 모든 분류 방법에서 GPx3 수준을 포함하는 것이 제외하는 경우보다 더 좋은 결과를 나타낸 것을 확인할 수 있다.
본 실험례에서, 컷오프 설정 모듈(30)의 최적의 컷오프를 대상으로 LOOCV 알고리즘을 사용하여 데이터 세트(n=151개)를 확장 학습하였다. 평가된 분류 방법에는 표준 이진 클래스 로지스틱 회귀분석, 능선 회귀분석, PCR, PLS 회귀분석, 및 SVR 회귀분석이 사용되었다. 사용된 분류방법에 관계없이 제안된 알고리즘의 실행 시간은 일반적인 노트북 컴퓨터에서 몇 초 이내였다. 능선 회귀분석에는 벌점이 있는 회귀분석과 모델 매개변수 튜닝이 사용되었다. 정규화는 L1 및 L2 정규화의 조합을 기반으로 하며 복잡성을 제어하면서 모델의 높은 분산을 피했다. X가 표준화된 변수의 n×p 예측 행렬이고 y가 반응 벡터인 데이터(X, y)에 대해, L1 및 L2 정규화는 다음과 같이 [관계식 2]로 표현될 수 있다.
[관계식 2]
Figure PCTKR2022016581-appb-img-000002
여기서 λ1은 β의 감소량을 제어하는 파라미터이고, λ2는 다중공선성과 관련된다. L1 제약을 사용하는 회귀 모델을 LASSO 회귀라고 하고 L2 제약을 사용하는 모델을 능선 회귀라고 한다. LASSO 회귀는 일부 계수를 0으로 축소하여 변수 선택 기능도 같이 이루어진다. 능선 회귀는 L2 제약항에 가중치를 더 많은 변수에 분배함에 따라 LASSO보다 더 많은 변수를 선택하는 경향이 있다. 이것은 LASSO 회귀가 완전히 상관된 변수 중 하나의 변수만 선택하는 반면 능선 회귀는 동일한 가중치를 할당하여 포함하기 때문이다. 정규화 제약 함수의 매개 변수화는 [관계식 3]으로 표현할 수 있다.
[관계식 3]
Figure PCTKR2022016581-appb-img-000003
여기서 α∈(0,1)은 L2제약 대비 L1제약의 영향을 결정한다. 두 개의 튜닝 매개변수(α, λ)는 데이터에 의존하므로 선행 값으로 설정할 수 없다. 일반적으로 튜닝 매개변수의 최적 조합은 모델의 손실함수가 최소가 되도록 훈련 세트에 대해 k-겹 검증을 수행하여 얻는다.
PCR과 PLS 회귀분석 모두 차원변환기술을 사용한다. PCR은 두 단계로 구성된 회귀분석 방법이다. 먼저 주성분분석(PCA)을 훈련 데이터에 적용하여 차원 축소를 수행한 다음, 변환된 변수에 대해 회귀분석을 수행한다. PCA에서 변환은 비지도학습으로 종속변수에 대한 정보가 사용되지 않는다. 따라서 종속변수의 분산과 반대적 특성을 갖는 데이터 세트에 적용할 경우 PCR의 성능이 저하될 수 있다. PLS는 PCR과 달리 차원변환에 지도학습을 사용한다. PLS 회귀분석은 예측변수가 공선적이거나 일반 회귀분석에서 표준오차가 큰 계수를 생성하는 경우에 특히 유용하다. PCR과 PLS 회귀분석은 차원변환에 있어 PCR이 비지도 방식인 반면 PLS는 지도학습 방식이다. PCR은 독립변수 간의 공분산 구조를 반영하는 주성분을 생성하는 반면, PLS 회귀 분석에서는 독깁변수와 종속변수 사이의 공분산 구조를 반영한다.
서포트 벡터 머신(SVM, Support Vector Machine)은 신뢰성 분석 또는 분류 및 패턴 인식과 같은 여러 응용 프로그램에 사용되는 잘 알려진 기계학습 방법으로, 일련의 입력 및 목표 출력값이 모델에 공급되는 지도학습 훈련 단계를 포함한다. 그런 다음 훈련된 모델을 사용하여 별도의 테스트 데이터 세트를 평가한다. SVM은 회귀분석에도 사용할 수 있으며 이를 SVR(Support Vector Regression)이라고 한다. SVR은 SVM과 동일한 아이디어를 기반으로 하지만 분류 대신에 실제 값을 예측하는 데 사용된다. 일련의 표본이 주어지면 SVR은 이를 표상하는 곡선을 찾으려고 시도한다. 서포트 벡터는 표본과 표본을 표상하는 곡선 사이의 가장 근접한 경계를 결정하는 데 사용된다. 실제 곡선은 서포트 벡터와 회귀 곡선 사이의 거리가 최대화될 때 가장 잘 근사된다. 비선형 회귀를 위해 커널 기법이 SVR에 적용될 수도 있다. SVM과 SVR은 표본 크기가 제한된 경우에도 균형잡힌 예측성능을 보인다. 또한 노이즈가 많은 데이터에도 좋은 성능을 보일 수 있다.
분류 알고리즘에서, LOOCV 절차는 회귀 분석의 성능을 추정하는 데 사용되었다. LOOCV는 k가 데이터 세트의 표본 수로 설정되는 k-겹 교차 검증의 구성이다. 이 접근 방식은 데이터 세트 중 하나의 표본을 테스트 데이터로 남긴다. 즉, 원래 데이터 세트에 표본이 n개 있는 경우 n-1개의 표본을 사용하여 모델을 교육하고 나머지 하나의 표본은 검증용 사용된다. LOOCV는 계산 비용이 많이 드는 절차이지만 모델 성능에 대한 신뢰할 수 있고 편향되지 않은 추정치를 제공한다. LOOCV 절차는 훈련 데이터 세트가 작을 때 적합하다.
본 실험에서 제시된 LVEF 분류 알고리즘은 각 반복에서 모델을 구축하는 데 사용된 데이터 세트에 대한 예측값의 Youden 지수를 사용하여 보존된 LVEF와 감소된 LVEF를 구별하는 컷오프 값을 계산하였다.
1.3 분류 성능 측정
LVEF 분류 방법에서 혈청 GPx3 수준의 역할을 조사하기 위해 GPx3 수준과 아울러 6가지 설명 변수[연령 ≥ 65세, BMI ≥ 25kg/m2, 혈관 재관류 경력, NLR ≥ 2.5, loge(hs-cTnI) 및 MI]를 사용하여 모델을 구축하였다. LVEF가 감소하거나 보존된 환자의 분류 결과의 정확성은 교차 분석을 통해 평가하였다. 또한 구현된 각 방법에 대해, 세 개 이상의 변수의 모든 조합을 사용하여 모델을 구축하여, 최상의 분류결과를 보이는 모델이 GPx3 수준을 포함하는지 여부를 살펴보았다. 분류기의 성능은 F1 척도와 균형 정확도를 사용하여 측정하였다.
분류 모델의 성능은 전체정확도(overall accuracy), 균형정확도(balanced accuracy), F1 점수 등 다양한 방법으로 측정할 수 있다. 전체 정확도는 표본이 모델에 의해 올바르게 분류될 확률이다. 즉, 참된 양성과 참된 음성의 합을 테스트된 표본의 총 수로 나눈 값이다. 전체 정확도는 균형 데이터에 대해 잘 작동하지만 데이터가 불균형하여 각 클래스의 크기가 다르면 정확하지 않을 수 있다. 균형정확도는 민감도와 특이도의 평균이며 각 클래스에 대해 보정된 비율의 평균으로 계산되기 때문에 불균형 데이터에 사용하기 더 나은 척도가 될 수 있다. F1 점수는 재현율과 정밀도의 조화 평균이다. 조화평균은 각 클래스의 크기(클래스에 속하는 표본 수)를 반영하므로 F1 점수는 불균형 데이터에 대해서도 좋은 결과를 보인다. 본 실험례에서는 균형 정확도와 F1 점수를 성능 측정 척도로 사용하였다.
1.4 실험례 결과
허혈성 심장병 환자를 LVEF 감소(LVEF < 50%) 대 LVEF 보존(LVEF ≥ 50%) 환자로 분류하기 위해 LVEF와 관련된 환자의 임상 및 과거 특징을 사용하여 로지스틱 회귀분석 및 기계학습 분석을 수행하였다. LVEF 감소의 위험 요인은 [표 2]에 나열되어 있다.
[표 2]
Figure PCTKR2022016581-appb-img-000004
[표 2]의 값은 평균 ± 표준 편차 또는 숫자가 포함된 백분율로 표시되었다. 굵은 글씨 값은 두 그룹 간에 유의하게 다름을 나타낸다. BMI = 체질량 지수; CABG = 관상동맥 우회 이식편; CRP = C 반응성 단백질; GPx3 = 글루타티온 퍼옥시다제-3; hs-cTnI = 고감도 심장 트로포닌-I; LVEF = 좌심실 박출률; NLR = 호중구 대 림프구 비율; PCI = 경피적 관상동맥 중재술;을 의미한다.
[표 3]은 LVEF < 50%의 예측 결과를 나타낸다.
[표 3]
Figure PCTKR2022016581-appb-img-000005
GPx3 수준을 포함했을 때, OLS 회귀분석을 통해 LVEF < 50%를 예측했을 때의 F1 점수는 0.444였다. 능선 회귀분석의 균형정확도가 보다 양호했다. 후자의 결과는 오차항의 크기뿐만 아니라 각 변수의 계수의 크기를 줄임으로써 달성되는 회귀분석의 개선으로 인해 발생한 것으로 판단된다. 차원변환 기법을 사용한 로지스틱 회귀분석 중에서 균형정확도 점수(각각 0.407 및 0.384)에서 볼 수 있듯이 PLS 회귀가 PCR보다 우수한 성능을 나타냈다. PLS 회귀는 알고리즘의 지도학습 기반 특성 변환으로 인해 PCR보다 더 효율적이다. SVR 분류기는 F1 점수 기준으로 최상의 결과(0.473)를 보였다. 이는 SVR 방법이 데이터에 비선형성을 인식하고 유연한 예측 모델을 제공하기 때문일 가능성이 크다. GPx3 수준을 제외했을 때 OLS 회귀분석의 F1 점수는 0.329였다. 가장 높은 균형정확도는 SVR로 0.421이었다. 능선 회귀분석의 F1 점수는 0.388이었다. 모든 분류 방법에서 F1 점수는 GPx3 수준이 제외되었을 때보다 포함되었을 때 더 좋은 것을 확인할 수 있다. 균형정확도에 대해서도 유사한 결과가 얻어졌다.
능선 회귀 방법에서 회귀계수 값을 제한하면 상관관계가 높은 특성의 과대/과소평가를 방지하는 반면, 차원 변환 방법에서 다중공선 효과는 기존 특성의 조합으로 새로이 생성된 특성에 의해 완화된다. 본 실험례에서는 이러한 방법을 사용하여 모델의 예측오류를 줄였으며, 시도된 방법 중 PLS 회귀분석이 가장 작은 예측오류를 갖는 것으로 확인되었다. 사후분석을 고려하거나 모델구축 과정에서 주어진 특성을 보존해야 할 필요성 있을 경우에는 능선 회귀분석이 효과적이었다. 위와 같은 방법이 효과가 없을 경우 PLS 회귀와 같은 개선된 회귀분석 방법을 채택할 수 있다. 최선의 해결책은 다중공선성의 원천에 따라 달라질 수 있으며 통계적 학습 모듈(10)에서 적절히 선택되거나, 이를 통합한 앙상블 학습으로 다중 회귀함수의 통계 결과를 제시하여 보다 효과적인 회귀함수 기법을 분석가가 사용할 수 있도록 한다.
본 실험에서는 GPx3 수준이 5가지 회귀 기법의 적용 결과 LVEF 분류와 밀접한 관련이 있으며, 제안된 통계적 학습 전략이 임상 데이터 세트를 포함한 불균형적이고 작은 데이터 세트에 적합함을 보여주었다.
이상에서 대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.
[부호의 설명]
1: 통계적 학습 시스템
10: 통계적 학습 모듈
30: 컷오프 설정 모듈
50: 데이터 세트 확장 모듈
본 발명은 샘플의 크기가 작고 불균형한 분포를 지니며, 예측 변수가 다른 예측 변수와 상관 정도가 높아 데이터 분석이 어려운 임상 데이터의 독립변수 유효성 분석에 효과적으로 이용될 수 있다.

Claims (9)

  1. 독립 변수의 영향력을 분석하기 위한 통계적 학습 시스템에 있어서,
    독립 변수의 정보가 포함된 학습 데이터 세트를 학습할 때, 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법이 적용된 회귀분석 모델이 탑재되어 종속 변수의 컷오프를 기준으로 이진 분류를 수행하는 통계적 학습 모듈;
    상기 통계적 학습 모듈의 이진 분류의 기준이 되는 상기 컷오프의 값을 상기 회귀분석 모델에 적합한 포인트로 최적화시키는 컷오프 설정 모듈; 및
    교차 검증의 알고리즘을 이용하여 상기 학습 데이터 세트의 학습 횟수를 증폭시키는 데이터 세트 확장 모듈;을 포함하여,
    학습 데이터의 훈련 세트의 크기와 반복 횟수를 확장하고 다중공선성을 고려한 회귀 모델의 통계분석이 수행되는 것을 특징으로 하는 통계적 학습 시스템.
  2. 제 1 항에 있어서,
    상기 통계적 학습 모듈은,
    상기 회귀분석 모델이 복수개로 구성될 수 있고,
    상기 회귀분석 모델은 서로 다른 유형의 회귀분석 모델이며, 최소 제곱법 회귀분석(OLS, Ordinary Least Squares), 능선 회귀분석(RR, Ridge Regression), 주성분 회귀분석(PCR, Principal Components Regression), 부분최소제곱 회귀분석(PLS, Partial Least Squares), 또는 서포트 벡터 회귀(SVR, Support Vector Regression) 중 선택된 복수개인 것을 특징으로 하는 통계적 학습 시스템.
  3. 제 1 항에 있어서,
    상기 통계적 학습 모듈은,
    종속 변수의 컷오프를 기준으로, 통계적 유의성의 확인 대상이 되는 독립 변수의 유(有)/무(無)에 따른 이진 분류를 각각 수행하는 것을 특징으로 하는 통계적 학습 시스템.
  4. 제 1 항에 있어서,
    상기 컷오프 설정 모듈은,
    민감도와 특이도로 그려지는 ROC(Receiver Operating Characteristic) 곡선에서 민감도와 특이도의 합을 최대로 하는 포인트를 상기 컷오프로 설정하는 것을 특징으로 하는 통계적 학습 시스템.
  5. 제 4 항에 있어서,
    상기 컷오프 설정 모듈은,
    [관계식 1]에 따라 상기 컷오프의 포인트를 최적화하는 것을 특징으로 하는 통계적 학습 시스템.
    [관계식 1]
    MAX(SE+SP-1)
    여기서, SE는 민감도(Sensitiveity)를 의미하고 SP는 특이도(Specificity)를 의미하며 MAX는 최대값을 의미한다.
  6. 제 1 항에 있어서,
    상기 데이터 세트 확장 모듈은,
    상기 통계적 학습 모듈의 분류 알고리즘에서 학습 데이터 세트(n개) 중 하나의 표본을 테스트 데이터로 남기고, 나머지 학습 데이터 세트(n-1개)로 분류 알고리즘을 재학습하는 것을 특징으로 하는 통계적 학습 시스템.
  7. 제 1 항에 있어서,
    상기 통계적 학습 모듈은,
    분류 알고리즘에서 상기 회귀분석 모델의 초매개변수(hyperparameter)로, 디폴트 값(default value) 또는 조절(tuning)된 값이 적용되는 것을 특징으로 하는 통계적 학습 시스템.
  8. 제 1 항에 있어서,
    상기 통계적 학습 모듈은,
    상기 회귀분석 모델이 복수개로 구성될 수 있고,
    복수개의 회귀분석 모델이 앙상블(Ensemble Learning) 알고리즘으로 통합된 것을 특징으로 하는 통계적 학습 시스템.
  9. 데이터를 입력하는 입력 수단, 입력된 데이터를 처리하는 처리 수단 및 출력 수단을 갖는 스마트폰, 태블릿, 노트북, 또는 컴퓨터에,
    독립 변수의 정보가 포함된 학습 데이터 세트를 학습할 때, 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법이 적용된 회귀분석 모델이 탑재되어 종속 변수의 컷오프를 기준으로 이진 분류를 수행하는 통계적 학습 기능;
    상기 통계적 학습 기능의 실행시 이진 분류의 기준이 되는 상기 컷오프의 값을 상기 회귀분석 모델 별로 최적화하는 컷오프 설정 기능; 및
    교차 검증의 알고리즘을 이용하여 상기 학습 데이터 세트의 학습 횟수를 증폭시키는 데이터 세트 확장 기능;을 실행시키기 위하여 매체에 저장된 통계적 학습 어플리케이션.
PCT/KR2022/016581 2022-09-23 2022-10-27 샘플 크기가 작고 불균형한 분포를 가진 임상 데이터에서 예측을 위한 통계적학습 프레임워크 WO2024063195A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0120889 2022-09-23
KR1020220120889A KR102481814B1 (ko) 2022-09-23 2022-09-23 샘플 크기가 작고 불균형한 분포를 가진 임상 데이터에서 예측을 위한 통계적학습 프레임워크

Publications (1)

Publication Number Publication Date
WO2024063195A1 true WO2024063195A1 (ko) 2024-03-28

Family

ID=84538472

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/016581 WO2024063195A1 (ko) 2022-09-23 2022-10-27 샘플 크기가 작고 불균형한 분포를 가진 임상 데이터에서 예측을 위한 통계적학습 프레임워크

Country Status (2)

Country Link
KR (1) KR102481814B1 (ko)
WO (1) WO2024063195A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101688412B1 (ko) * 2015-09-01 2016-12-21 주식회사 에스원 종속 변수의 예측 모델링 방법 및 시스템
KR20190049342A (ko) * 2017-10-30 2019-05-09 고려대학교 산학협력단 스마트 시니어 인지반응 기반의 모델링 방법 및 장치
KR20190108559A (ko) * 2016-10-21 2019-09-24 데이터로봇, 인크. 예측 데이터 분석을 위한 시스템 및 관련 방법 및 장치
KR20210129853A (ko) * 2020-04-21 2021-10-29 세종대학교산학협력단 미세 먼지를 포함하는 대기 오염 물질에 대한 인체 위험도를 추정하기 위한 빅데이터 분석 방법
KR20210143547A (ko) * 2020-05-20 2021-11-29 국방과학연구소 교전 시뮬레이션 결과 예측을 위한 메타 모델 생성 방법, 장치 및 기록 매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101688412B1 (ko) * 2015-09-01 2016-12-21 주식회사 에스원 종속 변수의 예측 모델링 방법 및 시스템
KR20190108559A (ko) * 2016-10-21 2019-09-24 데이터로봇, 인크. 예측 데이터 분석을 위한 시스템 및 관련 방법 및 장치
KR20190049342A (ko) * 2017-10-30 2019-05-09 고려대학교 산학협력단 스마트 시니어 인지반응 기반의 모델링 방법 및 장치
KR20210129853A (ko) * 2020-04-21 2021-10-29 세종대학교산학협력단 미세 먼지를 포함하는 대기 오염 물질에 대한 인체 위험도를 추정하기 위한 빅데이터 분석 방법
KR20210143547A (ko) * 2020-05-20 2021-11-29 국방과학연구소 교전 시뮬레이션 결과 예측을 위한 메타 모델 생성 방법, 장치 및 기록 매체

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHOI MUN-HO; OH SEOK; CHOI JANG YEOL; KIM JU HAN; LEE SEUNG-WON: "A statistical learning framework for predicting left ventricular ejection fraction based on glutathione peroxidase-3 level in ischemic heart disease", COMPUTERS IN BIOLOGY AND MEDICINE, NEW YORK, NY, US, vol. 149, 6 August 2022 (2022-08-06), US , XP087182110, ISSN: 0010-4825, DOI: 10.1016/j.compbiomed.2022.105929 *

Also Published As

Publication number Publication date
KR102481814B1 (ko) 2022-12-28

Similar Documents

Publication Publication Date Title
US8183050B2 (en) Detection of lysophosphatidylcholine for prognosis or diagnosis of a systemic inflammatory condition
HADGU Bias in the evaluation of DNA‐amplification tests for detecting Chlamydia trachomatis
Sun et al. A stacked LSTM for atrial fibrillation prediction based on multivariate ECGs
WO2024063195A1 (ko) 샘플 크기가 작고 불균형한 분포를 가진 임상 데이터에서 예측을 위한 통계적학습 프레임워크
JP7467504B2 (ja) 染色体異数性を判定するためおよび分類モデルを構築するための方法およびデバイス
Yeganeh et al. Use of machine learning for diagnosis of cancer in ovarian tissues with a selected mRNA panel
Sabetian et al. Prediction of patients with COVID-19 requiring intensive care: A cross-sectional study based on machine-learning approach from Iran
Qin et al. Best combination of multiple diagnostic tests for screening purposes
Zheng et al. The impact of diagnostic error on testing genetic association in case–control studies
Pawitan et al. Gene expression profiling for prognosis using Cox regression
Srinivasan et al. Domain-specific adaptation of a partial least squares regression model for loan defaults prediction
Choi et al. A statistical learning framework for predicting left ventricular ejection fraction based on glutathione peroxidase-3 level in ischemic heart disease
CN115188475A (zh) 一种狼疮肾炎患者风险预测方法
Maiti et al. A distribution-free smoothed combination method of biomarkers to improve diagnostic accuracy in multi-category classification
CN114150059B (zh) Mcm3相关乳腺癌生物标志物试剂盒、诊断系统及其相关应用
Akbulut et al. Predicting the Risk of Duodenal Cancer in Patients with Familial Adenomatous Polyposis Using a Machine
Altunok et al. Frontal QRS-T Angle in Predicting Short-Term Mortality in Patients with SARS-CoV 2 Infection in Emergency Service: An Analytical Study
TWI774454B (zh) 抗藥性微生物預測方法
Ali et al. Multiple Sclerosis Biomarkers Detection by a BiLSTM Deep Learning Model for miRNA Data Analysis
Chiu et al. Development and Validation of an Explainable Deep Learning Model to Predict Adverse Event During Hospital Admission in Patients with Sepsis
Permatasari et al. Implementation of Support Vector Machine-Recursive Feature Elimination for MicroRNA Selection in Breast Cancer Classification
Geng et al. A hidden Markov model approach for prediction of genomic alterations from gene expression profiling
Reiser et al. Can matching improve the performance of boosting for identifying important genes in observational studies?
CN114428139A (zh) 代谢标志物及在制备高尿酸血症的风险预测试剂盒方面中的应用和试剂盒
CN118006789A (zh) 与结直肠癌相关生物标志物或其检测试剂在制备诊断结直肠癌的产品中的应用

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22959627

Country of ref document: EP

Kind code of ref document: A1