WO2023085674A1 - Device and method for predicting discharge of inpatient - Google Patents

Device and method for predicting discharge of inpatient Download PDF

Info

Publication number
WO2023085674A1
WO2023085674A1 PCT/KR2022/016885 KR2022016885W WO2023085674A1 WO 2023085674 A1 WO2023085674 A1 WO 2023085674A1 KR 2022016885 W KR2022016885 W KR 2022016885W WO 2023085674 A1 WO2023085674 A1 WO 2023085674A1
Authority
WO
WIPO (PCT)
Prior art keywords
patient
features
discharge
predicting
machine learning
Prior art date
Application number
PCT/KR2022/016885
Other languages
French (fr)
Korean (ko)
Inventor
김영학
전태준
안임진
강희준
권한슬
김윤하
서혜람
조하나
최희정
김민경
한지예
Original Assignee
재단법인 아산사회복지재단
울산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인 아산사회복지재단, 울산대학교 산학협력단 filed Critical 재단법인 아산사회복지재단
Publication of WO2023085674A1 publication Critical patent/WO2023085674A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Definitions

  • Effective resource management in hospitals can improve the quality of medical services by reducing the labor-intensive burden of manpower, reducing waiting time for inpatients, and ensuring optimal treatment time.
  • Utilization of hospital processes requires effective bed management, and a patient's stay in the hospital for longer than optimal treatment time may interfere with bed management. Estimating the duration of a patient's hospital stay can help make informed decisions about bed management.
  • Hospitals may be required to improve overall management efficiency while handling a variety of resources, such as staff and staff schedule management, bed management, and clinical pathway management.
  • Effective resource management in hospitals can improve the quality of medical care by reducing the labor-intensive burden of manpower, reducing waiting time for inpatients, and ensuring optimal treatment time.
  • Hospital resource management may include bed management.
  • clinicians can manually check a patient's condition and decide whether to continue hospitalization or discharge. Based on the foregoing decision, medical personnel and staff can determine bed capacity and schedule patient appointments in the near future.
  • CVD cardiovascular disease
  • a model can be developed that predicts acute disease and provides both results and interpretations.
  • EHR research using computer vision results of imaging techniques can be promoted more actively because important parts of images can be directly visualized.
  • ML-based predictive models can be developed to provide daily discharge probabilities and "individual descriptors" that visualize affected features.
  • a machine learning (ML) based predictive model can be developed to predict the discharge probability of hospitalized patients with cardiovascular diseases (CVDs).
  • CVDs cardiovascular diseases
  • the results of the predictive model can be evaluated and key risk factors for hospitalized patients can be described for patient-specific treatment.
  • Bed schedules are efficiently managed and long-term inpatients can be detected in advance.
  • the utilization of hospital processes can be improved and the quality of medical services can be increased.
  • the results of the ML-based predictive model may include information about a patient's daily discharge, as well as feature contributions such as feature importance. You can visualize each patient's daily discharge probability and the features that affect each patient during their hospital stay. Individual descriptors can guide medical teams and patients to gain a rational basis for the results of ML-based models, understand the condition in detail, and prepare for treatment in advance. Individual analyzes can be focused on each patient and the identified meaningful characteristics can be used in other studies as a basis for pre-identification of variables influencing hospitalization.
  • Bed management may refer to a process of designating a patient with the highest probability of being discharged, securing the number of available beds, and allocating beds to waiting patients after reservation for hospitalization. Since the process is complex and is usually manual, it may be intended to assist the process by providing the expected LOS and discharge probabilities returned by the model and recognizing bed capacity in the near future. Patients with a high probability of discharge as well as patients with a consistently low probability of discharge can be detected. In other words, the causes of long-term hospitalization of high-risk patients can be identified and analyzed and provided to the management team.
  • an ML-based model can be developed to predict whether a patient hospitalized with CVD will be discharged within 3 days. Based on the model, individual descriptors can be proposed, and bed management simulations can be shown, including affected features such as discharge probabilities and demography, prescribed medications and treatments. It can help improve the efficient utilization of hospital resources and improve the quality of health care.
  • Cohort criteria can be established and data can be extracted from CardioNet, a manually curated database specializing in CVD. Data can be processed to re-index date indexes, integrate current features with historical features from 3 years ago, and impute missing values to create a suitable data set. You can train and evaluate ML-based predictive models to discover sophisticated models. We can predict the probability of discharge within 3 days and explain the results by identifying, quantifying, and visualizing the features of the model.
  • An apparatus for predicting discharge of a patient includes, for a patient who is hospitalized at a first time point, machine learning on input data including medical data collected from the hospitalization date to the first time point during the hospitalization period of the patient.
  • a model By applying a model, a first probability score for the patient to be discharged from the hospital within the target period from the first time point is obtained, and based on the obtained first probability score, whether the patient will be discharged from the hospital within the target period from the first time point. It may include a processor that predicts.
  • the processor includes operation, procedure, picture archiving and communication system (PACS), diagnosis, and medications collected for the patient from the hospitalization date to the first time point (
  • PACS picture archiving and communication system
  • the first likelihood score may be obtained by applying the machine learning model to input data including medical data on one or a combination of two or more of medication, laboratory, and physical.
  • the processor updates medical data collected during the hospitalization period based on medical data collected from the first time point to the second time point in response to a case where the patient is hospitalized at a second time point after the first time point. and obtaining a second probability score that the patient will be discharged from the hospital within a target period from the second point in time by applying the machine learning model to input data including the updated medical data, based on the obtained second probability score.
  • the processor may acquire the first likelihood score by applying the machine learning model to input data including medical data collected during the hospitalization period and medical data collected during a predefined period prior to the hospitalization period. there is.
  • the processor includes diagnosis, medication, laboratory, physical, and medical data collected during a predefined period prior to the hospitalization period for the patient together with medical data collected during the hospitalization period.
  • the first likelihood score is obtained by applying the machine learning model to input data including medical data related to one or a combination of two or more of the length of stay (LOS) of an intensive care unit (ICU).
  • LOS length of stay
  • ICU intensive care unit
  • the processor selects one or more features of the collected data based on the feature importance of each feature to an ad hoc machine learning model trained based on all features of the collected data.
  • the first likelihood score by selecting as a feature of the input data of a machine learning model, training the machine learning model based on the selected features, and applying the machine learning model to the input data including the selected features. can be obtained.
  • the processor may select one or more features as an input of the machine learning model by applying a recursive feature elimination with cross validation (RFECV) technique to the features of the input data.
  • RECV recursive feature elimination with cross validation
  • the processor may acquire the first likelihood score by applying an extreme gradient boost (XGB) model to the input data.
  • XGB extreme gradient boost
  • the processor may select one or more of the features based on a feature influence corresponding to a score caused by each feature of the input data with respect to the obtained first likelihood score.
  • the apparatus for predicting discharge of a patient may further include a display displaying an influence degree of the feature of the selected one or more features with respect to the obtained first likelihood score.
  • a method for predicting discharge of a patient includes a machine learning model for a patient who is hospitalized at a first time point, input data including medical data collected from an hospitalization date to the first time point during the hospitalization period of the patient. obtaining a first probability score that the patient will be discharged from the hospital within a subject period from the first time point by applying ?; and predicting whether the patient will be discharged from the hospital within the target period from the first time point based on the obtained first likelihood score.
  • the obtaining of the first likelihood score may include operation, procedure, and picture archiving and communication system (PACS) collected from the hospitalization date to the first time point for the patient.
  • PCS picture archiving and communication system
  • the first likelihood score is obtained by applying the machine learning model to input data including medical data related to one or a combination of two or more of diagnosis, medication, laboratory, and physical. Acquisition steps may be included.
  • a method for predicting discharge of a patient in response to a case in which the patient is hospitalized at a second time point after the first time point, based on medical data collected from the first time point to the second time point Updating medical data collected during the hospitalization period; obtaining a second probability score that the patient will be discharged from the hospital within a target period from the second point in time by applying the machine learning model to input data including the updated medical data; and predicting whether the patient will be discharged from the hospital within the subject period from the second time point based on the obtained second likelihood score.
  • the obtaining of the first likelihood score may include applying the machine learning model to input data including medical data collected during the hospitalization period and medical data collected during a predefined period prior to the hospitalization period, so as to obtain the first probability score.
  • 1 Possibility score may be included.
  • Acquiring the first likelihood score may include diagnosis, medication, and laboratory information collected during a predefined period prior to the hospitalization period for the patient together with medical data collected during the hospitalization period. ), physical, and length of stay (LOS) in an intensive care unit (ICU) by applying the machine learning model to input data including medical data about one or a combination of two or more.
  • the step of acquiring the first likelihood score may be included.
  • a method for predicting a patient's discharge is provided based on the feature importance of each feature to an ad hoc machine learning model trained based on all features of the collected data, selecting one or more of the features of the data as features of the input data of the machine learning model; and training the machine learning model based on the selected features, wherein obtaining the first likelihood score comprises applying the machine learning model to the input data including the selected features.
  • the step of acquiring the first likelihood score may be included.
  • the step of selecting the one or more features as input features of the machine learning model may include applying a recursive feature elimination and cross validation (RFECV) technique to the features of the input data to select one or more features. may include selecting them as inputs of the machine learning model.
  • RECV recursive feature elimination and cross validation
  • the obtaining of the first likelihood score may include obtaining the first likelihood score by applying an extreme gradient boost (XGboost) model to the input data.
  • XGboost extreme gradient boost
  • a method for predicting discharge of a patient may include a feature influence corresponding to a score caused by each feature of the input data with respect to the obtained first probability score among the features. It may further include selecting one or more features.
  • the method for predicting discharge of a patient may further include displaying the feature influence of the selected one or more features with respect to the obtained first likelihood score.
  • the method for predicting discharge of a patient may further include displaying probability scores for a plurality of time points during the hospitalization period.
  • a computer program according to an embodiment may be combined with hardware and stored in a computer readable recording medium to execute any one of the methods described above.
  • ML-based models can be tested using five-fold cross-validations.
  • XGB Extreme Gradient Boosting
  • AUROC area under receiver operating characteristic
  • Other models e.g., logistic regression, random forest, support vector machine, and multilayer perceptron
  • feature reduction e.g, feature selection
  • One of the results an individual explainer, can provide hospital discharge scores and daily feature impact scores to medical staff and patients. To use the results, simulated bed care can be visualized.
  • Apparatus and methods according to the present invention may assist medical teams and patients in identifying personal and common risk factors of CVD and hospital administrators in improving management of beds and other resources.
  • FIG. 1 shows an operation of an apparatus for predicting a patient's discharge according to an embodiment.
  • Figure 2 shows the overall flow of a method for predicting discharge of a patient according to an embodiment.
  • FIG 3 shows medical data according to an embodiment.
  • FIG. 4 illustrates a preprocessing process for obtaining medical data from raw medical data according to an embodiment.
  • FIG 5 illustrates labeling of medical data according to one embodiment.
  • FIG. 6 shows acquisition of a probability score and prediction of whether or not to be discharged by a processor according to an embodiment.
  • FIG. 7 shows cross-validation performed in training of a machine learning model according to an embodiment.
  • FIG. 8 shows ROC curves for comparing performance of a plurality of machine learning models according to an embodiment.
  • FIG. 9 illustrates selecting features to be applied to a machine learning model based on feature importance according to an embodiment.
  • FIG 10 shows the performance of machine learning models of input data including selected features according to one embodiment.
  • FIG. 11 shows a waterfall chart expressing feature influence according to an exemplary embodiment.
  • FIG. 13 shows a simulated impact on bed management to which a predictive model and individual descriptors are applied according to an embodiment.
  • first or second may be used to describe various components, such terms should only be construed for the purpose of distinguishing one component from another.
  • a first element may be termed a second element, and similarly, a second element may be termed a first element.
  • the apparatus 100 for predicting discharge of a patient may include a processor 110 and a display 120 .
  • Processor 110 may use a machine learning model to obtain a likelihood score (also referred to herein as probability or probability of discharge) of the patient being discharged.
  • the likelihood score may represent the likelihood that the patient will be discharged within a subject period (eg, 3 days) from the predicted time point.
  • the processor 110 may predict whether the patient will be discharged within the target period from the predicted time point based on the obtained probability score.
  • the display 120 may display whether or not the patient is predicted to be discharged from the hospital.
  • the display 120 may display each predicted probability score at a plurality of viewpoints through the graph 121 according to time.
  • the display 120 may display a feature influence representing a degree of influence of each feature on the likelihood score in a waterfall chart 122 . The operation of the display 120 will be described in detail with reference to FIGS. 11 to 13 below.
  • a feature may represent an individual item and/or category that classifies information related to a patient's medical condition.
  • the medical feature may include one or a combination of two or more of a surgical feature, a treatment feature, a medical image transmission system feature, a diagnosis feature, a medication feature, an examination feature, a body feature, and an intensive care unit length of stay feature.
  • Each medical feature described above may include a plurality of sub-features. Individual medical features are discussed later in FIG. 3 .
  • Figure 2 shows the overall flow of a method for predicting discharge of a patient according to an embodiment.
  • cohort criteria can be established and appropriate data sets can be created by processing the data.
  • AI Model Evaluation a sophisticated model can be found by training and evaluating a machine learning-based predictive model (eg, a machine learning model).
  • a machine learning-based predictive model eg, a machine learning model
  • the probability of discharge within a subject period eg, 3 days
  • the results of the model can be explained by identifying, quantifying, and visualizing features.
  • FIG 3 shows medical data according to an embodiment.
  • Medical data 310 is data having a format that can be input to a machine learning model, and may be obtained through preprocessing of raw medical data.
  • the medical data 310 itself may be an input format of a machine learning model, and as described later in FIG. 9 , data including some of the features of the medical data may be an input format of a machine learning model. there is.
  • the medical data 310 may include first partial medical data including the past medical feature 311 and second partial medical data including the current medical feature 312 .
  • a past medical feature may include a feature representing information corresponding to the patient's medical care prior to the patient's hospitalization.
  • historical medical features may represent features obtained from raw medical data collected prior to the patient's hospitalization date.
  • the first partial medical data (eg, past partial medical data) collected in a predefined period prior to the hospitalization period may include medical information corresponding to the aforementioned past medical features.
  • the first portion medical data may include past medical features of the patient's past (eg, for 3 years prior to the date of hospitalization).
  • the first part medical data is illustratively, a history of one or a combination of two or more of diagnosis, medication, laboratory, physical information, and length of stay in intensive care unit (LOS of ICU). It may include data corresponding to medical features.
  • the current medical feature may include a feature representing information corresponding to the hospitalization date and later.
  • the current medical feature may represent a feature obtained from raw medical data collected during hospitalization.
  • the second partial medical data collected during the hospitalization period is data including medical information after the hospitalization date of the patient, and may include medical information corresponding to a current medical feature.
  • the second partial medical data is, by way of example, one or two or more of operation, procedure, PACS, diagnosis, medication, laboratory, and physical information. It may include data corresponding to the current medical features of the combination.
  • the second partial medical data may be updated at regular intervals (eg, one day) until the patient is discharged.
  • an apparatus for predicting a patient's discharge may collect additional medical information at predetermined intervals. Additional medical information is information that is additionally collected after a patient's hospitalization, and may include, for example, a patient's diagnosis during hospitalization.
  • the apparatus for predicting discharge of a patient may update a current medical feature of the second partial medical data in the medical data based on the aforementioned additional medical information.
  • the apparatus for predicting discharge of a patient may generate the above-described medical data by combining the above-described current partial medical data and past partial medical data.
  • the hospitalization period is a continuous hospitalization period of a currently hospitalized patient, and may indicate a period from the most recent hospitalization date in the case of a patient who has been hospitalized several times. For example, if a patient is admitted on a first day, discharged on a second date, and re-admitted on a third date, the hospitalization period between the first and second dates and the hospitalization period after the third date are not consecutive. (eg, separate) hospitalization periods. If whether or not the patient is discharged from the hospital is predicted after the third date, the hospitalization period of the corresponding patient may indicate a period after the third date, which is the most recent hospitalization date. The period between the first date and the second date may be included not in the hospitalization period, but in the period prior to the hospitalization period.
  • FIG. 4 illustrates a preprocessing process for obtaining medical data from raw medical data according to an embodiment.
  • the raw medical data is data including medical information on patients collected by one or more subjects, and may represent data before preprocessing is applied to the collected medical information.
  • CardioNet a manually curated electronic health record (EHR) database specific to CVD.
  • EHR electronic health record
  • CardioNet may exemplarily consist of 572811 patients who visited Asan Medical Center in Seoul for CVD between January 1, 2000 and December 31, 2016. CardioNet's collection may be subject to AMC institutional review board approval if informed consent is waived.
  • There may be 27 tables such as visitation, demographic, diagnosis, medication, and laboratory.
  • Most tables in CardioNet can have common variables such as patient's identification (PAID), patient's encounter number (INNO), visit or hospitalization date (INDT), and discharge date (OUDT).
  • PAID patient's identification
  • INNO patient's encounter number
  • INNO visit or hospitalization date
  • OUDT discharge date
  • a KEY column in the form of concatenating PAID and INNO can connect the visit table and other tables. Through KEY, variables in each table to be analyzed can be extracted.
  • Records of 84,251 out of 63,261 anonymous patients admitted to Cardiology or Thoracic Surgery from 572,811 patients of CardioNet can be obtained. Moreover, it can be focused on predicting discharge within a target period (eg, 3 days) and detecting long-term patients to develop a practical and usable model. Long-term patients over 30 days can be managed separately by the Asan Medical Center (AMC). Thus, the length of stay can be set between 3 and 30 days.
  • AMC Asan Medical Center
  • Data extracted from CardioNet may include the following variables for multiple tables:
  • the ICU list is as follows: Acute Care Unit (ACU), Coronary Care Unit (CCU), Cardiac Surgery ICU (CSICU), Medical ICU (MICU), Neonatal ICU (NICU), Neurological ICU (NRICU), NSICU (Neurosurgical ICU), Pediatric ICU (PICU), and Surgical ICU (SICU)
  • the visit table and other tables of raw medical data may include only one piece of information per row, and it may be difficult for the ML model to learn all data at once.
  • the device can acquire features of a new data set (e.g., medical data) by performing pre-processing including one-hot encoding (OHE) of clinically significant orders and codes.
  • OOE one-hot encoding
  • the device can access each patient's date-aggregated records.
  • tables for diagnosis, medication, examination, and body may be used for both past features and present features.
  • information from the date of hospitalization included in the diagnosis table eg, period of hospitalization
  • information of a predefined period prior to the period of hospitalization eg, 3 years prior to the date of hospitalization
  • current features or current partial medical data
  • past features or past partial medical data
  • Tables of surgery, treatment and PACS can be used for current features.
  • the ICU's LOS can be used for past features.
  • the apparatus for predicting discharge of a patient may select codes having a high frequency from raw data (select top frequent codes). For example, if there are too many possible values of code variables of prescriptions included in the medication table, training and/or inference of a machine learning model that classifies all values of code variables of prescriptions may result in inefficiency. In order to limit the number of values that a code can have to a predetermined number or less, an apparatus for predicting discharge from a patient selects codes having a high frequency and all other codes are one code (e.g., “other”). code indicating the ).
  • all values of ICD-10 codes and surgical codes can be sliced at the third digit to be converted to 3-digit codes. This may be because the string after the fourth number may indicate a lower hierarchy of the three-digit code. All frequency numbers of values are sorted in descending order and the first 99 codes can be selected. The remaining codes (eg, codes not selected) may be transformed into an "other" feature.
  • the device may perform one-hot encoding (OHE).
  • OHE can be performed for all 100 codes.
  • Z_code such as "Z_DICD” and “Z_OPCD” can refer to "Others" of each original table.
  • the device may fill values. For example, in the case of diagnosis and surgery tables, a total of 100 codes are obtained for each table, and the date index value may be filled with 1 if there is valid prescribed or ordered data and 0 otherwise.
  • the device may perform an imputation on missing values.
  • null values may be replaced with 0.
  • the value type of most other features can be computed as a frequency, so it can be null or integer.
  • the data set is first separated based on KEY so that individual hospitalizations may not be mixed.
  • KEY can refer to one hospitalization case of one patient.
  • Null values can be filled in chronologically (eg, from past to present). After that, the remaining null values can be filled in reverse chronological order (eg, from the present to the past) to handle the case where the outcome was not measured at the beginning of the admission.
  • null values can be imputed.
  • the remaining null values can be filled with the most frequent value for each feature.
  • the values of a PACS table can be converted into 100 features.
  • the most frequent 99 codes and “Others” were obtained through OHE performance, and the corresponding data can be populated.
  • the examination table 60 most frequent examination codes that are examined by more than 50% of all patients may be selected. OHE of the values can be performed and the values can be filled with the results corresponding to each check. If a patient is tested multiple times a day, the data set can be populated with the average of the results.
  • the preprocessing is not limited to the above, and some steps may be omitted or added for each table.
  • the apparatus for predicting discharge of a patient may omit step 410 of selecting frequent codes during pre-processing with respect to a table.
  • a table For example, in the case of a blood transfusion table, all 27 available codes can be used. The value can be filled with the number of prescriptions per day or once taking into account the severity of each patient's disease. As another example, the body table has 10 codes, and all codes can be used.
  • An apparatus for predicting discharge of a patient may further perform an additional step together with steps 410 to 440 in a preprocessing process.
  • the apparatus for predicting patient discharge may merge and connect a plurality of tables.
  • a primary table eg, visit table
  • a plurality of main columns eg, PAID, INNO, INDT, OUDT
  • variables related to the visit Each row may represent a single admission case for each patient.
  • the index can be reset.
  • a row with an INDT of 2021.02.01 and an OUDT of 2021.02.10 may have an LOS of 10 days.
  • One row of the visitation table can be converted into 10 rows with 10 date indices. Tables can be merged and concatenated to create a new data set for model training after preprocessing all values corresponding to the PAID, INNO and date indexes of the other tables.
  • the device for predicting a patient's discharge may remove features or create additional features.
  • a device for predicting a patient's discharge may remove OUDTs containing future information after creating a new data set.
  • a total of 10 date-related features may be created in order to classify and recognize date time information according to types.
  • INDT and date indices can be partitioned into integer features such as year, month, day, and day of the week.
  • Another feature can be created that indicates LOS from the date index by subtracting the INDT from the date index and a feature indicating whether the date index is a public holiday.
  • the preprocessing process of obtaining current features of medical data has been mainly described as an example, the preprocessing process of acquiring past features from raw medical data may be similarly performed.
  • features of the medical data are included in the patient's medical history (eg, medical history) along with day-by-day features (eg, current medical features).
  • day-by-day features eg, current medical features
  • an apparatus for predicting a patient's hospital discharge may obtain past medical features from raw medical data collected prior to hospitalization. Similar to current medical features, OHE can be performed on past medical features and values can be filled. Past medical features of the medical data may be filled with a sum value or a recent value corresponding to each feature. For example, lengths of stay in each intensive care unit in the visiting table may be summed. If there is a diagnostic record in the past for 100 diagnostic codes, each value can be summed up. If there are records for 100 medication codes, the number of prescriptions per day or at one time can be summed up. For another example, body information within 3 years and recent examination results may be used for a total of 70 codes.
  • FIG 5 illustrates labeling of medical data according to one embodiment.
  • a supervised learning algorithm for classification may require labels such as True or False to indicate a correct answer.
  • the target criteria for labeling as true are shown in FIG. 5 .
  • Day 1 may be a hospitalization date (INDT)
  • Day N may be a hospital discharge date (OUDT)
  • one circle may represent each day during the hospitalization period.
  • Day N eg discharge date
  • Day N can be excluded from the data set because of information such as discharge procedure that can hint the ML model.
  • the accuracy of discharge prediction can be high up to two days from the discharge date, it may be useful to make a prediction before the target period (eg, 3 days) in advance when using an actual model.
  • dates from 1 day before the discharge date (OUDT) to 3 days before the discharge date (OUDT) are 1 (eg true or positive)
  • dates from the date of admission (INDT) to 4 days before the discharge date (OUDT) are 0 ( eg, false or negative).
  • various variables of an original table may be converted into 10 date-related features, 597 current features, and 279 past features.
  • 669,667 rows of medical data with 886 features can be generated.
  • Medical data consisting of 669,667 records with 886 features including diagnosis code, examination test results, body information, medication, treatment, surgery, PACS, and blood transfusion can be generated.
  • Patients may be admitted to cardiology or thoracic surgery, and their LOS may range from 3 to 30 days.
  • the mean age of the patients may be 61.03 years, and the standard deviation may be 13.42 years.
  • the medical data may consist of 38% female (eg, 254,254 rows) and 62% male (eg, 415,413 rows).
  • FIG. 6 shows acquisition of a probability score and prediction of whether or not to be discharged by a processor according to an embodiment.
  • the processor may obtain medical data by pre-processing the raw medical data.
  • the medical data is partial medical data (eg, second partial medical data or current partial medical data) collected in the hospitalization period (a1) and a prior prior to the hospitalization period, based on the collected period. It may include partial medical data (eg, first partial medical data or past partial medical data) collected in the defined period (a2).
  • partial medical data eg, first partial medical data or past partial medical data
  • the processor may obtain a first likelihood score by applying a machine learning model to the input data.
  • the input data may include at least a portion of medical data.
  • Medical data may include a plurality of features.
  • the processor may select one or more of the features of the medical data as features of the input data. Selection of features of input data will be described in detail with reference to FIG. 9 below.
  • the likelihood score may represent the likelihood that the patient will be discharged within a predefined subject period from the predicted time point.
  • the first likelihood score is a score representing the predicted possibility of discharge of the patient at the first time point d1 , and may indicate the possibility that the patient will be discharged from the hospital within the target period p1 from the first time point.
  • predicting discharge of a patient by a processor may be repeatedly performed according to a predefined cycle.
  • a discharge prediction cycle may be the same as a medical data update cycle described later.
  • the discharge prediction cycle and the medical data update cycle are both one day, but are not limited thereto.
  • the discharge prediction cycle may be longer than the update cycle of the medical data or may be a multiple of the update cycle of the medical data.
  • the processor may predict whether the patient will be discharged based on the patient's first likelihood score. Whether the patient will be discharged or not predicted based on the first likelihood score may indicate, in detail, whether the patient will be discharged from the hospital within the target period from the first time point. For example, the processor can predict whether the patient will be discharged by comparing the first likelihood score to a threshold score.
  • the processor may update medical data collected during the hospitalization period in response to the patient being hospitalized at the second time point.
  • the second point in time may represent a point in time when one cycle of updating medical data has elapsed from the first point in time. However, it is not limited thereto, and the second time point may indicate a time point when one or more cycles have elapsed from the first time point. Due to the additional medical information generated between the first time point d1 and the second time point d2, some of the medical data (eg, current partial medical data or current feature of the medical data) is changed (eg, updated). ) can be
  • the processor may obtain a second likelihood score by applying a machine learning model to the updated input data.
  • the second likelihood score may represent the likelihood that the patient will be discharged from the hospital within the subject period from the second time point.
  • the input data may include at least a part of medical data obtained from the hospitalization date to the second time point during the hospitalization period.
  • the second likelihood score at the second time point may be output based on input data including medical data collected up to the second time point during the hospitalization period.
  • the processor may predict whether the patient will be discharged based on the patient's second likelihood score. Whether the patient will be discharged or not predicted based on the second probability score may indicate, in detail, whether the patient will be discharged from the hospital within the target period p2 from the second time point d2.
  • FIG. 7 shows cross-validation performed in training of a machine learning model according to an embodiment.
  • Training data can be labeled as either discharge or hospitalization.
  • a positive (eg, 1) label may be set for discharge, and a negative (eg, 0) label may be set for hospitalization.
  • accuracy, sensitivity (or recall of positives), specificity, precision, positive predictive value Metrics including PPV), negative predictive value (NPV), false positive rate (FPR), and true positive rate (TPR) may be used.
  • the F1-Score can be used to reflect imbalanced subjects
  • the receiver operating characteristic (ROC) curve can be used to find the optimal threshold
  • AUROC area under ROC
  • stratified 5-fold cross validation may be performed as shown in FIG. 7 .
  • the 63,261 PAIDs can be randomly shuffled and divided into 5 groups of about 12,000 people. This may be due to an attempt not to split a single patient's record into a training (eg, dotted box in FIG. 7 ) and test set (eg, diagonally hatched boxes in FIG. 7 ).
  • the first group may be a test set and the remaining groups may be fold 1 training sets.
  • Folds 1 through 5 can be generated in a similar way to ensure equal division of imbalanced subjects (e.g., the true label in the data set is 62.4% for label 0 in all folds and 37.6% for label 1).
  • 25% of the training set can be split into a validation set to adjust the hyperparameters.
  • the data set can be split into approximately 133,000 rows for the test set and 535,000 rows for the training set (including the validation set, for example).
  • ML-based models can be trained and tested on all five folds.
  • An apparatus for predicting a patient's discharge may experiment with five machine learning models in order to find the most suitable model. For example, a logistic regression (LR) model can be established as a baseline for performance estimation. Support vector machine (SVM), random forest (RF), multi-layer perceptron (MLP) and Extreme Gradient Boosting (XGBoost) will be selected as machine learning models for comparison.
  • SVM logistic regression
  • RF random forest
  • MLP multi-layer perceptron
  • XGBoost Extreme Gradient Boosting
  • An apparatus for predicting hospital discharge according to an embodiment may perform hyperparameter tuning for each model through a random search.
  • the apparatus for predicting hospital discharge may select XGB, which is one of Gradient-Boosting Algorithm (GBM) models, as a final model.
  • GBM may include an ensemble method that combines several weak classifiers (eg, trees). The main idea of GBM may be to focus on and weight mispredicted outcomes. While the XGB is being trained, one tree learns the data set and assigns weights to the mispredicted records with errors, and the next tree of the same model follows the process of learning the weighted data set and assigning weights. can be repeated
  • GBM as an explainable machine learning model, can quantify the contribution of features to prediction results such as feature importance.
  • XGB can have normalization and performance advantages.
  • XGB can perform parallel processing, can be regulated to prevent overfitting, can be widely used in structured data learning, and can have good predictive performance.
  • Feature importance may list features and their contribution scores that the model considers important in the process of training data by the tree-based algorithmic model.
  • XGB can be considered the final model because of the XGB's high performance as well as access to the internals of the model including the decision-making process.
  • the specific features that contributed to each patient's daily discharge prediction and their influence can be accounted for.
  • FIG. 8 shows ROC curves for comparing performance of a plurality of machine learning models according to an embodiment.
  • AUROC score for each fold can be shown in Table 1.
  • the highest AUROC score for each fold is shown in bold, and the "Support" column in Table 1 indicates the count of each true value label.
  • a ROC curve plot may appear.
  • the area of the curve may represent AUROC having a value between 0 and 1. The closer the AUROC score is to 1, the higher the performance of the model. XGB can achieve the highest and relatively stable score in all folds.
  • Table 2 compares the evaluation results of five ML-based models. All scores in Table 2 are the average value and standard deviation of the results in the five folds, and the highest score for each metric may be indicated in bold. In the case of Specificity, LR and SVM were the highest at 0.828, but XGB may be the highest in the other metrics. In particular, XGB can score better than 0.7 in predicting label 1 even when the labels in the data set are imbalanced. Accordingly, XGB can be selected as the final model for predicting the discharge probability. [0043] FIG. 9 illustrates selecting features to be applied to the machine learning model based on feature importance according to an embodiment.
  • Feature importance can indicate the importance of that feature of the input data to the machine learning model.
  • the feature importance may be calculated according to the degree to which a prediction error increases compared to the original data when the corresponding feature value is replaced with an arbitrary value.
  • Graph 900 may represent relative feature importance ordered according to the gain score of XGB.
  • the gain score may represent the average gain of all splits in which the feature is used.
  • All features used in the machine learning model according to an embodiment may be replaced with names used in the Asan Medical Center (AMC). Except for date-related features, most features affecting the model can be found in all tables.
  • Features of the treatment table may be substantially related to a clinically important situation. For example, a term marked with (D) may be more likely to mean a more serious condition than another. Other features may also be related to CVD or include primary examination and prescription during hospitalization.
  • Feature importance can only indicate the importance of a corresponding feature to a machine learning model, and can be distinguished from feature influence described later in FIG. 11 .
  • the feature influence is a value representing the degree to which the value of a corresponding feature affects one output (eg, a probability score).
  • feature importance can be descriptive for the model and difficult to explain for each patient, it may fall short of being used as an individual descriptor for prediction (e.g., likelihood score).
  • different features can affect the daily discharge probability each time. Individual descriptors that provide features that have an impact on the daily probability of discharge during hospitalization for each patient can be proposed. Individual descriptors are described in detail in FIGS. 11 to 13 .
  • the processor may select features of the input data from among features of the medical data based on feature importance.
  • the processor may calculate feature importance for the ad hoc machine learning model.
  • the ad hoc machine learning model may represent a machine learning model trained with data including all features of the preprocessed medical data.
  • Feature importance may indicate the importance of that feature to the machine learning model.
  • the feature importance may be calculated according to the degree to which the prediction error of the temporary machine learning model increases compared to the original data when the corresponding feature value is replaced with an arbitrary value in the data.
  • the processor may select a feature of the input data of the machine learning model based on the calculated feature importance. For example, the processor may sort the calculated feature importance in descending order and select top features corresponding to a predefined number. For another example, the processor may select features having a feature importance greater than or equal to a predefined threshold feature importance.
  • an input format of the machine learning model may be determined as a data format including the selected features.
  • the processor may train a machine learning model based on the selected features.
  • the processor may extract selected features from the medical data and obtain training data composed of the extracted features.
  • the processor may obtain a machine learning model by training based on selected features, instead of being trained based on all features of the medical data.
  • the processor may obtain a likelihood score by applying a machine learning model to the selected features.
  • a machine learning model can be applied to input data consisting of selected features.
  • the input data may be obtained by extracting selected features from medical data including all features for the patient.
  • the input data may be obtained by collecting only features selected from the patient as inputs of the machine learning model.
  • 10 shows the performance of machine learning models of input data including selected features according to one embodiment. Too many features can negatively affect model performance. Thus, selecting an appropriate number of features may be required.
  • recursive feature elimination with cross-validation may be performed, and the goal of RFECV is to identify an optimal number of features by comparing model performance while maintaining low feature importance. It may be to remove features one at a time. RFECV can return all feature ranks and names. By applying RFECV to the final model, XGB, about 150 features with a rank of 1 can be identified. For performance comparison, 5-fold cross-validation can be performed using the same data set with the same parameters.
  • the embodiments to be compared in FIG. 10 are based on all 886 features (denoted XGB 886), based on 150 features selected by RFECV (denoted XGB RFE 150), and 150 selected by RFECV. may include an embodiment based on the top 50 features in feature importance of the trained model (denoted as XGB RFE & FI 50).
  • numbers in parentheses in the legend may represent AUROC scores for each example.
  • Table 3 together with FIG. 10 may indicate that the performance difference between the model using all features, the model using 150 features, and the model using 50 features is only about 1 to 2.5% based on the AUROC score. According to an embodiment, even when feature reduction of 83.1% to 94.4% is applied, the maximum performance difference may be only 2.5%.
  • the number of characteristics may be appropriately adjusted in consideration of the characteristics of each hospital or data.
  • the predictive model can classify the data as 0 or 1 according to the critical score.
  • An optimal threshold score may be a score at which the sum of sensitivity and precision can be simultaneously maximized.
  • TPR and FPR may be proportional to each other, but sensitivity and precision may have a trade-off. Reducing false negatives (FN) increases sensitivity and decreasing false positives (FP) increases precision. It may be required to appropriately adjust the threshold score at the decision point of hospital operation.
  • the optimal threshold score may be adjusted according to the hospital situation, but ambiguity in decision making may exist due to the likelihood score near the threshold score. Additional techniques can be used to reduce the ambiguity of these decisions. For example, techniques using weighted averages can be used to make the results more conservative but reliable. Rather than directly using the likelihood scores (eg probabilities) returned by the model, it may be more useful to weight the results prior to the prediction time so that the prediction time reflects at least some of the past results. Producing reliable results can be just as important as describing the model and its internal features.
  • FIG. 11 shows a waterfall chart expressing feature influence according to an exemplary embodiment.
  • a waterfall chart is a type of bar chart, also called a bridge or cascade chart, and can represent relative values that calculate the difference between adjacent values (portray). The gradual direction of the eventual discharge probability and the degree of positive or negative influence can be indicated.
  • An individual explainer may indicate a feature influence on the obtained likelihood score.
  • the feature influence may correspond to a score evoked by each feature to a likelihood score.
  • the feature influence may be expressed as a contribution factor that quantifies the degree of contribution of the corresponding feature to the likelihood score.
  • desired records are predicted and contributions of all features can be obtained, in order to estimate the values of individual descriptors.
  • the contribution may represent a feature influence obtained by aggregating the scores each feature contributed to all trees.
  • the logistic value of the feature influence ( ) and relative values required for descriptors can be calculated.
  • the processor may select one or more features of the plurality of features based on the feature influence.
  • the processor may sort the features in descending order according to the degree of influence of the feature, and may select features sorted at higher ranks corresponding to a predefined number. Selected features may be indicated by the display. For example, the number of features to be displayed may be selected as 15, and the remaining 871 features may be integrated and simultaneously indicated as “Other” in the descriptor.
  • the x-axis of the plot is the score from 0 to 1
  • the y-axis is the contribution and the value that affects the likelihood score (eg, the first likelihood score) at the prediction time (eg, the first time point)
  • the intercept of the regular diagonally hatched boxes at the bottom of the y-axis can be corrected to reflect the disproportionate number of true value labels in each.
  • the probability of discharge, the gray box at the top of the y-axis can represent a likelihood score.
  • the width of each box corresponding to a feature may represent the absolute value of each score.
  • the actual score may be displayed on the right side of the plot.
  • the absolute value may decrease from bottom to top, indicating that the contribution to discharge probability also decreases.
  • the box of “Others” can be relatively wide because it is the sum of the scores of about 800 features excluding the features below it.
  • a dotted box can score each of the features that contributed positively to the discharge probability. Scores can be shifted to the right in the graph by the dotted boxes. Conversely, diagonally hatched boxes represent scores of negatively contributing features and scores can be shifted to the left in the graph.
  • the dotted box on the right can be positive and the diagonally hatched box on the left can represent negative.
  • Graph 1110 shows feature influence for a likelihood score of 0.004 obtained on day 7 (Date: 7), and graph 1120 shows feature influence for a likelihood score of 0.811 obtained on day 12 (Date: 12). figure can be shown.
  • (D) Infusion Pump 0 in graph 1120 may have a positive effect on discharge probability. Because arterial monitoring and infusion pumps are primarily prescribed for critically ill patients, both can constitute mostly zeros in the data set. Displaying features along with their values can help clinicians interpret plots intuitively.
  • the display may display over time a plurality of predicted likelihood scores for an inpatient.
  • the plurality of probability scores are predicted probability scores at different points in time, and may represent changes in the probability of discharge of the patient by being displayed according to time.
  • the sample data set may be a record of a patient with a PAID of 228,443 and an INNO of 2 who was hospitalized for 13 days and discharged on the 14th.
  • a plot of the patient's likelihood score may appear in FIG. 12 .
  • the x-axis of the plot may represent the days of the patient's hospital stay excluding the day of discharge (labeled as 14 days), and the y-axis may represent the likelihood score (eg, discharge probability).
  • the model's optimal critical score may be 0.39, indicated by the horizontal dotted line. Circles and triangles can represent the true labels 1 and 0, respectively, and the size of the circle and triangle can be proportional to the likelihood score. Patterns in the picture may represent the results predicted by the model. Dots can represent positive predictions (eg label 1; predicted discharge) and diagonal hatching represent negative predictions (eg label 0; predicted hospitalization).
  • the model can accurately predict discharge within 3 days.
  • adjusting the threshold score may change the prediction results for days 11 and 12. For example, if the threshold score increases, label 1 may only correspond to days 12 and 13. Increasing the threshold score can be useful when trying to decrease false positives (FPs) despite increasing false negatives (FNs).
  • FIG. 13 shows a simulated impact on bed management to which a predictive model and individual descriptors are applied according to an embodiment.
  • the discharge probabilities of all patients in each ward can be recognized every day, and the most important features and feature values that affect the discharge probability score can be identified at once. Because individual descriptors imply inferences about long-term discharge as well as discharge, they can be useful in interpreting both high and low discharge probabilities.
  • information can be obtained based on each patient's expected discharge date, such as bed capacity in the near future. In order to efficiently utilize hospital human and material resources, future bed information can help reduce hospital costs through improved bed management and hospitalization appointments.
  • the present invention can propose an ML-based predictive model to identify discharge date and risk factors related to discharge and CVD for better bed management. However, since environmental variables are different for each hospital, an algorithm that can comprehensively consider them may be required. The present invention can contribute to improving algorithms and supporting medical services. Below we describe the expectations of the predictive model.
  • the model according to the present invention can be extended from ward level to hospital level bed management.
  • the present invention can contribute to reducing labor-intensive work of medical staff and waiting time of patients.
  • the embodiments described above may be implemented as hardware components, software components, and/or a combination of hardware components and software components.
  • the devices, methods and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate (FPGA). array), programmable logic units (PLUs), microprocessors, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and software applications running on the operating system.
  • a processing device may also access, store, manipulate, process, and generate data in response to execution of software.
  • the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include.
  • a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.
  • Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. You can command the device.
  • Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave.
  • Software may be distributed on networked computer systems and stored or executed in a distributed manner.
  • Software and data may be stored on computer readable media.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination, and the program instructions recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in the art of computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like.
  • Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler.
  • the hardware device described above may be configured to operate as one or a plurality of software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

A device for predicting the discharge of an inpatient according to an embodiment may include a processor that acquires, for a patient hospitalized at a first point in time, a first probability score, indicating the probability of the patient being discharged within a target period from the first point in time, by applying a machine-learning model to input data including medical data collected during the hospitalization period of the patient from the hospitalization date to the first point in time, and predicts, on the basis of the acquired first probability score, whether the patient will be discharged within the target period from the first point in time. The processor may, if the patient remains hospitalized at a second point in time later than the first point in time, update the medical data collected during the hospitalization period on the basis of medical data collected from the first point in time to the second point in time, acquire a second probability score, indicating the probability of the patient being discharged within a target period from the second point in time, by applying the machine-learning model to input data including the updated medical data, and predict, on the basis of the acquired second probability score, whether the patient will be discharged within the target period from the second point in time.

Description

입원 환자의 퇴원 예측을 위한 장치 및 방법Apparatus and method for predicting discharge of inpatients
이하, 입원 환자의 퇴원 예측을 위한 장치 및 방법에 관련된 기술이 개시된다.Hereinafter, technology related to an apparatus and method for predicting discharge of an inpatient is disclosed.
병원의 효과적인 자원 관리는 인력의 노동 집약적 부담을 줄이고 입원 환자의 대기시간을 줄이며 최적의 치료시간을 확보함으로써 의료 서비스의 질을 향상시킬 수 있다. 병원 프로세스의 활용은 효과적인 병상 관리를 요구하고, 환자의 최적 치료 시간보다 오래 입원하는 것은 병상 관리를 방해할 수 있다. 환자의 입원 기간을 예측하는 것은 병상 관리에 대한 현명한 결정을 내리는 데 도움이 될 수 있다.Effective resource management in hospitals can improve the quality of medical services by reducing the labor-intensive burden of manpower, reducing waiting time for inpatients, and ensuring optimal treatment time. Utilization of hospital processes requires effective bed management, and a patient's stay in the hospital for longer than optimal treatment time may interfere with bed management. Estimating the duration of a patient's hospital stay can help make informed decisions about bed management.
비용이 많이 들고 희소한 인적 자원과 물적 자원의 활용은 병원 프로세스의 효율적인 운영을 위해 필수적일 수 있다. 병원은 의료진과 의료진의 일정 관리, 병상 관리, 임상 경로 관리 등 다양한 자원들을 처리하면서 전반적인 관리 효율성을 개선하도록 요구될 수 있다. 병원의 효과적인 자원 관리는 인력의 노동 집약적 부담을 줄이고 입원환자의 대기시간을 줄이며 최적의 치료시간을 확보함으로써 의료의 질을 향상시킬 수 있다. 병원 자원 관리는 병상 관리를 포함할 수 있다. 최근 대부분의 병원에서 임상의는 환자의 상태를 수동으로 확인하여 입원을 계속할지 퇴원할지 결정할 수 있다. 전술된 결정에 따라 의료진 및 스태프는 가까운 시일 내에 병상 수용 인원을 파악하고 환자의 예약을 잡을 수 있다. 심혈관질환(CVD)과 같은 다양한 만성 및 급성 질환으로 입원하는 환자가 꾸준히 증가하고, 미흡한 치료로 인한 재입원 또는 합병증이 유발될 수 있다. 환자의 최적 치료 시간보다 오래 입원하게 되면 효과적인 병상 관리가 어려워질 수 있다. 환자의 입원 기간을 정확하게 예측하고 퇴원을 신중하게 결정하는 것이 중요할 수 있다.Utilization of costly and scarce human and physical resources can be essential for the efficient operation of hospital processes. Hospitals may be required to improve overall management efficiency while handling a variety of resources, such as staff and staff schedule management, bed management, and clinical pathway management. Effective resource management in hospitals can improve the quality of medical care by reducing the labor-intensive burden of manpower, reducing waiting time for inpatients, and ensuring optimal treatment time. Hospital resource management may include bed management. In most hospitals today, clinicians can manually check a patient's condition and decide whether to continue hospitalization or discharge. Based on the foregoing decision, medical personnel and staff can determine bed capacity and schedule patient appointments in the near future. The number of patients hospitalized for various chronic and acute diseases such as cardiovascular disease (CVD) is steadily increasing, and readmission or complications may be caused due to insufficient treatment. If a patient is hospitalized for longer than the optimal treatment time, effective bed management can be difficult. Accurately estimating the duration of a patient's hospital stay and carefully deciding discharge can be important.
많은 연구들이 병원 자원의 효율성에 초점을 맞추었고, 대부분은 병상 관리를 개선하기 위한 알고리즘이나 모델을 제시할 수 있다. 병상 계획을 조사하고 최적화 문제를 해결하기 위해 정수 선형 프로그램은 제안될 수 있다. 시뮬레이션된 병상 점유 일정이 설명될 수 있다. 또한, ICU 수용력을 파악하기 위해 Monte Carlo 시뮬레이션을 사용하여 수술 환자를 위한 병상 시뮬레이션이 연구될 수 있다. 특히, 예상된 체류 기간(length of stay; LOS)은 병상 관리에 필요한 정보 중 하나로, 전자 건강 기록(electronic health record; EHR)을 기반으로 LOS를 예측할 수 있다. LOS, 장기간 입원, 및 계획되지 않은 재입원을 예측하고 중병에 대한 바이오마커를 찾기 위하여, 기계 학습(ML) 기반 모델을 사용할 수 있다. 최근에는 해석 가능하거나 설명할 수 있는 인공지능(explainable artificial intelligence; XAI)에 대한 연구가 많이 진행될 수 있다. XAI 연구 중 하나에서 급성 질환을 예측하고 결과와 해석을 모두 제공하는 모델이 개발될 수 있다. EHR에 비해 영상 기법의 컴퓨터 비전 결과를 활용한 연구가 영상의 중요한 부분을 직접 시각화할 수 있기 때문에 보다 적극적으로 추진될 수 있다. 병상 관리를 지원하기 위해 ML 기반 예측 모델을 개발하여 매일(daily) 퇴원 확률을 제공하고 영향을 받는 피처를 시각화하는 "개별 설명자"를 제공할 수 있다.Many studies have focused on the efficiency of hospital resources, most of which can suggest algorithms or models to improve bed management. Integer linear programs can be proposed to investigate bed plans and solve optimization problems. A simulated bed occupancy schedule may be described. In addition, bedside simulations for surgical patients can be studied using Monte Carlo simulations to determine ICU capacity. In particular, the expected length of stay (LOS) is one of the pieces of information necessary for bed management, and LOS can be predicted based on an electronic health record (EHR). Machine learning (ML) based models can be used to predict LOS, prolonged hospitalization, and unscheduled readmission and to find biomarkers for critical illness. Recently, a lot of research on interpretable artificial intelligence (XAI) can be conducted. In one of the XAI studies, a model can be developed that predicts acute disease and provides both results and interpretations. Compared to EHR, research using computer vision results of imaging techniques can be promoted more actively because important parts of images can be directly visualized. To support bed management, ML-based predictive models can be developed to provide daily discharge probabilities and "individual descriptors" that visualize affected features.
심혈관 질환들(cardiovascular diseases; CVDs)을 갖는 입원 환자의 퇴원 확률을 예측하기 위해 기계 학습(machine learning; ML) 기반 예측 모델은 개발될 수 있다. 예측 모델의 결과는 평가되고 환자 맞춤형 치료를 위해 입원 환자의 주요 위험 요소는 설명될 수 있다. 병상 일정이 효율적으로 관리되고 장기 입원 환자가 사전에 감지될 수 있다. 병원 프로세스의 활용도는 개선되고 의료 서비스의 질을 높일 수 있다. A machine learning (ML) based predictive model can be developed to predict the discharge probability of hospitalized patients with cardiovascular diseases (CVDs). The results of the predictive model can be evaluated and key risk factors for hospitalized patients can be described for patient-specific treatment. Bed schedules are efficiently managed and long-term inpatients can be detected in advance. The utilization of hospital processes can be improved and the quality of medical services can be increased.
심혈관질환을 포함한 만성 및 급성질환 환자는 높은 입원율, 재입원율, 합병증 등을 가질 수 있다. 심각한 문제를 야기하는 치료 또는 입원 지연을 해결하기 위해 다른 병원으로 이송하는 대안이 있을 수 있다. 병원에서는 대기시간을 줄이기 위한 근본적인 방안을 지속적으로 모색해야 하며, 효율적인 병상관리도 그 중 하나라고 할 수 있다. 질병의 다양성 때문에, 공통 위험 팩터를 찾아 특정 과들(departments) 또는 질병(예를 들어, 군집된 특정 병동(clustered specific wards))에 대한 병상 관리를 시행한 후 병원 차원으로 확대하는 것이 더 유리할 수 있다. ML 기반 모델을 개발하고 CVD로 입원한 환자의 퇴원을 예측하여 가까운 장래에 가용 병상 용량을 결정하고 위험 팩터를 발견할 수 있다. 개인별 퇴원 예정일, 심혈관질환 위험 팩터 등 설득력 있는 퇴원 정보를 제공함으로써 의료진이 수동으로 하는 정확한 병상 관리를 실무에서 보조할 수 있다.Patients with chronic and acute diseases, including cardiovascular disease, may have high hospitalization rates, readmission rates, and complications. Alternatives to transfers to other hospitals may be available to address delays in treatment or hospitalization that cause serious problems. Hospitals must continuously seek fundamental measures to reduce waiting time, and efficient bed management is one of them. Because of the diversity of diseases, it may be advantageous to implement bed management for specific departments or diseases (e.g. clustered specific wards) by finding common risk factors and then expanding to the hospital level. there is. Developing ML-based models and predicting discharge of patients hospitalized with CVD can determine available bed capacity and discover risk factors in the near future. By providing persuasive discharge information, such as individual expected discharge dates and cardiovascular disease risk factors, it is possible to assist medical staff in manually managing accurate beds.
예측의 결과를 평가하고 환자별 진료를 위해 입원환자의 주요 위험 팩터를 설명하기 위해 개별 설명자를 제안하였다. 환자가 같은 질병을 가지고 있고 질병을 나타내는 공통 변수가 있더라도, 환자마다 특성, 병력, 상황 및 치료법이 다를 수 있다. 환자마다 고유한 개별 변수를 식별하고 모니터링하는 것이 요구될 수 있다. ML 기반 예측 모델의 결과에는 환자의 일일 퇴원에 대한 정보뿐만 아니라 피처 중요도와 같은 피처의 기여도가 포함될 수 있다. 각 환자의 일별 퇴원 확률과 입원 기간 동안 개별 환자에게 영향을 미치는 피처를 시각화할 수 있다. 개별 설명자는 의료팀과 환자들이 ML 기반 모델의 결과에 대한 합리적인 근거를 확보하고 조건을 자세히 이해하고 치료를 미리 준비할 수 있도록 유도할 수 있다. 개인별 분석은 각 환자에 초점을 맞출 수 있으며 식별된 의미 있는 특징은 입원에 영향을 미치는 변수를 사전 식별하는 기초로 다른 연구에서 사용될 수 있다.Individual descriptors were proposed to evaluate the outcome of prediction and to describe the main risk factors of inpatients for patient-specific care. Even if patients have the same disease and have common variables indicative of the disease, each patient may have different characteristics, medical history, circumstances, and treatment. It may be required to identify and monitor individual variables unique to each patient. The results of the ML-based predictive model may include information about a patient's daily discharge, as well as feature contributions such as feature importance. You can visualize each patient's daily discharge probability and the features that affect each patient during their hospital stay. Individual descriptors can guide medical teams and patients to gain a rational basis for the results of ML-based models, understand the condition in detail, and prepare for treatment in advance. Individual analyzes can be focused on each patient and the identified meaningful characteristics can be used in other studies as a basis for pre-identification of variables influencing hospitalization.
병상예약을 효율적으로 관리하고 장기입원환자를 사전에 발견하는데 도움이 될 수 있다. 병상 관리는 퇴원 가능성이 가장 높은 환자를 지정하고, 이용 가능한 병상 수를 확보하고, 입원 예약 후 대기 중인 환자에게 병상을 배정하는 과정을 나타낼 수 있다. 프로세스는 복잡하고 일반적으로 수동으로 수행되므로 모델에서 반환된 예상 LOS 및 퇴원 확률을 제공하고 가까운 장래에 병상 수용력을 인식하여 프로세스를 지원하는 것을 의도할 수 있다. 퇴원 확률이 높은 환자뿐만 아니라 지속적으로 퇴원 확률이 낮은 환자도 감지될 수 있다. 다시 말해, 고위험군 환자의 장기입원 원인을 파악하고 분석하여 관리팀에 제공할 수 있다.It can be helpful in efficiently managing bed reservations and discovering long-term inpatients in advance. Bed management may refer to a process of designating a patient with the highest probability of being discharged, securing the number of available beds, and allocating beds to waiting patients after reservation for hospitalization. Since the process is complex and is usually manual, it may be intended to assist the process by providing the expected LOS and discharge probabilities returned by the model and recognizing bed capacity in the near future. Patients with a high probability of discharge as well as patients with a consistently low probability of discharge can be detected. In other words, the causes of long-term hospitalization of high-risk patients can be identified and analyzed and provided to the management team.
요약하자면, CVD로 입원한 환자가 3일 이내에 퇴원할 것인지 예측하기 위해 ML 기반 모델을 개발할 수 있다. 모델을 기반으로 개별 설명자가 제안될 수 있고, 퇴원 확률과 인구 통계(demography), 처방된 약물 및 치료와 같은 영향을 받는 피처를 포함하는 병상 관리 시뮬레이션이 도시될 수 있다. 병원 자원의 효율적인 활용을 개선하고 의료 서비스의 질을 높이는 데 도움이 될 수 있다.In summary, an ML-based model can be developed to predict whether a patient hospitalized with CVD will be discharged within 3 days. Based on the model, individual descriptors can be proposed, and bed management simulations can be shown, including affected features such as discharge probabilities and demography, prescribed medications and treatments. It can help improve the efficient utilization of hospital resources and improve the quality of health care.
다만, 기술적 과제는 상술한 기술적 과제들로 한정되는 것은 아니며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical challenges are not limited to the above-described technical challenges, and other technical challenges may exist.
코호트 기준을 설정하고 CVD를 전문으로 하는 수동 큐레이팅 데이터베이스 CardioNet에서 데이터를 추출할 수 있다. 데이터를 처리하여 날짜 인덱스를 다시 인덱싱하고 현재 기능을 3년 전의 과거 기능과 통합하고 누락된 값을 대치하여 적절한 데이터 세트를 생성할 수 있다. ML 기반 예측 모델을 훈련하고 평가하여 정교한 모델을 발견할 수 있다. 3일 이내의 퇴원 확률을 예측하고 모델의 피처들을 식별, 정량화, 및 시각화함으로써 결과를 설명할 수 있다.Cohort criteria can be established and data can be extracted from CardioNet, a manually curated database specializing in CVD. Data can be processed to re-index date indexes, integrate current features with historical features from 3 years ago, and impute missing values to create a suitable data set. You can train and evaluate ML-based predictive models to discover sophisticated models. We can predict the probability of discharge within 3 days and explain the results by identifying, quantifying, and visualizing the features of the model.
ML 기반 예측 모델을 개발하여 각 심혈관 질환 환자에 대해 매일 3일 이내의 퇴원 확률을 예측하고 개인별 LOS를 획득할 수 있다.By developing an ML-based predictive model, it is possible to predict the probability of discharge within 3 days of each day for each cardiovascular disease patient and obtain individual LOS.
일실시예에 따른 환자의 퇴원 예측을 위한 장치는, 제1 시점에 입원 중인 환자에 대하여, 상기 환자의 입원 기간 중 입원 날짜로부터 상기 제1 시점까지 수집된 의료 데이터를 포함하는 입력 데이터에 기계 학습 모델을 적용함으로써 상기 환자가 상기 제1 시점으로부터 대상 기간 내에 퇴원할 제1 가능성 점수를 획득하고, 상기 획득된 제1 가능성 점수에 기초하여 상기 환자가 상기 제1 시점으로부터 상기 대상 기간 내에 퇴원할지 여부를 예측하는 프로세서를 포함할 수 있다.An apparatus for predicting discharge of a patient according to an embodiment includes, for a patient who is hospitalized at a first time point, machine learning on input data including medical data collected from the hospitalization date to the first time point during the hospitalization period of the patient. By applying a model, a first probability score for the patient to be discharged from the hospital within the target period from the first time point is obtained, and based on the obtained first probability score, whether the patient will be discharged from the hospital within the target period from the first time point. It may include a processor that predicts.
상기 프로세서는 상기 환자에 대하여 상기 입원 날짜로부터 상기 제1 시점까지 수집된 수술(operation), 처치(procedure), 의료영상저장전송시스템(Picture Archiving and Communication System; PACS), 진단(diagnosis), 복약(medication), 검사(laboratory), 및 신체(physical) 중 하나 또는 둘 이상의 조합에 관한 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득할 수 있다.The processor includes operation, procedure, picture archiving and communication system (PACS), diagnosis, and medications collected for the patient from the hospitalization date to the first time point ( The first likelihood score may be obtained by applying the machine learning model to input data including medical data on one or a combination of two or more of medication, laboratory, and physical.
상기 프로세서는 상기 제1 시점 이후의 제2 시점에 상기 환자가 입원 중인 경우에 응답하여, 상기 제1 시점으로부터 상기 제2 시점까지 수집된 의료 데이터에 기초하여 상기 입원 기간 중 수집된 의료 데이터를 업데이트하고, 상기 업데이트된 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 환자가 상기 제2 시점으로부터 대상 기간 내에 퇴원할 제2 가능성 점수를 획득하며, 상기 획득된 제2 가능성 점수에 기초하여, 상기 환자가 상기 제2 시점으로부터 상기 대상 기간 내에 퇴원할지 여부를 예측할 수 있다.The processor updates medical data collected during the hospitalization period based on medical data collected from the first time point to the second time point in response to a case where the patient is hospitalized at a second time point after the first time point. and obtaining a second probability score that the patient will be discharged from the hospital within a target period from the second point in time by applying the machine learning model to input data including the updated medical data, based on the obtained second probability score. Thus, it is possible to predict whether the patient will be discharged from the hospital within the target period from the second time point.
상기 프로세서는, 상기 입원 기간 중 수집된 의료 데이터와 함께 상기 입원 기간 이전의 미리 정의된 기간 동안 수집된 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득할 수 있다.The processor may acquire the first likelihood score by applying the machine learning model to input data including medical data collected during the hospitalization period and medical data collected during a predefined period prior to the hospitalization period. there is.
상기 프로세서는 상기 입원 기간 중 수집된 의료 데이터와 함께 상기 환자에 대하여 상기 입원 기간 이전의 미리 정의된 기간 동안 수집된 진단(diagnosis), 복약(Medication), 검사(Laboratory), 신체(Physical), 및 중환자실(intensive care unit; ICU)의 체류 기간(length of stay; LOS) 중 하나 또는 둘 이상의 조합에 관한 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득할 수 있다.The processor includes diagnosis, medication, laboratory, physical, and medical data collected during a predefined period prior to the hospitalization period for the patient together with medical data collected during the hospitalization period. The first likelihood score is obtained by applying the machine learning model to input data including medical data related to one or a combination of two or more of the length of stay (LOS) of an intensive care unit (ICU). can
상기 프로세서는 수집된 데이터의 모든 피처들(features)에 기초하여 트레이닝된 임시 기계 학습 모델에 대한 각 피처의 피처 중요도(feature importance)에 기초하여, 상기 수집된 데이터의 피처들 중 하나 이상의 피처들을 상기 기계 학습 모델의 상기 입력 데이터의 피처로 선택하고, 상기 기계 학습 모델을 상기 선택된 피처들에 기초하여 트레이닝시키며, 상기 선택된 피처들을 포함하는 상기 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득할 수 있다.The processor selects one or more features of the collected data based on the feature importance of each feature to an ad hoc machine learning model trained based on all features of the collected data. The first likelihood score by selecting as a feature of the input data of a machine learning model, training the machine learning model based on the selected features, and applying the machine learning model to the input data including the selected features. can be obtained.
상기 프로세서는 교차 검증에 따른 재귀적 피처 제거(Recursive feature elimination with cross validation; RFECV) 기법을 상기 입력 데이터의 피처들에 적용함으로써 하나 이상의 피처들을 상기 기계 학습 모델의 입력으로 선택할 수 있다.The processor may select one or more features as an input of the machine learning model by applying a recursive feature elimination with cross validation (RFECV) technique to the features of the input data.
상기 프로세서는 상기 입력 데이터에 XGB(extreme gradient boost) 모델을 적용함으로써 상기 제1 가능성 점수를 획득할 수 있다.The processor may acquire the first likelihood score by applying an extreme gradient boost (XGB) model to the input data.
상기 프로세서는 상기 획득된 제1 가능성 점수에 대하여 상기 입력 데이터의 각 피처에 의하여 유발된 점수에 대응하는 피처 영향도(feature influence)에 기초하여 상기 피처들 중 하나 이상의 피처들을 선택할 수 있다.The processor may select one or more of the features based on a feature influence corresponding to a score caused by each feature of the input data with respect to the obtained first likelihood score.
일 실시예에 따른 환자의 퇴원 예측을 위한 장치는 상기 획득된 제1 가능성 점수에 대하여, 상기 선택된 하나 이상의 피처들의 상기 피처 영향도를 표시하는 디스플레이를 더 포함할 수 있다.The apparatus for predicting discharge of a patient according to an exemplary embodiment may further include a display displaying an influence degree of the feature of the selected one or more features with respect to the obtained first likelihood score.
일 실시예에 따른 환자의 퇴원 예측을 위한 방법은 제1 시점에 입원 중인 환자에 대하여, 상기 환자의 입원 기간 중 입원 날짜로부터 상기 제1 시점까지 수집된 의료 데이터를 포함하는 입력 데이터에 기계 학습 모델을 적용함으로써 상기 환자가 상기 제1 시점으로부터 대상 기간 내에 퇴원할 제1 가능성 점수를 획득하는 단계; 및 상기 획득된 제1 가능성 점수에 기초하여 상기 환자가 상기 제1 시점으로부터 상기 대상 기간 내에 퇴원할지 여부를 예측하는 단계를 포함할 수 있다.A method for predicting discharge of a patient according to an embodiment includes a machine learning model for a patient who is hospitalized at a first time point, input data including medical data collected from an hospitalization date to the first time point during the hospitalization period of the patient. obtaining a first probability score that the patient will be discharged from the hospital within a subject period from the first time point by applying ?; and predicting whether the patient will be discharged from the hospital within the target period from the first time point based on the obtained first likelihood score.
상기 제1 가능성 점수를 획득하는 단계는, 상기 환자에 대하여 상기 입원 날짜로부터 상기 제1 시점까지 수집된 수술(operation), 처치(procedure), 의료영상저장전송시스템(Picture Archiving and Communication System; PACS), 진단(diagnosis), 복약(medication), 검사(laboratory), 및 신체(physical) 중 하나 또는 둘 이상의 조합에 관한 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는 단계를 포함할 수 있다.The obtaining of the first likelihood score may include operation, procedure, and picture archiving and communication system (PACS) collected from the hospitalization date to the first time point for the patient. The first likelihood score is obtained by applying the machine learning model to input data including medical data related to one or a combination of two or more of diagnosis, medication, laboratory, and physical. Acquisition steps may be included.
일 실시예에 따른 환자의 퇴원 예측을 위한 방법은 상기 제1 시점 이후의 제2 시점에 상기 환자가 입원 중인 경우에 응답하여, 상기 제1 시점으로부터 상기 제2 시점까지 수집된 의료 데이터에 기초하여 상기 입원 기간 중 수집된 의료 데이터를 업데이트하는 단계; 상기 업데이트된 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 환자가 상기 제2 시점으로부터 대상 기간 내에 퇴원할 제2 가능성 점수를 획득하는 단계; 및 상기 획득된 제2 가능성 점수에 기초하여, 상기 환자가 상기 제2 시점으로부터 상기 대상 기간 내에 퇴원할지 여부를 예측하는 단계를 더 포함할 수 있다.A method for predicting discharge of a patient according to an embodiment, in response to a case in which the patient is hospitalized at a second time point after the first time point, based on medical data collected from the first time point to the second time point Updating medical data collected during the hospitalization period; obtaining a second probability score that the patient will be discharged from the hospital within a target period from the second point in time by applying the machine learning model to input data including the updated medical data; and predicting whether the patient will be discharged from the hospital within the subject period from the second time point based on the obtained second likelihood score.
상기 제1 가능성 점수를 획득하는 단계는, 상기 입원 기간 중 수집된 의료 데이터와 함께 상기 입원 기간 이전의 미리 정의된 기간 동안 수집된 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는 단계를 포함할 수 있다.The obtaining of the first likelihood score may include applying the machine learning model to input data including medical data collected during the hospitalization period and medical data collected during a predefined period prior to the hospitalization period, so as to obtain the first probability score. 1 Possibility score may be included.
상기 제1 가능성 점수를 획득하는 단계는, 상기 입원 기간 중 수집된 의료 데이터와 함께 상기 환자에 대하여 상기 입원 기간 이전의 미리 정의된 기간 동안 수집된 진단(diagnosis), 복약(Medication), 검사(Laboratory), 신체(Physical), 및 중환자실(intensive care unit; ICU)의 체류 기간(length of stay; LOS) 중 하나 또는 둘 이상의 조합에 관한 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는 단계를 포함할 수 있다.Acquiring the first likelihood score may include diagnosis, medication, and laboratory information collected during a predefined period prior to the hospitalization period for the patient together with medical data collected during the hospitalization period. ), physical, and length of stay (LOS) in an intensive care unit (ICU) by applying the machine learning model to input data including medical data about one or a combination of two or more. The step of acquiring the first likelihood score may be included.
일 실시예에 따른 환자의 퇴원 예측을 위한 방법은 수집된 데이터의 모든 피처들(features)에 기초하여 트레이닝된 임시 기계 학습 모델에 대한 각 피처의 피처 중요도(feature importance)에 기초하여, 상기 수집된 데이터의 피처들 중 하나 이상의 피처들을 상기 기계 학습 모델의 상기 입력 데이터의 피처로 선택하는 단계; 및 상기 기계 학습 모델을 상기 선택된 피처들에 기초하여 트레이닝시키는 단계를 더 포함할 수 있고, 상기 제1 가능성 점수를 획득하는 단계는 상기 선택된 피처들을 포함하는 상기 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는 단계를 포함할 수 있다.According to an embodiment, a method for predicting a patient's discharge is provided based on the feature importance of each feature to an ad hoc machine learning model trained based on all features of the collected data, selecting one or more of the features of the data as features of the input data of the machine learning model; and training the machine learning model based on the selected features, wherein obtaining the first likelihood score comprises applying the machine learning model to the input data including the selected features. The step of acquiring the first likelihood score may be included.
상기 하나 이상의 피처들을 상기 기계 학습 모델의 입력의 피처로 선택하는 단계는 교차 검증에 따른 재귀적 피처 제거(Recursive feature elimination and cross validation; RFECV) 기법을 상기 입력 데이터의 피처들에 적용함으로써 하나 이상의 피처들을 상기 기계 학습 모델의 입력으로 선택하는 단계를 포함할 수 있다.The step of selecting the one or more features as input features of the machine learning model may include applying a recursive feature elimination and cross validation (RFECV) technique to the features of the input data to select one or more features. may include selecting them as inputs of the machine learning model.
상기 제1 가능성 점수를 획득하는 단계는 상기 입력 데이터에 XG부스트(extreme gradient boost; XGboost) 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는 단계를 포함할 수 있다.The obtaining of the first likelihood score may include obtaining the first likelihood score by applying an extreme gradient boost (XGboost) model to the input data.
일 실시예에 따른 환자의 퇴원 예측을 위한 방법은 상기 획득된 제1 가능성 점수에 대하여 상기 입력 데이터의 각 피처에 의하여 유발된 점수에 대응하는 피처 영향도(feature influence)에 기초하여 상기 피처들 중 하나 이상의 피처들을 선택하는 단계를 더 포함할 수 있다.A method for predicting discharge of a patient according to an embodiment may include a feature influence corresponding to a score caused by each feature of the input data with respect to the obtained first probability score among the features. It may further include selecting one or more features.
일 실시예에 따른 환자의 퇴원 예측을 위한 방법은 상기 획득된 제1 가능성 점수에 대하여, 상기 선택된 하나 이상의 피처들의 상기 피처 영향도를 표시하는 단계를 더 포함할 수 있다.The method for predicting discharge of a patient according to an embodiment may further include displaying the feature influence of the selected one or more features with respect to the obtained first likelihood score.
일 실시예에 따른 환자의 퇴원 예측을 위한 방법은 상기 입원 기간 중의 복수의 시점들에 대한 가능성 점수들을 표시하는 단계를 더 포함할 수 있다.The method for predicting discharge of a patient according to an embodiment may further include displaying probability scores for a plurality of time points during the hospitalization period.
일 실시예에 따른 컴퓨터 프로그램은 하드웨어와 결합되어 전술된 방법들 중 어느 하나의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장될 수 있다.A computer program according to an embodiment may be combined with hardware and stored in a computer readable recording medium to execute any one of the methods described above.
5-폴드 교차 검증(five-fold cross-validations)을 사용하여 5개의 ML 기반 모델들을 실험할 수 있다. 최종 모델로 선택된 XGB(Extreme Gradient Boosting)는 다른 모델들(예를 들어, 로지스틱 회귀, 랜덤 포레스트, 지원 벡터 머신 및 다층 퍼셉트론)보다 0.865 높은 평균 AUROC(area under receiver operating characteristic) 점수를 달성할 수 있다. 피처 축소(reduction)(예를 들어, 피처 선택(selection))를 수행하고 피처 중요도(feature importance)를 나타내고 예측 결과를 평가할 수 있다. 결과 중 하나인 개별 설명자(individual explainer)는 입원 중 퇴원 스코어 및 일별 피처 영향도 스코어를 의료진과 환자에게 제공할 수 있다. 결과를 활용하기 위해 시뮬레이션된 침대 관리를 시각화할 수 있다.Five ML-based models can be tested using five-fold cross-validations. XGB (Extreme Gradient Boosting), selected as the final model, can achieve an average AUROC (area under receiver operating characteristic) score higher than other models (e.g., logistic regression, random forest, support vector machine, and multilayer perceptron) by 0.865. . It can perform feature reduction (eg, feature selection), indicate feature importance, and evaluate prediction results. One of the results, an individual explainer, can provide hospital discharge scores and daily feature impact scores to medical staff and patients. To use the results, simulated bed care can be visualized.
본 발명에서는 퇴원 확률과 피처의 상대적 기여도를 제공하는 개발된 ML 기반 예측 모델을 기반으로 개별 설명자를 제안할 수 있다. 본 발명에 따른 장치 및 방법은 의료 팀 및 환자가 CVD의 개인적 및 공통적 위험 팩터들을 식별하고 병원 관리자가 병상 및 다른 자원의 관리를 개선하는 것을 지원할 수 있다.In the present invention, individual descriptors can be proposed based on the developed ML-based predictive model that provides the discharge probability and the relative contribution of features. Apparatus and methods according to the present invention may assist medical teams and patients in identifying personal and common risk factors of CVD and hospital administrators in improving management of beds and other resources.
도 1은 일 실시예에 따른 환자의 퇴원 예측을 위한 장치의 동작을 나타낸다.1 shows an operation of an apparatus for predicting a patient's discharge according to an embodiment.
도 2는 일 실시예에 따른 환자의 퇴원 예측 방법의 전반적인 흐름을 나타낸다.Figure 2 shows the overall flow of a method for predicting discharge of a patient according to an embodiment.
도 3은 일 실시예에 따른 의료 데이터를 나타낸다.3 shows medical data according to an embodiment.
도 4는 일실시예에 따른 원시 의료 데이터로부터 의료 데이터를 획득하기 위한 전처리 과정을 나타낸다.4 illustrates a preprocessing process for obtaining medical data from raw medical data according to an embodiment.
도 5는 일 실시예에 따른 의료 데이터의 라벨링을 나타낸다. 5 illustrates labeling of medical data according to one embodiment.
도 6는 일 실시예에 따른 프로세서에 의한 가능성 점수의 획득 및 퇴원 여부 예측을 나타낸다.6 shows acquisition of a probability score and prediction of whether or not to be discharged by a processor according to an embodiment.
도 7은 일 실시예에 따른 기계 학습 모델의 트레이닝에서 수행되는 교차 검증을 나타낸다.7 shows cross-validation performed in training of a machine learning model according to an embodiment.
도 8은 일 실시예에 따른 복수의 기계 학습 모델들의 성능을 비교하기 위한 ROC 곡선을 나타낸다.8 shows ROC curves for comparing performance of a plurality of machine learning models according to an embodiment.
도 9은 일 실시예에 따른 피처 중요도에 기초하여 기계 학습 모델에 적용될 피처들을 선택하는 것을 나타낸다.9 illustrates selecting features to be applied to a machine learning model based on feature importance according to an embodiment.
도 10는 일 실시예에 따른 선택된 피처들을 포함하는 입력 데이터의 기계 학습 모델들의 성능을 나타낸다. 10 shows the performance of machine learning models of input data including selected features according to one embodiment.
도 11은 일 실시예에 따른 피처 영향도를 표현하는 폭포형 차트를 나타낸다.11 shows a waterfall chart expressing feature influence according to an exemplary embodiment.
도 12은 일 실시예에 따른 환자의 입원 기간 중 복수의 시점들에 예측된 가능성 점수들을 나타낸다.12 shows predicted likelihood scores at multiple time points during a patient's hospital stay, according to one embodiment.
도 13는 일 실시예에 따른 예측 모델과 개별 설명자가 적용된 병상 관리에 대한 시뮬레이션된 임팩트를 나타낸다.13 shows a simulated impact on bed management to which a predictive model and individual descriptors are applied according to an embodiment.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Specific structural or functional descriptions of the embodiments are disclosed for illustrative purposes only, and may be changed and implemented in various forms. Therefore, the form actually implemented is not limited only to the specific embodiments disclosed, and the scope of the present specification includes changes, equivalents, or substitutes included in the technical idea described in the embodiments.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.Although terms such as first or second may be used to describe various components, such terms should only be construed for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.It should be understood that when an element is referred to as being “connected” to another element, it may be directly connected or connected to the other element, but other elements may exist in the middle.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, terms such as "comprise" or "have" are intended to designate that the described feature, number, step, operation, component, part, or combination thereof exists, but one or more other features or numbers, It should be understood that the presence or addition of steps, operations, components, parts, or combinations thereof is not precluded.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in this specification, it should not be interpreted in an ideal or excessively formal meaning. don't
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. In the description with reference to the accompanying drawings, the same reference numerals are given to the same components regardless of reference numerals, and overlapping descriptions thereof will be omitted.
도 1은 일 실시예에 따른 환자의 퇴원 예측을 위한 장치의 동작을 나타낸다. 환자의 퇴원 예측을 위한 장치(100)는 프로세서(110) 및 디스플레이(120)를 포함할 수 있다.1 shows an operation of an apparatus for predicting a patient's discharge according to an embodiment. The apparatus 100 for predicting discharge of a patient may include a processor 110 and a display 120 .
프로세서(110)는 기계 학습 모델을 이용하여 환자가 퇴원할 가능성 점수(본 명세서에서 퇴원 확률 또는 가능성으로도 표현됨)를 획득할 수 있다. 가능성 점수는 환자가 예측 시점으로부터 대상 기간(예를 들어, 3일) 내에 퇴원할 가능성을 나타낼 수 있다. 프로세서(110)는 획득된 가능성 점수에 기초하여 상기 환자가 예측 시점으로부터 대상 기간 내에 퇴원할지 여부를 예측할 수 있다. 기계 학습 모델을 이용하여 가능성 점수를 획득하고 퇴원 여부를 예측하는 프로세서의 동작은 하기 도 6에서 자세히 설명한다. Processor 110 may use a machine learning model to obtain a likelihood score (also referred to herein as probability or probability of discharge) of the patient being discharged. The likelihood score may represent the likelihood that the patient will be discharged within a subject period (eg, 3 days) from the predicted time point. The processor 110 may predict whether the patient will be discharged within the target period from the predicted time point based on the obtained probability score. An operation of a processor that obtains a probability score and predicts discharge or not by using a machine learning model will be described in detail with reference to FIG. 6 below.
디스플레이(120)는 환자의 예측 퇴원 여부를 표시할 수 있다. 디스플레이(120)는 복수의 시점들에서 각각 예측된 가능성 점수들을 시간에 따라 그래프(121)을 통해 표시할 수 있다. 또한, 디스플레이(120)는 각 피처가 가능성 점수에 영향을 미치는 정도를 나타내는 피처 영향도(feature influence)를 폭포형 차트(122)로 표시할 수도 있다. 디스플레이(120)의 동작은 하기 도 11 내지 도 13에서 자세히 설명한다.The display 120 may display whether or not the patient is predicted to be discharged from the hospital. The display 120 may display each predicted probability score at a plurality of viewpoints through the graph 121 according to time. In addition, the display 120 may display a feature influence representing a degree of influence of each feature on the likelihood score in a waterfall chart 122 . The operation of the display 120 will be described in detail with reference to FIGS. 11 to 13 below.
본 명세서에서 피처(예를 들어, 의료 피처)는 환자의 의료 상황과 관련된 정보를 분류한 개별 항목 및/또는 카테고리를 나타낼 수 있다. 의료 피처는 수술 피처, 처치 피처, 의료영상전송시스템 피처, 진단 피처, 복약 피처, 검사 피처, 신체 피처, 및 중환자실 체류기간 피처 중 하나 또는 둘 이상의 조합을 포함할 수 있다. 전술한 각 의료 피처는 복수의 서브 피처들을 포함할 수 있다. 개별 의료 피처는 도 3에서 후술한다.In this specification, a feature (eg, a medical feature) may represent an individual item and/or category that classifies information related to a patient's medical condition. The medical feature may include one or a combination of two or more of a surgical feature, a treatment feature, a medical image transmission system feature, a diagnosis feature, a medication feature, an examination feature, a body feature, and an intensive care unit length of stay feature. Each medical feature described above may include a plurality of sub-features. Individual medical features are discussed later in FIG. 3 .
도 2는 일 실시예에 따른 환자의 퇴원 예측 방법의 전반적인 흐름을 나타낸다. 데이터 처리(data processing)에서, 코호트 기준(cohort criteria)은 설정될 수 있고 데이터를 처리함으로써 적절한 데이터 세트는 생성될 수 있다. 인공 지능 모델 평가(AI Model Evaluation)에서, 기계 학습 기반의 예측 모델(예를 들어, 기계 학습 모델)을 트레이닝 및 평가(evaluation)함으로써 정교한(elaborate) 모델은 발견될 수 있다. 예측(prediction) 및 설명(explanation)에서, 대상 기간(예를 들어, 3일) 이내의 퇴원 확률은 예측될 수 있고 피처를 식별, 정량화, 및 시각화함으로써 모델의 결과들은 설명될 수 있다.Figure 2 shows the overall flow of a method for predicting discharge of a patient according to an embodiment. In data processing, cohort criteria can be established and appropriate data sets can be created by processing the data. In AI Model Evaluation, a sophisticated model can be found by training and evaluating a machine learning-based predictive model (eg, a machine learning model). In prediction and explanation, the probability of discharge within a subject period (eg, 3 days) can be predicted and the results of the model can be explained by identifying, quantifying, and visualizing features.
도 3은 일 실시예에 따른 의료 데이터를 나타낸다.3 shows medical data according to an embodiment.
일 실시예에 따른 의료 데이터(310)는 기계 학습 모델에 입력 가능한 포맷을 가지는 데이터로서, 원시 의료 데이터의 전처리를 통해 획득될 수 있다. 참고로, 의료 데이터(310)는 그 자체로 기계 학습 모델의 입력 포맷일 수 있고, 도 9에서 후술하는 바와 같이 의료 데이터의 피처들 중 일부 피처들을 포함하는 데이터가 기계 학습 모델의 입력 포맷일 수도 있다. Medical data 310 according to an embodiment is data having a format that can be input to a machine learning model, and may be obtained through preprocessing of raw medical data. For reference, the medical data 310 itself may be an input format of a machine learning model, and as described later in FIG. 9 , data including some of the features of the medical data may be an input format of a machine learning model. there is.
의료 데이터(310)는 과거 의료 피처(311)를 포함하는 제1 부분 의료 데이터 및 현재 의료 피처(312)를 포함하는 제2 부분 의료 데이터를 포함할 수 있다.The medical data 310 may include first partial medical data including the past medical feature 311 and second partial medical data including the current medical feature 312 .
과거 의료 피처(예를 들어, 도 3에서 표시된 과거 피처(past feature)(311))는 환자의 의료와 관련하여 환자의 입원 전에 대응하는 정보를 나타내는 피처를 포함할 수 있다. 예를 들어, 과거 의료 피처는 환자의 입원 날짜 이전에 수집된 원시 의료 데이터로부터 획득된 피처를 나타낼 수 있다. A past medical feature (eg, past feature 311 shown in FIG. 3 ) may include a feature representing information corresponding to the patient's medical care prior to the patient's hospitalization. For example, historical medical features may represent features obtained from raw medical data collected prior to the patient's hospitalization date.
입원 기간 이전의 미리 정의된 기간에 수집된 제1 부분 의료 데이터(예를 들어, 과거 부분 의료 데이터)는 전술한 과거 의료 피처에 대응하는 의료 정보를 포함할 수 있다. 예를 들어, 제1 부분 의료 데이터는 환자의 과거(예를 들어, 입원 날짜 이전의 3년 동안)의 과거 의료 피처들을 포함할 수 있다. 제1 부분 의료 데이터는 예시적으로, 진단(diagnosis), 복약(medication), 검사(laboratory), 신체 정보(physical information), 및 중환자실 체류 기간(LOS of ICU) 중 하나 또는 둘 이상의 조합의 과거 의료 피처들에 대응하는 데이터를 포함할 수 있다.The first partial medical data (eg, past partial medical data) collected in a predefined period prior to the hospitalization period may include medical information corresponding to the aforementioned past medical features. For example, the first portion medical data may include past medical features of the patient's past (eg, for 3 years prior to the date of hospitalization). The first part medical data is illustratively, a history of one or a combination of two or more of diagnosis, medication, laboratory, physical information, and length of stay in intensive care unit (LOS of ICU). It may include data corresponding to medical features.
현재 의료 피처(예를 들어, 도 3에서 표시된 현재 피처(present feature)(312))는 입원 날짜 이후에 대응하는 정보를 나타내는 피처를 포함할 수 있다. 예를 들어, 현재 의료 피처는 입원 기간 동안 수집된 원시 의료 데이터로부터 획득된 피처를 나타낼 수 있다. The current medical feature (eg, the present feature 312 shown in FIG. 3 ) may include a feature representing information corresponding to the hospitalization date and later. For example, the current medical feature may represent a feature obtained from raw medical data collected during hospitalization.
입원 기간 동안 수집된 제2 부분 의료 데이터(예를 들어, 현재 부분 의료 데이터)는, 환자의 입원 날짜 이후의 의료 정보를 포함하는 데이터로서, 현재 의료 피처에 대응하는 의료 정보를 포함할 수 있다. 제2 부분 의료 데이터는, 예시적으로, 수술(operation), 처치(procedure), PACS, 진단(diagnosis), 복약(medication), 검사(laboratory), 및 신체 정보(physical information) 중 하나 또는 둘 이상의 조합의 현재 의료 피처들에 대응하는 데이터를 포함할 수 있다.The second partial medical data collected during the hospitalization period (eg, current partial medical data) is data including medical information after the hospitalization date of the patient, and may include medical information corresponding to a current medical feature. The second partial medical data is, by way of example, one or two or more of operation, procedure, PACS, diagnosis, medication, laboratory, and physical information. It may include data corresponding to the current medical features of the combination.
제2 부분 의료 데이터는 환자가 퇴원할 때까지 일정한 주기(예를 들어, 하루)마다 업데이트될 수 있다. 예를 들어, 환자의 퇴원 예측을 위한 장치는 미리 결정된 주기마다 추가적인 의료 정보를 수집할 수 있다. 추가적인 의료 정보는 환자의 입원 이후에 추가적으로 수집되는 정보로서, 예를 들어, 환자가 입원 기간 중에 진단을 받는 것을 포함할 수 있다. 환자의 퇴원 예측을 위한 장치는 전술된 추가적인 의료 정보에 기초하여 의료 데이터에서 제2 부분 의료 데이터의 현재 의료 피처를 업데이트할 수 있다.The second partial medical data may be updated at regular intervals (eg, one day) until the patient is discharged. For example, an apparatus for predicting a patient's discharge may collect additional medical information at predetermined intervals. Additional medical information is information that is additionally collected after a patient's hospitalization, and may include, for example, a patient's diagnosis during hospitalization. The apparatus for predicting discharge of a patient may update a current medical feature of the second partial medical data in the medical data based on the aforementioned additional medical information.
환자의 퇴원 예측을 위한 장치는 전술한 현재 부분 의료 데이터 및 과거 부분 의료 데이터를 결합함으로써 전술한 의료 데이터를 생성할 수 있다. The apparatus for predicting discharge of a patient may generate the above-described medical data by combining the above-described current partial medical data and past partial medical data.
참고로, 입원 기간은 현재 입원 중인 환자의 현재까지 연속적인 입원 기간으로서, 여러 번 입원한 환자의 경우 가장 최근의 입원 날짜로부터의 기간을 나타낼 수 있다. 예를 들어, 환자가 제1 날짜에 입원하고 제2 날짜에 퇴원하며 제3 날짜에 재입원한 경우, 제1 날짜 및 제2 날짜 사이의 입원 기간 및 제3 날짜 이후의 입원 기간은 연속되지 않은(예를 들어, 분리된) 2개의 입원 기간들일 수 있다. 제3 날짜 이후의 시점에서 환자의 퇴원 여부를 예측하면, 해당 환자의 입원 기간은 가장 최근의 입원 날짜인 제3 날짜 이후의 기간을 나타낼 수 있다. 제1 날짜 및 제2 날짜 사이의 기간은 입원 기간이 아니라, 입원 기간 이전의 기간에 포함될 수 있다.For reference, the hospitalization period is a continuous hospitalization period of a currently hospitalized patient, and may indicate a period from the most recent hospitalization date in the case of a patient who has been hospitalized several times. For example, if a patient is admitted on a first day, discharged on a second date, and re-admitted on a third date, the hospitalization period between the first and second dates and the hospitalization period after the third date are not consecutive. (eg, separate) hospitalization periods. If whether or not the patient is discharged from the hospital is predicted after the third date, the hospitalization period of the corresponding patient may indicate a period after the third date, which is the most recent hospitalization date. The period between the first date and the second date may be included not in the hospitalization period, but in the period prior to the hospitalization period.
도 4는 일실시예에 따른 원시 의료 데이터로부터 의료 데이터를 획득하기 위한 전처리 과정을 나타낸다.4 illustrates a preprocessing process for obtaining medical data from raw medical data according to an embodiment.
원시 의료 데이터는 하나 이상의 주체들에 의하여 수집된 환자들에 대한 의료 정보를 포함하는 데이터로서, 수집된 의료 정보에 전처리가 적용되기 전의 데이터를 나타낼 수 있다.The raw medical data is data including medical information on patients collected by one or more subjects, and may represent data before preprocessing is applied to the collected medical information.
예를 들어, 원시 의료 데이터는 CVD에 특화된 수동으로(manually) 선별된(curate) 전자 건강 기록(EHR) 데이터베이스 CardioNet, Inc. 사의 데이터로부터 추출될 수 있다. CardioNet은 예시적으로 2000년 1월 1일 및 2016년 12월 31일 사이에 CVD로 서울 아산 병원을 방문한 572811명의 환자들로 구성될 수 있다. CardioNet의 수집은 사전 동의(informed consent)가 포기(waive)된 경우 AMC 기관 검토 위원회(AMC institutional review board)의 승인을 받을 수 있다. 방문(visitation), 인구 통계(demographic), 진단(diagnosis), 복약(medication), 및 검사(laboratory)와 같은 27개의 테이블들이 있을 수 있다. CardioNet의 대부분의 테이블들은 환자 ID(patient's identification; PAID), 환자 인카운터 번호(patient's encounter number; INNO), 방문 또는 입원 날짜(INDT), 퇴원 날짜(OUDT)와 같은 공통 변수들을 가질 수 있다. PAID와 INNO를 연결(concatenate)한 형태의 KEY 컬럼은 방문 테이블과 다른 테이블들을 연결(connect)할 수 있다. KEY를 통해, 분석될 각 테이블에서의 변수들은 추출될 수 있다.For example, raw medical data is stored in CardioNet, Inc., a manually curated electronic health record (EHR) database specific to CVD. can be extracted from the company's data. CardioNet may exemplarily consist of 572811 patients who visited Asan Medical Center in Seoul for CVD between January 1, 2000 and December 31, 2016. CardioNet's collection may be subject to AMC institutional review board approval if informed consent is waived. There may be 27 tables such as visitation, demographic, diagnosis, medication, and laboratory. Most tables in CardioNet can have common variables such as patient's identification (PAID), patient's encounter number (INNO), visit or hospitalization date (INDT), and discharge date (OUDT). A KEY column in the form of concatenating PAID and INNO can connect the visit table and other tables. Through KEY, variables in each table to be analyzed can be extracted.
CardioNet의 572,811명의 환자들로부터 심장내과(Cardiology) 또는 흉부외과(Thoracic Surgery)에 입원한 익명의 환자들 63,261명 중 84,251명의 기록은 획득될 수 있다. 더욱이, 실용적이고 사용 가능한 모델을 개발하기 위해 대상 기간(예를 들어, 3일) 이내에 퇴원을 예측하고 장기 환자를 감지하는 것에 집중될 수 있다. 30일 이상의 장기 환자들은 아산 메디컬 센터(asan medical center; AMC)에 의하여 별도로 관리될 수 있다. 따라서, 체류 기간(length of stay)의 기간은 3 및 30일 사이로 설정될 수 있다.Records of 84,251 out of 63,261 anonymous patients admitted to Cardiology or Thoracic Surgery from 572,811 patients of CardioNet can be obtained. Moreover, it can be focused on predicting discharge within a target period (eg, 3 days) and detecting long-term patients to develop a practical and usable model. Long-term patients over 30 days can be managed separately by the Asan Medical Center (AMC). Thus, the length of stay can be set between 3 and 30 days.
CardioNet로부터 추출된 데이터는 복수의 테이블에 대하여 하기 변수들을 포함할 수 있다:Data extracted from CardioNet may include the following variables for multiple tables:
- 방문 테이블: PAID, INNO, KEY, INDT, OUDT, 방문 유형, 진료과, 중환자실(Intensive Care Unit; ICU) 체류 기간(Length of Stay; LOS)- Visitation Table: PAID, INNO, KEY, INDT, OUDT, Visit Type, Department, Intensive Care Unit (ICU) Length of Stay (LOS)
- 진단 테이블: 국제질병분류(International Classification of Diseases; ICD)-10차 진단 코드- Diagnosis table: International Classification of Diseases (ICD)-10th diagnosis code
- 검사(Laboratory) 테이블: 병리 검사(pathology examination) 날짜 및 코드, 검사(examination) 결과-Laboratory table: pathology examination date and code, examination results
- 신체 정보(Physical information) 테이블: 환자의 나이, 키, 체중, 수축기 및 이완기 혈압(systolic and diastolic blood pressure), 호흡수, 맥박수, 체질량지수, 체표면적, 측정일자- Physical information table: patient's age, height, weight, systolic and diastolic blood pressure, respiratory rate, pulse rate, body mass index, body surface area, measurement date
- 복약 테이블: 처방(prescription)의 날짜 및 코드- Medication table: date and code of prescription
- 처치(Procedure) 테이블: 오더(order)의 날짜 및 코드- Procedure table: date and code of order
- 수술(Operation) 테이블: 수술(surgery) 또는 치료(treatment)의 날짜 및 코드- Operation table: date and code of surgery or treatment
- 의료영상저장전송시스템(Picture Archiving and Communication System; PACS) 테이블: 오더의 날짜 및 코드- Picture Archiving and Communication System (PACS) table: date and code of order
- 수혈(Transfusion) 테이블: 오더의 날짜 및 코드- Transfusion table: date and code of order
참고로, ICU 목록은 다음과 같다: ACU(Acute Care Unit), CCU(Coronary Care Unit), CSICU(Cardiac Surgery ICU), MICU(Medical ICU), NICU(Neonatal ICU), NRICU(Neurological ICU), NSICU(Neurosurgical ICU), PICU(Pediatric ICU), 및 SICU(Surgical ICU)For reference, the ICU list is as follows: Acute Care Unit (ACU), Coronary Care Unit (CCU), Cardiac Surgery ICU (CSICU), Medical ICU (MICU), Neonatal ICU (NICU), Neurological ICU (NRICU), NSICU (Neurosurgical ICU), Pediatric ICU (PICU), and Surgical ICU (SICU)
일 실시예에 따른 원시 의료 데이터의 방문 테이블 및 다른 테이블들은 로우 당 하나의 정보만을 포함할 수 있고, ML 모델이 데이터를 한 번에 모두 학습하는 것은 어려울 수 있다. 따라서, 장치는 임상적으로 중요한 오더들(orders)과 코드들(codes)의 OHE(one-hot encoding)를 포함하는 전처리를 수행함으로써 새로운 데이터 세트(예를 들어, 의료 데이터)의 피처를 획득할 수 있다. 전처리를 통해, 장치는 각 환자의 날짜별로 집계된(aggregated) 기록에 액세스할 수 있다.The visit table and other tables of raw medical data according to an embodiment may include only one piece of information per row, and it may be difficult for the ML model to learn all data at once. Thus, the device can acquire features of a new data set (e.g., medical data) by performing pre-processing including one-hot encoding (OHE) of clinically significant orders and codes. can Through pre-processing, the device can access each patient's date-aggregated records.
참고로, 도 3에서 전술한 바와 같이, 진단, 복약, 검사, 및 신체에 대한 테이블들은 과거(past) 피처들 및 현재(present) 피처들 모두를 위하여 사용될 수 있다. 예를 들어, 진단 테이블의 경우, 진단 테이블에 포함된 입원 날짜 이후(예를 들어, 입원 기간)의 정보 및 입원 기간 이전의 미리 정의된 기간(예를 들어, 입원 날짜 이전의 3년)의 정보는 각각 현재 피처들(또는 현재 부분 의료 데이터) 및 과거 피처들(또는 과거 부분 의료 데이터)을 생성하기 위하여 사용될 수 있다. 수술, 처치, PACS의 테이블들은 현재 피처들을 위하여 사용될 수 있다. ICU의 LOS는 과거 피처들을 위하여 사용될 수 있다. For reference, as described above with reference to FIG. 3 , tables for diagnosis, medication, examination, and body may be used for both past features and present features. For example, in the case of a diagnosis table, information from the date of hospitalization included in the diagnosis table (eg, period of hospitalization) and information of a predefined period prior to the period of hospitalization (eg, 3 years prior to the date of hospitalization) may be used to generate current features (or current partial medical data) and past features (or past partial medical data), respectively. Tables of surgery, treatment and PACS can be used for current features. The ICU's LOS can be used for past features.
단계(410)에서, 환자의 퇴원 예측을 위한 장치는 원시 데이터에서 높은 빈도를 가지는 코드들을 선택(select top frequent codes)할 수 있다. 예를 들어, 복약 테이블에서 포함된 처방의 코드 변수가 가질 수 있는 값들이 지나치게 많은 경우, 처방의 코드 변수의 값을 모두 구분하는 기계 학습 모델의 트레이닝 및/또는 추론은 비효율을 초래할 수 있다. 환자의 퇴원 예측을 위한 장치는, 코드가 가질 수 있는 값들의 개수를 미리 결정된 개수 이하로 제한하기 위하여, 높은 빈도를 가지는 코드들을 선택하고 나머지 코드들은 모두 하나의 코드(예를 들어, "기타"를 지시하는 코드)로 변경할 수 있다.In step 410, the apparatus for predicting discharge of a patient may select codes having a high frequency from raw data (select top frequent codes). For example, if there are too many possible values of code variables of prescriptions included in the medication table, training and/or inference of a machine learning model that classifies all values of code variables of prescriptions may result in inefficiency. In order to limit the number of values that a code can have to a predetermined number or less, an apparatus for predicting discharge from a patient selects codes having a high frequency and all other codes are one code (e.g., “other”). code indicating the ).
예를 들어, 진단 및 수술 테이블의 경우, ICD-10차 코드들 및 수술 코드들의 모든 값들은 3 자릿수 코드들로 변환되기 위하여 세번째 자릿수에서 슬라이스될 수 있다. 네 번째 숫자 이후의 문자열은 세 자리 코드의 하위 계층을 나타낼 수 있기 때문일 수 있다. 값들의 모든 빈도 수는 내림차순으로 정렬되고 처음 99개의 코드들은 선택될 수 있다. 나머지 코드들(예를 들어, 선택되지 않은 코드들)은 "기타(other)" 피처로 변경(transform)될 수 있다. For example, in the case of diagnostic and surgical tables, all values of ICD-10 codes and surgical codes can be sliced at the third digit to be converted to 3-digit codes. This may be because the string after the fourth number may indicate a lower hierarchy of the three-digit code. All frequency numbers of values are sorted in descending order and the first 99 codes can be selected. The remaining codes (eg, codes not selected) may be transformed into an "other" feature.
단계(420)에서, 장치는 원-핫 인코딩(one-hot encoding; OHE)를 수행할 수 있다. 예를 들어, 진단 및 수술 테이블의 경우, 100개의 코드들 모두에 대해 OHE는 수행될 수 있다. "Z_DICD", "Z_OPCD"와 같은 "Z_code" 형태의 피처는 각 원본 테이블의 "기타(Others)"를 참조할 수 있다.At step 420, the device may perform one-hot encoding (OHE). For example, in the case of diagnostic and surgical tables, OHE can be performed for all 100 codes. Features in the form of "Z_code" such as "Z_DICD" and "Z_OPCD" can refer to "Others" of each original table.
단계(430)에서, 장치는 값을 채울 수 있다(fill values). 예를 들어, 진단 및 수술 테이블 경우, 각 테이블에 대해 총 100개의 코드는 획득되고 날짜 인덱스 값은 유효한 처방된 또는 오더된 데이터가 있으면 1, 그렇지 않으면 0으로 채워질 수 있다.At step 430, the device may fill values. For example, in the case of diagnosis and surgery tables, a total of 100 codes are obtained for each table, and the date index value may be filled with 1 if there is valid prescribed or ordered data and 0 otherwise.
단계(440)에서, 장치는 결측값들(missing values)에 대하여 임퓨테이션(imputation)을 수행할 수 있다. At step 440, the device may perform an imputation on missing values.
예를 들어, 검사, 신체 정보, 및 날짜 관련된 피처들을 제외한 테이블에서, null 값은 0으로 대체될 수 있다. 대부분의 다른 피처들의 값 유형은 빈도로 계산될 수 있으므로, null 또는 정수일 수 있다. For example, in a table that excludes test, body information, and date related features, null values may be replaced with 0. The value type of most other features can be computed as a frequency, so it can be null or integer.
다른 예를 들어, 검사 및 신체 테이블의 피처들의 연속형 데이터 유형의 결측 값들을 다루기 위하여, 먼저 KEY를 기준으로 데이터 세트는 분리됨으로써 개별 입원들이 혼합되지 않을 수 있다. KEY는 한 환자의 하나의 입원 사례에 대하여 참조할 수 있다. 시간순으로(예를 들어, 과거에서 현재까지) null 값은 채워질 수 있다. 그 이후에, 입원 초기에 결과가 측정되지 않은 경우를 처리하기 위해 나머지 null 값을 시간 역순(예를 들어, 현재에서 과거)으로 채워질 수 있다. 개별 환자의 각 입원에 대해 null 값은 산입(impute)될 수 있다. 마지막으로, 모든 피처들이 정렬 또는 측정되지 않은 값들을 채우기 위하여, 나머지 null 값들을 각 피처에 대해 가장 빈번한 값으로 채울 수 있다.For another example, in order to deal with missing values of the continuous data type of the features of the examination and body tables, the data set is first separated based on KEY so that individual hospitalizations may not be mixed. KEY can refer to one hospitalization case of one patient. Null values can be filled in chronologically (eg, from past to present). After that, the remaining null values can be filled in reverse chronological order (eg, from the present to the past) to handle the case where the outcome was not measured at the beginning of the admission. For each hospitalization of an individual patient, null values can be imputed. Finally, to fill all features with unsorted or unmeasured values, the remaining null values can be filled with the most frequent value for each feature.
이상으로 주로 진단 및 수술 테이블에 대한 예시로서 설명되었으나, 다른 테이블에도 유사한 전처리가 적용될 수 있다. 예를 들어, 진단 및 수술 테이블과 유사하게, PACS 테이블의 값은, 100개의 피처들로 변환될 수 있다. 다른 예를 들어, 진단 테이블과 유사하게, 복약 및 처치 테이블에서, OHE 수행을 통해 가장 빈번한 99개의 코드들 및 "기타"는 획득되었고, 대응하는 데이터는 채워질 수 있다. 또 다른 예를 들어, 검사 테이블에서, 전체 환자 중 50% 이상이 검사한 가장 빈번한 60개의 검사 코드들은 선택될 수 있다. 값들의 OHE는 수행되고 각 검사에 대응하는 결과들로 값들은 채워질 수 있다. 환자가 하루에 여러 번 검사를 받은 경우, 데이터 세트는 결과들의 평균으로 채워질 수 있다.The above has been mainly described as examples for diagnosis and operation tables, but similar preprocessing may be applied to other tables. For example, similar to diagnostic and surgical tables, the values of a PACS table can be converted into 100 features. For another example, similar to the diagnosis table, in the medication and treatment table, the most frequent 99 codes and “Others” were obtained through OHE performance, and the corresponding data can be populated. As another example, in the examination table, 60 most frequent examination codes that are examined by more than 50% of all patients may be selected. OHE of the values can be performed and the values can be filled with the results corresponding to each check. If a patient is tested multiple times a day, the data set can be populated with the average of the results.
다만, 전처리를 전술한 바로 한정하는 것은 아니고, 테이블 별로 일부 단계들이 생략되거나 추가될 수 있다. However, the preprocessing is not limited to the above, and some steps may be omitted or added for each table.
일 실시예에 따른 환자의 퇴원 예측을 위한 장치는 테이블에 대하여 전처리 과정 중 빈번한 코드들을 선택하는 단계(410)를 생략할 수 있다. 예를 들어, 수혈 테이블의 경우, 사용 가능한 27개의 코드들은 모두 사용될 수 있다. 값은 각 환자의 질병의 심각성(severity)를 고려하여 1일 또는 1회 처방들의 개수로 채워질 수 있다. 다른 예를 들어, 신체 테이블은 10개의 코드들을 가지고, 모든 코드들이 사용될 수 있다.The apparatus for predicting discharge of a patient according to an embodiment may omit step 410 of selecting frequent codes during pre-processing with respect to a table. For example, in the case of a blood transfusion table, all 27 available codes can be used. The value can be filled with the number of prescriptions per day or once taking into account the severity of each patient's disease. As another example, the body table has 10 codes, and all codes can be used.
다른 일 실시예에 따른 환자의 퇴원 예측을 위한 장치는 전처리 과정에서 단계들(410 내지 440)와 함께 추가적인 단계를 더 수행할 수 있다.An apparatus for predicting discharge of a patient according to another embodiment may further perform an additional step together with steps 410 to 440 in a preprocessing process.
도 4에서는 생략되었으나, 환자의 퇴원 예측을 위한 장치는 복수의 테이블들을 병합 및 연결할 수 있다. 일 실시예에 따른 원시 의료 데이터(예를 들어, CardioNet)의 주요 테이블(primary table)(예를 들어, 방문 테이블)에서, 복수의 메인 컬럼들(예를 들어, PAID, INNO, INDT, OUDT) 및 방문에 관련된 변수들이 있을 수 있다. 각 로우는 각 환자에 대한 단일 입원 케이스를 나타낼 수 있다. 입원과 퇴원 사이의 기간을 날짜 인덱스로 새로운 데이터 세트 포맷을 생성하기 위하여, 인덱스는 재설정될 수 있다. 예를 들어, INDT가 2021.02.01이고 OUDT가 2021.02.10인 로우는 10일의 LOS를 가질 수 있다. 방문 테이블의 하나의 로우는 10개의 날짜 인덱스들을 갖는 10개의 로우들로 변환될 수 있다. 다른 테이블들의 PAID, INNO 및 날짜 인덱스들에 대응하는 모든 값들을 전처리한 후에 모델 트레이닝을 위한 새로운 데이터 세트를 생성하기 위하여 테이블들은 병합 및 연결될 수 있다.Although omitted in FIG. 4 , the apparatus for predicting patient discharge may merge and connect a plurality of tables. In a primary table (eg, visit table) of raw medical data (eg, CardioNet) according to an embodiment, a plurality of main columns (eg, PAID, INNO, INDT, OUDT) and variables related to the visit. Each row may represent a single admission case for each patient. In order to create a new data set format with a date index of the period between admission and discharge, the index can be reset. For example, a row with an INDT of 2021.02.01 and an OUDT of 2021.02.10 may have an LOS of 10 days. One row of the visitation table can be converted into 10 rows with 10 date indices. Tables can be merged and concatenated to create a new data set for model training after preprocessing all values corresponding to the PAID, INNO and date indexes of the other tables.
또한, 환자의 퇴원 예측을 위한 장치는 피처를 제거하거나 추가적인 피처를 생성할 수 있다. 예를 들어, 환자의 퇴원 예측을 위한 장치는 새로운 데이터 세트를 만든 후에, 미래(future) 정보를 포함하는 OUDT를 제거할 수 있다. 다른 예를 들어, 유형에 따라 날짜의 시간 정보를 구분하고 인식하기 위하여, 총 10개의 날짜 관련 피처들이 생성될 수 있다. INDT와 날짜 인덱스는 연도, 월, 일, 요일과 같은 정수 피처로 분할될 수 있다. 날짜 인덱스가 공휴일인지 여부를 표시하는 피처 및 날짜 인덱스로부터 INDT를 빼서 날짜 인덱스에서 LOS를 나타내는 또 다른 피처들이 생성될 수 있다.Also, the device for predicting a patient's discharge may remove features or create additional features. For example, a device for predicting a patient's discharge may remove OUDTs containing future information after creating a new data set. For another example, a total of 10 date-related features may be created in order to classify and recognize date time information according to types. INDT and date indices can be partitioned into integer features such as year, month, day, and day of the week. Another feature can be created that indicates LOS from the date index by subtracting the INDT from the date index and a feature indicating whether the date index is a public holiday.
이상 주로 의료 데이터의 현재 피처를 획득하는 전처리 과정을 예시로 설명하였으나, 원시 의료 데이터로부터 과거 피처를 획득하는 전처리 과정도 이와 유사하게 수행될 수 있다. ML 모델이 데이터를 깊게 학습하기 위하여, 의료 데이터의 피처는 일일(day-by-day) 피처(예를 들어, 현재 의료 피처)와 함께 환자의 병력(예를 들어, 의료 기록(history))에 관한 과거 의료 피처를 포함할 수 있다. 각 입원의 날짜 인덱스가 입원 날짜(INDT)에서 시작할 때, 입원 날짜로부터 3년 전의 병원 방문 기록의 주요 정보에서 일부 과거 의료 피처들은 획득될 수 있다.Although the preprocessing process of obtaining current features of medical data has been mainly described as an example, the preprocessing process of acquiring past features from raw medical data may be similarly performed. In order for the ML model to learn deep on the data, features of the medical data are included in the patient's medical history (eg, medical history) along with day-by-day features (eg, current medical features). may include past medical features related to When the date index of each hospitalization starts from the hospitalization date (INDT), some past medical features may be obtained from main information of a hospital visit record 3 years before the hospitalization date.
예를 들어, 환자의 퇴원 예측을 위한 장치는 입원 기간 이전에 수집된 원시 의료 데이터로부터 과거 의료 피처를 획득할 수 있다. 현재 의료 피처와 유사하게, 과거 의료 피처에 대해 OHE는 수행되고 값은 채워질 수 있다. 의료 데이터의 과거 의료 피처는 각 피처에 대응하는 합계 값 또는 최근 값으로 채워질 수 있다. 예를 들어, 방문 테이블에서의 각 중환자실의 입원 기간들은 합산될 수 있다. 100개의 진단 코드들에 대해 과거에 진단 기록이 있는 경우, 각 값은 합산될 수 있다. 100개의 복약 코드들에 대해 기록이 있는 경우, 하루 또는 한 번에 처방된 개수는 합산될 수 있다. 다른 예를 들어, 3년 이내의 신체 정보 및 최근 검사 결과는 총 70개 코드들에 대하여 사용될 수 있다.For example, an apparatus for predicting a patient's hospital discharge may obtain past medical features from raw medical data collected prior to hospitalization. Similar to current medical features, OHE can be performed on past medical features and values can be filled. Past medical features of the medical data may be filled with a sum value or a recent value corresponding to each feature. For example, lengths of stay in each intensive care unit in the visiting table may be summed. If there is a diagnostic record in the past for 100 diagnostic codes, each value can be summed up. If there are records for 100 medication codes, the number of prescriptions per day or at one time can be summed up. For another example, body information within 3 years and recent examination results may be used for a total of 70 codes.
도 5는 일 실시예에 따른 의료 데이터의 라벨링을 나타낸다. 5 illustrates labeling of medical data according to one embodiment.
분류(classification)를 위한 지도 학습 알고리즘은 정답을 지시하기 위하여 참(True) 또는 거짓(False)라는 레이블들이 요구될 수 있다. 참으로 라벨링하기 위한 타겟 기준(target criteria)이 도 5에 나타난다.A supervised learning algorithm for classification may require labels such as True or False to indicate a correct answer. The target criteria for labeling as true are shown in FIG. 5 .
도 5에서, Day 1은 입원 날짜(INDT), Day N은 퇴원 날짜(OUDT)일 수 있고, 하나의 원은 입원 기간 중의 각 날짜를 나타낼 수 있다. ML 모델에 힌트를 줄 수 있는 퇴원 절차(discharge procedure)와 같은 정보 때문에, 데이터 세트에서 Day N(예를 들어, 퇴원 날짜)은 제외될 수 있다. 퇴원일부터 이틀 전까지는 퇴원 예측의 정확도가 높을 수 있음에도 불구하고, 실제 모델을 사용하는 경우 대상 기간(예를 들어, 3일) 전에 미리 예측하는 것이 유용할 수 있다. 따라서 퇴원 날짜(OUDT) 1일 전부터 퇴원 날짜(OUDT) 3일 전까지의 날짜들은 1(예를 들어, 참 또는 양성), 입원 날짜(INDT)에서부터 퇴원 날짜(OUDT) 4일 전까지의 날짜들은 0(예를 들어, 거짓 또는 음성)으로 레이블링될 수 있다.In FIG. 5 , Day 1 may be a hospitalization date (INDT), Day N may be a hospital discharge date (OUDT), and one circle may represent each day during the hospitalization period. Day N (eg discharge date) can be excluded from the data set because of information such as discharge procedure that can hint the ML model. Although the accuracy of discharge prediction can be high up to two days from the discharge date, it may be useful to make a prediction before the target period (eg, 3 days) in advance when using an actual model. Thus, dates from 1 day before the discharge date (OUDT) to 3 days before the discharge date (OUDT) are 1 (eg true or positive), and dates from the date of admission (INDT) to 4 days before the discharge date (OUDT) are 0 ( eg, false or negative).
일실시예에 따른 의료 데이터에서, 원본 테이블(예를 들어, 원시 의료 데이터)의 다양한 변수들은 10개의 날짜 관련 피처들, 597개의 현재 피처들, 및 279개의 과거 피처들로 변환될 수 있다. CVD 갖는 63,261명의 입원 환자들에 대한 84,251개의 기록들로부터 886개의 피처들을 갖는 669,667개의 로우들의 의료 데이터는 생성될 수 있다. 진단 코드, 검사 테스트 결과들, 신체 정보, 복약, 처치, 수술, PACS, 및 수혈을 포함하는 886개의 피처들을 가진 669,667개의 기록들로 구성된 의료 데이터는 생성될 수 있다. 환자들은 심장내과 또는 흉부외과에 입원했을 수 있고, 환자들의 LOS는 3일에서 30일 사이일 수 있다. 환자들의 평균 연령은 61.03세이고, 표준 편차는 13.42세일 수 있다. 의료 데이터는 38%(예를 들어, 254,254개의 로우들)의 여성과 62%(예를 들어, 415,413개의 로우들)의 남성으로 구성될 수 있다.In medical data according to an embodiment, various variables of an original table (eg, raw medical data) may be converted into 10 date-related features, 597 current features, and 279 past features. From 84,251 records of 63,261 inpatients with CVD, 669,667 rows of medical data with 886 features can be generated. Medical data consisting of 669,667 records with 886 features including diagnosis code, examination test results, body information, medication, treatment, surgery, PACS, and blood transfusion can be generated. Patients may be admitted to cardiology or thoracic surgery, and their LOS may range from 3 to 30 days. The mean age of the patients may be 61.03 years, and the standard deviation may be 13.42 years. The medical data may consist of 38% female (eg, 254,254 rows) and 62% male (eg, 415,413 rows).
도 6는 일 실시예에 따른 프로세서에 의한 가능성 점수의 획득 및 퇴원 여부 예측을 나타낸다.6 shows acquisition of a probability score and prediction of whether or not to be discharged by a processor according to an embodiment.
단계(610)에서, 프로세서는 원시 의료 데이터를 전처리함으로써 의료 데이터를 획득할 수 있다.At step 610, the processor may obtain medical data by pre-processing the raw medical data.
도 3에서 전술하였으나, 의료 데이터는, 수집된 기간에 기초하여, 입원 기간(a1)에 수집된 부분 의료 데이터(예를 들어, 제2 부분 의료 데이터 또는 현재 부분 의료 데이터) 및 입원 기간 이전의 미리 정의된 기간(a2)에 수집된 부분 의료 데이터(예를 들어, 제1 부분 의료 데이터 또는 과거 부분 의료 데이터)를 포함할 수 있다.As described above in FIG. 3 , the medical data is partial medical data (eg, second partial medical data or current partial medical data) collected in the hospitalization period (a1) and a prior prior to the hospitalization period, based on the collected period. It may include partial medical data (eg, first partial medical data or past partial medical data) collected in the defined period (a2).
단계(620)에서, 프로세서는 입력 데이터에 기계 학습 모델을 적용함으로써 제1 가능성 점수를 획득할 수 있다. At step 620, the processor may obtain a first likelihood score by applying a machine learning model to the input data.
입력 데이터는 의료 데이터의 적어도 일부를 포함할 수 있다. 의료 데이터는 복수의 피처들을 포함할 수 있다. 프로세서는 의료 데이터의 피처들 중 하나 이상의 피처들을 입력 데이터의 피처로 선택할 수 있다. 입력 데이터의 피처의 선택은 하기 도 9에서 자세히 설명한다.The input data may include at least a portion of medical data. Medical data may include a plurality of features. The processor may select one or more of the features of the medical data as features of the input data. Selection of features of input data will be described in detail with reference to FIG. 9 below.
가능성 점수는 예측 시점으로부터 미리 정의된 대상 기간 내에 환자가 퇴원할 가능성을 나타낼 수 있다. 예를 들어, 제1 가능성 점수는, 제1 시점(d1)에서 예측된 환자의 퇴원 가능성을 나타내는 점수로서, 제1 시점으로부터 대상 기간(p1) 내에 환자가 퇴원할 가능성을 나타낼 수 있다.The likelihood score may represent the likelihood that the patient will be discharged within a predefined subject period from the predicted time point. For example, the first likelihood score is a score representing the predicted possibility of discharge of the patient at the first time point d1 , and may indicate the possibility that the patient will be discharged from the hospital within the target period p1 from the first time point.
참고로, 프로세서에 의하여 환자에 대한 퇴원을 예측하는 것은 미리 정의된 주기에 따라 반복적으로 수행될 수 있다. 일 실시예에 따른 퇴원 예측의 주기는 후술되는 의료 데이터의 업데이트의 주기와 같을 수 있다. 본 명세서에서는 퇴원 예측의 주기 및 의료 데이터의 업데이트의 주기가 모두 하루인 것으로 주로 설명되나, 이에 한정하는 것은 아니다. 다른 실시예에 따른 퇴원 예측의 주기는 의료 데이터의 업데이트 주기보다 길거나 의료 데이터의 업데이트 주기의 배수일 수 있다. For reference, predicting discharge of a patient by a processor may be repeatedly performed according to a predefined cycle. According to an embodiment, a discharge prediction cycle may be the same as a medical data update cycle described later. In the present specification, it is mainly described that the discharge prediction cycle and the medical data update cycle are both one day, but are not limited thereto. According to another embodiment, the discharge prediction cycle may be longer than the update cycle of the medical data or may be a multiple of the update cycle of the medical data.
단계(630)에서, 프로세서는 환자의 제1 가능성 점수에 기초하여 환자의 퇴원 여부를 예측할 수 있다. 제1 가능성 점수에 기초하여 예측되는 환자의 퇴원 여부는, 구체적으로, 환자가 제1 시점으로부터 대상 기간 내에 퇴원할지 여부를 나타낼 수 있다. 예를 들어, 프로세서는 제1 가능성 점수를 임계 점수와 비교함으로써 환자의 퇴원 여부를 예측할 수 있다.At step 630, the processor may predict whether the patient will be discharged based on the patient's first likelihood score. Whether the patient will be discharged or not predicted based on the first likelihood score may indicate, in detail, whether the patient will be discharged from the hospital within the target period from the first time point. For example, the processor can predict whether the patient will be discharged by comparing the first likelihood score to a threshold score.
단계(640)에서, 프로세서는, 제2 시점에 환자가 입원 중인 경우에 응답하여, 입원 기간 중 수집된 의료 데이터를 업데이트할 수 있다. 제2 시점은 제1 시점으로부터 의료 데이터의 업데이트의 한 주기가 경과한 시점을 나타낼 수 있다. 다만, 이에 한정하는 것은 아니고 제2 시점은 제1 시점으로부터 하나 이상의 주기들이 경과한 시점을 나타낼 수도 있다. 제1 시점(d1)과 제2 시점(d2) 사이에 발생한 추가적인 의료 정보로 인하여, 의료 데이터 중 일부(예를 들어, 현재 부분 의료 데이터 또는 의료 데이터의 현재 피처)가 변경(예를 들어, 업데이트)될 수 있다.In operation 640, the processor may update medical data collected during the hospitalization period in response to the patient being hospitalized at the second time point. The second point in time may represent a point in time when one cycle of updating medical data has elapsed from the first point in time. However, it is not limited thereto, and the second time point may indicate a time point when one or more cycles have elapsed from the first time point. Due to the additional medical information generated between the first time point d1 and the second time point d2, some of the medical data (eg, current partial medical data or current feature of the medical data) is changed (eg, updated). ) can be
단계(650)에서, 프로세서는 업데이트된 입력 데이터에 기계 학습 모델을 적용함으로써 제2 가능성 점수를 획득할 수 있다. 제2 가능성 점수는 환자가 제2 시점으로부터 대상 기간 내에 퇴원할 가능성을 나타낼 수 있다. 기계 학습 모델로부터 제2 가능성 점수를 출력시키기 위하여, 입력 데이터는 입원 기간 중 입원 날짜로부터 제2 시점까지 획득된 의료 데이터 중 적어도 일부를 포함할 수 있다. 제2 시점에서의 제2 가능성 점수는 입원 기간 중 제2 시점까지의 수집된 의료 데이터를 포함하는 입력 데이터에 기초하여 출력될 수 있다.At step 650, the processor may obtain a second likelihood score by applying a machine learning model to the updated input data. The second likelihood score may represent the likelihood that the patient will be discharged from the hospital within the subject period from the second time point. In order to output the second likelihood score from the machine learning model, the input data may include at least a part of medical data obtained from the hospitalization date to the second time point during the hospitalization period. The second likelihood score at the second time point may be output based on input data including medical data collected up to the second time point during the hospitalization period.
단계(660)에서, 프로세서는 환자의 제2 가능성 점수에 기초하여 환자의 퇴원 여부를 예측할 수 있다. 제2 가능성 점수에 기초하여 예측되는 환자의 퇴원 여부는, 구체적으로, 환자가 제2 시점(d2)으로부터 대상 기간(p2) 내에 퇴원할지 여부를 나타낼 수 있다.In step 660, the processor may predict whether the patient will be discharged based on the patient's second likelihood score. Whether the patient will be discharged or not predicted based on the second probability score may indicate, in detail, whether the patient will be discharged from the hospital within the target period p2 from the second time point d2.
도 7은 일 실시예에 따른 기계 학습 모델의 트레이닝에서 수행되는 교차 검증을 나타낸다.7 shows cross-validation performed in training of a machine learning model according to an embodiment.
트레이닝 데이터는 퇴원 및 입원 중 하나로 레이블링될 수 있다. 퇴원에는 양성(positive)(예를 들어, 1) 레이블을, 입원에는 음성(negative)(예를 들어, 0) 레이블으로 설정될 수 있다. 모델들의 성능을 평가하고 비교하기 위하여, 정확도(accuracy), 민감도(sensitivity)(또는 양성(positive)에 대한 재현율(recall)), 특이성(specificity), 정밀도(precision), 양성 예측도(positive predictive value; PPV), 음성 예측도(negative predictive value; NPV), 거짓 양성 비율(false positive rate; FPR), 및 참 양성 비율(true positive rate; TPR)을 포함하는 메트릭들은 사용될 수 있다. 모델 트레이닝 및 검증을 모니터링할 때, 불균형 대상들을 반영하기 위하여 F1-점수(F1-Score)는 사용될 수 있고, 최적의 임계를 찾기 위하여 수신기 작동 특성(receiver operating characteristic; ROC) 곡선은 사용될 수 있으며, 비교하기 위하여 ROC 아래 영역(area under ROC; AUROC) 스코어는 사용될 수 있다.Training data can be labeled as either discharge or hospitalization. A positive (eg, 1) label may be set for discharge, and a negative (eg, 0) label may be set for hospitalization. To evaluate and compare the performance of models, accuracy, sensitivity (or recall of positives), specificity, precision, positive predictive value Metrics including PPV), negative predictive value (NPV), false positive rate (FPR), and true positive rate (TPR) may be used. When monitoring model training and validation, the F1-Score can be used to reflect imbalanced subjects, the receiver operating characteristic (ROC) curve can be used to find the optimal threshold, For comparison, area under ROC (AUROC) scores can be used.
ML 기반 모델의 과적합을 방지하고 편향된(biased) 결과를 감소하기 위하여, 도 7과 같이 계층화된(stratified) 5-폴드(5-fold) 교차 검증은 수행될 수 있다. 63,261개의 PAID들은 무작위로 셔플될 수 있고, 약 12,000명의 사람들의 5개 그룹들로 분할될 수 있다. 단일 환자의 기록을 트레이닝(예를 들어, 도 7의 도트 상자) 및 테스트 세트(예를 들어, 도 7의 대각선 해칭 상자)로 분할하지 않는 것을 시도하기 때문일 수 있다. 제1 그룹은 테스트 세트가 되고 나머지 그룹들은 폴드 1의 트레이닝 세트가 될 수 있다. 불균형한 대상들의 동일한 분할을 보장하기 위한 유사한 방식으로 폴드 1 내지 폴드 5는 생성될 수 있다(예를 들어, 데이터 세트의 참 값 레이블(true lable)은 모든 폴드들에서 레이블 0에 대해 62.4% 및 레이블 1에 대해 37.6%로 구성됨). 트레이닝 세트 중 25%는 하이퍼파라미터를 조정하기 위한 검증 세트로 분할될 수 있다. 결과적으로, 각 폴드에서 데이터 세트는 테스트 세트의 경우 약 133,000개의 로우들로, 트레이닝 세트(예를 들어, 검증 세트 포함)의 경우 535,000개 로우들로 분할될 수 있다. ML 기반 모델들은 5개의 폴드들을 모두 트레이닝 및 테스트될 수 있다.In order to prevent overfitting of the ML-based model and reduce biased results, stratified 5-fold cross validation may be performed as shown in FIG. 7 . The 63,261 PAIDs can be randomly shuffled and divided into 5 groups of about 12,000 people. This may be due to an attempt not to split a single patient's record into a training (eg, dotted box in FIG. 7 ) and test set (eg, diagonally hatched boxes in FIG. 7 ). The first group may be a test set and the remaining groups may be fold 1 training sets. Folds 1 through 5 can be generated in a similar way to ensure equal division of imbalanced subjects (e.g., the true label in the data set is 62.4% for label 0 in all folds and 37.6% for label 1). 25% of the training set can be split into a validation set to adjust the hyperparameters. As a result, at each fold the data set can be split into approximately 133,000 rows for the test set and 535,000 rows for the training set (including the validation set, for example). ML-based models can be trained and tested on all five folds.
일실시예에 따른 환자의 퇴원 예측을 위한 장치는, 가장 적합한 모델을 찾기 위하여, 5가지 기계 학습 모델들을 실험할 수 있다. 예를 들어, 로지스틱 회귀(logistic regression; LR) 모델은 성능 추정을 위한 기준선으로 설정될 수 있다. 서포트 벡터 머신(support vector machine; SVM), 랜덤 포레스트(random forest; RF), 다층 퍼셉트론(multi-layer perceptron; MLP) 및 XGBoost(Extreme Gradient Boosting; XGB)는 비교를 위한 기계 학습 모델들로 선택될 수 있다. 일 실시예에 따른 퇴원 예측을 위한 장치는, 랜덤 검색을 통해 각 모델에 대한 하이퍼파라미터(hyperparameter) 튜닝을 수행할 수 있다.An apparatus for predicting a patient's discharge according to an embodiment may experiment with five machine learning models in order to find the most suitable model. For example, a logistic regression (LR) model can be established as a baseline for performance estimation. Support vector machine (SVM), random forest (RF), multi-layer perceptron (MLP) and Extreme Gradient Boosting (XGBoost) will be selected as machine learning models for comparison. can An apparatus for predicting hospital discharge according to an embodiment may perform hyperparameter tuning for each model through a random search.
일실시예에 따른 퇴원 예측을 위한 장치는 GBM(Gradient-Boosting Algorithm) 모델 중 하나인 XGB을 최종 모델로 선택할 수 있다. GBM은 여러 약한 분류기들(예를 들어, 트리들)을 결합하는 앙상블 방법을 포함할 수 있다. GBM의 주요 아이디어는 잘못 예측된 결과들에 초점을 맞추고 가중치를 두는 것일 수 있다. XGB가 트레이닝되는 동안, 하나의 트리는 데이터 세트를 학습하고, 에러들을 갖는 잘못 예측된 기록들에 가중치들을 할당하며, 같은 모델의 다음 트리는 가중치가 할당된 데이터 세트를 학습하고 가중치들을 할당하는 것의 프로세스를 반복할 수 있다. The apparatus for predicting hospital discharge according to an embodiment may select XGB, which is one of Gradient-Boosting Algorithm (GBM) models, as a final model. GBM may include an ensemble method that combines several weak classifiers (eg, trees). The main idea of GBM may be to focus on and weight mispredicted outcomes. While the XGB is being trained, one tree learns the data set and assigns weights to the mispredicted records with errors, and the next tree of the same model follows the process of learning the weighted data set and assigning weights. can be repeated
참고로, GBM은, 설명가능한(explainable) 기계 학습 모델로서, 피처 중요도와 같은 예측 결과들에 대한 피처들의 기여도를 정량화할 수 있다. 특히, XGB는 정규화와 성능의 장점을 가질 수 있다. XGB는 병렬 처리를 수행할 수 있고, 과적합을 방지하도록 규제될 수 있으며, 구조화된 데이터 학습에 널리 사용될 수 있고, 우수한 예측 성능을 가질 수 있다.For reference, GBM, as an explainable machine learning model, can quantify the contribution of features to prediction results such as feature importance. In particular, XGB can have normalization and performance advantages. XGB can perform parallel processing, can be regulated to prevent overfitting, can be widely used in structured data learning, and can have good predictive performance.
피처 중요도는 트리 기반 알고리즘 모델에 의하여 데이터를 트레이닝하는 것의 프로세스에서 모델이 중요하다고 생각하는 피처들 및 피처들의 기여도 점수를 나열할 수 있다. XGB는, XGB의 고성능뿐만 아니라 의사 결정 프로세스를 포함하는 모델의 내부에 액세스할 수 있기 때문에, 최종 모델로 고려될 수 있다. 트리에 접근(approach)함으로써 각 환자의 일일 퇴원 예측에 기여한 특정 피처들 및 피처들의 영향도들은 설명될 수 있다.Feature importance may list features and their contribution scores that the model considers important in the process of training data by the tree-based algorithmic model. XGB can be considered the final model because of the XGB's high performance as well as access to the internals of the model including the decision-making process. By approaching the tree, the specific features that contributed to each patient's daily discharge prediction and their influence can be accounted for.
도 8은 일 실시예에 따른 복수의 기계 학습 모델들의 성능을 비교하기 위한 ROC 곡선을 나타낸다.8 shows ROC curves for comparing performance of a plurality of machine learning models according to an embodiment.
각 모델에 대한 5-폴드 교차 검증의 AUROC 점수에 의한 평가Evaluation by AUROC score of 5-fold cross-validation for each model
LRLR SVMSVM RFRF MLPMLP XGBXGB Support [0, 1]Support[0, 1]
Fold 1 Fold 1
0.8260.826 0.8250.825 0.8530.853 0.8330.833 0.8660.866 [83113, 50188][83113, 50188]
Fold 2 Fold 2
0.8270.827 0.8260.826 0.8510.851 0.8350.835 0.8680.868 [83538, 50310][83538, 50310]
Fold 3 Fold 3
0.8240.824 0.8240.824 0.8500.850 0.8210.821 0.8650.865 [84192, 50585][84192, 50585]
Fold 4 Fold 4
0.8240.824 0.8230.823 0.8500.850 0.8310.831 0.8640.864 [83969, 50460][83969, 50460]
Fold 5 Fold 5
0.8220.822 0.8210.821 0.8480.848 0.8340.834 0.8630.863 [82918, 50394][82918, 50394]
MeanMean
0.8240.824 0.8240.824 0.8500.850 0.8310.831 0.8650.865
5 교차 검증들을 사용하여 5개의 ML 기반 모델들은 실험될 수 있고, 각 폴드에 대한 AUROC 점수는 표 1에 나타날 수 있다. 각 폴드에 대한 가장 높은 AUROC 점수는 볼드체로 표시되고 표 1의 "서포트(Support)" 컬럼은 각 참 값 레이블의 개수를 나타냅니다. 도 8에서, ROC 곡선 플롯이 나타날 수 있다. 곡선의 면적은 0과 1 사이의 값을 갖는 AUROC를 나타낼 수 있다. AUROC 점수는 1에 가까울수록 모델의 성능이 높다는 것을 의미할 수 있다. XGB는 모든 폴드에서 가장 높고 비교적 안정적인 점수를 획득할 수 있다. Five ML-based models can be tested using 5 cross validations, and the AUROC score for each fold can be shown in Table 1. The highest AUROC score for each fold is shown in bold, and the "Support" column in Table 1 indicates the count of each true value label. In FIG. 8 , a ROC curve plot may appear. The area of the curve may represent AUROC having a value between 0 and 1. The closer the AUROC score is to 1, the higher the performance of the model. XGB can achieve the highest and relatively stable score in all folds.
메트릭들의 결과들로 5개의 ML 기반 모델들의 비교Comparison of 5 ML-based models with results of metrics
accuracyaccuracy sensitivitysensitivity specificityspecificity PPVPPV NPVNPVs AUROCAUROC
LRLR
0.75
(±0)
0.75
(±0)
0.624
(±0.005)
0.624
(±0.005)
0.828
(±0.004)
0.828
(±0.004)
0.686
(±0.005)
0.686
(±0.005)
0.786
(±0.005)
0.786
(±0.005)
0.824
(± 0.002)
0.824
(± 0.002)
SVMSVM
0.75
(±0)
0.75
(±0)
0.624
(±0.005)
0.624
(±0.005)
0.828
(±0.004)
0.828
(±0.004)
0.686
(±0.005)
0.686
(±0.005)
0.784
(±0.005)
0.784
(±0.005)
0.824
(±0.002)
0.824
(±0.002)
RFRF
0.77
(±0)
0.77
(±0)
0.696
(±0.005)
0.696
(±0.005)
0.818
(±0.004)
0.818
(±0.004)
0.696
(±0.005)
0.696
(±0.005)
0.8183 (±0.004)0.8183 (±0.004) 0.85
(±0.002)
0.85
(±0.002)
MLPMLP
0.758
(±0.004)
0.758
(±0.004)
0.642
(±0.017)
0.642
(±0.017)
0.822
(±0.007)
0.822
(±0.007)
0.686
(±0.005)
0.686
(±0.005)
0.792
(±0.007)
0.792
(±0.007)
0.831
(±0.005)
0.831
(±0.005)
XGBXGB
0.782
(±0.004)
0.782
(±0.004)
0.716
(±0.005)
0.716
(±0.005)
0.824
(±0.005)
0.824
(±0.005)
0.71
(±0)
0.71
(±0)
0.828
(±0.004)
0.828
(±0.004)
0.865
(±0.002)
0.865
(±0.002)
표 2는 5가지 ML 기반 모델들의 평가 결과를 비교한 것이다. 표 2의 모든 점수들은 5개의 폴드들에서의 결과들의 평균 값 및 표준편차이고, 각 메트릭의 최고 점수는 볼드체로 표시될 수 있다. 특이성(Specificity)의 경우, LR, SVM은 0.828로 가장 높았지만 나머지 메트릭에서는 XGB가 가장 높을 수 있다. 특히, 데이터 세트의 레이블이 불균형한 경우에도 레이블 1을 예측하는 데 XGB은 0.7점 이상을 기록할 수 있다. 따라서, XGB는 퇴원 확률을 예측하기 위한 최종 모델로 선택될 수 있다.도 9은 일 실시예에 따른 피처 중요도에 기초하여 기계 학습 모델에 적용될 피처들을 선택하는 것을 나타낸다.Table 2 compares the evaluation results of five ML-based models. All scores in Table 2 are the average value and standard deviation of the results in the five folds, and the highest score for each metric may be indicated in bold. In the case of Specificity, LR and SVM were the highest at 0.828, but XGB may be the highest in the other metrics. In particular, XGB can score better than 0.7 in predicting label 1 even when the labels in the data set are imbalanced. Accordingly, XGB can be selected as the final model for predicting the discharge probability. [0043] FIG. 9 illustrates selecting features to be applied to the machine learning model based on feature importance according to an embodiment.
피처 중요도(feature importance)는 기계 학습 모델에 대한 입력 데이터의 해당 피처의 중요성을 나타낼 수 있다. 피처 중요도는 해당 피처의 값을 임의의 값으로 치환하면 원본 데이터보다 예측 에러가 증가하는 정도에 따라 산출될 수 있다. Feature importance can indicate the importance of that feature of the input data to the machine learning model. The feature importance may be calculated according to the degree to which a prediction error increases compared to the original data when the corresponding feature value is replaced with an arbitrary value.
그래프(900)는 XGB의 이득 점수(gain score)에 따라 정렬된 상대적인 피처 중요도를 나타낼 수 있다. 이득 점수는 피처가 사용되는 모든 분할들(spilts)의 평균 이득을 나타낼 수 있다. 일실시예에 따른 기계 학습 모델에 사용된 모든 피처들은 아산 메디컬 센터(asan medical center; AMC)에서 사용된 이름으로 대체될 수 있다. 날짜 관련 피처를 제외하고 모델에 영향을 미치는 대부분의 피처들은 모든 테이블들에서 발견될 수 있다. 처치 테이블의 피처들은 임상적으로 중요한 상황과 실질적으로 관련될 수 있다. 예를 들어, (D)로 표시된 용어는 다른 것보다 더 심각한 상태를 의미할 가능성이 높을 수 있다. 나머지 피처들은 또한 CVD와 연관되거나 입원 중 주요 검사(primary examination) 및 처방을 포함할 수 있다. Graph 900 may represent relative feature importance ordered according to the gain score of XGB. The gain score may represent the average gain of all splits in which the feature is used. All features used in the machine learning model according to an embodiment may be replaced with names used in the Asan Medical Center (AMC). Except for date-related features, most features affecting the model can be found in all tables. Features of the treatment table may be substantially related to a clinically important situation. For example, a term marked with (D) may be more likely to mean a more serious condition than another. Other features may also be related to CVD or include primary examination and prescription during hospitalization.
피처 중요도는 기계 학습 모델에 대한 해당 피처의 중요성을 나타낼 수 있을 뿐이고, 도 11에서 후술될 피처 영향도(feature influence)와 구분될 수 있다. 후술하겠으나, 피처 영향도는 하나의 출력(예를 들어, 가능성 점수)에 대하여 해당 피처의 값이 영향을 미친 정도를 나타내는 값이다. 피처 중요도는 모델에 대해서 설명할 수 있고 각 환자를 설명하기 어려울 수 있기 때문에, 예측(예를 들어, 가능성 점수)에 대한 개별 설명자로 사용하기에는 부족할 수 있다. 환자의 상태에 따라 매번 다른 피처들이 일일 퇴원 확률에 영향을 미칠 수 있다. 환자별로 입원 기간 중 일일 퇴원 확률에 대하여 영향을 미친 피처들을 제공하는 개별 설명자는 제안될 수 있다. 개별 설명자는 도 11 내지 도 13에서 자세히 설명한다.Feature importance can only indicate the importance of a corresponding feature to a machine learning model, and can be distinguished from feature influence described later in FIG. 11 . As will be described later, the feature influence is a value representing the degree to which the value of a corresponding feature affects one output (eg, a probability score). Because feature importance can be descriptive for the model and difficult to explain for each patient, it may fall short of being used as an individual descriptor for prediction (e.g., likelihood score). Depending on the patient's condition, different features can affect the daily discharge probability each time. Individual descriptors that provide features that have an impact on the daily probability of discharge during hospitalization for each patient can be proposed. Individual descriptors are described in detail in FIGS. 11 to 13 .
일 실시예에 따른 프로세서는 피처 중요도에 기초하여 의료 데이터의 피처들 중 입력 데이터의 피처로 선택할 수 있다.The processor according to an embodiment may select features of the input data from among features of the medical data based on feature importance.
단계(910)에서, 프로세서는 임시 기계 학습 모델에 대한 피처 중요도를 산출할 수 있다. 임시 기계 학습 모델은 전처리된 의료 데이터의 모든 피처들을 포함하는 데이터로 트레이닝된 기계 학습 모델을 나타낼 수 있다. 피처 중요도는 기계 학습 모델에 대한 해당 피처의 중요성을 나타낼 수 있다. 예를 들어, 피처 중요도는 데이터에서 해당 피처의 값을 임의의 값으로 치환하면 원본 데이터보다 임시 기계 학습 모델의 예측 에러가 증가하는 정도에 따라 산출될 수 있다. At step 910, the processor may calculate feature importance for the ad hoc machine learning model. The ad hoc machine learning model may represent a machine learning model trained with data including all features of the preprocessed medical data. Feature importance may indicate the importance of that feature to the machine learning model. For example, the feature importance may be calculated according to the degree to which the prediction error of the temporary machine learning model increases compared to the original data when the corresponding feature value is replaced with an arbitrary value in the data.
단계(920)에서, 프로세서는 산출된 피처 중요도에 기초하여 기계 학습 모델의 입력 데이터의 피처로 선택할 수 있다. 예를 들어, 프로세서는 산출된 피처 중요도를 내림차순으로 정렬하고 미리 정의된 개수에 대응하는 상위 피처들을 선택할 수 있다. 다른 예를 들어, 프로세서는 미리 정의된 임계 피처 중요도 이상의 피처 중요도를 갖는 피처들을 선택할 수 있다. In step 920, the processor may select a feature of the input data of the machine learning model based on the calculated feature importance. For example, the processor may sort the calculated feature importance in descending order and select top features corresponding to a predefined number. For another example, the processor may select features having a feature importance greater than or equal to a predefined threshold feature importance.
입력 데이터의 피처 선택을 통해, 기계 학습 모델의 입력 포맷은 선택된 피처들을 포함하는 데이터 포맷으로 결정될 수 있다.Through feature selection of the input data, an input format of the machine learning model may be determined as a data format including the selected features.
단계(930)에서, 프로세서는 기계 학습 모델을 선택된 피처들에 기초하여 트레이닝시킬 수 있다. 프로세서는 의료 데이터로부터 선택된 피처들을 추출하고 추출된 피처들로 구성된 트레이닝 데이터를 획득할 수 있다. 프로세서는 의료 데이터의 모든 피처들에 기초하여 트레이닝되는 대신에, 선택된 피처들에 기초하여 트레이닝시킴으로써 기계 학습 모델을 획득할 수 있다.At step 930, the processor may train a machine learning model based on the selected features. The processor may extract selected features from the medical data and obtain training data composed of the extracted features. The processor may obtain a machine learning model by training based on selected features, instead of being trained based on all features of the medical data.
단계(940)에서, 프로세서는 선택된 피처들에 기계 학습 모델을 적용함으로써 가능성 점수를 획득할 수 있다. 기계 학습 모델은 선택된 피처들로 구성된 입력 데이터에 적용될 수 있다. 일 실시예에 따르면, 환자에 대한 모든 피처들을 포함하는 의료 데이터로부터 선택된 피처들을 추출함으로써, 입력 데이터는 획득될 수 있다. 다른 일 실시예에 따르면, 환자로부터 기계 학습 모델의 입력으로 선택된 피처들만이 수집됨으로써, 입력 데이터는 획득될 수도 있다.At step 940, the processor may obtain a likelihood score by applying a machine learning model to the selected features. A machine learning model can be applied to input data consisting of selected features. According to one embodiment, the input data may be obtained by extracting selected features from medical data including all features for the patient. According to another embodiment, the input data may be obtained by collecting only features selected from the patient as inputs of the machine learning model.
도 10는 일 실시예에 따른 선택된 피처들을 포함하는 입력 데이터의 기계 학습 모델들의 성능을 나타낸다. 피처들이 너무 많으면 모델 성능에 부정적인 영향을 미칠 수 있다. 따라서 적절한 수의 피처를 선택하는 것이 요구될 수 있다. 10 shows the performance of machine learning models of input data including selected features according to one embodiment. Too many features can negatively affect model performance. Thus, selecting an appropriate number of features may be required.
일 실시예에 따르면, 교차 검증으로 재귀적 피처 제거(recursive feature elimination with cross-validation; RFECV)는 수행될 수 있고, RFECV의 목표는 모델 성능을 비교함으로써 최적의 피처 개수를 식별하면서 피처 중요도가 낮은 피처를 한 번에 하나씩 제거하는 것일 수 있다. RFECV는 모든 피처의 순위와 이름을 반환할 수 있다. 최종 모델인 XGB에 RFECV를 적용하여 순위가 1인 약 150개의 피처들은 식별될 수 있다. 성능 비교를 위해 동일한 파라미터를 가진 동일한 데이터 세트를 사용하여 5-폴드 교차 검증은 수행될 수 있다. According to one embodiment, recursive feature elimination with cross-validation (RFECV) may be performed, and the goal of RFECV is to identify an optimal number of features by comparing model performance while maintaining low feature importance. It may be to remove features one at a time. RFECV can return all feature ranks and names. By applying RFECV to the final model, XGB, about 150 features with a rank of 1 can be identified. For performance comparison, 5-fold cross-validation can be performed using the same data set with the same parameters.
도 10에서 비교될 실시예들은 모든 886개의 피처들에 기초한 실시예(XGB 886로 표시됨), RFECV에 의하여 선택된 150개의 피처들에 기초한 실시예(XGB RFE 150으로 표시됨), 및 RFECV에 의하여 선택된 150개로 학습된 모델의 피처 중요도 상위 50개 피처들에 기초한 실시예(XGB RFE & FI 50으로 표시됨)를 포함할 수 있다. 도 10에서 범례의 괄호 안의 숫자들은 각각의 실시예에 대한 AUROC 점수를 나타낼 수 있다.The embodiments to be compared in FIG. 10 are based on all 886 features (denoted XGB 886), based on 150 features selected by RFECV (denoted XGB RFE 150), and 150 selected by RFECV. may include an embodiment based on the top 50 features in feature importance of the trained model (denoted as XGB RFE & FI 50). In FIG. 10, numbers in parentheses in the legend may represent AUROC scores for each example.
피처들을 선택하기 위한 5-폴드 교차 검증의 AUROC 점수에 의한 평가Evaluation by AUROC score of 5-fold cross-validation to select features
피처들의 개수number of features accuracyaccuracy sensitivitysensitivity specificityspecificity PPV PPV NPVNPVs AUROCAUROC
886886
(ALL)(ALL)
0.782
(±0.004)
0.782
(±0.004)
0.716
(±0.005)
0.716
(±0.005)
0.824
(±0.005)
0.824
(±0.005)
0.71
(±0)
0.71
(±0)
0.828
(±0.004)
0.828
(±0.004)
0.865
(±0.0018)
0.865
(±0.0018)
150150
(RFE)(RFE)
0.77
(±0)
0.77
(±0)
0.696
(±0.005)
0.696
(±0.005)
0.814
(±0.005)
0.814
(±0.005)
0.694
(±0.005)
0.694
(±0.005)
0.818
(±0.004)
0.818
(±0.004)
0.853
(±0.0018)
0.853
(±0.0018)
5050
(RFE & FI)(RFEs & FIs)
0.76
(±0)
0.76
(±0)
0.67
(±0.006)
0.67
(±0.006)
0.812
(±0.004)
0.812
(±0.004)
0.682
(±0.004)
0.682
(±0.004)
0.802
(±0.004)
0.802
(±0.004)
0.840
(±0.00096)
0.840
(±0.00096)
도 10과 함께 표 3은, 전체 피처들을 사용한 모델, 150개의 피처들을 사용한 모델, 및 50개의 피처들을 사용한 모델 간의 성능 차이는 AUROC 점수 기준으로 약 1~2.5%에 불과함을 나타낼 수 있다. 일 실시예에 따라 83.1%에서 94.4%의 피처 축소를 적용하더라도 최대 성능 차이는 2.5%에 불과하다는 것이 나타날 수 있다. 각 병원의 상황이나 데이터의 특성을 고려하여 특성의 개수는 적절히 조정될 수 있다.Table 3 together with FIG. 10 may indicate that the performance difference between the model using all features, the model using 150 features, and the model using 50 features is only about 1 to 2.5% based on the AUROC score. According to an embodiment, even when feature reduction of 83.1% to 94.4% is applied, the maximum performance difference may be only 2.5%. The number of characteristics may be appropriately adjusted in consideration of the characteristics of each hospital or data.
예측 모델은 임계 점수에 따라 데이터를 0 또는 1로 분류할 수 있다. 최적 임계 점수는 민감도 및 정밀도의 합이 동시에 최대화될 수 있는 점수일 수 있다. ROC 곡선에서 TPR과 FPR은 서로 비례할 수 있으나, 민감도와 정밀도는 트레이드 오프를 가질 수 있다. FN(false negative)을 줄이면 민감도가 증가하고 FP(false positive)를 줄이면 정밀도가 높아집니다. 병원 운영의 결정 시점에서 임계 점수를 적절하게 조정하는 것이 요구될 수 있다.The predictive model can classify the data as 0 or 1 according to the critical score. An optimal threshold score may be a score at which the sum of sensitivity and precision can be simultaneously maximized. In the ROC curve, TPR and FPR may be proportional to each other, but sensitivity and precision may have a trade-off. Reducing false negatives (FN) increases sensitivity and decreasing false positives (FP) increases precision. It may be required to appropriately adjust the threshold score at the decision point of hospital operation.
참고로, 병원 상황에 따라 최적의 임계 점수는 조정될 수 있지만 임계 점수 부근의 가능성 점수로 인한 의사 결정의 모호성이 존재할 수 있다. 이러한 의사 결정의 모호성을 감소시키기 위하여 추가적인 기법을 사용할 수 있다. 예를 들어, 결과를 보다 보수적이지만 신뢰할 수 있도록 하기 위하여 가중 평균을 이용한 기법은 사용될 수 있다. 모델에서 반환된 가능성 점수(예를 들어, 확률)을 직접 사용하는 것보다 예측 시점 이전의 결과에 가중치를 부여하여 예측 시점에 과거 결과가 적어도 일부 반영되도록 하는 것이 더 유용할 수 있다. 모델과 그 내부 피처를 설명하는 것만큼이나 신뢰할 수 있는 결과를 만들어내는 것도 중요할 수 있다.For reference, the optimal threshold score may be adjusted according to the hospital situation, but ambiguity in decision making may exist due to the likelihood score near the threshold score. Additional techniques can be used to reduce the ambiguity of these decisions. For example, techniques using weighted averages can be used to make the results more conservative but reliable. Rather than directly using the likelihood scores (eg probabilities) returned by the model, it may be more useful to weight the results prior to the prediction time so that the prediction time reflects at least some of the past results. Producing reliable results can be just as important as describing the model and its internal features.
입원 기간 중 일일 퇴원 확률들 및 날짜별로 피처 영향도들은 예측에 대한 개별 설명자를 통해 제시될 수 있다.Daily discharge probabilities during the hospitalization period and feature influences by date may be presented through individual descriptors for prediction.
도 11은 일 실시예에 따른 피처 영향도를 표현하는 폭포형 차트를 나타낸다.11 shows a waterfall chart expressing feature influence according to an exemplary embodiment.
폭포형 차트(waterfall chart)를 사용하여 XGB의 예측 결과들을 해석하는 데 도움을 줄 수 있는 개별 설명자(individual explainer)는 제시될 수 있다. 폭포형 차트는 브리지 또는 캐스케이드 차트라고도 하는 막대 차트의 일종으로 인접 값들 간의 차이를 계산하는 상대 값들을 나타낼(portray) 수 있다. 최종 퇴원 확률의 점진적인 방향 및 긍정적 또는 부정적인 영향도를 나타낼 수 있다.An individual explainer can be presented that can help interpret the prediction results of XGB using a waterfall chart. A waterfall chart is a type of bar chart, also called a bridge or cascade chart, and can represent relative values that calculate the difference between adjacent values (portray). The gradual direction of the eventual discharge probability and the degree of positive or negative influence can be indicated.
개별 설명자(individual explainer)는 획득된 가능성 점수에 대하여 피처 영향도를 나타낼 수 있다. 피처 영향도는 가능성 점수에 각 피처에 의하여 유발된 점수에 대응할 수 있다. 피처 영향도는 해당 피처가 가능성 점수에 기여한 정도를 수치화한 기여도로 표현될 수 있다. 디스플레이는 가능성 점수에 대한 피처 영향도를 표시함으로써, 해당 가능성 점수를 유발하는 데 영향을 크게 미친 피처들을 확인할 수 있을 뿐만 아니라, 영향도의 크기들을 시각적으로 사용자에게 제시할 수 있다.An individual explainer may indicate a feature influence on the obtained likelihood score. The feature influence may correspond to a score evoked by each feature to a likelihood score. The feature influence may be expressed as a contribution factor that quantifies the degree of contribution of the corresponding feature to the likelihood score. By displaying the degree of influence of features on the likelihood score, the display can not only check features that have a great influence on generating the corresponding likelihood score, but also visually present magnitudes of the degree of influence to the user.
일 실시예에 따르면, 개별 설명자의 값들을 추정하기 위해, 트레이닝된 XGB로 원하는 기록들은 예측되고 모든 피처들의 기여도들은 획득될 수 있다. 예를 들어, 기여도는 각 피처가 모든 트리에 기여한 점수를 집계(aggregate)함으로써 얻은 피처 영향도를 나타낼 수 있다. 후속으로, 피처 영향도의 로지스틱 값(
Figure PCTKR2022016885-appb-img-000001
) 및 설명자를 위하여 요구되는 상대적인 값들은 계산될 수 있다.
According to one embodiment, with a trained XGB, desired records are predicted and contributions of all features can be obtained, in order to estimate the values of individual descriptors. For example, the contribution may represent a feature influence obtained by aggregating the scores each feature contributed to all trees. Subsequently, the logistic value of the feature influence (
Figure PCTKR2022016885-appb-img-000001
) and relative values required for descriptors can be calculated.
프로세서는 피처 영향도에 기초하여 복수의 피처들 중 하나 이상의 피처들을 선택할 수 있다. 프로세서는 피처들을 피처 영향도에 따라 내림차순으로 정렬하고, 미리 정의된 개수에 대응하는 상위에 정렬된 피처들을 선택할 수 있다. 선택된 피처들은 디스플레이에 의하여 표시될 수 있다. 예를 들어, 표시될 피처들의 개수는 15개로 선택될 수 있고, 나머지 871개의 피처는 모두 통합되어 설명자에서 "기타"로 동시에 표시될 수 있다.The processor may select one or more features of the plurality of features based on the feature influence. The processor may sort the features in descending order according to the degree of influence of the feature, and may select features sorted at higher ranks corresponding to a predefined number. Selected features may be indicated by the display. For example, the number of features to be displayed may be selected as 15, and the remaining 871 features may be integrated and simultaneously indicated as “Other” in the descriptor.
도 11에서 플롯의 x축은 0부터 1까지의 점수이며, y축은 기여도와 예측 시점(예를 들어, 제1 시점)에서의 가능성 점수(예를 들어, 제1 가능성 점수)에 영향을 미친 값을 나타낼 수 있다. y축 하단의 일반 대각선 해칭 상자의 인터셉트(intercept)은 각 참 값 레이블의 수가 불균형한 것을 반영하는 수정된 값일 수 있다. y축 상단의 회색 상자인 퇴원 확률은 가능성 점수를 나타낼 수 있다. 피처에 대응하는 각 상자의 너비는 각 점수의 절대값을 나타낼 수 있다. 실제 점수는 플롯의 오른쪽에 표시될 수 있다. 절대값은 아래에서 위로 감소할 수 있고, 퇴원 확률에 대한 기여도 또한 감소하는 것을 나타낼 수 있다. 참고로, “기타(Others)”의 상자는 그 아래의 피처들을 제외한 약 800개 피처들의 점수의 합이기 때문에 상대적으로 넓을 수 있다. 도트 표시된 상자는 퇴원 확률에 양성적으로(positively) 기여한 피처의 각 점수를 낼 수 있다. 도트 표시된 상자에 의하여 그래프에서 점수는 오른쪽으로 이동될 수 있다. 반대로, 대각선 해칭된 상자는 음성적으로(negatively) 기여하는 피처의 점수를 나타내며 그래프에서 점수는 왼쪽으로 이동될 수 있다.In FIG. 11, the x-axis of the plot is the score from 0 to 1, and the y-axis is the contribution and the value that affects the likelihood score (eg, the first likelihood score) at the prediction time (eg, the first time point) can indicate The intercept of the regular diagonally hatched boxes at the bottom of the y-axis can be corrected to reflect the disproportionate number of true value labels in each. The probability of discharge, the gray box at the top of the y-axis, can represent a likelihood score. The width of each box corresponding to a feature may represent the absolute value of each score. The actual score may be displayed on the right side of the plot. The absolute value may decrease from bottom to top, indicating that the contribution to discharge probability also decreases. For reference, the box of “Others” can be relatively wide because it is the sum of the scores of about 800 features excluding the features below it. A dotted box can score each of the features that contributed positively to the discharge probability. Scores can be shifted to the right in the graph by the dotted boxes. Conversely, diagonally hatched boxes represent scores of negatively contributing features and scores can be shifted to the left in the graph.
요약하자면, 아래쪽에서 위쪽으로 y축에 예측에 기여한 피처가 있고, 오른쪽의 도트 상자는 양성(positive)이고 왼쪽의 대각선 해칭 상자는 음성(negative)를 나타낼 수 있다.To recap, there are features contributing to the prediction on the y-axis from bottom to top, the dotted box on the right can be positive and the diagonally hatched box on the left can represent negative.
그래프(1110)은 7일(Date: 7)에 획득된 0.004의 가능성 점수에 대한 피처 영향도를 나타내고, 그래프(1120)은 12일(Date: 12)에 획득된 0.811의 가능성 점수에 대한 피처 영향도를 나타낼 수 있다. 그래프(1110)에서 (D)동맥 모니터링 = 1(ARTERIAL MONITORING = 1.0) 및 (D)주입 펌프 = 3(INFUSION PUMP = 3.0)는 가능성 점수에 음성적인 영향을 미칠 수 있다. 이와 달리, 그래프(1120)에서 (D)주입 펌프 = 0(Infusion Pump = 0)은 퇴원 확률에 양성적인 영향을 미칠 수 있다. 동맥 모니터링 및 주입 펌프는 주로 위독한 환자에게 처방되기 때문에 둘 다 데이터 세트에서 대부분 0으로 구성될 수 있다. 피처와 함께 해당 피처의 값을 표시하면 의료진이 플롯을 직관적으로 해석하는 데 도움이 될 수 있다. Graph 1110 shows feature influence for a likelihood score of 0.004 obtained on day 7 (Date: 7), and graph 1120 shows feature influence for a likelihood score of 0.811 obtained on day 12 (Date: 12). figure can be shown. In graph 1110, (D) ARTERIAL MONITORING = 1 (ARTERIAL MONITORING = 1.0) and (D) INFUSION PUMP = 3.0 may negatively affect the likelihood score. In contrast, (D) Infusion Pump = 0 in graph 1120 may have a positive effect on discharge probability. Because arterial monitoring and infusion pumps are primarily prescribed for critically ill patients, both can constitute mostly zeros in the data set. Displaying features along with their values can help clinicians interpret plots intuitively.
개별 설명자는 피처 중요도 플롯(도 9에서 설명됨)에 나타난 피처를 가질 수도 있고 없을 수도 있다. 전체적인 모델에 대한 피처 중요도의 특징만을 관리하는 것보다 개별 환자에게 기여한 피처를 식별하는 것이 필요함을 시사할 수 있다.Individual descriptors may or may not have features represented in the feature importance plot (illustrated in Figure 9). This may suggest the need to identify features contributing to individual patients rather than managing only features of feature importance to the overall model.
도 12은 일 실시예에 따른 환자의 입원 기간 중 복수의 시점들에 예측된 가능성 점수들을 나타낸다.12 shows predicted likelihood scores at multiple time points during a patient's hospital stay, according to one embodiment.
디스플레이는 입원 중인 환자에 대하여 예측된 복수의 가능성 점수들을 시간에 따라 표시할 수 있다. 복수의 가능성 점수들은 서로 다른 시점에서 예측된 가능성 점수로서, 시간에 따라 표시됨으로써 환자의 퇴원 가능성이 변화하는 것을 나타낼 수 있다.The display may display over time a plurality of predicted likelihood scores for an inpatient. The plurality of probability scores are predicted probability scores at different points in time, and may represent changes in the probability of discharge of the patient by being displayed according to time.
예를 들어, 도 12에 나타난 바와 같이, 샘플 데이터 세트는 PAID가 228,443이고 INNO가 2이고 13일 동안 입원하고 14일에 퇴원한 환자의 기록일 수 있다. 환자의 가능성 점수의 플롯은 도 12에 나타날 수 있다. 플롯의 x축은 퇴원일(14일로 표시됨)을 제외한 환자의 입원 기간의 날짜를 나타내고, y축은 가능성 점수(예를 들어, 퇴원 확률)를 나타낼 수 있다. 모델의 최적 임계 점수는 수평 점선으로 표시된 0.39일 수 있다. 원과 삼각형은 각각 참 값 레이블(true lable) 1 및 0을 나타낼 수 있고, 원과 삼각형의 크기는 가능성 점수에 비례할 수 있다. 그림의 무늬는 모델에 의해 예측된 결과를 나타낼 수 있다. 도트는 양성 예측(예를 들어, 레이블 1; 퇴원으로 예측됨) 및 대각선 해칭은 음성 예측(예를 들어, 레이블 0; 입원으로 예측됨)을 나타낼 수 있다.For example, as shown in FIG. 12 , the sample data set may be a record of a patient with a PAID of 228,443 and an INNO of 2 who was hospitalized for 13 days and discharged on the 14th. A plot of the patient's likelihood score may appear in FIG. 12 . The x-axis of the plot may represent the days of the patient's hospital stay excluding the day of discharge (labeled as 14 days), and the y-axis may represent the likelihood score (eg, discharge probability). The model's optimal critical score may be 0.39, indicated by the horizontal dotted line. Circles and triangles can represent the true labels 1 and 0, respectively, and the size of the circle and triangle can be proportional to the likelihood score. Patterns in the picture may represent the results predicted by the model. Dots can represent positive predictions (eg label 1; predicted discharge) and diagonal hatching represent negative predictions (eg label 0; predicted hospitalization).
도 12에서의 샘플의 경우, 모델은 3일 이내에 퇴원을 정확하게 예측할 수 있다. 그러나 임계 점수를 조정하면 11일과 12일의 예측 결과가 변경될 수 있다. 예를 들어, 임계 점수가 증가하면 레이블 1은 12일 및 13일에만 해당될 수 있다. FN(false negative)이 증가하는 것에도 불구하고 FP(false positive)를 감소시키려고 할 때 임계 점수를 증가시키는 것이 유용할 수 있다.For the sample in Figure 12, the model can accurately predict discharge within 3 days. However, adjusting the threshold score may change the prediction results for days 11 and 12. For example, if the threshold score increases, label 1 may only correspond to days 12 and 13. Increasing the threshold score can be useful when trying to decrease false positives (FPs) despite increasing false negatives (FNs).
도 13는 일 실시예에 따른 예측 모델과 개별 설명자가 적용된 병상 관리에 대한 시뮬레이션된 임팩트를 나타낸다. 각 병동별로 모든 환자의 퇴원 확률을 매일 인식할 수 있고, 퇴원할 가능성 점수에 영향을 미치는 가장 중요한 피처 및 피처의 값을 한 번에 파악할 수 있다. 개별 설명자는 퇴원뿐만 아니라 장기 퇴원에 대한 추론을 함축하고 있기 때문에, 높은 퇴원 확률 및 낮은 퇴원 확률 모두를 해석하는 데 유용할 수 있다. 유사하게, 가까운 장래에 병상 수용력(capacity)과 같은 각 환자의 예상 퇴원 날짜를 기반으로 정보를 얻을 수 있다. 병원의 인적, 물적 자원을 효율적으로 활용하기 위해서는 미래의 병상 정보가 병상 관리 및 입원 예약 개선을 통해 병원 비용을 줄이는 데 도움이 될 수 있다.13 shows a simulated impact on bed management to which a predictive model and individual descriptors are applied according to an embodiment. The discharge probabilities of all patients in each ward can be recognized every day, and the most important features and feature values that affect the discharge probability score can be identified at once. Because individual descriptors imply inferences about long-term discharge as well as discharge, they can be useful in interpreting both high and low discharge probabilities. Similarly, information can be obtained based on each patient's expected discharge date, such as bed capacity in the near future. In order to efficiently utilize hospital human and material resources, future bed information can help reduce hospital costs through improved bed management and hospitalization appointments.
병원 프로세스를 활용해야 하는 병상 관리와 환자 맞춤형 치료를 위한 바이오마커 검출에 대한 연구가 활발히 진행될 수 있다. 본 발명은 더 나은 병상 관리를 위해 퇴원일을 식별하고 퇴원 및 CVD와 관련된 위험 요소를 식별하기 위해 ML 기반 예측 모델을 제안할 수 있다. 다만, 병원마다 환경변수가 다르기 때문에 이를 종합적으로 고려할 수 있는 알고리즘은 요구될 수 있다. 본 발명은 알고리즘을 개선하고 의료 서비스를 지원하는 데 기여할 수 있다. 아래에서 예측 모델의 기대치를 설명한다.Research on biomarker detection for bed management and patient-specific treatment that requires hospital processes to be utilized can be actively conducted. The present invention can propose an ML-based predictive model to identify discharge date and risk factors related to discharge and CVD for better bed management. However, since environmental variables are different for each hospital, an algorithm that can comprehensively consider them may be required. The present invention can contribute to improving algorithms and supporting medical services. Below we describe the expectations of the predictive model.
본 발명에 따른 모델은 병동 수준에서 병원 수준의 병상 관리로 확장될 수 있다. 본 발명은 의료진의 노동집약적 업무와 환자의 대기시간을 줄이는 데 기여할 수 있다. The model according to the present invention can be extended from ward level to hospital level bed management. The present invention can contribute to reducing labor-intensive work of medical staff and waiting time of patients.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The embodiments described above may be implemented as hardware components, software components, and/or a combination of hardware components and software components. For example, the devices, methods and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate (FPGA). array), programmable logic units (PLUs), microprocessors, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of software. For convenience of understanding, there are cases in which one processing device is used, but those skilled in the art will understand that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include. For example, a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. You can command the device. Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed on networked computer systems and stored or executed in a distributed manner. Software and data may be stored on computer readable media.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination, and the program instructions recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in the art of computer software. may be Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler.
위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The hardware device described above may be configured to operate as one or a plurality of software modules to perform the operations of the embodiments, and vice versa.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited drawings, those skilled in the art can apply various technical modifications and variations based on this. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims are within the scope of the following claims.

Claims (23)

  1. 환자의 퇴원 예측을 위한 장치에 있어서,In the device for predicting the patient's discharge,
    제1 시점에 입원 중인 환자에 대하여, 상기 환자의 입원 기간 중 입원 날짜로부터 상기 제1 시점까지 수집된 의료 데이터를 포함하는 입력 데이터에 기계 학습 모델을 적용함으로써 상기 환자가 상기 제1 시점으로부터 대상 기간 내에 퇴원할 제1 가능성 점수를 획득하고, 상기 획득된 제1 가능성 점수에 기초하여 상기 환자가 상기 제1 시점으로부터 상기 대상 기간 내에 퇴원할지 여부를 예측하는 프로세서;For a patient who is hospitalized at the first time point, by applying a machine learning model to input data including medical data collected from the hospitalization date to the first time point during the hospitalization period of the patient, the patient is selected from the first time point to the target period. a processor for acquiring a first likelihood score of being discharged within the target period, and predicting whether the patient will be discharged from the hospital within the subject period from the first time point based on the obtained first likelihood score;
    를 포함하는 환자의 퇴원 예측을 위한 장치.Apparatus for predicting discharge of a patient comprising a.
  2. 제1항에 있어서,According to claim 1,
    상기 프로세서는,the processor,
    상기 환자에 대하여 상기 입원 날짜로부터 상기 제1 시점까지 수집된 수술(operation), 처치(procedure), 의료영상저장전송시스템(Picture Archiving and Communication System; PACS), 진단(diagnosis), 복약(medication), 검사(laboratory), 및 신체(physical) 중 하나 또는 둘 이상의 조합에 관한 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는,Operation, procedure, Picture Archiving and Communication System (PACS), diagnosis, medication collected for the patient from the hospitalization date to the first time point, Obtaining the first likelihood score by applying the machine learning model to input data including medical data relating to one or a combination of two or more of laboratory and physical.
    환자의 퇴원 예측을 위한 장치.A device for predicting a patient's discharge.
  3. 제1항에 있어서,According to claim 1,
    상기 프로세서는,the processor,
    상기 제1 시점 이후의 제2 시점에 상기 환자가 입원 중인 경우에 응답하여, 상기 제1 시점으로부터 상기 제2 시점까지 수집된 의료 데이터에 기초하여 상기 입원 기간 중 수집된 의료 데이터를 업데이트하고,In response to a case where the patient is hospitalized at a second time point after the first time point, medical data collected during the hospitalization period is updated based on medical data collected from the first time point to the second time point;
    상기 업데이트된 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 환자가 상기 제2 시점으로부터 대상 기간 내에 퇴원할 제2 가능성 점수를 획득하며,obtaining a second probability score that the patient will be discharged from the hospital within a target period from the second time point by applying the machine learning model to input data including the updated medical data;
    상기 획득된 제2 가능성 점수에 기초하여, 상기 환자가 상기 제2 시점으로부터 상기 대상 기간 내에 퇴원할지 여부를 예측하는,predicting whether the patient will be discharged from the hospital within the subject period from the second time point based on the obtained second likelihood score;
    환자의 퇴원 예측을 위한 장치.A device for predicting a patient's discharge.
  4. 제1항에 있어서,According to claim 1,
    상기 프로세서는,the processor,
    상기 입원 기간 중 수집된 의료 데이터와 함께 상기 입원 기간 이전의 미리 정의된 기간 동안 수집된 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는,Obtaining the first likelihood score by applying the machine learning model to input data including medical data collected during a predefined period before the hospitalization period together with medical data collected during the hospitalization period,
    환자의 퇴원 예측을 위한 장치.A device for predicting a patient's discharge.
  5. 제1항에 있어서,According to claim 1,
    상기 프로세서는,the processor,
    상기 입원 기간 중 수집된 의료 데이터와 함께 상기 환자에 대하여 상기 입원 기간 이전의 미리 정의된 기간 동안 수집된 진단(diagnosis), 복약(Medication), 검사(Laboratory), 신체(Physical), 및 중환자실(intensive care unit; ICU)의 체류 기간(length of stay; LOS) 중 하나 또는 둘 이상의 조합에 관한 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는,Diagnosis, Medication, Laboratory, Physical, and ICU collected during a predefined period prior to the hospitalization period for the patient together with medical data collected during the hospitalization period ( Obtaining the first likelihood score by applying the machine learning model to input data including medical data related to one or a combination of two or more of a length of stay (LOS) of an intensive care unit (ICU),
    환자의 퇴원 예측을 위한 장치.A device for predicting a patient's discharge.
  6. 제1항에 있어서,According to claim 1,
    상기 프로세서는,the processor,
    수집된 데이터의 모든 피처들(features)에 기초하여 트레이닝된 임시 기계 학습 모델에 대한 각 피처의 피처 중요도(feature importance)에 기초하여, 상기 수집된 데이터의 피처들 중 하나 이상의 피처들을 상기 기계 학습 모델의 상기 입력 데이터의 피처로 선택하고,Based on the feature importance of each feature to an ad hoc machine learning model trained based on all features of the collected data, one or more features of the features of the collected data are assigned to the machine learning model. select as a feature of the input data of
    상기 기계 학습 모델을 상기 선택된 피처들에 기초하여 트레이닝시키며,train the machine learning model based on the selected features;
    상기 선택된 피처들을 포함하는 상기 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는,obtaining the first likelihood score by applying the machine learning model to the input data including the selected features;
    환자의 퇴원 예측을 위한 장치.A device for predicting a patient's discharge.
  7. 제1항에 있어서,According to claim 1,
    상기 프로세서는,the processor,
    교차 검증에 따른 재귀적 피처 제거(Recursive feature elimination with cross validation; RFECV) 기법을 상기 입력 데이터의 피처들에 적용함으로써 하나 이상의 피처들을 상기 기계 학습 모델의 입력으로 선택하는,Selecting one or more features as an input of the machine learning model by applying a recursive feature elimination with cross validation (RFECV) technique to the features of the input data,
    환자의 퇴원 예측을 위한 장치.A device for predicting a patient's discharge.
  8. 제1항에 있어서,According to claim 1,
    상기 프로세서는,the processor,
    상기 입력 데이터에 XGB(extreme gradient boost) 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는,Obtaining the first likelihood score by applying an extreme gradient boost (XGB) model to the input data,
    환자의 퇴원 예측을 위한 장치.A device for predicting a patient's discharge.
  9. 제1항에 있어서,According to claim 1,
    상기 프로세서는,the processor,
    상기 획득된 제1 가능성 점수에 대하여 상기 입력 데이터의 각 피처에 의하여 유발된 점수에 대응하는 피처 영향도(feature influence)에 기초하여 상기 피처들 중 하나 이상의 피처들을 선택하는,selecting one or more of the features based on a feature influence corresponding to a score caused by each feature of the input data for the obtained first likelihood score;
    환자의 퇴원 예측을 위한 장치.A device for predicting a patient's discharge.
  10. 제9항에 있어서,According to claim 9,
    상기 획득된 제1 가능성 점수에 대하여, 상기 선택된 하나 이상의 피처들의 상기 피처 영향도를 표시하는 디스플레이Display for displaying the feature influence of the selected one or more features with respect to the obtained first likelihood score
    를 더 포함하는 환자의 퇴원 예측을 위한 장치.Apparatus for predicting the patient's discharge further comprising a.
  11. 제1항에 있어서,According to claim 1,
    상기 입원 기간 중의 복수의 시점들에 대한 가능성 점수들을 표시하는 디스플레이A display showing likelihood scores for a plurality of time points during the hospitalization period.
    를 더 포함하는 환자의 퇴원 예측을 위한 장치.Apparatus for predicting the patient's discharge further comprising a.
  12. 환자의 퇴원 예측을 위한 방법에 있어서,In a method for predicting discharge of a patient,
    제1 시점에 입원 중인 환자에 대하여, 상기 환자의 입원 기간 중 입원 날짜로부터 상기 제1 시점까지 수집된 의료 데이터를 포함하는 입력 데이터에 기계 학습 모델을 적용함으로써 상기 환자가 상기 제1 시점으로부터 대상 기간 내에 퇴원할 제1 가능성 점수를 획득하는 단계; 및For a patient who is hospitalized at the first time point, by applying a machine learning model to input data including medical data collected from the hospitalization date to the first time point during the hospitalization period of the patient, the patient is selected from the first time point to the target period. obtaining a first likelihood score to be discharged within and
    상기 획득된 제1 가능성 점수에 기초하여 상기 환자가 상기 제1 시점으로부터 상기 대상 기간 내에 퇴원할지 여부를 예측하는 단계predicting whether the patient will be discharged from the hospital within the subject period from the first time point based on the obtained first likelihood score;
    를 포함하는 환자의 퇴원 예측을 위한 방법.A method for predicting a patient's discharge comprising a.
  13. 제12항에 있어서,According to claim 12,
    상기 제1 가능성 점수를 획득하는 단계는,The step of obtaining the first possibility score,
    상기 환자에 대하여 상기 입원 날짜로부터 상기 제1 시점까지 수집된 수술(operation), 처치(procedure), 의료영상저장전송시스템(Picture Archiving and Communication System; PACS), 진단(diagnosis), 복약(medication), 검사(laboratory), 및 신체(physical) 중 하나 또는 둘 이상의 조합에 관한 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는 단계를 포함하는,Operation, procedure, Picture Archiving and Communication System (PACS), diagnosis, medication collected for the patient from the hospitalization date to the first time point, Obtaining the first likelihood score by applying the machine learning model to input data including medical data relating to one or a combination of two or more of laboratory and physical,
    환자의 퇴원 예측을 위한 방법.A method for predicting a patient's discharge.
  14. 제12항에 있어서,According to claim 12,
    상기 제1 시점 이후의 제2 시점에 상기 환자가 입원 중인 경우에 응답하여, 상기 제1 시점으로부터 상기 제2 시점까지 수집된 의료 데이터에 기초하여 상기 입원 기간 중 수집된 의료 데이터를 업데이트하는 단계;updating medical data collected during the hospitalization period based on medical data collected from the first time point to the second time point in response to a case where the patient is hospitalized at a second time point after the first time point;
    상기 업데이트된 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 환자가 상기 제2 시점으로부터 대상 기간 내에 퇴원할 제2 가능성 점수를 획득하는 단계; 및obtaining a second probability score that the patient will be discharged from the hospital within a target period from the second point in time by applying the machine learning model to input data including the updated medical data; and
    상기 획득된 제2 가능성 점수에 기초하여, 상기 환자가 상기 제2 시점으로부터 상기 대상 기간 내에 퇴원할지 여부를 예측하는 단계predicting whether the patient will be discharged from the hospital within the subject period from the second time point, based on the obtained second likelihood score;
    를 더 포함하는 환자의 퇴원 예측을 위한 방법.A method for predicting a patient's discharge further comprising a.
  15. 제12항에 있어서,According to claim 12,
    상기 제1 가능성 점수를 획득하는 단계는,The step of obtaining the first possibility score,
    상기 입원 기간 중 수집된 의료 데이터와 함께 상기 입원 기간 이전의 미리 정의된 기간 동안 수집된 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는 단계를 포함하는,Obtaining the first likelihood score by applying the machine learning model to input data including medical data collected during the hospitalization period and medical data collected during a predefined period before the hospitalization period,
    환자의 퇴원 예측을 위한 방법.A method for predicting a patient's discharge.
  16. 제12항에 있어서,According to claim 12,
    상기 제1 가능성 점수를 획득하는 단계는,The step of obtaining the first possibility score,
    상기 입원 기간 중 수집된 의료 데이터와 함께 상기 환자에 대하여 상기 입원 기간 이전의 미리 정의된 기간 동안 수집된 진단(diagnosis), 복약(Medication), 검사(Laboratory), 신체(Physical), 및 중환자실(intensive care unit; ICU)의 체류 기간(length of stay; LOS) 중 하나 또는 둘 이상의 조합에 관한 의료 데이터를 포함하는 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는 단계를 포함하는,Diagnosis, Medication, Laboratory, Physical, and ICU collected during a predefined period prior to the hospitalization period for the patient together with medical data collected during the hospitalization period ( obtaining the first likelihood score by applying the machine learning model to input data including medical data related to one or a combination of two or more of length of stay (LOS) of an intensive care unit (ICU); doing,
    환자의 퇴원 예측을 위한 방법.A method for predicting a patient's discharge.
  17. 제12항에 있어서,According to claim 12,
    수집된 데이터의 모든 피처들(features)에 기초하여 트레이닝된 임시 기계 학습 모델에 대한 각 피처의 피처 중요도(feature importance)에 기초하여, 상기 수집된 데이터의 피처들 중 하나 이상의 피처들을 상기 기계 학습 모델의 상기 입력 데이터의 피처로 선택하는 단계; 및Based on the feature importance of each feature to an ad hoc machine learning model trained based on all features of the collected data, one or more features of the features of the collected data are assigned to the machine learning model. selecting as a feature of the input data of ; and
    상기 기계 학습 모델을 상기 선택된 피처들에 기초하여 트레이닝시키는 단계training the machine learning model based on the selected features.
    를 더 포함하고,Including more,
    상기 제1 가능성 점수를 획득하는 단계는,The step of obtaining the first possibility score,
    상기 선택된 피처들을 포함하는 상기 입력 데이터에 상기 기계 학습 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는 단계를 포함하는,obtaining the first likelihood score by applying the machine learning model to the input data including the selected features.
    환자의 퇴원 예측을 위한 방법.A method for predicting a patient's discharge.
  18. 제17항에 있어서,According to claim 17,
    상기 하나 이상의 피처들을 상기 기계 학습 모델의 입력의 피처로 선택하는 단계는,Selecting the one or more features as features of the input of the machine learning model comprises:
    교차 검증에 따른 재귀적 피처 제거(Recursive feature elimination and cross validation; RFECV) 기법을 상기 입력 데이터의 피처들에 적용함으로써 하나 이상의 피처들을 상기 기계 학습 모델의 입력으로 선택하는 단계를 포함하는,Selecting one or more features as an input of the machine learning model by applying a recursive feature elimination and cross validation (RFECV) technique to the features of the input data,
    환자의 퇴원 예측을 위한 방법.A method for predicting a patient's discharge.
  19. 제12항에 있어서,According to claim 12,
    상기 제1 가능성 점수를 획득하는 단계는,The step of obtaining the first possibility score,
    상기 입력 데이터에 XG부스트(extreme gradient boost; XGboost) 모델을 적용함으로써 상기 제1 가능성 점수를 획득하는 단계를 포함하는,Acquiring the first likelihood score by applying an extreme gradient boost (XGboost) model to the input data.
    환자의 퇴원 예측을 위한 방법.A method for predicting a patient's discharge.
  20. 제12항에 있어서,According to claim 12,
    상기 획득된 제1 가능성 점수에 대하여 상기 입력 데이터의 각 피처에 의하여 유발된 점수에 대응하는 피처 영향도(feature influence)에 기초하여 상기 피처들 중 하나 이상의 피처들을 선택하는 단계selecting one or more of the features based on a feature influence corresponding to a score caused by each feature of the input data with respect to the obtained first likelihood score;
    를 더 포함하는 환자의 퇴원 예측을 위한 방법.A method for predicting a patient's discharge further comprising a.
  21. 제20항에 있어서,According to claim 20,
    상기 획득된 제1 가능성 점수에 대하여, 상기 선택된 하나 이상의 피처들의 상기 피처 영향도를 표시하는 단계displaying the feature influence of the selected one or more features with respect to the obtained first likelihood score;
    를 더 포함하는 환자의 퇴원 예측을 위한 방법.A method for predicting a patient's discharge further comprising a.
  22. 제15항에 있어서,According to claim 15,
    상기 입원 기간 중의 복수의 시점들에 대한 가능성 점수들을 표시하는 단계Displaying likelihood scores for a plurality of time points during the hospitalization period.
    를 더 포함하는 환자의 퇴원 예측을 위한 방법.A method for predicting a patient's discharge further comprising a.
  23. 하드웨어와 결합되어 제12항 내지 제22항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.A computer program stored in a computer readable recording medium in order to execute the method of any one of claims 12 to 22 in combination with hardware.
PCT/KR2022/016885 2021-11-11 2022-11-01 Device and method for predicting discharge of inpatient WO2023085674A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0154810 2021-11-11
KR1020210154810A KR20230068717A (en) 2021-11-11 2021-11-11 Apparatus and method for predicting discharge of inpatients

Publications (1)

Publication Number Publication Date
WO2023085674A1 true WO2023085674A1 (en) 2023-05-19

Family

ID=86336410

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/016885 WO2023085674A1 (en) 2021-11-11 2022-11-01 Device and method for predicting discharge of inpatient

Country Status (2)

Country Link
KR (1) KR20230068717A (en)
WO (1) WO2023085674A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5998742B2 (en) * 2012-08-21 2016-09-28 富士通株式会社 Bed management support program, bed management support method, and bed management support apparatus
KR20180003345A (en) * 2016-06-30 2018-01-09 삼성에스디에스 주식회사 Apparatus and method for providing information of medical cost and lengh of stay of patient
US20210005321A1 (en) * 2019-07-03 2021-01-07 DePuy Synthes Products, Inc. System and method for predicting patient risk outcomes
WO2021028961A1 (en) * 2019-08-09 2021-02-18 日本電気株式会社 Condition predicting device, condition predicting method, computer program, and recording medium
KR20210113042A (en) * 2020-03-05 2021-09-15 가톨릭대학교 산학협력단 Device, method and program for predict hospital stay period based on patient information

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5998742B2 (en) * 2012-08-21 2016-09-28 富士通株式会社 Bed management support program, bed management support method, and bed management support apparatus
KR20180003345A (en) * 2016-06-30 2018-01-09 삼성에스디에스 주식회사 Apparatus and method for providing information of medical cost and lengh of stay of patient
US20210005321A1 (en) * 2019-07-03 2021-01-07 DePuy Synthes Products, Inc. System and method for predicting patient risk outcomes
WO2021028961A1 (en) * 2019-08-09 2021-02-18 日本電気株式会社 Condition predicting device, condition predicting method, computer program, and recording medium
KR20210113042A (en) * 2020-03-05 2021-09-15 가톨릭대학교 산학협력단 Device, method and program for predict hospital stay period based on patient information

Also Published As

Publication number Publication date
KR20230068717A (en) 2023-05-18

Similar Documents

Publication Publication Date Title
US11600390B2 (en) Machine learning clinical decision support system for risk categorization
Ge et al. An Interpretable ICU Mortality Prediction Model Based on Logistic Regression and Recurrent Neural Networks with LSTM units.
US11923056B1 (en) Discovering context-specific complexity and utilization sequences
US11631497B2 (en) Personalized device recommendations for proactive health monitoring and management
US20220122253A1 (en) Information processing device, program, trained model, diagnostic support device, learning device, and prediction model generation method
Hosseinzadeh et al. Assessing the predictability of hospital readmission using machine learning
US20040242972A1 (en) Method, system and computer product for prognosis of a medical disorder
JP2006500075A (en) Patient data mining for lung cancer discrimination
CN108648827A (en) Cardiovascular and cerebrovascular disease Risk Forecast Method and device
US20170199965A1 (en) Medical system and method for predicting future outcomes of patient care
US20130231953A1 (en) Method, system and computer program product for aggregating population data
Wang et al. Predictive classification of ICU readmission using weight decay random forest
CN112908452A (en) Event data modeling
Kamio et al. Use of machine-learning approaches to predict clinical deterioration in critically ill patients: a systematic review
Ma et al. Using the shapes of clinical data trajectories to predict mortality in ICUs
Gorgulu et al. Use of fuzzy logic based decision support systems in medicine
CN117497149A (en) Hospital management method and system based on artificial intelligence
Thilakarathne et al. Artificial Intelligence-Enabled IoT for Health and Wellbeing Monitoring
Ahn et al. Machine learning–based hospital discharge prediction for patients with cardiovascular diseases: Development and usability study
Ghanvatkar et al. Deep recurrent neural networks for mortality prediction in intensive care using clinical time series at multiple resolutions
CN114141349A (en) Intelligent allocation method and system for ICU nursing personnel
WO2023085674A1 (en) Device and method for predicting discharge of inpatient
Cheng et al. Classification models for pulmonary function using motion analysis from phone sensors
Higgins et al. Benchmarking inpatient mortality using electronic medical record data: a retrospective, multicenter analytical observational study
US20210271924A1 (en) Analyzer, analysis method, and analysis program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22893096

Country of ref document: EP

Kind code of ref document: A1