WO2019182297A1 - 임상실험 결과 예측 장치 및 방법 - Google Patents

임상실험 결과 예측 장치 및 방법 Download PDF

Info

Publication number
WO2019182297A1
WO2019182297A1 PCT/KR2019/003061 KR2019003061W WO2019182297A1 WO 2019182297 A1 WO2019182297 A1 WO 2019182297A1 KR 2019003061 W KR2019003061 W KR 2019003061W WO 2019182297 A1 WO2019182297 A1 WO 2019182297A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
clinical trial
algorithm
prediction
results
Prior art date
Application number
PCT/KR2019/003061
Other languages
English (en)
French (fr)
Inventor
김기동
오봉근
김경훈
유형균
기유프레드릭
Original Assignee
딜로이트컨설팅유한회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 딜로이트컨설팅유한회사 filed Critical 딜로이트컨설팅유한회사
Publication of WO2019182297A1 publication Critical patent/WO2019182297A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Definitions

  • the present invention relates to a clinical trial result prediction apparatus and method for predicting the probability of success of a clinical trial for a new treatment using a machine learning algorithm.
  • Clinical trials are trials conducted in humans to verify the safety and efficacy of new treatments, such as drugs, new procedures, and medical devices.
  • safety and tolerability are reviewed in a small number of healthy people.
  • phase 2 clinical trials a small number of patients are explored for the appropriate dose, usage, safety, and efficacy of drugs.
  • safety and efficacy are examined in a large number of patients.
  • the present invention is to provide a clinical trial results prediction apparatus and method for predicting the probability of success of a clinical trial for a new treatment using a machine learning algorithm.
  • the input unit for inputting the clinical trial-related information, and processing the clinical trial case data to generate the learning data, using the learning data includes a processing unit for predicting the clinical trial results according to the clinical trial-related information.
  • the processing unit may include a learning module for generating the prediction model by performing machine learning to determine the success rate for each clinical trial through the learning data, and a prediction module for predicting the clinical trial success rate using the prediction model.
  • the learning module may perform the machine learning using a plurality of first learning algorithms and one second learning algorithm.
  • the learning module is further configured to perform a first learning step in which each of the plurality of first learning algorithms learns a relationship between a clinical trial condition and a clinical trial result of the data set for the first learning stage extracted from the learning data. It features.
  • the learning module may be configured to perform a clinical experiment of the data set for the second learning step and the results predicted by the plurality of first learning algorithms learned through the clinical experiment condition for the second learning step extracted from the learning data. In consideration of the result, a second learning step of learning the second learning algorithm for determining the most predictive algorithm among the plurality of first learning algorithms may be performed.
  • the learning module may include a clinical trial result predicted through the test data set extracted by the plurality of first learning algorithms and the second learning algorithm from the learning data through the first learning step and the second learning step.
  • the learning module may perform the first learning step, the second learning step, and the test and optimization steps repeatedly until the performance index of the prediction model reaches a target performance index.
  • the learning module may calculate the prediction accuracy and the prediction precision of the prediction model using the performance index of the prediction model.
  • the plurality of first learning algorithms may include a K-Nearest Neighbor algorithm, a gradient boosting machine algorithm, a neural network algorithm, a random forest algorithm, and extra trees. ), And a logistic regression algorithm.
  • the second learning algorithm is characterized by being implemented by a logistic regression algorithm.
  • the clinical trial results prediction method comprises the steps of generating a prediction model for predicting the clinical trial results by performing machine learning through the clinical trial case data, after generating the prediction model, the user terminal Receiving the clinical trial-related information from, and Predicting the clinical trial results according to the clinical trial-related information by using the prediction model.
  • the generating of the predictive model may include: first learning which causes each of the plurality of first learning algorithms to learn a relationship between a clinical trial condition and a clinical trial result in a dataset for a first learning stage extracted from the clinical trial case data; Steps, the results of the first learning the first learning algorithms predicted through the clinical trial conditions for the second learning step extracted from the clinical trial case data and the results of the clinical experiment of the second learning step dataset Considering the second learning algorithm for learning the second learning algorithm for determining the most predictive algorithm of the plurality of first learning algorithm, and the plurality of the plurality of the first learning step and the second learning step The first learning algorithms and the second learning algorithm predicted through the test data set extracted from the clinical trial case data.
  • the clinical trial result prediction method is characterized in that the first learning step, the second learning step and the test and optimization steps are repeatedly performed until the performance index of the prediction model reaches a target performance index.
  • the prediction accuracy and the prediction precision of the prediction model are calculated using the performance index of the prediction model.
  • the prediction accuracy is characterized in that the ratio of clinical trial cases accurately predicted by the prediction model of the clinical trial cases.
  • the prediction precision is characterized in that the ratio of the clinical trial cases accurately predicted among the clinical trial cases predicted success by the prediction model.
  • the plurality of first learning algorithms may include a K-Nearest Neighbor algorithm, a gradient boosting machine algorithm, a neural network algorithm, a random forest algorithm, and extra trees. ), And a logistic regression algorithm.
  • the second learning algorithm is characterized by being implemented by a logistic regression algorithm.
  • the present invention can predict the probability of success of clinical trials for new therapies using machine learning algorithms, which can shorten the duration of clinical trials for new therapies and reduce the cost of entering clinical trials.
  • FIG. 1 is a block diagram showing a system for serving a clinical trial results prediction according to an embodiment of the present invention.
  • Figure 2 is a block diagram of a clinical trial result prediction apparatus according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a machine learning process according to an embodiment of the present invention.
  • FIG. 4 is a view for explaining the first learning step of FIG.
  • FIG. 5 is a diagram for describing a second learning step of FIG. 3.
  • FIG. 6 is a view for explaining the testing and optimization steps of FIG.
  • FIG. 7 is a diagram for explaining prediction accuracy of a prediction model according to the present invention.
  • FIG. 8 is a flowchart illustrating a method for predicting clinical trial results according to an embodiment of the present invention.
  • FIG. 10 is a block diagram illustrating a computing system for executing a method for predicting clinical trial results according to an embodiment of the present invention.
  • FIG. 1 is a block diagram showing a system for servicing a clinical trial result prediction according to an embodiment of the present invention.
  • the system for providing a clinical trial result prediction includes a clinical trial result prediction apparatus 100 and a user terminal 200 connected through a network.
  • the network is a wired or wireless Internet network, which is Local Area Network (LAN), Wide Area Network (WAN), Ethernet (Ethernet), Wireless LAN (WLAN) (WiFi), Wireless Broadband (WiBro), World Interoperability for Microwave Access ) And HSDPA (High Speed Downlink Packet Access).
  • LAN Local Area Network
  • WAN Wide Area Network
  • Ethernet Ethernet
  • WiFi Wireless LAN
  • WiBro Wireless Broadband
  • HSDPA High Speed Downlink Packet Access
  • the clinical trial result predicting device (hereinafter, predicting device) 100 serves as a web server for providing a web service.
  • the prediction apparatus 100 performs a login procedure according to a user's request. In other words, when the user inputs his identification information ID and password through the user terminal 200, the prediction apparatus 100 receives the ID and password input from the user terminal 200 and receives a database. Check whether the user is registered in (DB) and approve or deny the permission of web service.
  • the prediction apparatus 100 When the prediction apparatus 100 receives information related to the clinical trial (clinical trial related information) from the user terminal 200, the prediction apparatus 100 predicts the success rate of the clinical trial by using the predictive model in which the machine learning is completed. The prediction apparatus 100 transmits the prediction result to the user terminal 200 through the network.
  • the user terminal 200 uses a web service provided by the prediction apparatus 100 through a web browser.
  • the user terminal 200 transmits the clinical trial related information (clinical trial condition) input by the user through the input means to the prediction device 100.
  • the user terminal 200 receives the prediction result transmitted from the prediction apparatus 100 and outputs it through the output means.
  • the user terminal 200 may be implemented as a notebook computer 200-1, a mobile communication terminal 200-2, a desktop computer 200-3, and the like.
  • the user terminal 200 may include one or more processors, a memory, a communication module, and the like.
  • FIG. 2 is a block diagram of an apparatus for predicting clinical results according to an embodiment of the present invention.
  • the clinical trial result prediction apparatus 100 includes a communication unit 110, an input unit 120, a storage unit 130, an output unit 140, and a processing unit 150.
  • the communication unit 110 performs data communication with the user terminal 200.
  • the communication unit 110 exchanges data with the user terminal 200 through a network such as LAN, WAN, Ethernet, WiFi, Wibro, Wimax, and HSDPA.
  • the communication unit 110 receives user information (such as an ID and a password) and / or clinical trial related information (clinical trial conditions or clinical trial characteristics) transmitted from the user terminal 200.
  • the communication unit 110 transmits the clinical trial success rate prediction result to the user terminal 200 under the control of the processing unit 150.
  • the communication unit 110 may receive clinical trial case data (trial instances).
  • Clinical trial case data can be obtained from the Food and Drug Administration (FDA).
  • the prediction apparatus 100 may access the FDA's database through the communication unit 110 to extract (search) clinical trial case data.
  • the communication unit 110 may directly transmit the received data to the processing unit 150 or may transmit the received data to the processing unit 150 through the input unit 120.
  • the input unit 120 may process the data received through the communication unit 110 and transmit the processed data to the processing unit 150. That is, the input unit 120 pre-processes the user information and / or the clinical trial related information in the form of data that may be processed by the processing unit 150 and transmits it to the processing unit 150.
  • the input unit 120 processes the clinical trial case data and inputs it to the processing unit 150 as learning data.
  • the input unit 120 preprocesses the data set (clinical experiment case data) extracted from the FDA database. For example, the input unit 120 may correct a city name indicated as "NY” or “new york” in the extracted dataset to "New York", and add new features such as a period, a city number, a country number, and a target disease. have.
  • Clinical trial case data includes clinical trial conditions and clinical trial results from actual clinical trial cases.
  • the clinical trial condition includes at least one or more of the features listed in Table 1.
  • Phase 1 Clinical trial phase, divided into 4 phases-Phase 1: Observation of physiological effects when a small amount of safety-tested substance is administered / dosed to human body
  • Phase 2 Verifying that the substance tested for safety in the body has the intended effect
  • Phase 3 Verifying that the stability and efficacy verified in Phases 1 and 2 are found to be comparable in statistically significant numbers of subjects
  • Phase 4 A study of the effects of a licensed drug on patients over the long term (such as side effects and unknown effects).
  • Indication Refers to disease targeted by individual drugs, eg colon cancer and asthma Treatment area Higher Concept Examples of Indications: Oncology and Respiratory Gender of Participants Gender of subjects participating in the clinical trial Health of Participants To determine whether a drug is intended for a subject with a targeted disease or for a healthy subject Number of Participants The number of subjects who participated in the clinical trial Sponsor Means the funding of a clinical trial or the provider of a drug.Examples: pharmaceutical companies, national agencies (Ministry of Health and Welfare), universities, etc.
  • Clinical trial study type divided into case-control study, cohort study, current situation study, and experimental study Duration Clinical trial period Geographical Location
  • Molecule Type Means a materialistic feature of a drug and is classified as a biologic and a chemical drug.
  • Mechanism of Action Theoretical mechanisms of drugs, which elements and how they react / act in the body to produce expected effects. Examples of oncology include mechanisms of neovascularization and PD-1 immune chemotherapy.
  • the mechanism of action refers to the elements in the body in which the drug responds directly to the body, for example: vascular endothelial growth factor (VEGFr) and macrophage (macrophage) Route of Administration Means how to take / administer a drug KFDA Designation Drugs with high public needs may be provided with some mitigation / reduction in the licensing process, R & D funding, and tax benefits. An identifier for this
  • the input unit 120 processes and outputs clinical trial case data in the form of machine learning.
  • the input unit 120 transmits the clinical trial case data to the processing unit 150 in the form of a table composed of several independent variables and one dependent variable (state variable).
  • the input unit 120 Generate input data according to the user's operation.
  • the input unit 120 may include a keyboard, a keypad, a touch pad, a touch screen, a mouse, a bar code reader, a QR (Quick Response) code scanner ( code scanner, joystick, and the like.
  • the storage unit 130 may store a program for the operation of the processing unit 150, and may temporarily store input / output data of the processing unit 150.
  • the storage unit 130 may store a user DB including user information.
  • the storage unit 130 stores machine learning algorithms, prediction models, training data, and clinical trial related information (clinical trial characteristics). In addition, the storage unit 130 may store data generated in the learning process using the machine learning algorithm and result values predicted by the prediction model.
  • the storage unit 130 may be installed inside and / or outside the processing unit 150.
  • the storage unit 130 may include a flash memory, a hard disk, a secure digital card, a random access memory (RAM), a read only memory (ROM), and a programmable ROM (PROM). ), At least one or more of a storage medium (recording medium), such as erasable and programmable ROM (EPROM), electrically erasable and programmable ROM (EPEROM), register, removable disk, and web storage.
  • a storage medium such as erasable and programmable ROM (EPROM), electrically erasable and programmable ROM (EPEROM), register, removable disk, and web storage.
  • the output unit 140 outputs information such as visual information, auditory information, and / or tactile information, and may include a display, a sound output module, a haptic module, and the like.
  • the display outputs information processed by the prediction device 100.
  • the display displays a user interface (UI) or a graphical user interface (GUI) associated with training a clinical trial result prediction model.
  • Displays include liquid crystal displays (LCDs), thin film transistor-liquid crystal displays (TFT LCDs), organic light-emitting diode (OLED) displays, flexible displays, One or more of a 3D display, a transparent display, a head-up display (HUD), and a touch screen may be included.
  • the sound output module may be implemented as a speaker for outputting audio data stored in the storage 130.
  • the haptic module outputs a signal in a form that the user can sense with touch.
  • the haptic module may be implemented as a vibrator to control vibration intensity and patterns.
  • the processor 150 controls the overall operation of the prediction device 100.
  • the processor 150 includes an application specific integrated circuit (ASIC), a digital signal processor (DSP), programmable logic devices (PLD), field programmable gate arrays (FPGAs), central processing units (CPUs), microcontrollers, and microprocessors. (microprocessors) may include at least one or more.
  • ASIC application specific integrated circuit
  • DSP digital signal processor
  • PLD programmable logic devices
  • FPGAs field programmable gate arrays
  • CPUs central processing units
  • microcontrollers microcontrollers
  • microprocessors may include at least one or more.
  • the processor 150 may execute a web server program stored in the storage 130 to perform a web server function.
  • the processor 150 receives the user information through the communicator 110, the processor 150 confirms whether the user is a registered user and approves or rejects the use authority of the clinical trial result prediction service.
  • the processor 150 includes a learning module 151 for performing machine learning using clinical trial case data and a prediction module 152 for predicting a clinical trial success rate using a machine-learned prediction model.
  • the prediction model predicts the success rate of the clinical trial using a plurality of machine learning algorithms.
  • the learning module 151 performs a three-step learning process consisting of a first learning step (training, level 1), a second learning step (meta-traing, level 2), and a testing and optimizing step.
  • the learning module 151 classifies the dataset as a dataset for each learning step. For example, when the learning module 151 receives 15000 clinical trial case data, the learning module 151 uses random sampling to perform a dataset for the first learning step, a dataset for the second learning step, and a dataset for the test and optimization step. Are classified into 11000, 2000, and 2000, respectively. In this case, the probability distributions of the trial results of the datasets may have similar shapes.
  • the learning module 151 allows a plurality of first learning algorithms to learn the relationship between clinical trial conditions (features, Xs) and clinical trial results (Y) through the data set for the first learning stage in the first learning phase.
  • the first learning algorithms include K-Nearest Neighbor (KNN) algorithm, Gradient Boosting Machine (GBM) algorithm, Neural Network algorithm, Random Forest algorithm, and Extra Tree. ), And a logistic regression algorithm. These algorithms have different predictive powers for the same clinical trial.
  • the learning module 151 performs machine learning to determine the most predictive algorithm among the plurality of first learning algorithms in the second learning step.
  • the learning module 151 trains the second learning algorithm through the dataset for the second learning step.
  • the second learning algorithm can be implemented with a logistic regression algorithm.
  • the learning module 151 performs a test and optimization step when the first learning and the second learning are completed. At this time, the learning module 151 tests the first (learned) training algorithm and the second learning algorithm through the data set for the test and optimization stages. The learning module 151 optimizes the parameters of each algorithm based on the test result.
  • the learning module 151 generates a prediction model when testing and optimization of the learned first learning algorithm and the second learning algorithm are completed.
  • the training module 151 stores the generated prediction model in the storage 130.
  • the learning module 151 may periodically update the prediction model through machine learning.
  • the prediction module 152 receives the clinical trial related information transmitted from the user terminal 200 through the communication unit 110.
  • the input unit 120 may process the clinical trial related information received through the communication unit 110 and provide the processed information to the prediction module 152.
  • the prediction module 152 predicts the success rate of the clinical trial based on the clinical trial-related information received using the prediction model stored in the storage 130.
  • the prediction module 152 transmits the prediction result (prediction result) using the prediction model to the user terminal 200 requesting the prediction of the success rate of the clinical trial.
  • the user terminal 200 displays the success rate prediction result of the clinical trial provided from the prediction module 152 on the display.
  • FIG. 3 is a flowchart illustrating a machine learning process according to an embodiment of the present invention
  • FIG. 4 is a diagram for describing a first learning step of FIG. 3
  • FIG. 5 is a diagram for describing a second learning step of FIG. 3.
  • FIG. 6 is a diagram for explaining the testing and optimization steps of FIG. 3
  • FIG. 7 is a diagram for explaining the prediction accuracy of a prediction model according to the present invention.
  • the learning module 151 of the clinical trial result prediction apparatus 100 performs the first learning (S110). As shown in FIG. 4, the learning module 151 provides the primary training dataset DS1 as input data of the plurality of first learning algorithms AL1.
  • the primary learning dataset (DS1) includes experimental conditions and experimental results for each clinical trial actually performed.
  • Each of the first learning algorithms AL1-1 to AL1-6 learns a relationship between experimental conditions and experimental results for each clinical trial of the primary learning data set DS1. This first learning determines the parameter (s) of the first learning algorithms AL1-1 through AL1-6.
  • the learning module 151 performs secondary learning when the training (learning) of the first learning algorithms AL1 is completed (S120). As shown in FIG. 5, the learning module 151 provides the clinical experimental features of the secondary learning dataset DS2 as inputs of the plurality of first-learned algorithms AL1 that were first learned. Each of the first learning algorithms AL1-1 to AL1-6 predicts a clinical trial result based on the secondary learning dataset (not including the actual experimental result) and outputs the predicted results P1 to P6. The second learning algorithm AL2 determines the algorithm having the best predictive power based on the prediction results P1 to P6 output from the plurality of first learning algorithms AL1 and the actual clinical experiment results of the secondary learning dataset. To learn.
  • the learning module 151 tests the plurality of first learning algorithms AL1 and the second learning algorithm AL2 that are learned when the second learning is completed, and the plurality of first learning algorithms learned based on the test result. AL1) and the parameters of the second learning algorithm AL2 are optimized (S130). As shown in FIG. 6, the learning module 151 provides the clinical trial condition of the test data set DS3 as an input of the plurality of first learning algorithms AL1 trained in two stages. Each of the first learning algorithms AL1-1 to AL1-6 predicts clinical trial results based on the clinical trial conditions of the test data set DS3 and outputs the results P1 'to P6'.
  • the second learning algorithm AL2 outputs the prediction result of the algorithm having the best predictive power based on the outputs P1 'to P6' of the first learning algorithm AL1.
  • the learning module 151 is based on the prediction result output from the second learning algorithm AL2 and the actual prediction result of the test data set DS3 (a plurality of first learning algorithms and the second learning algorithm of the learning algorithm).
  • the performance index of the combination is calculated (S131).
  • the learning module 151 calculates the prediction accuracy for the entire test dataset DS3 as a performance index and the prediction precision for the clinical trial success cases among the test dataset DS3. do.
  • the prediction accuracy may be expressed as "the number of clinical trial cases / total clinical trial cases classified correctly", and means the probability that the prediction model accurately estimates the actual clinical trial results.
  • Prediction precision can be expressed as "number of clinical trials that are correctly classified as successful / number of clinical trials predicted as successful by predictive model", and the case where the predictive model is actually 'successful' among those predicted as 'success'. Means the ratio.
  • the prediction accuracy other than the prediction accuracy is used as the performance index, it is possible to more accurately manage the risk that the prediction model predicted as 'success' actually turns out to be a failure.
  • the learning module 151 optimizes the parameters of each algorithm AL1 and AL2 based on the calculated performance index and the target performance index (S132).
  • the training module 151 adjusts the parameters of each algorithm AL1 and AL2 so that the performance index of the predictive model can reach the target performance index.
  • the learning module 151 may optimize by adjusting the parameters of each algorithm.
  • the learning module 151 has a performance index of a predictive model, which is a combination of a plurality of learned first algorithms AL1 (AL1-1 to AL1-6) and a second learning algorithm AL2, reaching a target performance index. S110 to S130 are repeatedly performed until the learning module 151 performs the learning. The learning module 151 generates the prediction model as a final clinical trial result prediction model when the performance index of the learned prediction model reaches the target performance index (S140). The training module 151 stores the generated prediction model in the storage 130.
  • FIG. 8 is a flowchart illustrating a method for predicting clinical trial results according to an exemplary embodiment of the present invention
  • FIGS. 9A to 9C are diagrams illustrating each step screen shown in FIG. 8.
  • the processor 150 of the prediction apparatus 100 performs a log in procedure according to a user's request (S210). For example, the processor 150 of the prediction apparatus 100 transmits a web page (login page) for inputting user information for logging in to the user terminal 200 in response to a request of the user terminal 200.
  • the user terminal 200 displays a login page on a display screen through a web browser as shown in FIG. 9A.
  • the user manipulates the input means of the user terminal 200 to input the ID and password and input the 'sign in' button.
  • the user terminal 200 transmits the ID and password input by the user to the prediction device 100.
  • the processor 150 of the prediction apparatus 100 receives user information including an ID and a password through the communication unit 110, and confirms whether the user is a registered user based on the received user information and approves or rejects it.
  • the processor 150 receives the clinical trial-related information through the input unit 120 (S220).
  • the processor 150 displays a web page for inputting information (clinical trial related information) related to the target clinical trial to perform the clinical trial result prediction as illustrated in FIG. 9B.
  • the user terminal 200 displays the corresponding web page on the display screen and inputs clinical trial related information (step, target disease and subject information, etc.) when the clinical trial related information is input to a form in the web page by the user. Is transmitted to the prediction device 100.
  • the input unit 120 of the prediction apparatus 100 preprocesses the clinical trial related information received through the communication unit 110 and transmits the preprocessing information to the processing unit 150.
  • the processor 150 predicts the clinical trial result using the predictive model in which the machine learning is completed (S230).
  • the processor 150 transmits the clinical trial related information received through the communication unit 110 to the prediction module 152 via the input unit 120, and the prediction module 152 uses the prediction model stored in the storage unit 130. Predict the success rate of clinical trials based on clinical trial information.
  • the processor 150 outputs the predicted clinical trial result (S240).
  • the processor 150 transmits a web page displaying the predicted clinical trial result to the user terminal 200.
  • the user terminal 200 displays the predicted clinical trial result provided from the predicting device 100.
  • the clinical trial results may be classified into four states, achieved, inconclusive, not achieved, and partially achieved. (64.07%, 13.57%, 20.49% and 1.87%).
  • FIG. 10 is a block diagram illustrating a computing system for executing a method for predicting clinical trial results according to an embodiment of the present invention.
  • the computing system 1000 may include at least one processor 1100, a memory 1300, a user interface input device 1400, a user interface output device 1500, and storage connected through a bus 1200. 1600, and network interface 1700.
  • the processor 1100 may be a central processing unit (CPU) or a semiconductor device that executes processing for instructions stored in the memory 1300 and / or the storage 1600.
  • the memory 1300 and the storage 1600 may include various types of volatile or nonvolatile storage media.
  • the memory 1300 may include a read only memory (ROM) and a random access memory (RAM).
  • the steps of a method or algorithm described in connection with the embodiments disclosed herein may be embodied directly in hardware, software module, or a combination of the two executed by the processor 1100.
  • the software module resides in a storage medium (ie, memory 1300 and / or storage 1600), such as RAM memory, flash memory, ROM memory, EPROM memory, EEPROM memory, registers, hard disks, removable disks, CD-ROMs. You may.
  • An exemplary storage medium is coupled to the processor 1100, which can read information from and write information to the storage medium.
  • the storage medium may be integral to the processor 1100.
  • the processor and the storage medium may reside in an application specific integrated circuit (ASIC).
  • the ASIC may reside in a user terminal.
  • the processor and the storage medium may reside as discrete components in a user terminal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Computational Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Pathology (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 기계학습 알고리즘을 이용하여 새로운 치료법에 대한 임상실험의 성공확률을 예측하는 임상실험 결과 예측 장치 및 방법에 관한 것으로, 임상실험 관련정보를 입력하는 입력부, 및 임상실험 사례 데이터를 가공하여 학습 데이터를 생성하고, 상기 학습 데이터를 이용하여 기계학습을 수행하여 임상실험 결과를 예측하는 예측 모델을 생성하고, 상기 생성된 예측 모델을 이용하여 상기 임상실험 관련정보에 따른 임상실험 결과를 예측하는 처리부를 포함한다.

Description

임상실험 결과 예측 장치 및 방법
본 발명은 기계학습 알고리즘을 이용하여 새로운 치료법에 대한 임상실험의 성공확률을 예측하는 임상실험 결과 예측 장치 및 방법에 관한 것이다.
임상실험(Clinical Trial)은 약물, 새로운 시술 방법 및 의료기기 등의 새로운 치료법에 대한 안전성과 유효성을 검증하기 위해 사람을 대상으로 행하는 시험으로, 보통 3단계로 진행된다. 제1상 임상실험에서는 소수의 건강한 사람을 대상으로 안전성과 내약성이 검토되고, 제2상 임상실험에서는 소수의 환자를 대상으로 약물의 적정 용량과 용법, 안전성 및 유효성을 탐색하며, 제3상 임상실험에서는 다수의 환자를 대상으로 안전성과 유효성이 검토된다.
이러한 임상실험은 환자에게 어떠한 부작용 및 위험을 초래할지를 예측하기 어렵고, 수 년에 걸쳐 진행되며 많은 비용이 들어간다. 이에, 임상실험에 소요되는 시간 및 비용을 줄이기 위한 노력들이 계속 되고 있다.
본 발명은 기계학습 알고리즘을 이용하여 새로운 치료법에 대한 임상실험의 성공확률을 예측하는 임상실험 결과 예측 장치 및 방법을 제공하고자 한다.
상기한 과제를 해결하기 위하여, 본 발명의 일 실시 예에 따른 임상실험 결과 예측 장치는 임상실험 관련정보를 입력하는 입력부, 및 임상실험 사례 데이터를 가공하여 학습 데이터를 생성하고, 상기 학습 데이터를 이용하여 기계학습을 수행하여 임상실험 결과를 예측하는 예측 모델을 생성하고, 상기 생성된 예측 모델을 이용하여 상기 임상실험 관련정보에 따른 임상실험 결과를 예측하는 처리부를 포함한다.
상기 처리부는, 상기 학습 데이터를 통해 임상실험별 성공률을 판단하기 위한 기계학습을 수행하여 상기 예측 모델을 생성하는 학습 모듈, 및 상기 예측 모델을 이용하여 임상실험 성공률을 예측하는 예측 모듈을 포함한다.
상기 학습 모듈은, 다수의 제1학습 알고리즘들과 하나의 제2학습 알고리즘을 이용하여 상기 기계학습을 수행하는 것을 특징으로 한다.
상기 학습 모듈은, 상기 다수의 제1학습 알고리즘들 각각이 상기 학습 데이터로부터 추출된 1차 학습 단계용 데이터세트의 임상실험 조건과 임상실험 결과 간의 관계를 학습하게 하는 1차 학습 단계를 수행하는 것을 특징으로 한다.
상기 학습 모듈은, 1차 학습된 상기 다수의 제1학습 알고리즘들이 상기 학습 데이터로부터 추출된 2차 학습 단계용의 임상실험 조건을 통해 예측한 결과들과 상기 2차 학습 단계용 데이터세트의 임상실험 결과를 고려하여 상기 다수의 제1학습 알고리즘들 중 가장 예측력이 좋은 알고리즘을 판별하는 상기 제2학습 알고리즘을 학습하게 하는 2차 학습 단계를 수행하는 것을 특징으로 한다.
상기 학습 모듈은, 상기 1차 학습 단계 및 상기 2차 학습 단계를 거친 상기 다수의 제1학습 알고리즘들과 상기 제2학습 알고리즘이 상기 학습 데이터로부터 추출한 테스트용 데이터세트를 통해 예측한 임상실험 결과와 실제 임상실험 결과에 근거하여 상기 예측 모델의 성능 지수를 산출하고 산출된 상기 예측 모델의 성능 지수에 따라 상기 다수의 제1학습 알고리즘들과 상기 제2학습 알고리즘의 파라미터를 최적화하는 테스트 및 최적화 단계를 수행하는 것을 특징으로 한다.
상기 학습 모듈은, 상기 예측 모델의 성능 지수가 목표 성능 지수에 도달할 때까지 상기 1차 학습 단계, 상기 2차 학습 단계 및 상기 테스트 및 최적화 단계를 반복적으로 수행하는 것을 특징으로 한다.
상기 학습 모듈은, 상기 예측 모델의 성능 지수로 상기 예측 모델의 예측 정확도 및 예측 정밀도를 산출하는 것을 특징으로 한다.
상기 다수의 제1학습 알고리즘들은, K-근접이웃(K-Nearest Neighbor) 알고리즘, 그래디언트 부스팅(Gradient Boosting Machine) 알고리즘, 신경망(Neural Network) 알고리즘, 랜덤 포레스트(Random Forest) 알고리즘, 엑스트라 트리(extra trees), 및 로지스틱회귀(logistic regression) 알고리즘을 포함한다.
상기 제2학습 알고리즘은, 로지스틱회귀 알고리즘으로 구현되는 것을 특징으로 한다.
한편, 본 발명의 일 실시 예에 따른 임상실험 결과 예측 방법은 임상실험 사례 데이터를 통해 기계학습을 수행하여 임상실험 결과를 예측하는 예측 모델을 생성하는 단계, 상기 예측 모델을 생성한 후, 사용자 단말로부터 임상실험 관련정보를 수신하는 단계, 및 상기 예측 모델을 이용하여 상기 임상실험 관련정보에 따른 임상실험 결과를 예측하는 단계를 포함한다.
상기 예측 모델을 생성하는 단계는, 다수의 제1학습 알고리즘들 각각이 상기 임상실험 사례 데이터로부터 추출된 1차 학습 단계용 데이터세트 내 임상실험 조건과 임상실험 결과 간의 관계를 학습하게 하는 1차 학습 단계, 1차 학습된 상기 다수의 제1학습 알고리즘들이 상기 임상실험 사례 데이터로부터 추출된 2차 학습 단계용의 임상실험 조건을 통해 예측한 결과들과 상기 2차 학습 단계용 데이터세트의 임상실험 결과를 고려하여 상기 다수의 제1학습 알고리즘들 중 가장 예측력이 좋은 알고리즘을 판별하는 제2학습 알고리즘을 학습하게 하는 2차 학습 단계, 및 상기 1차 학습 단계 및 상기 2차 학습 단계를 거친 상기 다수의 제1학습 알고리즘들과 상기 제2학습 알고리즘이 상기 임상실험 사례 데이터로부터 추출한 테스트용 데이터세트를 통해 예측한 임상실험 결과와 실제 임상실험 결과에 근거하여 상기 예측 모델의 성능 지수를 산출하고 산출된 상기 예측 모델의 성능 지수에 따라 상기 다수의 제1학습 알고리즘들과 상기 제2학습 알고리즘의 파라미터를 최적화하는 테스트 및 최적화 단계를 포함한다.
상기 임상실험 결과 예측 방법은 상기 예측 모델의 성능 지수가 목표 성능 지수에 도달할 때까지 상기 1차 학습 단계, 상기 2차 학습 단계 및 상기 테스트 및 최적화 단계를 반복적으로 수행하는 것을 특징으로 한다.
상기 테스트 및 최적화 단계에서, 상기 예측 모델의 성능 지수로 상기 예측 모델의 예측 정확도 및 예측 정밀도를 산출하는 것을 특징으로 한다.
상기 예측 정확도는, 전체 임상실험 사례 중 상기 예측 모델에 의해 정확하게 예측된 임상실험 사례의 비율인 것을 특징으로 한다.
상기 예측 정밀도는, 상기 예측 모델에 의해 성공으로 예측된 전체 임상실험 사례 중 정확하게 예측된 임상실험 사례의 비율인 것을 특징으로 한다.
상기 다수의 제1학습 알고리즘들은, K-근접이웃(K-Nearest Neighbor) 알고리즘, 그래디언트 부스팅(Gradient Boosting Machine) 알고리즘, 신경망(Neural Network) 알고리즘, 랜덤 포레스트(Random Forest) 알고리즘, 엑스트라 트리(extra trees), 및 로지스틱회귀(logistic regression) 알고리즘을 포함한다.
상기 제2학습 알고리즘은, 로지스틱회귀 알고리즘으로 구현되는 것을 특징으로 한다.
본 발명은 기계학습 알고리즘을 이용하여 새로운 치료법에 대한 임상실험의 성공확률을 예측할 수 있어 새로운 치료법에 대한 임상실험 기간을 단축할 수 있으며 임상실험에 들어가는 비용을 줄일 수 있다.
도 1은 본 발명의 일 실시 예에 따른 임상실험 결과 예측을 서비스하는 시스템을 도시한 구성도.
도 2는 본 발명의 일 실시 예에 따른 임상실험 결과 예측 장치의 블록구성도.
도 3은 본 발명의 일 실시 예에 따른 기계학습 과정을 도시한 흐름도.
도 4는 도 3의 1차 학습 단계를 설명하기 위한 도면.
도 5는 도 3의 2차 학습 단계를 설명하기 위한 도면.
도 6은 도 3의 테스트 및 최적화 단계를 설명하기 위한 도면.
도 7은 본 발명과 관련된 예측 모델의 예측 정밀도를 설명하기 위한 도면.
도 8은 본 발명의 일 실시 예에 따른 임상실험 결과 예측 방법을 도시한 흐름도.
도 9a 내지 9c는 도 8에 도시된 각 단계 화면을 도시한 도면.
도 10은 본 발명의 일 실시 예에 따른 임상실험 결과 예측 방법을 실행하는 컴퓨팅 시스템을 보여주는 블록도.
이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시 예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 본 발명의 일 실시 예에 따른 임상실험 결과 예측을 서비스하는 시스템을 도시한 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 임상실험 결과 예측을 서비스하는 시스템은 네트워크를 통해 연결되는 임상실험 결과 예측 장치(100) 및 사용자 단말(200)을 포함한다. 여기서, 네트워크는 유무선 인터넷 네트워크로, LAN(Local Area Network), WAN(Wide Area Network), 이더넷(ethernet), WLAN(Wireless LAN)(WiFi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access) 및 HSDPA(High Speed Downlink Packet Access) 등을 포함한다.
임상실험 결과 예측 장치(이하, 예측 장치)(100)는 웹 서비스를 제공하는 웹 서버로서의 역할을 수행한다. 예측 장치(100)는 사용자의 요청에 따라 로그인 절차를 수행한다. 다시 말해서, 예측 장치(100)는 사용자가 사용자 단말(200)을 통해 자신의 식별정보인 아이디(ID)와 비밀번호(password)를 입력하면 사용자 단말(200)로부터 입력된 아이디 및 비밀번호를 전달받아 데이터베이스(DB)에 등록된 사용자인지를 확인하여 웹 서비스의 사용 권한을 승인하거나 거부한다.
예측 장치(100)는 사용자 단말(200)로부터 임상실험 수행과 관련한 정보(임상실험 관련정보)를 입력 받으면 기계학습이 완료된 예측 모델을 이용하여 임상실험의 성공률을 예측한다. 예측 장치(100)는 네트워크를 통해 예측 결과를 사용자 단말(200)로 전송한다.
사용자 단말(200)은 웹 브라우저를 통해 예측 장치(100)가 제공하는 웹 서비스를 이용한다. 사용자 단말(200)은 사용자가 입력수단을 통해 입력하는 임상실험 관련정보(임상실험 조건)를 예측 장치(100)로 전송한다. 또한, 사용자 단말(200)은 예측 장치(100)로부터 전송되는 예측 결과를 수신하여 출력 수단을 통해 출력한다.
이러한 사용자 단말(200)은 노트북 컴퓨터(200-1), 이동통신단말(200-2) 및 데스크탑 컴퓨터(200-3) 등으로 구현될 수 있다. 사용자 단말(200)은 하나 이상의 프로세서, 메모리 및 통신모듈 등을 포함할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 임상실험 결과 예측 장치의 블록구성도를 도시한다.
도 2에 도시된 바와 같이, 임상실험 결과 예측 장치(100)는 통신부(110), 입력부(120), 저장부(130), 출력부(140) 및 처리부(150)를 포함한다.
통신부(110)는 사용자 단말(200)과 데이터 통신을 수행한다. 통신부(110)는 LAN, WAN, 이더넷, WiFi, Wibro, Wimax 및 HSDPA 등의 네트워크를 통해 사용자 단말(200)과 데이터를 주고 받는다.
통신부(110)는 사용자 단말(200)로부터 전송되는 사용자 정보(아이디 및 비밀번호 등) 및/또는 임상실험 관련정보(임상실험 조건 또는 임상실험 특징)를 수신한다. 통신부(110)는 처리부(150)의 제어에 따라 임상실험 성공률 예측 결과를 사용자 단말(200)로 전송한다.
또한, 통신부(110)는 임상실험 사례 데이터(trial instances)를 수신할 수도 있다. 임상실험 사례 데이터는 미국 식품의약국(Food and Drug Administration, FDA)으로부터 제공받을 수 있다. 예를 들어, 예측 장치(100)는 통신부(110)를 통해 FDA의 데이터베이스에 접속하여 임상실험 사례 데이터를 추출(검색)할 수 있다.
통신부(110)는 수신한 데이터를 처리부(150)로 직접 전송하거나 또는 입력부(120)를 통해 처리부(150)에 전송할 수 있다.
입력부(120)는 통신부(110)를 통해 수신한 데이터를 가공하여 처리부(150)로 전송할 수 있다. 즉, 입력부(120)는 사용자 정보 및/또는 임상실험 관련정보를 처리부(150)가 처리할 수 있는 데이터 형태로 전처리(pre-processing)하여 처리부(150)로 전송한다.
또한, 입력부(120)는 임상실험 사례 데이터를 가공하여 학습 데이터로 처리부(150)에 입력한다. 입력부(120)는 FDA의 데이터베이스로부터 추출한 데이터세트(임상실험 사례 데이터)를 전처리한다. 예컨대, 입력부(120)는 추출한 데이터세트 내 "NY" 또는 "new york" 등으로 표기된 도시명을 "New York"으로 정정하고, 기간, 도시수, 국가 수 등의 새로운 특징 및 대상 질환을 추가할 수 있다.
임상실험 사례 데이터는 실제 임상실험 사례의 임상실험 조건 및 임상실험 결과를 포함한다. 여기서, 임상실험 조건은 [표 1]에 나열된 특징들(features) 중 적어도 하나 이상을 포함한다.
특징 설명
단계(Phase) 약물 임상실험 단계, 4단계로 구분됨- Phase 1: 동물에서 일정수준의 안전성이 검증된 물질이 인체에 소량 투여/복용되었을 시, 어떠한 생리학적 작용이 일어나는지 관찰하는 단계로 안정성 검증이 핵심 목적임- Phase 2: 체내 안전성이 검증된 물질이 의도한 효과를 나타내는지 검증하는 단계- Phase 3: Phase 1과 2에서 검증된 안정성과 효능이 통계학적으로 유의미한 수의 피실험자에게서 유사한 수준으로 확인되는지 검증하는 단계- Phase 4: 판매 허가를 받은 약물이 장기적으로 환자들에게 어떠한 영향(부작용과 unknown effect 등)을 끼치는지 연구하는 단계
적응증(Indication) 개별 약물의 대상 질환을 의미함예: 대장암 및 천식 등
대상 질환(therapy area) 적응증의 상위 개념예: 종양(Oncology) 및 호흡기질환(Respiratory) 등
피실험자 성별(Gender of Participants) 임상실험에 참여한 피실험자의 성별
피실험자 건강(Healthiness of Participants) 약물이 목표로 하는 질환을 앓고 있는 피실험자 대상인지 건강한 피실험자 대상인지를 특정하기 위함
피실험자 수(Number of Participants) 임상실험에 참여한 피실험자의 수를 의미
스폰서(Sponsor) 임상실험의 펀딩(funding) 또는 약물을 제공하는 주체를 의미함 예: 제약사, 국가기관(보건복지부) 및 대학 등
연구 유형(Study type) 임상실험 연구유형으로, 사례 대조 연구, 코호트(cohort) 연구, 현황 연구 및 실험 연구로 구분
기간(Duration) 임상실험 진행 기간
소재지(Geographical Location) 임상실험이 진행된 병원의 소재 지역예: 국가, 주(state) 및 도시
분자 유형(Molecule Type) 약물의 제제적 특성(materialistic feature)을 의미하며, 생물학적제제(Biologic)과 화학약물/화합물(Chemical drug)으로 분류
작용기전(Mechanism of Action) 약물의 이론적 작용기전(mechanism)으로 체내에서 어떠한 요소와 어떠한 방식으로 반응/작용하여 기대 효과를 나타내는가에 대한 구분예: 종양학에서는 신생혈관억제 및 PD-1 면역항암제 등의 작용기전이 있음
작용기전 대상(Target of Action) 작용기전이 체내에서 구현되기 위해 약물이 직접적으로 반응하는 체내의 요소를 의미함예: 혈관내피성장인자(VEGFr) 및 대식세포(Macrophage) 등이 있음
약물 용법(Route of Administration) 약물의 복용/투여 방법을 의미함
식약청 지정(Designation) 여부 공공의 니즈가 높은 약물에 대해 허가 프로세스의 일부 완화/축소, R&D 비용지원, 세제혜택 등이 제공되는 경우가 있음. 이에 대한 식별자
입력부(120)는 임상실험 사례 데이터를 기계학습이 가능한 형태로 가공하여 출력한다. 예를 들어, 입력부(120)는 임상실험 사례 데이터를 여러 개의 독립변수와 한 개의 종속변수(상태변수)로 구성된 테이블(table) 형태로 처리부(150)에 전송한다.또한, 입력부(120)는 사용자의 조작에 따라 입력 데이터를 발생시킨다. 입력부(120)는 키보드(keyboard), 키패드(keypad), 터치 패드(touch pad), 터치스크린(touch screen), 마우스(mouse), 바코드 판독기(bar code reader), QR(Quick Response) 코드 스캐너(code scanner), 및 조이스틱(joystick) 등으로 구성될 수 있다.
저장부(130)는 처리부(150)의 동작을 위한 프로그램을 저장할 수 있고, 처리부(150)의 입/출력 데이터들을 임시 저장할 수도 있다. 또한, 저장부(130)는 사용자 정보를 포함하고 있는 사용자 DB를 저장할 수 있다.
저장부(130)는 기계학습 알고리즘(machine learning algorithms), 예측 모델, 학습 데이터 및 임상실험 관련정보(임상실험 특징들) 등을 저장한다. 또한, 저장부(130)는 기계학습 알고리즘을 이용한 학습 과정에서 발생되는 데이터 및 예측 모델에 의해 예측된 결과값 등을 저장할 수 있다.
저장부(130)는 처리부(150)의 내부 및/또는 외부에 설치될 수 있다. 저장부(130)는 플래시 메모리(flash memory), 하드디스크(hard disk), SD 카드(Secure Digital Card), 램(Random Access Memory, RAM), 롬(Read Only Memory, ROM), PROM(programmable ROM), EPROM(Erasable and Programmable ROM), EEPROM(Electrically Erasable and Programmable ROM), 레지스터, 착탈형 디스크 및 웹 스토리지(web storage) 등의 저장매체 중 적어도 하나 이상의 저장매체(기록매체)로 구현될 수 있다.
출력부(140)는 시각 정보, 청각 정보 및/또는 촉각 정보 등의 정보를 출력하기 위한 것으로, 디스플레이, 음향 출력 모듈 및 햅틱 모듈 등이 포함될 수 있다.
디스플레이는 예측 장치(100)에서 처리되는 정보를 출력한다. 예컨대, 디스플레이는 임상실험 결과 예측 모델을 훈련(training)하는 경우 이와 관련한 UI(User Interface) 또는 GUI(Graphic User Interface)를 표시한다. 디스플레이는 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED) 디스플레이, 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 투명디스플레이, 헤드업 디스플레이(head-up display, HUD), 및 터치스크린 중에서 하나 이상을 포함할 수 있다.
음향 출력 모듈은 저장부(130)에 저장된 오디오 데이터를 출력하는 스피커(speaker)로 구현될 수 있다. 햅틱 모듈은 사용자가 촉각으로 인지할 수 있는 형태의 신호를 출력한다. 예를 들어, 햅틱 모듈은 진동자로 구현되어 진동 세기 및 패턴 등을 제어할 수 있다.
처리부(150)는 예측 장치(100)의 전반적인 동작을 제어한다. 처리부(150)는 ASIC(Application Specific Integrated Circuit), DSP(Digital Signal Processor), PLD(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), CPU(Central Processing unit), 마이크로 컨트롤러(microcontrollers) 및 마이크로 프로세서(microprocessors) 중 적어도 하나 이상을 포함할 수 있다.
처리부(150)는 저장부(130)에 저장된 웹 서버 프로그램을 실행시켜 웹 서버 기능을 수행할 수 있다. 처리부(150)는 통신부(110)를 통해 사용자 정보를 수신하면 기등록된 사용자인지를 확인하여 임상실험 결과 예측 서비스의 사용 권한을 승인하거나 거부한다.
처리부(150)는 임상실험 사례 데이터를 이용하여 기계학습을 수행하는 학습 모듈(151) 및 기계학습된 예측 모델(prediction model)을 이용하여 임상실험 성공률을 예측하는 예측 모듈(152)를 포함한다. 여기서, 예측 모델은 다수의 기계학습 알고리즘을 이용하여 임상실험의 성공률을 예측한다.
학습 모듈(151)은 1차 학습 단계(training, level 1), 2차 학습 단계(meta-traing, level 2)와 테스트 및 최적화 단계(testing and optimizing)로 이루어지는 3단계 학습과정을 수행한다. 학습 모듈(151)은 입력부(120)를 통해 학습 데이터(dataset)를 입력 받으면 각 학습 단계를 위한 데이터세트(dataset)로 분류한다. 예를 들어, 학습 모듈(151)은 15000개의 임상실험 사례 데이터가 입력되면 랜덤 샘플링(random sampling)을 통해 1차 학습 단계용 데이터세트, 2차 학습 단계용 데이터세트 및 테스트 및 최적화 단계용 데이터세트로 각각 11000개, 2000개 및 2000개로 분류한다. 이때, 데이터세트들의 임상실험 결과(trial results)의 확률분포가 서로 유사한 형상을 가질 수 있도록 한다.
학습 모듈(151)은 1차 학습 단계에서 다수의 제1학습 알고리즘들이 제1학습 단계용 데이터세트를 통해 임상실험 조건(features, Xs)과 임상실험 결과(Y)의 관계를 학습하게 한다. 제1학습 알고리즘은 K-근접이웃(K-Nearest Neighbor, KNN) 알고리즘, 그래디언트 부스팅(Gradient Boosting Machine, GBM) 알고리즘, 신경망(Neural Network) 알고리즘, 랜덤 포레스트(Random Forest) 알고리즘, 엑스트라 트리(extra trees), 및 로지스틱회귀(logistic regression) 알고리즘을 포함한다. 이러한 알고리즘들은 동일한 임상실험에 대해 서로 다른 예측력을 가진다.
학습 모듈(151)은 2차 학습 단계에서 다수의 제1학습 알고리즘들 중 가장 예측력이 좋은 알고리즘을 판단하기 위한 기계학습을 수행한다. 학습 모듈(151)은 제2학습 단계용 데이터세트를 통해 제2학습 알고리즘을 훈련시킨다. 제2학습 알로리즘은 로지스틱회귀 알고리즘으로 구현될 수 있다.
학습 모듈(151)은 1차 학습 및 2차 학습이 완료되면 테스트 및 최적화 단계를 수행한다. 이때, 학습 모듈(151)은 테스트 및 최적화 단계용 데이터세트를 통해 학습된(훈련된) 제1학습 알고리즘 및 제2학습 알고리즘을 테스트한다. 그리고, 학습 모듈(151)은 테스트 결과를 토대로 각 알고리즘의 파라미터를 최적화한다.
학습 모듈(151)은 학습된 제1학습 알고리즘 및 제2학습 알고리즘에 대한 테스트 및 최적화가 완료되면 예측 모델을 생성한다. 학습 모듈(151)은 생성된 예측 모델을 저장부(130)에 저장한다. 학습 모듈(151)은 주기적으로 기계학습을 통해 예측 모델을 업데이트할 수 있다.
예측 모듈(152)은 통신부(110)를 통해 사용자 단말(200)로부터 전송되는 임상실험 관련정보를 수신한다. 이때, 입력부(120)는 통신부(110)를 통해 수신한 임상실험 관련정보를 가공하여 예측 모듈(152)에 제공할 수 있다.
예측 모듈(152)은 저장부(130)에 저장된 예측 모델을 이용하여 수신한 임상실험 관련정보를 토대로 해당 임상실험의 성공률을 예측한다. 예측 모듈(152)은 예측 모델을 이용하여 예측한 결과(예측 결과)를 해당 임상실험의 성공률 예측을 요청한 사용자 단말(200)로 전송한다. 사용자 단말(200)은 예측 모듈(152)로부터 제공받은 임상실험의 성공률 예측 결과를 디스플레이에 표시한다.
도 3은 본 발명의 일 실시 예에 따른 기계학습 과정을 도시한 흐름도이고, 도 4는 도 3의 1차 학습 단계를 설명하기 위한 도면이며, 도 5는 도 3의 2차 학습 단계를 설명하기 위한 도면이고, 도 6은 도 3의 테스트 및 최적화 단계를 설명하기 위한 도면이며, 도 7은 본 발명과 관련된 예측 모델의 예측 정밀도를 설명하기 위한 도면이다.
먼저, 임상실험 결과 예측 장치(100)의 학습 모듈(151)은 1차 학습을 수행한다(S110). 도 4에 도시된 바와 같이, 학습 모듈(151)은 1차 학습용 데이터세트(DS1)를 다수의 제1학습 알고리즘들(AL1)의 입력 데이터로 제공한다. 1차 학습용 데이터세트(DS1)는 실제로 수행한 임상실험별 실험조건 및 실험결과를 포함한다. 제1학습 알고리즘들(AL1-1 내지 AL1-6) 각각은 1차 학습용 데이터세트(DS1)의 임상실험별 실험조건과 실험결과 간의 관계를 학습한다. 이러한 1차 학습을 통해 제1학습 알고리즘들(AL1-1 내지 AL1-6)의 파라미터(들)이 결정된다.
학습 모듈(151)은 제1학습 알고리즘들(AL1)의 훈련(학습)이 완료되면 2차 학습을 수행한다(S120). 도 5에 도시된 바와 같이, 학습 모듈(151)은 2차 학습용 데이터세트(DS2)의 임상실험 조건(features)을 1차 학습된 다수의 제1학습 알고리즘들(AL1)의 입력으로 제공한다. 제1학습 알고리즘 각각(AL1-1 내지 AL1-6)은 2차 학습용 데이터세트(실제 실험결과 불포함)를 토대로 임상실험 결과를 예측하고 예측된 결과(P1 내지 P6)를 출력한다. 제2학습 알고리즘(AL2)은 다수의 제1학습 알고리즘들(AL1)로부터 출력되는 예측 결과들(P1 내지 P6)과 2차 학습용 데이터세트의 실제 임상실험 결과를 토대로 예측력이 가장 좋은 알고리즘을 판별하기 위한 학습을 수행한다.
학습 모듈(151)은 2차 학습까지 완료되면 학습된 다수의 제1학습 알고리즘들(AL1)과 제2학습 알고리즘(AL2)을 테스트하고 테스트 결과에 근거하여 학습된 다수의 제1학습 알고리즘들(AL1)과 제2학습 알고리즘(AL2)의 파라미터를 최적화한다(S130). 도 6에 도시된 바와 같이, 학습 모듈(151)은 테스트 데이터세트(DS3)의 임상실험 조건을 2단계 학습된 다수의 제1학습 알고리즘들(AL1)의 입력으로 제공한다. 각 제1학습 알고리즘(AL1-1 내지 AL1-6)은 테스트 데이터세트(DS3)의 임상실험 조건을 토대로 임상실험 결과를 예측하여 결과(P1' 내지 P6')를 출력한다. 제2학습 알고리즘(AL2)은 제1학습 알고리즘(AL1)의 출력(P1' 내지 P6')을 토대로 예측력이 가장 좋은 알고리즘의 예측 결과를 출력한다. 학습 모듈(151)은 제2학습 알고리즘(AL2)로부터 출력되는 예측 결과와 테스트 데이터세트(DS3)의 실제 임상실험 결과를 토대로 학습된 예측 모델(다수의 제1학습 알고리즘들 및 제2학습 알고리즘의 조합)의 성능 지수(performance index)를 산출한다(S131). 학습 모듈(151)은 성능 지수로 테스트 데이터세트(DS3) 전체에 대한 예측 정확도(general accuracy) 및 테스트 데이트세트(DS3) 중 임상실험 성공 케이스(achieved case)에 대한 예측 정밀도(prediction precision)를 산출한다.
여기서, 예측 정확도는 "정확하게 분류된 임상실험 사례 수/전체 임상실험 사례 수"로 나타낼 수 있으며, 예측 모델이 실제 임상실험 결과를 정확하게 추정할 확률를 의미한다. 예측 정밀도는 "성공으로 정확하게 분류된 임상실험 사례 수/예측 모델에 의해 성공으로 예측된 전체 임상실험 사례 수"로 나타낼 수 있으며, 예측 모델이 '성공'으로 예측한 케이스 중 실제로 '성공'인 케이스의 비율을 의미한다.
도 7에 도시된 바와 같이, 예측 모델에 의해 성공으로 예측된 전체 임상실험 사례가 1042(=767+116+136+23)개이고, 성공한 실제 임상실험 사례가 767개인 경우, 예측 정밀도는 73.6%(=767/1042×100)이다. 즉, 예측 모델이 '성공'으로 예측한 임상실험의 실제 실험결과가 '성공'일 확률이 73.6% 임을 의미한다.
본 실시 예에서 예측 정확도 외 예측 정밀도를 성능 지수로 사용하므로 예측 모델이 '성공'으로 예측한 사례가 실제로는 실패로 판명될 위험을 보다 정확하게 관리할 수 있다.
학습 모듈(151)은 산출된 성능 지수와 목표 성능 지수(target performance index)에 근거하여 각 알고리즘(AL1 및 AL2)의 파라미터를 최적화한다(S132). 학습 모듈(151)은 예측 모델의 성능 지수가 목표 성능 지수에 도달할 수 있도록 각 알고리즘(AL1 및 AL2)의 파라미터를 조정한다.
예컨대, [표 2]와 같이 학습 모듈(151)은 각 알고리즘의 파라미터들을 조정하여 최적화할 수 있다.
알고리즘 파라미터
KNN 알고리즘 # of neighbors(최근접 이웃수) = 15Weight(가중치) = "distance"
GBM 알고리즘 Learning rate(학습률) = 0.05Subsample(서브 샘플) = 0.5 (only using 50% of the total samples when building1 tree)max_depth(최대 깊이)= 6 (how deep each tree, to avoid overfitting)# of estimators(트리 개수) = 40 (# of trees, to avoid overfitting)
신경망 알고리즘 # hidden layers(숨겨진 레이어 수) = 2# of neurons for every layers(모든 레이어에 대한 뉴런 수) = (64, 16)# activation functionfor hidden layers(숨겨진 레이어의 활성화 함수) = 'relu' ('relu'는 "Rectified Linear Units"를 의미함)# activation functionfor outputlayer (출력 레이어의 활성화 함수) = 'softmax'Dropout = 0.2 (intentionally drop 20% of the neurons in the first layer to avoid overfitting)
랜덤 포레스트/엑스트라 트리알고리즘 # of estimator = 150# of minimum samples in the leafs(리프의 최소 샘플수) = 3 (to avoid overfitting)
로지스틱회귀 알고리즘 N/A
학습 모듈(151)은 학습된 다수의 제1알고리즘들(AL1: AL1-1 내지 AL1-6) 및 제2학습 알고리즘(AL2)의 조합(ensemble)인 예측 모델의 성능 지수가 목표 성능 지수에 도달할 때까지 S110 내지 S130을 반복적으로 수행한다.학습 모듈(151)은 학습된 예측 모델의 성능 지수가 목표 성능 지수에 도달하면 해당 예측 모델을 최종 임상실험 결과 예측 모델로 생성한다(S140). 학습 모듈(151)은 생성된 예측 모델을 저장부(130)에 저장한다.
도 8은 본 발명의 일 실시 예에 따른 임상실험 결과 예측 방법을 도시한 흐름도이고, 도 9a 내지 9c는 도 8에 도시된 각 단계 화면을 도시한 도면이다.
도 8에 도시된 바와 같이, 예측 장치(100)의 처리부(150)은 사용자 요청에 따라 로그인(log in) 절차를 수행한다(S210). 예를 들어, 예측 장치(100)의 처리부(150)는 사용자 단말(200)의 요청에 따라 로그인을 위한 사용자 정보를 입력할 수 있는 웹 페이지(로그인 페이지)를 사용자 단말(200)로 전송한다. 사용자 단말(200)은 도 9a와 같이 웹 브라우저를 통해 로그인 페이지를 디스플레이 화면에 표시한다. 사용자는 사용자 단말(200)의 입력 수단을 조작하여 아이디 및 비밀번호를 입력하고 'sign in' 버튼을 입력한다. 사용자 단말(200)은 사용자에 의해 입력된 아이디 및 비밀번호를 예측 장치(100)로 전송한다. 예측 장치(100)의 처리부(150)는 통신부(110)를 통해 아이디 및 비밀번호를 포함한 사용자 정보를 수신하고 수신된 사용자 정보를 토대로 등록된 사용자인지를 확인하여 승인 또는 거부한다.
처리부(150)는 입력부(120)를 통해 임상실험 관련정보를 입력받는다(S220). 처리부(150)는 사용자 로그인이 완료되면 도 9b에 도시된 바와 같은 임상실험 결과 예측을 수행하고자 하는 대상 임상실험과 관련된 정보(임상실험 관련정보)를 입력할 수 있는 웹 페이지를 사용자 단말(200)에 제공한다. 사용자 단말(200)은 해당 웹 페이지를 디스플레이 화면에 표시하고 사용자에 의해 해당 웹 페이지 내 양식(form)에 임상실험 관련정보가 입력되면 입력된 임상실험 관련정보(단계, 대상 질환 및 피실험자 정보 등)를 예측 장치(100)로 전송한다. 예측 장치(100)의 입력부(120)는 통신부(110)를 통해 수신한 임상실험 관련정보를 전처리하여 처리부(150)로 전송한다.
처리부(150)는 사용자 단말(200)로부터 임상실험 관련정보가 입력되면 기계 학습이 완료된 예측 모델을 이용하여 임상실험 결과를 예측한다(S230). 처리부(150)는 통신부(110)를 통해 수신한 임상실험 관련정보를 입력부(120)를 거쳐 예측 모듈(152)로 전송하고 예측 모듈(152)은 저장부(130)에 저장된 예측 모델을 이용하여 임상실험 관련정보를 토대로 임상실험의 성공률을 예측한다.
처리부(150)는 예측된 임상실험 결과를 출력한다(S240). 처리부(150)는 예측된 임상실험 결과를 표시하는 웹 페이지를 사용자 단말(200)로 전송한다. 사용자 단말(200)은 예측 장치(100)로부터 제공받은 예측된 임상실험 결과를 표시한다. 도 9c에 도시된 바와 같이, 임상실험 결과는 성공(achieved), 불확실(inconclusive), 실패(not achieved) 및 부분 성공(partially achieved) 등 4가지 상태(status)로 구분할 수 있으며, 각 상태일 확률(64.07%, 13.57%, 20.49% 및 1.87%)로 표시된다.
도 10은 본 발명의 일 실시 예에 따른 임상실험 결과 예측 방법을 실행하는 컴퓨팅 시스템을 보여주는 블록도이다.
도 10을 참조하면, 컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.
프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.
따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (18)

  1. 임상실험 관련정보를 입력하는 입력부, 및
    임상실험 사례 데이터를 가공하여 학습 데이터를 생성하고, 상기 학습 데이터를 이용하여 기계학습을 수행하여 임상실험 결과를 예측하는 예측 모델을 생성하고, 상기 생성된 예측 모델을 이용하여 상기 임상실험 관련정보에 따른 임상실험 결과를 예측하는 처리부를 포함하는 임상실험 결과 예측 장치.
  2. 제1항에 있어서,
    상기 처리부는,
    상기 학습 데이터를 통해 임상실험별 성공률을 판단하기 위한 기계학습을 수행하여 상기 예측 모델을 생성하는 학습 모듈, 및
    상기 예측 모델을 이용하여 임상실험 성공률을 예측하는 예측 모듈을 포함하는 임상실험 결과 예측 장치.
  3. 제2항에 있어서,
    상기 학습 모듈은,
    다수의 제1학습 알고리즘들과 하나의 제2학습 알고리즘을 이용하여 상기 기계학습을 수행하는 것을 특징으로 하는 임상실험 결과 예측 장치.
  4. 제3항에 있어서,
    상기 학습 모듈은,
    상기 다수의 제1학습 알고리즘들 각각이 상기 학습 데이터로부터 추출된 1차 학습 단계용 데이터세트의 임상실험 조건과 임상실험 결과 간의 관계를 학습하게 하는 1차 학습 단계를 수행하는 것을 특징으로 하는 임상실험 결과 예측 장치.
  5. 제4항에 있어서,
    상기 학습 모듈은,
    1차 학습된 상기 다수의 제1학습 알고리즘들이 상기 학습 데이터로부터 추출된 2차 학습 단계용의 임상실험 조건을 통해 예측한 결과들과 상기 2차 학습 단계용 데이터세트의 임상실험 결과를 고려하여 상기 다수의 제1학습 알고리즘들 중 가장 예측력이 좋은 알고리즘을 판별하는 상기 제2학습 알고리즘을 학습하게 하는 2차 학습 단계를 수행하는 것을 특징으로 하는 임상실험 결과 예측 장치.
  6. 제5항에 있어서,
    상기 학습 모듈은,
    상기 1차 학습 단계 및 상기 2차 학습 단계를 거친 상기 다수의 제1학습 알고리즘들과 상기 제2학습 알고리즘이 상기 학습 데이터로부터 추출한 테스트용 데이터세트를 통해 예측한 임상실험 결과와 실제 임상실험 결과에 근거하여 상기 예측 모델의 성능 지수를 산출하고 산출된 상기 예측 모델의 성능 지수에 따라 상기 다수의 제1학습 알고리즘들과 상기 제2학습 알고리즘의 파라미터를 최적화하는 테스트 및 최적화 단계를 수행하는 것을 특징으로 하는 임상실험 결과 예측 장치.
  7. 제6항에 있어서,
    상기 학습 모듈은,
    상기 예측 모델의 성능 지수가 목표 성능 지수에 도달할 때까지 상기 1차 학습 단계, 상기 2차 학습 단계 및 상기 테스트 및 최적화 단계를 반복적으로 수행하는 것을 특징으로 하는 임상실험 결과 예측 장치.
  8. 제6항에 있어서,
    상기 학습 모듈은,
    상기 예측 모델의 성능 지수로 상기 예측 모델의 예측 정확도 및 예측 정밀도를 산출하는 것을 특징으로 하는 임상실험 결과 예측 장치.
  9. 제6항에 있어서,
    상기 다수의 제1학습 알고리즘들은,
    K-근접이웃(K-Nearest Neighbor) 알고리즘, 그래디언트 부스팅(Gradient Boosting Machine) 알고리즘, 신경망(Neural Network) 알고리즘, 랜덤 포레스트(Random Forest) 알고리즘, 엑스트라 트리(extra trees), 및 로지스틱회귀(logistic regression) 알고리즘을 포함하는 임상실험 결과 예측 장치.
  10. 제6항에 있어서,
    상기 제2학습 알고리즘은,
    로지스틱회귀 알고리즘으로 구현되는 것을 특징으로 하는 임상실험 결과 예측 장치.
  11. 임상실험 사례 데이터를 통해 기계학습을 수행하여 임상실험 결과를 예측하는 예측 모델을 생성하는 단계,
    상기 예측 모델을 생성한 후, 사용자 단말로부터 임상실험 관련정보를 수신하는 단계, 및
    상기 예측 모델을 이용하여 상기 임상실험 관련정보에 따른 임상실험 결과를 예측하는 단계를 포함하는 임상실험 결과 예측 방법.
  12. 제11항에 있어서,
    상기 예측 모델을 생성하는 단계는,
    다수의 제1학습 알고리즘들 각각이 상기 임상실험 사례 데이터로부터 추출된 1차 학습 단계용 데이터세트 내 임상실험 조건과 임상실험 결과 간의 관계를 학습하게 하는 1차 학습 단계,
    1차 학습된 상기 다수의 제1학습 알고리즘들이 상기 임상실험 사례 데이터로부터 추출된 2차 학습 단계용의 임상실험 조건을 통해 예측한 결과들과 상기 2차 학습 단계용 데이터세트의 임상실험 결과를 고려하여 상기 다수의 제1학습 알고리즘들 중 가장 예측력이 좋은 알고리즘을 판별하는 제2학습 알고리즘을 학습하게 하는 2차 학습 단계, 및
    상기 1차 학습 단계 및 상기 2차 학습 단계를 거친 상기 다수의 제1학습 알고리즘들과 상기 제2학습 알고리즘이 상기 임상실험 사례 데이터로부터 추출한 테스트용 데이터세트를 통해 예측한 임상실험 결과와 실제 임상실험 결과에 근거하여 상기 예측 모델의 성능 지수를 산출하고 산출된 상기 예측 모델의 성능 지수에 따라 상기 다수의 제1학습 알고리즘들과 상기 제2학습 알고리즘의 파라미터를 최적화하는 테스트 및 최적화 단계를 포함하는 임상실험 결과 예측 방법.
  13. 제12항에 있어서,
    상기 예측 모델의 성능 지수가 목표 성능 지수에 도달할 때까지 상기 1차 학습 단계, 상기 2차 학습 단계 및 상기 테스트 및 최적화 단계를 반복적으로 수행하는 것을 특징으로 하는 임상실험 결과 예측 방법.
  14. 제12항에 있어서,
    상기 테스트 및 최적화 단계에서,
    상기 예측 모델의 성능 지수로 상기 예측 모델의 예측 정확도 및 예측 정밀도를 산출하는 것을 특징으로 하는 임상실험 결과 예측 방법.
  15. 제14항에 있어서,
    상기 예측 정확도는,
    전체 임상실험 사례 중 상기 예측 모델에 의해 정확하게 예측된 임상실험 사례의 비율인 것을 특징으로 하는 임상실험 결과 예측 방법.
  16. 제14항에 있어서,
    상기 예측 정밀도는,
    상기 예측 모델에 의해 성공으로 예측된 전체 임상실험 사례 중 정확하게 예측된 임상실험 사례의 비율인 것을 특징으로 하는 임상실험 결과 예측 방법.
  17. 제12항에 있어서,
    상기 다수의 제1학습 알고리즘들은,
    K-근접이웃(K-Nearest Neighbor) 알고리즘, 그래디언트 부스팅(Gradient Boosting Machine) 알고리즘, 신경망(Neural Network) 알고리즘, 랜덤 포레스트(Random Forest) 알고리즘, 엑스트라 트리(extra trees), 및 로지스틱회귀(logistic regression) 알고리즘을 포함하는 임상실험 결과 예측 방법.
  18. 제12항에 있어서,
    상기 제2학습 알고리즘은,
    로지스틱회귀 알고리즘으로 구현되는 것을 특징으로 하는 임상실험 결과 예측 방법.
PCT/KR2019/003061 2018-03-20 2019-03-15 임상실험 결과 예측 장치 및 방법 WO2019182297A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0032281 2018-03-20
KR1020180032281A KR102327062B1 (ko) 2018-03-20 2018-03-20 임상시험 결과 예측 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2019182297A1 true WO2019182297A1 (ko) 2019-09-26

Family

ID=67987360

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/003061 WO2019182297A1 (ko) 2018-03-20 2019-03-15 임상실험 결과 예측 장치 및 방법

Country Status (2)

Country Link
KR (1) KR102327062B1 (ko)
WO (1) WO2019182297A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538559B2 (en) 2020-05-14 2022-12-27 Merative Us L.P. Using machine learning to evaluate patients and control a clinical trial
US11556806B2 (en) 2020-05-14 2023-01-17 Merative Us L.P. Using machine learning to facilitate design and implementation of a clinical trial with a high likelihood of success
US11651243B2 (en) 2020-05-14 2023-05-16 Merative Us L.P. Using machine learning to evaluate data quality during a clinical trial based on participant queries

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102201198B1 (ko) * 2020-05-22 2021-01-11 서울시립대학교 산학협력단 기계학습 및 앙상블 기법을 이용하여 데이터를 분류하는 장치 및 방법
KR102515437B1 (ko) * 2020-09-10 2023-03-29 서울대학교병원 기계학습 기반 전립선암 위험도 산출 장치 및 방법과, 전립선암 위험도 산출 모델 생성 장치 및 방법
KR102447046B1 (ko) * 2022-06-03 2022-09-26 주식회사 인투인월드 인공지능 기반 임상시험 프로토콜 설계 방법, 장치 및 시스템
KR102597921B1 (ko) * 2023-02-16 2023-11-06 주식회사 그레이드헬스체인 보험계약자의 질병력 고지의무를 대행하는 언더라이팅 시스템
KR102597928B1 (ko) * 2023-03-16 2023-11-06 주식회사 그레이드헬스체인 질병력 고지의무를 대행해 줄 수 있는 언더라이팅 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002505892A (ja) * 1998-03-06 2002-02-26 ザ・リサーチ・ファウンデーション・オブ・ザ・ステート・ユニバーシティー・オブ・ニューヨーク 呼吸障害を予測する人工神経網およびそれを発展させる方法
JP2006518062A (ja) * 2003-01-15 2006-08-03 ブラッコ イメージング ソチエタ ペル アチオニ 予測アルゴリズムのトレーニングおよびテスティングのデータベース最適化のシステムおよび方法
JP2016519807A (ja) * 2013-03-15 2016-07-07 ザ クリーブランド クリニック ファウンデーションThe Cleveland ClinicFoundation 自己進化型予測モデル
KR20170140757A (ko) * 2016-06-10 2017-12-21 한국전자통신연구원 임상 의사결정 지원 앙상블 시스템 및 이를 이용한 임상 의사결정 지원 방법
KR20180008403A (ko) * 2015-03-03 2018-01-24 난토믹스, 엘엘씨 앙상블-기반 연구 추천 시스템 및 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070208514A1 (en) * 2003-04-23 2007-09-06 Hiroshi Yatsuhashi Method of Preparing Disease Prognosis Model, Disease Prognosis Prediction Method using this Model, Prognosis Prediction Device Based on this Model, and Program for Performing the Device and Storage Medium Wherein Said Program is Stored
EP1848994A2 (en) 2005-02-16 2007-10-31 Wyeth Methods and systems for diagnosis, prognosis and selection of treatment of leukemia
TWI539158B (zh) 2010-06-08 2016-06-21 維里德克斯有限責任公司 使用血液中之循環黑色素瘤細胞預測黑色素瘤病患之臨床結果的方法。
US20140088989A1 (en) * 2012-09-27 2014-03-27 Balaji Krishnapuram Rapid Learning Community for Predictive Models of Medical Knowledge
US9953271B2 (en) * 2013-11-22 2018-04-24 California Institute Of Technology Generation of weights in machine learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002505892A (ja) * 1998-03-06 2002-02-26 ザ・リサーチ・ファウンデーション・オブ・ザ・ステート・ユニバーシティー・オブ・ニューヨーク 呼吸障害を予測する人工神経網およびそれを発展させる方法
JP2006518062A (ja) * 2003-01-15 2006-08-03 ブラッコ イメージング ソチエタ ペル アチオニ 予測アルゴリズムのトレーニングおよびテスティングのデータベース最適化のシステムおよび方法
JP2016519807A (ja) * 2013-03-15 2016-07-07 ザ クリーブランド クリニック ファウンデーションThe Cleveland ClinicFoundation 自己進化型予測モデル
KR20180008403A (ko) * 2015-03-03 2018-01-24 난토믹스, 엘엘씨 앙상블-기반 연구 추천 시스템 및 방법
KR20170140757A (ko) * 2016-06-10 2017-12-21 한국전자통신연구원 임상 의사결정 지원 앙상블 시스템 및 이를 이용한 임상 의사결정 지원 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538559B2 (en) 2020-05-14 2022-12-27 Merative Us L.P. Using machine learning to evaluate patients and control a clinical trial
US11556806B2 (en) 2020-05-14 2023-01-17 Merative Us L.P. Using machine learning to facilitate design and implementation of a clinical trial with a high likelihood of success
US11651243B2 (en) 2020-05-14 2023-05-16 Merative Us L.P. Using machine learning to evaluate data quality during a clinical trial based on participant queries

Also Published As

Publication number Publication date
KR102327062B1 (ko) 2021-11-17
KR20190110381A (ko) 2019-09-30

Similar Documents

Publication Publication Date Title
WO2019182297A1 (ko) 임상실험 결과 예측 장치 및 방법
Jiang et al. Opportunities and challenges of artificial intelligence in the medical field: current application, emerging problems, and problem-solving strategies
Sevelius et al. The future of PrEP among transgender women: the critical role of gender affirmation in research and clinical practices
CN109219854A (zh) 患者风险评分和评估系统
WO2022145782A2 (ko) 빅데이터 및 클라우드 시스템 기반 인공지능 응급의료 의사결정 및 응급환자 이송 시스템과 그 방법
CN103955608A (zh) 一种智能医疗信息远程处理系统及处理方法
Jagatheesaperumal et al. A holistic survey on the use of emerging technologies to provision secure healthcare solutions
Patel et al. Artificial intelligence (AI) in Monkeypox infection prevention
Aswath et al. A frugal and innovative telemedicine approach for rural India–automated doctor machine
Reddy et al. AI-IoT based healthcare prognosis interactive system
CN115116569A (zh) 一种用于提供癌症数字化疾病管理的数字化系统
Chu et al. The potential of the medical digital twin in diabetes management: a review
NegAHbAN et al. Elements of integrating traditional and complementary medicine into primary healthcare: a systematic review
Stecher Physician network connections to specialists and HIV quality of care
WO2021075703A2 (ko) 소셜 네트워크 기반의 환자의 증상관리 및 증상완화 방법 및 시스템
Das et al. MoRe-care: Mobile-assisted remote healthcare service delivery
Dresden et al. The impact of Geriatric Emergency Department Innovations (GEDI) on health services use, health related quality of life, and costs: Protocol for a randomized controlled trial
Kumar Raju Alluri Research challenges and future directions in applying cognitive computing in the healthcare domain
Nautiyal et al. Role of digital healthcare in the well-being of elderly people: a systematic review
Grover et al. New consultation liaison model of providing care to COVID patients
Shojaei et al. Investigating the Components of Virtual Emergency Department.
Valera et al. Evaluating the Usability of the Expanded Telerehabilitation Program Implemented by Philippine General Hospital during the COVID-19 Pandemic: A Cross-sectional Study
Komalasari Trust Dynamics in Remote Patient-Expert Communication: Unraveling the Role of ICT in Indonesia's Private Healthcare Sector
KR102450646B1 (ko) 빅데이터 기반 딥러닝 모델을 이용한 응급실 환자 진단 시스템 및 방법
Reper et al. Electronic health record for intensive care based on usual Windows based software

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19772081

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19772081

Country of ref document: EP

Kind code of ref document: A1