WO2012091506A2 - 폐암 진단용 복합 바이오마커 및 이를 이용한 폐암 진단 방법 - Google Patents

폐암 진단용 복합 바이오마커 및 이를 이용한 폐암 진단 방법 Download PDF

Info

Publication number
WO2012091506A2
WO2012091506A2 PCT/KR2011/010353 KR2011010353W WO2012091506A2 WO 2012091506 A2 WO2012091506 A2 WO 2012091506A2 KR 2011010353 W KR2011010353 W KR 2011010353W WO 2012091506 A2 WO2012091506 A2 WO 2012091506A2
Authority
WO
WIPO (PCT)
Prior art keywords
biomarker
information
lung cancer
cancer
combination
Prior art date
Application number
PCT/KR2011/010353
Other languages
English (en)
French (fr)
Other versions
WO2012091506A3 (ko
Inventor
김철우
김용대
박필제
신용성
김정연
오미애
강경남
Original Assignee
(주) 바이오인프라
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020100139566A external-priority patent/KR20120077567A/ko
Priority claimed from KR1020100139567A external-priority patent/KR101401561B1/ko
Priority claimed from KR1020100139568A external-priority patent/KR101454398B1/ko
Priority claimed from KR1020100139569A external-priority patent/KR20120077570A/ko
Application filed by (주) 바이오인프라 filed Critical (주) 바이오인프라
Publication of WO2012091506A2 publication Critical patent/WO2012091506A2/ko
Publication of WO2012091506A3 publication Critical patent/WO2012091506A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57423Specifically defined cancers of lung

Definitions

  • the present invention relates to a complex biomarker, a configuration method, a lung cancer diagnosis prediction method, a lung cancer diagnosis prediction system, a lung cancer diagnosis kit, a cancer diagnosis method, a cancer diagnosis model generation method, and a cancer diagnosis prediction system.
  • the present invention relates to a complex biomarker, a composition method, a lung cancer diagnosis predicting method using a complex biomarker, a lung cancer diagnosis predicting system, which uses a combination of two or more biomarkers to diagnose lung cancer.
  • Lung cancer is a cancer that develops in the lungs. It is an advanced cancer that causes the largest number of smoking and pollution. As it enters the 20th century, it is rapidly increasing in Western countries, and more than 1.3 million people die of lung cancer every year. Cancer accounts for the highest proportion of deaths. In Korea, about 100,000 new cancer cases and 50,000 deaths are reported each year. In addition, the incidence of cancer has increased more recently, and cancer is currently the second largest cause of adult death in Korea. In particular, lung cancer accounts for about 12% of the cancers occurring in Korean adults, followed by stomach cancer and liver cancer. The incidence of lung cancer is significantly higher in men than in women, with a relatively high proportion of younger patients under 45 years of age.
  • lung cancer has progressed locally even if it has already metastasized to another organ at the time of diagnosis or no metastasis, and despite the various treatments such as curative resection, chemotherapy, and radiation therapy, the 5-year survival rate is reduced due to recurrence and metastasis after treatment. It is a tumor with a very low cure rate of 5%, which is the leading cancer death rate.
  • Lung cancer is divided into small cell lung cancer and non-small cell lung cancer.
  • non-small cell lung cancer is the most representative cancer, which corresponds to about 80% of lung cancer, and is divided into adenocarcinoma, squamous cell carcinoma, and large cell carcinoma.
  • Accurate diagnosis is important because not only the histological characteristics are different according to the type of lung cancer, but also the prognosis and treatment methods.
  • the 10-year survival rate is very low, below 10%, despite recent advances in cancer treatment. This is because most NSCLCs are difficult to diagnose until the advanced stage.
  • the first technical problem to be solved by the present invention is to propose a method for constructing a complex biomarker for predicting lung cancer diagnosis.
  • the second technical problem to be solved by the present invention is to propose a composite biomarker group configured.
  • the third technical problem to be solved by the present invention is to disclose a lung cancer diagnostic prediction method using a composite biomarker.
  • the fourth technical problem to be solved by the present invention is to disclose a lung cancer diagnostic prediction system using a composite biomarker.
  • the fifth technical problem to be solved by the present invention is to propose a method for enhancing cancer / normal diagnosis prediction ability by effectively correcting or eliminating an outlier of an input variable.
  • the sixth technical problem to be solved by the present invention is to provide a method for intuitively identifying which biomarker affects how much, when using a composite biomarker.
  • the seventh technical problem to be solved by the present invention is to propose a cancer diagnosis method using a plurality of classifiers and statistical methods, cancer diagnosis model generation method, cancer diagnosis prediction system.
  • the complex biomarker group for lung cancer diagnosis at least one biomarker selected from the first biomarker group consisting of individual biomarkers IGF-1 and RANTES, and individual biomarker A1AT , CYFRA21-1, proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9, ApoA1, ApoA1 / proApoA1 characterized in that it comprises any one or more biomarkers selected from the group A complex biomarker for diagnosing lung cancer is presented.
  • the biomarkers selected from the first biomarker group are preferably IGF-1 and RANTES.
  • the biomarker selected from claim 2 includes any one or more of A1AT, CYFRA21-1, and TTR.
  • the biomarker selected from the second biomarker group is preferably at least one of AFP, CA19-9, CYFRA21-1, A1AT, and PAI-1.
  • the biomarker selected from the second biomarker group is preferably at least two of A1AT, CYFRA21-1, proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9, ApoA1 / proApoA1, ApoA1.
  • the lung cancer diagnostic system in the method for using the lung cancer diagnostic complex biomarker information of the lung cancer diagnostic system, the lung cancer diagnostic system, (A) the body of the blood, plasma, serum or other subject of lung cancer diagnosis subject The expression level of each biomarker and the individual biomarkers A1AT, CYFRA21-1, at least one first biomarker group selected from the first biomarker group consisting of individual biomarkers IGF-1 and RANTES measured from the collected material separated from obtaining biomarker-specific expression measurement information of a second biomarker group consisting of proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9 and ApoA1; (B) processing the expression amount information for each biomarker of the first biomarker group and the expression amount information for each biomarker of the second biomarker group and input the biomarker into a predetermined lung cancer determination model; And, (C) generating lung cancer determination information from the lung cancer determination model; suggests a method of using the
  • Processing the expression level information for each biomarker is to generate the expression level information for each biomarker converted using partial dependency plot or partial dependency function relationship of the ensemble method using the decision tree. Is preferably.
  • the lung cancer judgment model is preferably a logistic regression model.
  • the logistic regression model uses a ridge penalty function.
  • any one or more proteins selected from the first biomarker group consisting of individual biomarkers IGF-1 and RANTES, and individual biomarkers A1AT, CYFRA21-1 , proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9, ApoA1 for the diagnosis of lung cancer comprising an antibody that specifically binds to any one or more proteins selected from the group Present the kit.
  • the protein selected from the first biomarker group is preferably IGF-1 and RANTES.
  • the protein selected from the second biomarker group includes any one or more of A1AT, TTR, and CYFRA21-1.
  • the protein selected from the second biomarker group is preferably one or more of AFP, CA19-9, CYFRA21-1, A1AT, PAI-1.
  • the protein selected from the second biomarker group is preferably at least two of A1AT, CYFRA21-1, proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9, and ApoA1.
  • the lung cancer diagnostic kit is preferably used for the purpose of lung cancer monitoring, lung cancer screening.
  • a composite biomarker for predicting lung cancer diagnosis selected from the first biomarker group consisting of individual biomarkers A1AT, IGF-1, RANTES, TTR Constructing a biomarker combination candidate group comprising at least one first biomarker combination comprising any two or more biomarkers; Comparing the biomarker combination candidate constituting the biomarker combination candidate group with lung cancer diagnostic predictive ability with the individual biomarker or the configured biomarker combination candidates constituting the biomarker combination candidate; and the biomarker combination candidate
  • a method for constructing a composite biomarker for lung cancer diagnostic prediction comprising: selecting a biomarker combination whose lung cancer diagnostic predictive ability is greater than or equal to a predetermined criterion.
  • Comparing the lung cancer diagnostic predictive ability is to take a sample from each of the lung cancer invention patient group and lung cancer normal group, and to measure the at least one predetermined indicator value of the lung cancer diagnostic predictive ability of the biomarker combination for the sample collected It is preferable that it is.
  • the biomarker combination candidate group includes a second biomarker group consisting of individual biomarkers CYFRA21.1, AFP, CEA, ApoA1 / proApoA1, EGFR, PAI-1, CA19-9, ApoA1, and proApoA1 in the first biomarker combination. It is preferable that the second biomarker combination further including any one or more selected biomarkers is further included.
  • any one of the first biomarker group consisting of individual biomarkers A1AT, IGF-1, RANTES, TTR Select one or more biomarkers and select one or more biomarkers from the second biomarker group consisting of individual biomarkers AFP, CEA, ApoA1 / proApoA1, EGFR, PAI-1, CA19-9, CYFRA21.1, ApoA1, proApoA1.
  • constructing a biomarker combination candidate group comprising at least one biomarker combination comprising two or more biomarkers; Comparing the biomarker combination candidate constituting the biomarker combination candidate group with lung cancer diagnostic predictive ability with the individual biomarker or the configured biomarker combination candidates constituting the biomarker combination candidate; and the biomarker combination candidate Selecting a biomarker combination whose lung cancer diagnosis predictive ability is greater than or equal to a predetermined criterion; and comparing the lung cancer diagnosis predictive ability with a sample collected from a lung cancer invention patient group and a non-lung cancer patient group, and collecting the biomarker combination. It provides a method for constructing a composite biomarker for lung cancer diagnostic prediction, characterized in that for measuring the at least one predetermined index value for the lung cancer diagnostic predictive ability of the biomarker combination with respect to the sample.
  • the lung cancer diagnostic predictive ability Comparing the lung cancer diagnostic predictive ability, measuring the indicator value for the lung cancer diagnostic predictive ability while increasing the complexity of biomarkers selected and combined in the first biomarker group and the second biomarker group. It is preferable that the said composite degree is the number of the biomarkers which comprise the said biomarker combination.
  • the method further comprises extracting one or more modest biomarkers.
  • the complex biomarker for predicting lung cancer diagnosis
  • the complex biomarker is selected from the first biomarker group consisting of individual biomarkers A1AT, IGF-1, RANTES, TTR And a biomarker combination comprising any two or more biomarkers, wherein the indicator value of the biomarker combination is an individual constituting the biomarker combination.
  • the present invention proposes a composite biomarker for predicting lung cancer diagnosis, which is characterized by being superior to all indicator values of the biomarker.
  • the biomarker combination candidate group includes a second biomarker group consisting of individual biomarkers AFP, CEA, ApoA1 / proApoA1, EGFR, PAI-1, CA19-9, CYFRA21.1, ApoA1, and proApoA1 in the first biomarker combination. It is preferable that the second biomarker combination further including any one or more selected biomarkers is further included.
  • lung cancer diagnostic kit using a complex biomarker for lung cancer diagnostic prediction comprises at least two receiving areas; And two or more biomarker corresponding antibodies contained in each of the two or more receiving regions and specifically binding to a predetermined biomarker, wherein the antibody comprises an A1AT corresponding antibody, an IGF-1 corresponding antibody, a RANTES corresponding antibody, and a TTR corresponding antibody.
  • a first biomarker comprising a first mode comprising any two or more antibodies selected from the first biomarker-compatible antibody group consisting of antibodies and an A1AT-compatible antibody, an IGF-1 corresponding antibody, a RANTES, a TTR-compatible antibody corresponding antibody At least one antibody selected from the antibody group and a biomarker AFP antibody, CEA antibody, ApoA1 antibody, proApoA1 antibody, EGFR antibody, PAI-1 antibody, CA19-9 antibody, CYFRA21.1 antibody At least one biomarker composed of any one of a second manner comprising at least one antibody selected from the group of corresponding biomarkers Forming a corresponding antibody combination, wherein the two or more biomarker corresponding antibodies correspond to two or more biomarker combinations, and at least one index value or one or two or more index values constituting lung cancer diagnostic predictive ability
  • the indicator value of the biomarker combination suggests a lung cancer diagnostic kit utilizing a composite biomarker, characterized in that all superior to the indicator value of the individual biomark
  • the biomarker combination is any one or more of CYFRA21.1 + IGF-1 combination, A1AT + IGF-1 combination, IGF-1 + RANTES combination, CYFRA21.1 + RANTES combination and A1AT + RANTES combination, or the CYFRA21.1 At least one of a combination of 3 or more biomarkers including a + IGF-1 combination, the A1AT + IGF-1 combination, the IGF-1 + RANTES combination, the CYFRA21.1 + RANTES combination, and the A1AT + RANTES combination desirable.
  • the biomarker combination is any one or more of a RANTES + AFP combination, an IGF-1 + AFP combination, an A1AT + AFP combination, a RANTES + CEA combination, an IGF-1 + CEA combination, and an AFP + CEA + ApoA1 / proApoA1 combination, Complexity 3 comprising the RANTES + AFP combination, the IGF-1 + AFP combination, the A1AT + AFP combination, the RANTES + CEA combination, the IGF-1 + CEA combination, and the AFP + CEA + ApoA1 / proApoA1 combination Or at least one of four or more biomarker combinations.
  • the cancer diagnosis method using the composite biomarker information for cancer diagnosis (A) from the blood, plasma, serum or other collected material separated from the body of the cancer diagnosis subject Obtaining expression amount information for each of a plurality of individual biomarkers or expression rate ratio information for at least one pair of biomarkers; (B) generating the converted expression level information or the converted expression level ratio information by converting the expression level information or the expression level ratio information by using partial dependency plot or partial dependency function relationship of an ensemble method using a decision tree; step; And (C) generating the cancer diagnosis information by inputting the converted expression amount information or the converted expression amount ratio information into a preset cancer diagnosis model. It suggests the cancer diagnosis method utilized.
  • the cancer diagnostic model is preferably a logistic regression model.
  • the logistic regression model uses a ridge penalty function.
  • the ensemble technique is preferably any one of Boosting and Random Forest.
  • the cancer diagnosis information further generates information on cancer diagnosis contributions for each biomarker, and the cancer diagnosis contributions for each biomarker are predetermined determinations obtained by a logistic model for at least one individual biomarker included in the cancer diagnosis model. It is desirable to use a function to provide a degree of impact on cancer.
  • the biomarker-specific disease diagnosis contribution is preferably presented in the form of a coefficient plot.
  • the cancer diagnosis kit may be implemented in a third system that reads the expression level information of each biomarker, or may be connected to the third system through a wired or wireless network. It is preferable to be carried out in the cancer diagnostic system that receives the expression information for each biomarker from a third system.
  • the blood, plasma of the subject for a subject consisting of a plurality of cancer patients and a plurality of normal people Generating a plurality of biomarker expression level information from the serum or other collected material separated from the body of the subject, and performing a predetermined conversion on the generated expression level information;
  • a plurality of classifiers are generated using at least one selected subject among the selected subjects as a model generation target group, and at least one of the generated classifiers is joined.
  • a subject not included in the model generation target group among the subjects is a model validation target group, and is input to the cancer diagnosis model candidate as expression information for each biomarker on which the conversion of the model validation target has been performed, and by the model validation target Generating cancer diagnostic information; And performing a predetermined evaluation on the cancer diagnosis information, and selecting a cancer diagnosis model that satisfies a predetermined evaluation index.
  • the expression level information may further include expression level ratio information for at least one pair of biomarkers.
  • the predetermined transformation is performed by converting the expression level information using a partial dependency plot or a partial dependency function relationship of an ensemble method using a decision tree.
  • the cancer diagnostic model is preferably a logistic regression model.
  • the predetermined evaluation index is preferably at least one of accuracy, specificity, sensitivity, and area of the ROC curve.
  • the ensemble technique is preferably any one of Boosting and Random Forest.
  • the cancer diagnosis information further generates information on cancer diagnosis contributions for each biomarker, and the cancer diagnosis contributions for each biomarker are predetermined determinations obtained by a logistic model for at least one individual biomarker included in the cancer diagnosis model. It is desirable to use a function to provide a degree of impact on cancer.
  • the biomarker-specific disease diagnosis contribution is preferably presented in the form of a coefficient plot.
  • the cancer diagnosis kit may be implemented in a third system that reads the expression level information of each biomarker, or may be connected to the third system through a wired or wireless network. It is preferable to be carried out in the cancer diagnostic system that receives the expression information for each biomarker from a third system.
  • a cancer diagnostic prediction system for performing a cancer diagnostic prediction using information derived or read directly from the diagnostic kit, blood, plasma, serum or
  • An information acquisition module for obtaining expression amount information or expression amount ratio information for each biomarker constituting the biomarker combination measured from the collected materials separated from the body of other subjects; At least one conversion module preset for the expression level information or the expression level ratio information;
  • a cancer diagnosis prediction module for processing the obtained expression amount information or expression amount ratio information into a predetermined cancer diagnosis prediction model; and cancer diagnosis prediction information generation module generating at least one cancer diagnosis prediction information from the cancer diagnosis prediction module.
  • the conversion module is to first generate the expression level conversion information for the expression level information or the expression rate ratio conversion information for the expression rate ratio information
  • the cancer diagnostic prediction model is the generated expression level conversion
  • the present invention provides a cancer diagnosis prediction system for performing cancer diagnosis prediction, wherein the information or the expression rate ratio conversion information is input as an input value.
  • the information obtaining module obtains expression amount information or expression amount ratio information for each biomarker by the cancer diagnosis prediction system directly obtained from the diagnosis kit, wherein the cancer diagnosis prediction system is connected through a wired or wireless network.
  • the conversion module generates expression conversion information or expression conversion ratio information by using partial dependence plot or partial dependency function relationship of an ensemble technique using a tree.
  • the cancer diagnosis prediction model may be a logistic model, and the logistic model may be a predetermined function expression for estimating a probability value classified as cancer by receiving the expression level conversion information or the expression level ratio conversion information.
  • the cancer diagnosis prediction information generating module additionally generates information on disease diagnosis contribution for each biomarker, and the disease diagnosis contribution for each biomarker is a predetermined discrimination function obtained as a logistic model for the biomarkers included in the biomarker combination. It is desirable to present the degree of impact on cancer in the form of a coefficient plot.
  • the biomarker-specific parameter value processing method associated with cancer / normal prediction statistical model for processing complex biomarker information comprising at least two or more biomarkers for cancer diagnosis, at least Obtaining an original variable value for each biomarker for each sample for at least two samples; Configuring a partial dependence plot or partial dependence function relationship for each biomarker by performing a predetermined process with an original input variable value for each biomarker; Generating a conversion parameter value for each biomarker with respect to the original variable value for each biomarker using the partial dependence plot for each biomarker or a partial dependence function relationship; And using the biomarker-specific transformation variable values to generate a predetermined cancer / normal prediction statistical model or to execute a cancer / normal prediction statistical model.
  • the partial dependence plot or the partial dependence function relationship may include an ensemble technique.
  • the ensemble technique proposes a variable value processing method for each biomarker, which is at least one of a boosting algorithm technique and a random forest algorithm technique.
  • Comprising the partial dependence plot or partial dependence function relationship for each biomarker is configured in such a way that the average value of the original variable for the other biomarkers except the biomarker among the biomarkers constituting the complex biomarker is averaged. It is preferable to.
  • the original variable value is preferably at least one of the expression level information for each biomarker or the expression rate ratio of two or more biomarkers.
  • the biomarker-specific impact information processing method associated with cancer / normal prediction statistical model for processing complex biomarker information comprising at least two or more biomarkers for cancer diagnosis, Generating impact information for each biomarker constituting the complex biomarker; And generating information for visualizing impact information for each biomarker constituting the complex biomarker, wherein the influence for each biomarker is determined by a discriminant function obtained from a logistic model.
  • the discriminant function may be represented by Equation 1 below, wherein the logistic model has a value between 0 and 1, and the estimation of the regression coefficient included in the logistic model uses a ridge function.
  • the g (x) preferably uses the biomarker-specific conversion variable value for the biomarker-specific original variable value using a partial dependence plot or a partial dependency function relationship.
  • the visualization is represented by a chart or graph on a two-dimensional plane.
  • the present invention it is possible to construct a composite biomarker with high lung cancer diagnosis ability as compared to a single biomarker.
  • efficient diagnosis can improve the survival rate of lung cancer patients, and it is possible to monitor the patient's response to the treatment and to change the treatment according to the result. It can also be used to identify compounds that modulate the expression of one or more biomarkers in vivo or ex vivo of animal models such as mice, rats and the like.
  • cancer / normal diagnosis prediction ability can be improved by effectively correcting or eliminating an outlier of an input variable.
  • Cancer diagnosis method using a plurality of classifiers and statistical methods of the present invention cancer diagnosis model generation method, cancer diagnosis prediction system, cancer diagnosis model using a composite biomarker using the converted biomarker expression information, bio
  • the present invention described in connection with lung cancer can be applied to not only lung cancer but also other cancers.
  • FIG. 1 is an exemplary flow chart of a method for screening complex biomarkers effective for lung cancer diagnosis in lung cancer diagnostic biomarker candidate groups.
  • FIG. 2 is a flowchart of an exemplary method of generating a random forest model for complex biomarker candidates for lung cancer diagnosis.
  • FIG. 3 is a conceptual diagram of a method of generating a decision tree using a plurality of biomarkers.
  • FIG. 4 is an exemplary diagram of a method of generating a ROC curve as an evaluation index.
  • 5 is an exemplary diagram for a partial dependency plot of RANTES.
  • FIG. 6 is an exemplary diagram of a boxplot of cancer patients and normal people with respect to RANTES.
  • FIG. 8 is an exemplary diagram of a boxplot of cancer patients and normal people with Cyfra21.1.
  • FIG. 8 is an exemplary diagram of a boxplot of cancer patients and normal people with Cyfra21.1.
  • FIG 9 is an exemplary diagram for a partial dependency plot of A1AT.
  • FIG. 10 is an exemplary diagram of a boxplot of cancer patients and normal people with A1AT.
  • FIG. 10 is an exemplary diagram of a boxplot of cancer patients and normal people with A1AT.
  • FIG. 11 is a diagram illustrating an exemplary embodiment of a CP (Coeffiecient Plot) of the present invention.
  • FIG. 11 is a diagram illustrating an exemplary embodiment of a CP (Coeffiecient Plot) of the present invention.
  • FIG. 12 is a diagram of one embodiment method for selecting a composite biomarker combination consisting of two or more biomarkers.
  • FIG. 13 is a diagram of another exemplary method of selecting a composite biomarker combination.
  • FIG. 14 is a diagram illustrating an exemplary method for configuring a lung cancer diagnosis system of the present invention and a connection relationship with another information provider.
  • FIG. 15 is a diagram illustrating an exemplary method of generating lung cancer diagnostic information in a lung cancer diagnostic system of the present invention.
  • 16 is a view illustrating a method for generating a conversion variable value of a partial dependency plot / function relationship generation unit of a conversion module of a lung cancer diagnosis system of the present invention and a method of using the generated conversion variable value in the lung cancer diagnosis system of the present invention It is a figure concerning.
  • FIG. 17 is a diagram illustrating an exemplary method of generating CP information by the CP information generator of the lung cancer diagnosis system of the present invention.
  • FIG. 1 is an exemplary flow diagram of a method for screening biomarkers effective for diagnosing lung cancer in lung cancer diagnostic biomarker candidate groups.
  • a variable value for each sample for the lung cancer biomarker candidate group is first generated (S11), and the biomarker group for the lung cancer prediction model is selected from the lung cancer biomarker candidate group (S12),
  • the complex biomarker combination generation for the selected lung cancer biomarker group is generated (S13), and the complex biomarker combination selection (S14) having excellent lung cancer diagnosis ability is generated among the generated complex biomarker combinations.
  • Stages of lung cancer patients were stage 1-83, stage 2-14, stage 3-21, stage 4-3.
  • 37 subjects (16 males and 21 females) and 25 lung cancer patients (10 males and 15 females) who were normal in the blind test were included to verify the classification model.
  • 5 ml of peripheral blood was collected in a Vacutainer SST II tube (Becton Dickinson) from the normal or lung cancer patient and placed at room temperature for 1 hour, followed by centrifugation at 3000 g for 5 minutes, and then serum was obtained from the supernatant. Store at -80 ° C until now.
  • the inventors of the present invention are A1AT (alpha-1-antitrypsin), A2M (alpha-2 macroglobulin), DD (D-dimer), PAI-1 (total plasminogen activator inhibitor-1), VN (vitronectin), ApoA4 (apolipoprotein-A4) , Hemo (hemoglobin), proApoA1 (proapolipoprotein-A1), VDBP (vitamin D-binding protein), ApoA2 (apolipoprotein-A2), ApoC2 (apolipoprotein-C2), ApoC3 (apolipoprotein-C3), sICAM-1 (soluble intercellular adhesion) molecule-1), soluble vascular cell adhesion molecule-1 (Svcam-1), interleukin-6 (IL-6), regulated upon activation normal T cell expressed and secreted (RANTES), alpha-fetoprotein (AFP), and CA125 (cancer) antigen 125), carbohydrate antigen 19-9 (CA19
  • ApoA2, ApoC2, ApoC3, sICAM-1, Svcam-1, IL-6, and RANTES proteins are included in the Millipore kit, AFP, CA125, CA19-9, CEA, f-PSA, PSA proteins Is included in RBM's kit, CYFRA21-1 protein is included in DRG Diagnostics' kit, EGFR, IGF-1 protein is used in R & D's kit, ApoA1, B2M, CRP, Hp, TTR protein was purchased from Siemens, A1AT, Hemo protein was purchased from Sigma, A2M, PAI-1 protein was purchased from Calbiochem, DD protein was purchased from Abcam, VN, VDBP The protein was purchased from Biodesign, and ApoA4 and proApoA1 proteins were prepared and used in Bioinfrastructure (Korea).
  • microsphere stock solution Hitachi, Japan
  • a sonication vessel Sonicor Instrument Corporation, USA
  • 2 ⁇ 10 6 microspheres were transferred to a microtube to remove the supernatant by centrifugation, washed with 100 ⁇ l of tertiary distilled water, and again in 80 ⁇ l of 0.1M sodium phosphate buffer (pH 6.2). Resuspend.
  • the carboxyl-activated microspheres were resuspended with 400 ⁇ l of 50 mM MES, and then mixed with 100 ⁇ l of 50 mM MES including 25 ⁇ g of antibody to be bound, followed by mixing at room temperature for 2 hours. . The reaction was run in the dark. After completion of the antibody binding reaction, the microspheres were washed twice with 500 ⁇ l PBS-TBN [PBS, 1% BSA, 0.02% Tween, 20-0.05% sodium azide] using centrifugation. The number was measured by a hemocytometer. Microspheres bound the antibody was stored at 4 °C in a dark room with at 1 ⁇ 10 6/500 ⁇ l PBS -TBN levels.
  • the antibody-binding microspheres were vortexed and sonicated for 20 seconds to measure the antibody binding efficiency of the antibody-binding microspheres prepared above, and then 2,000 microspheres per well were placed in a filter-bottom 96-well microplate.
  • Phycoerythrin-bound secondary antibody (anti-antibody antibodyPE conjugate, Jackson Immunoresearch, USA) was diluted 1/10 in a 2% BSA / PBS solution. Put into ⁇ L / well and mix for 30 minutes at room temperature. The reaction was carried out in the dark so that no light entered. After the reaction was washed twice with PBST and read by Luminex TM 200 (Luminex, USA) to confirm that the MFI value is more than 10,000.
  • biotinylated antibodies were used as detection antibodies.
  • the biotinylation reaction was performed according to the manufacturer's method using the EZ-Link Sulfo-NHS-Biotinylation Kit (Pierce, USA), and the degree of biotin binding was determined by HABA (4'-hydroxyazobenzene) included in the kit.
  • -2-carboxylic acid was carried out according to the kit manufacturer's instructions. As a result, the amount of bound biotin per antibody was measured to 8-12.
  • the developed assay further optimized the concentration of the detection antibody and the reaction time of the experiment, and the sensitivity was confirmed by analytical measurement values of serially diluted biomarkers.
  • Intra-assay variability is a measure of the CV of nine different concentrations of serum samples in two wells of 12 wells / plate at three different time points. variation) was calculated and averaged 5% to 10%.
  • the developed kit was confirmed to have no cross-reactivity.
  • Immunoassay of AFP, CA125, CA19-9, CEA, f-PSA, PSA was performed on 96 well V type microplates according to RBM's protocol.
  • the standard protein provided by the manufacturer was used by serial dilution with serum matrix diluent. Specifically, 20 ⁇ l of duplication protein, control serum and patient serum were added to the wells, and 10 ⁇ l of the blocking buffer and bead mixture included in the kit were added to the wells. After adding to the mixture and reacted at room temperature for one hour.
  • the detection antibody and streptavidin-PE were allowed to react sequentially for one hour and 30 minutes, respectively, and the reaction solution was transferred to a filter-bottom 96-well microplate (Millipore, USA), followed by vacuum manifold. Washed twice with (vacuum manifold).
  • the reaction solution treated with 100 ⁇ l of the assay buffer included in the kit was transferred to a 96 well microplate and analyzed by Luminex TM 200 (Luminex, USA). The results were analyzed by 5-parametric-curve fitting using the beadview software of Upstate, USA.
  • Immunoassay of ApoA2, ApoC2, ApoC3, sICAM-1, Svcam-1, IL-6, RANTES was performed in a filter-bottomed 96-well microplate (Millipore, USA) according to Millipore's protocol.
  • the filter-bottom 96-well microplates were treated with the assay buffer provided in the kit, blocked for 10 minutes, and then the buffer was removed using a vacuum manifold.
  • the standard protein provided by the manufacturer was used by serial dilution with serum substrate diluent.
  • the duplication protein, the control (duplication) serum and patient serum were treated with 25 ⁇ l of the wells, and 25 ⁇ l of the bead mixture solution was added to each well, followed by reaction at room temperature for 1 hour. After the reaction plate was washed twice using a vacuum manifold, the detection antibody and streptavidin-PE were sequentially reacted for 1 hour and 30 minutes, respectively. After the reaction plate was washed, 100 ⁇ l of the assay buffer provided in the kit was analyzed by Luminex TM 200. Results were analyzed with 5-parametric curve fitting using Upstate's BeadView software.
  • Immunoassay of A1AT, A2M, DD, PAI-1, VN, ApoA4, Hemo, proApoA1, VDBP was performed in a filter-bottomed 96-well microplate (Millipore, USA) according to BioInfrasa's protocol.
  • the filter-bottom 96-well microplates were treated with assay buffer (PBS / 2% BSA) for 10 minutes to block and then the buffer was removed using a vacuum manifold.
  • the standard protein provided by the manufacturer was used by serial dilution with serum substrate diluent.
  • the duplication protein, the control (duplication) serum and patient serum were treated with 25 ⁇ l of the wells, and 25 ⁇ l of the bead mixture solution was added to each well, followed by reaction at room temperature for 1 hour. After the reaction plate was washed twice using a vacuum manifold, the detection antibody and streptavidin-PE were sequentially reacted for 1 hour and 30 minutes, respectively. After the reaction plate was washed, 100 ⁇ l of the assay buffer provided in the kit was analyzed by Luminex TM 200. Results were analyzed with 5-parametric curve fitting using Upstate's BeadView software.
  • ApoA1, B2M, CRP, Hp and TTR were analyzed by automated method using Behring Nephelometer II (BNII) System according to the manufacturer's instructions.
  • Cyfra21-1 was analyzed according to the instructions included in the DRG Diagnostics kit, EGFR, and IGF-1 in the R & D DuoSet IC ELISA kit.
  • Table 4 shows an example of the measurement result data for each biomarker for each sample, thus generating a variable value for each sample for the lung cancer biomarker candidate group (S11).
  • the variable value may be ratio information of the expression level for each biomarker or the expression level for each of the two or more biomarkers.
  • sample .ID The sample's unique ID given during the experiment.
  • class According to the sample classification, Nor is a normal person, Can is a lung cancer patient. Age is age, Sex is sex, Stage.S is stage information of lung cancer (normal: blank, cancer: 1-4), and subsequent columns are biomarkers tested on the biomarker list.
  • the cell value is a list of experimental values of the biomarker candidates, and the experimental values of the input data shown in Table 2 are values obtained by log conversion of the experimental values.
  • the measurement data we built is based on bioinformatics and statistical analysis, the R Package (R Development Core Team (2007) .R: A language and environment for statistical computing.R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051 -07-0, URL http://www.R-project.org.
  • a random forest algorithm was applied to the input data to determine variable importance, derive a p-value ranking, and perform correlation analysis between biomarkers. In this way, if a random forest ranking includes a biomarker with high correlation to the p-value rank and excludes the lower rank biomarker, 13 lung cancer biomarker candidates will be included in the lung cancer prediction model. Biomarker group was selected (S12).
  • Selected biomarkers are A1AT, CYFRA21-1, IGF-1, AFP, proApoA1, EGFR, CEA, RANTES, PAI-1, TTR, CA19-9, ApoA1 / ProApoA1, ApoA1.
  • Table 7 below shows the evaluation index values for the 13 selected biomarkers and each individual biomarker.
  • ApoA1 / proApoA1 is a value obtained by dividing the expression level of ApoA1 by the expression level of proApoA1, which is an example of the expression rate ratio, and shows that the expression rate ratio can be a biomarker.
  • the number of test sets is 40 (normal 20, cancer 20)
  • the actual value is 0 (normal), but the number predicted as 0 (normal) is 17, and the actual value is 0 (normal), and the number predicted as 1 (dark) is 3 pieces.
  • the actual value is 1 and the number predicted by 0 is 0.
  • the actual value is 1 and the number predicted by 1 is 20.
  • Sensitivity is the probability of predicting actual cancer patients as cancer patients. In the table above, 20 out of 20 predicted cancer, so the sensitivity is 100%. Specificity is 85%, because 17 out of 20 people have a probability of predicting normal people. Accuracy is 92.5% because 37 people out of 40 were correctly predicted with the same ratio of actual value and predicted value, that is, the probability of predicting normal to normal and cancer patients as cancer patients.
  • sensitivity, specificity, and accuracy are used as evaluation indicators, but various evaluation indicators introduced in the field of statistics or social science may be used. Of course, the present invention naturally introduces such various evaluation indicators.
  • the biomarkers can be selected through these evaluation indicators.
  • the ranking of the selected evaluation indicators may be based on any one of the evaluation indicators, but a predetermined function that takes at least one or more evaluation indicators as an input value or a predetermined importance function calculated independently of the evaluation indicators.
  • a predetermined function that takes at least one evaluation indicator as an input value or a predetermined importance function calculated independently of the evaluation indicator is called an evaluation function, and a value calculated by the evaluation function is called an evaluation function value.
  • FIG. 18 is boxplot for normal and cancer samples for the 13 biomarkers.
  • Table 7 summarizes the selected 13 biomarkers, expression patterns and characteristics of each biomarker.
  • the expression pattern is roughly classified into a case where the higher the expression value of each biomarker, the higher the probability of cancer, and the lower, the higher the probability of cancer.
  • Can (high) corresponds to the former
  • Can (low) corresponds to the latter.
  • A1AT is a glycoprotein and is known as an antagonist of serum trypsin. In the body, it protects tissues from various breakdown enzymes (especially elastase) secreted by inflammatory cells and increases in acute inflammatory phases. Deficiency is associated with birth defects that result in destruction of lung tissue. Hamrita et al. Reported an increase in A1AT in invasive mammary cancer. AFP Can In adults, it increases most frequently in germ cell tumors and liver cancers, but also in gastic, colon, biliary, pancreatic and lung cancers ( ⁇ 20% of patients).
  • CA19-9 Can Clinically used because it increases in the majority of patients with pancreas, biliary tract, colon, stomach, and breast carcinoma
  • CEA Can Gastrointestinal (GI).
  • Can CYFRA 21-1 (a cytokeratin 19 fragment) is known to be associated with non-small cell lung cancer, and Lai et al. Reported that not only high blood levels but also stage and prognosis, especially in squamous cell carcinoma.
  • EGFR Can Receptor of EGF, involved in cell growth and differentiation IGF-1 Can The expression of IGF-1 is increased in adenocarcinoma of various organs, so Ouban et al.
  • PAI-1 decreases t-PA activity and impairs fibfinolytic function.
  • a hereditary generalized amyloidosis due to transthyretin amyloid deposition is the cause of amyloidosis type 1 (AMYL1).
  • a hereditary generalized amyloidosis due to transthyretin amyloid deposition is the cause of amyloidosis type 1 (AMYL1).
  • a composite biomarker combination for the selected lung cancer biomarker group is generated by generating a composite biomarker list that can be combined with 13 biomarkers selected primarily by feature selection (S13).
  • the number of combination biomarker combinations is 13Cr (14> r> 1), which is a total of 8178.
  • each cancer / normal predictive statistical model is made, and 8178 statistical models are compared based on the evaluation indexes (Accuracy, Sensitivity, Specificity, etc.) obtained from each model.
  • the statistical model provides the best model for the data used to create the model. If you create a model with one data set, there is no way to verify that the statistical model works well with normal data. For this reason, create a training set and a test set. For example, if the sample size is 200 (100 arms, 100 normal), randomly 100 (50 arms, 50 normal) can be extracted and used as a training set, and the remaining 100 can be used as a test set. have. (When a sample size is given, how much to use as a training set and how much to use as a test set may vary.
  • the size of a training set is greater than or equal to the size of a test set.
  • Decision trees are one of the data mining analysis techniques, and they can be used to find decision rules based on the structure of trees.
  • Decision trees are a powerful and widely used analytical technique that charts decision rules to classify or predict groups of interest into several subgroups.
  • the general algorithm of decision trees has different formation processes in terms of stopping rules and pruning.
  • the rules used in decision trees are:
  • the child nodes are formed by identifying how predictive variables are used to best distinguish the distribution of target variables. It is measured using.
  • Stopping Criteria A rule that specifies that no further separation takes place and that the current node becomes a terminal node.
  • Pruning Decision trees with too many nodes can have very high prediction errors when applied to new data. Therefore, it is desirable to select a decision tree having a sub tree structure of a suitable size as a final model by removing inappropriate nodes from the formed decision tree.
  • the target variable is discrete (for example, cancer / normal)
  • the separation occurs based on the frequency belonging to each category of the target variable, a classification tree is formed.
  • the biomarker CYFRA21.1 value is greater than 5, the probability of cancer is very high.
  • 50 patients with a value of less than 5, 10 cancer patients and 40 normal patients are summarized in Table 8 below.
  • Table 8 shows a case where only the CYFRA21.1 value is used.
  • Random forest (Random forest, RF; Breiman L, Machine Learning 45 (1): 5-32, 2001) is a method of Bagging algorithm that is a combination of CART's decision trees and is proposed by Leo Breiman and Adele Cutler. .
  • the nodes of each tree are organized so that the data with higher dimensions can be broken down into smaller pieces of lower dimensions.
  • Each of these trees completes the final classification by ensemble and voting. Trees generated by random vectors with the same probability distribution are composed independently, and when the number of trees is infinite, the misclassification is generalized and converged.
  • RF is random and out-of It uses the -bag (Random Selection without Replacement) technique to achieve the same accuracy as Adaboost, and has a strong performance on the interface and noise, and helps to converge faster than bagging and boosting.
  • a method of synthesizing a decision made from a plurality of statistical models (RF in the case of a decision tree) to a final decision is called an ensemble technique.
  • the present invention is characterized by using such an ensemble technique.
  • a boosting algorithm which is equivalent in terms of using an ensemble technique. It will be appreciated that a boosting algorithm may be easily employed by those skilled in the art to implement the spirit of the present invention, and it will be obvious that the boosting algorithm is included in the implementation of the present invention.
  • weak learner is a better classifier than random guessing, meaning accuracy is 0.5 or more, and can be any statistical classifier such as decision tree and logistic regression.
  • Strong learner means a classifier whose accuracy is much better than random guessing.
  • the algorithm is as follows.
  • Step 1 create weak classifier using given weight
  • Step 2 Recalculate the weight according to the misclassification / correct classification by the weak classifier.
  • Step 1. + Step 2 Repeat the work until the appropriate stop criterion is satisfied. For example, suppose you have 10 weak classifiers. The final result is then synthesized from these 10 weak classifiers.
  • a plurality of cancer / normal prediction statistical models are generated for each of 8178 total biomarker combinations, which are all possible combinations of complex biomarkers, and then an optimal cancer / normal prediction statistical model is selected. If there is a specific complex biomarker combination of complex degree n (X1, X2, ... Xn), the sample among n used biomarkers is divided into a training set, and for a sample belonging to the training set, n A plurality of decision trees as shown in FIG. 3, in which any one or more of the plurality of complex biomarkers participate, are generated, and a plurality of cancer / normal prediction statistical model candidate groups are generated by using the ensemble technique.
  • a test set is constructed of samples that do not participate in the training set for a plurality of cancer / normal predictive statistical model candidate groups, and the prediction performance is verified for the test set.
  • Predictive performance may be an evaluation index or the like. Since there are a great number of methods / combinations for dividing the entire sample into a training set and a test set, it will be obvious that the cancer / normal predictive statistical model candidates will be plural.
  • Person A's Avg.Score represents the ratio of cancer among n cancer / normal decisions from n decision trees.
  • one prediction model is a collection of multiple decision trees created using specific marker combination information (eg, RANTES + CYFRA21.1).
  • the generated cancer / normal prediction statistical model candidate group may have a form as shown in Equation 8 below.
  • (X1, X2, ... Xn) the X value specified for the samples utilizing n complex biomarkers is input to the prediction model or the decision tree as shown in Equation 8 below.
  • a plurality of cancers / normals e.g., expression values of biomarkers called RANTES or expression value ratio information such as ApoA1 / proApoA1
  • special treatments e.g., partial dependency plots / function relationships
  • each of the model candidate groups or the decision tree has a decision value equal to a value between 0 (normal) and 1 (dark).
  • the average value (Avg.Score) is generated as follows: Of course, since the correct answer value for cancer / normal is known for each sample, any model among the plurality of cancer / normal prediction statistical model candidate groups or each decision tree is the best evaluation index. It has it is possible to determine the map.
  • Avg.Score exceeds 0.5, it is determined to be cancer, otherwise it is determined to be normal.
  • the cut-off of 0.5 is only a special example, and may be changed to any number between 0 and 1 according to circumstances. In this way, if Avg.Score is calculated for the composite biomarker and cancer and normal determination are obtained for each composite biomarker, the data shown in Table 9 can be obtained, and the sensitivity of each cancer / normal prediction statistical model is obtained from this data. In addition, diagnostic or predictive performance indicators such as specificity and accuracy can be generated.
  • the cut-off point of the average score is needed to determine whether the cancer is normal with the average score in the RF.
  • cancer is judged to be normal if the average score is over 0.5, otherwise it is determined to be normal. Will be different.
  • the larger the cut-off value the smaller the ratio determined by the cancer, and the smaller the cut-off value, the larger the ratio determined by the cancer.
  • evaluation index values such as sensitivity and specificity values also vary. Therefore, the cut-off value is varied and the corresponding evaluation index value (sensitivity, 1-specificity) can be plotted. For example, if you use cut-off values of 0.01, 0.02, 0.03, 0.04, whereas, 0.98, 0.99, 1, you can find the corresponding (sensitivity, 1-specificity) values.
  • ROC curve is a way to compare the performance of the model at the same time in terms of sensitivity and specificity.The closer the area under the curve is to 1, the better the statistical model. You can also use this ROC curve to find cut-off values. .
  • the composite biomarker combination having excellent lung cancer diagnosis ability is selected among the generated complex biomarker combinations (S14).
  • the following provides an example of how to determine which complex biomarker combination is a more reasonable combination.
  • the 13Cr complex biomarker combinations (all individual combinations form one or more cancer / normal predictive statistical models.
  • an optimal statistical model can be selected for these one or more cancer / normal predictive statistical models. Calculate the importance of each biomarker in each statistical model.
  • Importance refers to the magnitude of the association of certain biomarkers to cancer / normal findings in certain statistical models.
  • four terminal nodes nodes at the end of the tree
  • CYFRA21.1 and CEA biomarker values of CYFRA21.1 and CEA. It is determined whether it is cancer or normal according to the majority value of the node.
  • a large portion of the sample is divided into cancer / normal by the value of CYFRA21.1 used initially, which means that the CYFRA21.1 biomarker value is significantly associated with cancer / normal.
  • we randomly permute the CYFRA21.1 value we randomly permute the CYFRA21.1 value.
  • the CYFRA21.1 values are randomly mixed and then assigned to each patient, the correlation between cancer / normal and CYFRA21.1 is almost eliminated.
  • the difference between the correct decision ratio (2) at each terminal node and the correct decision ratio (1) at each terminal node is measured when the original data of CYFRA21.1 is used. This value is the importance of CYFRA21.1. If there is a clear pattern of biomarker values by cancer / normal, then the correct decision ratio when using that pattern and the random decision permuted when the biomarker value is ignored becomes large. Conversely, if the biomarker is not related to cancer / normal, there is no significant difference in the correct decision ratio when using the original data or randomly permute.
  • the importance ranking (sequence) of the biomarkers participating in the statistical model can be given. For example, if there is a statistical model that includes a biomarker combination of IGF.1 + CYFRA21.1 + RANTES, the significance of the biomarkers IGF.1, CYFRA21.1, and RANTES can be seen from this statistical model. For example, the importance ranking could be CYFRA21.1 first, IGF.1 second, RANTES third, and so on. At this time, when all of the 8178 statistical models can know the importance value and importance ranking for each biomarker participating in each model, superior composite biomarkers can be selected using the importance value and importance ranking. Methods of selecting superior biomarkers using the importance value and importance ranking value may be various, but one exemplary method as follows is provided as an example.
  • IGF-1 + CYFRA21.1 is equally frequency 1 added.
  • IGF-1 + CYFRA21.1 and "CYFRA21.1 + IGF-1” are handled differently.
  • an important biomarker combination may be found based on frequency, including the ranking nth position, such as the third and third rankings, not only the first and second rankings.
  • the permutation method may be used to generate an important biomarker combination by calculating a frequency for the biomarker combination up to the ranking n (n> 1).
  • the weight may be the importance value itself, and the weight is given according to a random or statistical basis, such as a weighting method of 1 for a ranking 1 and a weight of 0.5 for a 2nd ranking).
  • a weighting method of 1 for a ranking 1 and a weight of 0.5 for a 2nd ranking an important biomarker combination that reflects both frequency and weight may be found.
  • relative superiority index value can be calculated for every 13Cr composite biomarkers.
  • Relative superiority is an indication of how much superiority there is with a specific composite biomarker compared to other composite biomarkers.
  • performance such as sensitivity, specificity, accuracy, etc. may be calculated for each of the 13Cr complex biomarker combinations, and an optimal complex biomarker may be selected as a performance value for the complex biomarker combination.
  • Sensitivity, specificity, accuracy, etc. are only examples of the performance of each complex biomarker (each complex biomarker equals 1: 1 with the statistical model), and it is obvious that other performance indicators can be calculated, and the ROC curve The area underneath is an example.
  • the number of single biomarkers participating in the composite biomarker when selecting the composite biomarker is called the composite degree.
  • the composite degree is 2 for IGF-1 + CYFRA21.1 and IGF-1 + CYFRA21.1 + RANTES
  • the performance tends to improve as performance indicators such as sensitivity, specificity, accuracy, and the area under the ROC curve can be used.
  • There may be problems such as: 1) increase in manufacturing costs, 2) increase in information processing costs / difficulties, such as data collection and analysis, and 3) increased likelihood of statistical correlation between measurements.
  • a complex biomarker of complex degree n which is a combination of specific biomarkers, provides sufficient and satisfactory performance, the net performance (performance increment) may not be large when additional biomarkers are combined.
  • Table 10 is an example showing the variation (increase) of each evaluation indicator while adding one biomarker to IGF-1 + Cyfra. As can be seen in Table 10, it can be seen that each evaluation index is saturated as the number of biomarkers is increased. If 93% is sufficient based on accuracy (accuracy 93% is cut off), a model with "IGF-1 + CYFRA21.1 + A1AT + RANTES + CEA + CA19-9" composite biomarker will be sufficient. It may be possible that a model that adds a TTR to this model may be unnecessary.
  • the cell values of the tested biomarkers in Table 2 are a list of experimental values of biomarker candidates, and are values obtained by log conversion. As the experimental values are measured values, errors may occur, and when an outlier exists, the outliers may be a major factor that degrades the evaluation model of the statistical model when used as it is. Therefore, there is a need for a method for effectively removing, minimizing, or correcting outliers.
  • An effective method that can be taken is a technique using a decision tree.
  • the classification tree model ranks given data and partitions the data repeatedly. Each partition is aimed to have all or most of one response value. There are various classification techniques such as Bagging, Boosting, and Random Forest in the ensemble technique using the tree.
  • the ensemble technique uses Decision Tree nodes to create multiple trees and combine them to create more stable and powerful classifiers.
  • Boosting is a technique for creating highly accurate classification models by combining several weak classifiers (typically slightly better performance than random choices). Boosting can also take into account the interaction term of a variable, and the importance of the variable is also observed.
  • Random forest is a method of constructing a large number of classification tree models and combining them randomly instead of building one best classification tree model. The advantages of random forest are good classification accuracy, insensitive to outliers, and quick and simple calculations.
  • Partial dependence plots are intended to show the marginal effect of a particular variable value on a response variable (cancer / normal).
  • P (X) corresponds to the rate at which the patient with the marker combination X was selected as cancer in the 50 decision trees, that is, Avg.Score.
  • the function values f (Xs, Xc) can be calculated for all patients. If you want to determine the partial dependence of the first biomarker (for example, RANTES, the current example is XS), collect patients with the same Xs value and average their f (Xs, Xc) values (g (XS) Let's say).
  • the decision tree used when estimating f (Xs, Xc) from the original data is an algorithm using an order rather than the actual value of the data, it can be more insensitive to outliers.
  • Partial dependence plot or partial dependence function relationships remove the effect of the rest of the variables on a single variable. For example, if the input variable has a joint distribution consisting of two variables, Xs and Xc, and you want to know the effect on the Xs variable, you can average the joint distribution over the Xc variable.
  • a partial dependency function relationship can be created for each X, and the partial dependency function relationship corresponds to a partial dependency plot. Using these partial dependency function relationships or partial dependence plots, X can be transformed.
  • the original variable values for each biomarker are obtained for each sample (S51), and the partial processing of the partial dependence plot or partial dependence function for each biomarker is performed by performing a predetermined process with the original input variable values for each biomarker.
  • the biomarker-specific conversion variable values are generated for the original biomarker-specific variable values using the partial dependence plot or partial dependence function-specific biomarker (S53), and the conversion variable values are preset cancer / normal prediction. It may be used (S54) for the generation of statistical models or the execution of cancer / normal prediction statistical models.
  • a statistical model using a composite biomarker of Complexity 3 consisting of A1AT, CYFRA21.1, and RANTES is described as an example.
  • data as shown in Table 11 may be prepared.
  • A1AT, l CYFRA21.1 RANTES has a sample consisting of three biomarkers and creates a statistical model using a tree ensemble method.
  • the decision tree method is expressed by the following equation.
  • Rj represents explanatory variable regions that are mutually exclusive at the teminal node.
  • ⁇ Rj, ⁇ j ⁇ is a parameter to be estimated.
  • Partial plot dependence or partial dependence function of the original by removing the influence of the other parameters for the input variable is a variable
  • the joint distribution would like to know the effect on the variable X RANTES main surface is taken to mean for A1AT X, X Cyfra21.1 variable.
  • the partial dependence function relationship can be expressed by the following expression.
  • 5 is a partial dependency plot of RANTES.
  • the function f value from the partial dependency plot is displayed on the vertical axis, and the horizontal axis is the explanatory variable value.
  • 6 is a boxplot of cancer patients and normal people. Boxplot shows that overall RANTES values are lower in cancer patients than in normal patients. In other words, the smaller the RANTES value, the greater the likelihood of being a cancer patient group. This information is reflected in the partial dependency plot.
  • the y-axis value of the partial dependency plot indicates the effect on the RANTES variable. The smaller the horizontal axis value, the larger the y-axis value. The larger the Y value, the more likely it is to be classified as a disease.
  • a partial dependency plot can be drawn for each explanatory variable X. Partial dependency plots and boxplots for Cyfra21.1 are shown in FIGS. 7 and 8, and partial dependency plots and boxplots for A1AT are shown in FIGS. 9 and 10.
  • the regression model is a method of analyzing the influence of explanatory variables on response variables in general and the results can be used to predict disease diagnosis.
  • There are several regression models such as Lasso regression, Ridge regression, and Logistic regression.
  • the logistic model one of the classification methods, is a model used when the response variable is a binary variable, and can be estimated easily and easily interpreted. Each regression coefficient can be said to represent the influence (importance) of the variable. If the regression coefficient is greater than 0, the probability of Y becoming 1 (probable disease) increases as the value of X increases. If the regression coefficient is smaller than 0, the probability of Y becoming 1 decreases as the value of X increases.
  • the regression coefficient using the Ridge function is estimated as shown in Equation 4 below.
  • the Ridge estimator is an estimator that obtains the smallest error when the regression coefficient estimator is limited.
  • the estimated regression coefficients can be used to obtain predicted probability values of diseases.
  • Equation 5 the logistic regression model to which the estimated regression coefficients are directly corresponded is shown in Equation 5 below.
  • Equation 5 When applying the value of the regression coefficient in the practical exemplary statistical model of the present invention, Equation 5 is as shown in Equation 6.
  • Equation 8 Substituting the regression coefficient estimated in the actual exemplary statistical model into Equation 7, it is as Equation 8.
  • the original variable value for each biomarker can be converted for each sample using a partial dependency plot / function relationship, and generation or cancer of a cancer / normal prediction statistical model preset with the converted biomarker variable value. Can be used to run normal predictive statistical models.
  • a probability function for diagnosing lung cancer as shown in Equation 8 can be obtained by using the biomarker-specific variable values for all statistical models using all the combined biomarker combinations.
  • FIG. 11 is an exemplary diagram of a CP.
  • the x-axis shows the biomarkers to be compared and the y-axis shows the degree of impact on the biomarker's disease.
  • Cyfra21.1 is an important variable causing the disease.
  • the degree of impact on the biomarkers of each biomarker used in CP is calculated as follows.
  • g (x) uses the new input variable converted using a partial dependence plot.
  • the discrimination function obtained from the logistic model for a plurality of biomarkers having a complex degree K may be expressed as in Equation 9 below. Standardizing the new input variables and multiplying the beta coefficients with a plot gives a measure of the impact of each biomarker.
  • the method of generating CP includes a method of listing individual biomarkers constituting the composite biomarker on the X axis (S61) and displaying the influence information for each biomarker on the Y axis (S62).
  • the actual cancer is not two cancers are diagnosed, it can be seen that the accuracy of the prediction is very high as the cancer is not diagnosed as non-cancer.
  • 8178 complex marker combinations having a complexity of 2 in pairs of 13 biomarkers were generated. Cancer diagnosis models corresponding to the generated biomarker combinations are generated, and 128 cancers (78 males and 50 females) and 121 lung cancer patients (78 males and 43 females) are normal for the generated cancer diagnostic models. Persons) were tested, and the evaluation indicators (accuracy, sensitivity and specificity) for each cancer diagnosis model corresponding to the test results are shown in Tables 14 to 24 below. Each cancer diagnostic model tested corresponds to a separate embodiment from the perspective of the cancer diagnostic model, but all 8178 embodiments should be presented and listed, but in the case of listing, it takes up too much space, and the patent expresses the invention idea.
  • Each embodiment presented in the form of a table has a cancer diagnosis model number, and the cancer diagnosis model corresponding to the number corresponds to a biomarker combination that participates in the cancer diagnosis model.
  • the evaluation index which is the result of the test of 78 males and 50 females and 121 lung cancer patients (78 males and 43 females), is written.
  • a complex marker combination of complex degree 2 was generated in pairs of 13 biomarkers.
  • 78 cancer diagnostic models corresponding to the generated biomarker combinations were generated, and an evaluation index was generated for each generated cancer diagnostic model.
  • For each cancer diagnosis model a test was performed on 128 healthy patients (78 males and 50 females) and 121 lung cancer patients (78 males and 43 females).
  • Some of the evaluation indicators (accuracy, sensitivity and specificity) for each cancer diagnosis model are shown in Table 14 below.
  • Table 14 shows the evaluation index of the cancer diagnostic model corresponding to the combination biomarker combination of Complexity 2 corresponding to the top 50% of the accuracy criteria.
  • the model of complexity 2 has a number of cancer diagnosis models that can be adopted at the 85% level of the evaluation index.
  • a complex marker combination of complex degree 3 was generated in pairs of 3 for 13 biomarkers. 286 cancer diagnostic models corresponding to the generated biomarker combinations were generated, and an evaluation index was generated for each generated cancer diagnostic model.
  • Table 15 shows the evaluation index of the cancer diagnostic model corresponding to the complex biomarker combination corresponding to the top 30 accuracy criteria.
  • the cancer diagnostic model exceeding 90% of accuracy criteria or extremely close to 90% includes IGF-1 and RANTES among the 13 biomarkers. It can be seen that.
  • a complex marker combination of complex degree 4 was generated in pairs of 4 for 13 biomarkers. 286 cancer diagnostic models corresponding to the generated biomarker combinations were generated, and an evaluation index was generated for each generated cancer diagnostic model.
  • Table 16 below shows the evaluation indicators of the cancer diagnostic model corresponding to the complex biomarker combination corresponding to the top 30 accuracy criteria
  • Table 17 below shows the cancer corresponding to the complex biomarker combination corresponding to the 60th position in the top 31 accuracy criteria. It shows the evaluation index of the diagnostic model.
  • IGF-1 and RANTES are included 19 times and 20 times in the top 30 positions in the cancer diagnosis model based on Complexity 4, respectively. It can be seen that. On the other hand, it can be seen that a large number of A1AT and TTR is included.
  • IGF-1 and RANTES are likely to be the major biomarkers in the cancer diagnosis model, and A1AT and TTR are the major biomarkers in the cancer diagnosis model. The probability is high.
  • a complex marker combination of complex degree 5 was generated in pairs of 5 for 13 biomarkers.
  • a cancer diagnostic model corresponding to the generated biomarker combination was generated, and an evaluation index was generated for each generated cancer diagnostic model.
  • Tables 18 to 21 select cancer diagnosis models based on the accuracy evaluation criteria of 90%.
  • Table 18 shows the evaluation indicators of the cancer diagnostic model corresponding to the complex biomarker combination corresponding to the top 30 accuracy criteria
  • Table 19 shows the cancer corresponding to the complex biomarker combination corresponding to the 60th position in the top 31 accuracy criteria.
  • the evaluation index of the diagnostic model is shown
  • Table 20 below shows the evaluation index of the cancer diagnostic model corresponding to the complex biomarker combination corresponding to the top 61 to the 90th accuracy criteria.
  • the evaluation index of the cancer diagnostic model corresponding to the combination biomarker of the 117th place is shown.
  • IGF-1 and RANTES contained 23 and 27 times, respectively. It can be seen that.
  • A1AT and TTR are also included in a plurality of 15 times and 22 times, respectively.
  • the highest 1 to 117 are among the 13 biomarkers containing 73 and 88 IGF-1 and RANTES, respectively. It can be seen that the form, and A1AT 65 times, TTR is included 64 times.
  • a complex marker combination having a complex degree of 6 was formed in pairs of 6 for 13 biomarkers.
  • a cancer diagnostic model corresponding to the generated biomarker combination was generated, and an evaluation index was generated for each generated cancer diagnostic model.
  • Table 22 below shows the evaluation index of the cancer diagnostic model included in the top 30.
  • RANTES is included in all cancer diagnostic models in complex cancer model 6, and A1AT and IGF-1 are included 24 and 24 times, respectively, and Cyfra21-1 and TTR are also included. It can be seen that it is contained.
  • a compound marker combination of compound degree 7 was generated in pairs of 7 for 13 biomarkers.
  • a cancer diagnostic model corresponding to the generated biomarker combination was generated, and an evaluation index was generated for each generated cancer diagnostic model.
  • Table 23 below shows the evaluation index of the cancer diagnostic model included in the top 30.
  • the inventors of the present invention have a combination of 8 complex markers in a combination of 8 for 13 biomarkers, a complex marker combination in a complex of 9 in a pair of 9, a complex marker combination of 10 in a complex of 10, a pair of 11
  • a cancer diagnostic model including a complex marker combination of complex level 11, a complex marker combination of complex level 12 in pairs of 12, and all 13 biomarkers was generated, and an evaluation index was generated for each generated cancer diagnostic model.
  • lung cancer diagnosis capability is compared with the individual biomarker or configured biomarker combination candidates constituting the biomarker combination candidate (S22). )can do.
  • the comparison may be compared with an evaluation index.
  • biomarker combination candidates a biomarker combination whose lung cancer diagnosis ability is greater than or equal to a predetermined criterion is selected (S23).
  • the predetermined criterion may be different depending on which evaluation indicator is used in the selection. Specificity may be an important evaluation index in the diagnosis of lung cancer, and the area of the ROC curve may be an effective evaluation index.
  • At least one biomarker is selected from the first biomarker group (S31), at least one biomarker is selected from the second biomarker group (S32), and at least one biomarker is included.
  • a biomarker combination candidate group including one or more biomarker combinations may be configured (S33), and lung cancer diagnosis capability may be compared with individual biomarkers or configured biomarker combination candidates constituting the biomarker combination candidate (S34).
  • the present invention provides a kit for lung cancer diagnosis and screening comprising a combination of two or more antibodies that can specifically bind to the 13 biomarkers.
  • the kit of the present invention may include an antibody capable of specifically binding to each biomarker constituting the complex biomarker for use in quantifying a complex biomarker having a difference in expression in a lung cancer patient and a normal person. have.
  • the kit distinguishes whether or not the patient is lung cancer and enables medical practitioners, such as doctors, to diagnose and screen lung cancer, as well as monitor the patient's response to the treatment and modify the treatment accordingly. . It can also be used to identify compounds that modulate the expression of one or more biomarkers in vivo or ex vivo in a lung cancer model (eg, an animal model such as mouse, rat, etc.). Thus, the biomarker of the present invention may be further included in the kit as a standard material.
  • Antibodies that can be used in the kits of the present invention include polyclonal antibodies, monoclonal antibodies, fragments capable of binding epitopes, and the like.
  • Polyclonal antibodies can be produced by conventional methods of injecting any one of the 13 proteins into an animal and collecting blood from the animal to obtain a serum comprising the antibody.
  • Such polyclonal antibodies can be purified by any method known in the art and can be made from any animal species host, such as goats, rabbits, sheep, monkeys, horses, pigs, cattle, dogs and the like.
  • Monoclonal antibodies can be prepared using any technique that provides for the production of antibody molecules through the culture of continuous cell lines. Such techniques include, but are not limited to, hybridoma technology, human B-cell hybridoma technology, and EBV-hybridoma technology (Kohler G et al., Nature 256: 495-497, 1975; Kozbor D et al., J Immunol Methods 81: 31-42, 1985; Cote RJ et al., Proc Natl Acad Sci 80: 2026-2030, 1983; and Cole SP et al., Mol Cell Biol 62: 109-120, 1984).
  • antibody fragments containing specific binding sites for any of the 13 proteins can be prepared.
  • F (ab ') 2 fragments can be prepared by digesting antibody molecules with pepsin
  • Fab fragments can be prepared by reducing the disulfide bridges of F (ab') 2 fragments.
  • a Fab expression library can be constructed to quickly and simply identify monoclonal Fab fragments with the desired specificity (Huse WD et al., Science 254: 1275-1281, 1989).
  • the antibody can be bound to a solid substrate to facilitate subsequent steps such as washing or separation of the complex.
  • Solid substrates include, for example, synthetic resins, nitrocellulose, glass substrates, metal substrates, glass fibers, paramagnetic beads, microspheres and microbeads.
  • the synthetic resins include polyester, polyvinyl chloride, polystyrene, polypropylene, PVDF and nylon.
  • the microspheres are suspended and then transferred to a microtube to remove the supernatant by centrifugation, and then resuspended.
  • N-hydroxy-sulfosuccinimide and 1-ethyl-3- (3-dimethylaminopropyl) -carbodiimide hydrochloride-ethyl-3- (3-dimethylaminopropyl) -carbodiimide hydrochloride ) was treated sequentially and then the supernatant was removed by centrifugation, washed and stored.
  • the sample when a sample obtained from a patient is contacted with an antibody capable of specifically binding to any of the 13 proteins of the present invention bound to a solid substrate, the sample may be diluted to a suitable degree prior to contact with the antibody. .
  • the kit of the present invention may further comprise a detection antibody that specifically binds to the biomarker.
  • the detection antibody may be a conjugate labeled with a detector such as a chromophore, a fluorescent substance, a radioisotope or a colloid, and preferably, a primary antibody capable of specifically binding to the biomarker.
  • the chromase may be peroxidase, alkaline phosphatase or acid phosphatase (eg horseradish peroxidase);
  • fluorescent materials fluorescein carboxylic acid (FCA), fluorescein isothiocyanate (FITC), fluorescein thiourea (FTH), 7-acetoxycoumarin-3-yl, fluorescein-5-yl , Fluorescein-6-yl, 2 ', 7'-dichlorofluorescein-5-yl, 2', 7'-dichlorofluorescin-6-yl, dihydrotetramethyllosamine-4-yl, Tetramethyllodamine-5-yl, tetramethyllodamine-6-yl, 4,4-difluoro-5,7-dimethyl-4-bora-3a, 4a-diaza-s-indacene-3- Ethyl or 4,4-difluoro-5,7-dip
  • the kit of the present invention may further comprise (1) a detection antibody that specifically binds to the biomarker and (2) a ligand that can specifically bind to the detection antibody.
  • the ligand includes a secondary antibody that specifically binds to protein A or an antibody for detection.
  • the ligand may be a conjugate labeled with a detector such as a chromophore, a fluorescent substance, a radioisotope or a colloid.
  • the detection antibody is preferably a biotinylated or digoxigenin-treated primary antibody for the ligand, but the method of treating the detection antibody is not limited thereto.
  • streptavidin As the ligand, streptavidin, avidin, or the like is preferably used to bind the detection antibody, but is not limited thereto.
  • streptavidin streptavidin (streptavidin) having a fluorescent substance attached thereto was used as a ligand, and a detection antibody biotinylated for the ligand was used.
  • the diagnostic and screening kit of the present invention can diagnose and screen lung cancer by treating the antibody and biomarker complex with a detection antibody and then searching for the amount of the detection antibody.
  • the antibody and the biomarker complex may be sequentially treated with a detection antibody and a ligand, and then lung cancer may be diagnosed and screened by searching for the amount of the antibody for a detector.
  • the amount of the biomarker can be determined by measuring the antibody for detection by aligning the antibody for detection with the washed antibody-biomarker complex and then washing the antibody. Determination of the amount or detection of the antibody for detection can be made through fluorescence, luminescence, chemiluminescence, absorbance, reflection or transmission.
  • a method of detecting the amount of the antibody or ligand for detection it is preferable to use a high throughput screening (HTS) system, wherein a fluorescence method or detection performed by detecting a fluorescence by attaching a fluorescent material to the detector Radiation method performed by detecting radiation by attaching a radioisotope into a sieve; It is preferable to use a surface plasmon resonance (SPR) method for measuring the plasmon resonance change of the surface in real time without labeling the detector or a surface plasmon resonance imaging (SPRI) method for imaging and confirming the SPR system.
  • SPR surface plasmon resonance
  • SPRI surface plasmon resonance imaging
  • the fluorescence method uses a fluorescence scanner program to label the detection antibody with a fluorescent material and spot the signal by spotting. This method can be applied to confirm the degree of binding.
  • the fluorescent material is Cy3, Cy5, poly L-lysine-fluorescein isothiocyanate (FITC), rhodamine-B-isothiocyanate (RITC) , Rhodamine, PE (Phycoerythrin) is preferably any one selected from the group consisting of, but is not limited thereto.
  • the SPR system can analyze the binding degree of the antibody in real time without labeling the sample with a fluorescent material, but has the disadvantage that simultaneous sample analysis is impossible. In the case of SPRI, it is possible to analyze multiple samples simultaneously using a microalignment method, but it has a disadvantage of low detection intensity.
  • the kit for diagnosis and screening of the present invention may further include a washing solution or an eluent which can remove the substrate and unbound protein and the like to develop a color reaction with the enzyme and retain only the bound biomarker.
  • Samples used for analysis include biological samples capable of identifying disease specific polypeptides that can be distinguished from normal conditions such as serum, urine, and tear saliva. Preferably from a biological liquid sample, for example blood, serum, plasma, more preferably serum. Samples may be prepared to increase detection sensitivity of biomarkers, for example serum samples obtained from patients may be anion exchange chromatography, affinity chromatography, size exclusion chromatography, liquid chromatography, continuous It may be pretreated using a method such as sequential extraction or gel electrophoresis, but is not limited thereto.
  • the present invention provides a biochip for lung cancer diagnosis and screening in which a biomolecule capable of specifically binding to any one of the 13 proteins is integrated on a solid substrate.
  • the biochip of the present invention can specifically bind to any one of the 13 proteins for use in measuring one or more of the 13 proteins, such as the difference in expression in lung cancer patients and normal people. Antibodies, or combinations of two or more of the above specific antibodies.
  • the biomolecule is selected from the group consisting of low molecular weight compounds, ligands, aptamers, peptides, polypeptides, specific binding proteins, high molecular materials and antibodies, and any material that can specifically bind to the protein, It is preferable to use an antibody or aptamer, but is not limited thereto.
  • the antibody is preferably a polyclonal antibody or a monoclonal antibody, more preferably a monoclonal antibody.
  • Antibodies that specifically bind to the proteins may be prepared by known methods known to those skilled in the art, and commercially known antibodies may be purchased and used.
  • the antibody can be prepared by injecting a protein that is an immunogen into an external host according to conventional methods known to those skilled in the art. External hosts include mammals such as mice, rats, sheep, rabbits. Immunogens are injected by intramuscular, intraperitoneal or subcutaneous injection and can generally be administered with an adjuvant to increase antigenicity.
  • Antibodies can be isolated by collecting blood periodically from an external host and collecting serum showing shaped titers and specificity for the antigen.
  • the solid substrate of the biochip of the present invention may be selected from the group consisting of plastics, glass, metals and silicon, and preferably may be chemically treated or a linker molecule is bound to attach the antibody to the surface thereof. It is not limited.
  • the biochip of the present invention can easily and accurately diagnose lung cancer by screening the whole protein from the sample and reacting with the biochip.
  • the active group coated on the substrate of the biochip serves to bind the material, and may be selected from the group consisting of an amine group, an aldehyde group, a carboxyl group and a thiol group. Any active group known as an activator capable of binding a protein molecule to a substrate may be used by one skilled in the art, but is not limited thereto.
  • the lung cancer diagnosis system performs lung cancer diagnosis using information directly or derived from or read from the diagnostic kit.
  • the lung cancer diagnosis system includes an information acquisition module that obtains expression amount information or expression rate ratio information for each biomarker constituting the biomarker combination measured from blood, plasma, serum or other collected material separated from the subject's body, And a lung cancer diagnostic module configured to process the obtained expression level information or expression level ratio information into a preset lung cancer diagnostic model, and lung cancer diagnostic information generation module configured to generate at least one lung cancer diagnostic information from the lung cancer diagnostic module.
  • the lung cancer diagnostic module may further include at least one or more conversion modules preset with respect to the expression level information or expression level ratio information, and the conversion module may further include expression level conversion information or expression level ratio information for the expression level information. First, the expression rate ratio conversion information is generated.
  • the lung cancer diagnostic model receives the generated expression level conversion information or the expression level ratio conversion information as input values, and the conversion module expresses the expression using a partial dependence plot or partial dependency function relationship of an ensemble technique using a tree. Quantity conversion information or expression rate ratio conversion information is generated. This is as described above.
  • the lung cancer diagnostic model is a logistic model, and the logistic model estimates a probability value classified as lung cancer by receiving the expression level conversion information or the expression level ratio conversion information.
  • the CP information generation unit 1310 of the lung cancer diagnosis information generation module 1300 may further generate information on the disease diagnosis contribution rate for each biomarker, and the disease diagnosis contribution rate for each biomarker may be determined by the biomarker combination.
  • the degree of effect on lung cancer is generated in the form of a coefficient plot using a predetermined discriminant function obtained from a logistic model for the biomarkers included in.
  • the information obtaining module obtains expression amount information or expression amount ratio information for each biomarker by the lung cancer diagnosis system directly obtained from the diagnosis kit, the lung cancer diagnosis system and the diagnostic kit connected through a wired or wireless network.
  • the method of obtaining the expression information of each biomarker is transmitted from a third system capable of reading the method and the biomarker is transmitted from the computer of the person receiving the expression information of the biomarker connected to the wire and wireless network with the lung cancer diagnosis system A method of obtaining in a manner may be used.
  • expression level information can be directly obtained from the diagnostic kit.
  • the expression level information read directly or indirectly from the computer of the person who read the expression level information is wired or wireless. It is possible to transmit to the lung cancer diagnosis system through a network.
  • the lung cancer diagnosis system obtains expression amount information or expression amount ratio information for each biomarker constituting a biomarker combination measured from blood, plasma, serum or other collected material separated from the subject's body (S41).
  • the expression level information or expression level ratio information is processed into a lung cancer diagnostic module including a preset lung cancer diagnostic model (S42) to generate at least one lung cancer diagnostic information from the lung cancer diagnostic module (S43).
  • the lung cancer diagnosis system may store a plurality of lung cancer diagnosis models in a lung cancer diagnosis model unit and perform lung cancer diagnosis service for those who use a plurality of different lung cancer diagnosis biomarker combinations.
  • hospital A performs lung cancer diagnosis using a lung cancer diagnostic kit associated with a + b + c + d complex biomarker
  • hospital B uses a lung cancer diagnostic kit associated with a + c + e + f complex biomarker.
  • the information obtained by the lung cancer diagnosis system should include the sample ID and expression information for each biomarker.
  • the lung cancer diagnostic model selection unit of the lung cancer diagnosis system extracts a biomarker combination used in the diagnosis kit through a plurality of biomarkers corresponding to the expression amount information from the expression level information for each biomarker obtained, and extracts the extracted biomarker.
  • the marker combination information determines which lung cancer diagnostic model to select.
  • lung cancer diagnosis is performed using a lung cancer diagnostic model associated with a + b + c + d complex biomarker for hospital A, and lung cancer diagnosis model associated with a + c + e + f complex biomarker for hospital B. To perform lung cancer diagnosis.
  • the present invention can be utilized in the medical industry, the medical information processing industry, and industries related to cancer diagnosis and prevention.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Immunology (AREA)
  • Engineering & Computer Science (AREA)
  • Hematology (AREA)
  • Chemical & Material Sciences (AREA)
  • Urology & Nephrology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Cell Biology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 폐암 진단에 특이적인 2 이상의 바이오마커를 복합적으로 사용함으로써 폐암 진단 능력을 높인 폐암 진단을 위한 복합 바이오마커, 폐암 진단용 복합 바이오마커 정보 이용 방법, 폐암 진단용 키트에 관한 것이다. 본 발명을 활용하면, 단일 바이오마커에 비하여, 폐암 진단 능력이 높은 복합 바이오마커를 구성할 수 있어, 폐암 진단 키트 및 폐암 진단 키트를 이용하는 폐암 진단 방법의 효율성을 높일 수 있다.

Description

폐암 진단용 복합 바이오마커 및 이를 이용한 폐암 진단 방법
본 발명은 폐암 진단 예측을 위한 복합 바이오마커, 구성 방법, 복합 바이오마커를 사용하는 폐암 진단 예측 방법, 폐암 진단 예측 시스템, 폐암 진단 키트, 암 진단 방법, 암 진단 모델 생성 방법, 암 진단 예측 시스템에 관한 것으로, 폐암을 진단하는 2이상의 바이오마커를 복합적으로 사용함으로써 폐암 진단 예측 능력을 높인 폐암 진단 예측을 위한 복합 바이오마커, 구성 방법, 복합 바이오마커를 사용하는 폐암 진단 예측 방법, 폐암 진단 예측 시스템, 폐암 진단 키트과 통계학적 방법을 사용하는 암 진단 방법, 암 진단 모델 생성 방법, 암 진단 예측 시스템에 관한 것이다.
폐암은 폐에 발생하는 암으로, 흡연, 공해 등이 가장 큰 원인인 선진국형 암으로, 20세기에 들어서면서 구미 각국에서 급격히 증가하기 시작하여 전 세계적으로 매년 130만 명 이상이 폐암으로 사망하며, 암으로 인한 사망에서 가장 높은 비중을 차지하고 있다. 한국의 경우에도, 매년 10여 만 명의 암 환자가 새로 발생하고 5만 여명의 암 환자가 사망하고 있는 것으로 보고되었다. 더욱이 암의 발생 빈도는 최근 들어 더욱 증가하는 추세로 현재 암은 우리나라 성인 사망 원인의 2위를 차지하고 있다. 특히, 폐암은 한국 성인에서 발생하는 암중에서 약 12%를 차지하며 위암, 간암에 이어 제3위의 발생률을 보이며 매년 남녀 모두에서 발생율이 증가하고 있다. 폐암의 발생율은 여성보다 남성에서 현저히 높으며 상대적으로 45세 미만의 젊은 환자의 비율이 높은 것으로 보고 되었다. 더구나 폐암은 진단 당시 이미 다른 장기로 전이를 하였거나 전이가 없는 경우에도 국소적으로 진행되어 근치적절제술, 항암 화학 요법, 방사선 치료 등의 다양한 치료법에도 불구하고 치료 후 재발과 전이에 의해 5년 생존율이 5% 정도에 머무르는 완치율이 매우 낮은 종양으로 암에 의한 사망율 1위를 차지하고 있다.
폐암은 소세포폐암 (small cell lung cancer)과 비소세포폐암 (non-small cell lung cancer)로 나누어진다. 그 중에서 비소세포폐암은 폐암의 약 80%에 해당하는 가장 대표적인 암으로, 선암(adenocarcinoma), 편평상피세포암(squamous cell carcinoma), 대세포 폐암 (large cell carcinoma)으로 나누어진다. 폐암 종류에 따라 조직학적 특성이 차이가 날뿐 아니라 예후와 치료 방법에서도 차이가 보이므로 정확한 진단이 중요하다. 비소세포폐암의 경우, 최근의 암 치료법의 발달에도 불구하고 10년 생존률이 10% 이하로 매우 낮다. 이는 대부분의 비소세포폐암이 진행된 단계(advanced stage) 까지 진단이 어려운데 원인이 있다.
현재로서는 조기 진단이 환자의 생존 가능성을 높이는 가장 좋은 방법이다. 이에, 바이오마커들을 이용하여 폐암을 진단하기 위한 다양한 시도들이 진행되었다.
본 발명이 해결하려는 첫번째 기술적 과제는 폐암 진단 예측을 위한 복합 바이오마커 구성 방법을 제시하는 것이다.
본 발명이 해결하려는 두번째 기술적 과제는 구성된 복합 바이오마커군을 제시하는 것이다.
본 발명이 해결하려는 세번째 기술적 과제는 복합 바이오마커를 사용하는 폐암 진단 예측 방법을 개시하는 것이다.
본 발명이 해결하려는 네번째 기술적 과제는 복합 바이오마커를 사용하는 폐암 진단 예측 시스템을 개시하는 것이다.
본 발명이 해결하려는 다섯번째 기술적 과제는 입력 변수의 이상치를 효과적으로 보정 또는 제거함으로써 암/정상 진단 예측 능력을 높이는 방법을 제시하는 것이다.
본 발명이 해결하려는 여섯번째 기술적 과제는 복합 바이오마커를 사용하는 경우, 어느 바이오마커가 얼마만한 영향을 미치는지를 직관적으로 용이하게 알아 볼 수 있도록 하는 방법을 제시하는 것이다.
본 발명이 해결하려는 일곱번째 기술적 과제는 복수 개의 분류기와 통계학적 방법을 사용하는 암 진단 방법, 암 진단 모델 생성 방법, 암 진단 예측 시스템을 제시하는 것이다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 폐암 진단용 복합 바이오마커군에 있어서, 개별 바이오마커 IGF-1 및 RANTES로 이루어진 제1 바이오마커군에서 선택되는 어느 하나 이상의 바이오마커 및, 개별 바이오마커 A1AT, CYFRA21-1, proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9, ApoA1, ApoA1/proApoA1로 이루어진 제2 바이오마커군에서 선택되는 어느 하나 이상의 바이오마커를 포함하는 것을 특징으로 하는 폐암 진단용 복합 바이오마커를 제시한다.
상기 제1 바이오마커군에서 선택되는 바이오마커는 IGF-1 및 RANTES인 것이 바람직하다.
상기 제2항에서 선택되는 바이오마커는 A1AT, CYFRA21-1 및 TTR 중 어느 하나 이상을 포함하는 것인 것이 바람직하다.
상기 제2 바이오마커군에서 선택되는 바이오마커는 AFP, CA19-9, CYFRA21-1, A1AT, PAI-1 중 어느 하나 이상인 것이 바람직하다.
상기 제2 바이오마커군에서 선택되는 바이오마커는 A1AT, CYFRA21-1, proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9, ApoA1/proApoA1, ApoA1 중 어느 2 이상인 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 폐암 진단용 시스템의 폐암 진단용 복합 바이오마커 정보 이용 방법에 있어서, 상기 폐암 진단용 시스템이, (A) 폐암 진단 대상자의 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 측정되는 개별 바이오마커 IGF-1 및 RANTES로 이루어진 제1 바이오마커군에서 선택되는 어느 하나 이상의 제1 바이오마커군의 바이오마커별 발현량 및 개별 바이오마커 A1AT, CYFRA21-1, proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9 및 ApoA1로 이루어진 제2 바이오마커군의 바이오마커별 발현량 측정 정보를 입수하는 단계; (B) 상기 제1 바이오마커군의 바이오마커별 발현량 및 상기 제2 바이오마커군의 바이오마커별 발현량 정보를 처리하여, 기설정된 폐암 판정 모델에 투입하는 단계; 및, (C) 상기 폐암 판정 모델로부터 폐암 판정 정보를 생성하는 단계;를 포함하는 것을 특징으로 하는 폐암 진단용 복합 바이오마커 정보 이용 방법을 제시한다.
상기 (B) 단계에서 상기 바이오마커별 발현량 정보를 처리하는 것은, 상기 제2 바이오마커군에서 ApoA1의 발현량 및 proApoA1의 발현량 정보가 있는 경우, ApoA1 발현량과 proApoA1 발현량의 비율값을 생성하는 것이며, 상기 폐암 판정 모델에 ApoA1의 발현량, proApoA1의 발현량, 및 ApoA1 발현량과 proApoA1 발현량의 비율값 중 어느 하나 이상을 투입하는 것인 것이 바람직하다.
상기 바이오마커별 발현량 정보를 처리하는 것은 상기 바이오마커별 발현량 정보를 의사 결정 나무를 이용한 앙상블 방법의 partial dependency plot 내지는 partial dependency 함수 관계를 이용하여 변환된 바이오마커별 발현량 정보를 생성하는 것인 것이 바람직하다.
상기 폐암 판정 모델은 로지스틱 회귀 모델인 것이 바람직하다.
상기 로지스틱 회귀 모델은 리지 벌점 함수(Ridge Penalty)를 사용한 것인 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 폐암 진단용 키트에 있어서, 개별 바이오마커 IGF-1 및 RANTES로 이루어진 제1 바이오마커군에서 선택되는 어느 하나 이상의 단백질 및, 개별 바이오마커 A1AT, CYFRA21-1, proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9, ApoA1로 이루어진 제2 바이오마커군에서 선택되는 어느 하나 이상의 단백질에 특이적으로 결합하는 항체를 포함하는 것을 특징으로 하는 폐암 진단용 키트를 제시한다.
상기 제1 바이오마커군에서 선택되는 단백질은 IGF-1 및 RANTES인 것이 바람직하다.
상기 제2 바이오마커군에서 선택되는 단백질은 A1AT, TTR, CYFRA21-1 중 어느 하나 이상을 포함하는 것인 것이 바람직하다.
상기 제2 바이오마커군에서 선택되는 단백질은 AFP, CA19-9, CYFRA21-1, A1AT, PAI-1 중 어느 하나 이상인 것이 바람직하다.
상기 제2 바이오마커군에서 선택되는 단백질은 A1AT, CYFRA21-1, proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9, ApoA1 중 어느 2 이상인 것이 바람직하다.
상기 폐암 진단용 키트는 폐암 모니터링, 폐암 스크리닝의 목적으로도 사용되는 것인 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 폐암 진단 예측을 위한 복합 바이오마커를 구성하는 방법에 있어서, 개별 바이오마커 A1AT, IGF-1, RANTES, TTR로 구성되는 제1 바이오마커 군에서 선택되는 어느 2 이상의 바이오마커를 포함하여 구성되는 적어도 하나 이상의 제1 바이오마커 조합을 포함하는 바이오마커 조합 후보군을 구성하는 단계; 상기 바이오마커 조합 후보군을 구성하는 바이오마커 조합 후보에 대하여, 상기 바이오마커 조합 후보를 구성하는 개별 바이오마커 또는 상기 구성된 바이오마커 조합 후보들과 폐암 진단 예측 능력을 비교하는 단계;및, 상기 바이오마커 조합 후보 중 상기 폐암 진단 예측 능력이 기설정된 기준 이상인 바이오마커 조합을 선별하는 단계;를 포함하는 것을 특징으로 하는 폐암 진단 예측을 위한 복합 바이오마커 구성 방법을 제시한다.
상기 폐암 진단 예측 능력을 비교하는 것은 폐암 발명 환자군과 폐암 정상군 각각으로부터 시료를 채취하고, 상기 채취된 시료에 대하여 상기 바이오마커 조합의 폐암 진단 예측 능력에 대한 기설정된 적어도 하나 이상의 지표값을 측정하는 것인 것이 바람직하다.
상기 바이오마커 조합 후보군에는 상기 제1 바이오마커 조합에 개별 바이오마커 CYFRA21.1, AFP, CEA, ApoA1/proApoA1, EGFR, PAI-1, CA19-9, ApoA1, proApoA1로 구성되는 제2 바이오마커 군에서 선택되는 어느 하나 이상의 바이오마커가 더 추가된 제2 바이오마커 조합이 더 포함되어 있는 것인 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 폐암 진단 예측을 위한 복합 바이오마커를 구성하는 방법에 있어서, 개별 바이오마커 A1AT, IGF-1, RANTES, TTR 로 구성되는 제1 바이오마커 군에서 어느 하나 이상의 바이오마커를 선택하고, 개별 바이오마커 AFP, CEA, ApoA1/proApoA1, EGFR, PAI-1, CA19-9, CYFRA21.1, ApoA1, proApoA1 로 구성되는 제2 바이오마커 군에서 어느 하나 이상의 바이오마커를 선택하여, 2 이상의 바이오마커를 포함하여 구성되는 적어도 하나 이상의 바이오마커 조합을 포함하는 바이오마커 조합 후보군을 구성하는 단계; 상기 바이오마커 조합 후보군을 구성하는 바이오마커 조합 후보에 대하여, 상기 바이오마커 조합 후보를 구성하는 개별 바이오마커 또는 상기 구성된 바이오마커 조합 후보들과 폐암 진단 예측 능력을 비교하는 단계;및, 상기 바이오마커 조합 후보 중 상기 폐암 진단 예측 능력이 기설정된 기준 이상인 바이오마커 조합을 선별하는 단계;를 포함하는 것이며, 상기 폐암 진단 예측 능력을 비교하는 것은 폐암 발명 환자군과 폐암 비발명 환자군 각각으로부터 시료를 채취하고, 상기 채취된 시료에 대하여 상기 바이오마커 조합의 폐암 진단 예측 능력에 대한 기설정된 적어도 하나 이상의 지표값을 측정하는 것인 것을 특징으로 하는 폐암 진단 예측을 위한 복합 바이오마커 구성 방법을 제시한다.
상기 폐암 진단 예측 능력을 비교하는 것은, 상기 제1 바이오마커군 및 상기 제2 바이오마커 군에서 선택되어 조합되는 바이오마커들의 복합도를 증가시키면서, 상기 폐암 진단 예측 능력에 대한 지표값을 측정하는 것인 것이며, 상기 복합도는 상기 바이오마커 조합을 구성하는 바이오마커의 수인 것이 바람직하다.
상기 복합도를 증가시키면서, 기설정된 복합도에서 상기 바이오마커 조합들에 대하여, 기설정된 지표값 이상을 충족하는 상기 바이오마커 조합들을 구성하는 개별 바이오마커의 빈도를 측정하여 상기 기설정된 복합도에서 적어도 하나 이상의 최빈 바이오마커를 추출하는 단계;를 더 포함하는 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 폐암 진단 예측을 위한 복합 바이오마커에 있어서, 상기 복합 바이오마커는 개별 바이오마커 A1AT, IGF-1, RANTES, TTR로 구성되는 제1 바이오마커 군에서 선택되는 어느 2 이상의 바이오마커를 포함하여 구성되는 바이오마커 조합인 것이며, 폐암 진단 예측 능력을 구성하는 적어도 한 종류 이상의 지표값을 기준으로, 상기 바이오마커 조합의 지표값은 상기 바이오마커 조합을 구성하는 개별 바이오마커의 지표값보다 모두 우수한 것인 것을 특징으로 하는 폐암 진단 예측을 위한 복합 바이오마커를 제시한다.
상기 바이오마커 조합 후보군에는 상기 제1 바이오마커 조합에 개별 바이오마커 AFP, CEA, ApoA1/proApoA1, EGFR, PAI-1, CA19-9, CYFRA21.1, ApoA1, proApoA1로 구성되는 제2 바이오마커 군에서 선택되는 어느 하나 이상의 바이오마커가 더 추가된 제2 바이오마커 조합이 더 포함되어 있는 것인 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 폐암 진단 예측을 위한 복합 바이오마커를 활용하는 폐암 진단 키트에 있어서, 상기 진단 키트는 적어도 2 이상의 수용 영역; 상기 2 이상의 각 수용 영역에 수용되며, 기설정된 바이오마커에 특이적으로 결합하는 2 이상의 바이오마커 대응 항체;를 포함하며, 상기 항체는 A1AT 대응 항체, IGF-1 대응 항체, RANTES 대응 항체, TTR 대응 항체로 구성되는 제1 바이오마커 대응 항체군에서 선택되는 어느 2 이상의 항체를 포함하는 제1 방식 및 A1AT 대응 항체, IGF-1 대응 항체, RANTES, TTR 대응 항체 대응 항체로 구성되는 제1 바이오마커 대응 항체군에서 선택되는 어느 하나 이상의 항체와 바이오마커 AFP 대응 항체, CEA 대응 항체, ApoA1 대응 항체, proApoA1 대응 항체, EGFR 대응 항체, PAI-1 대응 항체, CA19-9 대응 항체, CYFRA21.1 대응 항체로 구성되는 제2 바이오마커 대응 항체군에서 선택되는 어느 하나 이상의 항체로 구성되는 제2 방식 중 어느 하나의 방식으로 구성되는 적어도 하나 이상의 바이오마커 대응 항체 조합을 형성하는 것이며, 상기 2 이상의 바이오마커 대응 항체는 2 이상의 바이오마커 조합에 대응되는 것이며, 폐암 진단 예측 능력을 구성하는 적어도 한 종류 이상의 지표값 또는 하나 또는 2 이상의 지표값을 연산한 지표값을 기준으로, 상기 바이오마커 조합의 지표값은 상기 바이오마커 조합을 구성하는 비교 대상인 개별 바이오마커의 지표값보다 모두 우수한 것인 것을 특징으로 하는 복합 바이오마커를 활용하는 폐암 진단 키트를 제시한다.
상기 바이오마커 조합은 CYFRA21.1+IGF-1 조합, A1AT+IGF-1 조합, IGF-1+RANTES 조합, CYFRA21.1+RANTES 조합 및 A1AT+RANTES 조합 중 어느 하나 이상인 것이거나, 상기 CYFRA21.1+IGF-1 조합, 상기 A1AT+IGF-1 조합, 상기 IGF-1+RANTES 조합, 상기 CYFRA21.1+RANTES 조합 및 상기 A1AT+RANTES 조합을 포함하는 복합도 3 이상의 바이오마커 조합 중 어느 하나 이상인 것이 바람직하다.
상기 바이오마커 조합은 RANTES+AFP 조합, IGF-1+AFP 조합, A1AT+AFP 조합, RANTES+CEA 조합, IGF-1+CEA 조합, 및 AFP+CEA+ApoA1/proApoA1조합 중 어느 하나 이상인 것이거나, 상기 RANTES+AFP 조합, 상기 IGF-1+AFP 조합, 상기 A1AT+AFP 조합, 상기 RANTES+CEA 조합, 상기 IGF-1+CEA 조합, 및 상기 AFP+CEA+ApoA1/proApoA1조합을 포함하는 복합도 3 또는 4 이상의 바이오마커 조합 중 어느 하나 이상인 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 암 진단용 복합 바이오마커 정보를 활용한 암 진단 방법에 있어서, (A) 암 진단 대상자의 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 복수 개의 개별 바이오마커별 발현량 정보 또는 적어도 한 쌍의 바이오마커별 발현량 비율 정보를 입수하는 단계; (B) 상기 발현량 정보 또는 상기 발현량 비율 정보를 의사 결정 나무를 이용한 앙상블 방법의 partial dependency plot 내지는 partial dependency 함수 관계를 이용하여 변환하여 변환된 발현량 정보 또는 변환된 발현량 비율 정보를 생성하는 단계; 및, (C) 상기 변환된 발현량 정보 또는 상기 변환된 발현량 비율 정보를 기설정된 암 진단 모델에 입력하여 암 진단 정보를 생성하는 단계;를 포함하는 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 방법을 제시한다.
상기 암 진단 모델은 로지스틱 회귀 모델인 것이 바람직하다.
상기 로지스틱 회귀 모델은 리지 벌점 함수(Ridge Penalty)를 사용한 것인 것이 바람직하다.
상기 앙상블 기법은 Boosting 및 Random Forest 중 어느 하나의 방법인 것이 바람직하다.
상기 암 진단 정보는 바이오마커별 암 진단 기여도에 대한 정보를 추가적으로 생성하는 것이며, 상기 바이오마커별 암 진단 기여도는 상기 암 진단 모델에 포함된 적어도 하나 이상의 개별 바이오마커에 대하여 로지스틱 모형으로 구한 기설정된 판별함수를 사용하여 암에 미치는 영향의 정도를 제공하는 것인 것이 바람직하다.
상기 바이오마커별 질병 진단 기여도는 coefficient plot의 형태로 제시되는 것이 바람직하다.
상기 복합 바이오마커에 특이적으로 결합하는 항체를 포함하는 암 진단 키트에서 상기 바이오마커별 발현량 정보를 독출하는 제3의 시스템에서 실시되거나, 상기 제3의 시스템과 유무선 네트워크로 연결되며, 상기 제3의 시스템으로부터 상기 바이오마커별 발현량 정보를 전송받는 암 진단 시스템에서 실시되는 것인 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 복합 바이오마커를 활용하여 상기 암 진단 모델을 생성하는 방법에 있어서, 복수 명의 암 환자와 복수 명의 정상인으로 구성되는 대상자를 대상으로, 대상자의 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 복수 개의 바이오마커별 발현량 정보를 생성하고, 상기 생성된 발현량 정보를 기설정된 변환을 수행하는 단계; 상기 대상자 중 선택된 일부 대상자를 모델 생성 대상자군으로 하여 상기 변환된 바이오마커별 발현량 정보로 의사 결정 나무를 활용하여 복수 개의 분류기(classifier)를 생성하고, 상기 생성된 복수 개의 분류기를 접합하여 적어도 하나 이상의 바이오마커가 참여하는 복수 개의 암 진단 모델 후보를 생성하는 단계; 상기 대상자 중 모델 생성 대상자군에 포함되지 않은 대상자를 모델 검증 대상자군으로 하여, 모델 검증 대상자의 변환이 수행된 상기 바이오마커별 발현량 정보로 상기 암 진단 모델 후보에 입력하고, 상기 모델 검증 대상자별 암 진단 정보를 생성하는 단계; 및, 상기 암 진단 정보에 대한 기 설정된 평가를 수행하고, 기설정된 평가 지표를 충족시키는 암 진단 모델을 선별하는 단계;를 포함하는 것을 특징으로 하는 변환된 바이오마커별 발현량 정보를 사용하는 복합 바이오마커를 활용한 암 진단 모델을 생성하는 방법을 제시한다.
상기 발현량 정보에는 적어도 한 쌍의 바이오마커별 발현량 비율 정보가 더 포함될 수 있는 것인 것이 바람직하다.
상기 기설정된 변환을 수행하는 것은 상기 발현량 정보를 의사 결정 나무를 이용한 앙상블 방법의 partial dependency plot 내지는 partial dependency 함수 관계를 이용하여 변환하는 것인 것이 바람직하다.
상기 암 진단 모델은 로지스틱 회귀 모델인 것이 바람직하다.
상기 기설정된 평가 지표는 정확도, 특이도, 민감도, ROC 커브의 면적 중 어느 하나 이상인 것이 바람직하다.
상기 앙상블 기법은 Boosting 및 Random Forest 중 어느 하나의 방법인 것이 바람직하다.
상기 암 진단 정보는 바이오마커별 암 진단 기여도에 대한 정보를 추가적으로 생성하는 것이며, 상기 바이오마커별 암 진단 기여도는 상기 암 진단 모델에 포함된 적어도 하나 이상의 개별 바이오마커에 대하여 로지스틱 모형으로 구한 기설정된 판별함수를 사용하여 암에 미치는 영향의 정도를 제공하는 것인 것이 바람직하다.
상기 바이오마커별 질병 진단 기여도는 coefficient plot의 형태로 제시되는 것이 바람직하다.
상기 복합 바이오마커에 특이적으로 결합하는 항체를 포함하는 암 진단 키트에서 상기 바이오마커별 발현량 정보를 독출하는 제3의 시스템에서 실시되거나, 상기 제3의 시스템과 유무선 네트워크로 연결되며, 상기 제3의 시스템으로부터 상기 바이오마커별 발현량 정보를 전송받는 암 진단 시스템에서 실시되는 것인 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 진단 키트를 직접 또는 상기 진단 키트에서 기인하거나 독출한 정보를 이용하여 암 진단 예측을 수행하는 암 진단 예측 시스템에 있어서, 대상자의 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 측정된 상기 바이오마커 조합을 구성하는 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수하는 정보 입수 모듈; 상기 발현량 정보 또는 발현량 비율 정보에 대하여 기설정된 적어도 하나 이상의 변환 모듈; 상기 입수된 상기 발현량 정보 또는 발현량 비율 정보를 기설정된 암 진단 예측 모델로 처리하는 암 진단 예측 모듈;및 상기 암 진단 예측 모듈로부터 적어도 하나 이상의 암 진단 예측 정보를 생성하는 암 진단 예측 정보 생성 모듈;을 포함하며, 상기 변환 모듈은 상기 발현량 정보에 대한 발현량 변환 정보 또는 상기 발현량 비율 정보에 대한 발현량 비율 변환 정보를 우선 생성하는 것이며, 상기 암 진단 예측 모델은 상기 생성된 발현량 변환 정보 또는 상기 발현량 비율 변환 정보를 입력값으로 입력 받는 것인 것을 특징으로 하는 암 진단 예측을 수행하는 암 진단 예측 시스템을 제시한다.
상기 정보 입수 모듈이 상기 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수하는 방법은, 상기 암 진단 예측 시스템이 상기 진단 키트로부터 직접 입수하는 방법, 상기 암 진단 예측 시스템과 유무선 네트워크를 통하여 연결된 상기 진단 키트의 상기 바이오마커별 발현량 정보를 독출할 수 있는 제3의 시스템으로부터 전송 받는 방식으로 입수하는 방법 및, 상기 암 진단 예측 시스템과 유무선 네트워크로 연결된 상기 바이오마커별 발현량 정보를 입수하는 자의 컴퓨터로부터 전송되는 방식으로 입수하는 방법 중 어느 하나 이상의 방법이 실시되는 것인 것이 바람직하다.
상기 변환 모듈은 tree를 이용한 앙상블 기법의 partial dependence plot 또는 partial dependency 함수 관계를 이용하여 발현량 변환 정보 또는 발현량 비율 변환 정보를 생성하는 것인 것이 바람직하다.
상기 암 진단 예측 모델은 로지스틱 모형인 것이며, 상기 로지스틱 모형은 상기 발현량 변환 정보 또는 상기 발현량 비율 변환 정보를 입력 받아 암으로 분류되는 확률값을 추정하는 기설정된 함수식인 것이 바람직하다.
상기 암 진단 예측 정보 생성 모듈은 바이오마커별 질병 진단 기여도에 대한 정보를 추가적으로 생성하는 것이며, 상기 바이오마커별 질병 진단 기여도는 상기 바이오마커 조합에 포함된 바이오마커에 대하여 로지스틱 모형으로 구한 기설정된 판별함수를 사용하여 암에 미치는 영향의 정도를 coefficient plot의 형태로 제시되는 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 암 진단을 위한 적어도 2 이상의 바이오마커를 포함하는 복합 바이오마커 정보를 처리하는 암/정상 예측 통계 모델과 관련된 바이오마커별 변수값 처리 방법에 있어서, 적어도 2 이상의 샘플에 대하여 각 샘플별로 상기 바이오마커별 오리지널 변수값을 입수하는 단계; 상기 바이오마커별 오리지널 입력 변수값으로 기설정된 처리를 수행하여 상기 바이오마커별 partial dependence plot 또는 partial dependence 함수 관계를 구성하는 단계; 상기 바이오마커별 partial dependence plot 또는 partial dependence 함수 관계를 이용하여 상기 바이오마커별 오리지널 변수값에 대한 상기 바이오마커별 변환 변수값을 생성하는 단계; 상기 바이오마커별 변환 변수값을 기설정된 암/정상 예측 통계 모델의 생성 또는 암/정상 예측 통계 모델의 실행에 사용하는 단계;를 포함하는 것이며, 상기 partial dependence plot 또는 partial dependence 함수 관계는 앙상블 기법을 활용한 것이며, 상기 앙상블 기법은 Boosting 알고리즘 기법과 Random Forest 알고리즘 기법 중 어느 하나 이상의 기법인 것을 특징으로 하는 바이오마커별 변수값 처리 방법을 제시한다.
상기 바이오마커별 partial dependence plot 또는 partial dependence 함수 관계를 구성하는 것은 상기 복합 바이오마커를 구성하는 바이오마커들 중에서 상기 바이오마커를 제외한 타 바이오마커들에 대한 오리지널 변수값에 대해서 평균을 취해주는 방식으로 구성하는 것인 것이 바람직하다.
상기 오리지널 변수값은 상기 바이오마커별 발현량 정보 또는 2 이상의 바이오마커의 발현량 비율 정도 중 어느 하나 이상인 것이 바람직하다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 암 진단을 위한 적어도 2 이상의 바이오마커를 포함하는 복합 바이오마커 정보를 처리하는 암/정상 예측 통계 모델과 관련된 바이오마커별 영향력 정보 처리 방법에 있어서, 상기 복합 바이오마커를 구성하는 개별 바이오마커별로 영향력 정보를 생성하는 단계; 및, 상기 복합 바이오마커를 구성하는 개별 바이오마커별로 영향력 정보를 개별 바이오마커별로 시각화하는 정보를 생성하는 단계;를 포함하며, 상기 개별 바이오마커별 영향력은 로지스틱 모형으로부터 구한 판별 함수로 결정되는 것이며, 상기 판별 함수는 하기 수식 1으로 표현되는 것인 것이며, 상기 로지스틱 모형은 0과 1 사이의 값을 가지며, 상기 로지스틱 모형에 포함된 회귀 계수의 추정은 ridge 함수를 사용하는 것인 것을 특징으로 하는 복합 바이오마커에 대한 영향력 정보 처리 방법을 제시한다.
[수식 1]
β0 + β1g1(X1) + β2g2(X2) + ... + βkgk(Xk)
= β'0 + β1(g1(X1)-g'1) + β2(g2(X2)-g'2) + ... + βk(gk(Xk)-g'k)
상기 g(x)는 partial dependence plot 또는 partial dependency 함수 관계를 이용하여 상기 바이오마커별 오리지널 변수값에 대한 상기 바이오마커별 변환 변수값을 사용하는 것인 것이 바람직하다.
상기 시각화는 2차원 평면의 차트나 그래프로 표시되는 것인 것이 바람직하다.
본 발명을 활용하면, 단일 바이오마커에 비하여, 폐암 진단 능력이 높은 복합 바이오마커를 구성할 수 있다. 그리고, 복합 바이오마커를 사용하는 폐암 진단 키트 및 폐암 진단 키트를 이용하는 폐암 진단 방법의 효율성을 높일 수 있다. 이에 따라 효율적 진단을 통해 폐암 환자의 생존율을 향상시킬 수 있으며, 치료에 대한 환자의 반응을 모니터하여 그 결과에 따라 치료를 변경하는 것을 가능하게 한다. 또한, 마우스, 랫트 등의 동물 모델의 생체 내 또는 생체 외에서 하나 이상의 바이오마커의 발현을 조절하는 화합물을 동정하는데 사용될 수 있다.
본 발명을 활용하면, 폐암 진단 능력이 높은 복합 바이오마커 군을 사용하는 폐암 진단 예측이 가능하며, 예측 시스템의 신뢰성이 높아지는 장점이 있다.
본 발명을 활용하면, 입력 변수의 이상치를 효과적으로 보정 또는 제거함으로써 암/정상 진단 예측 능력을 높일 수 있게 된다.
본 발명의 복합 바이오마커에 대한 영향력 정보 처리 방법을 활용하면, 어느 바이오마커가 얼마만한 영향을 미치는지를 직관적으로 용이하게 알아 볼 수 있는 장점이 있다.
본 발명의 복수 개의 분류기와 통계학적 방법을 사용하는 암 진단 방법, 암 진단 모델 생성 방법, 암 진단 예측 시스템, 변환된 바이오마커별 발현량 정보를 사용하는 복합 바이오마커를 활용한 암 진단 모델, 바이오마커별 변수값 처리 방법의 기술을 활용하면 폐암 이외에도 다른 암에 대해서도 폐암과 관련되어 기술한 본 발명 사상을 적용할 수 있게 된다.
도 1은 폐암 진단 바이오마커 후보군들에서 폐암 진단에 효과적인 복합 바이오마커들을 선별하는 방법에 관한 일 실시예적 흐름도이다.
도 2는 폐암 진단을 위해 복합 바이오마커 후보군들에 대한 랜덤 포리스트 모델 생성하는 일 실시예적 방법에 대한 흐름도이다.
도 3은 복수 개의 바이오마커들을 활용한 의사 결정 나무(decision tree)의 생성 방법에 대한 일 실시예적 개념도이다.
도 4는 평가 지표로서 ROC 커브를 생성하는 방법에 대한 일 실시예적 도면이다.
도 5는 RANTES의 partial dependency plot에 대한 일실시예적 도면이다.
도 6은 RANTES에 관한 암환자와 정상인 사람들의 boxplot에 대한 일실시예적 도면이다.
도 7는 Cyfra21.1의 partial dependency plot에 대한 일실시예적 도면이다.
도 8은 Cyfra21.1에 관한 암환자와 정상인 사람들의 boxplot에 대한 일실시예적 도면이다.
도 9는 A1AT의 partial dependency plot에 대한 일실시예적 도면이다.
도 10은 A1AT에 관한 암환자와 정상인 사람들의 boxplot에 대한 일실시예적 도면이다.
도 11은 본 발명의 CP(Coeffiecient Plot)의 일실시예적 구현예에 관한 도면이다.
도 12는 2 이상의 바이오마커로 구성되는 복합 바이오마커 조합을 선별하는 일실시예적 방법에 관한 도면이다.
도 13은 복합 바이오마커 조합을 선별하는 다른 일실시예적 방법에 관한 도면이다.
도 14는 본 발명의 폐암 진단 시스템의 구성 및 타 정보 제공자단과의 연결 관계에 관한 일실시예적 방법에 관한 도면이다.
도 15는 본 발명의 폐암 진단 시스템의 폐암 진단 정보 생성 방법에 관한 일실시예적 방법에 관한 도면이다.
도 16은 본 발명의 폐암 진단 시스템의 변환 모듈의 Partial Dependency Plot/함수 관계 생성부의 변환 변수값 생성 방법 및 그 생성된 변환 변수값을 본 발명의 폐암 진단 시스템이 사용하는 방법에 관한 일실시예적 방법에 관한 도면이다.
도 17은 본 발명의 폐암 진단 시스템의 CP 정보 생성부가 CP 정보를 생성하는 일실시예적 방법에 관한 도면이다.
도 18은 본 발명의 복합 바이오마커군을 구성하는 바이오마커별 정상 샘플과 암 샘플에 대한 boxplot이다.
이하, 도면을 참조하면서 상세히 설명한다.
도 1은 폐암 진단 바이오마커 후보군들에서 폐암 진단에 효과적인 바이오마커들을 선별하는 방법에 관한 일 실시예적 흐름도이다. 폐암 진단에 효과적인 바이오마커들을 선별하는 방법은 우선적으로 폐암 바이오마커 후보군에 대한 샘플별 변수값 생성(S11)하고, 폐암 바이오마커 후보군 중에서 폐암 예측 모델에 투입할 바이오마커군 선별(S12)한 다음, 선별된 폐암 바이오마커군에 대한 복합 바이오마커 조합 생성(S13)하고, 생성된 복합 바이오마커 조합별 중에서 폐암 진단 능력이 뛰어난 복합 바이오마커 조합 선별(S14)하는 과정을 거친다. 이하, 상세하게 설명한다.
복합 바이오마커의 후보를 찾기 위하여, 우선적으로 폐암 진단에 효과가 있는 바이오마커를 선택하는 것이 필요하다. 이를 위해, 우선적으로 정상적인 사람 및 폐암 질환 환자의 혈청 시료를 수득하여 정상인과 폐암 환자에서 단백질들을 발현량을 RBM 키트, Millipore키트 및 본 발명자들이 속한 집단에서 제조한 키트를 이용하여 각각의 프로토콜을 이용하여 측정하였으며, 측정 결과의 데이터를 구축하였다. 본 발명의 실험을 위해 정상인 128명(남자 78명, 여자 50명)과 폐암 환자 121명(남자 78명, 여자 43명)을 대상으로 하였다. 연령 분포를 보면 정상인의 경우 나이는 41세 ~ 65세(mean : 50.3, median : 48)였으며, 폐암 환자 나이는 35세 ~ 86세(mean : 64.7, median : 66)였다. 폐암 환자의 병기별 분포는 1기-83명, 2기-14명, 3기-21명, 4기-3명이었다. 그리고 실험 대상과 별개로 분류모델 검증을 위해, 블라인드 테스트에 정상인 37명(남자 16명, 여자 21명)과 폐암 환자 25명(남자 10명, 여자 15명)을 대상으로 하였다. 상기 정상인 또는 폐암 환자로부터 Vacutainer SST Ⅱ tube(Becton Dickinson)에 말초혈액 5 ㎖을 채취하여 상온에 한 시간 동안 둔 후, 3000 g에서 5분 동안 원심 분리한 후 상층액을 취해 혈청을 얻었으며 사용하기 전까지 -80℃에 보관하였다.
본 발명자들은 A1AT(alpha-1-antitrypsin), A2M(alpha-2 macroglobulin), DD(D-dimer), PAI-1(total plasminogen activator inhibitor-1), VN(vitronectin), ApoA4(apolipoprotein-A4), Hemo(hemoglobin), proApoA1(proapolipoprotein-A1), VDBP(vitamin D-binding protein), ApoA2(apolipoprotein-A2), ApoC2(apolipoprotein-C2), ApoC3(apolipoprotein-C3), sICAM-1(soluble intercellular adhesion molecule-1), Svcam-1(soluble vascular cell adhesion molecule-1), IL-6(interleukin-6), RANTES(regulated upon activation normal T cell expressed and secreted), AFP(alpha-fetoprotein), CA125(cancer antigen 125), CA19-9(carbohydrate antigen 19-9), CEA(Carcinoembryonic antigen), f-PSA(prostate specific antigen, free), PSA(prostate specific antigen, total), CYFRA21-1(cytokeratin 19 fragment antigen 21-1), EGFR(epidermal growth factor receptor), IGF-1(insulin-like growth factor-1, free), ApoA1(apolipoprotein-A1), B2M(beta-2 microglobulin), CRP(C-reactive protein), Hp(haptoglobin), TTR(transthyretin) 등 30가지 단백질을 분석하기 위하여 여러 제조사로부터 키트 혹은 항체를 구입하거나 항체를 위탁 제조하였다. 항체, 키트, 표준물질 또는 시약의 구입처 등과 같은 정보는 하기 표1 내지 표3과 같다.
표 1
바이오마커 표준물질 제조사 대응 항체 제조사1 대응 항체 제조사2
A1AT Sigma Acris Biodesign
A2M Calbiochem R&D affinity bioreagents
DD Abcam Biodesign Biodesign
PAI-1 Calbiochem Abcam USBiological
VN Biodesign Biodesign Chemicon
ApoA4 BIOINFRA Santa Cruz AB frontier(주문제작)
Hemo Sigma Biodesign Bethyl
proApoA1 BIOINFRA Biodesign Biodesign 혹은 Genscript(주문제작)
VDBP Biodesign Abcam Abcam
표 2
바이오마커 제품명 제조사
ApoA2 MILLIPLEX Kit Human Apolipoprotein Millipore
ApoC2 MILLIPLEX Kit Human Apolipoprotein Millipore
ApoC3 MILLIPLEX Kit Human Apolipoprotein Millipore
sICAM-1 MILLIPLEX Kit Human Cardiovascular Disease panel 1 Millipore
Svcam-1 MILLIPLEX Kit Human Cardiovascular Disease panel 1 Millipore
IL-6 MILLIPLEX Kit Human Cytokine/Chemokine 2 Millipore
RANTES MILLIPLEX Kit Human Cytokine/Chemokine 1 Millipore
AFP RBM Cancer Antigen Panel 1 RBM
CA125 RBM Cancer Antigen Panel 1 RBM
CA19-9 RBM Cancer Antigen Panel 1 RBM
CEA RBM Cancer Antigen Panel 1 RBM
f-PSA RBM Cancer Antigen Panel 1 RBM
PSA RBM Cancer Antigen Panel 1 RBM
CYFRA21-1 TM-CYFRA21.1 ELISA kit DRG Diagnostics
EGFR DuoSet IC ELISA R&D
IGF-1 DuoSet IC ELISA R&D
표 3
바이오마커 주시약 표준물질 제조사
ApoA1 N Antiserum to human Apolipoprotein N Apolipoprotein standard SL Siemens
B2M  N Latex beta2-microglobulin N Protein standard SL Siemens
CRP CardioPhase hsCRP N Rheumatology standard SL Siemens
Hp N Antiserum to human Haptoglobin (SMN 10446304) N Protein standard SL Siemens
TTR N Antiserum to human PreAlbumin N Protein standard SL Siemens
표준 단백질의 경우, ApoA2, ApoC2, ApoC3, sICAM-1, Svcam-1, IL-6, RANTES 단백질은 Millipore사의 키트에 포함된 것, AFP, CA125, CA19-9, CEA, f-PSA, PSA 단백질은 RBM사의 키트에 포함된 것, CYFRA21-1 단백질은 DRG Diagnostics사의 키트에 포함된 것, EGFR, IGF-1 단백질은 R&D사의 키트에 포함된 것을 사용하였고, ApoA1, B2M, CRP, Hp, TTR 단백질은 Siemens사에서 구입하여 사용하였고, A1AT, Hemo 단백질은 Sigma사에서 구입하여 사용하였고 , A2M, PAI-1 단백질은 Calbiochem사에서 구입하여 사용하였고, DD 단백질은 Abcam에서 구입하여 사용하였고, VN, VDBP 단백질은 Biodesign사에서 구입하여 사용하였고 ApoA4, proApoA1 단백질은 바이오인프라(한국)에서 제조하여 사용하였다.
필요한 경우 항체결합 미세구체를 다음과 같은 방법으로 제조하였다. 먼저 미세구체 저장액(Microsphere stock solution; Hitachi, Japan)을 볼텍스(vortex)한 후 음파 용기(sonification bath; Sonicor Instrument Corporation, USA)에서 20초 동안 현탁하였다. 2 × 106개의 미세구체를 마이크로튜브(microtube)에 옮겨 원심분리로 상층액을 제거한 후, 3차 증류수 100 ㎕로 세척하고 다시 0.1M 인산나트륨 완충용액(Sodium phosphate buffer; pH 6.2) 80 ㎕에 재현탁하였다. 이후, 50 ㎎/㎖의 N-하이드록시-설포숙시니마이드(N-hydroxy-sulfosuccinimide, Sulfo-NHS) 및 1-에틸-3-(3-디메틸아미노프로필)-카르보디이미드 하이드로클로라이드(1-ethyl-3-(3-dimethylaminopropyl)-carbodiimide hydrochloride)(Pierce, USA)를 각각 10 ㎕씩 차례로 처리한 후 실온에서 20분 동안 섞어주었고, 원심분리로 상층액을 제거한 다음 50 mM MES, pH 5.0으로 두 번 세척하였다.
이어, 상기 카복실기 활성화된 미세구체를 50 mM MES 400 ㎕로 재현탁(resuspension)한 후, 결합시킬 25 ㎍의 항체를 포함한 50 mM MES 100 ㎕를 첨가하여 섞어준 후 실온에서 두 시간 동안 섞어주었다. 상기 반응은 암실에서 실행하였다. 항체 결합 반응이 끝난 미세구체는 원심분리를 이용하여 500 ㎕ PBS-TBN[PBS, 1% BSA, 0.02% Tween, 20-0.05% 소듐 아자이드(sodium azide)]으로 두 번 세척하였고, 혈구 계산기(hemocytometer)로 개수를 측정하였다. 상기 항체 결합한 미세구체는 1 × 106개/500 ㎕ PBS-TBN 농도로 4℃의 암실에서 보관하였다.
이어, 상기에서 만들어진 항체 결합 미세구체의 항체 결합 효율을 측정하기 위해 상기 항체 결합 미세구체를 20초 동안 볼텍스 & 소니케이션 한 후, 필터형 바닥 96-웰 마이크로플레이트에 웰당 2,000개 미세구체를 넣고 미세구체에 결합된 항체의 종(species)에 맞는, PE(Phycoerythrin)가 결합된 2차 항체(anti-antibody antibodyPE conjugate, Jackson Immunoresearch, USA)를 2% BSA/PBS 용액에 1/10로 희석하여 50 ㎕/웰로 넣고 실온에서 30분 동안 섞어주었다. 상기 반응은 빛이 들어가지 않게 암실에서 실행하였다. 반응이 끝난 후 PBST로 2번 세척하였고 LuminexTM200(Luminex, USA)으로 읽어 MFI 값이 10,000 이상임을 확인하였다.
이어, 검출(detection) 항체는 바이오틴화(biotinylation)시킨 항체를 이용하였다. 구체적으로, EZ-Link Sulfo-NHS-Biotinylation 키트(Pierce, USA)를 이용하여 제조사의 방법의 따라 바이오틴화 반응을 수행하였고, 바이오틴(biotin) 결합의 정도는 키트에 포함된 HABA(4'-hydroxyazobenzene-2-carboxylic acid)를 이용하여 키트 제조사에서 지시한 방법에 따라 수행함으로써 확인하였다. 그 결과, 항체 하나당 결합된 바이오틴양은 8 ~ 12 개로 측정되었다.
이어, 개발된 분석방법은 검출 항체의 농도와 실험 반응시간을 더 최적화하였고, 민감도(sensitivity)는 연속 희석한 바이오마커의 분석 측정 수치로 확인하였다. 인트라-어세이 변이성(Intra-assay variability)은 9개의 다른 농도의 혈청 샘플을 12 웰(well)/1 플레이트(plate) 씩 2개의 플레이트로 3번의 다른 시간대에 실험하여 나온 측정치로 CV(coefficient of variation)를 계산하여 확인하였고, 5 ~ 15%로 평균 10%로 계산되었다. 개발된 키트는 교차반응(cross-reactivity)이 없음을 확인하였다.
RBM사의 프로토콜에 따라 AFP, CA125, CA19-9, CEA, f-PSA, PSA 의 면역분석을 96웰(well)의 V형 바닥 마이크로플레이트에서 수행하였다. 이때 제조사에서 제공한 표준(standard) 단백질은 혈청 기질 희석액(serum matrix diluent)으로 연속 희석하여 사용하였다. 구체적으로, 표준(duplication) 단백질, 대조군(duplication) 혈청 및 환자 혈청을 각각 20 ㎕씩 웰에 첨가하였고, 키트에 포함된 블로킹 완충용액(blocking buffer) 및 비드 혼합액(bead mixture)을 10 ㎕씩 웰에 첨가하여 섞어준 후 실온에서 한 시간 동안 반응시켰다. 검출 항체와 스트렙타비딘(streptavidin)-PE(Jackson Immunoresearch, USA)는 순차적으로 각각 한 시간, 30분씩 반응시켰고, 필터형 바닥 96-웰 마이크로플레이트(Millipore, USA)로 반응액을 옮긴 후 진공 다기관(vacuum manifold)을 이용하여 두번씩 씻어주었다. 키트에 포함된 분석 완충용액 100 ㎕ 처리한 반응액을 96 웰 마이크로플레이트에 옮겨 LuminexTM 200(Luminex, USA)으로 분석하였다. 결과는 업스테이트사(Upstate, USA)의 비드뷰 소프트웨어(beadview software)를 이용하여 5-파라메트릭 커브 피팅(5-parametric-curve fitting)으로 분석하였다.
Millipore사의 프로토콜에 따라 ApoA2, ApoC2, ApoC3, sICAM-1, Svcam-1, IL-6, RANTES 의 면역분석을 필터형 바닥 96-웰 마이크로플 레이트(Millipore, USA)에서 수행하였다. 상기 필터형 바닥 96-웰 마이크로플레이트에 키트에서 제공된 분석 완충용액을 처리하여 10분 동안 블로킹 후 진공 다기관을 이용하여 완충용액을 제거하였다. 이때 제조사에서 제공한 표준(standard) 단백질은 혈청 기질 희석액으로 연속 희석하여 사용하였다. 구체적으로, 표준(duplication) 단백질, 대조군(duplication) 혈청 및 환자 혈청을 25 ㎕씩 웰에 처리하였고, 각 웰에 비드 혼합액 25 ㎕씩을 더한 후 실온에서 한 시간 동안 반응시켰다. 반응 플레이트를 진공 다기관을 이용하여 두 번 씻어준 후 검출 항체 및 스트렙타비딘-PE를 순차적으로 각각 한 시간, 30분씩 반응시켰다. 반응이 끝난 플레이트를 씻어준 다음 키트에서 제공된 분석 완충용액을 100 ㎕ 처리하여 LuminexTM 200으로 분석하였다. 결과는 업스테이트의 비드뷰 소프트웨어를 이용하여 5-파라메트릭 커브 피팅으로 분석하였다.
바이오인프라사의 프로토콜에 따라 A1AT, A2M, DD, PAI-1, VN, ApoA4, Hemo, proApoA1, VDBP의 면역분석을 필터형 바닥 96-웰 마이크로플레이트(Millipore, USA)에서 수행하였다. 상기 필터형 바닥 96-웰 마이크로플레이트에 분석 완충용액(PBS/2% BSA)을 처리하여 10분 동안 블로킹 후 진공 다기관을 이용하여 완충용액을 제거하였다. 이때 제조사에서 제공한 표준(standard) 단백질은 혈청 기질 희석액으로 연속 희석하여 사용하였다. 구체적으로, 표준(duplication) 단백질, 대조군(duplication) 혈청 및 환자 혈청을 25 ㎕씩 웰에 처리하였고, 각 웰에 비드 혼합액 25 ㎕씩을 더한 후 실온에서 한 시간 동안 반응시켰다. 반응 플레이트를 진공 다기관을 이용하여 두 번 씻어준 후 검출 항체 및 스트렙타비딘-PE를 순차적으로 각각 한 시간, 30분씩 반응시켰다. 반응이 끝난 플레이트를 씻어준 다음 키트에서 제공된 분석 완충용액을 100 ㎕ 처리하여 LuminexTM 200으로 분석하였다. 결과는 업스테이트의 비드뷰 소프트웨어를 이용하여 5-파라메트릭 커브 피팅으로 분석하였다.
ApoA1, B2M, CRP, Hp, TTR 은 제조사의 설명서에 따라 Behring Nephelometer II(BNII) System을 이용하여 자동화된 방법으로 분석하였다.
Cyfra21-1은 DRG Diagnostics 사 kit, EGFR,과 IGF-1은 R&D 사의 DuoSet IC ELISA kit에 포함된 사용설명서에 따라 분석하였다.
표 4는 각 샘플에 대한 각 바이오마커별 측정 결과 데이터의 일례를 보여 주며, 이와 같이 폐암 바이오마커 후보군에 대한 샘플별 변수값 생성(S11)한다. 상기 변수값은 상기 바이오마커별 발현량 또는 상기 2 이상의 바이오마커별 발현량의 비율 정보가 될 수 있다.
표 4
Sample.ID class Age Sex Stage.S ApoA2 Svcam.1 ............ PAI.1.1
LC01 폐암 53 M 1 5.359 2.738 ............ 3.171
LC04 폐암 66 M 1 5.617 2.943 ............ 2.950
LC05 폐암 60 M 3 5.385 2.914 ............ 2.770
LC07 폐암 43 F 1 5.463 2.752 ............ 2.743
............ ............ ............ ............   ............ ............ ............ ............
............ ............ ............ ............   ............ ............ ............ ............
KNF140 정상 51 F   5.600 2.936 ............ 3.116
KNM378 Nor 56 M   5.443 2.923 ............ 3.116
KNF088 Nor 48 F   5.458 2.967 ............ 3.036
KNM151 Nor 55 M   5.542 3.077 ............ 2.986
sample .ID : 실험 시 부여되는 sample 고유 ID이며, 사람을 구분하는 식별자이다. class : sample 분류로 Nor은 정상인 사람, Can은 폐암 환자를 말한다. Age는 나이이며, Sex는 성별, Stage.S는 폐암의 stage 정보(normal : blank, cancer : 1 ~ 4)이며, 그 이후의 칼럼은 바이오마커 list로 실험된 바이오마커들이며, 실험된 바이오마커들의 셀값은 바이오마커 후보의 실험값 나열이며, 표 2에 보이는 입력 데이터의 실험값은 실험값을 로그(log) 변환을 거친 값이다.
구축한 측정 데이터는 바이오인포매틱스(bioinformatics) 및 통계적 분석방법인 R 패키지(R Development Core Team (2007). R: A language and environment for statistical computing. R Foundationfor Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.)를 사용하여 분석하였다. 입력된 데이터에 대하여 랜덤 포리스트 알고리즘을 적용하여 변수 중요도(variable importance)를 결정하고, p-value 랭킹을 도출하고, 바이오마커 간의 상관성 분석(correlation analysis)을 수행하였다. 이와 같이 하여, 랜덤 포리스트 랭킹에 p-value 랭크를 참조하고 상위 랭크에 상관성이 높은 바이오마커가 포함된 경우 하위 랭크의 바이오마커를 배제하는 방법으로 폐암 바이오마커 후보군 중에서 폐암 예측 모델에 투입할 13개의 바이오마커군을 선별(S12) 하였다.
선별된 바이오마커는 A1AT, CYFRA21-1, IGF-1, AFP, proApoA1, EGFR, CEA, RANTES, PAI-1, TTR, CA19-9, ApoA1/ProApoA1, ApoA1이다. 하기 표 7는 선별된 13개의 바이오마커 및 각 개별 바이오마커에 대한 평가 지표값이다. ApoA1/proApoA1는 ApoA1의 발현량을 proApoA1의 발현량으로 나눈 값으로, 발현량 비율값의 일례가 되며, 발현량 비율값이 바이오마커가 될 수 있음을 보여 준다.
표 5
바이오마커 정확도(accuracy) 민감도(ensitivity) 특이도(specificity)
A1AT 0.8326 0.7731 0.8921
CYFRA21-1 0.8525 0.8511 0.8538
IGF-1 0.8035 0.8515 0.7556
RANTES 0.7644 0.7479 0.7809
proApoA1 0.7575 0.6859 0.8291
AFP 0.7347 0.8082 0.6612
EGFR 0.7362 0.6895 0.7829
PAI-1 0.7315 0.6928 0.7703
TTR 0.7156 0.698 0.7332
CEA 0.6869 0.7226 0.6512
CA19-9 0.686 0.7705 0.6015
ApoA1/proApoA1 0.6583 0.4849 0.8318
ApoA1 0.6679 0.6364 0.6994
정확도(Accuracy)는 암, 정상을 맞춘 비율, 민감도(Sensitivity)는 암 환자를 암으로 판정한 비율, 특이도(Specificity)는 정상인 사람을 정상으로 판정한 비율을 말한다. 상기의 평가 지표인 민감도(Sensitivity), 특이도(Specificity) 및 정확도(Accuracy)를 어떻게 구하는지 예시를 통해 설명한다. cut-off=0.5로 하여 설명한다. 하기 표 6와 같은 데이터가 있다고 가정하자.
표 6
실제값(Y축) 예측값(X축)  0(정상) 1(암)
0(정상) 17 3
1(암) 0 20
test set의 수가 40 개(normal 20, cancer 20) 일 때 실제값과 예측값의 교차표를 그리면 위와 같다. 실제값이 0(정상) 인데 0(정상)으로 예측한 개수는 17 이고, 실제값이 0(정상) 인데 1(암)로 예측한 개수는 3개이다. 실제값이 1인데 0으로 예측한 개수는 0 이고, 실제값이 1인데 1로 예측한 개수는 20 이다. Sensitivity는 실제 암환자를 암환자로 예측할 확률이다. 위의 테이블에서는 20명 중에 20명 모두 암으로 예측했으므로 sensitivity는 100% 이다. Specificity는 실제 정상인 사람을 정상으로 예측할 확률로 20명 중에 17명이므로 85%이다. Accuracy는 실제값과 예측값이 같은 비율, 즉, 전체 중에서 정상을 정상으로, 암환자를 암환자로 예측할 확률로 총 40 명 중에서 37명을 올바르게 예측했으므로 Accuracy 는 92.5% 이다.
한편, 본 발명에서는 평가 지표로 민감도, 특이도, 정확도를 사용했으나, 통계학 내지 사회 과학 영역에서 도입되는 다양한 평가 지표가 사용될 수 있음은 물론이다 할 것이며, 본 발명은 이러한 다양한 평가 지표의 도입을 당연히 포함할 수 있으며, 이러한 평가 지표를 통하여 바이오마커를 선별할 수 있음은 물론일 것이다. 한편, 선별된 평가 지표에 대하여 랭킹을 정하는 것은 평가 지표 중 어느 하나를 기준으로 할 수도 있지만, 적어도 하나 이상의 평가 지표를 입력값으로 하는 기설정된 함수 또는 평가 지표와는 독립적으로 계산되는 기설정된 중요도 함수도 가능함은 물론일 것이다. 적어도 하나 이상의 평가 지표를 입력값으로 하는 기설정된 함수 또는 평가 지표와는 독립적으로 계산되는 기설정된 중요도 함수를 평가 함수라 하고, 상기 평가 함수로 계산되는 값을 평가 함수값이라 한다.
도 18은 상기 13개의 바이오마커에 대한 정상 샘플과 암 샘플에 대한 boxplot이다.
하기 표 7는 선별된 13개의 바이오마커, 각 바이오마커의 발현량 패턴 및 특성에 대해 간략히 요약하였다. 발현량 패턴은 각 바이오마커의 발현량 실험값이 높을수록 암일 가능성이 높은 경우와 반대로 낮을수록 암일 가능성이 높은 경우로 대별된다. 하기 표 5에서 Can(높음)은 전자, Can(낮음)은 후자에 각각 대응된다.
표 7
바이오마커 패턴 특성
A1AT Can(높음) A1AT 은 당단백으로 혈청 trypsin 의 길항제로 알려져 있다. 체내에서는 염증 세포에서 분비하는 여러 분해 효소들 (특히 elastase)로부터 조직을 보호하는 역할을 수행하며 급성 염증기에 증가한다. 결핍 시에는 폐 조직의 파괴를 가져오는 선천성 질환과 관련이 있다. Hamrita 등은 침습성 유선암에서 A1AT 의 증가됨을 보고하였다 .
AFP Can(높음) 성인의 경우 germ cell tumor, 간암에서 가장 높은 빈도로 증가함그러나 gastic, colon, biliary, pancreatic and lung cancer에서도 증가함(~20% 의 환자에서) 
CA19-9 Can(높음) pancreas, biliary tract, colon, stomach, breast carcinoma를 갖는 환자의 대부분에서 증가하므로 임상적으로 이용됨
CEA Can(높음) GI(gastrointestinal). lung, breast, ovary, uterus 의 암환자 혈청에서 증가함 
CYFRA21.1 Can(높음) CYFRA 21-1 (a cytokeratin 19 fragment) 은 비소세포폐암와의 관련성이 알려져 있으며, Lai 등은 특히 편평상피암에서 높은 혈중 농도 뿐 아니라 병기 및 예후와도 관련 있다고 보고하였다.
EGFR Can(낮음) EGF의 수용체로서 세포의 성장과 분화에 관여함
IGF-1 Can(높음) IGF-1 은 다양한 기관에 생기는 선암에서 발현이 증가되어 있어 Ouban 등은 자궁내막암(100%), 유방암(87.5%), 난소암(100%), 위암(71.1%), 췌장암(57.1%), 폐암(90.0%), 폐암(84.6%) 등의 조직에서 발현이 잘 되지만, 두경부의 평편상피암 등에서는 발현이 적다고 보고하였다. 또한 Furstenberger 등은 혈중 IGF-1 의 농도와 유방암, 전립선암, 폐암, 폐암 등과 관련성을 보고하였다. 즉, IGF-1은 성장호르몬의 역할에서 중요한 매개체로 증가 시에 세포의 분화 및 성장에 영향을 미치고, 아포토시스 (apoptosis) 를 방해하는 작용을 한다는 것이다.
PAI-1 Can(낮음) tissue plasminogen activator(t-PA)의 inhibitor이며 fibrinolysis과정의 중요한 효소. PAI-1이 증가하면 t-PA의 활성이 줄고 fibfinolytic function에 장애를 초래함. deep vein thrombosis, myocardiac imfarction, normal pregnancy, sepsis에서 증가
ApoA1 Can(낮음) HDL(High density lipoprotein)의 구성요소이며 LCAT(lectin cholesterol acyltransferase)의 보조인자(cofactor)로 작용하여 조직으로부터 간으로 콜레스테롤을 수송하는 과정에 참여함
proApoA1 Can(낮음) Apolipoprotein A1의 pro form
RANTES Can(낮음) T-cell, eosinophil, basophils에 대한 chemotactic factor백혈구를 염증 site로 모이게 함asthma, allergic rhinitis와 관련 있음
TTR Can(낮음) Thyroid hormone-binding protein. Probably transports thyroxine from the bloodstream to the brain.Defects in TTR are the cause of amyloidosis type 1 (AMYL1) . A hereditary generalized amyloidosis due to transthyretin amyloid deposition.
이어, 도 2를 참조하면서, 폐암 진단을 위해 복합 바이오마커를 선별해 내기 위한 방법에 관해 설명한다.
먼저, feature selection으로 1차 선택된 13개 바이오마커들로 조합 가능한 복합 바이오마커 목록을 생성하는 방식으로 선별된 폐암 바이오마커군에 대한 복합 바이오마커 조합을 생성(S13)한다. 상기 복합 바이오마커 조합의 수는 13Cr개(단 14>r>1)로 총 8178개이다. 상기 모든 복합 바이오마커 조합에 대하여 각각의 암/정상 예측 통계 모델을 만들고, 각 모델에서 구해지는 평가 지표(Accuracy, Sensitivity, Specificity등)을 바탕으로 8178개의 통계 모델들을 비교한다.
통계 모델은 모델 생성에 사용된 데이터에 가장 적합한 모형을 제공하는데, 하나의 data set으로 모델을 만들면, 그 통계 모델이 일반적인 데이터에도 잘 작동하는지를 검증할 방법이 없게 된다. 이런 이유로 training set과 test set을 생성한다. 예를 들어 sample size가 200개(암 100개, 정상 100개)일때, random하게 100개(암 50개, 정상 50개)를 추출해서 training set으로 사용하고, 나머지 100개를 test set으로 사용할 수 있다. (샘플 사이즈가 주어질 때, 얼마만큼을 training set으로 사용하고, 얼마만큼을 test set으로 사용할 지는 경우에 따라서 달라 질 수 있는데, 통상적으로 training set의 size가 test set의 size보가 크거나 같다.) 먼저 training set을 사용하여 모델을 만들고, 이 때 만들어진 모델에 test set을 적용(test set의 암/정상을 예측)함으로써, 실제값과 예측값의 비교를 통해 주어진 모델이 얼마나 잘 작동하는지 검증한다. 이러한 "training set으로 모델 생성-test set으로 모델 검증"을 한 번만 하는 것보다 여러 번 반복하는 것이 보다 robust한 모델(특정 데이터에 덜 의존하는 좀 더 global 한 모델)을 만드는데 도움이 된다.
이어, 의사결정 나무(decision tree)에 대해서 설명한다. 의사결정나무는 데이터 마이닝(Data Mining)의 분석 기법 중 하나로 나무의 구조에 근거하여 의사결정 규칙을 찾아내는 방법이라 할 수 있다. 의사 결정나무는 의사 결정 규칙을 도표화하여 관심의 대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측하는 강력하고 널리 쓰이는 분석 기법이다. 의사 결정나무의 일반적인 알고리즘에는 정지규칙 그리고 가지치기 등에서 서로 다른 형성과정을 가지고 있다. 의사결정 나무에서 사용되는 규칙은 다음과 같다.
1.분리기준: 어떤 예측 변수를 이용하여 어떻게 분리하는 것이 목표변수의 분포를 가장 잘 구별해 주는지를 파악하여 자식마디가 형성되는데, 목표 변수의 분포를 구별하는 정도를 순수도 또는 다른 분류 기준을 이용하여 측정하는 것이다.
2.정지기준: 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디 (terminal node)가 되도록 지정하는 규칙을 의미한다.
3.가지치기: 지나치게 많은 마디를 가지는 의사결정나무는 새로운 자료에 적용될 때 예측 오차가 매우 클 가능성이 있다. 따라서 형성된 의사결정나무에서 적절하지 않은 마디를 제거하여 적당한 크기의 부(sub) 나무 구조를 가지는 의사결정 나무를 최종적인 모형으로 선택하는 것이 바람직하다.
목표변수가 이산형인 (discrete, 예를 들어 암/정상) 경우에는 목표변수의 각 범주에 속하는 빈도에 기초하여 분리가 일어나면, 분류나무를 구성하게 된다.
예를 들어 바이오마커 CYFRA21.1 값이 5보다 크면 암 일 확률이 매우 높다고 할 때, 100명중에 CYFRA21.1값 5가 넘는 사람 50명 중에 실제 암환자가 40명 정상 환자가 10명이었고, CYFRA21.1값이 5 미만인 50명 중에 암 환자가 10명 정상이 40명이었다고 할 경우, 이를 요약하면 하기 표 8와 같다.
표 8
  Cancer Normal Total
CYFRA21.1>5 40 10 50
CYFRA21.1<5 10 40 50
상기 표 8은 CYFRA21.1값만 사용한 경우이다. 이렇게 나눠진 데이터에 추가 기준을 적용 (CEA<3, >=3 또는 CEA<4, >=4)함으로써 데이터가 더 나눠지게 되며, 이는 도 3에 잘 나타나 있다. 도 3을 참조하면서 설명한다. 예를 들어, 사람 A의 CYFRA21.1값이 5, CEA값이 4.5이면, 예시로 사용된 decision tree에 따르면, 해당 바이오마커 조합값은 Terminal Node 3에 해당한다. Majority vote원칙에 따르면 Terminal Node 3의 과반수 이상이 "암"이므로 사람 A는 "암"으로 판정된다. 반면에 사람 B의 바이오마커값이 CYFRA21.1=7.0, CEA=2.0이라면 사람 B는 Terminal Node 4에 들어가므로 "정상"으로 판정된다.
이어, RF 알고리즘에 대해서 설명한다. 랜덤 포레스트(Random forest, RF; Breiman L, Machine Learning 45(1):5-32, 2001)는 CART의 의사결정나무의 조합으로 이루어진 Bagging 알고리즘의 일종으로 Leo Breiman과 Adele Cutler에 의해 제안된 방법이다. 각 나무들의 마디들은 고차원을 갖는 자료를 하위 차원들의 작은 조각으로 나눠 빠르게 분류할 수 있도록 구성되어 있다. 이런 각 나무들은 조합(Ensemble)과 투표(Voting)에 의해 최종적인 분류를 완료하게 된다. 확률 분포가 같은 랜덤 벡터(Random Vector)에 의해 생성된 나무들은 각각 독립적으로 구성되고, 구성된 나무들의 개수를 무한으로 가져가면 오분류가 일반화되어 수렴하게 되는데, RF는 불규칙성(Randomness)과 Out-of-bag(Random Selection without Replacement) 기법을 이용하여 Adaboost 만큼의 정확도를 낼 수 있게 하고 경계면과 잡음(Noise)에 강한 성능을 보이며, Bagging과 Boosting 보다 빠르게 수렴하도록 도와주는 효과를 낸다.
RF algorithm은 자체적으로 주어진 데이터로부터 (training data set, test data set)를 복수 개(예를 들어 50개, 이 개수는 옵션으로 사용자가 조정가능함) 만들어서 각각으로부터 decision tree를 생성한다. 이렇게 되면 독립적인 decision tree 가 50개 생성되게 된다. 이렇게 50개의 decision tree를 생성한 뒤에, test set을 넣으면 하나의 test 샘플 당, 50개의 결정(암/정상)을 갖게 되며(각 decision tree로부터 나온 값), 50개의 결정값을 추려서 많은 쪽(majority vote)으로 최종 결과를 갖게 된다. 예를 들어 사람 A의 경우 45개의 decision tree는 암으로 판정하고 5개의 decision tree는 정상으로 판정했다면,vaverage score(전체 50개의 판정중에서 암으로 판정된 비율)=45/50=0.9로 계산되어진다. 이때 암/정상을 구분하는 기준이 되는 cut-off value를 0.5로 가정했을 때 A의 average score 0.9는 0.5보다 크므로 "암"으로 판정된다.
이렇게 여러 개의 통계 모형(RF의 경우는 decision tree)으로부터 나온 결정을 종합하여 하나의 최종 결정으로 이르는 방법을 앙상블(ensemble) 기법이라고 하는데, 본 발명은 이러한 앙상블 기법을 사용하는 것을 특징으로 한다. 한편, RF 알고리즘 이외에도 Boosting 알고리즘도 있는데, 양자 모두 앙상블 기법을 사용하는 면에서는 동등하다. 본 발명 사상을 실행하는데 당업자에게 Boosting 알고리즘도 용이하게 채용할 수도 있음은 물론이다 할 것이며, 본 발명의 실시에 Boosting 알고리즘도 포함됨은 당연할 것이다.
Boosting의 기본적인 아이디어는 복수개의 weak learner가 합해져서 하나의 strong learner를 이룬다는 것이다. 이때의 weak learner는 random guessing 보다 나은 classifier로 accuracy가 0.5 이상인 것을 의미하며 decision tree, logistic regression 등 임의의 통계 classifier가 될 수 있다. Strong learner는 accuracy가 random guessing보다 월등히 좋은 classifier을 의미한다. 그 알고리즘은 다음과 같다.
1. N개의 데이터가 있을 때, 모두 동일하게 Wi=1/N값으로 weight을 준다.
2. 주어진 weight을 이용하여 weak classifer#1을 데이터에 적용한다.
3. Weak classifer#1으로 오분류(misclassified) 된 데이터의 weight은 증가시키고, 정분류(correctly-classified)된 데이터의 weight은 감소시킨다.
4. 3.에서 재계산된(re-calculated) weight을 이용하여 weak classifier #2를 데이터에 적용한다.
5. Weak classifier #2에 의해 오분류된 데이터의 weight은 증가시키고 정분류된 데이터의 weight은 감소시킨다.
이와 같이
Step 1: 주어진 weight을 사용하여 weak classifier 생성,
Step 2: 해당 weak classifier에 의한 오분류/정분류 여부에 따라 weight 재계산하기.
(Step 1.+ Step 2) 작업을 적당한 정지기준이 만족될 때까지 반복한다. 예를 들어 weak classifier10개가 생성되었다고 하자. 그러면 최종 결과는 이 10개의 weak classifier를 종합하여 도출하게 된다.
상기와 같은 방법으로 가능한 모든 복합 바이오마커의 조합인 8178개의 전체 복합 바이오마커 조합에 대하여 각각 복수개의 암/정상 예측 통계 모델을 생성한 다음 최적의 암/정상 예측 통계 모델을 선택하게 된다. 복합도 n인 특정 복합 바이오마커 조합이 있을 경우(X1, X2, ...Xn), n개의 복합 바이오마커가 사용된 샘플 중 일정 샘플을 training set으로 나누고, training set에 속하는 샘플에 대하여, n개의 복합 바이오마커 중 어느 하나 이상이 참여하는 도 3과 같은 복수개의 decision tree를 생성하고, 상기 decision tree를 앙상블 기법을 활용하여 복수개의 암/정상 예측 통계 모델 후보군을 생성한다. 복수개의 암/정상 예측 통계 모델 후보군에 대하여 training set에 참여하지 않은 샘플로 test set을 구성하고, 상기 test set에 대하여, 예측 성능을 검증한다. 예측 성능은 평가 지표 등이 될 수 있다. 전체 샘플을 training set와 test set으로 나누는 방법/조합의 수는 굉장히 많으므로, 상기 암/정상 예측 통계 모델 후보는 다수가 되게 됨은 당연할 것이다.
사람 A의 Avg.Score는 n개의 decision tree에서 나온 n개의 암/정상 판정 중에서 암의 비율을 나타낸다. 하나의 예측 모델은, random forest의 경우, 특정 마커 조합(예를 들면 RANTES+CYFRA21.1) 정보를 사용하여 만들어진 여러 개의 decision tree를 모은 것이 된다.
상기 생성된 암/정상 예측 통계 모델 후보군의 형태는 하기 수식 8과 같은 형태가 될 수 있다. 하기 수식 8과 같은 예측 모델 또는 각 decision tree에 대하여 상기 (X1, X2, ...Xn), n개의 복합 바이오마커가 활용된 샘플들에 대하여 특정된 X값을 투입한다.(물론, 상기 X값(예를 들면 RANTES라는 바이오마커의 발현값 또는 ApoA1/proApoA1 등과 같은 발현값 비율 정보) 또는 X값에 특별한 처리(예를 들면 partial dependency plot/함수관계로 처리한 값) 상기 복수개의 암/정상 예측 통계 모델 후보군 또는 각 decision tree에 샘플의 X값들이 투입되면 각 모델 후보군별 또는 decision tree별로 0(정상) 내지 1(암) 사이 값과 같은 판정값을 가지게 되고, 이들을 평균하면, 하기 표7과 같은 평균값(Avg.Score)가 생성되게 된다. 물론, 샘플마다 암/정상에 대한 정답값을 알고 있으므로, 상기 복수개의 암/정상 예측 통계 모델 후보군 또는 각 decision tree 중에서 어느 모델이 가장 나은 평가 지표를 가지는 지도 판정할 수 있게 된다.
상기 암/정상 예측 통계 모델 후보군 중에서는 앙상블 기법에서 활용되는 상기 복수개의 decision tree를 앙상블 접합한 모델이 다수 있음은 당연할 것이다.
이어, 각각의 암/정상 예측 통계 모델을 통하여, 각 모델마다 하기 표 9와 같은 데이터를 얻는다.
표 9
샘플ID class age sex stage.S avg.score
KNF006 Nor 53 F 0.0552
KNF006 Nor 44 F 0.3812
KNF006 Nor 49 F 0.0299
...... ...... ...... ...... ...... ......
LC01 Can 53 M 1 0.9608
LC01 Can 66 M 1 0.9555
LC01 Can 60 M 3 0.9958
LC01 Can 43 F 1 0.9586
...... ...... ...... ...... ...... ......
Avg.Score가 0.5를 초과하면 암으로 판정하고, 그렇지 않다면 정상으로 판정한다. 물론, 상기 0.5라는 cut-off는 특수한 예일뿐, 상황에 따라 0과 1사이의 임의의 수로 변경할 수도 있다. 이와 같이 복합 바이오마커에 대하여 Avg.Score를 계산하고, 복합 바이오마커별로 암과 정상 판정이 있게 되면, 표 9와 같은 데이터를 얻을 수 있게 되며, 이 데이터로부터 각 암/정상 예측 통계모델마다의 민감도, 특이도 및 정확도 등과 같은 진단 능력 내지는 예측 능력(performance) 평가 지표값을 생성할 수 있게 된다. RF에서 Average score를 가지고 암인지 정상인지를 판단을 할 때, Average score의 cut-off point 가 필요하게 된다. 즉, Average score 가 몇 이상일 때 암으로 볼 것 인가의 문제로, 위의 예에서는 Average score 가 0.5를 넘으면, 암으로, 그렇지 않으면 정상으로 판정했는데, 이 cut-off 값에 따라서 암/정상 판정이 달라지게 된다. cut-off 값이 커지면, 암으로 판정되는 비율이 줄고, cut-off값이 작아지면 암으로 판정되는 비율이 커진다. 이렇게 암/정상 판정이 영향을 받으면 연쇄적으로 Sensitivity, Specificity값 등 평가 지표값도 달라지게 된다. 따라서, 이 cut-off값을, 변동시키며, 이에 대응되는 평가 지표값(sensitivity, 1-specificity)를 ploting할 수 있다. 예를 들어, cut-off값을 0.01, 0.02,0.03, 0.04, ,...., 0.98,0.99,1이렇게 사용을 했을 때, 대응되는 (sensitivity, 1-specificity)값들을 구할 수 있고 이 값들을 각각 x, y 좌표로 사용하여 2차 평면에 표시할 수 있으며, 이에 대한 예시 도면은 도 4에 나와 있다. 도 4에서 파란 선(sensitivity(Sn), 1-specificity(Sp) 값이 지정되어 있는 선으로, 2차 평면에서 원호 모양으로 되어 있는 선)이 ROC 커브에 해당하는데, 완벽한 통계 모델일수록 이 곡선이 상자의 왼쪽 상위 꼭지점에(좌표로는 x=0.0, y=1.0에 해당)가까워 지게 된다. 이렇게 되면, 커브 아래의 면적(AUC: Area under curve)이 1에 가까워지게 된다. ROC curve는 보다 sensitivity와 specificity 측면에서 동시에 모델의 performance를 비교할 있는 방법으로, 커브 아래 면적이 1에 가까울수록 좋은 통계 모델이라고 말 할 수 있으며, ROC curve 아래 면적값(AUC)으로 performance 평가 지표값을 사용할 수 있고, 이 ROC curve를 사용하여 cut-off 값을 찾기도 한다. .
이어, 생성된 복합 바이오마커 조합별 중에서 폐암 진단 능력이 뛰어난 복합 바이오마커 조합을 선별(S14)한다. 하기에서는 어떤 복합 바이오마커 조합이 더 타당한 조합인지를 판단하는 방법의 일례를 제시한다. 상기 13Cr개의 복합 바이오마커 조합(모든 개별 조합은 1개 이상의 암/정상 예측 통계 모델을 형성한다. 이들 1 개 이상의 암/정상 예측 통계 모델에 대하여 최적의 통계 모델을 선별할 수 있음은 물론이다 할 것이다.)에 대하여 각 통계 모델에서 각 바이오마커별 importance를 계산한다.
Importance는 특정 통계 모델에서 특정 바이오마커가 암/정상 판정에 대한 연관성의 크기를 나타낸다. 도 3에서와 같이 CYFRA21.1과 CEA 두 개의 바이오마커 값을 사용하여 4개의 terminal node(tree의 가장 끝에 달려 있는 node들)가 생성이 되었고, 샘플이 입력되면 이 tree 를 따라가서 최종 도달하는 terminal node의 majority 값에 따라서 암인지 정상인지로 판정이 된다. 처음에 사용된 CYFRA21.1의 값에 의해 sample의 상당부분이 암/정상으로 나뉘어지게 되는데, 이는 CYFRA21.1바이오마커 값은 암/정상과 상당히 큰 연관성을 가지고 있다는 것을 말한다. 이 CYFRA21.1의 importance를 측정하기 위해서, CYFRA21.1값을 random하게 permute한다. 즉, CYFRA21.1값을 마구잡이로 섞은 뒤, 각 환자에게 할당하기 때문에, 암/정상과 CYFRA21.1의 상관 관계는 거의 없어지게 된다. 이렇게 randomly permuted된 데이터를 넣고 decision tree에 넣었을 때 각 terminal node에서의 correct decision ratio(2)와 CYFRA21.1원래 데이터를 사용했을 때 각 terminal node에서의 correct decision ratio(1)간의 차이를 측정하고, 이 값이 CYFRA21.1의 importance가 된다. 암/정상에 따른 확연한 바이오마커 값의 패턴이 존재한다면, 그 패턴을 사용했을 때의 correct decision ratio와 이 바이오마커값이 무시되었을 때 (randomly permuted)의 correct decision ratio가 커지게 된다. 반대로 암/정상과 별 상관 없는 바이오마커라면 원래 데이터를 사용했을 때나 randomly permute되었을 때나 correct decision ratio에 큰 차이가 없게 된다.
상기와 같이 각 통계 모델에서 각 통계 모델에 참여하는 모든 바이오마커의 importance를 계산할 수 있게 되면, 그 통계 모델에서 참여하는 바이오마커들의 importance 랭킹(서열)을 부여할 수 있게 된다. 예를 들면, IGF.1+CYFRA21.1+RANTES라는 바이오마커 조합을 포함하는 통계 모델이 있는 경우, 이 통계 모델에서 바이오마커 IGF.1, CYFRA21.1, 및 RANTES의 importance를 알 수 있게 된다. 예시적으로 importance 랭킹이 CYFRA21.1이 1위, IGF.1이 2위, RANTES가 3위 등이 될 수 있다. 이때, 모든 8178개의 통계 모델에서 각 모델마다에 참여하고 있는 바이오마커마다의 importance값 및 importance 랭킹을 알 수 있을 때, 상기 importance값 및 importance 랭킹을 활용하여 우월한 복합 바이오마커를 선별할 수 있게 된다. importance값 및 importance 랭킹값을 사용하여 우월성 있는 복합 바이오마커를 선별하는 방법은 다양할 수 있으나, 하기와 같은 일 실시예적 방법을 예시적으로 제시한다.
모든 8178개의 통계 모델에서 importance 랭킹 1위 바이오마커 및 랭킹 2위인 바이오마커를 추출할 수 있고, 전체 8178개의 "랭킹 1위 바이오마커+랭킹 2위 바이오마커" 리스트가 만들어 지게 된다. 추출된 "랭킹 1위 바이오마커+랭킹 2위 바이오마커" 각각에 대하여, 각 "랭킹 1위 바이오마커+랭킹 2위 바이오마커"별 빈도를 계산할 수 있게 된다. 이때, "랭킹 1위 바이오마커+랭킹 2위 바이오마커"의 빈도 계산시, 랭킹 1위 바이오마커와 랭킹 2위 바이오마커의 서열이 달라도 동일하게 취급하는 방법(조합 방법)과 서로 다르게 취급하는 방법(순열 방법)이 있을 수 있다. 조합 방법의 경우, "IGF-1+CYFRA21.1"와 "CYFRA21.1 + IGF-1"은 같은 것이 된다. 즉, 모든 통계 모델에서 IGF-1나 CYFRA21.1 둘 중 어느 하나가 1위를 하고, 어느 하나가 2위를 하기만 하면 "IGF-1+CYFRA21.1"는 동일하게 빈도 1이 추가되게 된다. 한편, 순열 방법의 경우에는 IGF-1가 1위를 하고, CYFRA21.1가 2위를 한 모델과 CYFRA21.1 이 1위를 하고, IGF-1가 2위를 한 모델은 별개로 취급되게 된다. 즉, "IGF-1+CYFRA21.1"과 "CYFRA21.1+IGF-1"은 다르게 취급된다.
한편, 상기에서는 조합 방식에서 랭킹 1위 및 2위만이 아닌 랭킹 3위 등과 같이 랭킹 n위까지 포함하여 빈도를 기준으로 중요한 바이오마커 조합을 찾을 수도 있을 것이다. 또는 순열 방식을 적용하여 랭킹 n(n>1)위 까지의 바이오마커 조합에 대하여 빈도를 계산하여 중요한 바이오마커 조합을 생성할 수 있을 것이다.
또한, 랭킹 n위별로 가중치를 부여하여(예를 들어 가중치는 importance값 자체일 수 있으며, 랭킹 1위에는 가중치 1, 랭킹 2위에는 가중치 0.5를 부여하는 방식 등과 같이 가중치를 임의 또는 통계학적 근거에 따라 줄 수도 있을 것이다.) 상기 조합 방식이나 상기 순열 방식에서 빈도 및 가중치가 모두 반영된 중요 바이오마커 조합을 찾을 수도 있을 것이다.
상기와 같은 처리를 통하여, 13Cr개의 복합 바이오마커마다에 대하여, 상대적 우월성 지표값을 계산할 수 있다. 상대적 우월성이란, 특정 복합 바이오마커가 있을 경우, 다른 복합 바이오마커에 비하여 얼마나 큰 우월성을 가지는가를 지표화한 것이다.
한편, 상기 13Cr개의 복합 바이오마커 조합 각각에 대하여 민감도, 특이도, 정확도 등과 같은 performance 등을 계산할 수 있게 되며, 복합 바이오마커 조합에 대한 performance 값으로 최적의 복합 바이오마커를 선택할 수도 있을 것이다. 민감도, 특이도, 정확도 등은 각 복합 바이오마커(각 복합 바이오마커는 통계 모델과 1:1로 대등된다.)의 performance의 일례일 뿐 다른 performance 지표를 산출할 수 있음은 당연할 것이며, ROC 커브의 아래 면적은 그 예가 될 것이다.
복합 바이오마커의 선택 시 복합 바이오마커에 참여하는 단일 바이오마커의 개수(복합도라 한다. 예를 들어 IGF-1+CYFRA21.1의 경우 복합도는 2가 되며, IGF-1+CYFRA21.1+RANTES는 복합도가 3이 된다.)가 증가할수록 performance(performance의 예로 민감도, 특이도, 정확도, ROC 커브의 아래 면적 등의 평가 지표가 사용될 수 있다)가 좋아지는 경향이 있으나, 반대로 실제 제품에 적용되었을 때, 1) 제조 비용의 증가, 2) 데이터 수집, 분석 등 정보 처리 비용/난이도의 증가, 3) 측정값들 간의 통계학적 상관성의 존재 가능성 증가되는 문제가 있을 수 있다. 또한, 특정 바이오마커들의 조합인 복합도 n의 복합 바이오마커만으로도 충분하고도 만족스러운 performance가 나오는 경우, 추가적인 바이오마커들을 복합시킬 경우 net performance(performance 증분)이 크지 않을 수 있다. 따라서, 복합도를 증가시킬 때, performance의 용인 하한값을 넘어서는 경우, net performance 및 복합도 증분에 대한 비용을 고려하여 복합도를 증가시키는 것이 타당할 것이다. 즉, 복합도 증가에 따른 Benefit 변동량/Cost 변동량의 값이 큰 것이 타당할 것이다. 한편, 복합도를 증가시킬 때, 어떤 바이오마커를 사용하는 가는 performance 값으로 판단할 수 있을 것이다. 예를 들면, 5개 정도의 바이오마커 조합(5복합 바이오마커)으로 충분한 performance가 나오는 경우, 추가적으로 1개 이상의 바이오마커를 더 복합하더라도 performance의 별 차이가 없을 경우, 5개 정도의 바이오마커 조합으로 폐암 진단 바이오마커 상품을 제조할 수 있을 것이다.
하기 표 10은 IGF-1+Cyfra에 바이오마커를 1개씩 추가하면서 각 평가 지표의 변동(증가)를 보여 주는 일 실시예이다. 하기 표 10에서 알 수 있듯이, 각 평가 지표는 바이오마커 수가 증가됨에 따라 saturation 됨을 알 수 있다. 만약 accuracy를 기준으로 하여 93%로 충분할 경우(accuracy 93%가 cut off인 경우), "IGF-1+CYFRA21.1+A1AT+RANTES+CEA+CA19-9" 복합 바이오마커로 된 모델로도 충분할 수 있을 것이며, 이 모델에 TTR을 추가하는 모델은 불필요할 수도 있을 것이다.
표 10
M_01 M_02 M_03 M_04 M_05 M_06 Accuracy Sensitivity
IGF-1 CYFRA21.1         0.8629 0.8213
IGF-1 CYFRA21.1 A1AT       0.8895 0.8708
IGF-1 CYFRA21.1 A1AT RANTES     0.9238 0.9226
IGF-1 CYFRA21.1 A1AT RANTES CEA   0.9266 0.919
IGF-1 CYFRA21.1 A1AT RANTES CEA CA19-9 0.9300 0.9207
IGF-1 CYFRA21.1 A1AT RANTES CEA CA19-9 TTR 0.9315 0.9236
상기 표 2에서의 실험된 바이오마커들의 셀값은 바이오마커 후보의 실험값 나열이며, 로그(log) 변환 을 거친 값이다. 이와 같이 실험값은 측정값이므로 오차가 발생가능하며, 이상치(outlier)가 존재하게 되어 로그 변환의 여부를 떠나 그대로 사용했을 경우 이러한 이상치들이 통계 모델의 평가 지표를 떨어뜨리는 주된 요인이 될 수 있다. 따라서, 이상치들을 효과적으로 제거, 영향 최소화 또는 보정하는 방법이 필요하게 되는데, 이때 취할 수 있는 효과적인 방법이 Decision Tree(분류나무)를 이용한 기법이다. 분류나무 모형은 주어진 데이터에 순위를 매기고, 데이터를 반복적으로 분할한다. 분할된 각 파티션은 하나의 반응변수 값을 전부 또는 대부분 갖도록 하는 것을 목표로 한다. 이러한tree를 이용한 앙상블 기법에는 Bagging , Boosting, Random Forest 등 다양한 분류기법이 있다. 앙상블 기법은 Decision Tree(분류나무) 노드를 이용하여 여러 개의 tree를 만들고, 이를 결합하여 더욱 안정되고 강력한 classifier를 만든다. Boosting은 weak classifier(일반적으로 랜덤한 선택보다 약간 더 좋은 성능)를 여러 개 만들어서 합쳐줌으로써 정확도가 높은 분류모형을 만드는 기법이다. Boosting은 변수의 interaction term도 고려할 수 있으며, 변수의 중요도도 관측된다. Random forest는 하나의 가장 좋은 분류나무모형을 구축하는 대신에 random하게 많은 분류나무모형을 구축하여 이들을 합하는 방법이다. Random forest의 장점은 분류 정확도가 우수하고, 이상치에 둔감하며, 계산이 빠르고 단순하다.
 여기서는 앙상블 기법의 장점들을 이용하여, 암/정상 예측 모델 구축 시 이상치의 영향을 최소화 하도록 앙상블 기법(Boosting과 Random Forest)의 partial dependence plot 을 이용하여 자료를 변환하는 방법을 설명한다.
각 바이오마커별 발현량 등과 같은 X(변수)의 실제 측정 등에서는 여러가지 이유로 이상치들이 존재하게 되며, 이러한 이상치들을 그대로 사용하는 경우, 샘플에 포함된 이상치들 때문에 예측 모델 생성에서도 모델의 왜곡이 심해지며, 예측 모델을 적용할 때도 환자 등의 측정값에 이상치가 있는 경우, 암/정상 판정에 상당한 왜곡이 발생할 가능성이 커진다. 이는 특히, 복합 바이오마커 조합를 사용하는 경우, 조합에 포함된 특정한 바이오마커에 이상치가 있는 경우, 그 이상치가 전체 판정 모델값에 큰 영향을 끼칠 수 있게 된다. 이러한 이상치의 직접적인 반영에 따른 영향을 줄일 필요가 있게 된다. decision tree는 본질적으로 분류(classification)에 기초를 두고 있으므로, 이상치가 있더라도, 그 이상치가 직접적으로 반영되지 않고, 그 이상치의 상대적 순서, 랭킹 또는 분류 기준에의 해당성만이 반영되므로, 이상치의 영향력이 크게 줄어들게 된다.
이상치를 제거할 수 있는 논리에 대하여 좀더 상세히 설명한다. Partial dependence plot은 반응변수(암/정상)에 관한 특정 변수값의 영향 (marginal effect)을 보기 위한 것이다. 일반적으로 Partial dependence plot 함수 관계는 다음과 같이 구한다. 2개의 바이오 마커 조합 X=( Xs, Xc)을 가지고 먼저 Random forest 를 적용한다. 예를 들어 해당 random forest에서 50개의 decision tree가 생성되었다고 하자. 50개의 decision tree결과를 종합하면, 각 환자의 바이오 마커값 X=(Xs, Xc )에 대하여 아래의 함수 f (Xs, Xc)값을 구할 수 있다.
f(Xs, Xc)=f(X)=log(p(X)/(1-p(X)))
이 때 p(X)는 마커 조합 X를 갖는 해당 환자가 50개의 decision tree에서 암으로 뽑힌 비율, 즉 Avg.Score에 해당한다. 이와 같은 방법으로 모든 환자에 대해서 함수값 f(Xs, Xc)를 계산할 수 있다. 만약 첫번째 바이오 마커(예를 들어 RANTES, 현재 사용하는 예시에서는 XS이라고 하자)의 partial dependence 값을 구하고 싶다면, 같은 Xs 값을 갖는 환자들끼리 모아서 그들의 f(Xs, Xc)값 평균 (g(XS)이라고 하자)을 구한다.
예를 들면 마커 RANTES값 Xs =90인 환자들의 f(90, Xc)를 모아서 평균 (g(90))을 구하고. ,
RANTES값 Xs =65를 갖는 환자들의 f(65, Xc)값들을 모아서 평균 (g(65))을 구한다.
이런식으로 같은 Xs 값을 갖는 f값들의 평균(g(Xs))을 구하다 보면,
(Xs =90, g(90)), (Xs =65, g(65))와 같은 pair 값을 구할 수 있고,
이 Xs 을 x-축으로 g(Xs)을 y축으로 사용하여 그림을 그리면,
f값에 대한 Xs 의 marginal effect를 구할 수 있고, 이 함수가 partial dependence plot이 된다.
이때 original data로부터 f(Xs, Xc)를 추정할 때 사용된 decision tree는 데이터의 실제값보다는 순서를 사용하는 알고리즘이기 때문에, outlier들에 대해서 보다 둔감할 수 있다.
Partial dependence plot 또는 partial dependence 함수 관계는 하나의 변수에 대한 나머지 변수들의 영향을 제거한다. 예를 들어서, input 변수가 Xs, Xc 두 변수로 이루어진 결합 분포가 있을 때, Xs변수에 대한 영향을 알고 싶으면 결합분포를 Xc변수에 대해 평균을 취해주면 된다. 각 X마다 partial dependence 함수 관계를 생성할 수 있으며, 상기 partial dependence 함수 관계는 partial dependence plot에 대응되게 된다. 이러한 partial dependence 함수 관계나 partial dependence plot을 이용하여, X를 변환할 수 있게 된다. 즉, 2 이상의 샘플에 대하여 각 샘플별로 바이오마커별 오리지널 변수값을 입수(S51)하고, 바이오마커별 오리지널 입력 변수값으로 기설정된 처리를 수행하여 바이오마커별 partial dependence plot 또는 partial dependence 함수 관계를 구성(S52)하여, 바이오마커별 partial dependence plot 또는 partial dependence 함수 관계를 이용하여 바이오마커별 오리지널 변수값에 대한 바이오마커별 변환 변수값을 생성(S53)하고, 변환 변수값을 기설정된 암/정상 예측 통계 모델의 생성 또는 암/정상 예측 통계 모델의 실행에 사용(S54)할 수 있다.
이어, Partial dependence plot 또는 partial dependence 함수 관계를 이용한 본 발명 사상을 더욱 더 상세하게 설명한다. A1AT, CYFRA21.1, RANTES 3개로 구성되는 복합도 3의 복합 바이오마커를 이용한 통계 모델을 예시적으로 설명한다. 우선적으로 기존의 데이터에서 암 50개(암 진단 50 샘플)와 정상 50개(정상 진단 50 샘플)로 100개의 데이터를 뽑고, 정상 샘플에 대해서는 y=0, 암 샘플에 대해서는 y=1을 대응시킨다. 이 경우, 하기 표 11와 같은 데이터가 준비될 수 있다.
표 11
샘플 index A1AT CYFRA21.1 RANTES y
221 3.45308 -2 4.708709 0
223 3.341135 -2 4.958518 0
222 3.568896 -2 4.577357 0
246 3.068592 -2 4.900771 0
207 4.538396 -2 5.014241 0
182 3.674541 -1.94122 4.864592 0
146 3.350815 -2 4.760304 0
197 3.003192 -2 4.741928 0
167 3.36072 -0.5627 4.863431 0
... ... ... ... ...
120 3.681963 0.072985 4.54931 1
37 3.779961 -2 4.592287 1
6 3.408483 -0.11415 4.698918 1
106 5.341259 0.036621 4.418414 1
121 4.328482 0.550228 5.00923 1
8 3.513981 0.134559 4.732865 1
43 4.122104 -2 4.179332 1
118 5.220087 0.471732 3.972027 1
112 5.117792 0.663135 4.758335 1
... ... ... ... ...
하기 수식1은 3차원의 설명변수 바이오마커 xi=(A1AT, CYFRA21.1, RANTES )와 특정 질병 그룹(폐암)과 정상 그룹으로 구성된 범주형 반응변수 yi를 가진 100 개의 쌍으로 이루어진 표본을 말한다.
[수식1]
{(Xi, Yi)i=1 100|Xi∈R3,Yi∈0,1}
이어, A1AT,l CYFRA21.1 RANTES 이 세 개의 바이오마커로 구성된 sample을 가지고 tree를 이용한 앙상블 방법으로 통계 모델을 만든다.
decision tree 방법을 수식으로 표현하면 하기 수식 2와 같다.
[수식 2]
Figure PCTKR2011010353-appb-I000001
여기서 Rj은 teminal node에서의 서로 배반인 설명변수 영역들을 나타낸다. 그리고 θ = {Rj,γj}은 추정해야할 모수이다.
이어, 각각의 partial dependence plot또는 partial dependence 함수 관계가 어떻게 구해지는지도 각 바이오마커에서 어떻게 구해지는지를 설명한다. 폐암 진단 모델 구축 시 이상치의 영향을 최소화 하도록 앙상블 기법(Boosting과 Random Forest)의 partial dependence plot 또는 partial dependence 함수 관계를 이용하여 자료를 변환한다. Partial dependence plot 또는 partial dependence 함수 관계는 하나의 변수에 대한 나머지 변수들의 영향을 제거한 것으로 오리지널 input 변수가 XA1AT, XCyfra21.1, XRANTES 3 변수로 이루어진 결합 분포를 생각해 보자. XRANTES 변수에 대한 영향을 알고 싶으면 결합분포를 XA1AT, XCyfra21.1변수에 대해 평균을 취해주면 된다. 이것이 partial dependence plot 또는 partial dependence 함수 관계의 기본 아이디어이다. 수식으로 partial dependence 함수 관계를 표현해 보면 하기 수식 3과 같다.
[수식 3]
Figure PCTKR2011010353-appb-I000002
도 5 내지 도10을 참조하여 설명한다. 도 5는 RANTES의 partial dependency plot 이다. Partial dependency plot을 통해 나온 함수f값은 세로축에 표시되며 가로축은 설명 변수 값이 표시되어 있다. 도 6은 암환자와 정상인 사람들의 boxplot이다. Boxplot을 보면 정상인 그룹보다 암환자 그룹의 RANTES 값이 전반적으로 낮음을 알 수 있다. 즉, RANTES 값이 작을수록 암환자 그룹일 가능성이 높아진다. 이러한 정보를 반영한 것이 partial dependency plot이다. partial dependency plot의 y축 값은 RANTES변수에 대한 영향을 나타내며 가로축 값이 작아질수록 y축 값은 커진다. Y값이 클수록 질병으로 분류될 가능성이 높다고 해석할 수 있다. 각 설명 변수 X 마다 partial dependence plot을 그릴 수 있으며 Cyfra21.1에 대한 Partial dependency plot와 boxplot는 도 7 과 도8이며, A1AT에 대한 Partial dependency plot와 boxplot는 도 9와 도10이다.
이어, partial dependence plot 또는 partial dependence 함수 관계를 이용하여 변환된 설명 변수를 logistic regression, ridge regression 등 regression에 어떻게 적용하는지에 대해 설명한다.
Partial dependence plot/함수관계의 이러한 특성을 반영하여 우리는 원래의 값 X대신에 partial dependency plot/함수관계를 통해 변환된 값 Y를 새로운 input 변수로 정의하고 이 새로운 변수가 다음 단계인 logistic모형에서 input 변수가 된다. 도 9에서 A1AT 값이 3.0인 샘플은 partial dependency plot/함수관계를 통해 변환된 값인 -1.5를 갖는 것이고, A1AT값이 3.5인 샘플은 partial dependency plot/함수관계를 통해 0.5로 변환된다.
회귀분석모형은 일반적으로 설명 변수가 반응변수에 미치는 영향을 분석하는 방법으로서 그 결과를 질병진단 예측에도 활용할 수 있다. 회귀분석모형은 Lasso regression, Ridge regression, Logistic regression등 여러 가지가 있다. 분류 방법 중 하나인 logistic모형은 반응 변수값이 이분변수일 때 사용되는 모형으로 확률추정이 가능하며 해석하기가 쉽다. 각 회귀계수는 변수의 영향(중요도)를 나타낸다고 할 수 있다. 회귀계수가 0보다 큰 경우는 X값이 커지면서 Y가 1이 될 확률(질병으로 예측될 가능성)이 커지며 회귀계수가 0보다 작은 경우는 X값이 증가하면서 Y가 1이 될 확률이 작아진다. Logistic모형에서 회귀계수를 추정할 때 수렴하지 않는 문제가 발생 할 수 있기 때문에 regularization method인 ridge 함수를 이용하여 확률값을 추정한다. Ridge 함수를 이용한 회귀계수는 하기 수식4와 같이 추정된다. Ridge 추정량은 회귀계수 추정량이 제한된 상황에서 오차를 제일 작게 하는 추정량을 구하는 것이다.
[수식 4]
Figure PCTKR2011010353-appb-I000003
이렇게 추정된 회귀계수를 이용하여 질병의 예측 확률값을 구할 수 있다.
이어, 상기 추정된 회귀계수를 직접 대응시킨 Logistic regression 모델은 하기 수식 5와 같다
[수식5]
Figure PCTKR2011010353-appb-I000004
실제 본 발명의 실제 실시예적 통계 모델에서 회귀 계수를 구한 값을 적용하면, 상기 수식 5는 하기 수식 6과 같이 되었다.
[수식 6]
Figure PCTKR2011010353-appb-I000005
질병으로 분류(Yi=1)될 확률을 예측하기 위해서 sample xi의 marker j 에 대한 회귀계수가 βj인 경우에 logistic 회귀모형은 하기 수식 7와 같다.
[수식 7]
Figure PCTKR2011010353-appb-I000006
상기 수식 7에 실제 실시예적 통계 모델에서 추정된 회귀계수를 대입하면, 하기 수식 8과 같다.
[수식 8]
Figure PCTKR2011010353-appb-I000007
상기와 같은 방법으로 Partial Dependency Plot/함수관계를 사용하여 각 샘플별로 상기 바이오마커별 오리지널 변수값을 변환할 수 있으며, 변환된 바이오마커별 변수값으로 기설정된 암/정상 예측 통계 모델의 생성 또는 암/정상 예측 통계 모델의 실행에 사용할 수 있게 된다. 이와 같이 모든 복합 바이오마커 조합을 사용하는 모든 통계 모델마다 변환된 바이오마커별 변수값을 사용하여 상기 수식 8과 같은 폐암으로 진단할 확률 함수를 구할 수 있게 된다.
한편, 복합 바이오마커를 사용하는 경우, 여러 개의 바이오마커를 사용하므로, 어느 바이오마커가 얼마만한 영향을 미치는지를 용이하게 알아 보기 어려울 수가 있다. 이때, 폐암 진단 모형의 결과값으로 질병 확률 예측값과 함께 사용된 복합 바이오마커에서 각 바이오마커의 영향을 눈으로 쉽게 볼 수 있고 다른 바이오마커들과 비교해 볼 수 있는 기법의 개발이 필요하게 된다. 이러한 이유로 탐색적 자료 분석 기법인coefficient plot (CP)을 개발하였다.
도 11은 CP의 일 실시예적 도면이다. x축에는 비교대상 바이오마커들을, y축에는 바이오마커의 질병에 미치는 영향 정도를 나타낸다. 도 11에서 Cyfra21.1 이 질병을 유발하는 중요한 변수라는 것은 한눈에 알 수 있다.
 CP에 사용된 바이오마커별 바이오마커의 질병에 미치는 영향 정도는 다음과 같이 계산된다. g(x)는 partial dependence plot 을 이용하여 변환된 새로운 input변수를 사용한다. 복합도 K인 복수 개의 바이오마커에 대하여 로지스틱 모형으로부터 구한 판별 함수는 하기 수식 9와 같이 표현할 수가 있다. 새로운 input변수를 표준화시킨 다음 베타 계수를 곱해서 나온 값을 plot으로 그려보면 각 바이오마커의 영향 정도를 가늠할 수 있다.
[수식 9]
Figure PCTKR2011010353-appb-I000008
CP를 생성하는 방법은 X 축에 복합 바이오마커를 구성하는 개별 바이오마커를 나열(S61)하고, Y 축에 개별 바이오마커별 영향력 정보를 표시(S62)하는 방법을 포함한다.
이하, 예시를 통하여 본 발명 사상을 더욱 더 상세하게 설명한다. 하기 표 12에는 A1AT, CYFRA21.1, 및 RANTES로 구성되는 복합 바이오마커 조합이 있을 때, 각 샘플별 각 바이오마커별 발현량의 측정값 및 partial dependency plot을 통하여 변환된 각 바이오마커의 발현량의 측정값을 보여 주고 있다.
표 12
샘플 index A1AT CYFRA21.1 RANTES t(A1AT) t(CYFRA21.1) t(RANTES)
163 3.57 0.21 4.87 1.07 2.88 -0.63
174 2.88 -1.94 4.33 -0.95 -1.50 2.48
205 2.97 0.37 4.98 -0.95 2.88 -0.88
203 3.33 -2.00 4.95 -0.73 -1.50 -0.88
152 3.38 -0.91 4.93 0.13 -1.33 -0.88
130 3.36 -2.00 4.71 -0.47 -1.50 -0.17
229 3.21 -2.00 4.88 -0.90 -1.50 -0.63
156 3.07 -1.26 4.78 -0.95 -1.34 -0.62
168 3.20 -1.83 5.02 -0.90 -1.27 -0.86
228 3.31 -2.00 5.03 -0.73 -1.50 -0.86
... ... ... ... ... ... ...
23 4.05 0.39 4.56 1.45 2.88 2.31
81 4.10 0.93 4.35 1.45 2.88 2.48
11 3.51 0.29 4.60 0.90 2.88 1.77
49 3.90 -0.38 4.41 1.41 1.60 2.48
8 3.51 0.13 4.73 0.90 2.88 -0.40
104 3.52 0.78 4.86 0.90 2.88 -0.63
45 4.25 -0.69 4.45 1.45 -0.99 2.47
120 3.68 0.07 4.55 1.12 2.88 2.36
5 3.44 -0.80 4.44 0.50 -1.30 2.48
9 4.50 -1.83 4.35 1.45 -1.27 2.48
21 3.65 -0.17 4.82 1.12 1.66 -0.63
... ... ... ... ... ... ...
74 4.34 -0.27 4.70 1.45 1.66 -0.01
하기 표 13은 각 샘플별 실제 Y값(암 환자 또는 정상인), 암 진단 모델을 통하여 예측된 확률값 prob(Y=1)값, 확률값을 통한 예측지(암 또는 정상) 및 각 샘플(대상자)별 각 바이오마커별로의 Coefficient plot 값을 생성한 결과를 보여 주고 있다.
표 13
샘플 index true y 예상확률 예상치 coeff_A1AT coeff_Cyfra21.1 coeff_RANTES
163 0 0.95 1 0.59 3.09 -1.29
174 0 0.38 0 -1.67 -2.37 1.90
205 0 0.69 1 -1.68 2.28 -1.58
203 0 0.01 0 -1.07 -2.35 -1.59
152 0 0.03 0 -0.33 -2.16 -1.21
130 0 0.03 0 -1.08 -1.78 -0.70
229 0 0.01 0 -1.23 -2.35 -1.28
156 0 0.02 0 -1.67 -2.18 -0.96
168 0 0.01 0 -1.62 -1.57 -1.56
228 0 0.01 0 -1.07 -2.35 -1.57
... ... ... ... ... ... ...
23 1 1.00 1 1.31 3.09 1.75
81 1 1.00 1 1.31 2.28 2.59
11 1 1.00 1 0.44 3.09 1.71
49 1 1.00 1 1.26 1.50 1.90
8 1 0.96 1 0.62 2.28 -0.99
104 1 0.94 1 0.44 3.09 -1.29
45 1 0.92 1 1.31 -1.73 1.90
120 1 1.00 1 0.90 2.28 2.44
5 1 0.75 1 0.07 -2.11 2.59
9 1 0.89 1 1.31 -2.08 1.90
21 1 0.82 1 0.90 1.15 -1.28
... ... ... ... ... ... ...
74 1 0.93 1 0.95 1.58 -0.51
상기 표 13에서 알 수 있듯이 실제 암이 아닌데 암이 진단된 것은 2개이며, 암인데 암이 아닌 것으로 진단한 것은 없는 것과 같이 예측의 정확도가 아주 높은 것을 알 수 있다.
이어, 폐암 진단 능력이 높은 복합 바이오마커 조합을 선별하는 방법을 설명한다.
본 발명에서는 13개의 바이오마커에 대하여 2개씩 쌍으로 복합도 2인 복합 마커 조합 8178개를 생성하였다. 생성된 각 바이오마커 조합에 대응하는 암 진단 모델을 생성하고, 생성된 암 진단 모델을 대상으로 하여, 정상인 128명(남자 78명, 여자 50명)과 폐암 환자 121명(남자 78명, 여자 43명)을 대상으로 하여 테스트를 하였고, 그 테스트 결과에 해당하는 각 암 진단 모델별 평가 지표(정확도, 민감도 및 특이도)는 하기 표 14 내지 하기 표 24에 있다. 테스트 된 각각의 암 진단 모델은 암 진단 모델의 관점에서는 개별적인 실시예에 해당하나, 8178개의 실시예를 모두 제시하고 나열해야 하나, 나열의 경우 너무 많은 공간을 차지하는 점과, 특허는 발명 사상의 표현인 점을 고려하여 대표적인 실시예만을 표의 형태로 제시한다. 표의 형태로 제시되는 각 실시예에는 암 진단 모델 번호가 있으며, 그 번호에 해당하는 암 진단 모델은 그 암 진단 모델에 참여하는 바이오마커 조합이 대응되어 있으며, 그 암 진단 모델에 대한 정상인 128명(남자 78명, 여자 50명)과 폐암 환자 121명(남자 78명, 여자 43명)을 대상으로 하여 테스트한 결과인 평가 지표가 병기되어 있다.
우선적으로 본 발명에서는 13개의 바이오마커에 대하여 2개씩 쌍으로 복합도 2인 복합 마커 조합을 생성하였다. 생성된 바이오마커 조합에 대응하는 78개의 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다. 상기 각 암 진단 모델을 대상으로 하여, 정상인 128명(남자 78명, 여자 50명)과 폐암 환자 121명(남자 78명, 여자 43명)을 대상으로 하여 테스트를 하였고, 그 테스트 결과에 해당하는 각 암 진단 모델별 평가 지표(정확도, 민감도 및 특이도) 중 일부는 하기 표 14에 있다.
하기 표 14는 정확도 기준 상위 50%에 해당하는 복합도 2인 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있다.
표 14
암진단모델 바이오마커 바이오마커 정확도 민감도 특이도
20 A1AT PAI-1 0.8795 0.8505 0.9085
14 A1AT CYFRA21-1 0.8723 0.8541 0.8906
16 A1AT RANTES 0.8702 0.8430 0.8974
31 CYFRA21-1 PAI-1 0.8684 0.8469 0.8900
22 A1AT CEA 0.8663 0.8308 0.9018
27 CYFRA21-1 RANTES 0.8648 0.8708 0.8588
26 CYFRA21-1 IGF-1 0.8629 0.8213 0.9044
32 CYFRA21-1 TTR 0.8626 0.8469 0.8782
21 A1AT TTR 0.8620 0.8197 0.9044
18 A1AT AFP 0.8618 0.8472 0.8765
42 IGF-1 TTR 0.8597 0.8626 0.8568
23 A1AT CA19-9 0.8567 0.8216 0.8918
25 A1AT ApoA1 0.8563 0.8289 0.8838
15 A1AT IGF-1 0.8540 0.8384 0.8697
28 CYFRA21-1 proApoA1 0.8539 0.8331 0.8747
24 A1AT ApoA1/proApoA1 0.8534 0.7948 0.9121
35 CYFRA21-1 ApoA1/proApoA1 0.8533 0.8439 0.8626
36 CYFRA21-1 ApoA1 0.8508 0.8413 0.8603
37 IGF-1 RANTES 0.8495 0.8590 0.8400
30 CYFRA21-1 EGFR 0.8494 0.8390 0.8597
17 A1AT proApoA1 0.8492 0.7866 0.9118
40 IGF-1 EGFR 0.8487 0.8397 0.8576
19 A1AT EGFR 0.8484 0.8141 0.8826
29 CYFRA21-1 AFP 0.8472 0.8338 0.8606
34 CYFRA21-1 CA19-9 0.8418 0.8256 0.8579
33 CYFRA21-1 CEA 0.8380 0.8289 0.8471
59 proApoA1 TTR 0.8348 0.8125 0.8571
47 RANTES proApoA1 0.8328 0.8197 0.8459
38 IGF-1 proApoA1 0.8312 0.8151 0.8474
66 AFP TTR 0.8289 0.8272 0.8306
41 IGF-1 PAI-1 0.8278 0.8315 0.8241
43 IGF-1 CEA 0.8203 0.8479 0.7926
46 IGF-1 ApoA1 0.8178 0.8344 0.8012
51 RANTES TTR 0.8168 0.8180 0.8156
39 IGF-1 AFP 0.8097 0.8459 0.7735
57 proApoA1 EGFR 0.8092 0.7698 0.8485
65 AFP PAI-1 0.8089 0.8128 0.8050
54 RANTES ApoA1/proApoA1 0.8083 0.7780 0.8385
52 RANTES CEA 0.8065 0.8030 0.8100
상기 표 14에서 알 수 있듯이, 상기 13개의 바이오마커 중에서 IGF-1, RANTES, A1AT, Cyfra21-1이 다른 바이오마커들에 비하여 상당히 많음을 알 수 있다. 한편, 복합도 2인 모델에서는 평가 지표가 85%를 넘는 것들이 소수이며, 90%를 넘어가는 것은 없음을 알 수 있다. 이와 같이 복합도 2인 모델들은 평가 지표 85% 수준에서는 채택될 수 있는 암 진단 모델이 다수 있음을 볼 수 있다.
이어, 본 발명에서는 13개의 바이오마커에 대하여 3개씩 쌍으로 복합도 3인 복합 마커 조합을 생성하였다. 생성된 바이오마커 조합에 대응하는 286개의 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다.
하기 표 15는 정확도 기준 상위 30에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있다.
표 15
암진단모델 바이오마커 바이오마커 바이오마커 정확도 민감도 특이도
217 IGF-1 RANTES TTR 0.9034 0.9095 0.8974
232 IGF-1 AFP TTR 0.8959 0.9007 0.8912
103 A1AT IGF-1 RANTES 0.8957 0.8944 0.8971
117 A1AT RANTES TTR 0.8925 0.8833 0.9018
131 A1AT AFP PAI-1 0.8924 0.8603 0.9244
145 A1AT PAI-1 CA19-9 0.8899 0.8662 0.9135
261 RANTES proApoA1 TTR 0.8883 0.8793 0.8974
132 A1AT AFP TTR 0.8883 0.8636 0.9129
99 A1AT CYFRA21-1 CEA 0.8879 0.8682 0.9076
114 A1AT RANTES AFP 0.8875 0.8780 0.8971
173 CYFRA21-1 RANTES CEA 0.8872 0.8793 0.8950
107 A1AT IGF-1 PAI-1 0.8862 0.8695 0.9029
116 A1AT RANTES PAI-1 0.8857 0.8679 0.9035
108 A1AT IGF-1 TTR 0.8846 0.8810 0.8882
137 A1AT EGFR PAI-1 0.8819 0.8597 0.9041
225 IGF-1 proApoA1 TTR 0.8811 0.8679 0.8944
150 A1AT TTR ApoA1/proApoA1 0.8799 0.8485 0.9112
130 A1AT AFP EGFR 0.8796 0.8544 0.9047
119 A1AT RANTES CA19-9 0.8794 0.8689 0.8900
113 A1AT RANTES proApoA1 0.8793 0.8639 0.8947
146 A1AT PAI-1 ApoA1/proApoA1 0.8789 0.8423 0.9156
147 A1AT PAI-1 ApoA1 0.8782 0.8616 0.8947
120 A1AT RANTES ApoA1/proApoA1 0.8777 0.8561 0.8994
215 IGF-1 RANTES EGFR 0.8772 0.8711 0.8832
110 A1AT IGF-1 CA19-9 0.8762 0.8607 0.8918
143 A1AT PAI-1 TTR 0.8756 0.8518 0.8994
243 IGF-1 PAI-1 TTR 0.8747 0.8764 0.8729
164 CYFRA21-1 IGF-1 CEA 0.8738 0.8502 0.8974
115 A1AT RANTES EGFR 0.8733 0.8521 0.8944
134 A1AT AFP CA19-9 0.8732 0.8574 0.8891
상기 표 15에서 알 수 있듯이, 정확도 기준 90%를 넘거나, 90%에 극히 근접하는(반올림하는 경우, 90%에 해당되는) 암 진단 모델에는 상기 13개의 바이오마커 중에서 IGF-1, RANTES가 포함되어 있음을 알 수 있다.
한편, 상위 평가 지표를 보이는 암 진단 모델에서, A1AT, Cyfra21-1, TTR이 다른 바이오마커들에 비하여 상당히 많음을 알 수 있다.
이어, 본 발명에서는 13개의 바이오마커에 대하여 4개씩 쌍으로 복합도 4인 복합 마커 조합을 생성하였다. 생성된 바이오마커 조합에 대응하는 286개의 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다.
하기 표 16은 정확도 기준 상위 30에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있으며, 하기 표 17은 정확도 기준 상위 31위에서 60위에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있다.
표 16
암 진단 모델 바이오마커 바이오마커 바이오마커 바이오마커 정확도 민감도 특이도
437 A1AT IGF-1 RANTES TTR 0.9182 0.9190 0.9174
766 IGF-1 RANTES proApoA1 TTR 0.9170 0.9108 0.9232
393 A1AT CYFRA21-1 RANTES CEA 0.9155 0.9049 0.9262
791 IGF-1 RANTES TTR ApoA1/proApoA1 0.9146 0.9072 0.9221
436 A1AT IGF-1 RANTES PAI-1 0.9143 0.9141 0.9144
481 A1AT RANTES proApoA1 TTR 0.9105 0.9043 0.9168
773 IGF-1 RANTES AFP TTR 0.9097 0.9141 0.9053
792 IGF-1 RANTES TTR ApoA1 0.9070 0.9102 0.9038
784 IGF-1 RANTES PAI-1 TTR 0.9068 0.9095 0.9041
647 CYFRA21-1 RANTES proApoA1 CEA 0.9050 0.8882 0.9218
506 A1AT RANTES TTR ApoA1/proApoA1 0.9047 0.8974 0.9121
833 IGF-1 AFP PAI-1 TTR 0.9047 0.9000 0.9094
487 A1AT RANTES AFP PAI-1 0.9039 0.8905 0.9174
451 A1AT IGF-1 AFP PAI-1 0.9037 0.8892 0.9182
452 A1AT IGF-1 AFP TTR 0.9030 0.8957 0.9103
439 A1AT IGF-1 RANTES CA19-9 0.9021 0.9033 0.9009
603 CYFRA21-1 IGF-1 RANTES CEA 0.9018 0.8918 0.9118
435 A1AT IGF-1 RANTES EGFR 0.9011 0.8921 0.9100
633 CYFRA21-1 IGF-1 TTR CEA 0.9007 0.8898 0.9115
669 CYFRA21-1 RANTES TTR CEA 0.9003 0.8895 0.9112
779 IGF-1 RANTES EGFR TTR 0.8990 0.8954 0.9026
542 A1AT AFP EGFR PAI-1 0.8990 0.8711 0.9268
434 A1AT IGF-1 RANTES AFP 0.8989 0.8954 0.9024
419 A1AT CYFRA21-1 PAI-1 CEA 0.8979 0.8816 0.9141
423 A1AT CYFRA21-1 TTR CEA 0.8978 0.8774 0.9182
828 IGF-1 AFP EGFR TTR 0.8977 0.8921 0.9032
840 IGF-1 AFP TTR ApoA1/proApoA1 0.8974 0.8931 0.9018
433 A1AT IGF-1 RANTES proApoA1 0.8967 0.8997 0.8938
548 A1AT AFP PAI-1 TTR 0.8967 0.8725 0.9209
674 CYFRA21-1 RANTES CEA ApoA1/proApoA1 0.8965 0.8803 0.9126
상기 표 16에서 알 수 있듯이, 복합도 4를 기준으로 한 암 진단 모델에서 상위 30위 내에는 상기 13개의 바이오마커 중에서 IGF-1, RANTES가 각각 19회 및 20회가 포함되어 있음을 최빈값을 형성하고 있음을 알 수 있다. 한편, A1AT 및 TTR도 다수 포함되어 있음을 알 수 있다.
표 17
암 진단 모델 바이오마커 바이오마커 바이오마커 바이오마커 정확도 민감도 특이도
885 RANTES proApoA1 AFP TTR 0.8962 0.8869 0.9056
488 A1AT RANTES AFP TTR 0.8962 0.8918 0.9006
444 A1AT IGF-1 proApoA1 PAI-1 0.8959 0.8803 0.9115
665 CYFRA21-1 RANTES PAI-1 CEA 0.8957 0.8843 0.9071
505 A1AT RANTES TTR CA19-9 0.8955 0.8866 0.9044
812 IGF-1 proApoA1 PAI-1 TTR 0.8953 0.8944 0.8962
790 IGF-1 RANTES TTR CA19-9 0.8953 0.8915 0.8991
624 CYFRA21-1 IGF-1 EGFR CEA 0.8952 0.8777 0.9126
440 A1AT IGF-1 RANTES ApoA1/proApoA1 0.8951 0.8905 0.8997
841 IGF-1 AFP TTR ApoA1 0.8949 0.8954 0.8944
463 A1AT IGF-1 PAI-1 TTR 0.8946 0.8816 0.9076
550 A1AT AFP PAI-1 CA19-9 0.8942 0.8623 0.9262
673 CYFRA21-1 RANTES CEA CA19-9 0.8942 0.8879 0.9006
450 A1AT IGF-1 AFP EGFR 0.8942 0.8866 0.9018
479 A1AT RANTES proApoA1 EGFR 0.8941 0.8790 0.9091
501 A1AT RANTES PAI-1 CA19-9 0.8938 0.8872 0.9003
478 A1AT RANTES proApoA1 AFP 0.8935 0.8856 0.9015
441 A1AT IGF-1 RANTES ApoA1 0.8934 0.8885 0.8982
429 A1AT CYFRA21-1 CEA ApoA1 0.8932 0.8672 0.9191
801 IGF-1 proApoA1 AFP TTR 0.8929 0.8830 0.9029
384 A1AT CYFRA21-1 IGF-1 CEA 0.8926 0.8800 0.9053
466 A1AT IGF-1 PAI-1 ApoA1/proApoA1 0.8925 0.8718 0.9132
485 A1AT RANTES proApoA1 ApoA1 0.8925 0.8859 0.8991
743 CYFRA21-1 PAI-1 TTR CEA 0.8924 0.8689 0.9159
490 A1AT RANTES AFP CA19-9 0.8922 0.8859 0.8985
807 IGF-1 proApoA1 EGFR TTR 0.8921 0.8777 0.9065
457 A1AT IGF-1 EGFR PAI-1 0.8920 0.8711 0.9129
513 A1AT RANTES ApoA1/proApoA1 ApoA1 0.8919 0.8849 0.8988
486 A1AT RANTES AFP EGFR 0.8918 0.8807 0.9029
629 CYFRA21-1 IGF-1 PAI-1 CEA 0.8918 0.8748 0.9088
한편, 상기 표 17에서 알 수 있듯이, 복합도 4를 기준으로 한 암 진단 모델에서 상위 31위 내지 60위에는 상기 13개의 바이오마커 중에서 A1AT, IGF-1, RANTES가 각각 19회, 15회 및 15회가 포함되어 있음을 최빈값을 형성하고 있음을 알 수 있다.
표 16 내지 표 17에서 알 수 있듯이, 복합도 4인 암 진단 모델에서는 IGF-1, RANTES가 암 진단 모델에서 가장 주요한 바이오마커일 가능성이 높으며, 아울러 A1AT, TTR도 암 진단 모델에서 주요한 바이오마커일 가능성이 높게 된다.
한편, 표 16 내지 표 17에서 알 수 있듯이, 대략 40위권 내에 들어오는 암 진단 모델은 정확도 반올림 기준으로 할 때 평가 지표값이 90%를 보이고 있음을 알 수 있다.
이어, 본 발명에서는 13개의 바이오마커에 대하여 5개씩 쌍으로 복합도 5인 복합 마커 조합을 생성하였다. 생성된 바이오마커 조합에 대응하는 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다. 하기 표 18 내지 표 21은 정확도 평가 기준 90%를 기준으로 암 진단 모델을 선정하였다.
하기 표 18는 정확도 기준 상위 30에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있으며, 하기 표 19는 정확도 기준 상위 31위에서 60위에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있으며, 하기 표 20은 정확도 기준 상위 61위 내지 90위에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있으며, 하기 표 21은 정확도 기준 상위 91위에서 117위에 해당하는 복합 바이오마커 조합에 대응되는 암 진단 모델의 평가 지표를 보여주고 있다.
표 18
암 진단 모델 바이오마커 바이오마커 바이오마커 바이오마커 바이오마커 정확도 민감도 특이도
1098 A1AT CYFRA21-1 IGF-1 RANTES CEA 0.9266 0.9190 0.9341
1261 A1AT IGF-1 RANTES proApoA1 TTR 0.9246 0.9256 0.9235
1614 CYFRA21-1 IGF-1 RANTES TTR CEA 0.9237 0.9184 0.9291
1286 A1AT IGF-1 RANTES TTR ApoA1/proApoA1 0.9231 0.9259 0.9203
1279 A1AT IGF-1 RANTES PAI-1 TTR 0.9229 0.9252 0.9206
1688 CYFRA21-1 IGF-1 PAI-1 TTR CEA 0.9214 0.9105 0.9324
1168 A1AT CYFRA21-1 RANTES CEA CA19-9 0.9209 0.9148 0.9271
1726 CYFRA21-1 RANTES proApoA1 TTR CEA 0.9198 0.9102 0.9294
1142 A1AT CYFRA21-1 RANTES proApoA1 CEA 0.9187 0.9098 0.9276
1164 A1AT CYFRA21-1 RANTES TTR CEA 0.9186 0.9151 0.9221
1268 A1AT IGF-1 RANTES AFP TTR 0.9180 0.9190 0.9171
1959 IGF-1 RANTES AFP TTR ApoA1/proApoA1 0.9177 0.9121 0.9232
2008 IGF-1 proApoA1 AFP PAI-1 TTR 0.9173 0.9020 0.9326
1160 A1AT CYFRA21-1 RANTES PAI-1 CEA 0.9172 0.9079 0.9265
1618 CYFRA21-1 IGF-1 RANTES CEA CA19-9 0.9170 0.9075 0.9265
1952 IGF-1 RANTES AFP PAI-1 TTR 0.9166 0.9174 0.9159
1287 A1AT IGF-1 RANTES TTR ApoA1 0.9166 0.9170 0.9162
1931 IGF-1 RANTES proApoA1 PAI-1 TTR 0.9164 0.9134 0.9194
1267 A1AT IGF-1 RANTES AFP PAI-1 0.9155 0.9154 0.9156
1920 IGF-1 RANTES proApoA1 AFP TTR 0.9152 0.9092 0.9212
1938 IGF-1 RANTES proApoA1 TTR ApoA1/proApoA1 0.9151 0.9111 0.9191
1937 IGF-1 RANTES proApoA1 TTR CA19-9 0.9150 0.9085 0.9215
1169 A1AT CYFRA21-1 RANTES CEA ApoA1/proApoA1 0.9145 0.9039 0.9250
1985 IGF-1 RANTES PAI-1 TTR ApoA1 0.9142 0.9184 0.9100
1260 A1AT IGF-1 RANTES proApoA1 PAI-1 0.9141 0.9141 0.9141
1926 IGF-1 RANTES proApoA1 EGFR TTR 0.9134 0.9082 0.9185
1380 A1AT RANTES proApoA1 AFP TTR 0.9132 0.9108 0.9156
1328 A1AT IGF-1 AFP PAI-1 TTR 0.9130 0.9102 0.9159
1939 IGF-1 RANTES proApoA1 TTR ApoA1 0.9129 0.9085 0.9174
1997 IGF-1 RANTES TTR ApoA1/proApoA1 ApoA1 0.9129 0.9082 0.9176
표 18에서 알 수 있듯이, 복합도 5를 기준으로 한 암 진단 모델에서 상위 30위 내에는 상기 13개의 바이오마커 중에서 IGF-1, RANTES가 각각 23회 및 27회가 포함되어 있음을 최빈값을 형성하고 있음을 알 수 있다. 한편, A1AT 및 TTR도 각각 15회 및 22회가 다수 포함되어 있음을 알 수 있다.
표 19
암 진단 모델 바이오마커 바이오마커 바이오마커 바이오마커 바이오마커 정확도 민감도 특이도
1155 A1AT CYFRA21-1 RANTES EGFR CEA 0.9128 0.9039 0.9218
2075 IGF-1 AFP PAI-1 TTR ApoA1/proApoA1 0.9128 0.8977 0.9279
1592 CYFRA21-1 IGF-1 RANTES proApoA1 CEA 0.9123 0.9013 0.9232
1149 A1AT CYFRA21-1 RANTES AFP CEA 0.9116 0.8993 0.9238
1170 A1AT CYFRA21-1 RANTES CEA ApoA1 0.9114 0.9043 0.9185
1958 IGF-1 RANTES AFP TTR CA19-9 0.9113 0.9134 0.9091
1273 A1AT IGF-1 RANTES EGFR PAI-1 0.9110 0.9072 0.9147
1282 A1AT IGF-1 RANTES PAI-1 ApoA1/proApoA1 0.9108 0.9066 0.9150
1274 A1AT IGF-1 RANTES EGFR TTR 0.9105 0.9095 0.9115
1783 CYFRA21-1 RANTES TTR CEA ApoA1/proApoA1 0.9103 0.9066 0.9141
1984 IGF-1 RANTES PAI-1 TTR ApoA1/proApoA1 0.9101 0.9085 0.9118
1124 A1AT CYFRA21-1 IGF-1 PAI-1 CEA 0.9100 0.8951 0.9250
1960 IGF-1 RANTES AFP TTR ApoA1 0.9097 0.9151 0.9044
1285 A1AT IGF-1 RANTES TTR CA19-9 0.9095 0.9095 0.9094
1386 A1AT RANTES proApoA1 EGFR TTR 0.9092 0.8990 0.9194
1397 A1AT RANTES proApoA1 TTR CA19-9 0.9086 0.9075 0.9097
1610 CYFRA21-1 IGF-1 RANTES PAI-1 CEA 0.9086 0.8948 0.9224
1605 CYFRA21-1 IGF-1 RANTES EGFR CEA 0.9079 0.8970 0.9188
1399 A1AT RANTES proApoA1 TTR ApoA1 0.9077 0.9046 0.9109
1678 CYFRA21-1 IGF-1 EGFR TTR CEA 0.9077 0.8987 0.9168
1281 A1AT IGF-1 RANTES PAI-1 CA19-9 0.9073 0.9056 0.9091
1457 A1AT RANTES TTR ApoA1/proApoA1 ApoA1 0.9073 0.9049 0.9097
1259 A1AT IGF-1 RANTES proApoA1 EGFR 0.9071 0.9013 0.9129
1995 IGF-1 RANTES TTR CA19-9 ApoA1/proApoA1 0.9070 0.8987 0.9153
1722 CYFRA21-1 RANTES proApoA1 PAI-1 CEA 0.9070 0.8928 0.9212
1398 A1AT RANTES proApoA1 TTR ApoA1/proApoA1 0.9069 0.8990 0.9147
1277 A1AT IGF-1 RANTES EGFR ApoA1/proApoA1 0.9068 0.8984 0.9153
1391 A1AT RANTES proApoA1 PAI-1 TTR 0.9067 0.9016 0.9118
1419 A1AT RANTES AFP TTR ApoA1/proApoA1 0.9067 0.9036 0.9097
1730 CYFRA21-1 RANTES proApoA1 CEA CA19-9 0.9066 0.8889 0.9244
한편 상기 표 19에서 알 수 있듯이, 복합도 5를 기준으로 한 암 진단 모델에서 상위 31위 내지 60위에는 상기 13개의 바이오마커 중에서 IGF-1, RANTES가 각각 17회, 27회 포함되어 있음을 최빈값을 형성하고 있음을 알 수 있고, A1AT 및 TTR도 각각 18회 및 16회 포함되어 있음을 알 수 있다.
표 20
암 진단 모델 바이오마커 바이오마커 바이오마커 바이오마커 바이오마커 정확도 민감도 특이도
1782 CYFRA21-1 RANTES TTR CEA CA19-9 0.9064 0.8964 0.9165
1307 A1AT IGF-1 proApoA1 PAI-1 TTR 0.9064 0.9010 0.9118
1974 IGF-1 RANTES EGFR TTR ApoA1/proApoA1 0.9064 0.8977 0.9150
1322 A1AT IGF-1 AFP EGFR PAI-1 0.9063 0.8885 0.9241
1276 A1AT IGF-1 RANTES EGFR CA19-9 0.9062 0.9030 0.9094
1455 A1AT RANTES TTR CA19-9 ApoA1/proApoA1 0.9062 0.9030 0.9094
1772 CYFRA21-1 RANTES PAI-1 TTR CEA 0.9060 0.9000 0.9121
1266 A1AT IGF-1 RANTES AFP EGFR 0.9060 0.9052 0.9068
1619 CYFRA21-1 IGF-1 RANTES CEA ApoA1/proApoA1 0.9059 0.8915 0.9203
1270 A1AT IGF-1 RANTES AFP CA19-9 0.9059 0.9026 0.9091
1412 A1AT RANTES AFP PAI-1 TTR 0.9057 0.9052 0.9062
1263 A1AT IGF-1 RANTES proApoA1 CA19-9 0.9057 0.9108 0.9006
1747 CYFRA21-1 RANTES AFP TTR CEA 0.9056 0.8908 0.9203
1406 A1AT RANTES AFP EGFR PAI-1 0.9051 0.8957 0.9144
1732 CYFRA21-1 RANTES proApoA1 CEA ApoA1 0.9046 0.8931 0.9162
1283 A1AT IGF-1 RANTES PAI-1 ApoA1 0.9044 0.9030 0.9059
1330 A1AT IGF-1 AFP PAI-1 CA19-9 0.9041 0.8826 0.9256
1682 CYFRA21-1 IGF-1 EGFR CEA CA19-9 0.9041 0.8934 0.9147
2040 IGF-1 proApoA1 PAI-1 TTR ApoA1/proApoA1 0.9040 0.8951 0.9129
1674 CYFRA21-1 IGF-1 EGFR PAI-1 CEA 0.9038 0.8885 0.9191
1790 CYFRA21-1 RANTES CEA ApoA1/proApoA1 ApoA1 0.9037 0.8911 0.9162
1717 CYFRA21-1 RANTES proApoA1 EGFR CEA 0.9035 0.8879 0.9191
1414 A1AT RANTES AFP PAI-1 CA19-9 0.9034 0.8948 0.9121
1418 A1AT RANTES AFP TTR CA19-9 0.9030 0.9020 0.9041
1293 A1AT IGF-1 RANTES ApoA1/proApoA1 ApoA1 0.9030 0.8990 0.9071
1698 CYFRA21-1 IGF-1 TTR CEA CA19-9 0.9030 0.8980 0.9079
1776 CYFRA21-1 RANTES PAI-1 CEA CA19-9 0.9029 0.8915 0.9144
1967 IGF-1 RANTES EGFR PAI-1 TTR 0.9028 0.9010 0.9047
1264 A1AT IGF-1 RANTES proApoA1 ApoA1/proApoA1 0.9025 0.8993 0.9056
1242 A1AT CYFRA21-1 PAI-1 CEA CA19-9 0.9024 0.8790 0.9259
한편, 상기 표 20에서 알 수 있듯이, 복합도 5를 기준으로 한 암 진단 모델에서 상위 61위 내지 90위에는 상기 13개의 바이오마커 중에서 IGF-1, RANTES가 각각 17회, 22회 포함되어 있음을 최빈값을 형성하고 있음을 알 수 있고, A1AT도 16회 포함되어 있음을 알 수 있다.
표 21
암 진단 모델 바이오마커 바이오마커 바이오마커 바이오마커 바이오마커 정확도 민감도 특이도
1947 IGF-1 RANTES AFP EGFR TTR 0.9023 0.9023 0.9024
1731 CYFRA21-1 RANTES proApoA1 CEA ApoA1/proApoA1 0.9023 0.8875 0.9171
1128 A1AT CYFRA21-1 IGF-1 TTR CEA 0.9023 0.8931 0.9115
1265 A1AT IGF-1 RANTES proApoA1 ApoA1 0.9023 0.8987 0.9059
1209 A1AT CYFRA21-1 AFP PAI-1 CEA 0.9023 0.8787 0.9259
1323 A1AT IGF-1 AFP EGFR TTR 0.9022 0.8918 0.9126
1983 IGF-1 RANTES PAI-1 TTR CA19-9 0.9022 0.9003 0.9041
1434 A1AT RANTES EGFR TTR ApoA1/proApoA1 0.9022 0.8941 0.9103
1777 CYFRA21-1 RANTES PAI-1 CEA ApoA1/proApoA1 0.9021 0.8872 0.9171
1258 A1AT IGF-1 RANTES proApoA1 AFP 0.9021 0.8957 0.9085
2058 IGF-1 AFP EGFR PAI-1 TTR 0.9020 0.8993 0.9047
2074 IGF-1 AFP PAI-1 TTR CA19-9 0.9019 0.8964 0.9074
1620 CYFRA21-1 IGF-1 RANTES CEA ApoA1 0.9019 0.8905 0.9132
1331 A1AT IGF-1 AFP PAI-1 ApoA1/proApoA1 0.9018 0.8833 0.9203
1415 A1AT RANTES AFP PAI-1 ApoA1/proApoA1 0.9017 0.8823 0.9212
1295 A1AT IGF-1 proApoA1 AFP PAI-1 0.9016 0.8856 0.9176
1238 A1AT CYFRA21-1 PAI-1 TTR CEA 0.9016 0.8856 0.9176
2041 IGF-1 proApoA1 PAI-1 TTR ApoA1 0.9015 0.8948 0.9082
1336 A1AT IGF-1 AFP TTR ApoA1 0.9014 0.8934 0.9094
1521 A1AT AFP EGFR PAI-1 ApoA1/proApoA1 0.9013 0.8715 0.9312
1828 CYFRA21-1 proApoA1 PAI-1 TTR CEA 0.9012 0.8711 0.9312
1301 A1AT IGF-1 proApoA1 EGFR PAI-1 0.9010 0.8856 0.9165
1192 A1AT CYFRA21-1 proApoA1 TTR CEA 0.9010 0.8757 0.9262
1410 A1AT RANTES AFP EGFR ApoA1/proApoA1 0.9006 0.8879 0.9132
1975 IGF-1 RANTES EGFR TTR ApoA1 0.9005 0.8957 0.9053
1444 A1AT RANTES PAI-1 TTR ApoA1/proApoA1 0.9003 0.8918 0.9088
2118 IGF-1 PAI-1 TTR ApoA1/proApoA1 ApoA1 0.9002 0.8944 0.9059
한편, 상기 표 21에서 알 수 있듯이, 복합도 5를 기준으로 한 암 진단 모델에서 상위 91위 내지 117위에는 상기 13개의 바이오마커 중에서 A1AT, IGF-1, RANTES, TTR 등이 다수 포함되어 있음을 알 수 있다.
표 18 내지 표 21에서 알 수 있듯이, 복합도 5를 기준으로 한 암 진단 모델에서 상위 1위 내지 117위에는 상기 13개의 바이오마커 중에서 IGF-1, RANTES가 각각 73회, 88회 포함되어 있음을 최빈값을 형성하고 있음을 알 수 있고, A1AT 65회, TTR이 64회 포함되어 있음을 알 수 있다.
이어, 본 발명에서는 13개의 바이오마커에 대하여 6개씩 쌍으로 복합도 6인 복합 마커 조합을 생성하였다. 생성된 바이오마커 조합에 대응하는 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다. 하기 표 22는 상위 30위 내에 포함되는 암 진단 모델의 평가 지표를 보여 주고 있다.
표 22
암 진단 모델 바이오마커 바이오마커 바이오마커 바이오마커 바이오마커 바이오마커 정확도 민감도 특이도
2410 A1AT CYFRA21-1 IGF-1 RANTES CEA CA19-9 0.9299 0.9207 0.9391
2723 A1AT IGF-1 RANTES proApoA1 PAI-1 TTR 0.9291 0.9334 0.9247
2406 A1AT CYFRA21-1 IGF-1 RANTES TTR CEA 0.9282 0.9223 0.9341
2402 A1AT CYFRA21-1 IGF-1 RANTES PAI-1 CEA 0.9273 0.9184 0.9362
3190 CYFRA21-1 IGF-1 RANTES proApoA1 TTR CEA 0.9272 0.9174 0.9371
2384 A1AT CYFRA21-1 IGF-1 RANTES proApoA1 CEA 0.9263 0.9174 0.9353
3246 CYFRA21-1 IGF-1 RANTES TTR CEA CA19-9 0.9260 0.9203 0.9318
2411 A1AT CYFRA21-1 IGF-1 RANTES CEA ApoA1/proApoA1 0.9257 0.9141 0.9374
3247 CYFRA21-1 IGF-1 RANTES TTR CEA ApoA1/proApoA1 0.9247 0.9161 0.9332
2776 A1AT IGF-1 RANTES PAI-1 TTR ApoA1/proApoA1 0.9246 0.9246 0.9247
2397 A1AT CYFRA21-1 IGF-1 RANTES EGFR CEA 0.9240 0.9177 0.9303
2718 A1AT IGF-1 RANTES proApoA1 EGFR TTR 0.9234 0.9233 0.9235
3640 IGF-1 RANTES proApoA1 AFP PAI-1 TTR 0.9231 0.9197 0.9265
2518 A1AT CYFRA21-1 RANTES proApoA1 TTR CEA 0.9228 0.9203 0.9253
2744 A1AT IGF-1 RANTES AFP PAI-1 TTR 0.9225 0.9259 0.9191
2523 A1AT CYFRA21-1 RANTES proApoA1 CEA ApoA1/proApoA1 0.9223 0.9161 0.9285
2751 A1AT IGF-1 RANTES AFP TTR ApoA1/proApoA1 0.9223 0.9187 0.9259
3236 CYFRA21-1 IGF-1 RANTES PAI-1 TTR CEA 0.9222 0.9161 0.9282
2568 A1AT CYFRA21-1 RANTES PAI-1 CEA CA19-9 0.9221 0.9154 0.9288
2412 A1AT CYFRA21-1 IGF-1 RANTES CEA ApoA1 0.9220 0.9134 0.9306
2712 A1AT IGF-1 RANTES proApoA1 AFP TTR 0.9216 0.9144 0.9288
2574 A1AT CYFRA21-1 RANTES TTR CEA CA19-9 0.9209 0.9170 0.9247
2730 A1AT IGF-1 RANTES proApoA1 TTR ApoA1/proApoA1 0.9207 0.9197 0.9218
2789 A1AT IGF-1 RANTES TTR ApoA1/proApoA1 ApoA1 0.9205 0.9184 0.9226
2731 A1AT IGF-1 RANTES proApoA1 TTR ApoA1 0.9203 0.9170 0.9235
2514 A1AT CYFRA21-1 RANTES proApoA1 PAI-1 CEA 0.9201 0.9115 0.9288
3194 CYFRA21-1 IGF-1 RANTES proApoA1 CEA CA19-9 0.9200 0.9089 0.9312
2729 A1AT IGF-1 RANTES proApoA1 TTR CA19-9 0.9199 0.9207 0.9191
2391 A1AT CYFRA21-1 IGF-1 RANTES AFP CEA 0.9196 0.9098 0.9294
2575 A1AT CYFRA21-1 RANTES TTR CEA ApoA1/proApoA1 0.9196 0.9184 0.9209
상기 표 22에서 알 수 있듯이, 복합도 6인 암 진단 모델에서는 RANTES는 모든 암 진단 모델에 포함되어 있으며, A1AT, IGF-1이 각각 24회 및 24회 포함되어 있고, Cyfra21-1과 TTR 등도 19회 포함되어 있음을 알 수 있다.
이어, 본 발명에서는 13개의 바이오마커에 대하여 7개씩 쌍으로 복합도 7인 복합 마커 조합을 생성하였다. 생성된 바이오마커 조합에 대응하는 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다. 하기 표 23은 상위 30위 내에 포함되는 암 진단 모델의 평가 지표를 보여 주고 있다.
표 23
암 진단 모델 바이오마커 바이오마커 바이오마커 바이오마커 바이오마커 바이오마커 바이오마커 정확도 민감도 특이도
4170 A1AT CYFRA21-1 IGF-1 RANTES TTR CEA CA19-9 0.9315 0.9236 0.9394
4114 A1AT CYFRA21-1 IGF-1 RANTES proApoA1 TTR CEA 0.9299 0.9230 0.9368
4631 A1AT IGF-1 RANTES AFP PAI-1 TTR ApoA1/proApoA1 0.9297 0.9292 0.9303
4160 A1AT CYFRA21-1 IGF-1 RANTES PAI-1 TTR CEA 0.9297 0.9262 0.9332
4171 A1AT CYFRA21-1 IGF-1 RANTES TTR CEA ApoA1/proApoA1 0.9297 0.9220 0.9374
4564 A1AT IGF-1 RANTES proApoA1 AFP PAI-1 TTR 0.9282 0.9289 0.9276
5056 CYFRA21-1 IGF-1 RANTES proApoA1 PAI-1 TTR CEA 0.9281 0.9236 0.9326
4118 A1AT CYFRA21-1 IGF-1 RANTES proApoA1 CEA CA19-9 0.9279 0.9193 0.9365
4164 A1AT CYFRA21-1 IGF-1 RANTES PAI-1 CEA CA19-9 0.9275 0.9174 0.9376
4154 A1AT CYFRA21-1 IGF-1 RANTES EGFR CEA CA19-9 0.9272 0.9197 0.9347
4110 A1AT CYFRA21-1 IGF-1 RANTES proApoA1 PAI-1 CEA 0.9270 0.9151 0.9388
4165 A1AT CYFRA21-1 IGF-1 RANTES PAI-1 CEA ApoA1/proApoA1 0.9267 0.9157 0.9376
4176 A1AT CYFRA21-1 IGF-1 RANTES CEA CA19-9 ApoA1/proApoA1 0.9262 0.9128 0.9397
4150 A1AT CYFRA21-1 IGF-1 RANTES EGFR TTR CEA 0.9262 0.9233 0.9291
4674 A1AT IGF-1 RANTES PAI-1 TTR ApoA1/proApoA1 ApoA1 0.9259 0.9292 0.9226
4596 A1AT IGF-1 RANTES proApoA1 PAI-1 TTR ApoA1/proApoA1 0.9257 0.9298 0.9215
4597 A1AT IGF-1 RANTES proApoA1 PAI-1 TTR ApoA1 0.9250 0.9282 0.9218
5066 CYFRA21-1 IGF-1 RANTES proApoA1 TTR CEA CA19-9 0.9248 0.9157 0.9338
4155 A1AT CYFRA21-1 IGF-1 RANTES EGFR CEA ApoA1/proApoA1 0.9244 0.9161 0.9326
4579 A1AT IGF-1 RANTES proApoA1 EGFR PAI-1 TTR 0.9243 0.9266 0.9221
4166 A1AT CYFRA21-1 IGF-1 RANTES PAI-1 CEA ApoA1 0.9242 0.9151 0.9332
4177 A1AT CYFRA21-1 IGF-1 RANTES CEA CA19-9 ApoA1 0.9241 0.9144 0.9338
4172 A1AT CYFRA21-1 IGF-1 RANTES TTR CEA ApoA1 0.9239 0.9184 0.9294
4146 A1AT CYFRA21-1 IGF-1 RANTES EGFR PAI-1 CEA 0.9236 0.9151 0.9321
4353 A1AT CYFRA21-1 RANTES proApoA1 TTR CEA ApoA1/proApoA1 0.9233 0.9193 0.9274
5132 CYFRA21-1 IGF-1 RANTES PAI-1 TTR CEA ApoA1/proApoA1 0.9232 0.9161 0.9303
4105 A1AT CYFRA21-1 IGF-1 RANTES proApoA1 EGFR CEA 0.9227 0.9157 0.9297
5067 CYFRA21-1 IGF-1 RANTES proApoA1 TTR CEA ApoA1/proApoA1 0.9227 0.9144 0.9309
4119 A1AT CYFRA21-1 IGF-1 RANTES proApoA1 CEA ApoA1/proApoA1 0.9225 0.9141 0.9309
4139 A1AT CYFRA21-1 IGF-1 RANTES AFP CEA CA19-9 0.9224 0.9131 0.9318
상기 표 23에서 알 수 있듯이, 복합도 7인 암 진단 모델에서는 IGF-1과 RANTES는 각각 29회 및 30회로 거의 모든 암 진단 모델에 포함되어 있으며, Cyfra21-1과 TTR 등도 24회씩 포함되어 있음을 알 수 있다.
한편, 표 23에서 알 수 있듯이, 복합도가 6 내지 7에 근접할수록 평가 지표가 포화되는 정도가 높아짐을 알 수 있다.
본원 발명의 발명자들은 13개의 바이오마커에 대하여 8개씩 쌍으로 복합도 8인 복합 마커 조합, 9개씩 쌍으로 복합도 9인 복합 마커 조합, 10개씩 쌍으로 복합도 10인 복합 마커 조합, 11개씩 쌍으로 복합도 11인 복합 마커 조합, 12개씩 쌍으로 복합도 12인 복합 마커 조합 및 모든 13개의 바이오마커를 다 포함하는 암 진단 모델을 생성하고, 생성된 암 진단 모델별로 평가 지표를 생성하였다.
복합도 8 내지 12에 대한 결과 중 복합도 12에 대한 결과의 일부를 하기 표 24에 게시한다. 복합도가 높아질 수록 평가 지표가 개선되는 경향이 있지만, 복합도가 높아질수록 평가 지표가 포화되거나, 좋아지는 경향은 반드시 성립되는 것은 아닐 수 있다. 표 24는 그러한 예시를 보여 준다.
표 24
암진단모델 13개 바이오마커 중 제외된 바이오마커 정확도 민감도 특이도
8178 ApoA1 0.9047 0.9062 0.9032
8179 ApoA1/proApoA1 0.9059 0.9023 0.9094
8180 CA19-9 0.9026 0.9023 0.9029
8181 CEA 0.9 0.897 0.9029
8182 TTR 0.9037 0.8997 0.9076
8183 PAI-1 0.8976 0.8941 0.9012
8184 EGFR 0.9074 0.9059 0.9088
8185 AFP 0.9026 0.8987 0.9065
8186 proApoA1 0.9055 0.901 0.91
8187 RANTES 0.8895 0.8852 0.8938
8188 IGF-1 0.8917 0.8928 0.8906
8189 CYFRA21-1 0.8991 0.8967 0.9015
8190 A1AT 0.9002 0.8931 0.9074
상기 표 15 내지 표 24에서 알 수 있듯이, 상기 바이오마커 조합 후보군을 구성하는 바이오마커 조합 후보에 대하여, 바이오마커 조합 후보를 구성하는 개별 바이오마커 또는 구성된 바이오마커 조합 후보들과 폐암 진단 능력을 비교(S22)할 수 있다. 상기 비교는 평가 지표로 비교할 수 있을 것이다. 바이오마커 조합 후보 중 폐암 진단 능력이 기설정된 기준 이상인 바이오마커 조합을 선별(S23)하는데, 상기 선별에서 어느 평가 지표를 사용하느냐에 따라 기설정된 기준은 다를 수 있다. 폐암 진단에 있어서는 특이도가 중요한 평가 지표일 수 있으며, ROC 커브의 면적도 효율적인 평가 지표가 될 수 있다.
한편, 상기 제1 바이오마커 군에서 어느 하나 이상의 바이오마커를 선택(S31)하고, 제2 바이오마커 군에서 어느 하나 이상의 바이오마커를 선택(S32)한 다음, 2 이상의 바이오마커를 포함하여 구성되는 적어도 하나 이상의 바이오마커 조합을 포함하는 바이오마커 조합 후보군을 구성(S33)하고, 바이오마커 조합 후보를 구성하는 개별 바이오마커 또는 구성된 바이오마커 조합 후보들과 폐암 진단 능력을 비교(S34)할 수도 있을 것이다.
본 발명은 상기 13개 바이오마커에 특이적으로 결합할 수 있는 항체를 2 이상 복합적으로 포함하는 폐암 진단 및 스크리닝용 키트를 제공한다.
본 발명의 구체적인 실시예에서 폐암 환자의 혈청에서 발현량이 유의하게 변화하는 13개 단백질을 폐암 진단 및 스크리닝용 바이오마커로 선정하였고(표 5)참조), 상기 13개 바이오마커를 이용한 조합으로 이루어진 분류 모델에서 더 높은 정확도로 폐암 분류를 수행할 수 있음을 확인하였다. 이에, 본 발명의 키트는 폐암 환자와 정상인에서 발현에 차이가 있는 복합 바이오마커를 정량하는데 사용하기 위해, 상기 복합 바이오마커를 구성하는 각 바이오마커에 특이적으로 결합할 수 있는 항체를 포함할 수 있다.
상기 키트는 환자가 폐암인지 아닌지를 구별하여 의사 등 진료 행위자가 폐암을 진단 및 스크리닝 하는 것을 가능하게 할 뿐 아니라, 치료에 대한 환자의 반응을 모니터하여 그 결과에 따라 치료를 변경하는 것을 가능하게 한다. 또한, 폐암 모델(예: 마우스, 랫트 등의 동물 모델)의 생체 내 또는 생체 외에서 하나 이상의 바이오마커의 발현을 조절하는 화합물을 동정하는데 사용될 수 있다. 이에, 본 발명의 바이오마커는 표준 물질로 상기 키트에 추가로 포함될 수 있다.
본 발명의 키트에 사용될 수 있는 항체는 다클론 항체, 단클론 항체 및 에피토프와 결합할 수 있는 단편 등을 포함한다.
다클론 항체는 상기 13개 단백질 중 어느 하나를 동물에 주사하고 해당 동물로부터 채혈하여 항체를 포함하는 혈청을 수득하는 종래의 방법에 의해 생산할 수 있다. 이러한 다클론 항체는 당업계에 알려진 어떠한 방법에 의해서든 정제될 수 있고, 염소, 토끼, 양, 원숭이, 말, 돼지, 소, 개 등의 임의의 동물 종 숙주로부터 만들어 질 수 있다.
단클론 항체는 연속 세포주의 배양을 통한 항체 분자의 생성을 제공하는 어떠한 기술을 사용하여도 제조할 수 있다. 이러한 기술로는 이들로 한정되는 것은 아니지만 하이브리도마 기술, 사람 B-세포 하이브리도마 기술 및 EBV-하이브리도마 기술이 포함된다(Kohler G et al., Nature 256:495-497, 1975; Kozbor D et al., J Immunol Methods 81:31-42, 1985; Cote RJ et al., Proc Natl Acad Sci 80:2026-2030, 1983; 및 Cole SP et al., Mol Cell Biol 62:109-120, 1984).
또한 상기 13개 단백질 중 어느 하나에 대한 특정 결합 부위를 함유한 항체 단편이 제조될 수 있다. 예를 들면 이들로 한정되는 것은 아니지만 F(ab')2 단편은 항체 분자를 펩신으로 분해시켜 제조할 수 있으며, Fab 단편은 F(ab')2 단편의 디설파이드 브릿지를 환원시킴으로써 제조할 수 있다. 다른 방도로서, Fab 발현 라이브러리를 작제하여 원하는 특이성을 갖는 단클론 Fab 단편을 신속하고 간편하게 동정할 수 있다(Huse WD et al., Science 254: 1275-1281, 1989).
상기 항체는 세척이나 복합체의 분리 등 그 이후의 단계를 용이하게 하기 위해 고형 기질(solid substrate)에 결합될 수 있다. 고형 기질은 예를 들어 합성수지, 니트로셀룰로오스, 유리기판, 금속기판, 유리섬유, paramagnetic bead, 미세구체 및 미세비드 등이 있다. 또한, 상기 합성수지에는 폴리에스터, 폴리염화비닐, 폴리스티렌, 폴리프로필렌, PVDF 및 나일론 등이 있다. 본 발명의 구체적인 실시예에서, 단백질에 특이적으로 결합하는 항체를 고형 기질에 결합시키기 위해, 미세구체를 현탁한 후 마이크로튜브(microtube)에 옮겨 원심분리로 상층액을 제거한 후 재현탁하고, N-하이드록시-설포숙시니마이드(N-hydroxy-sulfosuccinimide) 및 1-에틸-3-(3-디메틸아미노프로필)-카르보디이마이드 하이드로클로라이드(1-ethyl-3-(3-dimethylaminopropyl)-carbodiimide hydrochloride)를 차례로 처리한 후 원심분리로 상층액을 제거한 후 세척하여 보관하였다. 또한, 환자로부터 수득된 시료를 고형 기질에 결합된 본 발명의 13개 단백질 중 어느 하나의 단백질에 특이적으로 결합할 수 있는 항체와 접촉시키는 경우, 시료는 항체와 접촉 전에 알맞은 정도로 희석될 수 있다.
본 발명의 키트는 추가로 상기 바이오마커에 특이적으로 결합하는 검출용 항체를 포함할 수 있다. 상기 검출용 항체는 발색효소, 형광물질, 방사성 동위원소 또는 콜로이드 등의 검출체로 표지한 접합체(conjugate)일 수 있고, 바람직하게는 상기 바이오마커에 특이적으로 결합할 수 있는 1차 항체일 것이다. 예를 들어, 상기 발색효소는 퍼록시다제(peroxidase), 알칼라인 포스파타제(alkaline phosphatase) 또는 산성 포스파타제(acid phosphatase)(예:양고추냉이 퍼록시다제(horseradish peroxidase))일 수 있고; 형광물질인 경우, 플루오레신카복실산(FCA), 플루오레신 이소티오시아네이트(FITC), 플루오레신 티오우레아(FTH), 7-아세톡시쿠마린-3-일, 플루오레신-5-일, 플루오레신-6-일, 2',7'-디클로로플루오레신-5-일, 2',7'-디클로로플루오레신-6-일, 디하이드로테트라메틸로사민-4-일, 테트라메틸로다민-5-일, 테트라메틸로다민-6-일, 4,4-디플루오로-5,7-디메틸-4-보라-3a,4a-디아자-s-인다센-3-에틸 또는 4,4-디플루오로-5,7-디페닐-4-보라-3a,4a-디아자-s-인다센-3-에틸, Cy3, Cy5,폴리 L-라이신-플루오레세인 이소티오시아네이트(poly L-lysine-fluorescein isothiocyanate, FITC), 로다민-B-이소티오시아네이트(rhodamine-B-isothiocyanate, RITC), 로다민(rhodamine), PE(Phycoerythrin)등을 사용하는 것이 가능하다.
또한, 본 발명의 키트는 추가로 (1) 상기 바이오마커에 특이적으로 결합하는 검출용 항체 및 (2) 상기 검출용 항체에 결합할 특이적으로 결합할 수 있는 리간드를 포함할 수 있다. 상기 리간드에는 단백질 A 또는 검출용 항체에 특이적으로 결합하는 2차 항체 등이 있다. 또한 상기 리간드는 발색효소, 형광물질, 방사성 동위원소 또는 콜로이드 등의 검출체로 표지한 접합체(conjugate)일 수 있다. 상기 검출용 항체는 상기 리간드를 위해, 바이오틴화(biotinylation) 또는 다이곡시제닌(digoxigenin) 처리한 1차 항체를 이용하는 것이 바람직하나, 상기 검출용 항체의 처리방법은 이에 한정되지 않는다. 또한 상기 리간드로는 상기 검출용 항체에 결합하기 위해, 스트렙타비딘, 아비딘 등이 사용되는 것이 바람직하나, 이에 한정되지 않는다. 본 발명의 구체적인 실시예에서 상기 검출체로 형광물질을 부착한 스트렙타비딘(streptavidin)을 리간드로 사용하였으며, 상기 리간드를 위해 바이오틴화(biotinylation)시킨 검출용 항체를 이용하였다.
본 발명의 진단 및 스크리닝용 키트는 상기 항체 및 바이오마커 복합체에 검출용 항체를 처리한 후 검출용 항체의 양을 탐색함으로써 폐암을 진단 및 스크리닝할 수 있다. 또는 상기 항체 및 바이오마커 복합체에 검출용 항체 및 리간드를 순차적으로 처리한 후, 검출체용 항체의 양을 탐색함으로써 폐암을 진단 및 스크리닝할 수 있다. 본 발명의 바람직한 실시예에서, 검출용 항체를 세척된 항체-바이오마커 복합체와 정온배치한 후 세척하여 검출용 항체를 측정함으로써 상기 바이오마커의 양을 측정할 수 있다. 검출용 항체의 양 측정이나 존재 검출은 형광, 발광, 화학발광(chemiluminescence), 흡광도, 반사 또는 투과를 통해 이루어질 수 있다.
또한, 상기 검출용 항체 또는 리간드의 양을 탐색하는 방법으로는 초고속 스크리닝(high throughput screening, HTS) 시스템을 이용하는 것이 바람직하고, 여기에는 검출체로 형광물질이 부착되어 형광을 검출함으로써 수행되는 형광법 또는 검출체로 방사선 동위원소가 부착되어 방사선을 검출함으로써 수행되는 방사선법; 검출체의 표지 없이 표면의 플라즈몬 공명 변화를 실시간으로 측정하는 SPR(surface plasmon resonance) 방법 또는 SPR 시스템을 영상화하여 확인하는 SPRI(surface plasmon resonance imaging) 방법을 이용하는 것이 바람직하나 이에 한정되지 않는다.
예를 들어 상기 형광법은 형광 스캐너 프로그램을 이용하여 상기 검출용 항체를 형광물질로 라벨링한 후 스포팅 하여 신호를 확인하는 방법으로, 이 방법을 적용하여 결합 정도를 확인할 수 있다. 상기 형광물질은 Cy3, Cy5,폴리 L-라이신-플루오레세인 이소티오시아네이트(poly L-lysine-fluorescein isothiocyanate, FITC), 로다민-B-이소티오시아네이트(rhodamine-B-isothiocyanate, RITC), 로다민(rhodamine), PE(Phycoerythrin)으로 이루어진 군으로부터 선택된 어느 하나인 것 바람직하나 이에 한정되지 않는다. 상기 SPR 시스템은 형광법과는 달리 시료를 형광물질로 표지할 필요가 없이 항체의 결합 정도를 실시간으로 분석하는 것이 가능하나 동시다발적인 시료 분석이 불가능하다는 단점이 있다. SPRI의 경우에는 미세정렬 방법을 이용하여 동시다발적인 시료 분석이 가능하지만 탐지 강도가 낮은 단점이 있다.
또한, 본 발명의 진단 및 스크리닝용 키트는 효소와 발색 반응할 기질 및 결합되지 않은 단백질 등은 제거하고 결합된 바이오마커만을 보유할 수 있는 세척액 또는 용리액을 추가로 포함할 수 있다. 분석을 위해 사용되는 시료는 혈청, 뇨, 눈물 타액 등 정상적인 상태와 구별될 수 있는 질환 특이적 폴리펩타이드를 확인할 수 있는 생체 시료를 포함한다. 바람직하게는 생물학적 액체 시료, 예를 들어 혈액, 혈청, 혈장, 더욱 바람직하게는 혈청으로부터 측정될 수 있다. 시료는 바이오마커의 탐지감도를 증가시키도록 준비될 수 있는데 예를 들어 환자로부터 수득한 혈청 시료는 음이온 교환 크로마토그래피, 친화도 크로마토그래피, 크기별 배제 크로마토그래피(size exclusion chromatography), 액체 크로마토그래피, 연속추출(sequential extraction) 또는 젤 전기영동 등의 방법을 이용하여 전처리될 수 있으나, 이에 한정되지 않는다.
아울러, 본 발명은 상기 13개 단백질 중 어느 하나의 단백질에 특이적으로 결합할 수 있는 생물 분자가 고형 기질에 집적된 폐암 진단 및 스크리닝용 바이오칩을 제공한다.
본 발명의 구체적인 실시예에서 폐암 환자의 혈청에서 발현량이 유의하게 변화하는 13개 단백질을 선정하였고(표 5참조), 상기 13개 단백질을 적어도 2 이상 복합적으로 이용한 조합으로 이루어진 분류모델에서 더 높은 정확도로 폐암 분류를 수행할 수 있음을 확인하였다. 이에, 본 발명의 바이오칩은 폐암 환자와 정상인에서 발현에 차이가 있는 상기와 같은 13개 단백질 중 하나 이상의 단백질을 측정하는데 사용하기 위해, 상기 13개 단백질 중 어느 하나의 단백질에 특이적으로 결합할 수 있는 항체를 포함할 수 있고, 또는 두 종류 이상의 상기 특이적인 항체의 조합을 포함할 수 있다.
상기 생물 분자는 저분자 화합물, 리간드, 앱타머, 펩티드, 폴리펩티드, 특이적 결합 단백질, 고분자 물질 및 항체 등으로 이루어진 군으로부터 선택되며 상기 단백질에 특이적으로 결합할 수 있는 물질이면 무엇이든 사용가능하며, 항체 또는 앱타머를 사용하는 것이 바람직하나, 이에 한정되는 것은 아니다.
상기 항체는 폴리클로날(polyclonal) 항체 또는 모노클로날(monoclonal) 항체를 사용하는 것이 바람직하며, 모노클로날 항체를 사용하는 것이 더욱 바람직하다. 상기 단백질에 특이적으로 결합하는 항체는 당업자에게 알려진 공지의 방법으로 제작하여도 무방하며, 상업적으로 알려진 항체를 구입하여 사용할 수 있다. 상기 항체는 당업자에게 알려진 종래 방법에 따라 면역원인 단백질을 외부 숙주에 주사함으로써 제조될 수 있다. 외부 숙주는 마우스, 래트, 양, 토끼와 같은 포유동물을 포함한다. 면역원은 근내, 복강내 또는 피하 주사방법으로 주사되며, 일반적으로 항원성을 증가시키기 위한 보조제(adjuvant)와 함께 투여할 수 있다. 외부 숙주로부터 정기적으로 혈액을 채취하여 형상된 역가 및 항원에 대한 특이성을 보이는 혈청을 수거하여 항체를 분리할 수 있다.
또한, 본 발명의 바이오칩의 고형 기질은 플라스틱, 유리, 금속 및 실리콘으로 구성된 군으로부터 선택될 수 있으며, 바람직하게는 그 표면에 상기 항체를 부착시키기 위해 화학 처리되거나 링커 분자가 결합하여 있을 수 있으나 이에 한정되는 것은 아니다. 본 발명의 바이오칩은 시료에서 전체 단백질을 채취하여 바이오칩과 반응시켜 손쉽고 정확하게 폐암을 진단 및 스크리닝을 수행할 수 있다.
상기 바이오칩의 기판에 코팅된 활성기는 상기 물질을 결합하는 역할을 하며, 아민기(amine group), 알데하이드기(aldehyde group), 카르복실기(carboxyl group) 및 티올기(thiol group)로 이루어진 군으로부터 선택될 수 있으며, 당업자에게 단백질 분자를 기판에 결합할 수 있는 활성기로 알려진 모든 활성기가 사용 가능하며, 이것에 한정되는 것은 아니다.
도 14는 폐암 진단 시스템의 일 실시예적 구성에 관한 것이다.
상기 폐암 진단 시스템은 진단 키트를 직접 또는 상기 진단 키트에서 기인하거나 독출한 정보를 이용하여 폐암 진단을 수행한다. 상기 폐암 진단 시스템은 대상자의 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 측정된 상기 바이오마커 조합을 구성하는 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수하는 정보 입수 모듈, 상기 입수된 상기 발현량 정보 또는 발현량 비율 정보를 기설정된 폐암 진단 모델로 처리하는 폐암 진단 모듈 및 상기 폐암 진단 모듈로부터 적어도 하나 이상의 폐암 진단 정보를 생성하는 폐암 진단 정보 생성 모듈을 포함할 수 있다. 상기 폐암 진단 모듈은 상기 발현량 정보 또는 발현량 비율 정보에 대하여 기설정된 적어도 하나 이상의 변환 모듈;을 더 포함하며, 상기 변환 모듈은 상기 발현량 정보에 대한 발현량 변환 정보 또는 상기 발현량 비율 정보에 대한 발현량 비율 변환 정보를 우선 생성한다.
한편, 상기 폐암 진단 모델은 상기 생성된 발현량 변환 정보 또는 상기 발현량 비율 변환 정보를 입력값으로 입력 받으며, 상기 변환 모듈은 tree를 이용한 앙상블 기법의 partial dependence plot 또는 partial dependency 함수 관계를 이용하여 발현량 변환 정보 또는 발현량 비율 변환 정보를 생성한다. 이에 대해서는 전술한 바와 같다. 상기 폐암 진단 모델은 로지스틱 모형인 것이며, 상기 로지스틱 모형은 상기 발현량 변환 정보 또는 상기 발현량 비율 변환 정보를 입력 받아 폐암으로 분류되는 확률값을 추정한다.
폐암 진단 정보 생성 모듈(1300)의 CP 정보 생성부(1310)는 상기 폐암 진단 정보 생성 모듈은 바이오마커별 질병 진단 기여도에 대한 정보를 추가적으로 생성하며, 상기 바이오마커별 질병 진단 기여도는 상기 바이오마커 조합에 포함된 바이오마커에 대하여 로지스틱 모형으로 구한 기설정된 판별함수를 사용하여 폐암에 미치는 영향의 정도를 coefficient plot의 형태로 생성한다.
상기 정보 입수 모듈이 상기 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수하는 방법은, 상기 폐암 진단 시스템이 상기 진단 키트로부터 직접 입수하는 방법, 상기 폐암 진단 시스템과 유무선 네트워크를 통하여 연결된 상기 진단 키트의 상기 바이오마커별 발현량 정보를 독출할 수 있는 제3의 시스템으로부터 전송 받는 방식으로 입수하는 방법 및 상기 폐암 진단 시스템과 유무선 네트워크로 연결된 상기 바이오마커별 발현량 정보를 입수하는 자의 컴퓨터로부터 전송되는 방식으로 입수하는 방법 등이 사용될 수 있다. 상기 폐암 진단 시스템이 진단 키트의 바이오마커의 발현량 정보를 직접 독출할 수 있는 경우에는 직접 상기 진단 키트로부터 발현량 정보를 입수할 수 있게 된다. 하지만, 직접 독출할 수 없는 경우에는 그 발현량 정보를 독출하는 기계, 장치, 기구 등의 제3의 시스템으로부터 전송받는 방식으로도 입수할 수 있게 된다. 한편, 상기 제3의 시스템과 상기 폐암 진단 시스템이 유무선 네트워크로 연결되어 있지 않거나, 직접 정보를 주고 받지 못하는 경우에는 상기 발현량 정보를 독출한 자의 컴퓨터로부터 직접 또는 간접적으로 독출한 발현량 정보를 유무선 네트워크를 통하여 상기 폐암 진단 시스템으로 전송할 수 있게 된다.
상기 폐암 진단 시스템은 대상자의 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 측정된 바이오마커 조합을 구성하는 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수(S41)하고, 입수된 발현량 정보 또는 발현량 비율 정보를 기설정된 폐암 진단 모델을 포함하는 폐암 진단 모듈로 처리(S42)하여, 폐암 진단 모듈로부터 적어도 하나 이상의 폐암 진단 정보를 생성(S43)한다.
한편, 상기 폐암 진단 시스템은 다수의 폐암 진단 모델을 폐암 진단 모델부에 저장해 놓고, 다수의 다른 폐암 진단용 바이오마커 조합을 사용하는 자들을 위하여 폐암 진단 서비스를 수행할 수 있다. 예를 들면, A 병원은 a+b+c+d 복합 바이오마커와 관련된 폐암 진단 키트를 사용하여 폐암 진단을 수행하고, B 병원은 a+c+e+f 복합 바이오마커와 관련된 폐암 진단 키트를 사용하여 폐암 진단을 수행하는 경우, 각 진단 키트마다 관련된 바이오마커 조합이 다르므로, 다른 폐암 진단 모델을 사용해야 할 것이다. 이 경우, 상기 폐암 진단 시스템이 입수 받는 정보에는 샘플 ID, 바이오마커별 발현량 정보가 필수적으로 포함되어 있어야 한다. 따라서, 상기 폐암 진단 시스템의 폐암 진단 모델 선택부는 입수하는 바이오마커별 발현량 정보에서 발현량 정보가 대응되는 복수 개의 바이오마커를 통하여, 상기 진단 키트에 사용된 바이오마커 조합을 추출하고, 추출된 바이오마커 조합 정보를 통하여 어느 폐암 진단 모델을 선택할 것인지를 결정한다. 즉, A 병원과 관련해서는 a+b+c+d 복합 바이오마커와 관련된 폐암 진단 모델을 사용하여 폐암 진단을 수행하고, B 병원에 대해서는 a+c+e+f 복합 바이오마커와 관련된 폐암 진단 모델을 사용하여 폐암 진단을 수행한다.
본 발명은 의료 산업, 의료 정보 처리 산업, 암 진단 및 예방과 관련된 산업에 활용될 수 있다.

Claims (54)

  1. 폐암 진단용 복합 바이오마커군에 있어서,
    개별 바이오마커 IGF-1 및 RANTES로 이루어진 제1 바이오마커군에서 선택되는 어느 하나 이상의 바이오마커 및
    개별 바이오마커 A1AT, CYFRA21-1, proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9, ApoA1, ApoA1/proApoA1로 이루어진 제2 바이오마커군에서 선택되는 어느 하나 이상의 바이오마커를 포함하는 것을 특징으로 하는 폐암 진단용 복합 바이오마커.
  2. 제1항에 있어서,
    상기 제1 바이오마커군에서 선택되는 바이오마커는 IGF-1 및 RANTES인 것을 특징으로 하는 폐암 진단용 복합 바이오마커.
  3. 제2항에 있어서,
    상기 제2항에서 선택되는 바이오마커는 A1AT, CYFRA21-1 및 TTR 중 어느 하나 이상을 포함하는 것인 것을 특징으로 하는 폐암 진단용 복합 바이오마커.
  4. 제2항에 있어서,
    상기 제2 바이오마커군에서 선택되는 바이오마커는 AFP, CA19-9, CYFRA21-1, A1AT, PAI-1 중 어느 하나 이상인 것을 특징으로 하는 폐암 진단용 복합 바이오마커.
  5. 제2항에 있어서,
    상기 제2 바이오마커군에서 선택되는 바이오마커는 A1AT, CYFRA21-1, proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9, ApoA1/proApoA1, ApoA1 중 어느 2 이상인 것을 특징으로 하는 폐암 진단용 복합 바이오마커.
  6. 폐암 진단용 시스템의 폐암 진단용 복합 바이오마커 정보 이용 방법에 있어서, 상기 폐암 진단용 시스템이,
    (A) 폐암 진단 대상자의 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 측정되는 개별 바이오마커 IGF-1 및 RANTES로 이루어진 제1 바이오마커군에서 선택되는 어느 하나 이상의 제1 바이오마커군의 바이오마커별 발현량 및 개별 바이오마커 A1AT, CYFRA21-1, proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9 및 ApoA1로 이루어진 제2 바이오마커군의 바이오마커별 발현량 측정 정보를 입수하는 단계;
    (B) 상기 제1 바이오마커군의 바이오마커별 발현량 및 상기 제2 바이오마커군의 바이오마커별 발현량 정보를 처리하여, 기설정된 폐암 판정 모델에 투입하는 단계; 및
    (C) 상기 폐암 판정 모델로부터 폐암 판정 정보를 생성하는 단계;를 포함하는 것을 특징으로 하는 폐암 진단용 복합 바이오마커 정보 이용 방법.
  7. 제6항에 있어서,
    상기 (B) 단계에서 상기 바이오마커별 발현량 정보를 처리하는 것은, 상기 제2 바이오마커군에서 ApoA1의 발현량 및 proApoA1의 발현량 정보가 있는 경우, ApoA1 발현량과 proApoA1 발현량의 비율값을 생성하는 것이며, 상기 폐암 판정 모델에 ApoA1의 발현량, proApoA1의 발현량, 및 ApoA1 발현량과 proApoA1 발현량의 비율값 중 어느 하나 이상을 투입하는 것인 것을 특징으로 하는 폐암 진단용 복합 바이오마커 정보 이용 방법.
  8. 제6항에 있어서,
    상기 바이오마커별 발현량 정보를 처리하는 것은 상기 바이오마커별 발현량 정보를 의사 결정 나무를 이용한 앙상블 방법의 partial dependency plot 내지는 partial dependency 함수 관계를 이용하여 변환된 바이오마커별 발현량 정보를 생성하는 것인 것을 특징으로 하는 폐암 진단용 복합 바이오마커 정보 이용 방법.
  9. 제6항에 있어서,
    상기 폐암 판정 모델은 로지스틱 회귀 모델인 것을 특징으로 하는 폐암 진단용 복합 바이오마커 정보 이용 방법.
  10. 제6항에 있어서,
    상기 로지스틱 회귀 모델은 리지 벌점 함수(Ridge Penalty)를 사용한 것인 것을 특징으로 하는 폐암 진단용 복합 바이오마커 정보 이용 방법.
  11. 폐암 진단용 키트에 있어서, 개별 바이오마커 IGF-1 및 RANTES로 이루어진 제1 바이오마커군에서 선택되는 어느 하나 이상의 단백질 및
    개별 바이오마커 A1AT, CYFRA21-1, proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9, ApoA1로 이루어진 제2 바이오마커군에서 선택되는 어느 하나 이상의 단백질에 특이적으로 결합하는 항체를 포함하는 것을 특징으로 하는 폐암 진단용 키트.
  12. 제11항에 있어서,
    상기 제1 바이오마커군에서 선택되는 단백질은 IGF-1 및 RANTES인 것을 특징으로 하는 폐암 진단용 키트.
  13. 제12항에 있어서,
    상기 제2 바이오마커군에서 선택되는 단백질은 A1AT, TTR, CYFRA21-1 중 어느 하나 이상을 포함하는 것인 것을 특징으로 하는 폐암 진단용 키트.
  14. 제12항에 있어서,
    상기 제2 바이오마커군에서 선택되는 단백질은 AFP, CA19-9, CYFRA21-1, A1AT, PAI-1 중 어느 하나 이상인 것을 특징으로 하는 폐암 진단용 키트.
  15. 제12항에 있어서,
    상기 제2 바이오마커군에서 선택되는 단백질은 A1AT, CYFRA21-1, proApoA1, AFP, EGFR, PAI-1, TTR, CEA, CA19-9, ApoA1 중 어느 2 이상인 것을 특징으로 하는 폐암 진단용 키트.
  16. 제11항에 있어서,
    상기 폐암 진단용 키트는 폐암 모니터링, 폐암 스크리닝의 목적으로도 사용되는 것인 것을 특징으로 하는 폐암 진단용 키트.
  17. 폐암 진단 예측을 위한 복합 바이오마커를 구성하는 방법에 있어서,
    개별 바이오마커 A1AT, IGF-1, RANTES, TTR로 구성되는 제1 바이오마커 군에서 선택되는 어느 2 이상의 바이오마커를 포함하여 구성되는 적어도 하나 이상의 제1 바이오마커 조합을 포함하는 바이오마커 조합 후보군을 구성하는 단계;
    상기 바이오마커 조합 후보군을 구성하는 바이오마커 조합 후보에 대하여, 상기 바이오마커 조합 후보를 구성하는 개별 바이오마커 또는 상기 구성된 바이오마커 조합 후보들과 폐암 진단 예측 능력을 비교하는 단계;및
    상기 바이오마커 조합 후보 중 상기 폐암 진단 예측 능력이 기설정된 기준 이상인 바이오마커 조합을 선별하는 단계;를 포함하는 것을 특징으로 하는 폐암 진단 예측을 위한 복합 바이오마커 구성 방법.
  18. 제17항에 있어서,
    상기 폐암 진단 예측 능력을 비교하는 것은 폐암 발명 환자군과 폐암 정상군 각각으로부터 시료를 채취하고, 상기 채취된 시료에 대하여 상기 바이오마커 조합의 폐암 진단 예측 능력에 대한 기설정된 적어도 하나 이상의 지표값을 측정하는 것인 것을 특징으로 하는 폐암 진단 예측을 위한 복합 바이오마커 구성 방법.
  19. 제17항에 있어서,
    상기 바이오마커 조합 후보군에는 상기 제1 바이오마커 조합에 개별 바이오마커 CYFRA21.1, AFP, CEA, ApoA1/proApoA1, EGFR, PAI-1, CA19-9, ApoA1, proApoA1로 구성되는 제2 바이오마커 군에서 선택되는 어느 하나 이상의 바이오마커가 더 추가된 제2 바이오마커 조합이 더 포함되어 있는 것인 것을 특징으로 하는 폐암 진단 예측을 위한 복합 바이오마커 구성 방법.
  20. 폐암 진단 예측을 위한 복합 바이오마커를 구성하는 방법에 있어서,
    개별 바이오마커 A1AT, IGF-1, RANTES, TTR 로 구성되는 제1 바이오마커 군에서 어느 하나 이상의 바이오마커를 선택하고, 개별 바이오마커 AFP, CEA, ApoA1/proApoA1, EGFR, PAI-1, CA19-9, CYFRA21.1, ApoA1, proApoA1 로 구성되는 제2 바이오마커 군에서 어느 하나 이상의 바이오마커를 선택하여, 2 이상의 바이오마커를 포함하여 구성되는 적어도 하나 이상의 바이오마커 조합을 포함하는 바이오마커 조합 후보군을 구성하는 단계;
    상기 바이오마커 조합 후보군을 구성하는 바이오마커 조합 후보에 대하여, 상기 바이오마커 조합 후보를 구성하는 개별 바이오마커 또는 상기 구성된 바이오마커 조합 후보들과 폐암 진단 예측 능력을 비교하는 단계;및
    상기 바이오마커 조합 후보 중 상기 폐암 진단 예측 능력이 기설정된 기준 이상인 바이오마커 조합을 선별하는 단계;를 포함하는 것이며,
    상기 폐암 진단 예측 능력을 비교하는 것은 폐암 발명 환자군과 폐암 비발명 환자군 각각으로부터 시료를 채취하고, 상기 채취된 시료에 대하여 상기 바이오마커 조합의 폐암 진단 예측 능력에 대한 기설정된 적어도 하나 이상의 지표값을 측정하는 것인 것을 특징으로 하는 폐암 진단 예측을 위한 복합 바이오마커 구성 방법.
  21. 제20항에 있어서,
    상기 폐암 진단 예측 능력을 비교하는 것은,
    상기 제1 바이오마커군 및 상기 제2 바이오마커 군에서 선택되어 조합되는 바이오마커들의 복합도를 증가시키면서, 상기 폐암 진단 예측 능력에 대한 지표값을 측정하는 것인 것이며,
    상기 복합도는 상기 바이오마커 조합을 구성하는 바이오마커의 수인 것을 특징으로 하는 폐암 진단 예측을 위한 복합 바이오마커 구성 방법.
  22. 제21항에 있어서,
    상기 복합도를 증가시키면서, 기설정된 복합도에서 상기 바이오마커 조합들에 대하여, 기설정된 지표값 이상을 충족하는 상기 바이오마커 조합들을 구성하는 개별 바이오마커의 빈도를 측정하여 상기 기설정된 복합도에서 적어도 하나 이상의 최빈 바이오마커를 추출하는 단계;를 더 포함하는 것을 특징으로 하는 폐암 진단 예측을 위한 복합 바이오마커 구성 방법.
  23. 폐암 진단 예측을 위한 복합 바이오마커에 있어서,
    상기 복합 바이오마커는 개별 바이오마커 A1AT, IGF-1, RANTES, TTR로 구성되는 제1 바이오마커 군에서 선택되는 어느 2 이상의 바이오마커를 포함하여 구성되는 바이오마커 조합인 것이며,
    폐암 진단 예측 능력을 구성하는 적어도 한 종류 이상의 지표값을 기준으로, 상기 바이오마커 조합의 지표값은 상기 바이오마커 조합을 구성하는 개별 바이오마커의 지표값보다 모두 우수한 것인 것을 특징으로 하는 폐암 진단 예측을 위한 복합 바이오마커.
  24. 제23항에 있어서,
    상기 바이오마커 조합 후보군에는 상기 제1 바이오마커 조합에 개별 바이오마커 AFP, CEA, ApoA1/proApoA1, EGFR, PAI-1, CA19-9, CYFRA21.1, ApoA1, proApoA1로 구성되는 제2 바이오마커 군에서 선택되는 어느 하나 이상의 바이오마커가 더 추가된 제2 바이오마커 조합이 더 포함되어 있는 것인 것을 특징으로 하는 폐암 진단 예측을 위한 복합 바이오마커.
  25. 폐암 진단 예측을 위한 복합 바이오마커를 활용하는 폐암 진단 키트에 있어서, 상기 진단 키트는
    적어도 2 이상의 수용 영역;
    상기 2 이상의 각 수용 영역에 수용되며, 기설정된 바이오마커에 특이적으로 결합하는 2 이상의 바이오마커 대응 항체;를 포함하며,
    상기 항체는 A1AT 대응 항체, IGF-1 대응 항체, RANTES 대응 항체, TTR 대응 항체로 구성되는 제1 바이오마커 대응 항체군에서 선택되는 어느 2 이상의 항체를 포함하는 제1 방식 및
    A1AT 대응 항체, IGF-1 대응 항체, RANTES, TTR 대응 항체 대응 항체로 구성되는 제1 바이오마커 대응 항체군에서 선택되는 어느 하나 이상의 항체와 바이오마커 AFP 대응 항체, CEA 대응 항체, ApoA1 대응 항체, proApoA1 대응 항체, EGFR 대응 항체, PAI-1 대응 항체, CA19-9 대응 항체, CYFRA21.1 대응 항체로 구성되는 제2 바이오마커 대응 항체군에서 선택되는 어느 하나 이상의 항체로 구성되는 제2 방식 중 어느 하나의 방식으로 구성되는 적어도 하나 이상의 바이오마커 대응 항체 조합을 형성하는 것이며,
    상기 2 이상의 바이오마커 대응 항체는 2 이상의 바이오마커 조합에 대응되는 것이며,
    폐암 진단 예측 능력을 구성하는 적어도 한 종류 이상의 지표값 또는 하나 또는 2 이상의 지표값을 연산한 지표값을 기준으로, 상기 바이오마커 조합의 지표값은 상기 바이오마커 조합을 구성하는 비교 대상인 개별 바이오마커의 지표값보다 모두 우수한 것인 것을 특징으로 하는 복합 바이오마커를 활용하는 폐암 진단 키트.
  26. 제25항에 있어서,
    상기 바이오마커 조합은 CYFRA21.1+IGF-1 조합, A1AT+IGF-1 조합, IGF-1+RANTES 조합, CYFRA21.1+RANTES 조합 및 A1AT+RANTES 조합 중 어느 하나 이상인 것이거나,
    상기 CYFRA21.1+IGF-1 조합, 상기 A1AT+IGF-1 조합, 상기 IGF-1+RANTES 조합, 상기 CYFRA21.1+RANTES 조합 및 상기 A1AT+RANTES 조합을 포함하는 복합도 3 이상의 바이오마커 조합 중 어느 하나 이상인 것을 특징으로 하는 복합 바이오마커를 활용하는 폐암 진단 키트.
  27. 제25항에 있어서, 상기 바이오마커 조합은 RANTES+AFP 조합, IGF-1+AFP 조합, A1AT+AFP 조합, RANTES+CEA 조합, IGF-1+CEA 조합, 및 AFP+CEA+ApoA1/proApoA1조합 중 어느 하나 이상인 것이거나,
    상기 RANTES+AFP 조합, 상기 IGF-1+AFP 조합, 상기 A1AT+AFP 조합, 상기 RANTES+CEA 조합, 상기 IGF-1+CEA 조합, 및 상기 AFP+CEA+ApoA1/proApoA1조합을 포함하는 복합도 3 또는 4 이상의 바이오마커 조합 중 어느 하나 이상인 것을 특징으로 하는 복합 바이오마커를 활용하는 폐암 진단 키트.
  28. 암 진단용 복합 바이오마커 정보를 활용한 암 진단 방법에 있어서,
    (A) 암 진단 대상자의 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 복수 개의 개별 바이오마커별 발현량 정보 또는 적어도 한 쌍의 바이오마커별 발현량 비율 정보를 입수하는 단계;
    (B) 상기 발현량 정보 또는 상기 발현량 비율 정보를 의사 결정 나무를 이용한 앙상블 방법의 partial dependency plot 내지는 partial dependency 함수 관계를 이용하여 변환하여 변환된 발현량 정보 또는 변환된 발현량 비율 정보를 생성하는 단계; 및
    (C) 상기 변환된 발현량 정보 또는 상기 변환된 발현량 비율 정보를 기설정된 암 진단 모델에 입력하여 암 진단 정보를 생성하는 단계;를 포함하는 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 방법.
  29. 제28항에 있어서,
    상기 암 진단 모델은 로지스틱 회귀 모델인 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 방법.
  30. 제28항에 있어서,
    상기 로지스틱 회귀 모델은 리지 벌점 함수(Ridge Penalty)를 사용한 것인 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 방법.
  31. 제28항에 있어서,
    상기 앙상블 기법은 Boosting 및 Random Forest 중 어느 하나의 방법인 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 방법.
  32. 제28항에 있어서,
    상기 암 진단 정보는 바이오마커별 암 진단 기여도에 대한 정보를 추가적으로 생성하는 것이며,
    상기 바이오마커별 암 진단 기여도는 상기 암 진단 모델에 포함된 적어도 하나 이상의 개별 바이오마커에 대하여 로지스틱 모형으로 구한 기설정된 판별함수를 사용하여 암에 미치는 영향의 정도를 제공하는 것인 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 방법.
  33. 제32항에 있어서,
    상기 바이오마커별 질병 진단 기여도는 coefficient plot의 형태로 제시되는 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 방법.
  34. 제28항 내지 제33항의 방법은
    상기 복합 바이오마커에 특이적으로 결합하는 항체를 포함하는 암 진단 키트에서 상기 바이오마커별 발현량 정보를 독출하는 제3의 시스템에서 실시되거나,
    상기 제3의 시스템과 유무선 네트워크로 연결되며, 상기 제3의 시스템으로부터 상기 바이오마커별 발현량 정보를 전송받는 암 진단 시스템에서 실시되는 것인 것을 특징으로 하는 암 진단용 복합 바이오마커 정보를 활용한 암 진단 방법.
  35. 복합 바이오마커를 활용하여 상기 암 진단 모델을 생성하는 방법에 있어서,
    복수 명의 암 환자와 복수 명의 정상인으로 구성되는 대상자를 대상으로, 대상자의 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 복수 개의 바이오마커별 발현량 정보를 생성하고, 상기 생성된 발현량 정보를 기설정된 변환을 수행하는 단계;
    상기 대상자 중 선택된 일부 대상자를 모델 생성 대상자군으로 하여 상기 변환된 바이오마커별 발현량 정보로 의사 결정 나무를 활용하여 복수 개의 분류기(classifier)를 생성하고, 상기 생성된 복수 개의 분류기를 접합하여 적어도 하나 이상의 바이오마커가 참여하는 복수 개의 암 진단 모델 후보를 생성하는 단계;
    상기 대상자 중 모델 생성 대상자군에 포함되지 않은 대상자를 모델 검증 대상자군으로 하여, 모델 검증 대상자의 변환이 수행된 상기 바이오마커별 발현량 정보로 상기 암 진단 모델 후보에 입력하고, 상기 모델 검증 대상자별 암 진단 정보를 생성하는 단계; 및
    상기 암 진단 정보에 대한 기 설정된 평가를 수행하고, 기설정된 평가 지표를 충족시키는 암 진단 모델을 선별하는 단계;를 포함하는 것을 특징으로 하는 변환된 바이오마커별 발현량 정보를 사용하는 복합 바이오마커를 활용한 암 진단 모델을 생성하는 방법.
  36. 제 35항에 있어서,
    상기 발현량 정보에는 적어도 한 쌍의 바이오마커별 발현량 비율 정보가 더 포함될 수 있는 것인 것을 특징으로 하는 변환된 바이오마커별 발현량 정보를 사용하는 복합 바이오마커를 활용한 암 진단 모델을 생성하는 방법.
  37. 제 35항에 있어서,
    상기 기설정된 변환을 수행하는 것은 상기 발현량 정보를 의사 결정 나무를 이용한 앙상블 방법의 partial dependency plot 내지는 partial dependency 함수 관계를 이용하여 변환하는 것인 것을 특징으로 하는 변환된 바이오마커별 발현량 정보를 사용하는 복합 바이오마커를 활용한 암 진단 모델을 생성하는 방법.
  38. 제35항에 있어서,
    상기 암 진단 모델은 로지스틱 회귀 모델인 것을 특징으로 하는 변환된 바이오마커별 발현량 정보를 사용하는 복합 바이오마커를 활용한 암 진단 모델을 생성하는 방법.
  39. 제35항에 있어서,
    상기 기설정된 평가 지표는 정확도, 특이도, 민감도, ROC 커브의 면적 중 어느 하나 이상인 것을 특징으로 하는 변환된 바이오마커별 발현량 정보를 사용하는 복합 바이오마커를 활용한 암 진단 모델을 생성하는 방법.
  40. 제35항에 있어서,
    상기 앙상블 기법은 Boosting 및 Random Forest 중 어느 하나의 방법인 것을 특징으로 하는 변환된 바이오마커별 발현량 정보를 사용하는 복합 바이오마커를 활용한 암 진단 모델을 생성하는 방법.
  41. 제35항에 있어서,
    상기 암 진단 정보는 바이오마커별 암 진단 기여도에 대한 정보를 추가적으로 생성하는 것이며,
    상기 바이오마커별 암 진단 기여도는 상기 암 진단 모델에 포함된 적어도 하나 이상의 개별 바이오마커에 대하여 로지스틱 모형으로 구한 기설정된 판별함수를 사용하여 암에 미치는 영향의 정도를 제공하는 것인 것을 특징으로 하는 변환된 바이오마커별 발현량 정보를 사용하는 복합 바이오마커를 활용한 암 진단 모델을 생성하는 방법.
  42. 제35항에 있어서,
    상기 바이오마커별 질병 진단 기여도는 coefficient plot의 형태로 제시되는 것을 특징으로 하는 변환된 바이오마커별 발현량 정보를 사용하는 복합 바이오마커를 활용한 암 진단 모델을 생성하는 방법.
  43. 제35항 내지 제42항의 방법은
    상기 복합 바이오마커에 특이적으로 결합하는 항체를 포함하는 암 진단 키트에서 상기 바이오마커별 발현량 정보를 독출하는 제3의 시스템에서 실시되거나,
    상기 제3의 시스템과 유무선 네트워크로 연결되며, 상기 제3의 시스템으로부터 상기 바이오마커별 발현량 정보를 전송받는 암 진단 시스템에서 실시되는 것인 것을 특징으로 하는 변환된 바이오마커별 발현량 정보를 사용하는 복합 바이오마커를 활용한 암 진단 모델을 생성하는 방법.
  44. 진단 키트를 직접 또는 상기 진단 키트에서 기인하거나 독출한 정보를 이용하여 암 진단 예측을 수행하는 암 진단 예측 시스템에 있어서,
    대상자의 혈액, 혈장, 혈청 또는 기타 대상자의 신체에서 분리한 채취 물질로부터 측정된 상기 바이오마커 조합을 구성하는 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수하는 정보 입수 모듈;
    상기 발현량 정보 또는 발현량 비율 정보에 대하여 기설정된 적어도 하나 이상의 변환 모듈;
    상기 입수된 상기 발현량 정보 또는 발현량 비율 정보를 기설정된 암 진단 예측 모델로 처리하는 암 진단 예측 모듈;및
    상기 암 진단 예측 모듈로부터 적어도 하나 이상의 암 진단 예측 정보를 생성하는 암 진단 예측 정보 생성 모듈;을 포함하며,
    상기 변환 모듈은 상기 발현량 정보에 대한 발현량 변환 정보 또는 상기 발현량 비율 정보에 대한 발현량 비율 변환 정보를 우선 생성하는 것이며,
    상기 암 진단 예측 모델은 상기 생성된 발현량 변환 정보 또는 상기 발현량 비율 변환 정보를 입력값으로 입력 받는 것인 것을 특징으로 하는 암 진단 예측을 수행하는 암 진단 예측 시스템.
  45. 제44항에 있어서,
    상기 정보 입수 모듈이 상기 바이오마커별로 발현량 정보 또는 발현량 비율 정보를 입수하는 방법은,
    상기 암 진단 예측 시스템이 상기 진단 키트로부터 직접 입수하는 방법,
    상기 암 진단 예측 시스템과 유무선 네트워크를 통하여 연결된 상기 진단 키트의 상기 바이오마커별 발현량 정보를 독출할 수 있는 제3의 시스템으로부터 전송 받는 방식으로 입수하는 방법 및
    상기 암 진단 예측 시스템과 유무선 네트워크로 연결된 상기 바이오마커별 발현량 정보를 입수하는 자의 컴퓨터로부터 전송되는 방식으로 입수하는 방법 중 어느 하나 이상의 방법이 실시되는 것인 것을 특징으로 하는 암 진단 예측을 수행하는 암 진단 예측 시스템.
  46. 제44항에 있어서,
    상기 변환 모듈은 tree를 이용한 앙상블 기법의 partial dependence plot 또는 partial dependency 함수 관계를 이용하여 발현량 변환 정보 또는 발현량 비율 변환 정보를 생성하는 것인 것을 특징으로 하는 암 진단 예측을 수행하는 암 진단 예측 시스템.
  47. 제46항에 있어서
    상기 암 진단 예측 모델은 로지스틱 모형인 것이며, 상기 로지스틱 모형은 상기 발현량 변환 정보 또는 상기 발현량 비율 변환 정보를 입력 받아 암으로 분류되는 확률값을 추정하는 기설정된 함수식인 것을 특징으로 하는 암 진단 예측을 수행하는 암 진단 예측 시스템.
  48. 제44항에 있어서,
    상기 암 진단 예측 정보 생성 모듈은 바이오마커별 질병 진단 기여도에 대한 정보를 추가적으로 생성하는 것이며,
    상기 바이오마커별 질병 진단 기여도는 상기 바이오마커 조합에 포함된 바이오마커에 대하여 로지스틱 모형으로 구한 기설정된 판별함수를 사용하여 암에 미치는 영향의 정도를 coefficient plot의 형태로 제시되는 것을 특징으로 하는 암 진단 예측을 수행하는 암 진단 예측 시스템.
  49. 암 진단을 위한 적어도 2 이상의 바이오마커를 포함하는 복합 바이오마커 정보를 처리하는 암/정상 예측 통계 모델과 관련된 바이오마커별 변수값 처리 방법에 있어서,
    적어도 2 이상의 샘플에 대하여 각 샘플별로 상기 바이오마커별 오리지널 변수값을 입수하는 단계;
    상기 바이오마커별 오리지널 입력 변수값으로 기설정된 처리를 수행하여 상기 바이오마커별 partial dependence plot 또는 partial dependence 함수 관계를 구성하는 단계;
    상기 바이오마커별 partial dependence plot 또는 partial dependence 함수 관계를 이용하여 상기 바이오마커별 오리지널 변수값에 대한 상기 바이오마커별 변환 변수값을 생성하는 단계;
    상기 바이오마커별 변환 변수값을 기설정된 암/정상 예측 통계 모델의 생성 또는 암/정상 예측 통계 모델의 실행에 사용하는 단계;를 포함하는 것이며,
    상기 partial dependence plot 또는 partial dependence 함수 관계는 앙상블 기법을 활용한 것이며,
    상기 앙상블 기법은 Boosting 알고리즘 기법과 Random Forest 알고리즘 기법 중 어느 하나 이상의 기법인 것을 특징으로 하는 바이오마커별 변수값 처리 방법.
  50. 제49항에 있어서,
    상기 바이오마커별 partial dependence plot 또는 partial dependence 함수 관계를 구성하는 것은 상기 복합 바이오마커를 구성하는 바이오마커들 중에서 상기 바이오마커를 제외한 타 바이오마커들에 대한 오리지널 변수값에 대해서 평균을 취해주는 방식으로 구성하는 것인 것을 특징으로 하는 바이오마커별 변수값 처리 방법.
  51. 제49항에 있어서,
    상기 오리지널 변수값은 상기 바이오마커별 발현량 정보 또는 2 이상의 바이오마커의 발현량 비율 정도 중 어느 하나 이상인 것을 특징으로 하는 바이오마커별 변수값 처리 방법.
  52. 암 진단을 위한 적어도 2 이상의 바이오마커를 포함하는 복합 바이오마커 정보를 처리하는 암/정상 예측 통계 모델과 관련된 바이오마커별 영향력 정보 처리 방법에 있어서,
    상기 복합 바이오마커를 구성하는 개별 바이오마커별로 영향력 정보를 생성하는 단계; 및
    상기 복합 바이오마커를 구성하는 개별 바이오마커별로 영향력 정보를 개별 바이오마커별로 시각화하는 정보를 생성하는 단계;를 포함하며,
    상기 개별 바이오마커별 영향력은 로지스틱 모형으로부터 구한 판별 함수로 결정되는 것이며, 상기 판별 함수는 하기 수식 1으로 표현되는 것인 것이며,
    상기 로지스틱 모형은 0과 1 사이의 값을 가지며, 상기 로지스틱 모형에 포함된 회귀 계수의 추정은 ridge 함수를 사용하는 것인 것을 특징으로 하는 복합 바이오마커에 대한 영향력 정보 처리 방법.
    [수식 1]
    β0 + β1g1(X1) + β2g2(X2) + ... + βkgk(Xk)
    = β'0 + β1(g1(X1)-g'1) + β2(g2(X2)-g'2) + ... + βk(gk(Xk)-g'k)
  53. 제52항에 있어서,
    상기 g(x)는 partial dependence plot 또는 partial dependency 함수 관계를 이용하여 상기 바이오마커별 오리지널 변수값에 대한 상기 바이오마커별 변환 변수값을 사용하는 것인 것을 특징으로 하는 복합 바이오마커에 대한 영향력 정보 처리 방법.
  54. 제52항에 있어서,
    상기 시각화는 2차원 평면의 차트나 그래프로 표시되는 것인 것을 특징으로 하는 복합 바이오마커에 대한 영향력 정보 처리 방법.
PCT/KR2011/010353 2010-12-30 2011-12-30 폐암 진단용 복합 바이오마커 및 이를 이용한 폐암 진단 방법 WO2012091506A2 (ko)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
KR10-2010-0139568 2010-12-30
KR1020100139566A KR20120077567A (ko) 2010-12-30 2010-12-30 폐암 진단용 복합 바이오마커, 폐암 진단용 복합 바이오마커 정보 이용 방법, 폐암 진단용 키트
KR1020100139567A KR101401561B1 (ko) 2010-12-30 2010-12-30 복합 바이오마커를 활용한 암 진단 정보 생성 방법, 및 암 진단 예측 시스템 장치
KR10-2010-0139569 2010-12-30
KR1020100139568A KR101454398B1 (ko) 2010-12-30 2010-12-30 폐암 진단용 복합 바이오마커 구성 방법 및 폐암 진단용 복합 바이오마커
KR10-2010-0139567 2010-12-30
KR10-2010-0139566 2010-12-30
KR1020100139569A KR20120077570A (ko) 2010-12-30 2010-12-30 폐암 진단 예측을 위한 복합 바이오마커, 구성 방법, 복합 바이오마커를 사용하는 폐암 진단 예측 방법 및 폐암 진단 예측 시스템

Publications (2)

Publication Number Publication Date
WO2012091506A2 true WO2012091506A2 (ko) 2012-07-05
WO2012091506A3 WO2012091506A3 (ko) 2013-01-24

Family

ID=46383765

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2011/010353 WO2012091506A2 (ko) 2010-12-30 2011-12-30 폐암 진단용 복합 바이오마커 및 이를 이용한 폐암 진단 방법

Country Status (1)

Country Link
WO (1) WO2012091506A2 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103698533A (zh) * 2013-12-10 2014-04-02 大连医科大学 Apo-A1蛋白在制备肺癌早期筛查或诊断用血清标记物的用途
CN107796942A (zh) * 2016-09-02 2018-03-13 生命基础公司 用于肺癌诊断的复合生物标志物群、肺癌诊断用试剂盒、利用其的信息的方法及计算系统
CN113130073A (zh) * 2020-01-16 2021-07-16 宏碁股份有限公司 利用自动化机制挑选影响力指标的方法及电子装置
CN116593702A (zh) * 2023-05-11 2023-08-15 杭州广科安德生物科技有限公司 一种肺癌的生物标志物以及诊断系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BIJON CHATTERJI ET AL.: 'Serum proteomics of lung adenocarcinomas induced by targeted overexpression of c-raf in alveolar epithelium identifies candidate biomarkers.' PROTEOMICS. vol. 7, no. 21, 2007, pages 3980 - 3991 *
CHUN-YIN HUANG ET AL.: 'CCL5 increases lung cancer migration via PI3K, Akt and NF-B pathways.' BIOCHEMICAL PHARMACOLOGY. vol. 77, no. IS.5, 2009, pages 794 - 803 *
JAN KULPA ET AL.: 'Carcinoembryonic antigen, squamous cell carcinoma antigen, CYFRA 21-1, and neuron-specific enolase in squamous cell lung cancer patients.' CLIN. CHEM. vol. 48, no. 11, 2002, pages 1931 - 1937 *
MARCUS D. SEEMANN ET AL.: 'An evaluation of the tumour markers, carcinoembryonic antigen (CEA), cytokeratin marker (CYFRA 21-1) and neuron-specific enolase (NSE) in the differentiation of malignant from benign solitary pulmonary lesions.' LUNG CANCER. vol. 26, no. 3, 1999, pages 149 - 155 *
MINGFENG ZHANG ET AL.: 'A 3'-untranslated region polymorphism in IGF 1 predicts survival of non-small cell lung cancer in a Chinese population.' CLIN. CANCER RES. vol. 16, no. 4, 15 February 2010, pages 1236 - 1244 *
SONG, EUN-YOUNG ET AL.: 'Development of analysis system for hepatocelluar carcinoma-related protein biomarker. Report of the 21C Frontier R&D Program.' KRIBB 10 May 2010, *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103698533A (zh) * 2013-12-10 2014-04-02 大连医科大学 Apo-A1蛋白在制备肺癌早期筛查或诊断用血清标记物的用途
CN107796942A (zh) * 2016-09-02 2018-03-13 生命基础公司 用于肺癌诊断的复合生物标志物群、肺癌诊断用试剂盒、利用其的信息的方法及计算系统
CN107796942B (zh) * 2016-09-02 2020-05-05 百奥医福股份有限公司 用于肺癌诊断的复合生物标志物群、肺癌诊断用试剂盒、利用其的信息的方法及计算系统
CN113130073A (zh) * 2020-01-16 2021-07-16 宏碁股份有限公司 利用自动化机制挑选影响力指标的方法及电子装置
CN113130073B (zh) * 2020-01-16 2024-01-19 宏碁股份有限公司 利用自动化机制挑选影响力指标的方法及电子装置
CN116593702A (zh) * 2023-05-11 2023-08-15 杭州广科安德生物科技有限公司 一种肺癌的生物标志物以及诊断系统
CN116593702B (zh) * 2023-05-11 2024-04-05 杭州广科安德生物科技有限公司 一种肺癌的生物标志物以及诊断系统

Also Published As

Publication number Publication date
WO2012091506A3 (ko) 2013-01-24

Similar Documents

Publication Publication Date Title
WO2018044126A1 (ko) 피험체의 폐암 진단을 위한 복합 바이오마커군, 이를 이용하는 폐암 진단용 키트, 복합 바이오마커군의 정보를 이용하는 방법 및 이를 수행하는 컴퓨팅 시스템
WO2012091506A2 (ko) 폐암 진단용 복합 바이오마커 및 이를 이용한 폐암 진단 방법
KR101401561B1 (ko) 복합 바이오마커를 활용한 암 진단 정보 생성 방법, 및 암 진단 예측 시스템 장치
AU2011204652B2 (en) Progastrin and liver pathologies
Oh et al. Point-of-care fluorescence immunoassay for prostate specific antigen
WO2021006649A1 (ko) 췌장암 진단용 바이오마커 패널 및 그 용도
CN113248609B (zh) 针对再生胰岛衍生蛋白1α的抗体组合以及包含其的检测试剂盒
KR20120077567A (ko) 폐암 진단용 복합 바이오마커, 폐암 진단용 복합 바이오마커 정보 이용 방법, 폐암 진단용 키트
WO2009091230A2 (ko) 유방암 모니터링,진단 및 스크리닝용 단백질 마커 및 이를 이용한 유방암 모니터링,진단 및 스크리닝 방법
US20110091895A1 (en) Immunoassays to Detect Diseases or Disease Susceptibility Traits
KR20120077570A (ko) 폐암 진단 예측을 위한 복합 바이오마커, 구성 방법, 복합 바이오마커를 사용하는 폐암 진단 예측 방법 및 폐암 진단 예측 시스템
US20030027234A1 (en) Methods for detecting Down&#39;s syndrome
WO2019022371A1 (ko) 대장암 진단용 조성물 및 상기 조성물을 이용한 대장암 진단 방법
WO2022265392A1 (ko) 난소암 진단용 다중 바이오 마커 및 이의 용도
Tang et al. Sensitive immunoassays of nitrated fibrinogen in human biofluids
KR101311717B1 (ko) 대장암 진단용 단백질 마커 멜라노트랜스페린 및 이에 대한 항체를 포함하는 대장암 진단 키트
KR101463588B1 (ko) 폐암 진단용 복합 바이오마커를 사용하는 폐암 진단용 키트
KR20120134091A (ko) 폐암 진단용 복합 바이오마커 키트
KR100980031B1 (ko) 대장암 진단 및 스크리닝용 단백질 마커 및 대장암 진단을 위한 상기 마커의 측정방법
EP1141726B1 (en) Immunoassays to detect diseases or disease susceptibility traits
CN109738654B (zh) β2-微球蛋白在制备用于定量检测肝癌标志物的试剂盒中的用途
KR101454398B1 (ko) 폐암 진단용 복합 바이오마커 구성 방법 및 폐암 진단용 복합 바이오마커
KR101431067B1 (ko) 유방암 진단용 단백질 마커 아포리포단백질 (a), 이의 검출 방법 및 이에 대한 항체를 포함하는 유방암 진단키트
KR20130004204A (ko) 폐암 진단용 복합 바이오마커 구성 방법
KR20130004203A (ko) 폐암 진단용 복합 바이오마커 정보 이용 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11853505

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase in:

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11853505

Country of ref document: EP

Kind code of ref document: A2