WO2018044126A1 - 피험체의 폐암 진단을 위한 복합 바이오마커군, 이를 이용하는 폐암 진단용 키트, 복합 바이오마커군의 정보를 이용하는 방법 및 이를 수행하는 컴퓨팅 시스템 - Google Patents

피험체의 폐암 진단을 위한 복합 바이오마커군, 이를 이용하는 폐암 진단용 키트, 복합 바이오마커군의 정보를 이용하는 방법 및 이를 수행하는 컴퓨팅 시스템 Download PDF

Info

Publication number
WO2018044126A1
WO2018044126A1 PCT/KR2017/009616 KR2017009616W WO2018044126A1 WO 2018044126 A1 WO2018044126 A1 WO 2018044126A1 KR 2017009616 W KR2017009616 W KR 2017009616W WO 2018044126 A1 WO2018044126 A1 WO 2018044126A1
Authority
WO
WIPO (PCT)
Prior art keywords
lung cancer
biomarker
data
individual
computing system
Prior art date
Application number
PCT/KR2017/009616
Other languages
English (en)
French (fr)
Inventor
김철우
김용대
신용성
연은희
강경남
신호상
권오란
Original Assignee
(주)바이오인프라생명과학
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)바이오인프라생명과학 filed Critical (주)바이오인프라생명과학
Publication of WO2018044126A1 publication Critical patent/WO2018044126A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57423Specifically defined cancers of lung
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Definitions

  • the present invention relates to a complex biomarker group for diagnosing lung cancer of a subject, a kit for diagnosing lung cancer using the same, a method of using complex biomarker group information for diagnosing lung cancer of a subject, and a computing system for performing the same.
  • the marker group is for the diagnosis of lung cancer and includes individual biomarkers CEA, HE4, ApoA2, TTR, sVCAM-1 and RANTES.
  • Lung cancer is a lung cancer that causes more than 1.3 million deaths each year, the highest rate of cancer deaths worldwide.
  • the main causes of lung cancer include smoking, radon gas, asbestos, and oil fields. Smoking is known to have the highest proportion.
  • lung cancer is classified, lung cancer is divided into small cell lung cancer (small cell lung cancer) and non-small cell lung cancer (non-small cell lung cancer).
  • non-small cell lung cancer is the most representative cancer corresponding to about 80% of lung cancer, and is divided into adenocarcinoma, squamous cell carcinoma, and large cell carcinoma.
  • Accurate diagnosis is important because not only the histological characteristics are different according to the type of lung cancer, but also the prognosis and treatment methods.
  • non-small cell lung cancer the 10-year survival rate is very low, less than 10%, despite recent advances in cancer treatment. This is because it is difficult to diagnose that a patient has lung cancer even when most of the non-small cell lung cancers have advanced significantly.
  • lung cancer typically, there are no symptoms at all in the early stages of lung cancer, and even after a certain progression, symptoms such as cough and sputum similar to a common cold are rarely found in a general questionnaire. Symptoms are different depending on where they occur. Common symptoms of lung cancer include coughing, bloody sputum or hemoptysis, shortness of breath, chest pain, hoarseness, relative venous syndrome, bone pain and fractures, headache, nausea, and vomiting. By the time the patient notices that he has started, the lung cancer has already advanced.
  • Periodic examinations are the best way to diagnose lung cancer early.
  • biological samples derived from the patient's body such as blood and urine of the patient, may be taken to determine whether the lung cancer develops.
  • an indicator that can detect changes in the body using proteins, nucleic acids, metabolites, and the like contained in biological samples is called a biomarker.
  • conventional biomarker techniques for early diagnosis of lung cancer include those that include A1AT, IGF-1, RANTES and TTR as disclosed in Korean Patent No. 10-1463588. If lung cancer can be diagnosed with better classification ability than the technology, that is, there are fewer errors in diagnosis by biomarkers, it will be advantageous in terms of time, cost and effectiveness of confirming lung cancer.
  • a complex biomarker group for diagnosing lung cancer of a subject comprising individual biomarkers CEA (Carcinoembryonic antigen; cancer embryo antigen), HE4 (Human Epididymis Protein 4; human Epididymal protein 4), ApoA2 (Apolipoprotein A-II), Transthyretin (TTR), soluble vascular cell adhesion molecule-1 (sVCAM-1) and regulated on activation, normal T cell expressed and secreted; Chemokine (C-C motif) ligand 5 ⁇ .
  • CEA Carcinoembryonic antigen; cancer embryo antigen
  • HE4 Human Epididymis Protein 4; human Epididymal protein 4
  • ApoA2 Adpolipoprotein A-II
  • TTR Transthyretin
  • sVCAM-1 soluble vascular cell adhesion molecule-1
  • a lung cancer diagnostic kit using a complex biomarker group for diagnosing lung cancer of a subject includes individual biomarkers CEA, HE4, ApoA2, TTR, sVCAM-1 and It characterized in that it comprises antibodies that specifically bind to RANTES.
  • a lung cancer diagnostic kit utilizing a complex biomarker group for diagnosing lung cancer of a subject, the lung cancer diagnostic kit comprising: at least six receiving regions; And six or more biomarker corresponding antibodies contained in each of the at least six receiving regions and specifically binding to predetermined individual biomarkers, wherein the six or more biomarker corresponding antibodies comprise individual biomarkers CEA, HE4, Each of the antibodies specifically binding to ApoA2, TTR, sVCAM-1 and RANTES is characterized in that it comprises a.
  • a method of using information of a group of complex biomarkers for diagnosing lung cancer of a subject comprising: (a) a computing system, (1-i) lung cancer patients and Expression data for individual biomarkers of the lung biopsy complex biomarker group measured from a biological sample of a sample population composed of non-lung cancer patients, or (1-ii) Expression data for each biomarker measured from the sample population And obtaining the age of the sample population and preprocessing expression data for each individual biomarker of the sample population, thereby (2-i) from the measurement data of the sample population, which is the preprocessed data, or (2-ii) (3-i) measured from a biological sample of the subject, with the lung cancer judgment model derived from the measurement data of the sample population and the age of the sample population.
  • the computing system preprocesses expression data for each individual biomarker of the subject, thereby (4-i) measurement data of the subject as the preprocessed data, or (4-ii) the measurement data and the And determining whether the subject develops lung cancer from the lung cancer determination model using the age of the subject, wherein the complex biomarker group for diagnosing lung cancer includes individual biomarkers CEA, HE4, ApoA2, TTR, and sVCAM. -1 and RANTES.
  • a computing system using information of the complex biomarker group for diagnosing lung cancer of a subject, the complex biomarker group information using computing system, (1-i) lung cancer patients Expression data of individual biomarkers of the lung biopsy complex biomarker group measured from a biological sample of a sample population consisting of humans and non-lung cancer patients, or (1-ii) expression of the individual biomarkers measured from the sample population.
  • volume data and the age of the sample population were obtained and pre-processed expression data for each individual biomarker of the sample population was obtained from (2-i) from the measurement data of the sample population, which was the preprocessed data, or (2- ii) with lung cancer determination models derived from the measurement data of the sample population and the age of the sample population, (3-i) Obtaining expression data for each biomarker of the complex biomarker group for lung cancer diagnosis measured from a biological sample, or (3-ii) Expression data for each biomarker measured from the subject and age of the subject
  • the communication unit and the expression amount data for each individual biomarker of the subject are preprocessed to (4-i) the measurement data of the subject as the preprocessed data, or (4-ii) the measurement data and the subject's expression.
  • a processor for determining whether the subject develops lung cancer from the lung cancer determination model using age wherein the complex biomarker group for diagnosing lung cancer includes individual biomarkers CEA, HE4, ApoA2, TTR, sVCAM-1, and Includes RANTES.
  • FIG. 1 is a diagram illustrating a ROC curve, which is a tool for evaluating the performance of a logistic regression model for classifying lung cancer patients and normal persons using the complex biomarker groups for lung cancer diagnosis according to the present invention.
  • Figure 2 is a graph showing the relationship between the age of the subject and the expression level of HE4, which is an individual biomarker constituting the complex biomarker group for lung cancer diagnosis according to the present invention in lung cancer patients and normal subjects.
  • FIG. 3 is an exemplary density plot showing data obtained by removing the influence of the remaining biomarkers and age from measurement data of samples of lung cancer patients and normal persons of individual biomarkers used in the experiment of the present invention.
  • FIG. 4 exemplarily shows ROC curves for the training set, which is an evaluation index for the complex biomarker group for diagnosing lung cancer according to the present invention and the entire biomarker group including 12 individual biomarkers used in the experiment of the present invention.
  • FIG. 5 exemplarily shows ROC curves as evaluation indicators for the complex biomarker group for diagnosing lung cancer according to the present invention and the entire biomarker group including 12 individual biomarkers used in the experiment of the present invention. Drawing.
  • FIGS. 6 to 10 are diagrams exemplarily illustrating ROC curves, which are evaluation indexes for the complex biomarker groups for lung cancer diagnosis according to the present invention including the individual biomarkers.
  • FIG. 11 is a conceptual diagram schematically illustrating a configuration of a computing system using information of a complex biomarker group for diagnosing lung cancer of a subject according to the present invention.
  • biological sample refers to a sample taken from a living body, and preferably includes tissue, including blood, plasma, serum, lymph, cerebrospinal fluid, and urine, feces, tears, and saliva secreted or excreted or collected from the living body. Encompasses such substances.
  • antibody refers to a specific protein molecule that is directed against an antigenic site, and may bind to polyclonal antibodies, monoclonal antibodies, recombinant antibodies, epitopes. It includes all antibodies, such as a fragment. Among these, it will be preferable to use monoclonal antibodies. Any such antibody can be used as long as it is prepared by a person of ordinary skill in the art. The antibody may also be prepared by injecting a protein that is an immunogen into an external host, for example, according to conventional methods known to those skilled in the art.
  • normal person in this specification includes a person suffering from a disease other than lung cancer, and is a term intended to refer to a person who is not a lung cancer patient.
  • the present invention encompasses all possible combinations of the embodiments indicated herein. It should be understood that the various embodiments of the present invention are different but need not be mutually exclusive. For example, certain shapes, structures, and characteristics described herein may be embodied in other embodiments without departing from the spirit and scope of the invention with respect to one embodiment. In addition, it is to be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the invention. The following detailed description, therefore, is not to be taken in a limiting sense, and the scope of the present invention, if properly described, is defined only by the appended claims, along with the full range of equivalents to which such claims are entitled. Like reference numerals in the drawings refer to the same or similar functions throughout the several aspects.
  • biomarkers belonging to the complex biomarker group according to the present invention include HE4, CEA, ApoA2, RANTES, TTR and sVCAM-1, but the complex biomarker group of the present invention is not limited thereto, and is known oncologically. Any marker can be used in the diagnosis of lung cancer with the individual biomarkers listed above. Whether individual biomarkers are significant for the diagnosis of lung cancer will be determined individually, but herein we will disclose a combination biomarker group comprising at least HE4, CEA, ApoA2, RANTES, TTR, sVCAM-1.
  • the individual biomarkers selected by the inventors are as follows.
  • HE4 Human epididymis protein 4
  • WFDC2 WAP four-disulfide core domain protein 2.
  • HE4 is conventionally well known as a tumor marker of ovarian cancer.
  • CEA Carcinoembryonic antigen
  • Apopo2 (Apolipoprotein A-II) is a protein encoded by the human APOA2 gene. It is the second most abundant protein in high density lipoprotein particles.
  • Chemokine (C-C motif) ligand 5 ⁇ is a protein encoded by the human CCL5 gene.
  • Transthyretin is a transport protein present in serum and cerebrospinal fluid, and transports retinol-binding proteins that bind to the thyroid hormone thyroxine and retinol.
  • the liver secretes TTR into the blood and the choroid plexus releases TTR into the cerebrospinal fluid.
  • Soluble vascular cell adhesion molecule-1 (sVCAM-1) is a cell adhesion molecule in the vcam-1 lysed state and can function as an important biomarker for the inflammatory response that occurs when cells are damaged.
  • the individual biomarkers involved in the experiments of the present invention are as follows.
  • ApoA1 (Apolipoprotein A-I) is a protein encoded by the human APOA1 gene. It is known to play an important role in lipid metabolism.
  • Beta-2 microglobulin is a component of MHC class I molecules.
  • B2M protein is encoded by the B2M gene.
  • CA125 (CA-125; cancer antigen 125; carcinoma antigen 125; or carbohydrate antigen 125), also known as mucin 16 or MUC16, is a protein encoded by the human MUC16 gene. It has been found that CA125 can be used as a tumor marker because of its high concentration in the blood of patients with certain types of cancer.
  • LRG1 (Leucine-rich alpha-2-glycoprotein 1) is a protein encoded by the human LRG1 gene. LRG1 has been known to increase in concentration when acute appendicitis is present.
  • Cyfra 21-1 ⁇ cytokeratin 19 fragment antigen 21-1; Keratin, type I cytoskeletal 19; cytokeratin-19 (CK-19); Or keratin-19 (K19) ⁇ is a 40 kDa protein encoded by the human KRT19 gene. Cyfra 21-1 is a type I keratin and is known as a biomarker for detecting tumor cells secreted from lymph nodes, peripheral blood, and bone marrow in breast cancer patients.
  • Antibodies or kits used to analyze individual biomarkers We purchase antibodies or kits from several manufacturers to analyze 13 proteins including HE4, RANTES, sVCAM-1, LRG1, CEA, Cyfra21-1, ApoA2, ApoA1, TTR, B2M, CA125, CA19-9, CRP It was. Where to buy information such as antibodies, kits, standards (standard proteins) are shown in Tables 1 to 2 below.
  • the standard protein of HE4 was purchased from XEMA
  • the standard protein of RANTES was purchased from PeproTech
  • the standard protein of sVCAM-1 and LRG-1 was purchased from R & D Systems.
  • the CEA, Cyfra21-1, B2M, CA125, and CA19-9 proteins were purchased from Roche
  • the ApoA1 and ApoA2 proteins were purchased from Sekisui
  • the TTR and CRP proteins were purchased from Siemens. .
  • Lung cancer patients of 355 lung cancer patients, 162 lung cancers, 42 lung cancers, 62 lung cancers, and 62 lung cancers from Asan Hospital and Keimyung University Dongsan Medical Center (242 patients from Asan Hospital, 113 from Keimyung University Dongsan Medical Center) Peripheral blood was obtained from. According to their medical history, 230 patients had adenocarcinoma, 109 squamous cell carcinoma, 4 large cell lung cancer, 2 neuroendocrine cancer, and 10 others. The age and gender were classified into 139 males and 216 females, and the average age was 63.85 years, median 66 years, and the range was 25 to 83 years.
  • the lung cancer patient was confirmed using a well-known method, such as chest X-ray, chest computed tomography (CT), ultrasonography, magnetic resonance imaging (MRI), positron tomography (PET), pulmonary function tests, lung perfusion scans, lung biopsies (CT guided percutaneous lung biopsy (PCNA)), cancerous pleural pleural and pleural biopsy, and molecular biological tests such as EGFR mutations, gene copy number ( gene copy number, level of expression, K-ras mutations, and tests for EML4-ALK fusion oncogenes, including but not limited to The technician will know well.
  • CT chest computed tomography
  • MRI magnetic resonance imaging
  • PET positron tomography
  • PCNA CT guided percutaneous lung biopsy
  • EGFR mutations gene copy number
  • gene copy number gene copy number, level of expression, K-ras mutations, and tests for EML4-ALK fusion oncogenes, including but not limited to The technician will know well.
  • HE4 and LRG-1 proteins were measured by ELISA (Enzyme-Linked ImmunoSorbent Assay).
  • ELISA Enzyme-Linked ImmunoSorbent Assay
  • the ELISA method is a method in which an antibody labels an enzyme with an antigen and measures the activity of the enzyme to quantitatively measure the strength and amount of the antigen-antibody reaction.
  • detection antibody was used after labeling biotin.
  • the specific steps of the ELISA method implementation were as follows.
  • HE4 and LRG- 1 ELISA were quantified by ELISA method, briefly described as capture antibody against human HE4 in 96-well microplates (Nalgene Nunc Inc., Rochester NY) (XEMA Co. Ltd., Moscow, Russia). 100 ⁇ l of the 1 ⁇ g / ml concentration was applied overnight at 4 ° C. After washing three times with a washing solution (PBS containing 0.05% Tween 20), a PBS solution containing 5% skim milk was placed in a well and stirred at room temperature for 2 hours to block nonspecific binding. After washing three times with the washing solution, 100 ⁇ l of serum or standard calibrator was added to each well and washed three times after reacting for 1 hour at room temperature.
  • a washing solution PBS containing 0.05% Tween 20
  • the biotin-labeled detection antibody prepared above was treated at a concentration of 1 ⁇ g / ml and reacted again at room temperature for 1 hour. After three washes, 0.5 ⁇ g / ml streptavidin-horseradish-peroxidase (Sigma-Aldrich, St. Louis, Mo.) was added to react for 30 minutes at room temperature and washed five times. To induce a color reaction, 100 ⁇ l of TMB (tetramethylbenzidine; KPL, Gaithersburg, MD) was added, and after 15 minutes, the reaction was stopped with 50 ⁇ l of 2N sulfuric acid and a microplate reader (Emax; Molecular Devices LLC., Sunnyvale, Calif.) Was added. Absorbance at 450 nm was measured. Results were analyzed with five parametric curve fitting using SoftMax Pro software (Molecular Device). The calibration HE4 standard protein was purchased from XEMA and the LRG-1 standard protein from R & D.
  • serum concentrations of lung cancer patients and normal subjects of RANTES and sVCAM-1 were measured by multiplex immunoassay using the xMAP technology platform (Luminex Corp. Austin, TX).
  • Multiplex immunoassays are assays known to those of skill in the art to save time and money compared to conventional assays such as ELISA western blotting, polymerase chain reaction (PCR), and the like.
  • the capture antibody was used in combination with the MagPlex microspheres by the carbodiimide method, and the exposure of the microspheres to the light was minimized in the whole process.
  • Antibody-Microsphere Binding The above quantification process was performed according to the manufacturer's recommended protocol, which was first performed by vortexing the microsphere suspension of MagPlex (Luminex Corp.) and then in a sonication vessel (Sonicor Instrument Corporation, USA) for 20 seconds. Was suspended. 1 ⁇ 10 6 microspheres were transferred to a microtube, separated using a magnet, the solution was removed, washed with 100 ⁇ l of distilled water and again in 80 ⁇ l of 0.1 M sodium phosphate buffer (pH 6.2). Re-suspension.
  • sVCAM- 1, RANTES multiple immunity test The antibody binding microspheres are now used to quantify serum concentrations in sVCAM protein and RANTES protein simultaneously in multiple assays. Specifically, for each well of a 96-well microplate, 20 ⁇ l of RANTES standard protein (R & D Systems) and sVCAM-1 standard protein (PeproTech, Rocky Hill, NJ) or serum and two biomarker proteins, RANTES and sVCAM-1 After mixing 20 ⁇ l of the mixed microspheres with the capture antibody was reacted for 1 hour at room temperature.
  • the CEA, Cyfra21-1, CA125, and CA19-9 proteins are electrochemiluminescent immunoassays on Cobas e601 (Hoffmann-La Roche AG., Switzerland) instrument.
  • the ApoA1, ApoA2 and B2M proteins are clinical analyzer 7080 (Hitachi Medical Corp., Japan) by immunoadjuvant method in the instrument, TTR and CRP protein was measured by immunoadjuvant method in the BN2 System (Siemens AG., Germany) instrument according to the manufacturer's instructions.
  • the experimental value which is the quantitative value of the protein obtained through the above measurement, becomes the measurement data to be used for statistical analysis described in detail below through pretreatment.
  • the preprocessing may be to perform log 10 conversion with base 10 as the base.
  • logarithmic transformation is performed on the experimental values of all individual biomarkers in order to alleviate the tendency.
  • the measurement data thus converted will be used unless otherwise stated.
  • the established measurement data is bioinformatics and statistical analysis method R Development Core Team (2007) .R: A language and environment for statistical computing.R Foundation for Statistical Computing, Vienna, Austria.ISBN 3 -900051-07-0, URL http://www.R-project.org.
  • a lung cancer judgment model was generated from the input data.
  • each of x k means an experimental value (log value) of an individual biomarker introduced to lung cancer diagnosis.
  • the regression model can be referred to as the lung cancer judgment model because the lung cancer determination of individual subjects can be performed using the model object m.
  • x1, x2, x3, x4, x5, x6 are predictors.
  • x1, x2, x3, x4, x5, x6 may be intended to be measurement data corresponding to data of expression amounts of CEA, HE4, ApoA2, TTR, sVCAM-1 and RANTES, respectively.
  • the instruction of the R statistical package for making this prediction may be as follows.
  • the inventors performed the above mentioned logistic regression on the various complex biomarker groups described below to obtain a logistic regression model. Specifically, in order to verify the validity of the logistic regression model, the present inventors used a 10 fold cross validation method. In 10-fold cross-validation, the data is first randomly divided into 10 segments. Training with 9 pieces leaving one piece, i.e., generating a logistic regression model in this example, and then using the remaining pieces to make the above predictions, i.e., verify. Repeat the above for all the pieces. By incorporating the results of these predictions, you can determine the performance of those predictions. The ROC curve is one tool for this.
  • ROC curve receiver operating characteristic curve
  • FIG. 1 is a diagram illustrating an ROC curve, a tool for evaluating the performance of a logistic regression model.
  • the singularity refers to the ratio of judging that 'wrong' (wrong) is wrong, so the more you tilt to the left, the lesser the percentage of false positives to judge as 'wrong (positive)'.
  • AUC 0.5, which means that the lung cancer judgment model of the present invention does not have any classification performance, and the hypothesis hypothesis, and the hypothesis that the logistic regression model has classification performance can be tested.
  • the probability of error is referred to as a p-value (significant probability)
  • the p-value is lower than the predetermined probability
  • the predetermined probability is called the significance level.
  • the lung cancer judgment model can be verified for performance in a manner that takes into account the AUC of such ROC. Next, the matters considered when generating the lung cancer judgment model of the present invention will be described. Next, the matters considered when generating the lung cancer judgment model of the present invention will be described.
  • FIG. 2 is a graph showing the correlation between the amount of HE4 expression in a subject and the age of the subject. Referring to Figure 2, it can be seen that there is a positive correlation between the amount of HE4 expression and the age of the subject. In this example graph, the value of the correlation coefficient (Pearson's coefficient) is 0.490 and p-value ⁇ 2.2e-16. In this figure, the correlation between the biomarker HE4 expression level and age was discussed.
  • the “corrected” expression amount which is a value from which the influence of age is removed from the expression level of the HE4 biomarker, may be derived.
  • ⁇ 0 and ⁇ 1 are derived from each of these estimated values and .
  • the residual for HE4 is It can be defined as
  • the present inventors selected 120 candidate protein markers among tens of thousands of proteins present in the human body, reviewed domestic and international academic papers and literatures, and performed two-dimensional electrophoresis (2D Gel) and SELDI-TOF MS analysis.
  • 50 markers were extracted from the 120 protein markers in consideration of clinical significance, ease of analysis, algorithm accuracy, cost, and clinical conditions.
  • Thirteen final subjects were selected from 900 subjects who were expected to be suitable for inclusion in the composite biomarker group of the present invention. More specifically, over 50 proteins from 120 protein markers can be obtained through procedures such as those described in Breast Cancer Research 2009, 11, R22 or in articles such as Journal of Thoracic, Cardiac & Vascular Surgery 2012: 143; 421-7. It may be assumed that markers are selected and 13 markers selected therefrom, but are not necessarily limited thereto.
  • the inventors have described the above-mentioned experimental data (experimental data for training) among the total 13 individual biomarkers and two demographic variables selected as the final candidates, which are preferred to include in the statistical model of the present invention. Successfully found using. In this study conducted by the present inventors, 6 individual biomarkers and age were carefully selected from 13 individual biomarkers and 2 demographic variables. Specifically, a complex biomarker group was selected using 515 training samples and 280 cancer samples. The training data consisted of 113 non-small cell lung cancer samples from Keimyung University Dongsan Medical Center, 167 non-small cell lung cancer samples from Asan Hospital, and 515 samples from Seoul National University Hospital. Validation data was used for the verification of complex biomarker group selection.
  • the validation data consisted of 75 non-small cell lung cancer samples from Asan Hospital and 75 normal samples from Seoul National University Hospital. HE4, CEA, ApoA2, TTR, sVCAM-1, RANTES were included and ApoA1, B2M, CA125, CA19-9, CRP, Cyfra21-1, LRG1 were removed. This will be described later.
  • this combination constituting the complex biomarker group according to the present invention is referred to as the "BI combination”, and CA19-9 and gender are described in the 13 individual biomarkers and two demographic variables described above.
  • the combination including all remaining 12 individual biomarkers, except age, will be referred to as “all combinations”.
  • the value of the biomarker A is determined by linear regression analysis.
  • the residual value means a value in which the biomarker A excludes a portion described by another individual biomarker B i and age from the value of the biomarker A ( )silver,
  • the residual value (age) means the value except for the part described by the remaining individual biomarkers. )silver,
  • test group average The inventors conducted a Student's t test on the residual values to verify the significance of the individual biomarkers from these residual values. There was no difference between the mean values in the experimental group (“test group average”), and the results are shown in Table 5 below.
  • FIG. 3 is a density plot showing the above (above) residual values of individual biomarkers.
  • FIG. Of the two density graphs red is the graph for the lung cancer patient group, and black is the graph for the control group (normal).
  • the red ones represent the average of the lung cancer patients and the gray ones represent the average of the controls.
  • the difference between the mean of the lung cancer patient group and the mean of the control group, that is, the average difference can be seen that the individual biomarkers belonging to the complex biomarker group of the present invention is relatively large.
  • FIG. 3 it can be seen visually that individual biomarkers belonging to the complex biomarker group of the present invention are relatively better markers for lung cancer determination than individual biomarkers not.
  • the AUC representing the classification performance of BI combinations remained about the same as the overall combination, resulting in more economical effects. We could see the effect that can be obtained.
  • the training data and the validation data were combined and the classifier performance was examined using a 10-fold cross-validation method.
  • the performance of the classifier using the exemplary composite biomarker group is schematically shown in Table 8 below.
  • This exemplary combination biomarker group takes into account all ages of HE4, CEA, ApoA2, RANTES, TTR, sVCAM-1 and subject.
  • the algorithm used in the classifier in Table 8 is the Generalized Linear Model (GLM), especially the logistic regression model, with an AUC of 0.988, p-value of 0.000 and a sensitivity of 94.65%, even for stage 1 patients.
  • the high sensitivity of the lung cancer was judged.
  • the specificity here was 93.90%, with a threshold (cutoff) of 0.3700928.
  • These cleavage points were chosen to be sufficiently high specificities with a sensitivity of 90% or higher in all lung cancer progression stages.
  • Regression coefficient range of the regression model as confirmed by 10-fold cross validation .
  • the exemplary logistic regression model is derived from the entire training set, so that the regression coefficient of the regression model is defined as one, but using a 10-fold cross-validation method that repeatedly derives the regression model for 9/10 of the entire experimental group.
  • a range of regression coefficients for individual biomarkers can be obtained, and the results are shown in Table 9 below.
  • the unit of the regression coefficient for each biomarker is expressed as the inverse of the unit of experimental data values for the individual biomarkers. This is because the result of the logistic regression model, that is, the dependent variable, must be a unitless value. Since the unit of experimental data of HE4 used is log (pM), the unit of regression coefficient for HE4 is ⁇ log (pM) ⁇ -1 .
  • the unit of regression coefficient for ApoA2 and TTR is ⁇ log (mg / dL) ⁇ -1 and the experiment of sVCAM-1, CEA, RANTES Since the unit of data is log (ng / mL), the unit of regression coefficient for sVCAM-1, CEA, and RANTES is ⁇ log (ng / mL) ⁇ -1 .
  • the range of this regression coefficient is an example, and of course, the logistic regression model according to the present invention is not limited thereto.
  • the classifier is built with only normal people and patients with non-small cell lung cancer, and the present inventors use the classifier to determine whether the small cell lung cancer experimental group is a lung cancer patient or not in order to confirm whether the classification performance is also shown for small cell lung cancer.
  • This experimental group should be determined to be a lung cancer patient.
  • the results of the predictions are presented in Table 10 below.
  • Table 10 shows a very encouraging (amazing) result for 41 subjects, all classified as cancer with 100% sensitivity.
  • the complex biomarker group of the present invention and other complex biomarker groups compare. Now, the above-described logistic regression model is also obtained for other complex biomarker groups utilizing individual biomarkers to derive AUC, and the results are shown in Table 11 below.
  • each row shows the individual biomarkers used in the complex biomarker group, and the bottom row shows the data corresponding to the complex biomarker group according to the present invention, where AUC is the individual
  • the AUC value is represented by the model derived using the biomarker, and AUCrank is the high rank of AUC.
  • one embodiment of the ROC curve for each of the composite biomarker groups shown in Table 11 is shown in more detail in FIGS. 6 to 10.
  • ROC curves were obtained by increasing the types of individual biomarkers one by one in the complex biomarker groups including HE4 and CEA as essential individual biomarkers.
  • comb3 corresponds to a composite biomarker group comprising HE4 and CEA as individual biomarkers
  • comb4 corresponds to a composite biomarker group consisting of HE4, CEA and RANTES
  • comb5 is HE4
  • Comb6 corresponds to the composite biomarker group consisting of, HE4, CEA, RANTES, TTR and sVCAM-1
  • comb7 corresponds to HE4, CEA, RANTES, TTR, sVCAM-1, ApoA2 Corresponds to the composite biomarker group.
  • the composite biomarker group of the present invention composed of comb7 HE4, CEA, RANTES, TTR, sVCAM-1, and ApoA2 shows the highest accuracy.
  • comb1 corresponds to the complex biomarker group composed of HE4 and CEA
  • comb2 corresponds to the complex biomarker group composed of CEA and Cyfra21-1
  • comb3 corresponds to the complex biomarker group composed of HE4 and RANTES. do. Age was considered together for all these complex biomarker groups.
  • FIG. 8 shows the ROC curves of complex biomarker groups that include HE4 and CEA as essential discrete biomarkers and further include one discrete biomarker.
  • comb1 corresponds to a composite biomarker group consisting of HE4, CEA and ApoA2
  • comb2 corresponds to a composite biomarker group consisting of HE4, CEA and TTR
  • comb3 consists of HE4, CEA and sVCAM-1
  • comb4 corresponds to the composite biomarker group consisting of HE4, CEA and RANTES. Age was considered together for all these biomarker groups. All of these complex biomarker groups showed higher accuracy than the combination shown in FIG. 7 as shown in FIG. 8 and Table 11, especially the combination comb4 containing all of HE4, CEA and RANTES.
  • comb1 corresponds to a composite biomarker group consisting of HE4, CEA, ApoA2 and TTR
  • comb2 corresponds to a composite biomarker group consisting of HE4
  • comb3 corresponds to HE4
  • CEA Corresponds to the complex biomarker group consisting of TTR and sVCAM-1
  • comb4 corresponds to the complex biomarker group consisting of HE4
  • comb5 is the complex biomarker consisting of HE4
  • comb6 corresponds to the complex biomarker group consisting of HE4, CEA, sVCAM-1 and RANTES.
  • Age was considered together for all these biomarker groups. All these composite biomarker groups show even higher accuracy than the combination
  • FIG. 10 shows the ROC curves of the composite biomarker groups that include HE4 and CEA as essential discrete biomarkers and further include three separate biomarkers.
  • comb1 corresponds to the composite biomarker group consisting of HE4, CEA, ApoA2, TTR and sVCAM-1
  • comb2 corresponds to the composite biomarker group consisting of HE4, CEA, ApoA2, TTR and RANTES
  • comb3 corresponds to the composite biomarker group consisting of HE4, CEA, ApoA2, sVCAM-1 and RANTES
  • comb4 corresponds to the complex biomarker group consisting of HE4, CEA, TTR, sVCAM-1 and RANTES. Age was considered together for all these biomarker groups. All of these composite biomarker groups show better performance as compared to the composite biomarker groups of FIG. 8 mentioned above generally as shown in FIGS. 10 and 11.
  • the composite biomarker group of the present invention composed of HE4, CEA, RANTES, TTR, sVCAM-1, ApoA2 is the composite biomarker group that shows the best performance in determining the onset of lung cancer. It was found that it functions as a highly accurate biomarker that yields 0.988 AUC. In short, the use of the composite biomarker group according to the present invention enables very accurate determination of lung cancer.
  • the present invention provides a complex biomarker group for diagnosing lung cancer of a subject, and includes a biomarker group including individual biomarkers CEA, HE4, ApoA2, TTR, soluble vascular cell adhesion molecule-1 (sVCAM-1), and RANTES.
  • a biomarker group including individual biomarkers CEA, HE4, ApoA2, TTR, soluble vascular cell adhesion molecule-1 (sVCAM-1), and RANTES.
  • Complex biomarker group of the present invention is limited to include six individual biomarkers, but as shown in Table 11, including CEA, HE4 and RANTES, further comprising at least one of ApoA2, TTR and sVCAM-1
  • the complex biomarker group could expand the range of complex biomarker groups effective for lung cancer screening.
  • combinations comprising CEA, HE4 and RANTES, further comprising one of ApoA2, TTR and sVCAM-1 have an AUCrank of 5, 6, 7 is superior to other combinations of AUCrank 9, 11, and 12 consisting of four individual biomarkers.
  • combinations of five individual biomarkers including CEA, HE4 and RANTES, but two more of ApoA2, TTR and sVCAM-1, are also superior to other combinations of five individual biomarkers. Can be observed.
  • a combination biomarker group including CEA, HE4 and RANTES, further comprising at least one of ApoA2, TTR and sVCAM-1 may be used for diagnosing lung cancer in a subject according to the purposes of the present invention.
  • the present invention is a lung cancer diagnostic kit using a complex biomarker group for diagnosing lung cancer of a subject, lung cancer comprising antibodies specifically binding to individual biomarkers CEA, HE4, ApoA2, TTR, sVCAM-1 and RANTES Diagnostic kits.
  • a lung cancer diagnostic kit may be used for the purpose of monitoring lung cancer or screening of lung cancer as well as determining whether lung cancer develops.
  • the antibody included in the lung cancer diagnostic kit may include a polyclonal antibody, a monoclonal antibody, and a fragment capable of binding to an epitope.
  • the polyclonal antibody can be produced by a conventional method of injecting any one of the individual biomarkers into the animal and collecting blood from the animal to obtain a serum containing the antibody.
  • polyclonal antibodies can be purified by any method known in the art and can be made from any animal species host such as goat, rabbit, sheep, monkey, horse, pig, cow, dog.
  • Monoclonal antibodies can also be prepared using any technique that provides for the production of antibody molecules through the culture of continuous cell lines.
  • Such techniques include hybridoma technology, human B-cell hybridoma technology, and EBV-hybridoma technology (Kohler G et al., Nature 256: 495-497, 1975; Kozbor D et al., J Immunol Methods 81 : 31-42, 1985; Cote RJ et al., Proc Natl Acad Sci 80: 2026-2030, 1983; and Cole SP et al., Mol Cell Biol 62: 109-120, 1984). no.
  • antibody fragments containing specific binding sites for any of the individual biomarkers can be prepared.
  • F (ab ') 2 fragments can be prepared by digesting antibody molecules with pepsin
  • Fab fragments can be prepared by reducing the disulfide bridges of F (ab') 2 fragments, but are not limited thereto.
  • Fab expression libraries can be constructed to quickly and simply identify monoclonal Fab fragments with the desired specificity (Huse WD et al., Science 254: 1275-1281, 1989).
  • the antibody can be bound to a solid substrate to facilitate subsequent steps such as washing or separation of the complex.
  • Solid substrates include, for example, synthetic resins, nitrocellulose, glass substrates, metal substrates, glass fibers, paramagnetic beads, microspheres and micro beads.
  • the synthetic resins include polyester, polyvinyl chloride, polystyrene, polypropylene, PVDF, nylon and the like.
  • the microspheres are suspended and then transferred to a microtube, followed by centrifugation to remove the supernatant, followed by resuspension.
  • N-hydroxy-sulfosuccinimide and 1-ethyl-3- (3-dimethylaminopropyl) -carbodiimide hydrochloride After removing the supernatant by centrifugation, washed and stored.
  • the sample when a sample obtained from a subject is contacted with an antibody capable of specifically binding to a protein of any of the individual biomarkers of the invention bound to a solid substrate, the sample may be diluted to a suitable degree prior to contact with the antibody. Can be.
  • Kits of the present invention may further comprise a detection antibody that specifically binds to the biomarker.
  • the detection antibody may be a conjugate labeled with a detector such as a chromophore, a fluorescent substance, a radioisotope or a colloid, and preferably a primary antibody capable of specifically binding to the biomarker.
  • the chromase may be peroxidase, alkaline phosphatase or acid phosphatase (eg horseradish peroxidase, in the case of fluorescent material) , Fluorescein carboxylic acid (FCA), fluorescein isothiocyanate (FITC), fluorescein thiourea (FTH), 7-acetoxycoumarin-3-yl, fluorescein-5-yl, fluorescein -6-yl, 2 ', 7'-dichlorofluorescein-5-yl, 2', 7'-dichlorofluorescin-6-yl, dihydrotetramethyllosamine-4-yl, tetramethyllodamine -5-yl, tetramethylrodamine-6-yl, 4,4-difluoro-5,7-dimethyl-4-bora-3a, 4a-diaza-s-indacene-3-ethyl or 4, 4-difluoro-5,7,7
  • the kit of the present invention may further comprise (1) a detection antibody that specifically binds to the biomarker and (2) a ligand that can specifically bind to the detection antibody.
  • the ligand includes a secondary antibody that specifically binds to protein A or an antibody for detection.
  • the ligand may be a conjugate labeled with a detector such as a chromophore, a fluorescent substance, a radioisotope or a colloid.
  • the detection antibody is preferably a biotinylated or digoxigenin-treated primary antibody for the ligand, but the method of treating the detection antibody is not limited thereto.
  • streptavidin As the ligand, streptavidin, avidin, or the like is preferably used to bind the detection antibody, but is not limited thereto.
  • streptavidin streptavidin (streptavidin) having a fluorescent substance attached thereto was used as a ligand, and a detection antibody biotinylated for the ligand was used.
  • the lung cancer diagnostic kit of the present invention can diagnose, monitor and screen lung cancer by treating the antibody and the biomarker complex with a detection antibody and then searching for the amount of the detection antibody.
  • the antibody and the biomarker complex may be sequentially treated with a detection antibody and a ligand, and then lung cancer may be diagnosed, monitored and screened by searching for the amount of the antibody for a detector.
  • the amount of the biomarker can be determined by measuring the antibody for detection by aligning the antibody for detection with the washed antibody-biomarker complex and then washing the antibody. Determination of the amount or detection of the antibody for detection can be made through fluorescence, luminescence, chemiluminescence, absorbance, reflection or transmission.
  • a method for detecting the amount of the antibody or ligand for detection it is preferable to use a high throughput screening (HTS) system, in which a fluorescence method or detection is performed by detecting a fluorescence by attaching a fluorescent material to the detector.
  • Radiation method performed by detecting radiation by attaching a radioisotope into a sieve It is preferable to use a surface plasmon resonance (SPR) method for measuring the plasmon resonance change of the surface in real time without labeling the detector or a surface plasmon resonance imaging (SPRI) method for imaging and confirming the SPR system.
  • SPR surface plasmon resonance
  • SPRI surface plasmon resonance imaging
  • the fluorescence method uses a fluorescence scanner program to label the detection antibody with a fluorescent material and spot the signal by spotting. This method can be applied to confirm the degree of binding.
  • the fluorescent material is Cy3, Cy5, poly L-lysine-fluorescein isothiocyanate (FITC), rhodamine-B-isothiocyanate (RITC) , Rhodamine, PE (Phycoerythrin) is preferably any one selected from the group consisting of, but is not limited thereto.
  • the SPR system can analyze the binding degree of the antibody in real time without labeling the sample with a fluorescent material, but has the disadvantage that simultaneous sample analysis is impossible. In the case of SPRI, it is possible to analyze multiple samples simultaneously using a microalignment method, but it has a disadvantage of low detection intensity.
  • the kit for diagnosing lung cancer of the present invention may further include a washing solution or an eluent which can remove a substrate and unbound protein and the like which will react with the enzyme and retain only the bound biomarker.
  • Samples used for analysis include biological samples capable of identifying disease specific polypeptides that can be distinguished from normal conditions such as serum, urine, and tear saliva. Preferably from a biological liquid sample, for example blood, serum, plasma, more preferably serum. Samples may be prepared to increase detection sensitivity of biomarkers, for example serum samples obtained from patients may be anion exchange chromatography, affinity chromatography, size exclusion chromatography, liquid chromatography, continuous It may be pretreated using a method such as sequential extraction or gel electrophoresis, but is not limited thereto.
  • the lung cancer diagnostic kit of the present invention at least six receiving area; And at least six biomarker corresponding antibodies contained in each of the at least six receiving regions and specifically binding to predetermined individual biomarkers, wherein the at least six biomarker corresponding antibodies are individually Each of the antibodies that specifically binds to the biomarkers CEA, HE4, ApoA2, TTR, sVCAM-1 and RANTES, respectively.
  • the present invention provides a biochip for diagnosing lung cancer in which a biomolecule capable of specifically binding to each individual biomarker included in the complex biomarker group is integrated on a solid substrate.
  • the biochip of the present invention may include an antibody that can specifically bind to the individual biomarker for use in measuring the individual biomarker with a difference in expression in lung cancer patients and normal persons, or two or more kinds of the Combinations of specific antibodies.
  • the biomolecule is selected from the group consisting of low molecular weight compounds, ligands, aptamers, peptides, polypeptides, specific binding proteins, high molecular materials and antibodies, and any material that can specifically bind to the protein, It is preferable to use an antibody or aptamer, but is not limited thereto.
  • the antibody preferably uses a polyclonal antibody or a monoclonal antibody, more preferably a monoclonal antibody.
  • Antibodies that specifically bind to the proteins may be prepared by known methods known to those skilled in the art, and commercially known antibodies may be purchased and used.
  • the antibody can be prepared by injecting a protein that is an immunogen into an external host according to conventional methods known to those skilled in the art. External hosts include mammals such as mice, rats, sheep, rabbits. Immunogens are injected by intramuscular, intraperitoneal or subcutaneous injection and can generally be administered with an adjuvant to increase antigenicity.
  • Antibodies can be isolated by collecting blood periodically from an external host and collecting serum showing shaped titers and specificity for the antigen.
  • the solid substrate of the biochip of the present invention may be selected from the group consisting of plastics, glass, metals and silicon, and preferably may be chemically treated or a linker molecule is bound to the antibody to attach to the surface thereof. It is not limited.
  • the biochip of the present invention can easily and accurately diagnose, monitor and screen lung cancer by taking a whole protein from a sample and reacting with the biochip.
  • the active group coated on the substrate of the biochip serves to bind the material, and may be selected from the group consisting of an amine group, an aldehyde group, a carboxyl group and a thiol group. Any activating group known to an activator capable of binding a protein molecule to a substrate may be used by one skilled in the art, but is not limited thereto.
  • a method of using information of a group of complex biomarkers for diagnosing lung cancer of a subject comprises: (a) a computing system, (1-i) lung cancer patients and lung cancer patients Expression data of individual biomarkers of the complex biomarker group for lung cancer diagnosis measured from a biological sample of a sample population composed of non-people, or (1-ii) Expression data of each biomarker measured from the sample population and the Obtaining the age of the sample population and preprocessing the expression data for each individual biomarker of the sample population, thereby (2-i) from the measurement data of the sample population which is the pre-processed data, or (2-ii) the sample (3-i) the lung measured from a biological sample of the subject, with a lung cancer judgment model derived from the population's measurement data and the age of the sample population Obtaining expression data for each biomarker of the diagnostic complex biomarker group, or (3-ii) obtaining the expression data for each biomarker measured from the subject and the age of
  • the lung cancer determination model may be a logistic regression model as described above.
  • the pretreatment in the step (b) may include a calculation for converting at least a portion of the expression amount data for each individual biomarker (log 10 ).
  • FIG. 11 is a conceptual diagram schematically illustrating a configuration of a computing system 100 using information of a complex biomarker group for lung cancer diagnosis.
  • the communication unit 110 may include (1-i) expression data of individual biomarkers of the complex biomarker group for diagnosing lung cancer measured from a biological sample of a sample population including lung cancer patients and non-lung cancer patients, or (1- ii) obtaining the expression data for each individual biomarker and the age of the sample population measured from the sample population, and preprocessing the expression data for each individual biomarker in the sample population, (2-i) the pretreated From the measurement data of the sample population, which is data, or (2-ii) from a biological sample of the subject, with a lung cancer judgment model derived from the measurement data of the sample population and the age of the sample population.
  • Expression data of individual biomarkers of the complex biomarker group for lung cancer diagnosis measured, or (3-ii) the individual bios measured from the subject Expression level data for each marker and age of the subject are acquired.
  • the processor 120 pre-processes the expression amount data for each individual biomarker of the subject to (4-i) the measurement data of the subject as the pre-processed data, or (4-ii) the measurement data and The age of the subject is used to determine whether the subject develops lung cancer from the lung cancer determination model.
  • the computing system 100 performs a method of using the information of the complex biomarker group for diagnosing lung cancer of a subject as described above.
  • a logistic regression model is used as a method for determining lung cancer, but any statistical model describing binary dependent variables may be used.
  • the part dealing with this statistical model can be implemented in the form of program instructions that can be executed by various computer components.
  • the R statistical package is used herein to handle such statistical models, it is possible to perform the operations required to derive the logistic regression model, such as other statistical software such as SPSS, SAS, Mathematica, or a programming language that can implement such statistical methods.
  • SPSS statistical software
  • SAS SAS
  • Mathematica or a programming language that can implement such statistical methods.
  • the computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the computer-readable recording medium may be those specially designed and constructed for the present invention, or they may be known and available.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs, DVDs, and magneto-optical media such as floptical disks. media), and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include machine code, such as produced by a compiler, as well as high-level language code that can be executed by a computing system using an interpreter or the like.
  • the hardware device may be configured to operate as one or more software modules to perform the process according to the invention, and vice versa.
  • the hardware device may include a processor, such as a CPU or a GPU, coupled with a memory such as a ROM / RAM for storing program instructions and configured to execute instructions stored in the memory, and may exchange signals with an external device. It may include a communication unit.
  • the hardware device may include a keyboard, a mouse, and other external input devices for receiving instructions written by developers.
  • HE4, CEA, Cyfra21-1, RANTES, TTR, sVCAM-1 and ApoA2 are used as essential individual biomarkers, but those skilled in the art may further have other individual biomarkers added thereto. Will understand. If used with these individual biomarkers to improve the performance of the statistical model (logistic regression model) described above, it is widely used in the field of oncology in the field of the present invention in connection with tumor diagnosis, or If a relevance of is found, anything could be included.
  • a protein marker is used as an individual biomarker as an example, but an individual biomarker that can be used in addition to an essential individual biomarker is not limited thereto, and nucleic acid markers (eg, RNA and DNA markers), other organic and inorganic substances.
  • nucleic acid markers eg, RNA and DNA markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Microbiology (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Hospice & Palliative Care (AREA)
  • Cell Biology (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)

Abstract

본 발명에 따르면, 개별 바이오마커 CEA(Carcinoembryonic antigen; 암배 항원), HE4(Human Epididymis Protein 4; 인간 부고환 단백질 4), ApoA2(Apolipoprotein A-II), TTR(Transthyretin; TTR), sVCAM-1(soluble vascular cell adhesion molecule-1) 및 RANTES{regulated on activation, normal T cell expressed and secreted; Chemokine (C-C motif) ligand 5}를 포함하는 폐암 진단용 복합 바이오마커군, 개별 바이오마커 CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES에 특이적으로 결합하는 항체들을 포함하는 폐암 진단용 키트가 제공된다.

Description

피험체의 폐암 진단을 위한 복합 바이오마커군, 이를 이용하는 폐암 진단용 키트, 복합 바이오마커군의 정보를 이용하는 방법 및 이를 수행하는 컴퓨팅 시스템
본 발명은 피험체의 폐암 진단을 위한 복합 바이오마커군, 이를 이용하는 폐암 진단용 키트, 피험체의 폐암 진단을 위한 복합 바이오마커군 정보 이용 방법 및 이를 수행하는 컴퓨팅 시스템에 관한 것으로, 본 발명의 복합 바이오마커군은 폐암 진단을 위한 것이며 개별 바이오마커 CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES를 포함한다.
폐암은 허파에 발생하는 암으로서, 전세계적으로 매년 130만 명 이상이 이로 인하여 사망하며, 암으로 인한 사망 중에서 가장 높은 비율을 차지하고 있다. 폐암의 주 원인으로는 흡연, 라돈 가스, 석면, 유전 등이 있는데, 흡연이 가장 높은 비중을 차지한다고 알려져 있다.
구체적으로 폐암을 분류하여 보면, 폐암은 소세포폐암(small cell lung cancer)과 비소세포폐암(non-small cell lung cancer)으로 나뉜다. 그 중에서 비소세포폐암은 폐암의 약 80%에 해당하는 가장 대표적인 암으로서, 선암(adenocarcinoma), 편평상피세포암(squamous cell carcinoma), 대세포폐암(large cell carcinoma)으로 나뉜다. 폐암의 종류에 따라 조직학적 특성에서 차이가 날 뿐만 아니라 예후와 치료 방법에서도 차이가 보이므로 정확한 진단이 중요하다. 비소세포폐암의 경우, 최근의 암 치료법의 발달에도 불구하고 10년 생존율이 10% 이하로 매우 낮다. 이는 대부분의 비소세포폐암이 상당히 많이 진행된 시기에도 환자가 폐암에 걸렸다고 진단해내는 것이 어려운 데에 그 원인이 있다.
전형적으로, 폐암의 초기에는 전혀 증상이 없고, 어느 정도 진행한 후에도 일반 감기와 비슷한 기침, 객담 정도의 증상에 그쳐, 일반적인 문진으로는 거의 발견할 수 없는 등 진단이 매우 어렵고, 같은 폐암이라도 암의 발생 위치에 따라 증상이 다르게 나타나는 특징이 있다. 폐암의 일반적인 증상으로는, 기침, 피 섞인 가래 혹은 객혈, 호흡 곤란, 흉부의 통증, 쉰 목소리, 상대정맥 증후군, 뼈의 통증과 골절, 두통, 오심, 구토 등이 있으나, 이러한 증상이 심각하게 나타나기 시작한 것을 환자 스스로가 인지할 때쯤이면, 이미 폐암은 많이 진행된 상태라고 보아야 한다.
따라서 현재로서는 폐암의 조기 진단이 환자의 생존 가능성을 높이는 가장 좋은 방법이다.
폐암을 조기 진단하기 위한 가장 좋은 방법은 주기적인 검진이다. 그러한 검진 시에, 환자의 혈액, 소변 등 환자의 신체로부터 유래한 생물학적 시료를 채취하여 이를 통해 폐암의 발병 여부를 판정할 수 있다. 이와 같이 생물학적 시료에 포함된 단백질, 핵산, 대사물질 등을 이용하여 몸 안의 변화를 알아낼 수 있는 지표를 바이오마커(biomarker)라고 한다.
예컨대, 폐암을 조기 진단하기 위한 종래의 바이오마커 기술에는, 대한민국 등록특허 제10-1463588호에 개시되어 있는 바와 같이 A1AT, IGF-1, RANTES 및 TTR를 필수적으로 포함하는 것이 있었다. 해당 기술보다 좋은 분류 능력을 가지고 폐암을 진단해낼 수 있다면, 즉, 바이오마커에 의한 진단에 오진이 더 적다면, 폐암 확진에 드는 시간, 비용 및 효과의 측면에서 유리할 것이다.
본 발명은 폐암을 진단하는 데 이용되는 보다 개량된 복합 바이오마커를 제시하는 것을 목적으로 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 태양에 따르면, 피험체의 폐암 진단을 위한 복합 바이오마커군이 제공되는바, 그 복합 바이오마커군은 개별 바이오마커 CEA(Carcinoembryonic antigen; 암배 항원), HE4(Human Epididymis Protein 4; 인간 부고환 단백질 4), ApoA2(Apolipoprotein A-II), TTR(Transthyretin; TTR), sVCAM-1(soluble vascular cell adhesion molecule-1) 및 RANTES{regulated on activation, normal T cell expressed and secreted; Chemokine (C-C motif) ligand 5}를 포함하는 것을 특징으로 한다.
본 발명의 다른 일 태양에 따르면, 피험체의 폐암 진단을 위하여 복합 바이오마커군을 이용하는 폐암 진단용 키트가 제공되는바, 그 폐암 진단용 키트는 개별 바이오마커 CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES에 특이적으로 결합하는 항체들을 포함하는 것을 특징으로 한다.
본 발명의 또 다른 일 태양에 따르면, 피험체의 폐암 진단을 위한 복합 바이오마커군을 활용하는 폐암 진단용 키트가 제공되는바, 그 폐암 진단용 키트는 적어도 6개의 수용 영역; 및 상기 적어도 6개의 수용 영역 각각에 수용되며, 기 설정된 개별 바이오마커에 특이적으로 결합하는 6가지 이상의 바이오마커 대응 항체를 포함하며, 상기 6가지 이상의 바이오마커 대응 항체는 개별 바이오마커 CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES 각각에 특이적으로 결합하는 항체 각각을 포함하는 것을 특징으로 한다.
본 발명의 다른 일 태양에 따르면, 피험체의 폐암 진단을 위하여 복합 바이오마커군의 정보를 이용하는 방법이 제공되는바, 그 방법은, (a) 컴퓨팅 시스템이, (1-i) 폐암 환자들 및 폐암 환자가 아닌 사람들로 구성된 표본 집단의 생물학적 시료로부터 측정되는 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터, 또는 (1-ii) 상기 표본 집단으로부터 측정되는 상기 개별 바이오마커별 발현량 데이터 및 상기 표본 집단의 나이를 획득하고, 상기 표본 집단의 상기 개별 바이오마커별 발현량 데이터를 전처리하여, (2-i) 상기 전처리된 데이터인 상기 표본 집단의 측정 데이터로부터, 또는 (2-ii) 상기 표본 집단의 측정 데이터 및 상기 표본 집단의 나이로부터 폐암 판정 모형이 도출된 상태에서, (3-i) 상기 피험체의 생물학적 시료로부터 측정되는 상기 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터, 또는 (3-ii) 상기 피험체로부터 측정되는 상기 개별 바이오마커별 발현량 데이터 및 상기 피험체의 나이를 획득하는 단계, 및 (b) 상기 컴퓨팅 시스템이, 상기 피험체의 상기 개별 바이오마커별 발현량 데이터를 전처리하여, (4-i) 상기 전처리된 데이터인 상기 피험체의 측정 데이터, 또는 (4-ii) 상기 측정 데이터 및 상기 피험체의 나이를 이용하여 상기 폐암 판정 모형으로부터 상기 피험체의 폐암 발병 여부를 판정하는 단계를 포함하되, 여기에서 상기 폐암 진단용 복합 바이오마커군은, 개별 바이오마커 CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES를 포함한다.
본 발명의 또 다른 일 태양에 따르면, 피험체의 폐암 진단을 위하여 복합 바이오마커군의 정보를 이용하는 컴퓨팅 시스템이 제공되는바, 그 복합 바이오마커군 정보 이용 컴퓨팅 시스템은, (1-i) 폐암 환자들 및 폐암 환자가 아닌 사람들로 구성된 표본 집단의 생물학적 시료로부터 측정되는 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터, 또는 (1-ii) 상기 표본 집단으로부터 측정되는 상기 개별 바이오마커별 발현량 데이터 및 상기 표본 집단의 나이를 획득하고, 상기 표본 집단의 상기 개별 바이오마커별 발현량 데이터를 전처리하여, (2-i) 상기 전처리된 데이터인 상기 표본 집단의 측정 데이터로부터, 또는 (2-ii) 상기 표본 집단의 측정 데이터 및 상기 표본 집단의 나이로부터 폐암 판정 모형이 도출된 상태에서, (3-i) 상기 피험체의 생물학적 시료로부터 측정되는 상기 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터, 또는 (3-ii) 상기 피험체로부터 측정되는 상기 개별 바이오마커별 발현량 데이터 및 상기 피험체의 나이를 획득하는 통신부, 및 상기 피험체의 상기 개별 바이오마커별 발현량 데이터를 전처리하여, (4-i) 상기 전처리된 데이터인 상기 피험체의 측정 데이터, 또는 (4-ii) 상기 측정 데이터 및 상기 피험체의 나이를 이용하여 상기 폐암 판정 모형으로부터 상기 피험체의 폐암 발병 여부를 판정하는 프로세서를 포함하되, 여기에서 상기 폐암 진단용 복합 바이오마커군은, 개별 바이오마커 CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES를 포함한다.
본 발명에 의하면, 종래의 복합 바이오마커군에 비하여 더 높은 폐암 진단 능력을 가지는 복합 바이오마커를 구성할 수 있는 효과가 있다.
그리고 본 발명에 의하면, 폐암 진단용 키트 및 폐암 진단용 키트를 이용하는 폐암 진단 방법의 효율성을 더욱 높일 수 있는 효과가 있다.
또한, 본 발명에 의하면, 효율적인 진단을 통하여 폐암 환자의 생존율을 높이고, 치료에 대한 환자의 반응을 모니터링하여 그 결과에 따라 치료 방식을 바꾸는 것을 가능하게 하는 효과가 있다.
본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야에서 통상의 지식을 가진 사람(이하 “통상의 기술자”라 함)에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 본 발명에 따른 폐암 진단용 복합 바이오마커군들을 이용하여 폐암 환자와 정상인을 분류(classify)하는 로지스틱 회귀 모형의 성능을 평가하기 위한 도구인 ROC 곡선을 예시하는 도면이다.
도 2는 본 발명에 따른 폐암 진단용 복합 바이오마커군을 구성하는 개별 바이오마커인 HE4가 폐암 환자와 정상인의 샘플에서 나타난 발현량과 피험체의 나이가 가지는 상관관계를 도시한 그래프이다.
도 3은 본 발명의 실험에 이용된 개별 바이오마커의 폐암 환자와 정상인의 샘플에 대한 측정 데이터에서 나머지 바이오마커와 나이의 영향력을 제거한 데이터를 나타낸 일 실시예적 밀도 그래프(density plot)이다.
도 4는 본 발명에 따른 폐암 진단용 복합 바이오마커군과 본 발명의 실험에 이용된 12개 개별 바이오마커를 포함하는 전체 바이오마커군에 대한 평가 지표인 ROC 곡선들을 트레이닝 세트에 대하여 예시적으로 도시한 도면이다.
도 5은 본 발명에 따른 폐암 진단용 복합 바이오마커군과 본 발명의 실험에 이용된 12개 개별 바이오마커를 포함하는 전체 바이오마커군에 대한 평가 지표인 ROC 곡선들을 검증 세트에 대하여 예시적으로 도시한 도면이다.
도 6 내지 도 10은 상기 개별 바이오마커를 포함하는 본 발명에 따른 폐암 진단용 복합 바이오마커군들에 대한 평가 지표인 ROC 곡선을 예시적으로 도시한 도면이다.
도 11는 본 발명에 따른 피험체의 폐암 진단을 위하여 복합 바이오마커군의 정보를 이용하는 컴퓨팅 시스템의 구성을 개략적으로 도시한 개념도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.
본 명세서에서 “생물학적 시료”란 생체로부터 채취한 시료를 의미하며, 바람직하게는 혈액, 혈장, 혈청, 림프액, 뇌척수액 등을 포함하는 조직액과 생체로부터 분비 혹은 배출되거나 채취되는 소변, 대변, 눈물, 타액 등의 물질을 아우른다.
또한, 본 명세서에서 “항체”는 항원성 부위에 대하여 지시(indicate)하는 특이적인 단백질 분자를 의미하며, 다클론(polyclonal) 항체, 단일 클론(monoclonal) 항체, 재조합 항체, 에피토프와 결합할 수 있는 단편 등의 항체를 모두 포함한다. 이 중에서 특히 단일 클론 항체를 이용하는 것이 바람직할 것이다. 이러한 항체는 통상의 기술자가 공지된 기술을 이용하여 제조한 것이라면 모두 이용될 수 있다. 상기 항체는 예컨대 통상의 기술자에게 알려진 종래의 방법에 따라 면역원인 단백질을 외부 숙주에 주사함으로써 제조될 수도 있다.
그리고 본 명세서에서 “정상인”은 폐암이 아닌 다른 질환을 앓는 사람도 이에 포함되는바, 폐암 환자가 아닌 사람을 지칭하도록 의도된 용어이다.
또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐, ‘포함하다’라는 단어 및 그것의 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다.
더욱이 본 발명은 본 명세서에 표시된 실시예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다.
이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 실시 태양에 따른 예시된 기구, 장치, 방법 및 이들의 관련된 결과가 제시된다.
이용된 개별 바이오마커들의 종류. 본 발명에 따른 복합 바이오마커군에 속한 개별 바이오마커는 HE4, CEA, ApoA2, RANTES, TTR 및 sVCAM-1을 포함하나, 본 발명의 복합 바이오마커군은 이에 한정되지 않으며, 종양학적으로 알려져 있는 바이오마커라면 무엇이든 상기 열거된 개별 바이오마커와 함께 폐암의 진단에 이용될 수가 있다. 개별 바이오마커들이 폐암 진단에 유의한지 여부는 개별적으로 판단되어야 할 것이나, 본 명세서에서는 적어도 HE4, CEA, ApoA2, RANTES, TTR, sVCAM-1를 포함하는 복합 바이오마커군에 대하여 개시하기로 한다. 본 발명자에 의해 선택된 개별 바이오마커는 다음과 같다.
HE4(Human Epididymis Protein 4; 인간 부고환 단백질 4)는 WFDC2 유전자에 의하여 부호화된 단백질로서, WAP four-disulfide core domain protein 2라고도 불린다. HE4는 종래에 난소암의 종양 마커로 널리 알려져 있다.
CEA(Carcinoembryonic antigen; 암배 항원)는 세포 부착에 관련되는 당단백질이다. CEA는 통상 태아 단계에 위장관 조직에서 만들어지고, 출생 전에 그 생산이 중단된다. 따라서, 건강한 성인의 혈액에는 매우 낮은 수준으로만 존재할 뿐이다. 그러나 몇몇 유형의 암에서 혈청에서의 CEA 수준이 증가되므로, 임상에서 종양 마커로 이용될 수 있다.
ApoA2(Apolipoprotein A-II)는 인간의 APOA2 유전자에 의하여 부호화된 단백질이다. 이는 고밀도 지질단백질 입자에서 두번째로 풍부한 단백질이다.
RANTES{regulated on activation, normal T cell expressed and secreted; Chemokine (C-C motif) ligand 5}는 인간의 CCL5 유전자에 의하여 부호화된 단백질이다.
TTR(Transthyretin; TTR)은 혈청과 뇌척수액에 존재하는 수송 단백질이며, 갑상선 호르몬인 티록신(thyroxine)과 레티놀에 결합하는 레티놀-결합 단백질을 수송한다. 간이 TTR을 혈액으로 분비하고 맥락막망(맥락총; choroid plexus)이 TTR을 뇌척수액으로 분비한다.
sVCAM-1(soluble vascular cell adhesion molecule-1)은 vcam-1이 용해된 상태의 세포 부착 분자로서, 세포가 손상되었을 때에 일어나는 염증 반응에 대한 중요한 바이오마커로서 기능할 수 있다.
이들 선택된 개별 바이오마커 외에 본 발명의 실험에 관계된 개별 바이오마커들은 다음과 같다.
ApoA1(Apolipoprotein A-I)은 인간의 APOA1 유전자에 의하여 부호화된 단백질이다. 이는 지질 대사에 중요한 기능을 하는 것으로 알려져 있다.
B2M(Beta-2 microglobulin)은 MHC class I 분자의 구성 부분(component)이다. 인간에게 있어 B2M 단백질은 B2M 유전자에 의하여 부호화되어 있다.
CA125(CA-125; cancer antigen 125; carcinoma antigen 125; 혹은 carbohydrate antigen 125)는 mucin 16 또는 MUC16으로도 알려져 있으며, 이는 인간의 MUC16 유전자에 의하여 부호화된 단백질이다. CA125는 특정 유형의 암에 걸린 환자의 혈액 내에서 농도가 높아지므로 종양 마커로 이용될 수 있다는 것이 발견되었다.
CRP(C-reactive protein)는 혈장에서 확인되는 환형의 오량체 단백질이다. 이는 염증에 반응하여 그 농도가 증가하는 것으로 알려져 있다.
LRG1(Leucine-rich alpha-2-glycoprotein 1)은 인간의 LRG1 유전자에 의하여 부호화되는 단백질이다. LRG1은 급성 충수염이 있을 때 그 농도가 증가하는 것으로 알려지기도 하였다.
Cyfra 21-1{cytokeratin 19 fragment antigen 21-1; Keratin, type I cytoskeletal 19; cytokeratin-19(CK-19); 혹은 keratin-19(K19)}은 인간의 KRT19 유전자에 의하여 부호화된 40kDa의 단백질이다. Cyfra 21-1은 타입 I 케라틴(type I keratin)이며, 유방암 환자의 림프절, 말초혈액, 골수에서 분비되는 종양 세포의 검출에 이용되는 바이오마커로 알려져 있다.
개별 바이오마커들을 분석하기 위하여 이용된 항체 혹은 키트들. 본 발명자들은 HE4, RANTES, sVCAM-1, LRG1, CEA, Cyfra21-1, ApoA2, ApoA1, TTR, B2M, CA125, CA19-9, CRP 등 13가지 단백질을 분석하기 위하여 여러 제조사로부터 항체 또는 키트를 구입하였다. 항체, 키트, 표준 물질(표준 단백질) 등의 구입처 정보는 아래의 표 1 내지 표 2와 같다.
바이오마커 표준물질 제조사 대응 항체 제조사1 대응 항체 제조사2
HE4 XEMA XEMA XEMA
RANTES PeproTech R&D Systems R&D Systems
sVCAM-1 R&D Systems R&D Systems R&D Systems
LRG1 R&D Systems R&D Systems R&D Systems
바이오마커 주시약 보정물질 제조사
CEA Elecsys CEA CEA CalSet Roche
Cyfra21-1 Elecsys CYFRA 21-1 CYFRA 21-1 CalSet Roche
ApoA2 Apo A-2 Auto·N "Daiichi" Apo auto N Daiichi Sekisui
ApoA1 Apo A-1 Auto·N "Daiichi" Apo auto N Daiichi Siemens
TTR N Antiserum to human PreAlbumin N Protein standard SL Siemens
B2M Tina-quant β2-microglobulin β2-Microglobulin Calibrator Roche
CA125 Elecsys CA 125 II CA 125 II CalSet Roche
CA19-9 Elecsys CA 19-9 CA 19-9 CalSet Roche
CRP CardioPhase hsCRP N Rheumatology standard SL Siemens
표준 단백질의 경우, HE4의 표준 단백질은 XEMA사에서, RANTES의 표준 단백질은 PeproTech사에서, sVCAM-1과 LRG-1의 표준 단백질은 R&D Systems사에서 구입하여 이용하였고, 주시약 및 보정물질(calibrator)의 경우, CEA, Cyfra21-1, B2M, CA125 및 CA19-9 단백질에 대한 것은 Roche사에서, ApoA1 및 ApoA2 단백질에 대한 것은 Sekisui사에서, TTR 및 CRP 단백질에 대한 것은 Siemens사에서 구입하여 이용하였다.
폐암 환자의 혈청 시료 수득. 아산병원과 계명대 동산 의료원으로부터 폐암 1기 162명, 폐암 2기 42명, 폐암 3기 62명 및 폐암 4기 89명의 전체 355명(아산병원으로부터 242명, 계명대 동산 의료원으로부터 113명)의 폐암 환자로부터 말초 혈액을 수득하였다. 이들의 병력에 따른 세부 유형은 선암이 230명, 편평상피세포암이 109명, 대세포폐암이 4명, 신경내분비암이 2명, 기타 10명이었다. 연령과 성별에 따른 구분은 남성 139명, 여성 216명, 연령에 따른 구분은 평균 63.85세, 중앙값 66세, 범위는 최소 25세 ~ 최대 83세였다.
여기에서 상기 폐암 환자는 잘 알려진 방법을 이용하여 확진되었는바, 이러한 방법에는 흉부 단순 방사선 촬영(X-ray), 흉부 컴퓨터 단층 촬영(CT), 초음파 검사, 자기공명영상(MRI), 양전자 단층 촬영(PET), 폐기능 검사, 폐 관류 스캔, 폐조직 검사{CT guided 경피적 폐생검(PCNA)}, 암성 흉수와 흉막 조직 검사, 및 분자 생물학적 검사로서, EGFR 돌연변이(EGFR mutations), 유전자 카피 넘버(gene copy number), 발현 수준(level of expression), K-ras 돌연변이(K-ras mutation), EML4-ALK 융합 종양유전자(EML4-ALK fusion oncogene)에 관한 검사가 포함되나 이에 한정되지 않음은 통상의 기술자가 잘 알 것이다.
대조군의 혈청 수득. 서울대병원 가정의학과로부터 폐암 환자가 아닌 사람, 즉 정상인 피험체 590명의 말초 혈액을 수득하였다. 이들의 성별에 따른 구분은 남성 274명, 여성 343명, 연령에 따른 구분은 평균 56.87세, 중앙값 56세, 범위는 최소 38세 ~ 최대 79세였다.
폐암 환자와 대조군 모두 Vacutainer SST II tube(Becton Dickinson) 등 잘 알려진 도구를 이용하여 채혈한 후 원심분리하여 혈청을 분리하였다.
측정 및 결과 데이터의 구축. 이와 같이 수득한 혈청 시료를 가지고 개별 바이오마커 단백질의 발현량을 측정하여 그 결과 데이터를 구축하였는바, 이에 이용된 정량 방법은 다음과 같다.
HE4 및 LRG-1 단백질 정량
우선, HE4 및 LRG-1 단백질은 ELISA(Enzyme-Linked ImmunoSorbent Assay; 효소 결합 면역 흡착 분석) 방법으로 측정하였다. 통상의 기술자에게 잘 알려진 바와 같이 ELISA 방법은 항체가 항원에 효소를 표지해 효소의 활성을 측정하여 항원-항체 반응의 강도와 그 양을 정량적으로 측정하는 방법이다. 여기에서 검출 항체(detection antibody)는 바이오틴을 표지한 후에 이용하였다. ELISA 방법 시행의 구체적인 단계는 다음과 같았다.
검출 항체의 바이오틴 표지. HE4 및 LRG-1의 ELISA 정량에 이용된 검출 항체(detection antibody)를 바이오틴화(biotinylation)시키기 위하여 EZ-Link Sulfo-NHS-LC-Biotin(sulfosuccinimidyl-6-[biotin-amido]hexanoate; ThermoFisher Scientific, Waltham, MA) 시약을 이용하였으며, 제조사가 권장하는 방법에 따라 진행하였다. 이를 간략하게 설명하면, 항-인간-HE4 항체(anti-human HE4 antibody; XEMA Co. Ltd., Moscow, Russia) 또는 항-인간-LRG1 항체(anti-human LRG-1 antibody; R&D systems, Minneapolis, MN) 400㎍을 PBS 용액 400㎕에 준비하고, 항체에 비하여 몰(mole) 비율이 20배 많게 10mM Sulfo-NHS-LC-Biotin 용액을 넣어 준 후에 상온에서 30분간 반응시켰다. 바이오틴 표지가 완료되면 PBS 용액 1L씩으로 3회 투석(dialysis)한 후에 분주하여 이용할 때까지 -80℃에 보관하였다.
HE4 및 LRG -1 ELISA. HE4 및 LRG-1은 ELISA 방법으로 정량하였으며, 간략히 설명하자면 96-웰 마이크로플레이트(Nalgene Nunc Inc., Rochester NY)에 인간 HE4에 대한 포획 항체(capture antibody; XEMA Co. Ltd., Moscow, Russia)를 1㎍/㎖ 농도로 100㎕ 넣은 후에 4℃에서 밤새 도포하였다. 세척 용액(0.05% Tween 20을 함유한 PBS)으로 3회 세척 후에 5% 탈지유(skim milk)가 포함된 PBS 용액을 웰에 넣고 실온에서 2시간 동안 교반하여 비특이적 결합을 차단하였다. 세척 용액으로 3회 세척 후에 혈청 또는 표준 보정 물질(standard calibrator)을 100㎕ 씩 각 웰에 첨가하고 실온에서 1시간 동안 반응시킨 후에 3회 세척하였다. 상기에서 준비한 바이오틴 표지된 검출 항체를 1㎍/㎖ 농도로 처리하고 실온에서 다시 1시간 동안 반응시켰다. 3회 세척 후에 0.5㎍/㎖ streptavidin-horseradish-peroxidase (Sigma-Aldrich, St. Louis, MO)를 첨가하여 실온에서 30분 동안 반응시키고 5회 세척하였다. 발색 반응을 유도하기 위하여 TMB(tetramethylbenzidine; KPL, Gaithersburg, MD) 100㎕씩 첨가하였고, 15분 후 2N 황산 50㎕로 반응을 정지시키고 마이크로플레이트 리더(Emax; Molecular Devices LLC., Sunnyvale, CA)를 이용하여 450nm에서 흡광도를 측정하였다. 결과는 SoftMax Pro 소프트웨어(Molecular Device)를 이용하여 5개 모수(5-parametric) 커브 피팅으로 분석하였다. 보정용 HE4 표준 단백질은 XEMA사에서 LRG-1 표준 단백질은 R&D사로부터 구입하였다.
RANTES, sVCAM-1 단백질 정량
다음으로, RANTES와 sVCAM-1의 폐암 환자와 정상인의 혈청 내 농도는 xMAP 기술 플랫폼(Luminex Corp. Austin, TX)을 이용한 다중 면역분석법(multiplex immunoassay)으로 측정하였다. 다중 면역분석법은 ELISA 웨스턴 블로팅(western blotting), PCR(polymerase chain reaction; 중합효소 연쇄 반응법) 등과 같은 종래의 분석법에 비하여 시간과 비용이 절감되는 것으로 통상의 기술자에게 알려져 있는 분석법이다. 여기에서 포획 항체는 MagPlex 미세구체(microspheres)에 카보다이이마이드(carbodiimide) 방법으로 결합시켜 이용하였으며 전체 과정에서 미세구체가 빛에 노출되는 것은 최소화하였다.
항체-미세구체 결합. 위 정량 과정은 제조자가 권장하는 프로토콜에 따라 수행하였는바, 먼저 MagPlex(Luminex Corp.)의 미세구체 현탁액을 볼텍스(Vortex; vortexing)한 후에 음파 용기(sonification bath; Sonicor Instrument Corporation, USA)에서 20초 동안 현탁하였다. 1 × 106개의 미세구체를 마이크로튜브(microtube)에 옮겨 자석을 이용하여 분리하고 용액을 제거한 후에, 증류수 100㎕로 세척하고 다시 0.1M 인산나트륨 완충용액(sodium phosphate buffer; pH 6.2) 80㎕에 재현탁(re-suspension)하였다. 이후, 50 mg/ml의 N-하이드록시-설포숙시니마이드(N-hydroxy-sulfosuccinimide, Sulfo-NHS; ThermoFisher Scientific, Waltham, MA) 및 1-에틸-3-(3-디메틸아미노프로필)-카르보디이미드 하이드로클로라이드{1-ethyl-3-(3-dimethylaminopropyl)-carbodiimide hydrochloride; ThermoFisher Scientific}를 각각 10㎕ 씩 차례로 넣은 후 실온에서 20분 동안 10분 간격으로 섞어 주었고, 50mM MES, pH 5.0 용액 250㎕으로 2회 세척한 후에 미세구체를 동일 용액 100㎕로 재현탁하였다. 카복실기 활성화된 미세구체에 10㎍의 항체(항-sVCAM-1 혹은 항-RANTES)를 넣고 50mM MES 용액을 첨가하여 최종 500㎕가 되도록 한 후에 실온에서 2 시간 동안 섞어 주었다. 항체 결합 반응이 끝난 미세구체는 500㎕ PBS-TBN{PBS, 1% BSA, 0.02% Tween 20, 0.05% 소듐 아자이드(sodium azide)}으로 2회 세척하였고, 혈구 계산기(hemocytometer)로 개수를 측정하였다. 이렇게 만들어진 항체 결합 미세구체는 1 × 106개/500㎕의 PBS-TBN 농도로 2 ~ 8℃의 암실에서 보관하였다.
sVCAM -1, RANTES 다중 면역 검사. 이제 상기 항체 결합 미세구체를 이용하여 sVCAM 단백질 및 RANTES 단백질 내의 혈청 내 농도를 다중 검사법으로 동시에 정량하였다. 구체적으로, 96-웰 마이크로플레이트의 각 웰에 RANTES 표준 단백질(R&D Systems)과 sVCAM-1 표준 단백질(PeproTech, Rocky Hill, NJ) 또는 혈청 20㎕와 두 바이오마커 단백질인 RANTES와 sVCAM-1에 대한 포획 항체가 결합된 미세구체 혼합액 20㎕를 섞어준 후에 실온에서 한 시간 동안 반응시켰다. 이후, 바이오틴이 표지된 검출 항체(biotinylated detection antibody) 20㎕를 넣고 1 시간, 그리고 스트렙타비딘-파이코에리쓰린(Streptavidin R-Phycoerythrin, Jackson ImmunoResearch) 20㎕를 넣고 30분을 순차적으로 반응시켰다. 반응이 끝난 플레이트를 PBST(0.05% Tween 20, PBS) 용액으로 마이크로플레이트 세척제{microplate washer(HydroFlex™; TECAN, Switzerland)}를 이용하여 2회 씻어준 다음 미세구체를 동일 완충용액 100㎕로 재현탁하여 LuminexTM200으로 형광 세기를 측정하였다. 혈청 샘플의 sVCAM-1과 RANTES 단백질 농도는 업스테이트사(Upstate, USA)의 비드뷰 소프트웨어(Beadview Software)를 이용하여 5개 모수 커브 피팅으로 분석하였다.
CEA , Cyfra 21-1, CA125, CA19-9, ApoA1 , ApoA2 , B2M , TTR CRP 단백질 정
CEA, Cyfra21-1, CA125 및 CA19-9 단백질은 Cobas e601(Hoffmann-La Roche AG., Switzerland) 장비에서 전기화학발광면역측정법으로, ApoA1, ApoA2 및 B2M 단백질은 Clinical Analyzer 7080(Hitachi Medical Corp., Japan) 장비에서 면역비탁법으로, TTR 및 CRP 단백질은 BN2 System(Siemens AG., Germany) 장비에서 면역비탁법으로 제조자의 설명서에 따라 측정하였다.
바이오마커의 유효성에 관한 통계적 입증
위와 같은 측정을 통하여 획득한 단백질 정량 수치인 실험값은 전처리를 거쳐 하기에서 상세하게 설명되는 통계 분석에 이용될 측정 데이터가 된다. 여기에서 전처리라고 함은, 10을 밑수로 한 로그(log10) 변환을 취하는 것일 수 있다. 본 실시예에서는, 실험값의 분포가 우로 치우쳐 있는 경향이 있기 때문에, 그러한 경향을 완화해주기 위하여 모든 개별 바이오마커의 실험값에 대하여 로그 변환을 취해 주었다. 이하 본 명세서에서 설명하는 일 실시예에서는 달리 언급되지 않는 한 이와 같이 변환된 측정 데이터가 이용될 것이다.
구축된 측정 데이터는 바이오인포매틱스(bioinformatics) 및 통계적 분석방법인 R 통계 패키지(R Development Core Team (2007). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.)를 이용하여 분석하였다. 하기의 분석을 통하여, 입력된 데이터로부터 폐암 판정 모형이 생성되었다.
폐암 판정 모형의 일 예시 - 이진 로지스틱 회귀 분석. 일반적인 선형 회귀 분석은 종속변수가 연속형인 경우인 반면에, 로지스틱 회귀 분석은 실패/성공, 정품/불량, 폐암이다/아니다 등과 같이 종속변수가 2개인 경우{즉, 이진(binary)인 경우)에 이용되는 회귀 분석 방법이다. 로지스틱 회귀 분석의 모형은 다음과 같다.
Figure PCTKR2017009616-appb-I000001
Pi=P(yi=1) 는 0과 1 사이의 값, yi는 0 또는 1 값을 가지게 되는 바, 본 명세서에서 0은 폐암이 아닌 것을, 1은 폐암인 것을 나타내는 값으로 설정되었다. 또한 xk 각각은 폐암 진단에 도입된 개별 바이오마커의 실험값(log 값)을 의미한다. R 통계 패키지에서는 예컨대 다음과 같은 명령어로 로지스틱 회귀를 수행할 수 있으며 그 결과로 모형 객체가 회귀 모형으로서 도출된다.
m <- glm(b ~ x1 + x2 + x3 + x4 + x5 + x6, family=binomial)
이 모형 객체 m을 가지고 개별 피험체의 폐암 판정을 수행할 수 있으므로 이 회귀 모형을 폐암 판정 모형이라고 할 수 있다. 여기에서 b는 수준이 두 개인 요인이며(본 명세서에서는 TRUE = 폐암, FALSE = 정상), x1, x2, x3, x4, x5, x6은 예측 변수들이다. 예를 들어, x1, x2, x3, x4, x5, x6은 각각 CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES의 발현량의 데이터에 대응되는 측정 데이터인 것으로 의도된 것일 수 있다. 이 경우에 개별 피험체로부터 측정된 측정 데이터로부터 그 개별 피험체가 폐암 환자인지 아닌지를 예측할 수 있는바, 예를 들어 이 예측을 행하는 R 통계 패키지의 명령어는 다음과 같을 수 있다.
dfrm <- data.frame(x1=value, x2=value, x3=value, x4=value, x5=value, x6=value)
predict(m, type=”response”, newdata=dfrm)
본 발명자들은 하기에서 설명하는 다양한 복합 바이오마커군들에 대하여 위에서 언급된 로지스틱 회귀를 실행하여 로지스틱 회귀 모형을 획득하였다. 구체적으로 로지스틱 회귀 모형의 타당성을 검증하기 위하여 본 발명자는 10배수 교차 검증법(10 fold cross validation)을 이용하였다. 10배수 교차 검증법에서는, 먼저 데이터를 무작위적(random)으로 10개의 조각(segment)으로 분할한다. 1개의 조각을 남기고 9개의 조각을 가지고 트레이닝, 즉 이 실시예에서는 로지스틱 회귀 모형을 생성한 후, 나머지 1개의 조각을 이용하여 전술한 예측을 시행, 즉 검증을 행한다. 위의 과정을 모든 조각에 대하여 반복 실행한다. 이러한 예측의 결과를 통합하여 그 예측의 성능을 확인할 수 있는데, ROC 곡선이 이를 위한 한 가지 도구이다.
폐암 판정 모형의 성능의 척도 - ROC 곡선. 전술한 폐암 판정 모형은 일종의 분류기(classifier) 역할을 하므로, 분류기의 성능을 나타내는 ROC 곡선(Receiver Operating Characteristic Curve; 수용자 반응 특성 곡선)을 통하여 그 성능을 확인할 수 있다.
도 1은 로지스틱 회귀 모형의 성능을 평가하기 위한 도구인 ROC 곡선을 예시하는 도면이다. 도 1을 참조하면, 우선, ROC 곡선 그래프의 가로축에 나타난 수치는 1 - 특이도(specificity) = 위양성률(false positive rate)로서, 특이도는 특이도(specificity) = 진음성(true negative) / (위양성(false positive) + 진음성(true negative))으로 정의되는 값이다. 즉, 특이도는 ‘틀린 것(음성)’을 틀렸다고 판단하는 비율을 뜻하므로, 그래프에서는 좌측으로 기울수록 ‘옳은 것(양성)’을 틀렸다고 판단할 오판의 비율이 줄어든다고 볼 수 있다. 또한 ROC 곡선 그래프의 세로축에 나타난 수치는 민감도(sensitivity) = 진양성률(true positive rate)로서, 민감도는 민감도(sensitivity) = 진양성(true positive) / (진양성(true positive) + 위음성(false negative))로 정의되는 값이다. 즉, 민감도는 ‘옳은 것’을 옳다고 판단할 비율을 뜻하므로, 그래프에서는 위로 기울수록 ‘틀린 것’을 옳다고 오판할 비율이 줄어든다고 볼 수 있다. 따라서 분류기가 올바르게 판단할수록 그래프 곡선의 아래의 면적(AUC; area under curve)은 증가하게 된다. 분류기가 올바르게 판단하는 분류 성능을 하나도 가지고 있지 않을 때에는 AUC는 0.5가 된다. 보통, AUC 수치에 따라 비정보적(AUC = 0.5), 덜 정확한(0.5 < AUC ≤ 0.7), 중등도의 정확한(0.7 < AUC ≤ 0.9), 매우 정확한(0.9 < AUC < 1), 그리고 완벽한 검사(AUC = 1)로 분류할 수 있다.
폐암 판정 모형의 성능의 검증 ( ROC - AUC). 본 발명의 폐암 판정 모형이 분류 성능을 전혀 가지고 있지 않음을 의미하는 AUC = 0.5를 귀무가설, 로지스틱 회귀 모형이 분류 성능을 가지고 있음을 대립가설로 두고, 가설 검증을 시행할 수 있다. 오류가 나올 확률을 p-value(유의 확률)라고 지칭하면, 소정의 확률보다 p-value가 낮을 때, 귀무가설을 기각하고 대립가설을 채택하는바, 그 소정의 확률을 유의 수준이라고 하며, 통계학에서는 보통 0.05의 값을 유의 수준으로 취한다. 폐암 판정 모형은 이와 같은 ROC의 AUC를 고려하는 방식으로 그 성능이 검증될 수 있다. 다음으로, 본 발명의 폐암 판정 모형을 생성할 때 고려된 사항을 설명하기로 한다. 다음으로, 본 발명의 폐암 판정 모형을 생성할 때 고려된 사항을 설명하기로 한다.
HE4 바이오마커와 피험체의 나이와의 상관관계가 고려되었음. (달리 언급이 없으면 모든 HE4는 보정된 HE4임) 도 2는 피험체의 HE4 발현량과 피험체의 나이와의 상관관계를 도시한 그래프이다. 도 2를 참조하면, HE4 발현량과 피험체의 나이 간에는 양의 상관관계가 있음을 알 수 있다. 이 예시적 그래프에서 상관계수(피어슨 계수)의 값은 0.490이며, p-value < 2.2e-16이다. 이 도면에서는 바이오마커인 HE4 발현량과 나이 간의 상관관계가 다루어졌다. 이에 따라 HE4 바이오마커의 유효성을 객관적으로 평가하기 위하여, HE4 바이오마커의 발현량에서 나이의 영향력이 제거된 값인 “보정된” 발현량을 도출할 수 있다. HE4의 경우, 회귀분석을 통하여
Figure PCTKR2017009616-appb-I000002
라는 관계식에서 β0와 β1의 추정값을 도출한다. 이와 같이 추정된 값을 각각
Figure PCTKR2017009616-appb-I000003
Figure PCTKR2017009616-appb-I000004
라고 정의한다면, HE4에 대한 잔차값은
Figure PCTKR2017009616-appb-I000005
로 정의가 될 수 있다.
본 발명의 복합 바이오마커군에 속한 개별 바이오마커의 선택 과정
우선, 본 발명자들은 인체 내에 존재하는 수 만개 이상의 단백질들 중에서 우선 120개의 단백질 표지자(protein markers) 후보군을 선정하였으며, 국내외 학술논문 및 문헌의 고찰과 이차원 전기영동(2D Gel), SELDI-TOF MS 분석법 등을 통하여 임상적 의의, 분석의 편이성, 알고리즘의 정확도, 비용 및 임상 여건 등의 제반 사정을 고려하여 상기 120개의 단백질 표지자로부터 50여개의 표지자를 추려내었으며, 2 차례에 걸쳐 폐암 환자 600여 명, 정상 피험체 900여 명을 대상으로 결과 수치들의 통계 분석을 통하여 유효성을 검증하여 본 발명의 복합 바이오마커군에 포함시키는 데 적합할 것으로 예상되는 최종 후보군을 13개 선정하였다. 보다 구체적으로, Breast Cancer Research 2009, 11, R22 와 같은 논문 또는 Journal of Thoracic, Cardiac & Vascular Surgery 2012:143;421-7 과 같은 논문에 기재된 바와 같은 과정을 통해, 120개 단백질 표지자로부터 50여개의 표지자를 추려내고 이로부터 13개 표지자를 선정하는 경우를 상정할 수 있을 것이나, 반드시 이에 한정되는 것은 아닐 것이다.
본 발명자들은 최종 후보군으로 선정된 전체 13개의 개별 바이오마커들과 2개의 인구통계학적 변수들 중에서 본 발명의 통계 모형에 포함시키는 것이 바람직한 가장 우수한 부분집합을 전술한 실험 데이터(트레이닝을 위한 실험 데이터)를 이용하여 찾아내는 데 성공하였다. 본 발명자들이 진행한 이 연구에서 13개의 개별 바이오마커들과 2개의 인구통계학적 변수 중에서 6개의 개별 바이오마커와 나이(age)가 신중하게 선택되었다. 구체적으로는 트레이닝 데이터(training data) 515개의 정상 샘플과 280개의 암 샘플을 이용하여 복합 바이오마커군이 선정되었다. 계명대 동산의료원로부터의 113개 비소세포폐암 샘플, 아산병원으로부터의 167개 비소세포폐암 샘플, 서울대병원 가정의학과로부터의 515개 샘플로 트레이닝 데이터가 이루어져있다. 복합 바이오마커군 선정 검증을 위해서는 검증 데이터(validation data)가 사용되었다. 검증 데이터는 아산병원 비소세포폐암 샘플 75명, 서울대병원 가정의학과 정상 샘플 75명으로 이루어져있다. HE4, CEA, ApoA2, TTR, sVCAM-1, RANTES는 포함되었으며, ApoA1, B2M, CA125, CA19-9, CRP, Cyfra21-1, LRG1은 제거되었다. 이에 대한 설명은 후술한다.
설명의 편의를 위하여, 본 발명에 따른 복합 바이오마커군을 구성하는 이 조합을 “BI 조합”이라고 지칭하고, 전술한 13개의 개별 바이오마커들과 2개의 인구통계학적 변수에서 CA19-9 및 성별을 제외한 나머지 12개 개별 바이오마커 전부와 나이를 포함하는 조합을 “전체 조합”이라고 지칭하기로 한다.
이와 같은 “BI 조합”이 선택된 이유는 다음과 같다. 우선, 카이 제곱 검정(chi square test) 및 스튜던트의 t 검정(Student's t-test)이 상기 13개 개별 바이오마커 및 2개의 인구통계학적 변수들의 유의성을 평가하는 데에 이용되었다.
개별 바이오마커 CA19-9 및 성별의 제거. 이 단계에서는 개별 바이오마커 CA19-9와 성별은 제거되었다. 유의수준 0.05 하에서는 성별과 폐암 환자인지 아닌지의 여부 사이의 관련성은 유의하지 않았다(p-value: 0.314). 또한, CA19-9 대조군의 평균과 실험군의 평균 사이의 차이는 유의하지 않았다(p-value: 0.2829). 참고로, 아래 표 3에는 성별과 폐암 환자인지 아닌지의 여부가 서로 독립이라는 명제를 귀무가설로 두는 카이 제곱 검정의 결과값이 표시되어 있으며, 표 4에는 대조군 평균값과 실험군 평균값 사이 차이의 참값은 0이라는 명제를 귀무가설로 두는 스튜던트 t 검정의 결과값이 표시되어 있다.
X-squared df p-value
sex 1.013 1 0.314
t df p-value
HE4 -14.506 346.247 < 2.2e-16
Cyfra21-1 -10.595 397.976 < 2.2e-16
CEA -11.531 374.846 < 2.2e-16
ApoA2 18.050 358.791 < 2.2e-16
RANTES 17.981 404.302 < 2.2e-16
TTR 16.04, 373.111 < 2.2e-16
ApoA1 11.649 425.734 < 2.2e-16
LRG1 -11.418 377.333 < 2.2e-16
CRP -11.381 461.46 < 2.2e-16
B2M -10.160 388.398 < 2.2e-16
CA125 -7.983 353.087 2.022e-14
sVCAM-1 2.348 494.999 0.01928
CA19-9 -1.075 401.249 0.2829
age -10.206 513.367 < 2.2e-16
상기 전체 조합에 속한 모든 개별 바이오마커들 각각(이하 “A”로 지칭함)으로부터 다른 개별 바이오마커에 의해 설명될 수 있는 효과를 제외하면, 즉, 선형 회귀를 이용할 때 상기 다른 개별 바이오마커의 실험 데이터의 선형 결합에 의하여 예측되는 상기 바이오마커 A의 잔차값을 고려하면, 폐암 환자 실험군과 대조군을 서로 구별하는 유의미한 효과가 상기 바이오마커 A에 있는지 여부를 확인할 수 있다.
더 구체적으로 설명하자면, 전체 조합을 이루는 개별 바이오마커를 Bi로 지칭할 때, 상기 바이오마커 A의 값은 선형 회귀 분석에 의하여
Figure PCTKR2017009616-appb-I000006
인 것으로 도출될 수 있다. 여기에서 상기 바이오마커 A가 다른 개별 바이오마커 Bi 및 나이에 의하여 설명되는 부분을 상기 바이오마커 A의 값으로부터 제외한 값을 의미하는 잔차값(
Figure PCTKR2017009616-appb-I000007
)은,
Figure PCTKR2017009616-appb-I000008
이다. 비슷한 방법으로, 나이(age)가, 나머지 개별 바이오마커에 의하여 설명되는 부분을 제외한 값을 의미하는 잔차값(
Figure PCTKR2017009616-appb-I000009
)은,
Figure PCTKR2017009616-appb-I000010
이다.
본 발명자들은 이 잔차값들로부터 개별 바이오마커의 유의성을 검증하고자 상기 잔차값에 대한 스튜던트 t 검정을 실시하였는바, 여기에서의 귀무가설은 상기 잔차값의 대조군에서의 평균값(“대조군 평균”)과 실험군에서의 평균값(“실험군 평균”) 사이에 차이가 없다는 것이었으며, 그 결과는 다음 표 5와 같다.
t Df p-value
residual of ApoA2 2.212 339.715 0.02763
residual of CEA -2.3571 382.544 0.01892
residual of TTR 3.8573 433.241 0.000132
residual of age -2.4912 476.473 0.01307
residual of Scam.1 5.5713 569.164 3.905e-08
residual of RANTES 7.2481 404.082 2.164e-12
residual of HE4 -3.4939 377.336 0.0005324
residual of ApoA1 1.1119 415.886 0.2668
residual of B2M -1.1363 450.711 0.2564
residual of CA125 -0.029 396.394 0.9769
residual of CRP -1.6235 553.462 0.105
residual ofCYFRA21-1 -0.7355 421.892 0.4624
residual of LRG1 1.5905 479.893 0.1124
이 표 5를 참조하면, BI 조합에 속한 개별 바이오마커들인 HE4, CEA, ApoA2, TTR, sVCAM-1, RANTES에 대하여는 모두 유의수준 0.05 미만의 p-value가 얻어져 상기 잔차값의 대조군 평균값과 실험군 평균값의 차이가 있다는 그 개별 바이오마커들의 유의성을 확인할 수 있었으나, 이에 비하여 전체 조합 중에서 BI 조합에 속하지 않은 개별 바이오마커들인 ApoA1, B2M, CA125, CA19-9, CRP, Cyfra21-1, LRG1은 유의수준 0.05 하에서는 모두 유의하지 않았다. 요컨대, 상기 BI 조합에 속한 개별 바이오마커들 외에 제거된 개별 바이오마커들은 폐암 환자와 대조군에 대한 분류기로서의 성능이 유의하지 않다(즉, 좋지 못하다).
표 5의 결과를 도 3에서 시각적으로 확인할 수 있다. 도 3은 개별 바이오마커의 상기(위의) 잔차값을 표시한 밀도 그래프(density plot)이다. 2개의 밀도 그래프 중에서 빨간색이 폐암 환자군에 대한 그래프이며, 검정색이 대조군(정상인)에 대한 그래프이다. 2개의 수직선 중에서 빨간색으로 표시된 것이 폐암 환자군의 평균이며, 회색으로 표시된 것이 대조군의 평균이다. 폐암 환자군의 평균과 대조군의 평균 간의 차이, 즉 평균차는 본 발명의 복합 바이오마커군에 속한 개별 바이오마커들이 상대적으로 크다는 점을 알 수 있다. 도 3에서 본 발명의 복합 바이오마커군에 속한 개별 바이오마커가 그렇지 않은 개별 바이오마커에 비하여 폐암 판정에 상대적으로 더 좋은 마커임을 시각적으로도 알 수 있다. 즉, 본 발명자에 의하여 진행된 실험 및 분석에서 상기 전체 조합을 이용하는 것보다 상기 BI 조합을 이용하는 것이 더 유리한 것으로 판명되었다. 트레이닝 세트의 ROC 곡선은 도 4에 도시된 바와 같으며, 그 ROC 곡선의 AUC는 아래 표 6에 표시된 바와 같이 전체 조합(AUC=0.9868239)을 이용했을 때와 BI 조합(AUC=0.9864008)을 이용했을 때가 비슷하였는바, BI 조합이 전체 조합의 12개 개별 바이오마커에서 무려 6개의 개별 바이오마커를 제외한 것임에도 불구하고 BI 조합의 분류 성능을 나타내는 AUC는 전체 조합과 거의 같게 유지되었으므로 동일한 효과를 더 경제적으로 얻을 수 있는 효과를 확인할 수 있었다.
AUC p-value
Full markers 0.9868239 2.350115e-114
BI markers 0.9864008 3.679639e-114
그뿐만 아니라, 검증 세트로 예측을 시행하여 보면, 표 7에 표시된 바와 같이 전체 조합(AUC=0.9818667)에 비하여 BI 조합(AUC=0.9884444)의 성능이 오히려 더 좋은 것을 알 수 있었으므로, 전체적으로 BI 조합이 전체 조합에 비하여 유리하다고 판단된다. 상기 검증 세트에 대한 ROC 곡선은 도 5에 도시된 바와 같다.
AUC p-value
Full markers 0.9818667 1.143172e-24
BI markers 0.9884444 2.709566e-25
위의 선정된 복합 바이오마커군을 사용하여, 트레이닝 데이터와 검증 데이터를 합쳐, 10배수 교차 검증법을 사용하여 분류기 성능을 살펴보았다.
이와 같이 본 발명자들에 의해 제시된 방법론에 의하여 도출된 일 예시적 모형인 예시적 복합 바이오마커군을 이용한 분류기의 성능은 아래의 표 8에 개략적으로 나타나 있다. 이 예시적 복합 바이오마커군은 HE4, CEA, ApoA2, RANTES, TTR, sVCAM-1 및 피험체의 나이를 모두 고려한 것이다.
Algorithm AUC 조건 sensitivity Stage
1 2 3 4
GLM 0.988(p-value : 0.000) specificity 93.90%(cutoff=0.3700928) 94.65% 91.98% 97.62% 93.55% 98.88%
표 8에서 분류기에 이용된 알고리즘은 GLM(Generalized Linear Model; 일반화 선형 모형), 특히 로지스틱 회귀 모형이며, AUC는 0.988, p-value 0.000이고, 민감도는 전체 94.65%인데, 1기 환자에 대해서도 91.98%의 높은 민감도로 폐암 여부를 판정해냈음을 알 수 있다. 여기에서 특이도는 93.90%였으며, 이때 절단값(threshold; cutoff; 문턱값)은 0.3700928였다. 이러한 절단값 지점은 모든 폐암 진행 단계(stage)에서 민감도가 90% 이상이 되면서, 특이도가 충분히 높은 지점으로 선택되었다. 이러한 선택의 이유를 구체적으로 설명하자면, 최적 정확도(best accuracy)는 표본 수에 영향을 받을 수 있는데, 본 명세서의 실험에서는 정상인 표본수가 폐암 표본수보다 많아 상대적으로 특이도가 높은 지점이 최적 정확도를 보이는 지점이 되기 때문이다. 결론적으로 귀무가설(AUC=0.5)을 p-value 0.000으로 기각함으로써 통계적으로 유의한 성능을 보인다.
10배수 교차 검증법으로 확인한 상기 회귀 모형의 회귀계수 범위. 상기 일 예시적 로지스틱 회귀 모형은 전체 트레이닝 세트로부터 도출된 것이어서 그 회귀 모형의 회귀계수가 하나로 정해진 것이지만, 전체 실험군의 10분의 9에 대하여 반복적으로 회귀 모형을 도출하는 10배수 교차 검증법을 이용하면 개별 바이오마커에 대한 회귀계수가 가지는 범위를 구할 수 있는바, 그 결과는 다음 표 9에 표시된 바와 같다.
최소값 최대값
HE4 (즉, 보정된 HE4) 2.779537 3.30755
CEA 1.182147 1.448989
ApoA2 -1.56861 -1.35275
RANTES -2.69601 -2.45476
TTR -1.76552 -1.48475
Svcam.1 -1.95726 -1.72294
age 1.130043 1.394296
(intercept) -0.83606 -1.03448
여기에서, 개별 바이오마커에 대한 회귀계수의 단위는 개별 바이오마커에 대한 실험 데이터값의 단위의 역(inverse)으로 표현된다. 로지스틱 회귀 모형의 결과값, 즉 종속 변수는 단위가 없는 값이어야 하기 때문이다. 이용된 HE4의 실험 데이터의 단위는 log(pM)이므로 HE4에 대한 회귀계수의 단위는 {log(pM)}-1가 된다. 또한, ApoA2 및 TTR의 실험 데이터의 단위는 log(mg/dL)이므로 ApoA2 및 TTR 각각에 대한 회귀계수의 단위는 {log(mg/dL)}-1가 되며 sVCAM-1, CEA, RANTES의 실험 데이터의 단위는 log(ng/mL)이므로 sVCAM-1, CEA, RANTES 각각에 대한 회귀계수의 단위는 {log(ng/mL)}-1가 된다. 이 회귀계수의 범위는 예시적인 것으로서 본 발명에 따른 로지스틱 회귀 모형이 이에 한정되지 않음은 물론이다.
소세포폐암 실험군에 의한 예측 성능 평가. 상기 분류기는 정상인과 비소세포폐암 환자만을 가지고 구축된 것인바, 본 발명자들은 소세포폐암에 대해서도 분류 성능을 보이고 있는지를 확인하기 위하여 상기 분류기를 이용하여 소세포폐암 실험군에 대하여 폐암 환자인지 아닌지를 판정하는 예측을 실행하였다. 물론, 이 실험군은 폐암 환자인 것으로 판정되어야 한다. 예측의 결과는 아래 표 10에 제시되어 있다.
Number of cases sensitivity at cutoff=0.3700928
SCLC (Small Cell Lung Cancer) 41 100%
표 10을 보면, 41명의 피험체에 대하여 100%의 민감도로 전부 암으로 분류해낸 매우 고무적인(놀라운) 결과를 확인할 수 있다.
본 발명의 복합 바이오마커군과 다른 복합 바이오마커군과의 비교. 이제, 개별 바이오마커를 활용하는 다른 복합 바이오마커군에 대하여도 전술한 로지스틱 회귀 모형을 구하여 AUC를 도출하는바, 그 결과는 아래 표 11에 표시된 바와 같다.
Figure PCTKR2017009616-appb-T000001
표 11에서는 각각의 행에 복합 바이오마커군에 이용된 개별 바이오마커가 표시되어 있으며 하단(bottom) 행에 본 발명에 따른 복합 바이오마커군에 대응되는 데이터가 표시되어 있는데, 여기에서 AUC는 그 개별 바이오마커를 이용하여 도출된 모형에 의한 AUC 값을 표시한 것이며, AUCrank는 AUC가 높은 순위를 표시한 것이다. 이와 함께, 표 11에 나타난 각각의 복합 바이오마커군들에 대한 ROC 곡선의 일 실시예가 더 구체적으로 도 6 내지 도 10에 도시되어 있다.
도 6에서는 HE4 및 CEA를 필수적인 개별 바이오마커로 포함하는 복합 바이오마커군들에다가 개별 바이오마커의 종류를 하나씩 증가시키면서 ROC 곡선을 획득하였다. 여기에서 comb3은 HE4 및 CEA를 개별 바이오마커로서 포함하는 복합 바이오마커군에 해당하고, comb4는 HE4, CEA 및 RANTES로 구성되는 복합 바이오마커군에 해당하며, comb5는 HE4, CEA, RANTES 및 TTR로 구성되는 복합 바이오마커군에 해당하고, comb6는 HE4, CEA, RANTES, TTR 및 sVCAM-1로 구성되는 복합 바이오마커군에 해당하며, comb7은 HE4, CEA, RANTES, TTR, sVCAM-1, ApoA2로 구성되는 복합 바이오마커군에 해당한다. 도 6의 모든 복합 바이오마커군에 대하여 나이가 함께 고려되었다. 도 6의 모든 복합 바이오마커군들 중에서 comb7인 HE4, CEA, RANTES, TTR, sVCAM-1, ApoA2로 구성되는 본 발명의 복합 바이오마커군이 가장 높은 정확성을 보인다.
다음으로, 도 7에는 중요 바이오마커 2가지로 구성된 복합 바이오마커군의 ROC 곡선이 도시되어 있다. 여기에서 comb1은 HE4 및 CEA로 구성되는 복합 바이오마커군에 해당하며, comb2는 CEA 및 Cyfra21-1로 구성되는 복합 바이오마커군에 해당되고, comb3은 HE4 및 RANTES로 구성되는 복합 바이오마커군에 해당된다. 이 모든 복합 바이오마커군들에 대하여 나이가 함께 고려되었다.
또한, 도 8에는 HE4 및 CEA를 필수적인 개별 바이오마커로 포함하고, 1가지 개별 바이오마커를 추가로 포함하는 복합 바이오마커군들의 ROC 곡선이 도시되어 있다. 여기에서 comb1은 HE4, CEA 및 ApoA2로 구성되는 복합 바이오마커군에 해당하며, comb2는 HE4, CEA 및 TTR로 구성되는 복합 바이오마커군에 해당하고, comb3은 HE4, CEA 및 sVCAM-1로 구성되는 복합 바이오마커군에 해당하며, comb4는 HE4, CEA 및 RANTES로 구성되는 복합 바이오마커군에 해당한다. 이 모든 바이오마커군들에 대하여 나이가 함께 고려되었다. 이 모든 복합 바이오마커군들은 도 8과 표 11에 표시된 바와 같이 도 7에 도시된 조합에 비하여 더 높은 정확성을 보였으며, 특히 HE4, CEA 및 RANTES를 모두 포함하는 조합 comb4가 가장 높은 정확성을 보였다.
그리고 도 9에는 HE4 및 CEA를 필수적인 개별 바이오마커로 포함하고, 2가지 개별 바이오마커를 추가로 포함하는 복합 바이오마커군들의 ROC 곡선이 도시되어 있다. 여기에서 comb1은 HE4, CEA, ApoA2 및 TTR로 구성되는 복합 바이오마커군에 해당하며, comb2는 HE4, CEA, ApoA2 및 sVCAM-1로 구성되는 복합 바이오마커군에 해당하고, comb3은 HE4, CEA, TTR 및 sVCAM-1로 구성되는 복합 바이오마커군에 해당하며, comb4는 HE4, CEA, ApoA2 및 RANTES로 구성되는 복합 바이오마커군에 해당하고, comb5는 HE4, CEA, TTR 및 RANTES로 구성되는 복합 바이오마커군에 해당하며, comb6은 HE4, CEA, sVCAM-1 및 RANTES로 구성되는 복합 바이오마커군에 해당한다. 이 모든 바이오마커군들에 대하여 나이가 함께 고려되었다. 이 모든 복합 바이오마커군들은 도 9와 표 11에 나타난 바와 같이 도 8에 도시된 조합에 비하여 한층 더 높은 정확성을 보인다.
마지막으로 도 10에는 HE4 및 CEA를 필수적인 개별 바이오마커로 포함하고, 3가지 개별 바이오마커를 더 포함하는 복합 바이오마커군들의 ROC 곡선이 도시되어 있다. 여기에서 comb1은 HE4, CEA, ApoA2, TTR 및 sVCAM-1로 구성되는 복합 바이오마커군에 해당하며, comb2는 HE4, CEA, ApoA2, TTR 및 RANTES로 구성되는 복합 바이오마커군에 해당하고, comb3은 HE4, CEA, ApoA2, sVCAM-1 및 RANTES로 구성되는 복합 바이오마커군에 해당하며, comb4는 HE4, CEA, TTR, sVCAM-1 및 RANTES로 구성되는 복합 바이오마커군에 해당한다. 이 모든 바이오마커군들에 대하여 나이가 함께 고려되었다. 이 모든 복합 바이오마커군들은 도 10과 표 11에 나타난 바와 같이 대체적으로 앞서 언급된 도 8의 복합 바이오마커군들에 비하여 가일층 우수한 성능을 보인다.
본 발명의 전술한 실험 결과에 따라, HE4, CEA, RANTES, TTR, sVCAM-1, ApoA2로 구성되는 본 발명의 복합 바이오마커군이 폐암의 발병 여부 판정에 가장 우수한 성능을 보이는 복합 바이오마커군이라는 점을 알 수 있었으며, 0.988에 달하는 AUC를 얻을 수 있는 고도로 정확한 바이오마커로서 기능한다는 점을 알 수 있었다. 요컨대, 본 발명에 따른 복합 바이오마커군을 이용하면 폐암을 매우 정확하게 판정할 수 있다.
이에 따라 본 발명은 피험체의 폐암 진단을 위한 복합 바이오마커군으로서, 개별 바이오마커 CEA, HE4, ApoA2, TTR, sVCAM-1(soluble vascular cell adhesion molecule-1) 및 RANTES를 포함하는 복합 바이오마커군을 제공한다.
본 발명의 복합 바이오마커군은 6개의 개별 바이오마커를 포함하는 것으로 한정하고 있으나, 표 11에서 나타난 바에 따르면 CEA, HE4 및 RANTES를 포함하되, ApoA2, TTR 및 sVCAM-1 중의 적어도 하나를 더 포함하는 복합 바이오마커군으로 폐암 판정에 효과적인 복합 바이오마커군의 범위를 확장할 수 있을 것이다. 그 근거로서, 표 11에서 알 수 있는 바와 같이, 4개의 개별 바이오마커로 구성된 조합 중에서 CEA, HE4 및 RANTES를 포함하되 ApoA2, TTR 및 sVCAM-1 중에서 하나를 더 포함하는 조합들이 그 AUCrank가 5, 6, 7이어서 4개의 개별 바이오마커로 구성된 다른 조합의 AUCrank 9, 11, 12에 비하여 우수하다는 점을 들 수 있다. 뿐만 아니라, 5개의 개별 바이오마커로 구성된 조합 중에서도 CEA, HE4 및 RANTES를 포함하되 ApoA2, TTR 및 sVCAM-1 중의 두 개를 더 포함하는 조합들이 역시 5개의 개별 바이오마커로 구성된 다른 조합들보다 우수한 것도 관찰할 수 있다. 이와 같이 CEA, HE4 및 RANTES를 포함하되, ApoA2, TTR 및 sVCAM-1 중의 적어도 하나를 더 포함하는 복합 바이오마커군이 본 발명의 목적에 따라 피험체의 폐암 진단을 위하여 이용될 수 있을 것이라는 점은 본 명세서를 접한 통상의 기술자가 쉽게 이해할 수 있을 것이다.
또한, 본 발명은 피험체의 폐암 진단을 위하여 복합 바이오마커군을 이용하는 폐암 진단용 키트로서, 개별 바이오마커 CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES에 특이적으로 결합하는 항체들을 포함하는 폐암 진단용 키트를 포함한다. 이러한 페암 진단용 키트는 폐암 발병 여부의 판정뿐만 아니라 폐암의 모니터링(monitoring) 또는 폐암의 스크리닝(screening)의 목적으로도 사용될 수 있을 것이다.
상기 폐암 진단용 키트에 포함되는 항체는 전술한 바와 같이 다클론 항체, 단일 클론 항체 및 에피토프와 결합할 수 있는 단편 등을 포함할 수 있다. 여기에서 다클론 항체는 상기 개별 바이오마커 중 어느 하나를 동물에 주사하고 해당 동물로부터 채혈하여 항체를 포함하는 혈청을 수득하는 종래의 방법에 의하여 생산할 수 있다.
이러한 다클론 항체는 본 발명이 속한 기술분야에 알려진 어떠한 방법에 의해서든 정제될 수 있고, 염소, 토끼, 양, 원숭이, 말, 돼지, 소, 개 등 임의의 동물 종 숙주로부터 만들어질 수 있다.
또한 단일 클론 항체는 연속 세포주의 배양을 통한 항체 분자의 생성을 제공하는 어떠한 기술을 사용하여도 제조할 수 있다. 이러한 기술로는 하이브리도마 기술, 인간 B-세포 하이브리도마 기술 및 EBV-하이브리도마 기술(Kohler G et al., Nature 256:495-497, 1975; Kozbor D et al., J Immunol Methods 81:31-42, 1985; Cote RJ et al., Proc Natl Acad Sci 80:2026-2030, 1983; 및 Cole SP et al., Mol Cell Biol 62:109-120, 1984)이 포함되나 이에 한정되는 것은 아니다.
또한 상기 개별 바이오마커 중 어느 하나에 대한 특이적 결합 부위를 함유한 항체 단편이 제조될 수 있다. 예를 들면, F(ab')2 단편은 항체 분자를 펩신으로 분해시켜 제조할 수 있으며, Fab 단편은 F(ab')2 단편의 디설파이드 브릿지를 환원시킴으로써 제조할 수 있으나 이에 한정되는 것은 아니다. 대안으로서, Fab 발현 라이브러리를 작제하여 원하는 특이성을 갖는 단클론 Fab 단편을 신속하고 간편하게 동정할 수도 있다(Huse WD et al., Science 254: 1275-1281, 1989).
상기 항체는 세척이나 복합체의 분리 등 그 이후의 단계를 용이하게 하기 위하여 고형 기질(solid substrate)에 결합될 수 있다. 고형 기질은 예를 들어 합성 수지, 니트로셀룰로스, 유리 기판, 금속 기판, 유리 섬유, 상자성 비드(paramagnetic bead), 미세구체 및 미세 비드 등이 있다. 또한, 상기 합성 수지에는 폴리에스터, 폴리염화비닐, 폴리스티렌, 폴리프로필렌, PVDF 및 나일론 등이 있다. 본 발명의 구체적인 실시예에서, 단백질에 특이적으로 결합하는 항체를 고형 기질에 결합시키기 위하여 미세구체를 현탁한 후 마이크로튜브에 옮겨 원심분리로 상층액을 제거한 후에 재현탁하고, N-하이드록시-설포숙시니마이드(N-hydroxy-sulfosuccinimide) 및 1-에틸-3-(3-디메틸아미노프로필)-카르보디이마이드 하이드로클로라이드(1-ethyl-3-(3-dimethylaminopropyl)-carbodiimide hydrochloride)를 차례로 처리한 후 원심분리로 상층액을 제거한 후에 세척하여 보관하였다. 또한, 피험체로부터 수득된 시료를 고형 기질에 결합된 본 발명의 개별 바이오마커 중 어느 하나의 단백질에 특이적으로 결합할 수 있는 항체와 접촉시키는 경우에, 시료는 항체와 접촉 전에 알맞은 정도로 희석될 수 있다.
본 발명의 키트는 추가적으로 상기 바이오마커에 특이적으로 결합하는 검출용 항체를 포함할 수 있다. 상기 검출용 항체는 발색효소, 형광물질, 방사성 동위원소 또는 콜로이드 등의 검출체로 표지한 접합체(conjugate)일 수 있고, 바람직하게는 상기 바이오마커에 특이적으로 결합할 수 있는 1차 항체일 것이다. 예를 들어, 상기 발색효소는 퍼록시다제(peroxidase), 알칼라인 포스파타제(alkaline phosphatase) 또는 산성 포스파타제(acid phosphatase){예컨대, 양고추냉이 퍼록시다제(horseradish peroxidase)일 수 있고, 형광물질인 경우에, 플루오레신카복실산(FCA), 플루오레신 이소티오시아네이트(FITC), 플루오레신 티오우레아(FTH), 7-아세톡시쿠마린-3-일, 플루오레신-5-일, 플루오레신-6-일, 2',7'-디클로로플루오레신-5-일, 2',7'-디클로로플루오레신-6-일, 디하이드로테트라메틸로사민-4-일, 테트라메틸로다민-5-일, 테트라메틸로다민-6-일, 4,4-디플루오로-5,7-디메틸-4-보라-3a,4a-디아자-s-인다센-3-에틸 또는 4,4-디플루오로-5,7-디페닐-4-보라-3a,4a-디아자-s-인다센-3-에틸, Cy3, Cy5,폴리 L-라이신-플루오레세인 이소티오시아네이트(poly L-lysine-fluorescein isothiocyanate, FITC), 로다민-B-이소티오시아네이트(rhodamine-B-isothiocyanate, RITC), 로다민(rhodamine), PE(Phycoerythrin) 등을 사용하는 것이 가능하다.
또한, 본 발명의 키트는 추가로 (1) 상기 바이오마커에 특이적으로 결합하는 검출용 항체 및 (2) 상기 검출용 항체에 결합할 특이적으로 결합할 수 있는 리간드를 포함할 수 있다. 상기 리간드에는 단백질 A 또는 검출용 항체에 특이적으로 결합하는 2차 항체 등이 있다. 또한 상기 리간드는 발색효소, 형광물질, 방사성 동위원소 또는 콜로이드 등의 검출체로 표지한 접합체(conjugate)일 수 있다. 상기 검출용 항체는 상기 리간드를 위해, 바이오틴화(biotinylation) 또는 다이곡시제닌(digoxigenin) 처리한 1차 항체를 이용하는 것이 바람직하나, 상기 검출용 항체의 처리방법은 이에 한정되지 않는다. 또한 상기 리간드로는 상기 검출용 항체에 결합하기 위해, 스트렙타비딘, 아비딘 등이 사용되는 것이 바람직하나, 이에 한정되지 않는다. 본 발명의 구체적인 실시예에서 상기 검출체로 형광물질을 부착한 스트렙타비딘(streptavidin)을 리간드로 사용하였으며, 상기 리간드를 위해 바이오틴화(biotinylation)시킨 검출용 항체를 이용하였다.
본 발명의 폐암 진단용 키트는 상기 항체 및 바이오마커 복합체에 검출용 항체를 처리한 후 검출용 항체의 양을 탐색함으로써 폐암을 진단, 모니터링 및 스크리닝할 수 있다. 또는 상기 항체 및 바이오마커 복합체에 검출용 항체 및 리간드를 순차적으로 처리한 후, 검출체용 항체의 양을 탐색함으로써 폐암을 진단, 모니터링 및 스크리닝할 수 있다. 본 발명의 바람직한 실시예에서, 검출용 항체를 세척된 항체-바이오마커 복합체와 정온배치한 후 세척하여 검출용 항체를 측정함으로써 상기 바이오마커의 양을 측정할 수 있다. 검출용 항체의 양 측정이나 존재 검출은 형광, 발광, 화학발광(chemiluminescence), 흡광도, 반사 또는 투과를 통해 이루어질 수 있다.
또한, 상기 검출용 항체 또는 리간드의 양을 탐색하는 방법으로는 초고속 스크리닝(high throughput screening; HTS) 시스템을 이용하는 것이 바람직하고, 여기에는 검출체로 형광물질이 부착되어 형광을 검출함으로써 수행되는 형광법 또는 검출체로 방사선 동위원소가 부착되어 방사선을 검출함으로써 수행되는 방사선법; 검출체의 표지 없이 표면의 플라즈몬 공명 변화를 실시간으로 측정하는 SPR(surface plasmon resonance) 방법 또는 SPR 시스템을 영상화하여 확인하는 SPRI(surface plasmon resonance imaging) 방법을 이용하는 것이 바람직하나 이에 한정되지 않는다.
예를 들어 상기 형광법은 형광 스캐너 프로그램을 이용하여 상기 검출용 항체를 형광물질로 라벨링한 후 스포팅하여 신호를 확인하는 방법으로, 이 방법을 적용하여 결합 정도를 확인할 수 있다. 상기 형광물질은 Cy3, Cy5, 폴리 L-라이신-플루오레세인 이소티오시아네이트(poly L-lysine-fluorescein isothiocyanate, FITC), 로다민-B-이소티오시아네이트(rhodamine-B-isothiocyanate, RITC), 로다민(rhodamine), PE(Phycoerythrin)으로 이루어진 군으로부터 선택된 어느 하나인 것 바람직하나 이에 한정되지 않는다. 상기 SPR 시스템은 형광법과는 달리 시료를 형광물질로 표지할 필요가 없이 항체의 결합 정도를 실시간으로 분석하는 것이 가능하나 동시다발적인 시료 분석이 불가능하다는 단점이 있다. SPRI의 경우에는 미세정렬 방법을 이용하여 동시다발적인 시료 분석이 가능하지만 탐지 강도가 낮은 단점이 있다.
또한, 본 발명의 폐암 진단용 키트는 효소와 발색 반응할 기질 및 결합되지 않은 단백질 등은 제거하고 결합된 바이오마커만을 보유할 수 있는 세척액 또는 용리액을 추가로 포함할 수 있다. 분석을 위해 사용되는 시료는 혈청, 뇨, 눈물 타액 등 정상적인 상태와 구별될 수 있는 질환 특이적 폴리펩타이드를 확인할 수 있는 생체 시료를 포함한다. 바람직하게는 생물학적 액체 시료, 예를 들어 혈액, 혈청, 혈장, 더욱 바람직하게는 혈청으로부터 측정될 수 있다. 시료는 바이오마커의 탐지감도를 증가시키도록 준비될 수 있는데 예를 들어 환자로부터 수득한 혈청 시료는 음이온 교환 크로마토그래피, 친화도 크로마토그래피, 크기별 배제 크로마토그래피(size exclusion chromatography), 액체 크로마토그래피, 연속추출(sequential extraction) 또는 젤 전기영동 등의 방법을 이용하여 전처리될 수 있으나, 이에 한정되지 않는다.
다른 일 실시예로서, 본 발명의 폐암 진단용 키트는, 적어도 6개의 수용 영역; 및 상기 적어도 6개의 수용 영역 각각에 수용되며, 기 설정된 개별 바이오마커에 특이적으로 결합하는 6가지 이상의 바이오마커 대응 항체;를 포함하는 것일 수 있는바, 이때 상기 6가지 이상의 바이오마커 대응 항체는 개별 바이오마커 CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES 각각에 특이적으로 결합하는 항체 각각을 포함한다.
아울러, 본 발명은 상기 복합 바이오마커군에 포함된 각각의 개별 바이오마커에 특이적으로 결합할 수 있는 생물 분자가 고형 기질에 집적된 폐암 진단용 바이오칩을 제공한다. 본 발명의 바이오칩은 폐암 환자와 정상인에서 발현의 차이가 있는 상기 개별 바이오마커를 측정하는 데 사용하기 위하여 상기 개별 바이오마커에 특이적으로 결합할 수 있는 항체를 포함할 수 있고, 또는 두 종류 이상의 상기 특이적인 항체의 조합을 포함할 수 있다.
상기 생물 분자는 저분자 화합물, 리간드, 앱타머, 펩티드, 폴리펩티드, 특이적 결합 단백질, 고분자 물질 및 항체 등으로 이루어진 군으로부터 선택되며 상기 단백질에 특이적으로 결합할 수 있는 물질이면 무엇이든 사용 가능하며, 항체 또는 앱타머를 사용하는 것이 바람직하나, 이에 한정되는 것은 아니다.
상기 항체는 다클론 항체 또는 단일 클론 항체를 사용하는 것이 바람직하며, 단일 클론 항체를 사용하는 것이 더욱 바람직하다. 상기 단백질에 특이적으로 결합하는 항체는 통상의 기술자에게 알려진 공지의 방법으로 제작하여도 무방하며, 상업적으로 알려진 항체를 구입하여 사용할 수 있다. 상기 항체는 통상의 기술자에게 알려진 종래 방법에 따라 면역원인 단백질을 외부 숙주에 주사함으로써 제조될 수 있다. 외부 숙주는 마우스, 래트, 양, 토끼와 같은 포유동물을 포함한다. 면역원은 근내, 복강내 또는 피하 주사방법으로 주사되며, 일반적으로 항원성을 증가시키기 위한 보조제(adjuvant)와 함께 투여할 수 있다. 외부 숙주로부터 정기적으로 혈액을 채취하여 형상된 역가 및 항원에 대한 특이성을 보이는 혈청을 수거하여 항체를 분리할 수 있다.
또한, 본 발명의 바이오칩의 고형 기질은 플라스틱, 유리, 금속 및 실리콘으로 구성된 군으로부터 선택될 수 있으며, 바람직하게는 그 표면에 상기 항체를 부착시키기 위해 화학 처리되거나 링커 분자가 결합하여 있을 수 있으나 이에 한정되는 것은 아니다. 본 발명의 바이오칩은 시료에서 전체 단백질을 채취하여 바이오칩과 반응시켜 손쉽고 정확하게 폐암을 진단, 모니터링 및 스크리닝을 수행할 수 있다.
상기 바이오칩의 기판에 코팅된 활성기는 상기 물질을 결합하는 역할을 하며, 아민기(amine group), 알데하이드기(aldehyde group), 카르복실기(carboxyl group) 및 티올기(thiol group)로 이루어진 군으로부터 선택될 수 있으며, 통상의 기술자에게 단백질 분자를 기판에 결합할 수 있는 활성기로 알려진 모든 활성기가 사용 가능하며, 이것에 한정되는 것은 아니다.
또한, 본 발명에 의하면, 피험체의 폐암 진단을 위하여 복합 바이오마커군의 정보를 이용하는 방법이 제공되는바, 그 방법은, (a) 컴퓨팅 시스템이, (1-i) 폐암 환자들 및 폐암 환자가 아닌 사람들로 구성된 표본 집단의 생물학적 시료로부터 측정되는 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터, 또는 (1-ii) 상기 표본 집단으로부터 측정되는 상기 개별 바이오마커별 발현량 데이터 및 상기 표본 집단의 나이를 획득하고, 상기 표본 집단의 상기 개별 바이오마커별 발현량 데이터를 전처리하여, (2-i) 상기 전처리된 데이터인 상기 표본 집단의 측정 데이터로부터, 또는 (2-ii) 상기 표본 집단의 측정 데이터 및 상기 표본 집단의 나이로부터 폐암 판정 모형이 도출된 상태에서, (3-i) 상기 피험체의 생물학적 시료로부터 측정되는 상기 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터, 또는 (3-ii) 상기 피험체로부터 측정되는 상기 개별 바이오마커별 발현량 데이터 및 상기 피험체의 나이를 획득하는 단계, 및 (b) 상기 컴퓨팅 시스템이, 상기 피험체의 상기 개별 바이오마커별 발현량 데이터를 전처리하여, (4-i) 상기 전처리된 데이터인 상기 피험체의 측정 데이터, 또는 (4-ii) 상기 측정 데이터 및 상기 피험체의 나이를 이용하여 상기 폐암 판정 모형으로부터 상기 피험체의 폐암 발병 여부를 판정하는 단계를 포함한다. 즉, 상기 폐암 판정 모형은 상기 표본 집단의 측정 데이터와 함께 상기 표본 집단에 속한 사람들의 나이를 독립 변수로 하는 것을 특징으로 할 수도 있다.
일 실시예에서는 상기 폐암 판정 모형은 전술한 바와 같은 로지스틱 회귀 모형일 수 있다. 또한, 일 실시예에 따르면, 상기 (b)단계에서의 상기 전처리는 상기 개별 바이오마커별 발현량 데이터 중 적어도 일부를 로그(log10) 변환하는 계산을 포함할 수 있다.
그리고 본 발명에 의하면, 전술한 피험체의 폐암 진단을 위하여 복합 바이오마커군의 정보를 이용하는 상기 방법을 수행하는 컴퓨팅 시스템도 제공된다.
도 11은 폐암 진단을 위하여 복합 바이오마커군의 정보를 이용하는 컴퓨팅 시스템(100)의 구성을 개략적으로 도시한 개념도이다. 도 11을 참조하면, 컴퓨팅 시스템(100)과 그 하드웨어 구성요소들인 통신부(110) 및 프로세서(120)가 도시되어 있다.
여기에서 통신부(110)는 (1-i) 폐암 환자들 및 폐암 환자가 아닌 사람들로 구성된 표본 집단의 생물학적 시료로부터 측정되는 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터, 또는 (1-ii) 상기 표본 집단으로부터 측정되는 상기 개별 바이오마커별 발현량 데이터 및 상기 표본 집단의 나이를 획득하고, 상기 표본 집단의 상기 개별 바이오마커별 발현량 데이터를 전처리하여, (2-i) 상기 전처리된 데이터인 상기 표본 집단의 측정 데이터로부터, 또는 (2-ii) 상기 표본 집단의 측정 데이터 및 상기 표본 집단의 나이로부터 폐암 판정 모형이 도출된 상태에서, (3-i) 상기 피험체의 생물학적 시료로부터 측정되는 상기 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터, 또는 (3-ii) 상기 피험체로부터 측정되는 상기 개별 바이오마커별 발현량 데이터 및 상기 피험체의 나이를 획득한다.
또한, 프로세서(120)는 상기 피험체의 상기 개별 바이오마커별 발현량 데이터를 전처리하여, (4-i) 상기 전처리된 데이터인 상기 피험체의 측정 데이터, 또는 (4-ii) 상기 측정 데이터 및 상기 피험체의 나이를 이용하여 상기 폐암 판정 모형으로부터 상기 피험체의 폐암 발병 여부를 판정한다.
이와 같이, 본 발명에 따른 컴퓨팅 시스템(100)은 전술한 바와 같은 피험체의 폐암 진단을 위하여 복합 바이오마커군의 정보를 이용하는 방법을 수행한다.
위 실시예의 설명에 기초하여 통상의 기술자는, 본 발명이 다양한 실시 태양으로 실시될 수 있다는 점을 명확하게 이해할 수 있다. 하나의 실시예로서, 본 명세서에서는 폐암을 판정하는 방식으로 로지스틱 회귀 모형을 이용하였으나, 이진 종속변수를 설명하는 통계 모형이라면 어느 것이라도 활용될 수 있을 것이다. 이러한 통계 모형을 다루는 부분은 다양한 컴퓨터 구성요소들을 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현될 수 있다. 본 명세서에서 그러한 통계 모형을 다루기 위하여 R 통계 패키지가 이용되었으나, SPSS, SAS, Mathematica 등의 기타 통계 소프트웨어, 혹은 그러한 통계 방법을 구현할 수 있는 프로그래밍 언어 등 로지스틱 회귀 모형을 도출하는 데 필요한 연산을 수행할 수 있게 하는 것이라면 무엇이라도 이용될 수 있음을 통상의 기술자는 이해할 수 있을 것이다. 이들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨팅 시스템에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 상기 하드웨어 장치는, 프로그램 명령어를 저장하기 위한 ROM/RAM 등과 같은 메모리와 결합되고 상기 메모리에 저장된 명령어들을 실행하도록 구성되는 CPU나 GPU와 같은 프로세서를 포함할 수 있으며, 외부 장치와 신호를 주고 받을 수 있는 통신부를 포함할 수 있다. 덧붙여, 상기 하드웨어 장치는 개발자들에 의하여 작성된 명령어들을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치를 포함할 수 있다.
또한 전술한 실시예에서는 HE4, CEA, Cyfra21-1, RANTES, TTR, sVCAM-1 및 ApoA2가 필수적인 개별 바이오마커로 이용되었으나, 이와 함께 추가되는 다른 개별 바이오마커들이 더 있을 수 있음을 통상의 기술자는 이해할 것이다. 이들 개별 바이오마커들과 함께 이용되어 전술한 통계 모형(로지스틱 회귀 모형)의 성능을 향상시킬 수 있는 것이라면, 지금까지 본 발명이 속한 기술분야인 종양학에서 종양 진단과 연관되어 널리 이용되고 있거나, 종양과의 관련성이 발견되었다면 무엇이든 포함될 수 있을 것이다. 본 명세서에서는 개별 바이오마커로서 단백질 마커만을 예시적으로 활용하였으나, 필수적 개별 바이오마커에 덧붙여 이용될 수 있는 개별 바이오마커는 이에 한정되지 않고, 핵산 마커(예컨대, RNA, DNA 마커), 기타 유기물과 무기물의 정량 등 종양 진단에 관하여 알려진 각종 바이오마커를 포함할 수 있다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (14)

  1. 피험체의 폐암 진단을 위하여 복합 바이오마커군을 이용하는 폐암 진단용 키트에 있어서,
    개별 바이오마커 CEA(Carcinoembryonic antigen; 암배 항원), HE4(Human Epididymis Protein 4; 인간 부고환 단백질 4), ApoA2(Apolipoprotein A-II), TTR(Transthyretin; TTR), sVCAM-1(soluble vascular cell adhesion molecule-1) 및 RANTES{regulated on activation, normal T cell expressed and secreted; Chemokine (C-C motif) ligand 5}에 특이적으로 결합하는 항체들을 포함하는 것을 특징으로 하는 폐암 진단용 키트로서,
    폐암 환자들 및 폐암 환자가 아닌 사람들로 구성된 표본 집단의 생물학적 시료로부터 측정되는 (1) 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bki {k는 개별 바이오마커에 대한 첨자(index)이며, i는 표본 집단의 개별 생물학적 시료에 대한 첨자임}, 또는 (2) 상기 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bki, 및 상기 표본 집단의 나이 agei가 획득되어, 상기 획득된 데이터로부터 폐암 판정 모형 M 이 도출된 상태에서, (3) 상기 피험체의 상기 생물학적 시료로부터 상기 폐암 진단용 키트에 의하여 측정되는 상기 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bk, 또는 (4) 상기 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bk 및 상기 피험체의 나이 데이터 age를 상기 폐암 판정 모형 M에 입력함으로써 상기 피험체의 폐암 발병 여부를 판정하도록 상기 폐암 진단용 키트가 이용되는 것을 특징으로 하는 폐암 진단용 키트.
  2. 제1항에 있어서,
    상기 적어도 개별 바이오마커 각각을 포함하는 폐암 진단용 복합 바이오마커군은,
    (a1) 제2 컴퓨팅 시스템이, 제2 표본 집단에 속한 피험체 s로부터 (i) 제1 바이오마커 집합 S1에 속한 n번째 개별 바이오마커 xn의 발현량 데이터 또는 이를 가공한 데이터 xns, 또는 상기 xns 및 상기 제2 표본 집단의 나이 데이터 xage,s 와 함께 (ii) 폐암 환자로 진단되었는지의 여부에 관한 데이터 ys를 획득하는 단계로서, 상기 제1 바이오마커 집합 S1은, CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES 이외에도 추가로 개별 바이오마커를 더 포함하는 것을 특징으로 하는 데이터 획득 단계;
    (a2) 상기 제2 컴퓨팅 시스템이, 상기 제1 바이오마커 집합 S1에 속한 n번째 개별 바이오마커 각각에 대하여, (i) 상기 ys와 상기 xns는 서로 독립이라는 명제를 귀무가설로 두는 카이 제곱 검정(chi square test) 및 (ii) 폐암 환자로 진단된 피험체들의 xns 평균값과 상기 폐암 환자로 진단되지 않은 피험체들의 xns 평균값 사이 차이의 참값은 0이라는 명제를 귀무가설로 두는 스튜던트의 t 검정(Student's t-test) 중 적어도 하나를 수행함으로써, 상기 S1에 속한 n번째 개별 바이오마커 각각에 대한 p-value를 산출하는 제1 통계 검정 단계;
    (a3) 상기 제2 컴퓨팅 시스템이, 상기 (a2) 단계에서 산출된 상기 p-value를 미리 정해진 유의수준과 비교하여 상기 미리 정해진 유의수준보다 작은 상기 p-value를 가지는 개별 바이오마커로 구성된 제2 바이오마커 집합 S2를 생성하는 제1 필터링 단계;
    (a4) 상기 제2 컴퓨팅 시스템이, 상기 제2 바이오마커 집합 S2에 속한 m번째 개별 바이오마커 xm 각각에 대하여, 회귀 모형식
    Figure PCTKR2017009616-appb-I000011
    을 통하여, xm의 추정값
    Figure PCTKR2017009616-appb-I000012
    을 구하는 단계로서, Sm '= S2 - {xm}이며, 상기 추정값
    Figure PCTKR2017009616-appb-I000013
    은 상기 폐암 환자로 진단된 피험체들 및 상기 폐암 환자로 진단되지 않은 피험체들에 대하여 각각 구해지는 회귀 모형 추정 단계;
    (a5) 상기 제2 컴퓨팅 시스템이, 상기 개별 바이오마커 xm 각각에 대한 잔차값인 xm-
    Figure PCTKR2017009616-appb-I000014
    를 구하는 단계로서, 상기 잔차값은 상기 폐암 환자로 진단된 피험체들 및 상기 폐암 환자로 진단되지 않은 피험체들에 대하여 각각 구해지는 잔차 획득 단계;
    (a6) 상기 제2 컴퓨팅 시스템이, 상기 폐암 환자로 진단된 피험체들의 상기 잔차값의 평균값과 상기 폐암 환자로 진단되지 않은 피험체들의 상기 잔차값의 평균값 사이 차이의 참값이 0이라는 명제를 귀무가설로 두는 스튜던트의 t 검정을 수행함으로써, 상기 S2에 속한 m번째 개별 바이오마커 각각에 대한 p-value를 산출하는 제2 통계 검정 단계; 및
    (a7) 상기 제2 컴퓨팅 시스템이, 상기 (a6) 단계에서 산출된 p-value를 미리 정해진 유의수준과 비교하여 상기 미리 정해진 유의수준보다 작은 상기 p-value를 가지는 상기 m번째 개별 바이오마커를 상기 폐암 진단용 복합 바이오마커군에 포함시키는 제2 필터링 단계
    를 수행함으로써 얻어지는 것을 특징으로 하는 폐암 진단용 키트.
  3. 피험체의 폐암 진단을 위한 복합 바이오마커군을 활용하는 폐암 진단용 키트에 있어서,
    상기 진단용 키트는,
    6개의 수용 영역; 및
    상기 6개의 수용 영역 각각에 수용되며, 기 설정된 개별 바이오마커에 특이적으로 결합하는 6가지의 바이오마커 대응 항체;
    를 포함하며,
    상기 6가지의 바이오마커 대응 항체는 개별 바이오마커 CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES 각각에 특이적으로 결합하는 항체 각각을 포함하되,
    폐암 환자들 및 폐암 환자가 아닌 사람들로 구성된 표본 집단의 생물학적 시료로부터 측정되는 (1) 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bki {k는 개별 바이오마커에 대한 첨자(index)이며, i는 표본 집단의 개별 생물학적 시료에 대한 첨자임}, 또는 (2) 상기 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bki, 및 상기 표본 집단의 나이 agei가 획득되어, 상기 획득된 데이터로부터 폐암 판정 모형 M 이 도출된 상태에서, (3) 상기 피험체의 상기 생물학적 시료로부터 상기 폐암 진단용 키트에 의하여 측정되는 상기 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bk, 또는 (4) 상기 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bk 및 상기 피험체의 나이 데이터 age를 상기 폐암 판정 모형 M에 입력함으로써 상기 피험체의 폐암 발병 여부를 판정하도록 상기 폐암 진단용 키트가 이용되는 것을 특징으로 하는 폐암 진단용 키트.
  4. 제3항에 있어서,
    상기 6가지 이상의 바이오마커 대응 항체 각각에 대응되는 개별 바이오마커 각각을 포함하는 폐암 진단용 복합 바이오마커군은,
    (a1) 제2 컴퓨팅 시스템이, 제2 표본 집단에 속한 피험체 s로부터 (i) 제1 바이오마커 집합 S1에 속한 n번째 개별 바이오마커 xn의 발현량 데이터 또는 이를 가공한 데이터 xns, 또는 상기 xns 및 상기 제2 표본 집단의 나이 데이터 xage,s 와 함께 (ii) 폐암 환자로 진단되었는지의 여부에 관한 데이터 ys를 획득하는 단계로서, 상기 제1 바이오마커 집합 S1은, CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES 이외에도 추가로 개별 바이오마커를 더 포함하는 것을 특징으로 하는 데이터 획득 단계;
    (a2) 상기 제2 컴퓨팅 시스템이, 상기 제1 바이오마커 집합 S1에 속한 n번째 개별 바이오마커 각각에 대하여, (i) 상기 ys와 상기 xns는 서로 독립이라는 명제를 귀무가설로 두는 카이 제곱 검정(chi square test) 및 (ii) 폐암 환자로 진단된 피험체들의 xns 평균값과 상기 폐암 환자로 진단되지 않은 피험체들의 xns 평균값 사이 차이의 참값은 0이라는 명제를 귀무가설로 두는 스튜던트의 t 검정(Student's t-test) 중 적어도 하나를 수행함으로써, 상기 S1에 속한 n번째 개별 바이오마커 각각에 대한 p-value를 산출하는 제1 통계 검정 단계;
    (a3) 상기 제2 컴퓨팅 시스템이, 상기 (a2) 단계에서 산출된 상기 p-value를 미리 정해진 유의수준과 비교하여 상기 미리 정해진 유의수준보다 작은 상기 p-value를 가지는 개별 바이오마커로 구성된 제2 바이오마커 집합 S2를 생성하는 제1 필터링 단계;
    (a4) 상기 제2 컴퓨팅 시스템이, 상기 제2 바이오마커 집합 S2에 속한 m번째 개별 바이오마커 xm 각각에 대하여, 회귀 모형식
    Figure PCTKR2017009616-appb-I000015
    을 통하여, xm의 추정값
    Figure PCTKR2017009616-appb-I000016
    을 구하는 단계로서, Sm '= S2 - {xm}이며, 상기 추정값
    Figure PCTKR2017009616-appb-I000017
    은 상기 폐암 환자로 진단된 피험체들 및 상기 폐암 환자로 진단되지 않은 피험체들에 대하여 각각 구해지는 회귀 모형 추정 단계;
    (a5) 상기 제2 컴퓨팅 시스템이, 상기 개별 바이오마커 xm 각각에 대한 잔차값인 xm-
    Figure PCTKR2017009616-appb-I000018
    를 구하는 단계로서, 상기 잔차값은 상기 폐암 환자로 진단된 피험체들 및 상기 폐암 환자로 진단되지 않은 피험체들에 대하여 각각 구해지는 잔차 획득 단계;
    (a6) 상기 제2 컴퓨팅 시스템이, 상기 폐암 환자로 진단된 피험체들의 상기 잔차값의 평균값과 상기 폐암 환자로 진단되지 않은 피험체들의 상기 잔차값의 평균값 사이 차이의 참값이 0이라는 명제를 귀무가설로 두는 스튜던트의 t 검정을 수행함으로써, 상기 S2에 속한 m번째 개별 바이오마커 각각에 대한 p-value를 산출하는 제2 통계 검정 단계; 및
    (a7) 상기 제2 컴퓨팅 시스템이, 상기 (a6) 단계에서 산출된 p-value를 미리 정해진 유의수준과 비교하여 상기 미리 정해진 유의수준보다 작은 상기 p-value를 가지는 상기 m번째 개별 바이오마커를 상기 폐암 진단용 복합 바이오마커군에 포함시키는 제2 필터링 단계
    를 수행함으로써 얻어지는 것을 특징으로 하는 폐암 진단용 키트.
  5. 피험체의 폐암 진단을 위하여 복합 바이오마커군의 정보를 이용하는 방법에 있어서,
    (a) 컴퓨팅 시스템이, 폐암 환자들 및 폐암 환자가 아닌 사람들로 구성된 표본 집단의 생물학적 시료로부터 측정되는 (1) 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bki {k는 개별 바이오마커에 대한 첨자(index)이며, i는 표본 집단의 개별 생물학적 시료에 대한 첨자임}, 또는 (2) 상기 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bki, 및 상기 표본 집단의 나이 agei를 획득하여, 상기 획득된 데이터로부터 폐암 판정 모형 M 이 도출된 상태에서, (3) 상기 피험체의 생물학적 시료로부터 측정되는 상기 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bk, 또는 (4) 상기 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bk 및 상기 피험체의 나이 데이터 age를 획득하는 단계, 및
    (b) 상기 컴퓨팅 시스템이, 상기 획득된 피험체의 데이터를 이용하여 상기 폐암 판정 모형 M으로부터 상기 피험체의 폐암 발병 여부를 판정하는 단계
    를 포함하되,
    상기 폐암 진단용 복합 바이오마커군은,
    개별 바이오마커 CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES를 포함하는 폐암 진단용 복합 바이오마커군 정보 이용 방법.
  6. 제5항에 있어서,
    상기 폐암 진단용 복합 바이오마커군은,
    (a1) 제2 컴퓨팅 시스템이, 제2 표본 집단에 속한 피험체 s로부터 (i) 제1 바이오마커 집합 S1에 속한 n번째 개별 바이오마커 xn의 발현량 데이터 또는 이를 가공한 데이터 xns, 또는 상기 xns 및 상기 제2 표본 집단의 나이 데이터 xage,s 와 함께 (ii) 폐암 환자로 진단되었는지의 여부에 관한 데이터 ys를 획득하는 단계로서, 상기 제1 바이오마커 집합 S1은, CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES 이외에도 추가로 개별 바이오마커를 더 포함하는 것을 특징으로 하는 데이터 획득 단계;
    (a2) 상기 제2 컴퓨팅 시스템이, 상기 제1 바이오마커 집합 S1에 속한 n번째 개별 바이오마커 각각에 대하여, (i) 상기 ys와 상기 xns는 서로 독립이라는 명제를 귀무가설로 두는 카이 제곱 검정(chi square test) 및 (ii) 폐암 환자로 진단된 피험체들의 xns 평균값과 상기 폐암 환자로 진단되지 않은 피험체들의 xns 평균값 사이 차이의 참값은 0이라는 명제를 귀무가설로 두는 스튜던트의 t 검정(Student's t-test) 중 적어도 하나를 수행함으로써, 상기 S1에 속한 n번째 개별 바이오마커 각각에 대한 p-value를 산출하는 제1 통계 검정 단계;
    (a3) 상기 제2 컴퓨팅 시스템이, 상기 (a2) 단계에서 산출된 상기 p-value를 미리 정해진 유의수준과 비교하여 상기 미리 정해진 유의수준보다 작은 상기 p-value를 가지는 개별 바이오마커로 구성된 제2 바이오마커 집합 S2를 생성하는 제1 필터링 단계;
    (a4) 상기 제2 컴퓨팅 시스템이, 상기 제2 바이오마커 집합 S2에 속한 m번째 개별 바이오마커 xm 각각에 대하여, 회귀 모형식
    Figure PCTKR2017009616-appb-I000019
    을 통하여, xm의 추정값
    Figure PCTKR2017009616-appb-I000020
    을 구하는 단계로서, Sm '= S2 - {xm}이며, 상기 추정값
    Figure PCTKR2017009616-appb-I000021
    은 상기 폐암 환자로 진단된 피험체들 및 상기 폐암 환자로 진단되지 않은 피험체들에 대하여 각각 구해지는 회귀 모형 추정 단계;
    (a5) 상기 제2 컴퓨팅 시스템이, 상기 개별 바이오마커 xm 각각에 대한 잔차값인 xm-
    Figure PCTKR2017009616-appb-I000022
    를 구하는 단계로서, 상기 잔차값은 상기 폐암 환자로 진단된 피험체들 및 상기 폐암 환자로 진단되지 않은 피험체들에 대하여 각각 구해지는 잔차 획득 단계;
    (a6) 상기 제2 컴퓨팅 시스템이, 상기 폐암 환자로 진단된 피험체들의 상기 잔차값의 평균값과 상기 폐암 환자로 진단되지 않은 피험체들의 상기 잔차값의 평균값 사이 차이의 참값이 0이라는 명제를 귀무가설로 두는 스튜던트의 t 검정을 수행함으로써, 상기 S2에 속한 m번째 개별 바이오마커 각각에 대한 p-value를 산출하는 제2 통계 검정 단계; 및
    (a7) 상기 제2 컴퓨팅 시스템이, 상기 (a6) 단계에서 산출된 p-value를 미리 정해진 유의수준과 비교하여 상기 미리 정해진 유의수준보다 작은 상기 p-value를 가지는 상기 m번째 개별 바이오마커를 상기 폐암 진단용 복합 바이오마커군에 포함시키는 제2 필터링 단계
    를 수행함으로써 얻어진 것을 특징으로 하는 폐암 진단용 복합 바이오마커군 정보 이용 방법.
  7. 제6항에 있어서,
    상기 폐암 판정 모형 M은 상기 Bki 및 상기 agei를 이용하여 도출되는 2-class 분류기(classifier)인 것을 특징으로 하는 폐암 진단용 복합 바이오마커군 정보 이용 방법.
  8. 제7항에 있어서,
    상기 폐암 판정 모형 M은 모형식
    Figure PCTKR2017009616-appb-I000023
    Figure PCTKR2017009616-appb-I000024
    을 따르되,
    α, β1, ……, β7은 회귀 계수를 지칭하며,
    εi는 잔차값을 지칭하는 로지스틱 회귀 모형인 것을 특징으로 하는 폐암 진단용 복합 바이오마커군 정보 이용 방법.
  9. 제6항에 있어서,
    상기 (a) 단계 및 (b) 단계에서,
    상기 가공은, 상기 개별 바이오마커 중 적어도 일부에 대한 측정 데이터를 로그(log) 변환하는 계산인 것을 특징으로 하는 폐암 진단용 복합 바이오마커군 정보 이용 방법.
  10. 피험체의 폐암 진단을 위하여 복합 바이오마커군의 정보를 이용하는 컴퓨팅 시스템에 있어서,
    (a) 폐암 환자들 및 폐암 환자가 아닌 사람들로 구성된 표본 집단의 생물학적 시료로부터 측정되는 (1) 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bki {k는 개별 바이오마커에 대한 첨자(index)이며, i는 표본 집단의 개별 생물학적 시료에 대한 첨자임}, 또는 (2) 상기 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bki, 및 상기 표본 집단의 나이 agei를 획득하여, 상기 획득된 데이터로부터 폐암 판정 모형 M 이 도출된 상태에서, (3) 상기 피험체의 생물학적 시료로부터 측정되는 상기 폐암 진단용 복합 바이오마커군의 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bk, 또는 (4) 상기 개별 바이오마커별 발현량 데이터 또는 이를 가공한 데이터 Bk 및 상기 피험체의 나이 데이터 age를 획득하는 통신부, 및
    상기 획득된 피험체의 데이터를 이용하여 상기 폐암 판정 모형 M으로부터 상기 피험체의 폐암 발병 여부를 판정하는 프로세서
    를 포함하되,
    상기 폐암 진단용 복합 바이오마커군은,
    개별 바이오마커 CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES를 포함하는 폐암 진단용 복합 바이오마커군 정보 이용 컴퓨팅 시스템.
  11. 제10항에 있어서,
    상기 폐암 진단용 복합 바이오마커군은,
    (a1) 제2 컴퓨팅 시스템이, 제2 표본 집단에 속한 피험체 s로부터 (i) 제1 바이오마커 집합 S1에 속한 n번째 개별 바이오마커 xn의 발현량 데이터 또는 이를 가공한 데이터 xns, 또는 상기 xns 및 상기 제2 표본 집단의 나이 데이터 xage,s 와 함께 (ii) 폐암 환자로 진단되었는지의 여부에 관한 데이터 ys를ㄴ 획득하는 단계로서, 상기 제1 바이오마커 집합 S1은, CEA, HE4, ApoA2, TTR, sVCAM-1 및 RANTES 이외에도 추가로 개별 바이오마커를 더 포함하는 것을 특징으로 하는 데이터 획득 단계;
    (a2) 상기 제2 컴퓨팅 시스템이, 상기 제1 바이오마커 집합 S1에 속한 n번째 개별 바이오마커 각각에 대하여, (i) 상기 ys와 상기 xns는 서로 독립이라는 명제를 귀무가설로 두는 카이 제곱 검정(chi square test) 및 (ii) 폐암 환자로 진단된 피험체들의 xns 평균값과 상기 폐암 환자로 진단되지 않은 피험체들의 xns 평균값 사이 차이의 참값은 0이라는 명제를 귀무가설로 두는 스튜던트의 t 검정(Student's t-test) 중 적어도 하나를 수행함으로써, 상기 S1에 속한 n번째 개별 바이오마커 각각에 대한 p-value를 산출하는 제1 통계 검정 단계;
    (a3) 상기 제2 컴퓨팅 시스템이, 상기 (a2) 단계에서 산출된 상기 p-value를 미리 정해진 유의수준과 비교하여 상기 미리 정해진 유의수준보다 작은 상기 p-value를 가지는 개별 바이오마커로 구성된 제2 바이오마커 집합 S2를 생성하는 제1 필터링 단계;
    (a4) 상기 제2 컴퓨팅 시스템이, 상기 제2 바이오마커 집합 S2에 속한 m번째 개별 바이오마커 xm 각각에 대하여, 회귀 모형식
    Figure PCTKR2017009616-appb-I000025
    을 통하여, xm의 추정값
    Figure PCTKR2017009616-appb-I000026
    을 구하는 단계로서, Sm '= S2 - {xm}이며, 상기 추정값
    Figure PCTKR2017009616-appb-I000027
    은 상기 폐암 환자로 진단된 피험체들 및 상기 폐암 환자로 진단되지 않은 피험체들에 대하여 각각 구해지는 회귀 모형 추정 단계;
    (a5) 상기 제2 컴퓨팅 시스템이, 상기 개별 바이오마커 xm 각각에 대한 잔차값인 xm-
    Figure PCTKR2017009616-appb-I000028
    를 구하는 단계로서, 상기 잔차값은 상기 폐암 환자로 진단된 피험체들 및 상기 폐암 환자로 진단되지 않은 피험체들에 대하여 각각 구해지는 잔차 획득 단계;
    (a6) 상기 제2 컴퓨팅 시스템이, 상기 폐암 환자로 진단된 피험체들의 상기 잔차값의 평균값과 상기 폐암 환자로 진단되지 않은 피험체들의 상기 잔차값의 평균값 사이 차이의 참값이 0이라는 명제를 귀무가설로 두는 스튜던트의 t 검정을 수행함으로써, 상기 S2에 속한 m번째 개별 바이오마커 각각에 대한 p-value를 산출하는 제2 통계 검정 단계; 및
    (a7) 상기 제2 컴퓨팅 시스템이, 상기 (a6) 단계에서 산출된 p-value를 미리 정해진 유의수준과 비교하여 상기 미리 정해진 유의수준보다 작은 상기 p-value를 가지는 상기 m번째 개별 바이오마커를 상기 폐암 진단용 복합 바이오마커군에 포함시키는 제2 필터링 단계
    를 수행함으로써 얻어진 것을 특징으로 하는 폐암 진단용 복합 바이오마커군 정보 이용 컴퓨팅 시스템.
  12. 제11항에 있어서,
    상기 폐암 판정 모형 M은 상기 Bki 및 상기 agei를 이용하여 도출되는 2-class 분류기(classifier)인 것을 특징으로 하는 폐암 진단용 복합 바이오마커군 정보 이용 컴퓨팅 시스템.
  13. 제12항에 있어서,
    상기 폐암 판정 모형 M은 모형식
    Figure PCTKR2017009616-appb-I000029
    Figure PCTKR2017009616-appb-I000030
    을 따르되,
    α, β1, ……, β7은 회귀 계수를 지칭하며,
    εi는 잔차값을 지칭하는 로지스틱 회귀 모형인 것을 특징으로 하는 폐암 진단용 복합 바이오마커군 정보 이용 컴퓨팅 시스템.
  14. 제11항에 있어서,
    상기 가공은, 상기 개별 바이오마커 중 적어도 일부에 대한 측정 데이터를 로그(log) 변환하는 계산인 것을 특징으로 하는 폐암 진단용 복합 바이오마커군 정보 이용 컴퓨팅 시스템.
PCT/KR2017/009616 2016-09-02 2017-09-01 피험체의 폐암 진단을 위한 복합 바이오마커군, 이를 이용하는 폐암 진단용 키트, 복합 바이오마커군의 정보를 이용하는 방법 및 이를 수행하는 컴퓨팅 시스템 WO2018044126A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160113444A KR101853118B1 (ko) 2016-09-02 2016-09-02 피험체의 폐암 진단을 위한 복합 바이오마커군, 이를 이용하는 폐암 진단용 키트, 복합 바이오마커군의 정보를 이용하는 방법 및 이를 수행하는 컴퓨팅 시스템
KR10-2016-0113444 2016-09-02

Publications (1)

Publication Number Publication Date
WO2018044126A1 true WO2018044126A1 (ko) 2018-03-08

Family

ID=61281195

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/009616 WO2018044126A1 (ko) 2016-09-02 2017-09-01 피험체의 폐암 진단을 위한 복합 바이오마커군, 이를 이용하는 폐암 진단용 키트, 복합 바이오마커군의 정보를 이용하는 방법 및 이를 수행하는 컴퓨팅 시스템

Country Status (6)

Country Link
US (1) US10663469B2 (ko)
JP (1) JP6374070B2 (ko)
KR (1) KR101853118B1 (ko)
CN (1) CN107796942B (ko)
RU (1) RU2687578C2 (ko)
WO (1) WO2018044126A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190331686A1 (en) * 2018-04-27 2019-10-31 Laboratory Corporation Of America Holdings Methods and Systems for Determining the Risk of Developing Ovarian Cancer
KR20210073547A (ko) * 2018-10-09 2021-06-18 세키스이 메디칼 가부시키가이샤 류신 리치 α2 글리코 단백질 조성물
US10586164B1 (en) 2018-10-15 2020-03-10 AIble Inc. Interface for visualizing and improving model performance
US10936768B2 (en) * 2018-10-15 2021-03-02 Aible, Inc. Interface for visualizing and improving model performance
US11409549B2 (en) 2018-10-15 2022-08-09 AIble Inc. Interface for generating models with customizable interface configurations
JP2022523564A (ja) 2019-03-04 2022-04-25 アイオーカレンツ, インコーポレイテッド 機械学習を使用するデータ圧縮および通信
CN111444941A (zh) * 2020-02-24 2020-07-24 华北电力大学(保定) 联合血清中电解质和蛋白质组学数据用于诊断早期肺癌的方法
CN111521815A (zh) * 2020-04-20 2020-08-11 复旦大学附属中山医院 Lrg1作为诊断血栓闭塞性脉管炎的血清学标志物的应用
CN111540469A (zh) * 2020-05-29 2020-08-14 杭州广科安德生物科技有限公司 构建体外检测胃癌的数学模型的方法及其应用
CN112023271B (zh) * 2020-09-22 2023-11-28 天津工业大学 亚毫米尺寸活体植入式多通道微磁刺激器
CN113186287B (zh) * 2021-05-10 2023-03-24 深圳康华君泰生物科技有限公司 用于非小细胞肺癌分型的生物标志物及其应用
CN113960313B (zh) * 2021-12-22 2022-04-12 上海思路迪医学检验所有限公司 一种外泌体alk融合蛋白磁免疫化学发光检测试剂盒
CN115184609B (zh) * 2022-07-22 2023-09-01 上海交通大学医学院 检测非小细胞肺癌的分子标志物及其应用
CN115575636B (zh) * 2022-11-22 2023-04-04 杭州广科安德生物科技有限公司 一种用于肺癌检测的生物标志物及其系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130004204A (ko) * 2012-11-26 2013-01-09 주식회사 바이오인프라 폐암 진단용 복합 바이오마커 구성 방법
WO2013062515A2 (en) * 2011-10-24 2013-05-02 Somalogic, Inc. Lung cancer biomarkers and uses thereof
KR20140024916A (ko) * 2011-04-29 2014-03-03 캔서 프리벤션 앤 큐어, 리미티드 분류 시스템 및 이의 키트를 이용하여 폐 질환을 식별 및 진단하는 방법
US20140220006A1 (en) * 2013-02-01 2014-08-07 Meso Scale Technologies, Llc Lung cancer biomarkers

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012091506A2 (ko) * 2010-12-30 2012-07-05 (주) 바이오인프라 폐암 진단용 복합 바이오마커 및 이를 이용한 폐암 진단 방법
WO2012170711A1 (en) * 2011-06-07 2012-12-13 Caris Life Sciences Luxembourg Holdings, S.A.R.L Circulating biomarkers for cancer
US20140113876A1 (en) * 2012-09-21 2014-04-24 Ultragenyx Pharmaceutical Inc. Biomarkers for assessing treatment of sialic acid deficiency diseases and conditions
WO2016094330A2 (en) 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140024916A (ko) * 2011-04-29 2014-03-03 캔서 프리벤션 앤 큐어, 리미티드 분류 시스템 및 이의 키트를 이용하여 폐 질환을 식별 및 진단하는 방법
WO2013062515A2 (en) * 2011-10-24 2013-05-02 Somalogic, Inc. Lung cancer biomarkers and uses thereof
KR20130004204A (ko) * 2012-11-26 2013-01-09 주식회사 바이오인프라 폐암 진단용 복합 바이오마커 구성 방법
US20140220006A1 (en) * 2013-02-01 2014-08-07 Meso Scale Technologies, Llc Lung cancer biomarkers

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IWAHORI, K. ET AL.: "Serum HE4 as a Diagnostic and Prognostic Marker for Lung Cancer", TUMOR BIOLOGY, vol. 33, no. 4, 2012, pages 1141 - 1149, XP055264158 *

Also Published As

Publication number Publication date
JP6374070B2 (ja) 2018-08-15
CN107796942B (zh) 2020-05-05
US10663469B2 (en) 2020-05-26
RU2017129983A3 (ko) 2019-02-25
RU2017129983A (ru) 2019-02-25
RU2687578C2 (ru) 2019-05-15
KR20180026609A (ko) 2018-03-13
US20180067118A1 (en) 2018-03-08
KR101853118B1 (ko) 2018-04-30
CN107796942A (zh) 2018-03-13
JP2018036264A (ja) 2018-03-08

Similar Documents

Publication Publication Date Title
WO2018044126A1 (ko) 피험체의 폐암 진단을 위한 복합 바이오마커군, 이를 이용하는 폐암 진단용 키트, 복합 바이오마커군의 정보를 이용하는 방법 및 이를 수행하는 컴퓨팅 시스템
US10914745B2 (en) Biomarker-based methods for aiding the diagnosis of stroke
JP4927825B2 (ja) 初期段階の心機能異常を診断または予測するための装置および方法
TW201643429A (zh) 前列腺抗原標準品及其用途
KR101401561B1 (ko) 복합 바이오마커를 활용한 암 진단 정보 생성 방법, 및 암 진단 예측 시스템 장치
EP3004382A1 (en) Method for aiding differential diagnosis of stroke
Furuya et al. Analytical validation of ONCURIA™ a multiplex bead-based immunoassay for the non-invasive bladder cancer detection
US20150285804A1 (en) Diagnostic method for colorectal cancer
KR102018205B1 (ko) 대장암 진단용 조성물 및 상기 조성물을 이용한 대장암 진단 방법
US20210140977A1 (en) A three-protein proteomic biomarker for prospective determination of risk for development of active tuberculosis
Laloglu et al. Endocan as a potential marker in diagnosis and predicting disease severity in COVID-19 patients: a promising biomarker for patients with false-negative RT-PCR
WO2009091230A2 (ko) 유방암 모니터링,진단 및 스크리닝용 단백질 마커 및 이를 이용한 유방암 모니터링,진단 및 스크리닝 방법
KR102018209B1 (ko) 위암 진단용 조성물 및 상기 조성물을 이용한 위암 진단 방법
US20150004633A1 (en) Assays and methods for the diagnosis of ovarian cancer
EP3428648B1 (en) Method for assisting prediction of recurrence risk in hepatocellular carcinoma patient, and use of a kit
KR20180026654A (ko) 피험체의 폐암 진단을 위한 복합 바이오마커군, 이를 이용하는 폐암 진단용 키트, 복합 바이오마커군의 정보를 이용하는 방법 및 이를 수행하는 컴퓨팅 시스템
Lea Multiplex planar microarrays for disease prognosis, diagnosis and theranosis
Zhang et al. A method of quantitative chemiluminescence immunoassay for the concentration of Growth differentiation factor-15
WO2023230584A1 (en) Methods and systems for risk stratification and management of bladder cancer
Rai et al. Immunologic Approaches to Tumor Markers: Assays, Applications, and Discovery

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17847051

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17847051

Country of ref document: EP

Kind code of ref document: A1