WO2016117812A1 - 암 바이오마커의 성능 평가 장치 및 방법 - Google Patents

암 바이오마커의 성능 평가 장치 및 방법 Download PDF

Info

Publication number
WO2016117812A1
WO2016117812A1 PCT/KR2015/012228 KR2015012228W WO2016117812A1 WO 2016117812 A1 WO2016117812 A1 WO 2016117812A1 KR 2015012228 W KR2015012228 W KR 2015012228W WO 2016117812 A1 WO2016117812 A1 WO 2016117812A1
Authority
WO
WIPO (PCT)
Prior art keywords
cancer
dataset
performance evaluation
performance
module
Prior art date
Application number
PCT/KR2015/012228
Other languages
English (en)
French (fr)
Inventor
박태성
권민석
이성영
Original Assignee
서울대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교 산학협력단 filed Critical 서울대학교 산학협력단
Publication of WO2016117812A1 publication Critical patent/WO2016117812A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Definitions

  • the present invention relates to an apparatus and method for evaluating the performance of cancer biomarkers, and more particularly to an apparatus and method for evaluating the performance of cancer biomarkers for evaluating single- and / or multi-genes as candidates for biomarkers. It is about.
  • cancers there are more than 200 cancers in more than 60 different tissues in the human body. These cancer types are defined by tissues, types of primary site cells, and gene transcriptional modifications that induce tumor progression and affect therapeutic responsiveness. While some cancers of various tissues have many things in common, such as therapeutic responsiveness, it is common for some cancer subtypes from the same tissue to be quite different. The characteristics of these cancers depend on the molecular pattern of the single or multiple genes in the cancer type.
  • ERBB2-HER2 is an amplification of a subset of glioblastoma and gastric cancer, severe endometrial cancer, bladder cancer and lung cancer. In some cases these results are sensitive to HER2-targeted treatment similar to that previously observed in HER2-amplified breast cancer.
  • biomarker panel Screening diagnostic biomarkers for most common cancers generally requires a high baseline of 95% specificity and 95% sensitivity. In general, a single biomarker does not meet this high standard, but in the case of a combination of biomarkers using multiple biomarkers ("biomarker panel”), these criteria can be met.
  • a pretreatment module for collecting and pretreating cancer expression datasets from public DBs;
  • a database module for rearranging the preprocessed cancer expression dataset to construct a new cancer information DB;
  • a performance evaluation module for evaluating the performance of the cancer biomarker for each cancer type using the constructed new cancer information DB.
  • it may further include a web-interface module for displaying the performance evaluation results of the cancer biomarker evaluated by cancer type in a mapping, graph or table.
  • the pretreatment module analyzes the collected cancer expression datasets using quantile normalization and low burst multiple-array (RMA) normalization. It may be normalized.
  • RMA low burst multiple-array
  • the pretreatment module may use a normalized coefficient as an expression value for RNA expression data by RNA sequencing in a TCGA open DB.
  • the preprocessing module may be to detect an outlier by using with-group correlation and between-group correlation. .
  • the preprocessing module may exclude a sample having the detected abnormal value according to an external input of a user.
  • the pretreatment module when the collected cancer expression dataset includes clinical information and sample annotation, by designing a new dataset through the analysis of diagnosis, prognosis and drug response information It may be to define the exact cancer type or subtype.
  • the database module may include the preprocessed expression dataset and the corresponding annotation data.
  • the database module may store all expression data in the form of a user-defined index binary file.
  • the performance evaluation module in case of user-selected multiple markers, area under curve (AUC), balance accuracy (BA), sensitivity, specificity, positive predictive value (PPV), negative predictive value (NPV) ), False-positive rate (FPR), gastric discovery rate (FDR), and an F1 score.
  • AUC area under curve
  • BA balance accuracy
  • PPV positive predictive value
  • NPV negative predictive value
  • FPR False-positive rate
  • FDR gastric discovery rate
  • F1 score in case of user-selected multiple markers, area under curve (AUC), balance accuracy (BA), sensitivity, specificity, positive predictive value (PPV), negative predictive value (NPV) ), False-positive rate (FPR), gastric discovery rate (FDR), and an F1 score.
  • the performance evaluation module measures balance accuracy (BA) for all markers and balance for all markers other than a single marker, in order to measure the contribution of a single marker to the performance of a multi-marker. It may be to provide a difference between the accuracy (BA).
  • BA balance accuracy
  • the web-interface module comprises: an input layout for transferring user-selected multiple markers and query parameters to the performance evaluation module; And a result explorer that provides a table and graph visualization of the performance evaluation result.
  • the input layout may be to select a preprocessed public dataset or a user provided individual dataset as a training dataset.
  • the present invention comprises the steps of collecting and pre-treating cancer expression dataset from the public DB; Rearranging the preprocessed cancer expression dataset to construct a new cancer information DB; And evaluating the performance of the cancer biomarker for each cancer type using the constructed new cancer information DB.
  • the method may further include a performance evaluation result displaying step of displaying a performance evaluation result of the cancer biomarker evaluated for each cancer type in a mapping, graph, or table.
  • the collected cancer expression datasets are analyzed to use quantile normalization and low burst multiple-array (RMA) normalization. Can be normalized.
  • RMA low burst multiple-array
  • the outlier in the preprocessing, may be detected by using with-group correlation and between-group correlation. have.
  • a new dataset is designed through analysis of diagnosis, prognosis, and drug response information. It may be to define the correct cancer type or subtype.
  • the step of constructing the new cancer information DB it may be to store all expression data in the form of a user-specific index binary file.
  • the area under the curve AUC
  • BA balance accuracy
  • PPV positive predictive value
  • NPV negative predictive value
  • FPR gastric finding rate
  • F1 score F1 score
  • the balance accuracy (BA) for all markers and the balance for all markers other than a single marker in order to measure the contribution of a single marker to the performance of the multi-marker It may be to provide a difference between the accuracy (BA).
  • the evaluation of multiple markers using the selected training and testing datasets the evaluation using stored prediction models for any selected testing dataset, and the selection Evaluation of rib-one-out cross-validation (LOOCV) using the compiled dataset, and evaluation using a user-provided training dataset and selected testing datasets.
  • LOCV rib-one-out cross-validation
  • the performance evaluation result display step may be to select a pre-processed public data set or a user-provided individual data set as a training data set.
  • Apparatus and method for evaluating the performance of cancer biomarkers according to the present invention can evaluate multiple markers using selected training and testing datasets, and can evaluate using predictive models stored in any selected testing dataset. have.
  • the apparatus and method for evaluating the performance of cancer biomarkers of the present invention can evaluate rib-one-out cross-validation (LOOCV) using selected datasets, and provide user-provided training datasets and screenings. This can be evaluated using the tested testing dataset.
  • LOOCV rib-one-out cross-validation
  • FIG. 1 is a functional block diagram of an apparatus for evaluating the performance of cancer biomarkers according to an embodiment of the present invention
  • FIG. 2 is a flowchart of a method for evaluating the performance of cancer biomarkers according to an embodiment of the present invention
  • FIG. 3 is a block diagram of a process of evaluating the performance of a cancer biomarker according to an embodiment of the present invention in functional units
  • FIG. 4 illustrates the overall process of performance evaluation of single-cancer marker candidates and / or multi-cancer marker candidates from 18 tumor type datasets in accordance with an embodiment of the present invention.
  • 5A-5C show the CANES assessment reports for seven multiple breast cancer biomarkers categorized by support vector machine and rib-one-out cross-validation using test and lung cancer datasets.
  • CANES cancer-specific evaluation system
  • CANcer-specific multi- which is a comprehensive assessment in the early stages of evaluating single- and / or multi-genes as candidate biomarkers using various classification methods.
  • marker Evaluation System ”.
  • CANES multi-marker evaluation system
  • Figure 1 is a functional block diagram of a device for evaluating the performance of a cancer biomarker according to an embodiment of the present invention
  • Figure 2 is a flow chart of a method for evaluating the performance of a cancer biomarker according to an embodiment of the present invention.
  • the apparatus 100 for evaluating the performance of a cancer biomarker includes a pretreatment module 110 for collecting and pretreating a cancer expression dataset from an open DB and the pretreatment.
  • the apparatus 100 for evaluating the performance of the cancer biomarker may further include a web-interface module 140 for displaying a performance evaluation result of the cancer biomarker evaluated for each cancer type in a mapping, graph, or table.
  • CANES 100 refers to the performance evaluation device 100.
  • FIG. 3 is a functional block diagram of evaluating the performance of cancer biomarkers according to an embodiment of the present invention
  • FIG. 4 is a single-cancer marker candidate from 18 tumor type datasets according to an embodiment of the present invention.
  • the overall process of performance evaluation of a substance and / or a multi-cancer marker candidate is shown
  • FIGS. 5A-C support CANES evaluation reports for seven multiple breast cancer biomarkers, using test datasets and lung cancer datasets.
  • the classification by vector machine and rib-one-out cross validation is shown.
  • FIGS. 1 to 5C the apparatus 100 for evaluating the performance of a cancer biomarker according to an embodiment of the present invention will be described in more detail.
  • CANES 100 collected RNA molecular profiles obtained from public databases and reclassified into tumor types according to the mapping process and quality control process. Using public expression datasets, CANES 100 provides evaluation results for user-specific multiple markers in various cancer types or studies.
  • CANES 100 shown in FIG. 1 has four modules: preprocessing module 110, database module 120, performance evaluation module 130, and web-interface module 140.
  • the four modules included in the CANES 100, the preprocessing module 110, the database module 120, the performance evaluation module 130, and the web-interface module 140 will be described in more detail.
  • CANES 110 uses microarray data obtained from two public repositories and two cancer consortiums: GEO, ArrayExpress, TCGA, and ICGC. All expression datasets can be collected using the R package.
  • preprocessing module 110 of CANES expression datasets obtained from public repositories are analyzed and normalized using quantile normalization and robust multiple-array (RMA) normalization.
  • RMA quantile normalization and robust multiple-array
  • the present inventors In order to detect outliers caused by equipment errors or contamination of samples, mislabeling and misprocessing, the present inventors have used in-group correlation and group- Outlier detection was performed using between-group correlation. By marking all samples of detected outliers, users can use specific options to exclude samples of these outliers from their analysis. Furthermore, if clinical information and sample annotations are available, they are analyzed with CANES's database. To define the exact cancer type or subtype, we identified or retyped the diagnosis, prognosis and drug response as the design of the dataset. All processed expression data is converted into a customized indexed binary file for fast preprocessing. The preprocessor module was implemented using Python and R.
  • Database module 120 includes a preprocessed expression dataset and corresponding annotation data.
  • the preprocessed dataset consists of gene expression data and annotation data for 94,147 samples. Gene expression data is processed as described below obtained from these samples along with the widely used gene expression microarray platform and RNA sequencing platform. Database module 120 was implemented using MySQL and Python. All expression data is stored as a user customized index binary file. Table 1 below shows the number of samples in CANES.
  • CANES performance evaluation module 130 is implemented using classification methods such as SVM, RF, NN, and CART. Referring to Table 2, for user-selected multiple markers, the module provides the area under the curve (AUC), balance accuracy (BA), sensitivity, specificity, positive predictive value (PPV), negative predictive value (NPV), and false positive rate (FPR). ), Findings of gastric finding (FDR), and F1 scores.
  • AUC area under the curve
  • BA balance accuracy
  • sensitivity specificity
  • PV positive predictive value
  • NPV negative predictive value
  • FPR false positive rate
  • FDR Findings of gastric finding
  • F1 scores F1 scores.
  • CANES provides an influence measure, which is the difference between BA for all markers and BA for all markers other than a single marker. All these manipulations can be performed by four different evaluation schemes as shown in FIG.
  • CANES can perform predictive analysis using specific cancer types or studies. Users can create and store predictive models for their own multi-marker lists using selected datasets and classification models. Graphs and interactive results layouts may be provided and stored.
  • CANES stores the evaluation results, which can be used for different testing datasets. For example, a user may store a predictive model using a breast cancer marker and a breast cancer dataset and then evaluate the stored model in a liver cancer dataset.
  • CANES can evaluate multiple markers using LOOCV.
  • CANES can also support the evaluation of individual markers in a multi-marker set by measuring the performance contribution of the multi-marker.
  • CANES By using CANES, one can evaluate the predictive model generated by a user-provided dataset.
  • the user dataset is uploaded via a web-interface module, preprocessed and then normalized, and then used as a training dataset to apply different classification methods.
  • Predictive models trained using your own datasets are tested using datasets that are independent of the public repository.
  • CANES web-interface module 140 consists of an input layout and a result explorer.
  • the input layout is an interface for passing user-selected multiple markers and queried parameters to the evaluation module.
  • the user can inject a set of genetic symbols, miRNAs or probe IDs, and select preprocessed public datasets or user-uploaded individual datasets as training datasets.
  • the result explorer provides tabular and graphical visualization of the evaluation results.
  • CANES web-interface module 140 is implemented using PHP in addition to the JQuery and CodeIgniter frameworks.
  • CANES 100 for assessing the performance of single-cancer marker candidates and / or multi-cancer marker candidates from 18 tumor type datasets based on four evaluation schemes.
  • the schematic is shown.
  • the characteristic features of CANES are summarized and other biomarker-related databases (Oncomine, IPA-biomarker (http: // www. qiagen.com/ingenuity), cBioPortal).
  • CANES provides survival analysis using Kaplan-Meier plot and log-rank test, and 2) genes for diagnostic or prognosis as well as miRNA markers. Evaluation as a biomarker is performed, and 3) provides a pan-cancer evaluation result for each single marker (see Table 3).
  • CANES multi-marker prediction power of known breast cancer markers for another cancer type out of a panel of 18 tumor types.
  • One of the main features of CANES is the evaluation of multi-markers for multi-arm types. In this study, they assess the lung cancer predictive power of known breast cancer markers BRCA1, BRCA2, BRIP1, CHEK2, PALB2, RB1, and TP53 in lung cancer.
  • 5 shows CANES assessment reports for seven multiple breast cancer biomarkers, a support vector machine and rib-one-out using lung cancer datasets from 46 cancer tissues and 45 normal tissues as test datasets. The results are classified by leave-one-out cross-validation. 5 shows a representative of CANES performance reporting in a test dataset. Seven multi-markers (see FIG.
  • FIG. 5A were evaluated in the multi-cancer type (see FIG. 5B), which showed high AUC, BA, SN and SP in lung cancer (see FIG. 5C).
  • the performance evaluations show that these seven biomarkers could potentially be applied to lung cancer.
  • ERBB2-HER2 has been reported to be overexpressed in subsets of gliomas and gastric serous endometrial cancer, bladder cancer and lung cancer.
  • Pathological knowledge or therapeutic methods are commonly applicable for cancer types with the same transcript expression pattern.
  • CANES thus provides a powerful predictor for evaluating biomarkers for cancer types.
  • CANES 100 can be used as a reference for 18 cancer types in single or multi-markers for diagnosis and prognosis that can be used by clinicians as well as researchers for better patient classes, which are the reference components of targeted treatment success. It is a powerful tool for providing evaluation results.
  • prostate-specific antigen is the only approved serum biomarker, and despite its use, the guidelines are still controversial. Although whole genome and transcriptome sequencing is considered "personalized medicine" for patients diagnosed with a particular cancer, the cost / benefit of such a massive analysis is still controversial. Moreover, the use of such profiles to confirm the presence of diagnostic gene expression “signatures” is also in doubt. Even the well-known diagnostic biomarkers such as cancer embryo antigen (CEA, colon cancer), CA19-9 (pancreatic cancer), and CA-125 (ovarian cancer), little is known about the exact role of these markers in the progression of the disease.
  • CEA cancer embryo antigen
  • CA19-9 pancreatic cancer
  • CA-125 ovarian cancer
  • CANES a simple and user-friendly web-based application of single / multiple biomarker evaluation tools for evaluating multiple markers against a widely published cancer dataset. .
  • CANES can evaluate the performance of multiple biomarkers for a number of parameters (diagnosis, treatment response, survival rate, etc.) in areas where clinical success has been rarely successful. All evaluation results are provided with table and graph visualizations and can be downloaded as high-quality PDF images and CSV-based text-based spreadsheet files.
  • CANES is a powerful tool for evaluating multiple candidate markers in an independent dataset for diagnosis or prognosis.
  • CANES not only has access to all publicly available microarray datasets, but also RNA-seq datasets for specific cancers made recently with next-generation sequencing technology in the TCGA database.
  • CANES has been evaluated as a marker for the use of specific biomarker panels in a wide range of screenings for individual cancer types (at least for individuals in high-risk groups for these cancer types) (eg,> 95% sensitivity and> 95% specificity).
  • biomarkers with improved accuracy through the use of CANES.
  • confirming that there is a strong association between a particular gene (s) and a particular tumor may help to understand the mechanism of the tumor's progression (and possible inhibition thereof).
  • AUC area under the curve
  • BA balanced accuracy
  • CART classification and regression tree
  • GEO gene expression omnibus
  • FPR false positive rate
  • FDR false discovery rate
  • GC stomach cancer
  • ICGC international cancer genome consortium
  • LOOCV leave-one-out cross-validation
  • NN neural network
  • NPV negative predictive value
  • PPV positive predictive value
  • RF random forest
  • RMA multi-array mean
  • SVM support vector machine
  • TCGA Cancer Genomic Atlas

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명의 일실시예에 따른 암 바이오마커의 성능 평가 장치는, 공개 DB로부터 암 발현 데이트세트를 수집하여 전처리하는 전처리 모듈과, 상기 전처리된 암 발현 데이트세트를 재배열하여 새로운 암 정보 DB를 구축하는 데이터베이스 모듈과, 상기 구축된 새로운 암 정보 DB를 이용하여 암 유형별로 암 바이오마커의 성능을 평가하는 성능 평가 모듈을 포함으로써, 임의의 선별된 테스팅 데이터세트에서 저장된 예측 모델을 이용한 평가가 가능하고, 선별된 데이터세트를 이용한 리브-원-아웃 교차-검증(LOOCV)의 평가가 가능하며, 사용자-제공의 트레이닝 데이터세트 및 선별된 테스팅 데이터세트를 이용한 평가가 가능하며, 그리고 선별된 트레이닝 및 테스팅 데이터세트를 이용한 다중 마커의 평가가 가능하다.

Description

암 바이오마커의 성능 평가 장치 및 방법
본 발명은 암 바이오마커의 성능을 평가하는 장치 및 방법에 관한 것으로서, 더욱 상세하게는 바이오마커의 후보로서의 단일- 및/또는 다중-유전자를 평가하는 암 바이오마커의 성능을 평가하는 장치 및 방법에 관한 것이다.
인체에는 60가지 이상의 여러 조직에 200 종류 이상의 암이 존재한다. 이러한 암 종류는 조직, 원발 부위 세포의 종류, 및 종양의 진행을 유도하고, 치료 반응도에 영향을 주는 유전자 전사적 변형에 의해서 규정된다. 여러 조직의 몇몇 암들은 치료 반응도와 같은 많은 공통점을 가지는 반면에 동일한 조직으로부터의 몇몇 암의 서브타입은 꽤 상이한 것이 보통이다. 이러한 암의 특성들은 암 종류에 있는 단일 또는 다중 유전자의 분자 패턴에 따라 달라진다.
모든 암 종류에 대한 분자적 패턴의 전사체 분석으로 또 다른 것에 적용될 수 있는 하나의 암 종류의 병인 및 치료적 지식을 수득할 수 있다. 예를 들면, ERBB2-HER2는 교아 모세포종 및 위 암, 심각한 자궁내막 암, 방광 암 및 폐 암의 서브세트의 증폭물이다. 몇몇 경우 이러한 결과는 HER2-증폭 유방 암에서 이전에 관찰된 것과 유사한 HER2-표적 치료에 민감하다.
이러한 하나의 성공 스토리(ERRB2)에도 불구하고, 종양 바이오마커에 대한 무수한 논문들 중 100건 미만만이 승인을 받았다. 바이오마커의 벤치 투 베드사이드(즉, 실험실의 연구결과를 가능한 빨리 환자들에게 적용할 수 있는 시스템: 실험실에서 임상까지) 임상적 유용성의 문제를 해결하기 위해서, 임상으로의 적용을 증가시킬 목적으로 다양한 표준 및 가이드라인이 제시되어 개발 과정에 어려움을 주고 있다.
특히 1994년 이래로 승인된 84개의 바이오마커 중 53개만이 한 번의 시험에 사용되었으며, 한 시험 이상에 사용된 것은 30개이며, 평균 승인 기간은 15년이었다. 게다가, 몇 개의 예후 바이오마커(예를 들면, 난소 암을 위한 CA125 및 췌장 암을 위한 CA19-9)의 광범위한 용도에도 불구하고, 이들 각각의 종양의 진행에서의 이들 단백질의 정확한 역할에 있어서는 알려진 바가 적다.
대부분의 일반적인 암에 대해 진단 바이오마커를 스크리닝 하기 위해서는 일반적으로 95%의 특이성과 95%의 민감성의 높은 기준치를 요구한다. 일반적으로 단일 바이오마커로는 이와 같은 높은 기준치를 만족시키지 못하나, 여러 바이오마커를 이용한 바이오마커의 조합("바이오마커 패널")의 경우 이러한 기준치를 만족시킬 수 있다.
향후 “빅데이터”의 형태를 지닌 인간 유전자 발현 데이터는 GEO, TCGA, ICGC, ArrayExpress 및 Pan-cancer initiative와 같은 저장소에 지속적으로 저장될 것이다. 따라서 이러한 저장된 인간 유전자 발현 데이터를 이용한 후보 바이오마커 및 바이오마커 패널을 발굴할 수 있는 통합적인 분석 방법이 필요하다.
본 발명의 목적은 암 바이오마커의 후보로서의 단일- 및/또는 다중-유전자를 평가하는 암 바이오마커의 성능을 평가하는 장치 및 방법을 제공하는 것이다.
상기와 같은 본 발명의 과제를 해결하게 위해 본 발명은,
공개 DB로부터 암 발현 데이트세트를 수집하여 전처리하는 전처리 모듈; 상기 전처리된 암 발현 데이트세트를 재배열하여 새로운 암 정보 DB를 구축하는 데이터베이스 모듈; 및 상기 구축된 새로운 암 정보 DB를 이용하여 암 유형별로 암 바이오마커의 성능을 평가하는 성능 평가 모듈;을 포함하는 암 바이오마커의 성능 평가 장치를 제공한다.
본 발명의 일실시예에 있어서, 암 유형별로 평가된 암 바이오마커의 성능 평가 결과를 맵핑, 그래프 또는 표로 표시하는 웹-인터페이스 모듈을 더 포함할 수 있다.
본 발명의 일실시예에 있어서, 상기 전처리 모듈은, 상기 수집된 암 발현 데이터세트를 분석하여 변위치 정규화(quantile normalization) 및 로우버스트 다중-어레이 평균(robust multiple-array; RMA) 정규화를 이용하여 정규화하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 전처리 모듈은, TCGA 공개 DB에서 RNA 시퀀싱에 의한 RNA 발현 데이터에 대해서는, 정규화된 계수를 발현값으로 사용하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 전처리 모듈은, 그룹-내 상관관계(within-group correlation) 및 그룹-간 상관관계(between-group correlation)를 이용해 이상값(outlier)을 검출하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 전처리 모듈은, 사용자의 외부 입력에 따라 상기 검출된 이상값을 갖는 샘플을 배제하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 전처리 모듈은, 상기 수집된 암 발현 데이트세트가 임상적 정보 및 샘플 주석을 포함하는 경우, 진단, 예후 및 약물 반응 정보의 분석을 통하여 새로운 데이터세트로 설계하여 정확한 암 타입 또는 서브타입을 규정하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 데이터베이스 모듈은 상기 전처리된 발현 데이터세트 및 이에 상응하는 주석데이터를 포함하는 것일 수 있다.
*본 발명의 일실시예에 있어서, 상기 데이터베이스 모듈은, 모든 발현 데이터를 사용자 맞춤형 인덱스 바이너리 파일 형태로 저장하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 성능 평가 모듈은 사용자-선별된 다중 마커의 경우, 곡선 아래 면적(AUC), 밸런스 정확도(BA), 민감도, 특이성, 양성 예측값(PPV), 음성 예측값(NPV), 위양성율(FPR), 위발견율(FDR), 및 F1 스코어 중 적어도 어느 하나를 포함하는 평가 결과를 제공하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 성능 평가 모듈은, 다중-마커의 성능에 대한 단일 마커의 기여도를 측정하기 위해, 모든 마커에 대한 밸런스 정확도(BA)와 단일 마커 이외의 모든 마커에 대한 밸런스 정확도(BA) 간의 차이를 제공하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 웹-인터페이스 모듈는, 사용자-선별 다중 마커와 쿼리 파라미터(queried parameter)를 상기 성능 평가 모듈로 트랜스퍼하는 인풋 레이아웃; 및 상기 성능 평가 결과에 대한 표 및 그래프 시각화를 제공하는 결과 익스플로어를 포함하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 인풋 레이아웃은, 트레이닝 데이터세트로서 전처리된 공개 데이터세트 또는 사용자 제공 개별 데이터세트를 선별하는 것일 수 있다.
또한, 본 발명은 공개 DB로부터 암 발현 데이트세트를 수집하여 전처리하는 단계; 상기 전처리된 암 발현 데이트세트를 재배열하여 새로운 암 정보 DB를 구축하는 단계; 및 상기 구축된 새로운 암 정보 DB를 이용하여 암 유형별로 암 바이오마커의 성능을 평가하는 단계;를 포함하는 암 바이오마커의 성능 평가 방법을 제공한다.
본 발명의 일실시예에 있어서, 암 유형별로 평가된 암 바이오마커의 성능 평가 결과를 맵핑, 그래프 또는 표로 표시하는 성능 평가 결과 표시 단계를 더 포함할 수 있다.
본 발명의 일실시예에 있어서, 상기 전처리하는 단계에서는, 상기 수집된 암 발현 데이터세트를 분석하여 변위치 정규화(quantile normalization) 및 로우버스트 다중-어레이 평균(robust multiple-array; RMA) 정규화를 이용하여 정규화하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 전처리하는 단계에서는, 그룹-내 상관관계(within-group correlation) 및 그룹-간 상관관계(between-group correlation)를 이용해 이상값(outlier)을 검출하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 전처리하는 단계에서는, 상기 수집된 암 발현 데이트세트가 임상적 정보 및 샘플 주석을 포함하는 경우, 진단, 예후 및 약물 반응 정보의 분석을 통하여 새로운 데이터세트로 설계하여 정확한 암 타입 또는 서브타입을 규정하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 새로운 암 정보 DB를 구축하는 단계에서는, 모든 발현 데이터를 사용자 맞춤형 인덱스 바이너리 파일 형태로 저장하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 성능 평가 단계에서는, 사용자-선별된 다중 마커의 경우, 곡선 아래 면적(AUC), 밸런스 정확도(BA), 민감도, 특이성, 양성 예측값(PPV), 음성 예측값(NPV), 위양성율(FPR), 위발견율(FDR), 및 F1 스코어 중 적어도 어느 하나를 포함하는 평가 결과를 제공하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 성능 평가 단계에서는, 다중-마커의 성능에 대한 단일 마커의 기여도를 측정하기 위해, 모든 마커에 대한 밸런스 정확도(BA)와 단일 마커 이외의 모든 마커에 대한 밸런스 정확도(BA) 간의 차이를 제공하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 성능 평가 결과 표시 단계에서는, 선별된 트레이닝 및 테스팅 데이터세트를 이용한 다중 마커의 평가와, 임의의 선별된 테스팅 데이터세트에 대한 저장된 예측 모델을 이용한 평가와, 선별된 데이터세트를 이용한 리브-원-아웃 교차-검증(LOOCV)의 평가와, 사용자-제공의 트레이닝 데이터세트 및 선별된 테스팅 데이터세트를 이용한 평가 중 적어도 어느 하나의 평가를 수행하는 것일 수 있다.
본 발명의 일실시예에 있어서, 상기 성능 평가 결과 표시 단계에서는, 트레이닝 데이터세트로서 전처리된 공개 데이터세트 또는 사용자 제공 개별 데이터세트를 선별하는 것일 수 있다.
본 발명에 따른 암 바이오마커의 성능을 평가하는 장치 및 방법은 선별된 트레이닝 및 테스팅 데이터세트를 이용한 다중 마커의 평가를 할 수 있으며, 임의의 선별된 테스팅 데이터세트에서 저장된 예측 모델을 이용하여 평가할 수 있다. 또한, 본 발명의 암 바이오마커의 성능을 평가하는 장치 및 방법은 선별된 데이터세트를 이용한 리브-원-아웃 교차-검증(LOOCV)의 평가를 할 수 있으며, 사용자-제공의 트레이닝 데이터세트 및 선별된 테스팅 데이터세트를 이용한 평가를 할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 암 바이오마커의 성능을 평가하는 장치의 기능 블록도이고,
도 2는 본 발명의 실시예에 따른 암 바이오마커의 성능을 평가하는 방법의 순서도이고,
도 3은 본 발명의 실시예에 따른 암 바이오마커의 성능을 평가하는 과정을 기능 단위로 블록화한 것이고,
도 4는 본 발명의 실시예에 따라 18가지의 종양 유형 데이터세트로부터 단일-암 마커 후보물질 및/또는 다중-암 마커 후보물질의 성능 평가의 전반적인 과정을 도시한 것이고,
도 5A 내지 5C는 7가지의 다중 유방암 바이오마커에 대한 CANES 평가 보고를, 테스트 데이터세트와 폐암 데이터세트를 이용한 서포트 벡터 머신과 리브-원-아웃 교차 검증에 의해 분류한 것을 도시한 것이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하며, 단수로 기재된 용어도 복수의 개념을 포함할 수 있다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
지난 10년 동안 상당량의 “빅 데이터”형태의 암 관련 유전자 발현자료를 축적한 저장소가 지속적으로 개발되어왔다. 이러한 데이터세트의 많은 잠재력에도 불구하고, 암 관련 분야에는 여전히 단일/다중 바이오마커를 임상적으로 평가하는 일관된 방법의 부족으로 인해 승인된 바이오마커의 수가 거의 없는 실정이다.
여기서, 본 발명자들은 다양한 분류 방법을 사용해서 바이오마커 후보로서 단일- 및/또는 다중-유전자를 평가하는 초기 단계에 있어서 포괄적인 평가 방식인 “암-특이적 평가 시스템(CANES, CANcer-specific multi-marker Evaluation System)”을 개발하였다.
본 발명자들은 94,147 샘플(세포주, 정상 및 암 조직)을 가지고 전체 2,134 전사체 데이터세트를 다루는 분류 방법을 사용하는, 바이오마커 평가를 위한 직관적으로 이해가능하며, 임상적으로 가치있는 웹-기반 암-특이적 다중-마커 평가 시스템(CANES)을 소개한다. CANES는 단일 및 다중 암 마커 상에서 서포트 벡터 머신, 랜덤 포레스트, 신경망 및 분류 및 회귀 트리를 통한 엄격한 평가에 의해 18개 암 종류에 대한 진단 및 예후 평가력을 측정한다. 사용자가 제공하는 다중 마커에 있어서, CANES는 단순화한 평가 결과 및 그래픽 시각화를 제공한다. 최종적으로, 본 발명자들은 이전에 연구되지 않은 바이오마커 세트에 대한 두 가지의 분석을 실행하여 CANES의 유용성을 입증하였다.
이하에서 첨부된 도면을 참조하여 본 발명의 일실시예에 따른 암 바이오마커의 성능을 평가하는 장치 및 방법을 설명한다.
도 1은 본 발명의 일실시예에 따른 암 바이오마커의 성능을 평가하는 장치의 기능 블록도이고, 도 2는 본 발명의 실시예에 따른 암 바이오마커의 성능을 평가하는 방법의 순서도이다.
도 1 및 2를 참조하면, 본 발명의 일실시예에 따른 암 바이오마커의 성능 평가 장치(100)는, 공개 DB로부터 암 발현 데이트세트를 수집하여 전처리하는 전처리 모듈(110)과, 상기 전처리된 암 발현 데이트세트를 재배열하여 새로운 암 정보 DB를 구축하는 데이터베이스 모듈과(120), 상기 구축된 새로운 암 정보 DB를 이용하여 암 유형별로 암 바이오마커의 성능을 평가하는 성능 평가 모듈(130)을 포함한다. 바람직하게, 암 바이오마커의 성능 평가 장치(100)는 암 유형별로 평가된 암 바이오마커의 성능 평가 결과를 맵핑, 그래프 또는 표로 표시하는 웹-인터페이스 모듈(140)을 더 포함할 수 있다.
본 발명자들은 암 바이오마커의 성능 평가 장치(100)를 CANES(100)라 지칭하였으며, 이하에서 CANES(100)는 성능 평가 장치(100)를 의미한다.
본 발명자들은 CANES(100)의 유용성을 설명하기 위해 특정 암-종류 바이오마커를 또 다른 암 종류의 바이어마커로 운반하기 위한 CANES의 유용성을 설명하는 폐암 통계에 대한 7개의 공지된 유방암 마커의 잠재적인 재평가를 실시하였다.
도 3은 본 발명의 실시예에 따른 암 바이오마커의 성능을 평가하는 과정을 기능 단위로 블록화한 것이고, 도 4는 본 발명의 실시예에 따라 18가지의 종양 유형 데이터세트로부터 단일-암 마커 후보물질 및/또는 다중-암 마커 후보물질의 성능 평가의 전반적인 과정을 도시한 것이고, 도 5A 내지 C는 7가지의 다중 유방암 바이오마커에 대한 CANES 평가 보고를, 테스트 데이터세트와 폐암 데이터세트를 이용한 서포트 벡터 머신과 리브-원-아웃 교차 검증에 의해 분류한 것을 도시한 것이다.
이하에서는 도 1 내지 5C를 참조하여, 본 발명의 일실시예에 따른 일실시예에 따른 암 바이오마커의 성능 평가 장치(100)를 더욱 상세히 설명한다.
CANES(100)는 공개 데이터베이스로부터 입수한 RNA 분자적 프로파일을 수집하고, 맵핑 프로세스(mapping process)와 품질 관리 과정에 따라 종양 유형으로 재분류하였다. 공개적인 발현 데이터세트를 이용해, CANES(100)는 다양한 암 유형 또는 연구에서 사용자-특이화된 다중 마커에 대한 평가 결과를 제공한다. 도 1에 도시된 CANES(100)는 4가지 모듈(module)인 전처리 모듈(110), 데이터베이스 모듈(120), 성능 평가 모듈(130)및 웹-인터페이스 모듈(140)을 가진다.
이하, CANES(100)에 포함된 4가지 모듈(module)인 전처리 모듈(110), 데이터베이스 모듈(120), 성능 평가 모듈(130) 및 웹-인터페이스 모듈(140)에 대하여 더욱 상세히 설명한다.
1. 전처리 모듈(110)에 대하여,
현재 개발된 CANES(110)는 2가지 공개 리파지토리(repository)와 2가지 암 컨소시엄인 GEO, ArrayExpress, TCGA, 및 ICGC로부터 수득한 마이크로어레이 데이터를 사용한다. 모든 발현 데이터세트는 R 패키지를 사용해 수집될 수 있다. CANES의 전처리 모듈(110)에서, 공개 리파지토리로부터 수득한 발현 데이터세트를 분석하고, 변위치 정규화(quantile normalization) 및 로우버스트 다중-어레이 평균(robust multiple-array; RMA) 정규화를 이용하여 정규화한다. TCGA 리파지토리에서 RNA 시퀀싱에 의한 RNA 발현 데이터에 대해, 본 발명자들은 정규화된 계수를 발현값으로서 사용하였다. 결측율(missing rate)이 5% 초과인 모든 데이터세트는 배제하였으며, 결측율을 가진 나머지 데이터세트를 Bioconductor의 “임퓨트(impute)” 패키지에 의해 결측값을 대체하였다. 장비의 에러나 샘플의 오염, 표지실수(mislabeling) 및 프로세싱실수(misprocessing)로 인해 유발되는 이상값(outlier)을 검출하기 위해, 본 발명자들은 그룹-내 상관관계(within-group correlation) 및 그룹-간 상관관계(between-group correlation)를 이용해 이상값 검출을 수행하였다. 모든 검출된 이상값의 샘플에 표시를 해두기 때문에, 사용자들은 구체적인 옵션을 이용해 자신들의 분석에서 이들 이상값의 샘플을 배제할 수 있다. 더욱이, 임상적 정보 및 샘플 주석이 이용 가능한 경우, 이들을 CANES의 데이터베이스로 분석한다. 정확한 암 유형 또는 아형(subtype)을 규정하기 위해, 본 발명자들은 진단, 예후 및 약물 반응을 데이터세트의 설계로서 확인하거나 재유형화하였다. 모든 프로세싱된 발현 데이터는 빠른 전처리를 위해 사용자 맞춤형 인덱스 바이너리 파일(customized indexed binary file)로 변환한다. 전처리 모듈은 Python 및 R을 사용해 구현하였다.
2. 데이터베이스 모듈(120)에 대하여,
데이터베이스 모듈(120)은 전처리된 발현 데이터세트 및 상응하는 주석 데이터(annotation data)를 포함한다. 표 1을 참조하면, 전처리된 데이터세트는 94,147개 샘플에 대한 유전자 발현 데이터와 주석 데이터로 구성된다. 유전자 발현 데이터는, 광범위하게 사용되는 유전자 발현 마이크로어레이 플랫폼과 RNA 시퀀싱 플랫폼과 함께 이들 샘플로부터 수득된 다음 기술된 바와 같이 처리된다. 데이터베이스 모듈(120)은 MySQL 및 Python을 사용해 구현되었다. 모든 발현 데이터는 사용자 맞춤형 인덱스 바이너리 파일로서 저장된다. 하기 표 1은 CANES에서 샘플의 수를 나타낸 것이다.
[규칙 제91조에 의한 정정 25.01.2016] 
Figure WO-DOC-TABLE-1
3. 성능 평가 모듈(130)에 대하여,
CANES의 성능 평가 모듈(130)은 SVM, RF, NN, 및 CART와 같은 분류화 방법을 이용해 실행한다. 표 2를 참조하면, 사용자-선별된 다중 마커의 경우, 이 모듈은 곡선 아래 면적(AUC), 밸런스 정확도(BA), 민감도, 특이성, 양성 예측값(PPV), 음성 예측값(NPV), 위양성율(FPR), 위발견율(FDR), 및 F1 스코어를 포함하는 평가 결과를 제공한다. 다중-마커의 성능에 대한 단일 마커의 기여도를 측정하기 위해, CANES는, 모든 마커에 대한 BA와 단일 마커 이외의 모든 마커에 대한 BA 간의 차이인 영향 측정(influence measure)을 제공한다. 이러한 모든 조작은 도 4에 도시된 바와 같이, 다음과 같은 4가지 서로 다른 평가 도식에 의해 수행될 수 있다.
[규칙 제91조에 의한 정정 25.01.2016] 
Figure WO-DOC-TABLE-2
1) 선별된 트레이닝 및 테스팅 데이터세트를 이용한 다중 마커의 평가
CANES는 특정 암 유형 또는 연구를 이용해 예측 분석을 수행할 수 있다. 사용자는, 선별된 데이터세트 및 분류화 모델을 이용해 자기 자신의 다중-마커 목록에 대한 예측 모델을 만들어 저장할 수 있다. 그래프 및 상호작용 결과 레이아웃이 제공되며 저장될 수 있다.
2) 임의의 선별된 테스팅 데이터세트에서, 저장된 예측 모델을 이용한 평가
CANES는 평가 결과를 저장하며, 이 평가 결과는 서로 다른 테스팅 데이터세트에 사용될 수 있다. 예를 들어, 사용자는 유방암 마커 및 유방암 데이터세트를 이용한 예측 모델을 저장한 다음, 이 저장된 모델을 간암 데이터세트에서 평가할 수 있다.
3) 선별된 데이터세트를 이용한 리브-원-아웃 교차-검증(LOOCV)의 평가
임의의 특정 트레이닝 데이터세트에 의한 과적응(overfit)을 방지하기 위해, CANES는 LOOCV를 사용해 다중 마커를 평가할 수 있다. 이러한 평가 도식에서, CANES는 다중-마커의 성능 기여도를 측정함으로써 다중-마커 세트에서의 개별 마커의 평가를 또한 뒷받침할 수 있다.
4) 사용자-제공의 트레이닝 데이터세트 및 선별된 테스팅 데이터세트를 이용한 평가
CANES를 이용함으로써, 사용자-제공의 데이터세트에 의해 발생된 예측 모델을 평가할 수 있다. 사용자 데이터세트는 웹-인터페이스 모듈을 통해 업로드되며, 전처리된 다음 정규화되고, 이후 서로 다른 분류화 방법을 적용하는 트레이닝 데이터세트로서 사용된다. 사용자 자신의 데이터세트를 이용해 트레이닝된 예측 모델은 공개 저장소와 독립적인 데이터세트를 이용해 테스트된다.
4. 웹-인터페이스 모듈(140)에 대하여,
CANES의 웹-인터페이스 모듈(140)은 인풋 레이아웃(input layout)과 결과 익스플로어(result explorer)로 구성된다. 인풋 레이아웃은 사용자-선별 다중 마커와 쿼리 파라미터(queried parameter)를 평가 모듈로 전달하는 인터페이스이다. 상기 인풋 레이아웃에서, 사용자는 유전자 기호, miRNA또는 프로브 ID 세트를 투입하고, 전처리된 공개 데이터세트 또는 사용자-업로드된 개별 데이터세트를 트레이닝 데이터세트로서 선별할 수 있다. 상기 결과 익스플로어는 평가 결과에 대한 표 및 그래프 시각화를 제공한다. CANES 웹-인터페이스 모듈(140)은 JQuery 및 CodeIgniter 프레임워크와 더불어 PHP를 사용해 구현된다.
이하에서는 CANES(100)의 주요 특징들을 상세히 기술한다.
도 1, 3 내지 4는 4가지 평가 도식을 기반으로, 18가지의 종양 유형 데이터세트로부터 단일-암 마커 후보물질 및/또는 다중-암 마커 후보물질의 성능을 평가하기 위한 CANES(100)의 전반적인 도식을 도시한 것이다. CANES의 특색적인 특징이 요약되어 있으며, 표 1에 기술된 바이오마커 평가에 필수적인 툴-기능(tool-function)의 면에서 다른 바이오마커-관련 데이터베이스 (Oncomine, IPA-biomarker (http://www.qiagen.com/ingenuity), cBioPortal)와 비교되어 있다.
또한, 1) CANES는 카플란-마이어 플롯(Kaplan-Meier plot) 및 로그-랭크 테스트(log-rank test)를 이용한 생존율 분석을 제공하고, 2) miRNA 마커 뿐만 아니라 진단 또는 예후를 목적으로 하는 유전자의 바이오마커로써의 평가를 수행하며, 3) 각각의 단일 마커에 대한 전암적인(Pan-cancer) 평가 결과를 제공한다(표 3 참조).
[규칙 제91조에 의한 정정 25.01.2016] 
Figure WO-DOC-TABLE-3
폐암에 대한 유방암 마커의 다중-마커 평가
본 발명자들은 18가지 종양 유형의 패널 중에서 또 다른 암 유형에 대한 공지의 유방암 마커의 다중-마커 예측력(prediction power)을 평가하였다. CANES의 주요 특징들 중 하나는 다중-암 유형에 대한 다중-마커를 평가하는 것이다. 본 연구에서, 이들은 폐암에서 공지의 유방암 마커인 BRCA1, BRCA2, BRIP1, CHEK2, PALB2, RB1, 및 TP53의 폐암 예측력을 평가한다. 도 5는 7가지의 다중 유방암 바이오마커에 대한 CANES 평가 보고를, 테스트 데이터세트로서 46개의 암 조직과 45개의 정상 조직으로부터 폐암 데이터세트를 이용한 서포트 벡터 머신(support vector machine)과 리브-원-아웃 교차 검증(leave-one-out cross-validation)에 의해 분류하여 나타낸 것이다. 도 5는 테스트 데이터세트에서 CANES 성능 보고의 대표를 나타낸 것이다. 7가지 다중-마커(도 5A 참조)를 다중-암 유형(도 5B 참조)에서 평가하였으며, 이는 폐암에서 높은 AUC, BA, SN 및 SP를 나타내었다(도 5C 참조). 이들은, 성능 평가를 통해 이들 7가지의 바이오마커가 폐암에도 잠재적으로 적용될 수 있음을 보여준다. 기존의 보고에서, ERBB2-HER2는 교아종 및 위 장액성 자궁내막암(gastric serous endometrial cancer), 방광암 및 폐암의 서브셋에서 과발현되는 것이 보고되어 있다. 병리학적 지식이나 치료적인 방법은 동일한 전사체 발현 패턴을 가지는 암 유형에 대해 공통으로 적용할 수 있다. 따라서 CANES는 암 유형에 대한 바이오마커를 평가하는 강력한 예측수단을 제공한다.
결론적으로, CANES(100)는 표적 치료 성공의 기준 성분인 더 나은 환자 계층을 위한 임상의 뿐만 아니라 연구원에 의해 사용될 수 있는 진단 및 예후를 위한 단일 또는 다중-마커에 있어서 18개의 암 종류에 대한 경관 평가 결과를 제공하는 강력한 도구이다.
1000가지가 넘는 문헌에도 불구하고, 임상적으로 승인된 바이오마커의 실제 수는 100개 미만이다. 스크리닝을 목적으로, 전립선-특이 항원(PSA)이 유일하게 승인된 혈청 바이오마커이며, 이의 용도에도 불구하고 가이드라인은 여전히 논쟁적이다. 전체 게놈 및 전사체 시퀀싱이 특정 암을 진단받은 환자에 대한 “개인화된 의학”으로 여겨지긴 하지만, 이러한 광범위(massive) 분석의 비용/이점은 여전히 논쟁 중이다. 더욱이, 이러한 프로파일을 진단학적 유전자 발현 “시그너처”의 존재 여부를 확인하기 위해 사용하는 것 또한 의구심을 받고 있다. 암 배아 항원 (CEA, 결장암), CA19-9 (췌장암), 및 CA-125 (난소암)과 같이 잘 알려진 진단학적 바이오마커조차, 질환의 진행에 있어서 이런 마커들의 정확한 역할은 거의 알려져 있지 않다.
이러한 쟁점을 해결하기 위해, 본 발명자들은 광범위하게 공개된 암 데이터세트에 대한 다중 마커를 평가하는 데 있어 간단하면서도 사용자-친화적인 웹-기반 적용의 단일/다중 바이오마커 평가 툴인 CANES를 설계, 개발하였다. 더욱이, CANES는 임상에서 거의 성공을 거둔 적이 없는 영역에서 다수의 파라미터 (진단, 치료 반응, 생존율 등)에 대한 다중 바이오마커의 성능을 평가할 수 있다. 모든 평가 결과는 표 및 그래프 시각화와 함께 제공되며, 고품질의 PDF 이미지와 CSV-기반의 텍스트기반의 스프레드시트 파일로 다운로드받을 수 있다. CANES는 진단 또는 예후에 대한 독립적인 데이터세트에서 다중 후보물질 마커를 평가하는 강력한 툴이다. 현재, CANES는 모든 공개적으로 이용가능한 마이크로어레이 데이터 세트를 이용가능할 뿐만 아니라, 최근에는 TCGA 데이터베이스에서 차세대 시퀀싱 기술을 이용해 만들어진 특정 암에 대한 RNA-seq 데이터세트도 이용가능하다.
CANES의 유용성은 전술한 예시들 외에 더 존재한다. 예를 들어, CANES는 개별 암 유형에 대한 (최소한, 이러한 암 유형에 대해 고 위험군에 속하는 개체들에 대한) 광범위한 스크리닝에서 특정 바이오마커 패널을 사용할 경우의 마커로써의 평가결과 (예를 들어, > 95% 민감도 및 > 95% 특이성)를 제공하는 데 사용될 수 있다. 본 발명자들은 CANES의 사용을 통해 향상된 정확도를 가진 바이오 마커의 개발을 편리하게 해 준다. 더욱이, 연구의 관점에서, 특정 유전자(들)와 특정 종양과 강한 연관성이 있음을 확인하는 것은 해당 종양의 진행 (및 이의 가능한 저해)에 대한 메커니즘적인 이해를 도울 수 있다.
요약하자면, 본 발명자들은 특정 암 유형에 대한 단일 바이오마커 또는 다중 바이오마커 세트의 연구/개발을 위한 공개적으로 이용가능한 새로운 툴을 개발하였다. 이 툴은 특정 암 유형을 특징화하고, 암의 진행 경로를 확인하고, 개별 바이오마커의 잠재적인 임상적 유용성 (예를 들어, 진단, 예후, 생존율 등)을 크게 향상시키려는 임상 및 바이오메디칼 연구 커뮤니티에 특히 유용할 것이다.
본 발명에서 사용된 약어 목록
AUC, 곡선 아래 면적; BA, 밸런스 정확도(balanced accuracy); CART, 분류 및 회귀 나무(classification and regression tree); GEO, 유전자 발현 옴니부스; FPR, 위양성율(false positive rate); FDR, 위발견율(false discovery rate); GC, 위암; ICGC, 국제 암 게놈 협력단(international cancer genome consortium); LOOCV, 리브-원-아웃 교차-검증(leave-one-out cross-validation); NN, 신경망; NPV, 음성 예측값; PPV, 양성 예측값; RF, 랜덤 포레스트(random forest); RMA, 다중-어레이 평균; SVM, 서포트 벡터 머신(support vector machine); TCGA, 암 게놈 아틀라스;
*이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로써, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다. 또한, 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있다.

Claims (23)

  1. 공개 DB로부터 암 발현 데이트세트를 수집하여 전처리하는 전처리 모듈;
    상기 전처리된 암 발현 데이트세트를 재배열하여 새로운 암 정보 DB를 구축하는 데이터베이스 모듈; 및
    상기 구축된 새로운 암 정보 DB를 이용하여 암 유형별로 암 바이오마커의 성능을 평가하는 성능 평가 모듈;
    을 포함하는 암 바이오마커의 성능 평가 장치.
  2. 제1항에 있어서,
    암 유형별로 평가된 암 바이오마커의 성능 평가 결과를 맵핑, 그래프 또는 표로 표시하는 웹-인터페이스 모듈을 더 포함하는 암 바이오마커의 성능 평가 장치.
  3. 제1항에 있어서,
    상기 전처리 모듈은, 상기 수집된 암 발현 데이터세트를 분석하여 변위치 정규화(quantile normalization) 및 로우버스트 다중-어레이 평균(robust multiple-array; RMA) 정규화를 이용하여 정규화하는 것을 특징으로 하는 암 바이오마커의 성능 평가 장치.
  4. 제3항에 있어서,
    상기 전처리 모듈은, TCGA 공개 DB에서 RNA 시퀀싱에 의한 RNA 발현 데이터에 대해서는, 정규화된 계수를 발현값으로 사용하는 것을 특징으로 하는 암 바이오마커의 성능 평가 장치.
  5. 제1항에 있어서,
    상기 전처리 모듈은, 그룹-내 상관관계(within-group correlation) 및 그룹-간 상관관계(between-group correlation)를 이용해 이상값(outlier)을 검출하는 것을 특징으로 하는 암 바이오마커의 성능 평가 장치.
  6. 제5항에 있어서,
    상기 전처리 모듈은, 사용자의 외부 입력에 따라 상기 검출된 이상값을 갖는 샘플을 배제하는 것을 특징으로 하는 암 바이오마커의 성능 평가 장치.
  7. 제1항에 있어서,
    상기 전처리 모듈은, 상기 수집된 암 발현 데이트세트가 임상적 정보 및 샘플 주석을 포함하는 경우, 진단, 예후 및 약물 반응 정보의 분석을 통하여 새로운 데이터세트로 설계하여 정확한 암 타입 또는 서브타입을 규정하는 것을 특징으로 하는 암 바이오마커의 성능 평가 장치.
  8. 제1항에 있어서,
    상기 데이터베이스 모듈은 상기 전처리된 발현 데이터세트 및 이에 상응하는 주석데이터를 포함하는 것을 특징으로 하는 암 바이오마커의 성능 평가 장치.
  9. 제8항에 있어서,
    상기 데이터베이스 모듈은, 모든 발현 데이터를 사용자 맞춤형 인덱스 바이너리 파일 형태로 저장하는 것을 특징으로 하는 암 바이오마커의 성능 평가 장치.
  10. 제1항에 있어서,
    상기 성능 평가 모듈은 사용자-선별된 다중 마커의 경우, 곡선 아래 면적(AUC), 밸런스 정확도(BA), 민감도, 특이성, 양성 예측값(PPV), 음성 예측값(NPV), 위양성율(FPR), 위발견율(FDR), 및 F1 스코어 중 적어도 어느 하나를 포함하는 평가 결과를 제공하는 것을 특징으로 하는 암 바이오마커의 성능 평가 장치.
  11. 제1항에 있어서,
    상기 성능 평가 모듈은, 다중-마커의 성능에 대한 단일 마커의 기여도를 측정하기 위해, 모든 마커에 대한 밸런스 정확도(BA)와 단일 마커 이외의 모든 마커에 대한 밸런스 정확도(BA) 간의 차이를 제공하는 것을 특징으로 하는 암 바이오마커의 성능 평가 장치.
  12. 제2항에 있어서,
    상기 웹-인터페이스 모듈는,
    사용자-선별 다중 마커와 쿼리 파라미터(queried parameter)를 상기 성능 평가 모듈로 트랜스퍼하는 인풋 레이아웃; 및
    상기 성능 평가 결과에 대한 표 및 그래프 시각화를 제공하는 결과 익스플로어를 포함하는 것을 특징으로 하는 암 바이오마커의 성능 평가 장치.
  13. 제12항에 있어서,
    상기 인풋 레이아웃은, 트레이닝 데이터세트로서 전처리된 공개 데이터세트 또는 사용자 제공 개별 데이터세트를 선별하는 것을 특징으로 하는 암 바이오마커의 성능 평가 장치.
  14. 공개 DB로부터 암 발현 데이트세트를 수집하여 전처리하는 단계;
    상기 전처리된 암 발현 데이트세트를 재배열하여 새로운 암 정보 DB를 구축하는 단계; 및
    상기 구축된 새로운 암 정보 DB를 이용하여 암 유형별로 암 바이오마커의 성능을 평가하는 단계;
    를 포함하는 암 바이오마커의 성능 평가 방법.
  15. 제14항에 있어서,
    암 유형별로 평가된 암 바이오마커의 성능 평가 결과를 맵핑, 그래프 또는 표로 표시하는 성능 평가 결과 표시 단계를 더 포함하는 암 바이오마커의 성능 평가 방법.
  16. 제14항에 있어서,
    상기 전처리하는 단계에서는, 상기 수집된 암 발현 데이터세트를 분석하여 변위치 정규화(quantile normalization) 및 로우버스트 다중-어레이 평균(robust multiple-array; RMA) 정규화를 이용하여 정규화하는 것을 특징으로 하는 암 바이오마커의 성능 평가 방법.
  17. 제14항에 있어서,
    상기 전처리하는 단계에서는, 그룹-내 상관관계(within-group correlation) 및 그룹-간 상관관계(between-group correlation)를 이용해 이상값(outlier)을 검출하는 것을 특징으로 하는 암 바이오마커의 성능 평가 방법.
  18. 제14항에 있어서,
    상기 전처리하는 단계에서는, 상기 수집된 암 발현 데이트세트가 임상적 정보 및 샘플 주석을 포함하는 경우, 진단, 예후 및 약물 반응 정보의 분석을 통하여 새로운 데이터세트로 설계하여 정확한 암 타입 또는 서브타입을 규정하는 것을 특징으로 하는 암 바이오마커의 성능 평가 방법.
  19. 제14항에 있어서,
    상기 새로운 암 정보 DB를 구축하는 단계에서는, 모든 발현 데이터를 사용자 맞춤형 인덱스 바이너리 파일 형태로 저장하는 것을 특징으로 하는 암 바이오마커의 성능 평가 방법.
  20. 제14항에 있어서,
    상기 성능 평가 단계에서는, 사용자-선별된 다중 마커의 경우, 곡선 아래 면적(AUC), 밸런스 정확도(BA), 민감도, 특이성, 양성 예측값(PPV), 음성 예측값(NPV), 위양성율(FPR), 위발견율(FDR), 및 F1 스코어 중 적어도 어느 하나를 포함하는 평가 결과를 제공하는 것을 특징으로 하는 암 바이오마커의 성능 평가 방법.
  21. 제14항에 있어서,
    상기 성능 평가 단계에서는, 다중-마커의 성능에 대한 단일 마커의 기여도를 측정하기 위해, 모든 마커에 대한 밸런스 정확도(BA)와 단일 마커 이외의 모든 마커에 대한 밸런스 정확도(BA) 간의 차이를 제공하는 것을 특징으로 하는 암 바이오마커의 성능 평가 방법.
  22. 제20항 또는 제21항에 있어서,
    상기 성능 평가 결과 표시 단계에서는,
    선별된 트레이닝 및 테스팅 데이터세트를 이용한 다중 마커의 평가와, 임의의 선별된 테스팅 데이터세트에 대한 저장된 예측 모델을 이용한 평가와, 선별된 데이터세트를 이용한 리브-원-아웃 교차-검증(LOOCV)의 평가와, 사용자-제공의 트레이닝 데이터세트 및 선별된 테스팅 데이터세트를 이용한 평가 중 적어도 어느 하나의 평가를 수행하는 것을 특징으로 하는 암 바이오마커의 성능 평가 방법.
  23. 제15항에 있어서,
    상기 성능 평가 결과 표시 단계에서는, 트레이닝 데이터세트로서 전처리된 공개 데이터세트 또는 사용자 제공 개별 데이터세트를 선별하는 것을 특징으로 하는 암 바이오마커의 성능 평가 방법.
PCT/KR2015/012228 2015-01-21 2015-11-13 암 바이오마커의 성능 평가 장치 및 방법 WO2016117812A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2015-0009686 2015-01-21
KR1020150009686A KR101765999B1 (ko) 2015-01-21 2015-01-21 암 바이오마커의 성능 평가 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2016117812A1 true WO2016117812A1 (ko) 2016-07-28

Family

ID=56417308

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/012228 WO2016117812A1 (ko) 2015-01-21 2015-11-13 암 바이오마커의 성능 평가 장치 및 방법

Country Status (2)

Country Link
KR (1) KR101765999B1 (ko)
WO (1) WO2016117812A1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991536A (zh) * 2019-12-02 2020-04-10 上海应用技术大学 原发性肝癌的早期预警模型的训练方法
CN111584005A (zh) * 2020-04-12 2020-08-25 鞍山师范学院 一种基于融合不同模式标志物的分类模型构建算法
CN111796095A (zh) * 2019-04-09 2020-10-20 苏州扇贝生物科技有限公司 一种蛋白质组质谱数据处理方法及装置
CN113604544A (zh) * 2021-08-03 2021-11-05 北京大学口腔医学院 一种生物材料功能预测评价方法
CN116189897A (zh) * 2023-04-24 2023-05-30 四川省医学科学院·四川省人民医院 一种基于时序变化关系的病毒癌症风险预测方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003528564A (ja) * 1998-06-06 2003-09-30 ジェノスティック ファーマ リミテッド 遺伝的プロファイリングに使用するプローブ
US20100311047A1 (en) * 2004-02-19 2010-12-09 Yale University Identification Of Cancer Protein Biomarkers Using Proteomic Techniques

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE520988T1 (de) 2004-09-22 2011-09-15 Tripath Imaging Inc Verfahren und zusammensetzungen zur bewertung einer brustkrebsprognose
EP2245460B1 (en) 2008-01-25 2013-12-25 Berg LLC Assay system for the assessment of oncogenicity, tumor progression, and treatment efficacy

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003528564A (ja) * 1998-06-06 2003-09-30 ジェノスティック ファーマ リミテッド 遺伝的プロファイリングに使用するプローブ
US20100311047A1 (en) * 2004-02-19 2010-12-09 Yale University Identification Of Cancer Protein Biomarkers Using Proteomic Techniques

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAN ET AL.: "Overcome Support Vector Machine Diagnosis Overfitting", CANCER INFORMATICS, vol. 13, 2014, pages 145 - 158 *
LIU ET AL.: "Multiclass Cancer Classification and Biomarker Discovery using GA-based Algorithms", BIOINFORMATICS, vol. 21, no. 1, 2005, pages 2691 - 2697 *
TUNG ET AL.: ""Identification of Biomarkers for Esophageal Squamous Cell Carcinoma using Feature Selection and Decision Tree Methods"", THE SCIENTIFIC WORLD JOURNAL, vol. 2013, no. ID 782031, 2013, pages 1 - 8 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111796095A (zh) * 2019-04-09 2020-10-20 苏州扇贝生物科技有限公司 一种蛋白质组质谱数据处理方法及装置
CN110991536A (zh) * 2019-12-02 2020-04-10 上海应用技术大学 原发性肝癌的早期预警模型的训练方法
CN110991536B (zh) * 2019-12-02 2023-05-09 上海应用技术大学 原发性肝癌的早期预警模型的训练方法
CN111584005A (zh) * 2020-04-12 2020-08-25 鞍山师范学院 一种基于融合不同模式标志物的分类模型构建算法
CN111584005B (zh) * 2020-04-12 2023-10-20 鞍山师范学院 一种基于融合不同模式标志物的分类模型构建算法
CN113604544A (zh) * 2021-08-03 2021-11-05 北京大学口腔医学院 一种生物材料功能预测评价方法
CN113604544B (zh) * 2021-08-03 2023-03-10 北京大学口腔医学院 一种生物材料功能预测评价方法
CN116189897A (zh) * 2023-04-24 2023-05-30 四川省医学科学院·四川省人民医院 一种基于时序变化关系的病毒癌症风险预测方法和系统
CN116189897B (zh) * 2023-04-24 2023-07-25 四川省医学科学院·四川省人民医院 一种基于时序变化关系的病毒癌症风险预测方法和系统

Also Published As

Publication number Publication date
KR20160089981A (ko) 2016-07-29
KR101765999B1 (ko) 2017-08-08

Similar Documents

Publication Publication Date Title
Zhao et al. Molecular subtyping of cancer: current status and moving toward clinical applications
WO2016117812A1 (ko) 암 바이오마커의 성능 평가 장치 및 방법
CA2786565C (en) Partition defined detection methods
Zeng et al. Aberrant gene expression in humans
JP2022521492A (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
US11164655B2 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
Phan et al. Multiscale integration of-omic, imaging, and clinical data in biomedical informatics
CN111128299B (zh) 一种结直肠癌预后显著相关ceRNA调控网络的构建方法
Duncan et al. Next-Generation Sequencing in the Clinical Laboratory
Zhang et al. Gene correlation network analysis to identify regulatory factors in sepsis
Rodrigues et al. Transkingdom networks: a systems biology approach to identify causal members of host–microbiota interactions
Verma et al. Current scope and challenges in phenome-wide association studies
Lei et al. Collective effects of common SNPs and risk prediction in lung cancer
CN115083521A (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
JP2015089364A (ja) 体細胞多重変異によるがん診断方法、がん医薬開発方法及びがん診断装置
WO2018199627A1 (ko) 암 유전체 염기서열 변이, 전사체 발현 및 환자 생존 정보를 이용한 맞춤형 항암 치료 방법 및 시스템
Kong et al. CAsubtype: an R package to identify gene sets predictive of cancer subtypes and clinical outcomes
Li et al. SM-RCNV: a statistical method to detect recurrent copy number variations in sequenced samples
WO2014119914A1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
Poetsch et al. -Omics Technologies and Big Data
Barba et al. Genome Informatics Pipelines and Genome Browsers
Yang et al. SMART: reference-free deconvolution for spatial transcriptomics using marker-gene-assisted topic models
Liu et al. Personalized identification of differentially expressed modules in osteosarcoma
Lyudovyk et al. Pathway analysis of genomic pathology tests for prognostic cancer subtyping
Zhang et al. Whole genome base-wise aggregation and functional prediction for human non-coding regulatory variants

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15879066

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15879066

Country of ref document: EP

Kind code of ref document: A1