WO2023048509A1 - 종양의 원발부위 결정 방법 - Google Patents

종양의 원발부위 결정 방법 Download PDF

Info

Publication number
WO2023048509A1
WO2023048509A1 PCT/KR2022/014283 KR2022014283W WO2023048509A1 WO 2023048509 A1 WO2023048509 A1 WO 2023048509A1 KR 2022014283 W KR2022014283 W KR 2022014283W WO 2023048509 A1 WO2023048509 A1 WO 2023048509A1
Authority
WO
WIPO (PCT)
Prior art keywords
mcc
ppgls
gist
sarcoma
cancer
Prior art date
Application number
PCT/KR2022/014283
Other languages
English (en)
French (fr)
Inventor
이용흔
김이랑
강지훈
Original Assignee
주식회사 온코크로스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 온코크로스 filed Critical 주식회사 온코크로스
Priority claimed from KR1020220120857A external-priority patent/KR20230043765A/ko
Publication of WO2023048509A1 publication Critical patent/WO2023048509A1/ko

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Definitions

  • the present invention relates to a method for determining the primary site of a tumor, and more particularly, to a method for determining the primary site of a tumor using a gene expression pattern of a biological sample containing tumor cells.
  • a tumor in a state in which the tumor does not stop at a certain size and constantly proliferates and invades surrounding normal cells is defined as a malignant tumor, that is, cancer.
  • Cancer can be divided into primary cancer, in which cancer cell tissues first settle down, and metastatic cancer, which is generated in other organs by moving cancer cells from the primary organ along blood vessels or lymphatic vessels.
  • the primary site can be identified through pathological examination of the sample, but in some cases, the primary site cannot be identified even after immunohistochemical staining, molecular genetic testing, and tumor marker testing are performed. It is called CUP (Carcinoma of Unknown Primary).
  • the present invention has been made to solve the above problems, and an object of the present invention is to provide a method for specifying a primary site of cancer using gene expression pattern information of a biological sample including tumor cells.
  • a method for determining the primary site of a tumor for achieving the above object is the step of acquiring gene expression data of a biological sample containing tumor cells of which the primary site is not specified, and using a classification algorithm to determine the primary site. and classifying the primary site of the biological sample into one of the plurality of tumor types by comparing the gene expression data of the biological sample with specific gene expression data for each of a plurality of tumor types.
  • first, second, A, B, (a), and (b) may be used. These terms are only used to distinguish the component from other components, and the nature, sequence, or order of the corresponding component is not limited by the term.
  • the gene expression levels of the present invention have been found to provide useful information regarding the primary site of tumor cells. These genes are referred to as "information genes" in the present invention.
  • Informational genes include protein-coding genes and non-protein-coding genes.
  • the expression level of an informative gene can be measured by assessing the level of the appropriate gene product (eg, mRNA, miRNA, protein, etc.).
  • Table 3 provides a list of specific information genes that are differentially expressed for each primary site of the tumor cell.
  • Certain methods disclosed herein include determining the expression level in a biological sample of at least one gene of interest.
  • the expression assay is at least 2, at least 3, at least 4, at least 5, at least 6, at least 7, at least 8, at least 9, at least 10, at least 20, at least 30, at least 40, at least 50, at least It involves measuring the expression levels in a biological sample of 60, at least 70 or at least 80 informational genes.
  • an expression assay is performed in a biological sample from 1 to 5, 1 to 10, 5 to 10, 5 to 15, 10 to 15, 10 to 20, 15 to 20, 15 to 25, 20 to 30, 25 to 50, 25 to 75, 50 to 100, 50 to 200 or more information genes in the biological sample to measure the expression level.
  • the expression assay is at least 1 to 5, 1 to 10, 2 to 10, 5 to 10, 5 to 15, 10 to 15, 10 to 20, 15 to 20, 15 to 25, 20 to 30, 25 to 50, 25 to 75, 50 to 100, 50 to 200 or more information genes in the biological sample to measure the expression level.
  • the number of informative genes for expression analysis is sufficient to provide a level of confidence in clinically useful predictive results.
  • This level of confidence eg, strength of the predictive model
  • ROC receiver operating characteristic
  • AUC area under the receiver operating characteristic
  • These parameters can be evaluated with various numerical features (eg, number of genes, mRNA) to determine the optimal number and set of informative genes. Accuracy, sensitivity, or specificity of at least 60%, 70%, 80%, or 90% when used alone or in combination with other information may be useful.
  • hybridization-based assay refers to any assay requiring nucleic acid hybridization. Hybridization-based assays may or may not require amplification of nucleic acids.
  • Hybridization-based assays are well known in the art and include array-based assays (eg oligonucleotide arrays, microarrays), oligonucleotide conjugated bead assays (eg Multiplex Bead-based Luminex® Assays), molecular inversion including but not limited to probe assays and quantitative RT-PCR assays.
  • array-based assays eg oligonucleotide arrays, microarrays
  • oligonucleotide conjugated bead assays eg Multiplex Bead-based Luminex® Assays
  • molecular inversion including but not limited to probe assays and quantitative RT-PCR assays.
  • Multiplex systems such as oligonucleotide arrays or bead-based nucleic acid assay systems, are particularly useful for simultaneously assessing the levels of multiple genes. Other suitable methods for measuring levels of nucleic acids will be apparent to those skilled in the art.
  • level means a value representing the amount or occurrence of a substance, for example mRNA.
  • a level can be an absolute value, such as the amount of mRNA in a sample, or a relative value, such as the amount of mRNA in a sample relative to the amount of mRNA in a reference sample (control sample).
  • a level can also be a binary value representing the presence or absence of a substance. For example, a substance can be confirmed to be present in a sample when a measure of the amount of the substance in the sample, such as a fluorescence measure from a PCR reaction or microarray, exceeds a background value. Similarly, a substance can be identified as not present in a sample (or undetectable in a sample) when a measured molecular weight in the sample is below the background value.
  • the method for determining the primary site of a tumor begins with obtaining a "biological sample”.
  • Obtaining a "biological sample” includes a process of directly or indirectly obtaining a biological sample from a subject.
  • biological sample refers to a sample of biological tissue or biological fluid containing nucleic acids. Such samples include, but are not limited to, tissue or fluid isolated from a subject. Biological samples may also include tissue sections, such as biopsy and autopsy samples, FFPE samples, frozen sections taken for histological purposes, blood, plasma, serum, sputum, feces, tears, mucus, hair, and skin. Biological samples also include primary and/or transformed cell cultures and explants derived from animal or patient tissue.
  • Biological samples may also include blood, blood fractions, urine, exudate, ascites, saliva, cerebrospinal fluid, cervical secretions, vaginal secretions, endometrial secretions, gastrointestinal secretions, bronchial secretions, sputum, cell lines, tissue samples, fine needle aspiration; FNA) or secretions from the breast.
  • FNA fine needle aspiration
  • a biological sample may be provided by excising a cell sample from an animal, but may also be provided using previously isolated cells or by performing the method described herein in vivo.
  • a biological sample may be processed in any suitable manner to facilitate determination of expression levels.
  • biochemical, mechanical and/or thermal methods may be suitably used to isolate a biomolecule of interest, eg RNA, from a biological sample.
  • RNA or other molecules can be isolated from a biological sample by processing the sample using methods known in the art.
  • the method for determining the primary site of a tumor may include comparing an information gene expression level of a biological sample including tumor cells with one or more reference values.
  • the "reference value” is the expression level (or expression level range) of information genes specifically expressed for each primary site.
  • an appropriate criterion may represent the expression level of an informative gene in a reference (control) biological sample obtained from a subject of known primary site.
  • the tumor to be examined can be specified as adenoid cystic carcinoma, considering that all information genes related to ACC are expressed.
  • the expression level of the information gene of the biological sample taken from the test subject has reached a "reference value" can be determined in various ways.
  • the expression level of a particular gene in a biological sample is at least 1%, at least 5%, at least 10%, at least 25%, at least 50%, at least 100%, at least 250%, at least 500% above a reference value for that gene, or at least 1000% higher or lower than a "reference value" may be determined to be reached.
  • the expression level of an informative gene in a biological sample is at least 1.1-fold, 1.2-fold, 1.5-fold, 2-fold, 3-fold, 4-fold, at least 5-fold, at least 6-fold, at least 7-fold, at least 8-fold above the reference value for that gene. It can be determined that the gene is expressed at or above the "reference value" when the gene is expressed at least 9-fold, at least 10-fold, at least 20-fold, at least 30-fold, at least 40-fold, 50-fold or more, 100-fold or more.
  • a set of expression levels of information genes (which may also be referred to as an expression pattern or profile) in a biological sample obtained from a test subject is set to a plurality of sets of reference levels (as a reference pattern). also referred to), identifying a reference pattern most similar to the expression pattern, and matching the reference pattern with the expression pattern of a tumor whose primary site is specified, so that the biological sample of the test subject is selected as one of a plurality of tumor types. It includes the step of classifying into the type of.
  • the method may require building or constructing a predictive model, which may be referred to as a classifier or predictor, that may be used to classify a primary site of a biological sample containing tumor cells into at least one of a plurality of tumor types. .
  • the "primary tumor site classifier” used in the present invention is a model that probabilistically predicts the primary site of a subject based on the expression level measured in a biological sample obtained from the subject.
  • models are built using specimens for which the classification (tumor with a specified primary site) has already been identified. Once a model (classifier) is built, expression levels obtained from a biological sample of an unknown primary site can be applied to predict the primary site of tumors in the biological sample of the subject.
  • the classification method may require a step of classifying a primary site of tumor cells included in a biological sample into at least one type among a plurality of tumor types, and calculating a probability that the tumor cells correspond to a specific tumor type. For example, it is possible to calculate the probability that the tumor cells included in the biological sample are ACC (Adenoid Cystic Carcinoma), ATC (Anaplastic Thyroid Carcinoma), BCC (Basal Cell Carcinoma), and the like.
  • the method for determining the primary site of a tumor according to the present disclosure may output result values for each tumor type with high probability, or may specify and output a tumor type with a probability greater than or equal to a predetermined threshold value as the primary site.
  • primary tumor classifiers include logistic regression, partial least squares, linear discriminant analysis, quadratic discriminant analysis, neural networks, naive Bayes, C4.5 decision trees, k-nearest neighbors, random forests, support algorithms selected from vector machines, or other suitable methods.
  • the tumor primary site classifier may be trained on a data set including expression levels of a plurality of informative genes in biological samples in which primary sites are specified.
  • a tumor primary site classifier may be trained on a data set comprising the expression levels of a plurality of informative genes in biological samples obtained from multiple subjects whose histological findings are specified as primary sites.
  • the validity of the model can be tested using methods known in the art.
  • One way to test the validity of a model is cross-validation of a dataset. To perform cross-validation, one or a subset of the samples are removed and, as described above, a model is built without the removed samples, forming a “cross-validation model”. The removed samples are then classified according to the model as described above. This process is completed with every sample or subset of the initial dataset and the error rate is measured. The accuracy of the model is evaluated. Such models classify samples to be tested with high accuracy for known or previously identified classifications.
  • Another way to validate the model is to apply the model to an independent dataset, such as a new biological sample containing tumor cells of unspecified origin.
  • the methods disclosed herein may be implemented in any of a variety of ways. For example, certain embodiments may be implemented using hardware, software, or a combination of both.
  • the software code may execute on any suitable processor or collection of processors, whether provided on a single computer or distributed among multiple computers.
  • a processor may be implemented as an integrated circuit having one or more processors in an integrated circuit component.
  • a processor may be implemented using circuitry in any suitable format.
  • the computer may be implemented in any of a number of forms, such as a rack-mounted computer, desktop computer, laptop computer, or tablet computer.
  • Computers may also be embedded in devices that are not generally considered computers but have appropriate processing capabilities, including personal digital assistants (PDAs), smartphones, or other portable or stationary electronic devices.
  • PDAs personal digital assistants
  • a computer may have one or more input and output devices. Such a device may be used, among other things, to provide a user interface. Examples of output devices that can be used to provide a user interface include a printer or display screen for visual presentation of output and a speaker or other sound generating device for audible presentation of output. Examples of input devices that may be used in the user interface include keyboards, mice, touch pads, and pointing devices such as digital tablets. As another example, a computer may receive input information through speech recognition or other audible format.
  • Such computers may be interconnected by one or more networks of any suitable type, including a local network or an enterprise network or a wide area network such as the Internet.
  • networks may be based on any suitable technology, may operate according to any suitable protocol, and may include wireless networks, wired networks, or fiber optic networks.
  • various methods or processes described herein may be coded as software executable on one or more processors employing any one of a variety of operating systems or platforms. Further, such software may be written using any of a number of suitable programming languages and/or programming or scripting tools, and may also be compiled into executable machine language code or intermediate code that runs in a framework or virtual machine. .
  • aspects of the present invention are computer readable media (or multiple computer readable media) encoded with one or more programs that, when executed on one or more computers or other computers, execute methods implementing various embodiments of the present invention.
  • ) e.g., computer memory, one or more floppy disks, compact disks (CDs), optical disks, digital video disks (DVDs), magnetic tape, flash memory, circuit configurations of field programmable gate arrays, or other semiconductor devices or other may be implemented as a transitory, tangible computer storage medium).
  • the computer readable medium or media is transportable so that the program or programs stored thereon can be loaded into one or more different computers or other processors to implement various aspects of the present invention as described above.
  • the term "non-transitory computer-readable storage medium" includes only computer-readable media that can be considered articles of manufacture (ie, articles of manufacture) or machines.
  • program or "software”, as used herein in its general sense, refers to any computer code or set of computer-executable instructions that can be used to program a computer or other processor to implement various aspects of the present invention as described above. means the shape of Further, according to one aspect of this embodiment, one or more computer programs that, when executed, perform the methods of the present invention need not reside on a single computer or processor, but among several different computers or processors for implementing various aspects of the present invention. It should be understood that it can be distributed in a modular fashion
  • databases generally refers to a collection of data arranged for ease and speed of search and retrieval. Also, databases typically include logical and physical data structures. Those skilled in the art will appreciate that the methods described herein can be used with any type of database, including relational databases, object relational databases, and XML-based databases where XML stands for "eXtensible-MarkupLanguage".
  • gene expression information can be stored in and retrieved from databases. Gene expression information may combine gene expression information with a variety of other relevant information (e.g., information related to generating a report or document to help establish a treatment protocol and/or make a diagnosis, or information to help track a patient sample). It can be stored or indexed in a relevant way.
  • Such relevant information may include, for example, patient identification information, attending physician identification information, information about the attending physician (eg, address, phone number), information about the origin of the biological sample (eg, tissue type, sampling date), biological sample processing information, sample quality control information, biological sample storage information, gene annotation information, etc.
  • Computer-executable instructions can take many forms, such as program modules executed by one or more computers or other devices.
  • program modules include routines, programs, objects, components, data structures, etc. that perform particular tasks or implement particular abstract data types.
  • the functions of the program modules may be combined or distributed as desired in various embodiments.
  • the method includes the steps of acquiring gene expression data of a biological sample containing tumor cells whose primary site is not specified;
  • Classifying the primary site of the biological sample into at least one type among the plurality of tumor types by comparing the gene expression data of the biological sample and specific gene expression data for each of a plurality of tumor types using a classification algorithm. do. Any statistical or classification method disclosed herein may be incorporated into a computer implemented method. In some embodiments, the method requires calculating a probability that the tumor cells in the biological sample are of at least one of a plurality of tumor types in which the primary site is specified. The computer-implemented method may require generating a report indicating the probability that tumor cells contained in the biological sample are of the tumor type for which the primary site is specified. Such methods may also require sending a report to the subject's health care provider.
  • Example 1 Collection of gene expression data for multiple tumor types in which the primary site is specified
  • GEO Gene Expression Omnibus, https://www.ncbi.nlm.nih.gov/geo/ ), a public database of gene expression data and clinical information for multiple tumor types with specified primary sites, Applicable platforms: GPL570, A-AFFY -44), ArrayExpress, TCGA, ICGS, GTEx.
  • gene expression data of 20,267 cancer patients and gene expression data of 12,490 normal tissues were used for model development.
  • Tumors classified as the same type are tumors with clinically similar characteristics.
  • the 42 tumor types are listed in the table below.
  • Example 2 Data preprocessing In order to normalize the expression level of each gene in the collected data, SCAN, UPC ((Single-channel array normalization (SCAN) and Universal exPression Codes (UPC)), etc., and then data cleansing such as Systematic Error, Outlier, and Missing Value was performed.
  • SCAN Serialle-channel array normalization
  • UPC Universal exPression Codes
  • genes expressed for each tumor type were primarily selected based on the tumor type for which the primary site was specified. Gene expression data derived from tissue was removed from the genes expressed by tumor type, and genes specifically expressed by the tumor type in which the primary site was specified were selected.
  • the number of genes specifically expressed by the tumor type in which the primary site is specified and the types of genes specifically expressed by the tumor type in which the primary site is specified are shown in the table below.
  • GEO Gene Expression Omnibus, https://www.ncbi.nlm.nih.gov/geo/ , applicable platforms: GPL570, A-AFFY-44), ArrayExpress, TCGA, ICGS, GTEx referenced.
  • CANCER 18,430 46 3 5 CERVICAL.
  • CANCER 18,430 11 One 20 PANCREATIC.
  • CANCER 18,430 9 One 21 PNET 18,430 189 24 22 PPC 18,430 88 18 23 PPGLs 18,430 421 212 24 PROSTATE.
  • CANCER 18,430 8 One 25 RCC 18,430 53 7 26 RECTAL.
  • CANCER 18,430 140 44 27 SARCOMA 18,430 325 127 28 SCC 18,430 283 41 29 SCLC 18,430 319 44 30 SKIN.
  • MELANOMA 18,430 108 25 31 STOMACH.
  • CANCER 18,430 18 5 33 UVEAL.
  • MELANOMA 18,430 52 20 34 WILMS.
  • CANCER TDRD1 RCC CRYAA RCC GPC5 RCC IDO1 RCC MTTP RCC NPHS2 RCC SFRP1 RCC SPAG4 RECTAL.
  • CANCER ADGRF5 RECTAL CANCER AGT RECTAL.
  • CANCER COL12A1 RECTAL. CANCER DDX55 RECTAL.
  • MELANOMA CPN1 SKIN.
  • MELANOMA ENTHD1 SKIN.
  • MELANOMA FCRLA SKIN.
  • MELANOMA FSTL5 SKIN.
  • MELANOMA GDF15 SKIN.
  • MELANOMA KRT79 SKIN.
  • MELANOMA KRTAP1-1 SKIN.
  • MELANOMA KRTAP1-3 SKIN.
  • MELANOMA KRTAP2-4 SKIN.
  • MELANOMA KRTAP3-3 SKIN.
  • MELANOMA KRTAP4-4 SKIN.
  • MELANOMA KRTAP9-3 SKIN.
  • MELANOMA KRTAP9-4 SKIN.
  • MELANOMA LINC00518 SKIN.
  • MELANOMA MAGEC1 SKIN.
  • MELANOMA MAGEC2 SKIN.
  • MELANOMA PLA1A SKIN.
  • MELANOMA RASSF10 SKIN.
  • MELANOMA RNASE7 SKIN.
  • MELANOMA SHANK2 SKIN.
  • MELANOMA SLC45A2 SKIN.
  • MELANOMA SLC6A15 SKIN.
  • MELANOMA TPTE SKIN.
  • MELANOMA TRIM51 SKIN.
  • TUMOR CYP17A1 WILMS TUMOR CYP27B1 WILMS.
  • TUMOR CYP4A11 WILMS TUMOR CYP4F2 WILMS.
  • TUMOR CYP8B1 WILMS TUMOR DMGDH WILMS.
  • TUMOR DMRT3 WILMS TUMOR DOCK8-AS1 WILMS.
  • TUMOR FCAMR WILMS TUMOR G6PC WILMS.
  • TUMOR GBA3 WILMS TUMOR GC WILMS.
  • TUMOR GLYAT WILMS TUMOR GLYATL1 WILMS.
  • TUMOR SLC17A3 WILMS TUMOR SLC22A11 WILMS. TUMOR SLC22A12 WILMS. TUMOR SLC22A2 WILMS. TUMOR SLC23A3 WILMS. TUMOR SLC2A2 WILMS. TUMOR SLC5A12 WILMS. TUMOR SLC6A12 WILMS. TUMOR SLC7A13 WILMS. TUMOR SLC7A9 WILMS. TUMOR ST8SIA4 WILMS. TUMOR TENM4 WILMS. TUMOR TINAG WILMS. TUMOR UGT1A6
  • Bossitng Decision Tree As a classification model, Bossitng Decision Tree, ANN, DNN, Regression, etc. were used to learn data, and the results of each algorithm were measured using a verification data set.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Immunology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biochemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Zoology (AREA)
  • Data Mining & Analysis (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Biomedical Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Databases & Information Systems (AREA)
  • Oncology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)

Abstract

인공지능을 이용한 원발부위불명암 진단 방법이 게시된다. 본 발명의 일 실시예 따른 인공지능을 이용한 원발부위불명암 진단 방법은, 전이암이 발생된 조직에서 채취한 샘플의 유전자 발현 패턴 정보를 생성하는 단계, 상기 전이암이 발생된 조직에서 채취한 샘플의 유전자 발현 패턴 정보에서 기 학습된 조직에서 기인한 유전자 발현 패턴 정보를 제거하는 단계, 상기 조직에서 기인한 유전자 발현 패턴 정보가 제거된 유전자 발현 패턴 정보와 기 학습된 암종별 유전자 발현 패턴 정보를 비교하는 단계 및 상기 전이암이 발생된 조직에서 채취한 샘플의 원발부위를 특정하는 단계를 포함한다.

Description

종양의 원발부위 결정 방법
본 발명은 종양의 원발부위 결정 방법에 관한 것으로, 보다 상세하게는 종양 세포를 포함하는 생물학적 시료의 유전자 발현 패턴을 이용하여 종양의 원발부위를 결정하는 방법에 관한 것이다.
신체를 이루는 가장 작은 단위인 세포는 나름의 질서와 자체적인 조절 기능을 가지고 그 수의 균형을 유지한다. 하지만 불상의 원인으로 인해 사멸되는 세포보다 사멸되는 세포보다 새로 만들어지는 세포 수가 더 많게 되었을 때 불필요한 여분의 세포들은 맡은 역할을 제대로 수행하지 못하고 한 곳에 덩어리 채 뭉쳐서 자리를 잡게 된다.
이러한 형태를 종양이라고 하는데, 종양이 일정 크기에서 멈추지 않고 끊임없이 증식하여 주변의 정상적인 세포들까지 침습한 상태의 종양을 악성 종양, 즉, 암으로 정의한다.
암은 암세포조직이 처음 자리를 잡고 생성되기 시작한 원발암과 암세포가 원발장기로부터 혈관이나 림프관을 따라 이동하여 다른 장기에 발생된 전이암으로 구분할 수 있다.
전이암은 원발암과 생화학적 특성을 공유하므로 전이암이 발생된 위치와 상관없이 전이암에는 원발암에 적용되는 치료방법에 준하는 치료방법이 적용된다. 따라서, 최적의 치료제나 치료 방법을 선택하는데 있어 암의 원발부위를 특정하는 단계가 선행되어야 한다.
대부분의 전이암은 샘플의 병리검사 등을 통해 원발부위를 특정할 수 있으나 면역조직화학염색법, 분자유전학검사법, 종양표지자 검사 등을 시행해도 원발부위를 특정할 수 없는 경우가 있는바 이를 원발부위불명암(CUP : Carcinoma of Unknown Primary)이라고 한다.
현재까지 원발부위불명암 환자에게는 복수의 알칼로이드 계통 항악성종양제(ex. paclitaxel, carboplatin 등)를 병용 치료 하는 방법이 표준 치료로 알려져 있으나 그럼에도 불구하고 5년 평균 생존률이 다른 암들에 비해 현저히 낮은 것으로 보고되고 있다.
이에, 원발부위불명암의 원발 부위를 특정할 수 있는 새로운 형태의 원발부위 결정 방법에 대한 필요성이 대두되었다.
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 종양 세포를 포함하는 생물학적 시료의 유전자 발현 패턴 정보를 이용하여 암의 원발부위를 특정할 수 있는 방법을 제공하는데 있다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않는 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상술한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 종양의 원발부위 결정 방법은 원발부위가 특정되지 않은 종양 세포를 포함하는 생물학적 샘플의 유전자 발현 데이터를 획득하는 단계 및 분류 알고리즘을 이용하여 상기 생물학적 샘플의 상기 유전자 발현 데이터와 복수의 종양 유형별 특이적 유전자 발현 데이터를 비교하여 상기 생물학적 샘플의 원발부위를 상기 복수의 종양 유형 중 하나의 유형으로 분류하는 단계를 포함한다.
상술한 원발부위불명암 진단 방법에 따르면, 유전자 발현 패턴을 이용하여 원발부위불명암의 원발부위를 특정하는데 있어 전이암이 발생된 조직에서 기인한 유전자 발현 패턴을 배제할 수 있으므로 진단의 정확성을 보다 향상시킬 수 있게 된다는 효과를 달성할 수 있다.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.
각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
또한, 본 개시의 구성요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성요소 사이에 또 다른 구성요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
본 개시에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
정보 유전자
본 발명의 유전자 발현 수준은 종양 세포의 원발부위에 관한 유용한 정보를 제공하는 것으로 확인되었다. 이들 유전자는 본 발명에서 "정보 유전자"로 지칭된다. 정보 유전자는 단백질 암호화 유전자와 비 단백질 암호화 유전자를 포함한다. 정보 유전자의 발현 수준은 적절한 유전자 생성물(예를 들어, mRNA, miRNA, 단백질 등)의 수준을 평가함으로써 측정될 수 있다.
아래의 표 3은 종양 세포의 원발부위 별로 상이하게 발현되는 특이적 정보 유전자 목록을 제공한다.
본 발명에 개시된 특정 방법은 적어도 하나의 정보 유전자의 생물학적 샘플에서 발현 수준을 측정하는 단계를 포함한다. 그러나, 일부 실시태양에서, 발현 분석은 적어도 2, 적어도 3, 적어도 4, 적어도 5, 적어도 6, 적어도 7, 적어도 8, 적어도 9, 적어도 10, 적어도 20, 적어도 30, 적어도 40, 적어도 50, 적어도 60, 적어도 70또는 적어도 80개 정보 유전자의 생물학적 샘플에서 발현 수준을 측정하는 단계를 필요로 한다. 일부 실시태양에서, 발현 분석은 표 11에 있는 것과 같이, 생물학적 샘플에서 1 내지 5, 1 내지 10, 5 내지 10, 5 내지 15, 10 내지 15, 10 내지 20, 15 내지 20, 15 내지 25, 20 내지 30, 25 내지 50, 25 내지 75, 50 내지 100, 50 내지 200 또는 그 이상의 정보 유전자의 생물학적 샘플에서의 발현 수준을 측정하는 단계를 필요로 한다. 일부 실시태양에서, 발현 분석은 표 11에 있는 것과 같이, 적어도 1 내지 5, 1 내지 10, 2 내지 10, 5 내지 10, 5 내지 15, 10 내지 15, 10 내지 20, 15 내지 20, 15 내지 25, 20 내지 30, 25 내지 50, 25 내지 75, 50 내지 100, 50 내지 200 또는 그 이상의 정보 유전자의 생물학적 샘플에서의 발현 수준을 측정하는 단계를 필요로 한다.
일부 실시태양에서, 발현 분석을 위한 정보 유전자의 수는 임상적으로 유용한 예측 결과에 신뢰 수준을 제공하기에 충분하다. 이러한 신뢰 수준(예를 들어, 예측 모델의 강도)은 정확성, 민감성, 특이성 및 수신자 작동 특성(ROC) 곡선의 면적(AUC)을 포함하나 이에 제한되지 않는 다양한 성능 매개 변수에 의해 평가될 수 있다. 이들 파라미터는 정보 유전자의 최적 숫자 및 세트를 결정하기 위해 다양한 숫자의 특징(예를 들어, 유전자의 숫자, mRNA)으로 평가될 수 있다. 단독으로 사용하거나 다른 정보와 함께 사용할 때 적어도 60%, 70%, 80%, 90%의 정확성, 민감성 또는 특이성이 유용할 수 있다.
정보 유전자의 발현 수준을 결정하기 위해 임의의 적절한 시스템 또는 방법이 사용될 수 있다. 유전자 발현 수준은 혼성화-기초 분석의 사용을 통해 측정될 수 있다. 본 발명에서 사용된 용어 "혼성화-기초 분석"은 핵산 혼성화를 필요로 하는 임의의 분석을 의미한다. 혼성화-기초 분석은 핵산의 증폭을 필요로 하거나 않을 수 있다.
혼성화-기초 분석은 당업계에 주지되어 있고 어레이-기초 분석(예를 들어, 올리고뉴클레오타이드 어레이, 마이크로어레이), 올리고뉴클레오티드 접합 된 비드 분석(예를 들어, Multiplex Bead-based Luminex® Assays), 분자 역위 프로브 분석 및 정량적 RT-PCR 분석을 포함하나 이에 제한되지 않는다. 올리고뉴클레오타이드 어레이 또는 비드-기초 핵산 분석 시스템과 같은 다중 시스템이 복수의 유전자의 수준을 동시에 평가하는데 특히 유용하다. 핵산의 수준을 측정하기 위한 다른 적절한 방법은 당업자에게 명백할 것이다.
본 발명에 사용된 "수준"은 물질, 예를 들어 mRNA의 양 또는 발생을 나타내는 값을 의미한다. 수준은 예를 들어 샘플 내의 mRNA의 양과 같은 절대값, 또는 참조 샘플(대조군 샘플)에서의 mRNA의 양에 대한 샘플에서의 mRNA의 양과 같은 상대값일 수 있다. 수준은 또한 물질의 존재 또는 부재를 나타내는 이진값일 수 있다. 예를 들어, 물질은 샘플에서 물질의 양의 측정치, 예를 들어 PCR 반응 또는 마이크로 어레이로부터의 형광 측정치가 백그라운드 값을 초과할 때 샘플에 존재하는 것으로 확인될 수 있다. 유사하게, 물질은 샘플에서 분자량의 측정치가 백그라운드 값 이하일 때 샘플에 존재하지 않는 것으로(또는 샘플에서 검출 불가능한 것으로) 확인 될 수 있다.
물질의 수준은 직접적으로 또는 간접적으로 측정될 수 있음을 이해해야 한다.
생물학적 샘플
본원에 따른 종양의 원발부위 결정 방법은 "생물학적 샘플"을 획득하는 단계로부터 시작된다. "생물학적 샘플"을 획득한다는 것의 의미는 대상체로부터 생물학적 샘플을 직접 또는 간적접으로 획득하는 과정을 포함한다.
일 실시예에서, "생물학적 샘플"은, 핵산을 포함하고 있는 생물학적 조직 또는 생체액의 시료를 의미한다. 이러한 시료로는, 이들에 제한되는 것은 아니나, 대상체로부터 분리한 조직 또는 유체가 포함된다. 생물학적 시료에는 또한 생검 및 부검 시료 등의 조직 절편, FFPE 시료, 조직학적 목적을 위해 채취한 동결 절편, 혈액, 혈장, 혈청, 객담, 대변, 누액, 점액, 털, 및 피부가 포함될 수 있다. 생물학적 시료에는 또한 동물 또는 환자 조직에서 유래한 1 차 및/또는 형질전환된 세포 배양물 및 체외이식편이 포함된다.
생물학적 시료는 또한 혈액, 혈액 분획물, 소변, 삼출물, 복수, 타액, 뇌척수액, 자궁경부 분비물, 질 분비물, 자궁내막 분비물, 위장관 분비물, 기관지 분비물, 객담, 세포주, 조직 시료, 세침 흡인(fine needle aspiration; FNA) 의 세포 내용물 또는 유방으로부터의 분비물일 수도 있다.
생물학적 시료는 동물로부터 세포 시료를 절제해냄으로써 제공될 수 있으나, 또한 사전에 분리한 세포를 사용하거나 또는 본원에 기술된 방법을 생체내에서 실시하여 제공될 수도 있다.
생물학적 샘플은 발현 수준 결정을 용이하게 하기 위한 임의의 적절한 방식으로 처리될 수 있다. 예를 들어, 생화학적, 기계적 및 / 또는 열처리 방법이 관심 생체 분자, 예를 들어 RNA를 생물학적 샘플로부터 분리하는데 적절하게 사용될 수 있다. 따라서, RNA 또는 다른 분자는 당업계에 공지된 방법을 사용하여 샘플을 처리함으로써 생물학적 샘플로부터 분리될 수 있다.
정보 유전자 발현 여부 결정
본 발명의 일 실시예에 따른 종양의 원발부위 결정 방법은, 종양 세포를 포함하는 생물학적 샘플의 정보 유전자 발현 발현 수준을 하나 이상의 기준값과 비교하는 단계를 포함할 수 있다.
"기준값"은 원발부위별로 특이적으로 발현되는 정보 유전자들의 발현 수준(또는 발현 수준 범위)이다. 예를 들어, 적절한 기준은 원발부위가 알려진 대상으로부터 얻은 기준(대조군) 생물학적 샘플에서의 정보 유전자 발현 수준을 나타낼 수 있다.
예를 들어, 원발부위가 ACC(Adenoid Cystic Carcinoma : 선양낭성암종)인 생물학적 샘플에서 특이적으로 발현되는 정보 유전자가 CBLN4, FMO2, PTH1R, TH으로 특정된 경우, 검사 대상에서 채취한 생물학적 샘플의 CBLN4, FMO2, PTH1R, TH 발현 수준 모두가 기준값 이상이거나 기준값을 초과하면 ACC와 관련한 정보 유전자가 모두 발현된 것으로 보아 검사 대상이 되는 종양을 선양낭성암종으로 특정할 수 있다.
검사 대상에서 채취한 생물학적 샘플의 정보 유전자 발현 수준이 "기준값"에 도달했는지 여부는 다양하게 결정될 수 있다. 예를 들어, 생물학적 샘플에서 특정 유전자의 발현 수준이 그 유전자의 기준값보다 적어도 1%, 적어도 5%, 적어도 10%, 적어도 25%, 적어도 50%, 적어도 100%, 적어도 250%, 적어도 500%, 또는 적어도 1000% 높거나 낮을 때 "기준값"에 도달한 것으로 결정할 수 있다.
유사하게, 생물학적 샘플에서 정보 유전자의 발현 수준이 그 유전자의 기준값보다 적어도 1.1배, 1.2배, 1.5배, 2배, 3배, 4배, 적어도 5배, 적어도 6배, 적어도 7배, 적어도 8배, 적어도 9배, 적어도 10배, 적어도 20배, 적어도 30배, 적어도 40배, 50배 이상, 100배 이상이거나 이하일 때 그 유전자가 "기준값" 이상으로 발현된 것으로 결정할 수 있다.
다만, 생물학적 샘플에 포함된 특정 유전자가 기준값 이상으로 발현되었는지 여부는 다양한 방식으로 결정될 수 있다.
생물학적 샘플에 포함된 종양 세포의 원발 부위 결정 모델
본 발명의 일 실시예에 따른 종양의 원발부위 결정 방법은 검사 대상으로부터 얻은 생물학적 샘플에서 정보 유전자의 발현 수준 세트(발현 패턴 또는 프로파일으로도 지칭될 수 있음)를 기준 수준의 복수 세트(기준 패턴으로도 지칭됨)와 비교하는 단계, 발현 패턴과 가장 유사한 기준 패턴을 확인하는 단계 및 기준 패턴을 원발부위가 특정된 종양의 발현 패턴과 매칭시킴으로써, 검사 대상의 생풀학적 샘플을 복수의 종양 유형 중 하나의 유형으로 분류하는 단계를 포함한다.
상기 방법은 종양 세포를 포함하는 생물학적 샘플의 원발부위를 복수의 종양 유형 중 적어도 하나의 유형으로 분류하는데 사용될 수 있는 분류기 또는 예측기로 불릴 수 있는 예측 모델을 구축 또는 구성하는 단계를 필요로 할 수 있다.
본 발명에서 사용된 "종양의 원발부위 분류기"는 검사 대상으로부터 얻은 생물학적 샘플에서 측정된 발현 수준에 기초하여 대상의 원발부위를 확률적으로 예측하는 모델이다. 통상적으로 모델은 분류(원발 부위가 특정된 종양)가 이미 확인된 표본을 사용하여 구축된다. 일단 모델(분류기)이 구축되면, 원발부위가 알려지지 않은 검사 대상의 생물학적 샘플로부터 얻은 발현 수준에 적용되어 대상의 생물학적 샘플에 포함된 종양의 원발부위를 예측할 수 있다.
분류 방법은 생물학적 샘플에 포함된 종양 세포의 원발부위를 복수의 종양 유형 중 적어도 하나의 유형으로 분류하되, 종양 세포가 특정 종양 유형에 해당할 확률로 산출하는 단계를 필요로 할 수 있다. 예를 들어, 생물학적 샘플에 포함된 종양 세포가 ACC(Adenoid Cystic Carcinoma)일 확률, ATC(Anaplastic Thyroid Carcinoma)일 확률, BCC(Basal Cell Carcinoma)일 확률 등을 산출할 수 있다. 본원에 따른 종양의 원발부위 결정 방법은 확률이 큰 종양 유형별로 결과값을 출력하거나, 확률이 기 설정된 임계값 이상인 종양 유형을 원발부위로 특정하여 출력할 수 있다.
당업계에 공지된 다양한 예측 모델이 종양의 원발부위 분류기로서 사용될 수 있다는 것을 이해해야 한다. 예를 들어, 종양의 원발부위 분류기는 로지스틱 회귀 분석, 부분 최소 자승 분석, 선형 판별 분석, 2차 판별 분석, 신경망, 나이브 베이즈, C4.5 결정 트리, k-최근접 이웃, 랜덤 포레스트, 지원 벡터 기계, 또는 다른 적절한 방법으로부터 선택된 알고리즘을 포함할 수 있다.
종양의 원발부위 분류기는 원발부위가 특정된 생물학적 샘플에서 복수의 정보 유전자의 발현 수준을 포함하는 데이터 세트에 대해 트레이닝될 수 있다. 예를 들어, 종양의 원발부위 분류기는 조직학적 소견을 원발부위가 특정된 다수의 대상으로부터 얻은 생물학적 샘플에서 복수의 정보 유전자의 발현 수준을 포함하는 데이터 세트에 대해 트레이닝될 수 있다.
일단 모델이 구축되면, 당업계에 공지된 방법을 사용하여 모델의 유효성이 테스트될 수 있다. 모델의 유효성을 테스트하는 한 방법은 데이터세트의 교차 유효성 검사이다. 교차 유효성 검사를 수행하기 위해 샘플 중 하나 또는 서브세트는 제거되고, 상기한 대로, 제거된 샘플 없이, 모델을 구축하여, "교차 유효성 검사 모델"을 형성한다. 그런 후에 제거된 샘플은 상기한 대로 모델에 따라 분류된다. 이 프로세스는 초기 데이터세트의 모든 샘플 또는 서브세트로 완료되며 오류율이 측정된다. 모델의 정확성이 평가된다. 이런 모델은 공지된 또는 이전에 확인된 분류에 대해 높은 정확성로 테스트될 샘플을 분류한다. 모델을 검증하는 또 다른 방식은 원발부위가 특정되지 않은 종양 세포를 포함하는 새로운 생물학적 샘플과 같은 독립적인 데이터세트에 모델을 적용하는 것이다.
컴퓨팅 장치를 이용한 생물학적 샘플에 포함된 종양 세포의 원발 부위 결정 모델의 구현
본 발명에 개시된 방법들은 다양한 방법들 중 임의의 방법으로 구현될 수 있다. 예를 들어, 특정 실시태양은 하드웨어, 소프트웨어 또는 이들의 조합을 사용하여 구현될 수 있다. 소프트웨어로 구현될 때, 소프트웨어 코드는 단일 컴퓨터에서 제공되든 또는 여러 컴퓨터 사이에 배분되든, 임의의 적절한 프로세서 또는 프로세서의 집합에서 실행될 수 있다. 이러한 프로세서는 집적 회로 구성 요소에 하나 이상의 프로세서를 갖는 집적 회로로서 구현될 수 있다. 그러나, 프로세서는 임의의 적합한 포맷의 회로를 사용하여 구현될 수 있다.
또한, 컴퓨터는 랙-장착 컴퓨터, 데스크톱 컴퓨터, 랩톱 컴퓨터 또는 태블릿 컴퓨터와 같은 다수의 형태 중 임의의 형태로 구현될 수 있음을 이해해야 한다. 또한, 컴퓨터는 PDA(Personal Digital Assistant), 스마트폰 또는 기타 휴대용 또는 고정 전자 장치를 포함하는 일반적으로 컴퓨터로 간주되지 않지만 적절한 처리 능력을 갖춘 장치에 삽입될 수 있다.
또한, 컴퓨터는 하나 이상의 입력 및 출력 장치를 가질 수 있다. 이러한 장치는 무엇보다도 사용자 인터페이스를 제공하는데 사용될 수 있다. 사용자 인터페이스를 제공하는 데 사용될 수 있는 출력 장치의 예는 출력의 시각적 표현을 위한 프린터 또는 디스플레이 스크린 및 출력의 청각적 표현을 위한 스피커 또는 다른 소리 발생 장치를 포함한다. 사용자 인터페이스에 사용될 수 있는 입력 장치의 예는 키보드, 마우스, 터치 패드 및 디지털 태블릿과 같은 포인팅 장치를 포함한다. 다른 예로서, 컴퓨터는 음성 인식 또는 다른 청취 가능한 포맷을 통해 입력 정보를 수신할 수 있다.
이러한 컴퓨터는 로컬 네트워크 또는 엔터프라이즈 네트워크 또는 인터넷과 같은 광역 네트워크를 포함하는 임의의 적합한 형태의 하나 이상의 네트워크에 의해 상호접속될 수 있다. 이러한 네트워크는 임의의 적합한 기술에 기초할 수 있으며, 임의의 적합한 프로토콜에 따라 작동할 수 있고 무선 네트워크, 유선 네트워크 또는 광섬유 네트워크를 포함 할 수 있다.
또한, 본 발명에 설명된 다양한 방법 또는 프로세스는 다양한 운영 시스템 또는 플랫폼 중 임의의 하나를 채용 하는 하나 이상의 프로세서에서 실행 가능한 소프트웨어로서 코딩될 수 있다. 또한, 이런 소프트웨어는 다수의 적절한 프로그래밍 언어 및/또는 프로그래밍 또는 스크립팅 툴 중 임의의 것을 사용하여 기록될 수 있고, 또한 프레임워크 또는 가상 머신에서 실행되는 실행 가능한 기계 언어 코드 또는 중간 코드로서 컴파일될 수 있다.
이 관점에서, 본 발명의 양태는 하나 이상의 컴퓨터 또는 다른 컴퓨터에서 실행될 때 상기 본 발명의 다양한 실시태양을 구현하는 방법을 실행하는 하나 이상의 프로그램으로 인코딩된 컴퓨터 판독가능 매체(또는 다수의 컴퓨터 판독가능 매체)(예를 들어, 컴퓨터 메모리, 하나 이상의 플로피 디스크, 컴팩트 디스크(CD), 광학 디스크, 디지털 비디오 디스크(DVD), 자기 테이프, 플래시 메모리, 필드 프로그래머블 게이트 어레이의 회로 구성 또는 다른 반도체 장치 또는 다른 비 일시적, 유형의 컴퓨터 저장 매체)로서 구현될 수 있다. 컴퓨터 판독 가능 매체 또는 미디어는 운반 가능하여, 이에 저장된 프로그램 또는 프로그램이 상기와 같이 본 발명의 다양한 양태를 구현하기 위해 하나 이상의 상이한 컴퓨터 또는 다른 프로세서에 로딩 될 수 있다. 본 발명에 사용된 바와 같이, "비 일시적 컴퓨터 판독 가능 저장 매체"라는 용어는 제작품(즉, 제작 물품) 또는 기계로 고려될 수 있는 컴퓨터 판독 가능 매체만을 포함한다.
"프로그램" 또는 "소프트웨어"라는 용어는 본 발명에서 일반적인 의미로 컴퓨터 또는 다른 프로세서를 프로그램하여 상기한 바와 같이 본 발명의 다양한 양태를 구현하기 위해 사용될 수 있는 컴퓨터 실행 가능 지시의 컴퓨터 코드 또는 세트의 임의의 형태를 의미한다. 또한, 본 실시태양의 한 양태에 따르면, 실행될 때 본 발명의 방법을 수행하는 하나 이상의 컴퓨터 프로그램은 단일 컴퓨터 또는 프로세서에 존재할 필요는 없지만, 본 발명의 다양한 양태를 구현하기 위한 여러 상이한 컴퓨터 또는 프로세서 중에서 모듈 방식으로 분포될 수 있다는 것을 이해해야 한다
본 발명에 사용된 바와 같이, 용어 "데이터베이스"는 일반적으로 탐색 및 검색의 용이성 및 속도를 위해 배열된 데이터의 집합을 의미한다. 또한, 데이터베이스는 통상적으로 논리적 및 물리적 데이터 구조를 포함한다. 당업자는 본 발명에 기술된 방법이 관계형 데이터베이스, 객체 관계형 데이터베이스 및 XML이 "eXtensible-MarkupLanguage"를 나타내는 XML 기반 데이터베이스를 포함하는 임의의 유형의 데이터베이스와 함께 사용될 수 있다는 것을 인식할 것이다. 예를 들어, 유전자 발현 정보는 데이터베이스에 저장되고 데이터베이스로부터 검색될 수있다. 유전자 발현 정보는 유전자 발현 정보를 다양한 다른 관련 정보(예를 들어, 치료 프로토콜을 수립하고/하거나 진단을 내리는데 도움을 주는 보고서 또는 문서를 생성하는데 관련된 정보 또는 환자 샘플을 추적하는데 도움이 되는 정보)와 관련된 방식으로 저장되거나 색인될 수 있다. 이런 관련 정보는, 예를 들어, 환자 식별 정보, 담당 의사 식별 정보, 당당 의사에 관한 정보(예를 들어, 주소, 전화번호), 생물학적 샘플의 기원에 관한 정보(예를 들어, 조직 유형, 샘플링 날짜), 생물학적 샘플 처리 정보, 표본 품질 관리 정보, 생물학적 샘플 보관 정보, 유전자 주석 정보 등을 포함할 수 있다.
컴퓨터 실행가능 명령어는 하나 이상의 컴퓨터 또는 다른 장치에 의해 실행되는 프로그램 모듈과 같은 많은 형태 일 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 구성요소, 데이터 구조 등을 포함한다. 통상적으로, 프로그램 모듈의 기능은 다양한 실시태양에서 요구되는 바와 같이 결합되거나 분산될 수 있다.
본 발명의 일부 양태에서, 게놈 정보를 처리하기 위한 컴퓨터 구현 방법이 제공된다. 이 방법은 원발부위가 특정되지 않은 종양 세포를 포함하는 생물학적 샘플의 유전자 발현 데이터를 획득하는 단계;
분류 알고리즘을 이용하여 상기 생물학적 샘플의 상기 유전자 발현 데이터와 복수의 종양 유형별 특이적 유전자 발현 데이터를 비교하여 상기 생물학적 샘플의 원발부위를 상기 복수의 종양 유형 중 적어도 하나의 유형으로 분류하는 단계를 필요로 한다. 본 발명에 개시된 임의의 통계 또는 분류 방법은 컴퓨터 구현 방법에 통합될 수 있다. 일부 실시태양에서, 상기 방법은 생물학적 샘플에 포함된 종양 세포가 원발부위가 특정된 복수의 종양 유형 중 적어도 하나의 유형일 확률을 계산하는 단계를 필요로 한다. 컴퓨터 구현 방법은 생물학적 샘플에 포함된 종양 세포가 원발 부위가 특정된 종양 유형일 확률을 표시하는 보고서를 생성하는 단계를 필요로 할 수 있다. 이런 방법은 또한 대상의 의료 제공자에게 보고서를 전송하는 단계를 필요로 할 수 있다.
실시예 1. 원발부위가 특정된 복수의 종양 유형별 유전자 발현 데이터 수집
원발부위가 특정된 복수의 종양 유형별 유전자 발현 데이터와 임상정보를 공공 데이터베이스인 GEO(Gene Expression Omnibus, https://www.ncbi.nlm.nih.gov/geo/, 해당 플랫폼 : GPL570, A-AFFY-44), ArrayExpress, TCGA, ICGS, GTEx에서 확보하였다.
▶ Expression Data
- illumina TrueSeq RNA sequencing
- Affymetrix Human Gene 1.1 ST Expression Array(V3; 837 samples)
▶ Genotype Data
- Whole genome sequencing (HiSeq X; first batch on HiSeq 2000)
- Whole exome sequencing (Agilent or ICE target capture, HiSeq 2000)
- Illumina OMNI 5M Array or 2.5M SNP Array
- Illumina Human Exome SNP Array
▶ Analysis Methods
- Updated on 08/20/2019
- Current Release: V8
▶ General Sample Collection
- Genome Tissue Expression (GTEx) SOPs
- Current Release: V8
상기 데이터베이스에서 확보한 유전자 발현 데이터 중 20,267명의 암환자의 유전자 발현 데이터와 12,490개의 정상 조직의 유전자 발현 데이터가 모델 개발에 사용되었다.
수집된 데이터를 필터링한 후(필터링 조건 조건 : Homo sapiens, Tissue Biopsy) 데이터에 포함된 다양한 종양 유형들을 42개 유형으로 분류하였다. 동일 유형으로 분류된 종양들은 임상학적으로 유사한 특성을 보이는 종양들이다. 42개의 종양 유형은 아래의 표와 같다.
Order Cancer Type DESCRIPTION
1 ACC ADRENOCORTICAL.CARCINOMA
2 ATC ANAPLASTIC.THYROID.CANCER
3 BCC BASAL.CELL.CARCINOMA
4 BREAST.CANCER BREAST.CANCER
5 CERVICAL.CANCER CERVICAL.CANCER
6 COLON.CANCER COLON.CANCER
7 EAC ESOPHAGAL.ADENO.CARCINOMA
8 GBM GLIOBLASTOMA.MULTIFORME
9 GIST GASTROINTESTINAL.STROMAL.TUMOR
10 HBL HEPATOBLASTOMA
11 HCC HEPATOCELLULAR.CARCINOMA
12 HGBT HIGH.GRADE.BRAIN.TUMOR
13 HL HODGKIN.LYMPHOMA
14 LCC NSCLC(LARGE CELL CARCINOMA)
15 LGBT LOW.GRADE.BRAIN.TUMOR
16 MCC MERKEL.CELL.CARCINOMA
17 MM MULTIPLE.MYELOMA
18 NHL NON.HODGKIN.LYMPHOMA
19 OVARIAN.CANCER OVARIAN.CANCER
20 PANCREATIC.CANCER PANCREATIC.CANCER
21 PNET NEUROENDOCRINE.TUMOR
22 PPC PERITONEAL.CANCER
23 PPGLs PHEOCHROMOCYTOMA_PARAGANGLIOMA
24 PROSTATE.CANCER PROSTATE.CANCER
25 RCC RENAL.CANCER
26 RECTAL.CANCER RECTAL.CANCER
27 SARCOMA SARCOMA
28 SCC NSCLC(SQUAMOUS CELL CARCINOMA)
29 SCLC SMALL.CELL.LUNG.CANCER
30 SKIN.MELANOMA SKIN.MELANOMA
31 STOMACH.CANCER STOMACH.CANCER
32 UTERINE.CANCER UTERINE.CANCER
33 UVEAL.MELANOMA UVEAL.MELANOMA
34 WILMS.TUMOR WILMS.TUMOR
35 cSCC CUTANEOUS.SQUAMOUS.CELL.CARCINOMA
36 non.ATC NON.ANAPLASTIC.THYROID.CANCER
37 non.NPC NONNASOPHARYNGEAL.CANCER
38 ESCC ESOPHAGAL.SQUAMOUS.CELL.CARCINOMA
39 NPC NASOPHARYNGEAL.CANCER
40 BLC BLADDER.CANCER
41 ADC NSCLC(ADENOCARCINOMA)
42 BDC BILE.DUCT.CANCER
실시예 2. 데이터 전처리 수집된 데이터에서 유전자별 발현량을 표준화하기 위해(normalize) 동일한 플랫폼으로 제작된 각 데이터셋 별로 해당하는 모든 환자의 발현 프로파일의 원본데이터를 SCAN, UPC((Single-channel array normalization (SCAN) and Universal exPression Codes (UPC)) 등의 방법을 통해 표준화한뒤 Systematic Error, Outlier, Missing Value 등의 데이터 정화(Data Cleansing) 작업을 진행하였다.
실시예 3. 데이터 피쳐링화(Featurization) 및 모델의 구성
스크리닝 대상이 되는 18,430종의 유전자 중에서 원발부위가 특정된 종양 유형에 기초하여 종양 유형별로 발현되는 유전자들을 1차적으로 선별하였다. 종양 유형별로 발현된 유전자에서 조직에서 기인한 유전자 발현 데이터를 제거하여 원발부위가 특정된 종양 유형에 의해 특이적으로 발현되는 유전자들을 선별하였다.
원발부위가 특정된 종양 유형에 의해 특이적으로 발현되는 유전자들의 수의 종류 및 원발부위가 특정된 종양 유형별로 특이적으로 발현되는 유전자의 종류는 아래의 표와 같다.
아래 표에 기재된 유전자의 심볼은 GEO(Gene Expression Omnibus, https://www.ncbi.nlm.nih.gov/geo/, 해당 플랫폼 : GPL570, A-AFFY-44), ArrayExpress, TCGA, ICGS, GTEx을 참조하였다.
Order Cancer Type Number of
GENES
DEG UNIQUE
GENE
1 ACC 18,430 53 4
2 ATC 18,430 203 28
3 BCC 18,430 92 8
4 BREAST.CANCER 18,430 46 3
5 CERVICAL.CANCER 18,430 10 2
6 COLON.CANCER 18,430 53 10
7 EAC 18,430 164 39
8 GBM 18,430 145 23
9 GIST 18,430 438 174
10 HBL 18,430 213 69
11 HCC 18,430 43 3
12 HGBT 18,430 106 4
13 HL 18,430 43 23
14 LCC 18,430 138 2
15 LGBT 18,430 76 7
16 MCC 18,430 559 242
17 MM 18,430 4 32
18 NHL 18,430 16 2
19 OVARIAN.CANCER 18,430 11 1
20 PANCREATIC.CANCER 18,430 9 1
21 PNET 18,430 189 24
22 PPC 18,430 88 18
23 PPGLs 18,430 421 212
24 PROSTATE.CANCER 18,430 8 1
25 RCC 18,430 53 7
26 RECTAL.CANCER 18,430 140 44
27 SARCOMA 18,430 325 127
28 SCC 18,430 283 41
29 SCLC 18,430 319 44
30 SKIN.MELANOMA 18,430 108 25
31 STOMACH.CANCER 18,430 29 3
32 UTERINE.CANCER 18,430 18 5
33 UVEAL.MELANOMA 18,430 52 20
34 WILMS.TUMOR 18,430 240 59
35 cSCC 18,430 256 84
36 non.ATC 18,430 32 6
37 non.NPC 18,430 11 1
38 ESCC 18,430 13 -
39 NPC 18,430 13 -
40 BLC 18,430 8 -
41 ADC 18,430 91 -
42 BDC 18,430 - -
DEG Selection Rule : (T-TEST < 0.001) & LOGISTIC CONCODANAT > 50 & U-TEST < 0.001 & AR > 0.3 & ( -2 < LOGFOLDCHANGE < 2)
암종 유전자이름
ACC CBLN4
ACC FMO2
ACC PTH1R
ACC TH
ATC ADAM12
ATC ADAMTS6
ATC ADGRE2
ATC AHNAK2
ATC ALDH1A3
ATC CCL13
ATC CLTRN
ATC CRABP1
ATC CYP27C1
ATC DGKI
ATC DZIP1
ATC EDN3
ATC ELOVL6
ATC GPR84
ATC HPSE
ATC HRH1
ATC KCNJ13
ATC MEGF10
ATC MME
ATC OTOS
ATC PBX4
ATC RYR2
ATC STEAP1
ATC TBX22
ATC TCEAL2
ATC TFPI2
ATC TMEM158
ATC WSCD2
BCC ABCC12
BCC APCDD1L
BCC FBN3
BCC LRP2
BCC RTN1
BCC SYNM
BCC TRIM52
BCC ZNF479
BREAST.CANCER DEFB132
BREAST.CANCER SLC19A3
BREAST.CANCER UBE2T
CERVICAL.CANCER GYS2
CERVICAL.CANCER SYCP2
COLON.CANCER CEL
COLON.CANCER CEMIP
COLON.CANCER GCG
COLON.CANCER INSL5
COLON.CANCER LY6G6D
COLON.CANCER S100A2
COLON.CANCER SLC30A10
COLON.CANCER TACSTD2
COLON.CANCER TCN1
COLON.CANCER UGT1A8
cSCC ACKR1
cSCC ACTA1
cSCC ACTC1
cSCC ACTG2
cSCC ADAMTS5
cSCC ADRA2A
cSCC ANK2
cSCC APOBEC3A
cSCC AR
cSCC ARHGAP6
cSCC ARL5B
cSCC ARMCX2
cSCC ATP8B4
cSCC C10orf55
cSCC CARNMT1
cSCC CCN5
cSCC CD34
cSCC CDO1
cSCC CGAS
cSCC CGNL1
cSCC CHRDL1
cSCC CLEC3B
cSCC CMAHP
cSCC CNN1
cSCC DDIT4L
cSCC DGKH
cSCC EBF1
cSCC EBF2
cSCC EFHD1
cSCC EMCN
cSCC EMX2
cSCC ESRRG
cSCC FRZB
cSCC GALNT16
cSCC GPATCH11
cSCC GPRASP1
cSCC H2AC16
cSCC H2BC13
cSCC H2BC14
cSCC H3C11
cSCC H4C5
cSCC HSD11B1
cSCC ITGB6
cSCC ITGBL1
cSCC KCNMB1
cSCC KLHL11
cSCC KNL1
cSCC LRRN4CL
cSCC MACROD2
cSCC MDN1
cSCC MFAP4
cSCC MRGPRF
cSCC MUC7
cSCC MYOT
cSCC MYRIP
cSCC OLFML1
cSCC PCSK2
cSCC PDGFD
cSCC PKD2L2
cSCC PLAAT3
cSCC PLIN1
cSCC PLN
cSCC PRELP
cSCC PRG4
cSCC PRKAR2B
cSCC RBPMS2
cSCC RECK
cSCC RUNX1T1
cSCC S100A12
cSCC SH2D5
cSCC SLAIN1
cSCC SLC43A1
cSCC SLIT3
cSCC SORBS2
cSCC SPINK6
cSCC TAF13
cSCC TCEAL7
cSCC TLE2
cSCC TNIP3
cSCC VIT
cSCC ZKSCAN8
cSCC ZMAT1
cSCC ZNF785
cSCC ZSCAN18
EAC ADAMTSL4
EAC ALOX12
EAC ARHGEF26
EAC BAMBI
EAC BID
EAC C4orf19
EAC DMBT1
EAC DNASE1L3
EAC DPT
EAC DSG1
EAC EFS
EAC EPB41L3
EAC FBP1
EAC FOXA3
EAC GATA6
EAC GPM6B
EAC HOXB6
EAC IL1A
EAC KLK12
EAC KLK13
EAC LCE3D
EAC LTB4R
EAC MAB21L4
EAC NECTIN3
EAC NFE2L3
EAC PAX9
EAC PRIMA1
EAC PRSS27
EAC PTPN13
EAC RBP7
EAC RORA
EAC SLC16A6
EAC TIAM1
EAC TMC5
EAC TMEM40
EAC TMPRSS11B
EAC VLDLR
EAC ZBED2
EAC ZNF750
GBM ANXA2P2
GBM APOBEC3G
GBM C11orf87
GBM CARD16
GBM CD163
GBM CD93
GBM CNGA3
GBM CRYBG1
GBM CSTA
GBM DDX60L
GBM LY75
GBM LY96
GBM LYZ
GBM MAP3K7CL
GBM MXRA5
GBM NIBAN1
GBM NNMT
GBM PLP2
GBM POSTN
GBM PSMB8
GBM SAMD9L
GBM SERPINE1
GBM VCAM1
GIST ADCY5
GIST AKR1B10
GIST ATP10B
GIST ATP4B
GIST B4GALT6
GIST BBS12
GIST BHLHB9
GIST BNC2
GIST BSPRY
GIST C19orf33
GIST C1QTNF2
GIST C1orf216
GIST C6orf58
GIST CAND2
GIST CARF
GIST CBLIF
GIST CDH1
GIST CHIA
GIST CLCA1
GIST CLMN
GIST CPA2
GIST CSPG4
GIST CSRNP3
GIST CXADR
GIST CYP2C9
GIST CYP2S1
GIST CYS1
GIST DCAF12L2
GIST DIRAS3
GIST DSC2
GIST EID3
GIST ELF3
GIST EPB41L4B
GIST ERBB3
GIST ESRP1
GIST ESRP2
GIST F2RL1
GIST F2RL2
GIST FA2H
GIST FAM110B
GIST FAM229B
GIST FAM3D
GIST FBXL2
GIST FGF2
GIST FUT2
GIST FUT3
GIST FXYD3
GIST GABRA2
GIST GALE
GIST GCNT3
GIST GKN1
GIST GPA33
GIST GPR37
GIST GPRC5A
GIST GPX2
GIST GREM2
GIST GSDMB
GIST GSDME
GIST GUCY2C
GIST HECW2
GIST HOXA2
GIST HSD11B2
GIST IMPA2
GIST INTU
GIST IRF6
GIST ISL2
GIST ISLR
GIST KCNE4
GIST KCNJ8
GIST KCNK3
GIST KLK11
GIST LCA5
GIST LCN2
GIST LGALS4
GIST LIPH
GIST LPAR4
GIST LRCH2
GIST LRRC3B
GIST LRRC66
GIST LSAMP
GIST LY6H
GIST MAGEL2
GIST MAGI2
GIST MAL2
GIST MAP3K21
GIST MAPK10
GIST MAPK13
GIST MGST1
GIST MPP6
GIST MRAP2
GIST MT1M
GIST MUC1
GIST MUC4
GIST MUC6
GIST MYO1A
GIST MYO5B
GIST N6AMT1
GIST NAV3
GIST NKX3-2
GIST NLGN4Y
GIST NPFFR2
GIST NRIP3
GIST NRK
GIST OBSCN
GIST OLFM4
GIST OSGIN2
GIST OVOL2
GIST PALD1
GIST PCDHB15
GIST PCDHB3
GIST PCDHB5
GIST PDE10A
GIST PDE4C
GIST PI3
GIST PIGR
GIST PIK3CG
GIST PKP2
GIST PLA2G4C
GIST PLEKHA7
GIST PLEKHH1
GIST PLPP2
GIST PLS1
GIST PLXDC1
GIST PLXDC2
GIST POU2AF1
GIST PPL
GIST PRICKLE1
GIST PRSS16
GIST PTPRR
GIST RAB25
GIST REG1A
GIST REG4
GIST RNF128
GIST RNF24
GIST SAMD13
GIST SCARA3
GIST SCIN
GIST SEMA3A
GIST SERINC2
GIST SERPINB5
GIST SGCD
GIST SLC26A3
GIST SLC28A2
GIST SLC44A3
GIST SLC51B
GIST SMCO3
GIST SOX9
GIST SPINK5
GIST SPINT1
GIST SPTSSB
GIST STYK1
GIST SULT1B1
GIST TAFA4
GIST TC2N
GIST TFF3
GIST TMEM125
GIST TMEM171
GIST TMEM231
GIST TMPRSS2
GIST TNFRSF11A
GIST TNFRSF17
GIST TRIM23
GIST TRPC1
GIST TRPC3
GIST TTC39A
GIST UGT2B15
GIST VNN1
GIST VSIG1
GIST WDFY3-AS2
GIST ZC3H12D
GIST ZNF135
GIST ZNF415
GIST ZNF542P
GIST ZNF569
HBL ABCB11
HBL ARID3A
HBL ASPSCR1
HBL BCL11A
HBL BEND5
HBL C9
HBL CGREF1
HBL CLEC1B
HBL COLEC12
HBL CRP
HBL CYP26A1
HBL CYP2B6
HBL DEFA5
HBL DUSP9
HBL EDDM3A
HBL ERVMER34-1
HBL FAM217B
HBL FCN2
HBL FETUB
HBL FGF20
HBL GABRB1
HBL GNAL
HBL GPLD1
HBL GXYLT2
HBL HMGA2
HBL HPGD
HBL HSDL1
HBL IDO2
HBL IGDCC3
HBL IGF2BP1
HBL IGF2BP2
HBL ITGA2
HBL LIN28B
HBL LINC01549
HBL MAP7D2
HBL MUCL1
HBL NAALAD2
HBL NAT2
HBL NKD1
HBL OLR1
HBL OXCT1
HBL PGAP1
HBL PGC
HBL PPP1R9A
HBL PRTG
HBL QPCT
HBL REG3A
HBL RFX6
HBL SACS
HBL SDS
HBL SEC14L4
HBL SELE
HBL SHISA6
HBL SLC17A4
HBL SLC7A11
HBL SPDL1
HBL SRD5A2
HBL SSUH2
HBL ST18
HBL TAF1L
HBL TBX15
HBL TRH
HBL TRPM8
HBL TSPAN5
HBL USP27X
HBL ZG16
HBL ZNF594
HBL ZRANB3
HBL ZSWIM5
HCC ADGRG7
HCC CXCL14
HCC OIT3
HGBT AFDN-DT
HGBT CREB3L4
HGBT HFM1
HGBT OTX2
HL ANKDD1A
HL C1orf115
HL DSP
HL EPHA2
HL FHDC1
HL GABBR1
HL GPR182
HL GZMH
HL HOXA5
HL L3MBTL3
HL LIMCH1
HL LOC654780
HL NINL
HL PCDH9
HL PDE2A
HL PLCXD3
HL PRKY
HL PTGR1
HL SH3BGRL2
HL STAB2
HL TAGLN3
HL TIE1
HL WHRN
LCC CFAP53
LCC SLC6A4
LGBT CALCRL
LGBT MAP3K8
LGBT MORC4
LGBT PTGR2
LGBT TNFAIP8
LGBT TNFRSF11B
LGBT TTC30B
MCC AADACL2
MCC ABCA12
MCC ABCA6
MCC ABLIM3
MCC ACP3
MCC ACSM3
MCC ACSS2
MCC ADGRG6
MCC AHCYL2
MCC AKNAD1
MCC AKR1C3
MCC ALDH3A1
MCC ALDH3B2
MCC ALOX12B
MCC ALOXE3
MCC AMER1
MCC AMER2
MCC ANKRD29
MCC ANO5
MCC ANXA3
MCC ANXA9
MCC APLF
MCC AQP9
MCC ARG1
MCC ARHGAP42
MCC ARHGEF37
MCC ATP10A
MCC ATP6V1C2
MCC AVPI1
MCC AWAT1
MCC BEAN1
MCC BEST3
MCC BPIFC
MCC BRAF
MCC BTBD16
MCC BTD
MCC C11orf45
MCC C3orf52
MCC C5orf46
MCC CA6
MCC CAPN3
MCC CARD18
MCC CCDC9B
MCC CCL27
MCC CD1E
MCC CDH19
MCC CDHR1
MCC CDR1
MCC CDSN
MCC CHI3L2
MCC CNGA1
MCC CNTN2
MCC COL17A1
MCC CTSG
MCC CXCR2
MCC CYP2E1
MCC CYP4F22
MCC CYP4F8
MCC CYSRT1
MCC DCT
MCC DCUN1D1
MCC DEGS2
MCC DGKA
MCC DIAPH2
MCC DSC1
MCC DUSP26
MCC EGLN3
MCC ELF5
MCC ENTPD3
MCC EPN3
MCC EPS8L1
MCC ERC2
MCC ESYT3
MCC ETFBKMT
MCC EVPL
MCC EXPH5
MCC FAH
MCC FEM1B
MCC FMO4
MCC GABRE
MCC GAN
MCC GFI1
MCC GFPT2
MCC GJB3
MCC GPR34
MCC GPRIN2
MCC GRAMD1C
MCC GRHL1
MCC GULP1
MCC HAL
MCC HDC
MCC HS3ST6
MCC IGSF10
MCC IL17RD
MCC IL22RA1
MCC IL33
MCC ISM1
MCC ITPR2
MCC KCNH6
MCC KCNK5
MCC KCNK7
MCC KCTD11
MCC KCTD21
MCC KLF8
MCC KLK1
MCC KLK10
MCC KLK8
MCC KRT2
MCC KRT27
MCC KRT31
MCC KRT73
MCC KRT74
MCC KRT77
MCC KRTAP11-1
MCC KRTAP2-1
MCC KRTAP3-1
MCC KRTAP4-7
MCC LAMB4
MCC LCE2B
MCC LEPR
MCC LHX3
MCC LIFR
MCC LPAR5
MCC LY6G6C
MCC LYNX1
MCC LYPD6B
MCC MAB21L3
MCC MAN1A2
MCC MATN2
MCC MFAP3L
MCC MICA
MCC MID2
MCC MIR99AHG
MCC MLANA
MCC MMP28
MCC MPP7
MCC MPZ
MCC MS4A2
MCC MST1R
MCC MTMR11
MCC MYEOV
MCC NAA40
MCC NDNF
MCC NECTIN4
MCC NEUROD2
MCC NEXN
MCC NIM1K
MCC NIPAL2
MCC NIPAL4
MCC NLRP1
MCC NPAS2
MCC NPTXR
MCC NTN4
MCC NTRK2
MCC OBP2B
MCC PCDH7
MCC PEX11A
MCC PHYHIP
MCC PITPNM3
MCC PLA2G3
MCC PLA2G4F
MCC PLD1
MCC PLEKHG1
MCC PMEL
MCC PNLIPRP3
MCC POU2F3
MCC POU3F2
MCC PPFIBP1
MCC PPP1R13L
MCC PPP1R3B
MCC PRSS12
MCC PSAPL1
MCC PSORS1C2
MCC PTGES
MCC PTK6
MCC PTPN21
MCC PXK
MCC RFTN2
MCC RGN
MCC RHOJ
MCC RHOV
MCC RIMS2
MCC RNASE4
MCC RNF39
MCC RPTN
MCC RSPO1
MCC RUNDC3B
MCC SBSPON
MCC SCGN
MCC SCUBE2
MCC SELP
MCC SEMA3G
MCC SEMA4G
MCC SERHL2
MCC SERPINA12
MCC SERPINA3
MCC SERPINA5
MCC SERPINB7
MCC SERPINB8
MCC SGPP2
MCC SH3RF2
MCC SLC20A2
MCC SLC25A18
MCC SLC28A3
MCC SLC2A12
MCC SLC39A2
MCC SLC5A1
MCC SLC9A9
MCC SMAD5-AS1
MCC SNCA
MCC SNTB1
MCC SNX21
MCC SOSTDC1
MCC SPTLC3
MCC STARD5
MCC STK32B
MCC TAFA2
MCC TG
MCC THSD7B
MCC TLR3
MCC TLR5
MCC TMEM108
MCC TMEM144
MCC TMEM74
MCC TMEM79
MCC TP53AIP1
MCC TRIM7
MCC TRPM1
MCC TYR
MCC UEVLD
MCC VIPR1
MCC VSNL1
MCC WFDC12
MCC WFDC3
MCC WFDC5
MCC WLS
MCC ZNF204P
MCC ZNF224
MCC ZNF563
MCC ZNF600
MCC ZNF677
MCC ZNF846
MM MOSPD2
MM RNASEL
MM ZNF486
NHL GINS3
NHL NEK2
non.ATC ARHGAP36
non.ATC DCSTAMP
non.ATC FAM20A
non.ATC GABRB2
non.ATC RXRG
non.ATC RYR1
non.NPC IL24
OVARIAN.CANCER CTCFL
PANCREATIC.CANCER LEMD1
PNET ARPP21
PNET CACNG3
PNET CCDC15
PNET CHAC2
PNET ERMN
PNET GABRG1
PNET GTSE1
PNET IPCEF1
PNET MASTL
PNET MCM3AP-AS1
PNET MFAP2
PNET MOBP
PNET MOG
PNET RFC5
PNET SAAL1
PNET SEC14L5
PNET SLC39A12
PNET SOWAHC
PNET TMEM155
PNET TTF2
PNET UNC13C
PNET WDR76
PNET ZNF764
PNET ZNF814
PPC ACVR1C
PPC ADGRL3
PPC CCDC178
PPC CHST7
PPC CIDEA
PPC COL6A6
PPC COLGALT2
PPC FBLN7
PPC GPC3
PPC KCNN3
PPC LDB3
PPC MIR1-1HG-AS1
PPC P2RY14
PPC PAGE4
PPC PNOC
PPC PPP1R1A
PPC SOX7
PPC WFDC1
PPGLs ADAMTS19
PPGLs ADCYAP1R1
PPGLs ADGRA1
PPGLs ADGRB2
PPGLs ADORA3
PPGLs AK4
PPGLs AP3B2
PPGLs ARAP2
PPGLs ARC
PPGLs ASB4
PPGLs ASPHD2
PPGLs ASTN2
PPGLs ATP1A3
PPGLs ATP4A
PPGLs ATP6V1G2
PPGLs B3GAT1
PPGLs BEGAIN
PPGLs BICD1
PPGLs BMP7
PPGLs BRINP1
PPGLs C14orf39
PPGLs C1QL1
PPGLs CA10
PPGLs CACNA1B
PPGLs CACNA2D3
PPGLs CADM2
PPGLs CALN1
PPGLs CALY
PPGLs CAMK2B
PPGLs CAMK4
PPGLs CBLN3
PPGLs CCNA1
PPGLs CCR10
PPGLs CCSER1
PPGLs CD200
PPGLs CDH18
PPGLs CDK5R2
PPGLs CELF6
PPGLs CELSR3
PPGLs CHRNB4
PPGLs CKMT2
PPGLs CLCN4
PPGLs CNKSR2
PPGLs CNNM1
PPGLs CPLX2
PPGLs CREB5
PPGLs CTNNA2
PPGLs CYP11B2
PPGLs DDC
PPGLs DDX25
PPGLs DGKB
PPGLs DHRS2
PPGLs DISP2
PPGLs DLX1
PPGLs DOK5
PPGLs DRD2
PPGLs EGR4
PPGLs FAM133A
PPGLs FAM174B
PPGLs FBXO16
PPGLs FEV
PPGLs FLVCR2
PPGLs FMN2
PPGLs FMO1
PPGLs GABRG2
PPGLs GALNT14
PPGLs GALNT18
PPGLs GALR1
PPGLs GAP43
PPGLs GATA3
PPGLs GCNA
PPGLs GDAP1
PPGLs GFRA3
PPGLs GLRB
PPGLs GNG3
PPGLs GPR176
PPGLs GPR22
PPGLs GRIA4
PPGLs GRIP1
PPGLs HAND1
PPGLs HCN1
PPGLs HMGCLL1
PPGLs HOXC10
PPGLs HOXC9
PPGLs HPCAL4
PPGLs HS3ST2
PPGLs IL1RL1
PPGLs INS
PPGLs INSM2
PPGLs ISL1
PPGLs JAKMIP1
PPGLs JPH4
PPGLs KCNB1
PPGLs KCNH2
PPGLs KCNJ6
PPGLs KCNK12
PPGLs KCNK2
PPGLs KCNQ5
PPGLs KCTD16
PPGLs KIAA1841
PPGLs KIF1A
PPGLs KLHL4
PPGLs L1CAM
PPGLs LAMA2
PPGLs LAYN
PPGLs LINGO2
PPGLs LMO1
PPGLs LRRC39
PPGLs MAB21L2
PPGLs MAMSTR
PPGLs MAPT
PPGLs MARCHF11
PPGLs MARCHF4
PPGLs MARK1
PPGLs MBOAT2
PPGLs MC2R
PPGLs MCF2
PPGLs MCOLN2
PPGLs MELTF
PPGLs MINAR1
PPGLs MIR7-3HG
PPGLs MRAP
PPGLs MYT1
PPGLs MYT1L
PPGLs NDUFA4L2
PPGLs NLGN4X
PPGLs NMNAT2
PPGLs NR0B1
PPGLs NRXN1
PPGLs NTRK1
PPGLs OPRK1
PPGLs OSBPL3
PPGLs OSR2
PPGLs PCBP3
PPGLs PCLO
PPGLs PDE3A
PPGLs PDLIM4
PPGLs PHOSPHO2
PPGLs PHOX2A
PPGLs PHOX2B
PPGLs PKIA
PPGLs PLXNA2
PPGLs PPP2R2C
PPGLs PRKCD
PPGLs PRLHR
PPGLs PRPH
PPGLs PTGER2
PPGLs PTGS1
PPGLs PTPRN
PPGLs PTPRO
PPGLs RAB15
PPGLs RAB27B
PPGLs RAB33A
PPGLs RAB38
PPGLs RAB6B
PPGLs RASD2
PPGLs RASEF
PPGLs RBM47
PPGLs RD3
PPGLs REEP2
PPGLs RET
PPGLs RIIAD1
PPGLs RIMS3
PPGLs RPH3A
PPGLs RUNDC3A
PPGLs SCN3B
PPGLs SCN9A
PPGLs SEPTIN3
PPGLs SEZ6L
PPGLs SGIP1
PPGLs SHOC1
PPGLs SIDT1
PPGLs SIGLEC11
PPGLs SLC12A5
PPGLs SLC18A1
PPGLs SLC24A2
PPGLs SLC35F3
PPGLs SLC38A11
PPGLs SLC51A
PPGLs SLC6A2
PPGLs SLC6A9
PPGLs SLC8A2
PPGLs SOGA1
PPGLs SPAG1
PPGLs SPDYE1
PPGLs SRD5A1
PPGLs SSX2IP
PPGLs ST8SIA3
PPGLs ST8SIA5
PPGLs STMN4
PPGLs SULT2A1
PPGLs SVOP
PPGLs SYN1
PPGLs SYNGR3
PPGLs SYNPR
PPGLs SYT14
PPGLs TCP11L2
PPGLs TDRKH
PPGLs TMEM130
PPGLs TMEM145
PPGLs TMIE
PPGLs TPD52
PPGLs TPPP
PPGLs TTLL7
PPGLs TUBB4A
PPGLs UNC5A
PPGLs UNC79
PPGLs VEPH1
PPGLs WDR17
PPGLs YPEL4
PPGLs ZBTB6
PPGLs ZFR2
PROSTATE.CANCER TDRD1
RCC CRYAA
RCC GPC5
RCC IDO1
RCC MTTP
RCC NPHS2
RCC SFRP1
RCC SPAG4
RECTAL.CANCER ADGRF5
RECTAL.CANCER AGT
RECTAL.CANCER BRCA2
RECTAL.CANCER C4BPA
RECTAL.CANCER CCDC113
RECTAL.CANCER CENPN
RECTAL.CANCER CEP72
RECTAL.CANCER CEP83
RECTAL.CANCER COL12A1
RECTAL.CANCER DDX55
RECTAL.CANCER DNMT3B
RECTAL.CANCER ERCC6L
RECTAL.CANCER ETV4
RECTAL.CANCER FCGR3B
RECTAL.CANCER FIGNL1
RECTAL.CANCER FPR1
RECTAL.CANCER GAS2
RECTAL.CANCER GPT2
RECTAL.CANCER GZMB
RECTAL.CANCER HAUS6
RECTAL.CANCER IFI44L
RECTAL.CANCER JADE3
RECTAL.CANCER KIAA0895
RECTAL.CANCER MACC1
RECTAL.CANCER MARS2
RECTAL.CANCER NAA25
RECTAL.CANCER NANP
RECTAL.CANCER NUP155
RECTAL.CANCER NUP62CL
RECTAL.CANCER PDCD2L
RECTAL.CANCER PIR
RECTAL.CANCER PLAU
RECTAL.CANCER RFWD3
RECTAL.CANCER SKA3
RECTAL.CANCER SLC35E4
RECTAL.CANCER SLC38A5
RECTAL.CANCER SLC6A20
RECTAL.CANCER SLC7A5
RECTAL.CANCER TBC1D31
RECTAL.CANCER TNFSF15
RECTAL.CANCER UBE3D
RECTAL.CANCER UTP15
RECTAL.CANCER WNT2
RECTAL.CANCER ZNF280C
SARCOMA ABRA
SARCOMA ACOT7
SARCOMA ACTN3
SARCOMA ADAM10
SARCOMA ANKRD2
SARCOMA ANKRD23
SARCOMA AQP4
SARCOMA ARL4C
SARCOMA ATP1B4
SARCOMA BCL11B
SARCOMA BMP2K
SARCOMA C10orf71
SARCOMA C18orf54
SARCOMA C3orf14
SARCOMA CACNA1S
SARCOMA CCDC137
SARCOMA CCL4
SARCOMA CCNB2
SARCOMA CDNF
SARCOMA CEP152
SARCOMA CLIC5
SARCOMA CLIP2
SARCOMA CXCR4
SARCOMA DHRS7C
SARCOMA DUSP13
SARCOMA ECT2
SARCOMA EGR2
SARCOMA EMILIN1
SARCOMA FANCG
SARCOMA FBXO40
SARCOMA FPR3
SARCOMA GAS2L3
SARCOMA GLMP
SARCOMA GPR183
SARCOMA HJV
SARCOMA IDI2
SARCOMA ITGA4
SARCOMA KBTBD12
SARCOMA KCNA7
SARCOMA KIF20B
SARCOMA KIF2A
SARCOMA KLHL40
SARCOMA LINC00310
SARCOMA LIPI
SARCOMA LMNB2
SARCOMA LMOD3
SARCOMA LRRC37A3
SARCOMA LSMEM1
SARCOMA MERTK
SARCOMA MFHAS1
SARCOMA MICB
SARCOMA MYF6
SARCOMA MYH1
SARCOMA MYH4
SARCOMA MYH6
SARCOMA MYLK3
SARCOMA NAT1
SARCOMA NKX2-2
SARCOMA NRAP
SARCOMA NUDT11
SARCOMA ORC6
SARCOMA P2RY2
SARCOMA P3H1
SARCOMA PABPC1L
SARCOMA PAPPA
SARCOMA PARPBP
SARCOMA PCDH17
SARCOMA PFKFB1
SARCOMA PHETA2
SARCOMA PIEZO2
SARCOMA PLAUR
SARCOMA PLPP5
SARCOMA PNMA2
SARCOMA PPDPFL
SARCOMA PPP1R3A
SARCOMA PRKAG3
SARCOMA PRKCQ
SARCOMA PRMT6
SARCOMA PRR5L
SARCOMA PRSS35
SARCOMA PSD3
SARCOMA PTPN22
SARCOMA PTTG1
SARCOMA PYGM
SARCOMA RAI14
SARCOMA RBBP8
SARCOMA RBM11
SARCOMA RGS1
SARCOMA RNF182
SARCOMA ROR1
SARCOMA RPL3L
SARCOMA RUBCNL
SARCOMA RUNX3
SARCOMA SAMSN1
SARCOMA SCG2
SARCOMA SCLT1
SARCOMA SDC1
SARCOMA SMC2
SARCOMA SMCO1
SARCOMA SPAG5
SARCOMA SPIN4
SARCOMA SQLE
SARCOMA SYNPO2L
SARCOMA SYPL2
SARCOMA TACC3
SARCOMA TBC1D8B
SARCOMA TECRL
SARCOMA TK1
SARCOMA TLCD3A
SARCOMA TLR1
SARCOMA TMED3
SARCOMA TMEM182
SARCOMA TMEM200A
SARCOMA TMOD4
SARCOMA TOX2
SARCOMA TRDN
SARCOMA TRIM63
SARCOMA TSHZ3
SARCOMA TYMS
SARCOMA UBE2C
SARCOMA UCP3
SARCOMA UNC45B
SARCOMA ZNF136
SARCOMA ZNF430
SARCOMA ZNF667
SARCOMA ZWILCH
SARCOMA ZWINT
SCC ADAM23
SCC AK7
SCC AK9
SCC C12orf56
SCC C2orf73
SCC CALML3
SCC CCDC148
SCC CCDC151
SCC CCDC30
SCC CFAP206
SCC CNTD1
SCC DCDC2
SCC DNAH7
SCC DRC1
SCC DSG3
SCC EFHC2
SCC ERBB4
SCC FAM149A
SCC FAM184A
SCC FBXO15
SCC FYB2
SCC IL36G
SCC KRT13
SCC KRT14
SCC KRT16
SCC KRT6A
SCC KRT6B
SCC MAATS1
SCC MAGEA11
SCC MAGEA4
SCC NSUN7
SCC PCDH19
SCC RP1
SCC SLC22A16
SCC SPATA17
SCC SPATA4
SCC SPATA6
SCC SPRR1A
SCC SPRR2A
SCC STK33
SCC UBXN10
SCLC ABCA13
SCLC ADGB
SCLC ADRB1
SCLC ALDH3B1
SCLC ANG
SCLC ASCL1
SCLC BPIFB1
SCLC CCDC170
SCLC CCDC186
SCLC CCDC68
SCLC CCNE1
SCLC CDH26
SCLC CNTNAP2
SCLC CX3CR1
SCLC DLX5
SCLC DNAH12
SCLC ELOVL2
SCLC ESPL1
SCLC FCN1
SCLC FILIP1
SCLC FLACC1
SCLC FOSB
SCLC GNA14
SCLC GPIHBP1
SCLC HHLA2
SCLC KCNH8
SCLC LHX2
SCLC MANEAL
SCLC MCEMP1
SCLC MUC5B
SCLC MYCT1
SCLC ODF3B
SCLC PRDM13
SCLC PRICKLE2
SCLC PROX1
SCLC RBM43
SCLC RRAD
SCLC RSPO2
SCLC SERPINB3
SCLC SLC16A5
SCLC TCF21
SCLC TMEM71
SCLC TRPC6
SCLC VMO1
SKIN.MELANOMA CPN1
SKIN.MELANOMA ENTHD1
SKIN.MELANOMA FCRLA
SKIN.MELANOMA FSTL5
SKIN.MELANOMA GDF15
SKIN.MELANOMA KRT79
SKIN.MELANOMA KRTAP1-1
SKIN.MELANOMA KRTAP1-3
SKIN.MELANOMA KRTAP2-4
SKIN.MELANOMA KRTAP3-3
SKIN.MELANOMA KRTAP4-4
SKIN.MELANOMA KRTAP9-3
SKIN.MELANOMA KRTAP9-4
SKIN.MELANOMA LINC00518
SKIN.MELANOMA MAGEC1
SKIN.MELANOMA MAGEC2
SKIN.MELANOMA PLA1A
SKIN.MELANOMA RASSF10
SKIN.MELANOMA RNASE7
SKIN.MELANOMA SHANK2
SKIN.MELANOMA SLC45A2
SKIN.MELANOMA SLC6A15
SKIN.MELANOMA TPTE
SKIN.MELANOMA TRIM51
SKIN.MELANOMA ZNF280B
STOMACH.CANCER FNDC1
STOMACH.CANCER MS4A12
STOMACH.CANCER SPP1
UTERINE.CANCER JCHAIN
UTERINE.CANCER KANK4
UTERINE.CANCER MMP26
UTERINE.CANCER PAEP
UTERINE.CANCER RAMP2
UVEAL.MELANOMA ANKRD34A
UVEAL.MELANOMA BAG2
UVEAL.MELANOMA CCDC177
UVEAL.MELANOMA CPNE6
UVEAL.MELANOMA DEFB119
UVEAL.MELANOMA FEZF2
UVEAL.MELANOMA GRIA3
UVEAL.MELANOMA IQCG
UVEAL.MELANOMA LNX1
UVEAL.MELANOMA MDGA2
UVEAL.MELANOMA METTL1
UVEAL.MELANOMA PAK5
UVEAL.MELANOMA PCAT4
UVEAL.MELANOMA REPS2
UVEAL.MELANOMA RLN2
UVEAL.MELANOMA SCN1A
UVEAL.MELANOMA SLC24A4
UVEAL.MELANOMA SLC35F4
UVEAL.MELANOMA SLITRK6
UVEAL.MELANOMA ZNF804A
WILMS.TUMOR ACMSD
WILMS.TUMOR ADH6
WILMS.TUMOR AGXT2
WILMS.TUMOR ALDH8A1
WILMS.TUMOR AMDHD1
WILMS.TUMOR ANGPTL3
WILMS.TUMOR BACH2
WILMS.TUMOR CCDC88A
WILMS.TUMOR CDH7
WILMS.TUMOR CPN2
WILMS.TUMOR CPXM1
WILMS.TUMOR CYP17A1
WILMS.TUMOR CYP27B1
WILMS.TUMOR CYP4A11
WILMS.TUMOR CYP4F2
WILMS.TUMOR CYP8B1
WILMS.TUMOR DMGDH
WILMS.TUMOR DMRT3
WILMS.TUMOR DOCK8-AS1
WILMS.TUMOR DPYS
WILMS.TUMOR EYA1
WILMS.TUMOR FCAMR
WILMS.TUMOR G6PC
WILMS.TUMOR GBA3
WILMS.TUMOR GC
WILMS.TUMOR GLYAT
WILMS.TUMOR GLYATL1
WILMS.TUMOR HOGA1
WILMS.TUMOR HSPA4L
WILMS.TUMOR IGSF6
WILMS.TUMOR KCNJ10
WILMS.TUMOR LRRC19
WILMS.TUMOR LYPD1
WILMS.TUMOR MEOX1
WILMS.TUMOR MEX3B
WILMS.TUMOR MIOX
WILMS.TUMOR MN1
WILMS.TUMOR NAT8
WILMS.TUMOR PLG
WILMS.TUMOR PLPPR1
WILMS.TUMOR SIX1
WILMS.TUMOR SIX2
WILMS.TUMOR SLC13A1
WILMS.TUMOR SLC13A3
WILMS.TUMOR SLC17A1
WILMS.TUMOR SLC17A3
WILMS.TUMOR SLC22A11
WILMS.TUMOR SLC22A12
WILMS.TUMOR SLC22A2
WILMS.TUMOR SLC23A3
WILMS.TUMOR SLC2A2
WILMS.TUMOR SLC5A12
WILMS.TUMOR SLC6A12
WILMS.TUMOR SLC7A13
WILMS.TUMOR SLC7A9
WILMS.TUMOR ST8SIA4
WILMS.TUMOR TENM4
WILMS.TUMOR TINAG
WILMS.TUMOR UGT1A6
실시예 4. 인공지능 기반의 종양의 원발부위 결정 방법 모델 및 검증
분류 모델로 Bossitng Decision Tree, ANN, DNN, Regression 등을 사용하여 데이터를 학습시키고 검증 데이터 세트를 이용하여 알고리즘별 결과값을 측정하였다.
종양 유형별 학습에 사용된 데이터의 수 및 분류 알고리즘별 AUROC 결과는 아래의 표들과 같다.
Figure PCTKR2022014283-appb-img-000001
구분 Logistic
Regression
SVM RANDOM
FOREST
AdaBoost Gradient
Boosting
DNN
암종 평균 92.85% 66.46% 88.92% 94.32% 87.85% 95.74%
최대 정확도 99.94% 93.72% 100.00% 99.98% 99.99% 100.00%
최소 정확도 56.06% 50.00% 49.99% 50.88% 0.00% 57.09%
95% 이상
정확도
암종비율
61.90% 0.00% 42.86% 71.43% 38.10% 71.43%
90% 이상
정확도
암종비율
73.81% 14.29% 64.29% 83.33% 57.14% 90.48%
구분 Logistic
Regression
SVM RANDOM
FOREST
AdaBoost Gradient
Boosting
DNN
First
Candidate
Accuracy
98.10% 94.84% 99.74% 97.87% 99.05% 99.31%
First or
Second
Candidate
Accuaracy
99.36% 97.02% 100.00% 99.69% 99.82% 99.98%
Figure PCTKR2022014283-appb-img-000002

Claims (1)

  1. 원발부위가 특정되지 않은 종양 세포를 포함하는 생물학적 샘플의 유전자 발현 데이터를 획득하는 단계; 및
    분류 알고리즘을 이용하여 상기 생물학적 샘플의 상기 유전자 발현 데이터와 복수의 종양 유형별 특이적 유전자 발현 데이터를 비교하여 상기 생물학적 샘플의 원발부위를 상기 복수의 종양 유형 중 하나의 유형으로 분류하는 단계를 포함하는 종양의 원발부위 결정 방법.
PCT/KR2022/014283 2021-09-24 2022-09-23 종양의 원발부위 결정 방법 WO2023048509A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20210126397 2021-09-24
KR10-2021-0126397 2021-09-24
KR1020220120857A KR20230043765A (ko) 2021-09-24 2022-09-23 종양의 원발부위 결정 방법
KR10-2022-0120857 2022-09-23

Publications (1)

Publication Number Publication Date
WO2023048509A1 true WO2023048509A1 (ko) 2023-03-30

Family

ID=85720956

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/014283 WO2023048509A1 (ko) 2021-09-24 2022-09-23 종양의 원발부위 결정 방법

Country Status (1)

Country Link
WO (1) WO2023048509A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190013707A (ko) * 2016-03-22 2019-02-11 벨지언 볼리션 에스피알엘 암 검출을 위한 뉴클레오솜-전사 인자 복합체의 용도
KR20210158253A (ko) * 2020-06-23 2021-12-30 주식회사 테라젠바이오 원발 부위 예측 장치, 사용자의 유전체 데이터를 이용하여 원발 부위를 예측하는 방법 및 컴퓨터 프로그램

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190013707A (ko) * 2016-03-22 2019-02-11 벨지언 볼리션 에스피알엘 암 검출을 위한 뉴클레오솜-전사 인자 복합체의 용도
KR20210158253A (ko) * 2020-06-23 2021-12-30 주식회사 테라젠바이오 원발 부위 예측 장치, 사용자의 유전체 데이터를 이용하여 원발 부위를 예측하는 방법 및 컴퓨터 프로그램

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: " Prediction of origin of cancer by deep-learning analysis using pancancer transcriptome", DEARGEN HOMEPAGE TECH REVIEW POST, 22 July 2019 (2019-07-22), XP093054469, Retrieved from the Internet <URL:https://deargen.me/en/updates/prediction-of-origin-of-cancer-by-deep-learning-analysis-using-pan-cancer-transcriptome/> [retrieved on 20230614] *
ANONYMOUS: "Carcinoma of Unknown Primary: Diagnosis, Treatment & Prognosis", vol. 96, no. 5, 1 October 2021 (2021-10-01), pages 408 - 414, XP093054481 *
KIM HARK KYUN: "Développement d'un outil de diagnostic du site primaire du cancer métastatique à l'aide du profil de microARN", GOVERNMENT PROJECT FINAL REPORT., 1 January 2012 (2012-01-01), XP093054475, Retrieved from the Internet <URL:https://www.ncc.re.kr/downloadByFileUrl.ncc?path=files/report/208.pdf> [retrieved on 20230614] *
SU ANDREW I, WELSH JOHN B, SAPINOSO LISA M, KERN SUZANNE G, ET AL.: "MOLECULAR CLASSIFICATION OF HUMAN CARCINOMAS BY USE OF GENE EXPRESSION SIGNATURES", CANCER RESEARCH, AMERICAN ASSOCIATION FOR CANCER RESEARCH, US, vol. 61, 15 October 2001 (2001-10-15), US, pages 7388 - 7393, XP008069516, ISSN: 0008-5472 *
TANG WEI, WAN SHIXIANG, YANG ZHEN, TESCHENDORFF ANDREW E, ZOU QUAN: "Tumor origin detection with tissue-specific miRNA and DNA methylation markers", BIOINFORMATICS, OXFORD UNIVERSITY PRESS , SURREY, GB, vol. 34, no. 3, 1 February 2018 (2018-02-01), GB , pages 398 - 406, XP093054365, ISSN: 1367-4803, DOI: 10.1093/bioinformatics/btx622 *

Similar Documents

Publication Publication Date Title
US11847532B2 (en) Machine learning implementation for multi-analyte assay development and testing
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
Chan et al. Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing
US20240102095A1 (en) Methods for profiling and quantitating cell-free rna
Chan et al. Assessment of myometrial transcriptome changes associated with spontaneous human labour by high‐throughput RNA‐seq
US20210115519A1 (en) Methods and kits for diagnosis and triage of patients with colorectal liver metastases
US20210071262A1 (en) Method of detecting cancer through generalized loss of stability of epigenetic domains and compositions thereof
US20230357837A1 (en) Diagnostic use of cell free dna chromatin immunoprecipitation
EP4073805A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
US20230332229A1 (en) Methods and systems for determining a pregnancy-related state of a subject
EP2094719A2 (en) Novel methods for functional analysis of high-throughput experimental data and gene groups identified therfrom
EP2366162A1 (en) Individualized cancer treatment
US9953129B2 (en) Patient stratification and determining clinical outcome for cancer patients
WO2012104642A1 (en) Method for predicting risk of developing cancer
Solé‐Boldo et al. Differentiation‐related epigenomic changes define clinically distinct keratinocyte cancer subclasses
US20210174899A1 (en) Machine learning techniques for gene expression analysis
Goharrizi et al. Non-invasive STEMI-related biomarkers based on meta-analysis and gene prioritization
WO2023048509A1 (ko) 종양의 원발부위 결정 방법
KR20230043765A (ko) 종양의 원발부위 결정 방법
WO2023242206A1 (en) Protein predictors for lung cancer
Li et al. Comprehensive Multiomics Analysis Reveals Potential Diagnostic and Prognostic Biomarkers in Adrenal Cortical Carcinoma
Rezaei et al. Ali Barani, Kamyar Beikverdi, Benyamin Mashhadi, Naeimeh Parsapour
Souri et al. Cancer Classification through a Hybrid Machine Learning Approach.
Xu et al. Comprehensive Genomic Profiling of Neuroendocrine Neoplasms of the Colorectum
Feixiang et al. Integrated analysis of immune-related long noncoding RNAs as diagnostic biomarkers in psoriasis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22873213

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18278664

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE