WO2019093814A2 - 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법 및 예측 시스템 - Google Patents

차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법 및 예측 시스템 Download PDF

Info

Publication number
WO2019093814A2
WO2019093814A2 PCT/KR2018/013613 KR2018013613W WO2019093814A2 WO 2019093814 A2 WO2019093814 A2 WO 2019093814A2 KR 2018013613 W KR2018013613 W KR 2018013613W WO 2019093814 A2 WO2019093814 A2 WO 2019093814A2
Authority
WO
WIPO (PCT)
Prior art keywords
breast cancer
gene
machine learning
neural network
data
Prior art date
Application number
PCT/KR2018/013613
Other languages
English (en)
French (fr)
Other versions
WO2019093814A3 (ko
Inventor
한원식
이한별
박인애
유한석
안세현
이종원
이새별
이희진
김애리
김정렬
윤성로
김선
권선영
김민수
조정희
Original Assignee
서울대학교병원
서울대학교산학협력단
고려대학교 산학협력단
재단법인 아산사회복지재단
울산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교병원, 서울대학교산학협력단, 고려대학교 산학협력단, 재단법인 아산사회복지재단, 울산대학교 산학협력단 filed Critical 서울대학교병원
Priority to SG11202004159WA priority Critical patent/SG11202004159WA/en
Publication of WO2019093814A2 publication Critical patent/WO2019093814A2/ko
Publication of WO2019093814A3 publication Critical patent/WO2019093814A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Definitions

  • the technique described below relates to a technique for predicting breast cancer prognosis using gene expression data.
  • Oncotype DX ® and Mammaprint ® which are used as the standard for predicting breast cancer prognosis, are all based on RT-PCR (Real-time PCR).
  • RT-PCR-based assays have limitations that make it difficult to simultaneously analyze many genes in terms of cost and efficiency.
  • the technique described below is to provide a technique for estimating the prognosis of breast cancer by analyzing the gene expression amount by the next-generation sequencing (NGS) technique.
  • NGS next-generation sequencing
  • a method for predicting breast cancer prognosis based on the next generation nucleotide sequence analysis comprises the steps of: measuring the expression level of a target gene using RNA sequencing data of a tissue of a subject, wherein the computer device measures the expression level of the target gene A step of inputting the input data into an artificial neural network provided in advance, and the computer device estimating a breast cancer prognosis for the subject based on the output value of the artificial neural network.
  • a machine learning-based breast cancer prognosis prediction system using next generation nucleotide sequence analysis includes a client apparatus for storing RNA gene data of a tissue of a subject and RNA sequencing data for NGS (next-generation sequencing) -based sequencing of the gene data And an analysis server for estimating a breast cancer prognosis for the subject based on an output value obtained by inputting the expression amount of the target gene into a neural network prepared in advance and measuring the amount of expression of the target gene .
  • the artificial neural network has a target gene expression amount of a plurality of samples as an input value and is provided in advance to output a result based on a recurrence score of Oncotype DX for the plurality of samples.
  • the technique described below allows NGS techniques to rapidly analyze target gene sequences at a lower cost than RT-PCR based techniques.
  • the technique described below enables rapid and accurate prediction of breast cancer prognosis using a machine learning model that is learned by the amount of target gene expression and the recurrence score of Oncotype DX.
  • Figure 1 is an example of a flowchart for a machine learning-based breast cancer prognosis prediction method using next-generation sequencing.
  • Figure 2 is an example of a target gene.
  • Figure 3 is an example of the data quality of a target gene based on NGS.
  • 5 is an example of verifying the stability of a method using a specific target exon region.
  • 6 is an example of a process of normalizing RNA sequence data.
  • Figure 7 is an example of an artificial neural network structure for machine learning.
  • FIG. 8 shows an example of a machine learning-based breast cancer prognosis prediction system using next-generation nucleotide sequence analysis.
  • the technique described below relates to a technique for predicting breast cancer prognosis using gene expression data.
  • a machine learning model is used as a tool to predict breast cancer prognosis.
  • the machine learning model is studied using the recurrent score (RS) of Oncotype DX ® and Oncotype DX ® .
  • RS recurrent score
  • Oncotype DX is an analytical tool developed by the US Genomic Health. Oncotype DX measures and analyzes the activity of 21 different genes in breast cancer tissues to determine the likelihood of recurrence of breast cancer and the effectiveness of chemotherapy.
  • Oncotype DX calculates RS based on 16 genes and 5 reference genes.
  • each item refers to a gene group according to functional division.
  • the HER2 Group (2 genes), ER Group (4 genes), Proliferation Group (5 genes) and Invasion Group (2 genes) contain multiple genes. CD68, GSTM1, and BAG1 are each an individual gene.
  • the RS score has a value ranging from 0 to 100 points. For example, if the RS score is low, the recurrence rate is low and the effect of chemotherapy is likely to be low. Conversely, if the RS score is high, recurrence rate is high and chemotherapy is likely to be effective.
  • Oncotype DX detects gene activity based on RT-PCR, but the technique described below uses the NGS technique.
  • the techniques described below sequence RNA and determine gene expression levels based on the NGS technique.
  • the NGS technique is also briefly described.
  • NGS technology has the ability to multiplex hundreds of thousands of responses simultaneously, allowing sequencing to even a small sample volume.
  • NGS uses clonal amplification, massively parallel sequencing, and new nucleotide sequencing methods that differ from Sanger's method and mechanism of action, although the specific application technique is somewhat different according to the commercialized technology.
  • Brief introduction of commercialization technology In 2007, Roche launched the 454 GSO improved FLX model sequencer with 454 Cooperation. Illumina released Genome Analyzer HiSeq in 2006, and Applied Biosystems in 2007 released SOLiD in turn. All three platforms have adopted a massively parallel mass sequencing technique, which eliminates complex library construction and cloning processes, adopted clone amplification technology, and can process large amounts of data at once.
  • Sequencing by synthesis was used to determine the nucleotide sequence to exclude the complicated electrophoresis process.
  • RNA expression level the amount of gene expression for a sample extracted from a specific tissue (breast tissue).
  • FFPE paraffin-embedded
  • RNA Extraction Kit One of the two commercial kits listed below can be used.
  • Preparation of tissue Prepare 4-8 pieces of 10 ⁇ m thick paraffin slices cut from paraffin block, total 40-80um. If the size of the tumor in the section is less than 40 mm2, then all 8 sections are used. Make sure that only the tumor is inside the slice, and place the prepared slice in a 1.5 mL tube.
  • RNA isolation and purification (preparation: DNase (DNA degradation enzyme) and Nuclease (nucleolytic enzyme) are removed from the freezer and dissolved)
  • Figure 1 is an example of a flowchart for a machine learning-based breast cancer prognosis prediction method using next-generation sequencing.
  • sequencing is performed on the RNA sample (110).
  • RNA sequencing can be performed in a variety of ways. RNA can be sequenced using a variety of commercial kits and commercial solutions. One example is described.
  • cDNA is prepared from mRNA and an additional process is performed to complete the cDNA NGS library.
  • Solution-based hybridization capture is performed using cDNA library, hybridization solution, and target capture probe.
  • the amount of RNA expression can be predicted based on the sequencing depth data of the target region generated by sequencing the final product (using Illumina's kit).
  • the RNA sequence in the commercial program is generated as constant digital data.
  • the commercial program can calculate the expression amount of each RNA gene using the sequencing result. Therefore, the process of analyzing the RNA sample and the analysis result are performed by a computer device. Therefore, it is presumed that the following computer apparatus performs prediction of breast cancer prognosis using RNA expression amount.
  • the computer device generates 120 expression volume data for the sample RNA.
  • the analysis can be performed by selecting a gene (hereinafter referred to as a target gene) that is related to the prognosis of breast cancer without analyzing the entire gene of the sample RNA.
  • a target gene a gene that is related to the prognosis of breast cancer without analyzing the entire gene of the sample RNA.
  • the published gene data was used to determine the target gene.
  • Gene data from subjects who were positive for estrogen receptors and not transferred to the lymph nodes were utilized. Public data utilized are GSE2034, GSE2990, GSE3494, GSE4922, GSE6532, GSE7390 and GSE12093.
  • the target gene used 149 genes.
  • the target gene may experimentally select other gene combinations.
  • the target gene is determined to be highly correlated with Oncotype DX RS.
  • Figure 2 is an example of a target gene.
  • Figure 2 shows all 149 genes.
  • the shaded gene is a gene associated with a cell cycle regulating cell division.
  • the gene indicated by the solid line circle is a gene related to a mechanism of regulating cell division involved in the p53 signal pathway.
  • the gene indicated by the dotted circle in FIG. 2 is a gene that regulates the DNA replication process.
  • the gene indicated by the solid line in Fig. 2 is a gene involved in the cell cycle and the p53 signaling pathway.
  • the dotted rectangle is a gene involved in the cell cycle and DNA replication.
  • a computer device based on NGS measures the expression amount of a target gene.
  • Figure 3 is an example of the data quality of a target gene based on NGS.
  • Fig. 3 is an example of a graph showing the quality of the target RNA sequenced data.
  • a total of 84 panel genes were subjected to target sequencing and total - transcript sequencing for 10 RNA samples, respectively, and expression levels were calculated and Pearson correlation coefficients were measured. As a result, a high correlation of 0.85 or more was confirmed. Therefore, the result of the target RNA sequencing used in the experiment is interpreted to have a data quality similar to that of the full - transcript RNA sequencing, since the target RNA sequencing and the all - transcript RNA sequencing result show a high correlation.
  • a specific exon region commonly expressed in each sample can be used without calculating the total gene expression amount for the sample. In this case, the process of calculating the gene expression amount can be performed more quickly. That is, a commonly used conserved exon panel is used for the sample (hereinafter referred to as CE method).
  • 4 is an example using gene expression data of a specific target exon region. 4 shows the expression state of the gene exons to a plurality of samples (A to D).
  • a region (target region) that is commonly expressed for a plurality of samples can be determined, and the amount of gene expression can be determined based on the region. Since the difference in expression level of individual gene subtype transcripts is not considered in the method using the whole gene region (hereinafter referred to as WG method), there may be a deviation in the gene expression amount measurement due to the difference in the expression ratio of subtype transcripts in each patient. Since the CE method uses only the region shared by the subtype transcripts, measurement deviations occurring in the WG method do not occur, so that it is possible to measure the expression amount more stably. Stability refers to the degree to which the measured value changes during repeated measurements.
  • FIG. 5 is an example of verifying the stability of a method using a specific target exon region.
  • FIG. 5A is an example for explaining a process for verifying the stability of the CE system.
  • the replicate data is a repeated measurement for a single sample. Therefore, the error between the repeatedly measured data corresponds to the measurement error.
  • a total of 18 target RNA sample sequencing data were generated (target RNA sequencing I and target RNA sequencing II) by performing 2 repeated iterations on each of 9 RNA samples extracted from tumor cell lines.
  • 5 (B) is an experimental result showing the stability between the measured value of the WG system and the measured value of the CE system.
  • the computer apparatus can regularly post-process and normalize the expression amount data of the generated target gene (130).
  • Postprocessing and normalization correspond to the process of processing digital data (file) regularly.
  • Leads that do not meet the lead quality criteria are removed (e.g., the average quality is above 20 and the average quality is below 2 and the base is below 5%)
  • the expression level can be calculated as the value of FPKM (Fragments Per Kilobase of exon per Million fragments mapped).
  • the amount of expression calculated for each gene is generated in the gene.fpkm_tracking file, and the expression amount calculated for each transcript can be generated as isoforms.fpkm_tracking file.
  • the preprocessing process removes the bad quality leads from the sequencing leads and inserts an index sequence (inserted in the sequencing process) that may remain at the end of each lead Can be removed.
  • an index sequence inserted in the sequencing process
  • For pre-processed leads use the STAR program to determine the position of each lead on the reference genome.
  • the confirmed location information is generated in the BAM file format, and the BAM file can be used to calculate the expression level of each gene and transcript using the Cufflinks program.
  • the computer device may normalize the generated data (130).
  • TMM Trimmed Mean of M-value
  • the sequencing data generated using NGS technology is mapped to the reference genome using the usage alignment software (e.g., RNA-STAR).
  • the mapping results can be used to count the number of sequences from each gene, which is a direct estimate of the amount of gene expression.
  • the normalization pipeline receives the processed data in the BAM file format after the mapping is completed.
  • the mapped data can be computed as a normalized expression value that can be compared between samples by a series of software packages HTseq-count and edgeR in the pipeline.
  • 6 is an example of a process of normalizing RNA sequence data.
  • 6 is an example of a process of normalizing data for two different samples in Fig.
  • Computer devices use HTseq-count to calculate gene expression levels. Each sample has a different library size (Sample 1 is 100 sequences, Sample 2 is 300 sequences). The computer device then normalizes the expression level by applying edgeR.
  • 6 is an example of normalizing the expression amount of a sample on the basis of a library size of 100.
  • the computer device inputs the gene expression amount data into a machine learning model prepared in advance (140).
  • the gene expression data input to the machine learning model is normalized data.
  • the machine learning model is learned in advance by the amount of target gene expression and Oncotype DX RS. For example, a machine learning model can be judged to be high risk (high likelihood of recurrence) when Oncotype DX RS is 25 or more, and low risk if less than 25.
  • Figure 7 is an example of an artificial neural network structure for machine learning.
  • 7 is an example of an artificial neural network among machine learning models.
  • An artificial neural network can utilize any one of a variety of types.
  • the artificial neural network of Fig. 7 is a fully connected network. It uses a hidden node for each step. In order to prevent over-fitting of learning data, it is possible to apply batch normalization to each layer. Batch normalization is the process of forcibly distributing the activation values for the results that pass through the hierarchy.
  • an artificial neural network model is generated using Oncotype DX RS of a target gene (sample) using an input value of a target gene expression amount for a plurality of samples.
  • the data of a particular subject can be entered into the neural network to predict the breast cancer prognosis of the subject.
  • the value input to the previously learned artificial neural network is the expression amount of the target gene of the subject.
  • the output value of artificial neural network may be the result of breast cancer prognosis prediction based on Oncotype DX RS.
  • the output value of the artificial neural network can be output as a quantitative result that is equal to a specific score. Or the output value of an artificial neural network may be a qualitative evaluation result such as high risk or low risk.
  • FIG. 7 illustrates the artificial neural network as an example
  • various other machine learning models can be used to estimate the prognosis of breast cancer.
  • a machine learning model may utilize various methods such as genetic algorithms, support vector machines, Bayesian networks, and the like.
  • the computer device predicts (150) the breast cancer prognosis for the currently entered sample (subject) based on the results of the machine learning model. For example, the computer device may have a certain score in the result value of the machine learning model. In this case, the computer device compares the output value of the artificial neural network with a preset reference value, and if the output value is greater than or equal to a specific value, it can be determined that the current sample (subject) has a high risk. On the contrary, the computer device can judge that the output value of the artificial neural network is lower than the reference value.
  • FIG. 8 shows an example of a machine learning-based breast cancer prognosis prediction system using next-generation nucleotide sequence analysis.
  • Figure 8 (A) is an example of a system 200 implemented in a network.
  • the breast cancer prognosis prediction system 200 includes a client device 210 and an analysis server 220. Further, the breast cancer prognosis prediction system 200 may include a model DB 230.
  • the analysis server 220 corresponds to the above-described computer apparatus.
  • the client device 210 is a device that provides data on a subject.
  • the client device 210 transmits data (gene data) about gene expression of the subject to the analysis server 220.
  • the data transmitted by the client device 210 may be data representing a gene sequence.
  • the analysis server 220 measures the expression level of the target gene using RNA sequencing data that has been subjected to next-generation sequencing (NGS) -based sequencing on the gene data, and determines the expression level of the target gene And estimates the breast cancer prognosis for the subject based on the output value.
  • the analysis server 220 may perform the data post-processing and the normalization process described above.
  • the analysis server 220 uses a machine learning model provided in advance.
  • the machine learning model may be stored in a separate model DB 230. The process of analyzing data by the analysis server 220 and predicting the prognosis of breast cancer is as described above.
  • the computer device 300 shown in Fig. 8 (B) is an example of a computer device 300 for predicting breast cancer prognosis.
  • the computer device 300 shown in Fig. 8 (B) may be the analysis server 220 described above.
  • the computer device 300 refers to a device such as a PC, a notebook, a smart device, or a server.
  • the computer device 300 includes an input device 310, a computing device 320, a storage device 330, and an output device 340.
  • the input device 310 receives the gene data of the subject.
  • the gene data refers to data or gene sequences related to the expression of the target gene.
  • the input device 310 is a device for inputting subject data to the computer device 300 through communication or a separate storage device. Further, the input device 310 may be an interface device (a keyboard, a mouse, a touch screen, or the like) that receives clinical data of the subject directly through the computer device 300.
  • the storage device 330 is a device that stores the above-described machine learning model.
  • the storage device 330 may store genetic data of the subject transmitted from the input device 310.
  • the storage device 330 may be a device equipped with software for analyzing gene data to predict breast cancer prognosis.
  • the computing device 320 measures the amount of gene expression for the input gene data, inputs the gene expression amount into the machine learning model, and estimates the subject's breast cancer prognosis based on the output value of the machine learning model.
  • the output device 340 is a device that outputs information on the prognosis in a predetermined form.
  • the output device 340 includes at least one of a display device, an output device for outputting a document, and a communication device for communicating information about the prognosis to another device.
  • the machine learning-based breast cancer prognosis prediction method using the next generation nucleotide sequence analysis as described above can be implemented as a program (or application) including an executable algorithm that can be executed in a computer.
  • the program may be stored and provided in a non-transitory computer readable medium.
  • a non-transitory readable medium is a medium that stores data for a short period of time, such as a register, cache, memory, etc., but semi-permanently stores data and is readable by the apparatus.
  • the various applications or programs described above may be stored on non-volatile readable media such as CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM,

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법은 컴퓨터 장치가 피험자 조직(tissue)의 RNA 시퀀싱 데이터를 이용하여 타겟 유전자의 발현량을 측정하는 단계, 상기 컴퓨터 장치가 상기 타겟 유전자의 발현량을 사전에 마련한 인공신경망(Artificial Neural Network)에 입력하는 단계 및 상기 컴퓨터 장치가 상기 인공신경망의 출력값을 기준으로 상기 피험자에 대한 유방암 예후를 추정하는 단계를 포함한다. 상기 인공신경망은 복수의 샘플의 타겟 유전자 발현량을 입력값으로 갖고, 상기 복수의 샘플에 대한 온코타입(Oncotype DX)의 재발 점수(recurrence score)에 따른 결과를 출력하도록 사전에 마련된다.

Description

차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법 및 예측 시스템
이하 설명하는 기술은 유전자 발현 데이터를 이용하여 유방암 예후를 예측하는 기법에 관한 것이다.
종양의 예후를 예측하기 위한 다양한 연구가 진행되고 있다.
예컨대, 유방암(breast cancer) 분야는 유전자 분석을 통해 유방암 예후를 예측하는 기술이 개발되고 있다. 대표적으로 유방암 예후예측 도구의 표준으로 사용되고 있는 Oncotype DX®, Mammaprint® 등은 모두 RT-PCR(Real-time PCR) 기반의 검사이다.
RT-PCR 기반의 검사는 비용과 효율성의 측면에서 많은 유전자를 동시에 분석하기 어려운 한계가 있다. 이하 설명하는 기술은 NGS(next-generation sequencing) 기법으로 유전자 발현량을 분석하여 유방암 예후를 추정할 수 있는 기법을 제공하고자 한다.
차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법은 컴퓨터 장치가 피험자 조직(tissue)의 RNA 시퀀싱 데이터를 이용하여 타겟 유전자의 발현량을 측정하는 단계, 상기 컴퓨터 장치가 상기 타겟 유전자의 발현량을 사전에 마련한 인공신경망(Artificial Neural Network)에 입력하는 단계 및 상기 컴퓨터 장치가 상기 인공신경망의 출력값을 기준으로 상기 피험자에 대한 유방암 예후를 추정하는 단계를 포함한다.
차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 시스템은 피험자 조직(tissue)의 RNA 유전자 데이터를 저장하는 클라이언트 장치 및 상기 유전자 데이터에 대한 NGS(next-generation sequencing) 기반 시퀀싱을 수행한 RNA 시퀀싱 데이터를 이용하여 타겟 유전자의 발현량을 측정하고, 사전에 마련한 인공신경망(neural network)에 상기 타겟 유전자의 발현량을 입력하여 출력되는 출력값을 기준으로 상기 피험자에 대한 유방암 예후를 추정하는 분석 서버를 포함한다.
상기 인공신경망은 복수의 샘플의 타겟 유전자 발현량를 입력값으로 갖고, 상기 복수의 샘플에 대한 온코타입(Oncotype DX)의 재발 점수(recurrencescore)에 기반한 결과를 출력하도록 사전에 마련된다.
이하 설명하는 기술은 NGS 기법을 이용하여 RT-PCR 기반 기법에 비하여 타겟 유전자 서열을 보다 저렴한 비용으로 빠르게 분석할 수 있다. 이하 설명하는 기술은 타겟 유전자의 발현량과 Oncotype DX의 재발 점수(recurrence score)로 학습한 기계학습(machine learning) 모델을 이용하여 빠르면서도 정확한 유방암 예후 예측이 가능하다.
도 1은 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법에 대한 순서도의 예이다.
도 2는 타겟 유전자에 대한 예이다.
도 3은 NGS 기반한 타겟 유전자의 데이터 품질에 대한 예이다.
도 4는 특정 타겟 엑손 영역의 유전자 발현 데이터를 이용하는 예이다.
도 5는 특정 타겟 엑손 영역을 활용한 방식의 안정성을 검증한 예이다.
도 6은 RNA 시퀀스 데이터를 정규화하는 과정에 대한 예이다.
도 7은 기계학습의 인공신경망 구조에 대한 예이다.
도 8은 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 시스템에 대한 예이다.
이하 설명하는 기술은 유전자 발현 데이터를 이용하여 유방암 예후를 예측하는 기법에 관한 것이다. 유방암 예후를 예측하는 도구로 기계학습모델을 사용한다. 기계학습모델은 유전자 발현량과 Oncotype DX®(이하 Oncotype DX라 함)의 재발 점수(recurrence score, 이하 RS라 함)를 이용하여 학습한다. 먼저 Oncotype DX에 대하여 간략하게 설명한다.
Oncotype DX는 미국 Genomic Health 사에서 개발한 분석 툴이다.Oncotype DX는 유방암 조직에서 21개의 다른 유전자의 활성도를 측정하고 분석하여 유방암이 재발한 가능성 및 화학요법이 얼마나 효과가 있을지 알려주는 검사이다.
Oncotype DX는 16개의 유전자와 5개의 레퍼런스(reference) 유전자를 기준으로 RS를 계산한다. RS를 계산하는 수식은 다음과 같다. RS = + 0.47 × HER2 Group Score - 0.34 × ER(Estrogen) Group Score + 1.04 × Proliferation Group Score+ 0.10 × Invasion Group Score + 0.05 × CD68 - 0.08 × GSTM1 - 0.07 × BAG1이다. 여기서 각 항목은 기능적 구분에 따른 유전자 그룹을 말한다. HER2 Group(2개 유전자), ER Group(4개 유전자), Proliferation Group(5개 유전자) 및 Invasion Group(2개의 유전자)은 복수의 유전자를 포함한다. CD68, GSTM1 및 BAG1는 각각 하나의 개별 유전자이다. RS 점수는 0 ~ 100점 범위의 값을 갖는다. 예컨대, RS 점수가 낮을 경우 재발율이 낮고, 화학치료의 효과도 낮을 가능성이 높다. 반대로 RS점수가 높다면 재발율이 높고, 화학치료가 효과적일 가능성이 높다.
전술한 바와 같이 Oncotype DX는 RT-PCR에 기반하여 유전자 활성도를 검출하지만, 이하 설명하는 기술은 NGS 기법을 사용한다. 이하 설명하는 기술은 NGS 기법에 기반하여 RNA를 시퀀싱하고 유전자 발현량을 결정한다. NGS 기법에 대해서도 간략하게 설명한다.
NGS 기술은 수십만개의 반응을 동시에 수행하는 멀티플렉싱(multiplexing) 능력이 있으며, 적은 양의 샘플로도 시퀀싱이 가능하다. NGS는 상용화된 기술에 따라 구체적인 적용 기법이 다소 다르지만, 일반적으로 클론증폭(clonal amplification), 대량병렬 시퀀싱 및 Sanger 방법과 작용기전이 다른 새로운 염기서열결정법을 사용한다. 상용화 기술을 간략하게 소개한다. Roche사는 2007년 454 Cooperation사를 454 GS 개량형 FLX model sequencer를 출시하였다. Illumina사는 2006년 Genome Analyzer HiSeq를 출시하였고, Applied Biosystems사는 2007년 SOLiD를 차례로 출시하였다. 세 가지의 플랫폼은 공통적으로 복잡한 라이브러리 구축과 클로닝과정을 버리고 클론증폭기술을 채택하였고, 한꺼번에 대량으로 처리할 수 있는 대량병렬방식(massively parallel sequencing) 기술을 택하였으며, 순환 시퀀싱(cyclic sequencing)을 통한 합성신호읽기(sequencing by synthesis)로 염기서열을 결정하여 번잡한 전기영동과정을 배제하였다. 또한, shotgun 방식을 사용하여 읽혀진 짧은 리드(read)를 컴퓨터로 배열하여 중복된 부분을 찾아 전체를 완성하는 알고리즘을 사용한다.
이하 설명하는 기술은 특정 조직(유방 조직)에서 추출한 샘플에 대한 유전자 발현량(RNA 발현량)을 기준으로 유방암 예후를 예측한다. 이하 특정 조작에서 샘플을 준비하고 RNA를 추출하는 과정에 대한 예를 먼저 설명한다.
대상 유방암 환자 선정 및 검사 조직 준비
1) 호르몬 수용체 양성, 임파선 전이 음성인 1-2기 유방암의 수술 조직 중 대표 포르말린고정파라핀포매 (formalin-fixed paraffin-embedded, FFPE)블록을 선정한다.
- 병리전문의의 H&E 염색 슬라이드 확인 하 블록을 선정함. 이때 대상이 되는 종양이 확실히 존재하는 블록을 선택하여야 하며 가급적 한 단면 내 종양의 면적이 가장 넓은 것, 종양조직 내 괴사부가 적거나 존재하지 않는 것이 좋다.
2) 10㎛ 두께의 비염색 슬라이드 10장을 준비한다.
FFPE 조직으로부터 RNA 추출 프로토콜
1) RNA 추출 키트: 아래의 상용화된 두 키트 중 한 가지를 사용 할 수 있다.
① Ambion RecoverAllTM Total Nucleic Acid Isolation Kit for FFPE
② QIAGEN RNeasy FFPE Kit
2) Wash 용액 준비
- Wash 1에 42mL의 100mL 에탄올을 섞는다 -> Wash 1
- Wash 2/3에 48mL의 100mL 에탄올을 섞는다 -> Wash 2/3
3) 탈파라핀 (준비 : 조직, 100% 자일렌, 100% 에탄올, 가열 블록 50°C, 피펫, 볼텍스 믹서, 원심분리기)
① 조직 준비 : 파라핀 블록에서 깎아낸 10um 두께의 파라핀 절편 4~8장, 총 40-80um을 준비한다. 이 때 절편 내 종양의 크기가 40㎟보다 작다면 8장의 절편 모두를 사용한다. 가급적 절편 중 종양부만 들어가도록 유의하며 준비된 절편을 1.5mL tube에 담는다.
② 1mL의 100% 자일렌을 조직에 넣고 볼텍스 믹서로 섞고 짧게 원심 분리한다. 이후 3분동안 50°C에 두어 파라핀이 녹도록 한다. (녹지 않으면 이 과정을 다시 반복한다)
③ 2분동안 최대속도로 원심분리 하여 덩어리가 만들어지도록 한다. 단단히 뭉쳐지지 않으면 2분의 원심분리를 추가한다. 덩어리를 망가트리지 않고 자일렌을 버린다.
④ 자일렌 씻어내기
a. 1mL의 100% 에탄올을 검체에 넣고 볼텍스 믹서로 섞는다. (뿌옇게 된다.)
b. 1분간 상온에서 최대속도로 원심분리하여 덩어리가 만들어지도록 한다.
c. 덩어리가 망가지지 않도록 하면서 에탄올을 제거한다.
d. a-c과정을 한 번 반복한다.
e. 짧게 원심분리 후 가능한 한 덩어리를 건드리지 않으면서 남아있는 에탄올을 최대한 제거한다.
⑤ 상온에서 15-45분간 건조시킨다.
4) 단백질 분해 (준비 : 가열 블록 50℃ & 80℃, Protease(단백분해효소)는 냉동실에서 꺼내서 상온에서 녹여둔다)
① Digestion Buffer 200㎕와 Protease 4㎕를 각 검체에 넣는다. 이때 잘 섞이도록 부드럽게 흔들어준다.
② 검체를 50℃(protease 활성화 온도) 가열 블록에 15분 이상, 완전히 투명해 질 때까지 둔다.
③ 이후 80℃(protease 비활성화 온도) 가열 블록에 15분동안 둔다. 이때, 시간을 정확히 지킨다.
④ 녹지 않으면 protease만 4㎕ 추가하여 위 과정(2 & 3)을 반복한다.
5) 핵산 분리 (준비 : Isolation Additive/에탄올 혼합물, 기타 시약 모두)
① Isolation Additive/에탄올 혼합물 제조
- Isolation Additive 240㎕ + 100% 에탄올 500㎕ = 총 790㎕
- 제조 후 50mL 튜브에 보관한다.
(다수의 검체를 대상으로 할 때는 정량보다 5% 정도 많게 준비하도록 한다.)
② 제조한 Isolation Additive/에탄올 혼합물을 790㎕씩 각 검체가 담긴 튜브에 분주하면서 피펫을 이용해 섞는다.
③ 혼합물 거르기
a. 필터 카트리지를 키트에서 제공된 튜브에 넣는다.
b. 2번 과정에서 만든 혼합물 700㎕를 필터 위에 올리고 뚜껑을 닫는다.
c. 10,000rpm에서 30초간 원심분리한다.
d. 걸러져 나온 용액은 버리고 필터를 같은 튜브에 넣는다.
e. 필요한 경우(혼합물이 충분히 걸러지지 않은 경우) 원심분리를 한 번 더 실시해 혼합물이 필터에 걸러지도록 한다.
④ Wash 1
a. 700㎕의 Wash 1을 필터 카트리지에 더한다
b. 10,000rpm에서 30초간 원심분리한다.
c. 걸러져 나온 용액은 버리고 필터를 같은 튜브에 넣는다.
⑤ Wash 2/3
a. 500㎕의 Wash 1을 필터 카트리지에 더한다
b. 10,000rpm에서 30초간 원심분리한다.
c. 걸러져 나온 용액은 버리고 필터를 같은 튜브에 넣는다.
d. 10,000rpm으로 한번 더 원심분리하여 남은 용액을 제거한다.
6) RNA 분리 및 정제 (준비 : DNase(DNA 분해효소)와 Nuclease(핵산분해효소)는 냉동실에서 꺼내서 녹여둔다)
① RNA 분리
a. DNase 혼합물 제조: 10X DNase Buffer 6㎕ + DNase 4㎕ +Nuclease free water 50㎕ = 총 60㎕
b. DNase 혼합물 60㎕를 각각의 필터 카트리지 중앙에 더한다.
c. 뚜껑을 닫고 22-25ㅊC의 상온에서 30분간 둔다.
② Wash 1
a. Wash 1 700㎕를 필터 카트리지에 넣고 30-60초간 상온에 둔다.
b. 10,000rpm에서 30초간 원심분리한다.
c. 걸러져 나온 용액은 버리고 필터를 같은 튜브에 넣는다.
③ Wash 2/3
a. Wash 2/3 500㎕를 필터 카트리지에 넣는다.
b. 10,000rpm에서 30초간 원심분리한다.
c. 걸러져 나온 용액은 버리고 필터를 같은 튜브에 넣는다.
d. a-c를 한번 더 반복한다.
e. 10,000rpm에서 1분간 원심분리한다.
④ Elution solution 더하기 및 보관
a. 필터 카트리지를 새 튜브에 넣는다.
b. 60㎕ Elution Solution을 필터의 중앙에 더한다.
c. 뚜껑을 닫고 1분간 둔다.
d. 1분간 최대속도로 원심분리 한 후 필터는 버리고, 걸러져 나온 용액을 -20℃ 이하에서 보관한다.
이하 샘플 조직에서 추출한 RNA를 이용하여 유방암 예후를 예측하는 과정에 대하여 설명한다. 도 1은 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법에 대한 순서도의 예이다. 먼저 RNA 샘플에 대한 시퀀싱을 수행한다(110). 다양한 방법으로 RNA 시퀀싱을 수행할 수 있다. 다양한 상용 키트(kit) 및 상용 솔루션을 사용하여 RNA를 시퀀싱할 수 있다. 하나의 예를 설명한다.
Targeted RNA-sequencing
1) KAPA Stranded RNA-Seq kit with RiboErase (KK8483, KAPABIOSYSTEMS) 키트를 사용하여, 전체 RNA에서 ribosomal RNA를 제거한다.
2) mRNA로 부터 cDNA를 제작하고 추가적인 과정을 통해 cDNA NGS 라이브러리(Library)를 완성한다. cDNA Library 및 Hybridization solution, Target Capture Probe를 이용하여, 액상 혼성화 유전자 포획 기법 (Solution-based hybridization capture)을 진행한다.
3) 획득된 산물을 일정 부분 증폭하여 라이브러리 증폭(Library amplification)을 진행한다.
4) 최종 산물을 시퀀싱(Illumina사의 키트 사용)하여 생성된 타겟 영역의 시퀀싱 깊이(depth) 데이터를 기반으로 RNA 의 발현량을 예측할 수 있다.
NGS 기반의 RNA 시퀀싱을 수행하면 상용 프로그램에서 RNA 시컨스를 일정한 디지털 데이터로 생성한다. 또한 상용 프로그램은 시퀀싱 결과를 이용하여 각 RNA 유전자의 발현량을 산출할 수 있다. 따라서 RNA 샘플을 분석하는 과정 및 분석 결과는 컴퓨터 장치가 수행한다. 따라서 이하 컴퓨터 장치가 RNA 발현량을 이용한 유방암 예후 예측을 수행한다고 전제한다. 컴퓨터 장치는 샘플 RNA에 대한 발현량 데이터를 생성한다(120).
한편 샘플 RNA 전체 유전자에 대하여 분석을 수행하지 않고, 유방암 예후와 연관성 있는 유전자(이하 타겟 유전자라함)를 선별하여 분석을 수행할 수 있다. 타겟 유전자를 결정하기 위하여 공개된 유전자 데이터를 활용하였다. 에스트로겐 수용체가 양성이고, 임파선에 전이가 되지 않은 피험자의 유전자 데이터를 활용하였다. 활용한 공개 데이터는 GSE2034, GSE2990, GSE3494, GSE4922, GSE6532, GSE7390 및 GSE12093이다.
공개 데이터를 기반으로 각 유전자와 Oncotype DX RS(재발 점수)의 상관 관계(correlation)를 분석하였다. 대표적인 상관 관계 분석 기법인 피어슨(Pearson)와 스피어만(Spearman) 기법을 활용하였다. 각 공개 데이터에서 Oncotype DX RS(재발 점수)와의 상관 계수가 평균 0.5 이상인 유전자를 선별하였다. 아래 표와 같이 모두 135개의 유전자를 선별하였다.
GSE2034 GSE2990 GSE3494 GSE4922 GSE6532 GSE7390 GSE12093 합계(>0.5)
Oncotype DX RS 184 298 267 292 168 77 56 135
또한 추가적으로 Oncotype DX RS 계산에 사용되는 16개의 유전자를 추가 선별하였다. 결국 타겟 유전자는 149개의 유전자를 활용하였다. 물론 실험적으로 타겟 유전자는 다른 유전자 조합을 선택할 수도 있을 것이다. 다만 타겟 유전자는 Oncotype DX RS와의 상관도가 큰 유전자로 결정한다.
도 2는 타겟 유전자에 대한 예이다. 도 2는 모두 149개의 유전자를 표시한다. 도 2에서 음영으로 표시한 유전자는 세포 분열을 조절하는 기작(Cell Cycle)과 관련된 유전자이다. 도 2에서 실선 원으로 표시한 유전자는 p53 신호 경로에 관여하여 세포 분열을 조절하는 기작과 관련된 유전자이다. 도 2에서 점선 원으로 표시한 유전자는 DNA 복제 과정을 조절하는 유전자이다. 도 2에서 실선 사각형으로 표시한 유전자는 Cell cycle 및 p53 signaling pathway에 관여하는 유전자이다. 도 2에서 점선 사각형으로 표시한 유전자는 Cell cycle 및 DNA 복제에 관여하는 유전자이다.
전술한 바와 같이 NGS 기반하여 컴퓨터 장치는 타겟 유전자의 발현량을 측정한다. 도 3은 NGS 기반한 타겟 유전자의 데이터 품질에 대한 예이다. 도 3은 타겟 RNA 시퀀싱한 데이터의 품질을 나타내는 그래프의 예이다. 데이터 품질 검증을 위하여 측정된 유전자 발현량 값과 전체-전사체 시퀀싱으로 측정된 값 사이의 편차를 확인한 것이다. 총 84개의 패널 유전자를 대상으로 10개의 RNA 샘플에 대해 표적 시퀀싱과 전체-전사체 시퀀싱으로 발현량을 각각 산출하고, 피어슨 상관 계수를 측정하였다. 결과적으로 0.85이상의 높은 상관 관계를 확인하였다. 따라서, 타겟 RNA 시퀀싱과 전체-전사체 RNA 시퀀싱 결과가 높은 상관 관계를 보이므로, 실험에서 사용한 타겟 RNA 시퀀싱의 결과는 전체-전사체 RNA 시퀀싱과 유사한 정도의 데이터 품질을 갖는다고 해석된다.
샘플에 대한 전체 유전자 발현량을 산출하지 않고, 각 샘플에서 공통되게 발현하는 특정 엑손(exon) 부위를 사용할 수 있다. 이 경우 유전자 발현량 연산 과정이 보다 빠르게 수행될 수 있다. 즉 샘플에 대하여 공통되게 보존된 엑손(conserved exon) 패널을 이용하는 것이다(이하 CE 방식이라고 함).
도 4는 특정 타겟 엑손 영역의 유전자 발현 데이터를 이용하는 예이다. 도 4는 복수의 샘플(A 내지 D)에 대한 유전자 엑손의 발현 상태를 나타낸다.
복수의 샘플에 대하여 공통되게 발현하는 영역(타겟 영역)을 결정하여 해당 영역을 기준으로 유전자 발현량을 결정할 수 있다. 유전자 전체 영역을 이용하는 방식(이하 WG 방식이라고 함)은 개개인의 유전자 아형 전사체 발현량 차이가 고려되지 않기 때문에 환자별 아형 전사체 발현 비율 차이로 인해 유전자 발현량 측정에 편차가 발생할 수 있다. CE 방식은 아형 전사체들이 공유하는 영역만을 사용하기에 WG 방식에서 발생하는 측정편차가 발생하지 않아 보다 안정적으로 발현량 측정이 가능하다. 안정성은 반복 측정시에 측정값이 변하는 정도를 의미한다.
나아가 샘플 데이터를 활용하여 CE 방식의 안정성을 검증하였다. 도 5는 특정 타겟 엑손 영역을 활용한 방식의 안정성을 검증한 예이다. 도 5(A)는 CE 방식의 안정성 검증을 위한 과정을 설명하는 예이다. Replicate 데이터는 단일 샘플에 대하여 반복측정한 값이다. 따라서 반복 측정한 데이터 사이의 오차는 측정 오차에 해당한다. 종양 셀 라인에서 추출한 9개의 RNA 샘플에 대해 각 2회씩의 반복 실험을 수행하여 총 18개의 표적 RNA 샘플 시퀀싱 데이터를 생성하였다(타겟 RNA 시퀀싱 I 및 타겟 RNA 시퀀싱 II). 도 5(B)는 WG 방식의 측정값과 CE 방식의 측정값 사이의 안정성을 나타내는 실험 결과이다. 총 9개의 샘플 중 8개 샘플에서 WG 방식 보다 CE 방식의 Replicate 데이터간 비교 시에 더 안정적이라고 나타난다(피어슨 계수가 더 높다). 9개의 샘플에 대한 평균 피어슨 계수도 CE 방식이 WG 방식보다 높고, 샘플간 표준편차도 적다. 따라서 CE 방식이 WG 방식보다 더 안정적이라고 해석된다.
도 1에 대한 설명으로 돌아가면, 컴퓨터 장치는 생성한 타겟 유전자의 발현량 데이터를 일정하게 후처리하고 정규화할 수 있다(130). 먼저 적용 가능한 후처리 과정의 예를 설명한다. 후처리 및 정규화는 디지털 데이터(파일)을 일정하게 처리하는 과정에 해당한다.
Targeted RNA-sequencing 결과 후처리
1) 리드(read) 제거
리드 품질 기준을 만족하지 않는 리드들을 제거한다(예컨대, 평균 품질이 20 이상이고, 평균 품질이 2 이하 염기(base) 가 5% 미만되도록 처리함)
Trimmomatic (0.33) 프로그램을 사용하여 시퀀싱 과정에서 삽입된 인덱스 시컨스를 제거한다.
2) 시퀀싱된 리드를 레퍼런스 게놈에 정렬(Align sequenced reads to the reference genome)
STAR aligner 프로그램을 사용하여 시퀀싱된 리드들의 레퍼런스 게놈(hg19)을 기준으로 한 위치를 찾고 SortedByCoordinate 옵션을 주어 동시에 정렬한다.
3) 유전자 발현량 연산
cufflinks 프로그램을 사용하여 정렬된 리드 정보들로부터 유전자별 발현량과 전사물별 발현량을 계산한다. 발현량은 FPKM(Fragments Per Kilobase of exon per Million fragments mapped)값으로 계산할 수 있다. 유전자별로 계산된 발현량은 genes.fpkm_tracking 파일로 생성되고, 전사물별로 계산된 발현량은 isoforms.fpkm_tracking 파일로 생성될 수 있다.
한편 정확한 시컨스 정렬 및 발현량 측정을 위해 분석 전 처리 과정으로 시퀀싱 결과로 나온 리드 들 중 염기 품질이 좋지 않은 리드들을 제거하고 각 리드들의 말단부에 남아있을 수 있는 (시퀀싱 과정에서 삽입된) 인덱스 시퀀스를 제거할 수 있다. 전 처리 과정을 거친 리드들에 대해서 STAR 프로그램을 사용하여 각각의 리드들의 레퍼런스 게놈 상의 위치를 확인. 확인된 위치정보는 BAM 파일 포맷으로 생성되고 이 BAM 파일을 Cufflinks 프로그램을 이용하여 유전자 및 전사물 별 발현량을 계산할 수 있다.
컴퓨터 장치는 생성한 데이터를 정규화할 수 있다(130).
Targeted RNA-sequencing 발현정보 정규화 (normalization)
종래 정규화 기법들 중 R package edgeR (Robinson et al. Bioinformatics 2010)에서 사용되는 "Trimmed Mean of M-value (TMM)" 기법이 가장 안정성이 높은 것으로 알려져 있다. 컴퓨터 장치는 상용 패키지인 edgeR package를 탑재하여 생산된 표적 RNA시퀀싱 데이터로부터 자동적으로 정규화된 유전자 발현정보를 추출하는 파이프라인을 설계할 수 있다.
NGS 기술을 이용해 생성된 시퀀싱 데이터는 사용 정렬 소프트웨어(예컨대, RNA-STAR)를 이용하여 참조 유전체에 맵핑된다. 맵핑 결과를 통해 각각의 유전자로부터 나온 서열의 개수를 집계할 수 있고, 이는 유전자의 발현량에 대한 직접적인 추정치가 된다.
정규화 파이프라인은 맵핑이 완료되어 BAM 파일 형식으로 가공된 데이터를 입력받는다. 맵핑된 데이터는 파이프라인에 내장된 일련의 소프트웨어 패키지들 HTseq-count 및 edgeR 에 의해 샘플간 비교가 가능한 정규화된 발현량 값으로 계산될 수 있다.
도 6은 RNA 시퀀스 데이터를 정규화하는 과정에 대한 예이다. 도 6의 두 개의 서로 다른 샘플에 대한 데이터를 정규화하는 과정의 예이다. 먼저 샘플 데이터는 유전자 발현량의 의미하는 매핑된 데이터를 입력받는다. 컴퓨터 장치는 HTseq-count를 적용하여 유전자 발현량을 계산한다. 각각의 샘플은 라이브러리 크기가 다르다(샘플 1은 100서열, 샘플 2는 300서열). 이후 컴퓨터 장치는 edgeR을 적용하여 발현량을 정규화한다. 도 6은 라이브러리 크기 100을 기준으로 샘플의 발현량을 정규화한 예이다.
컴퓨터 장치는 유전자 발현량 데이터를 사전에 마련한 기계학습모델에 입력한다(140). 기계학습모델에 입력되는 유전자 발현량 데이터는 정규화된 데이터이다. 기계학습모델은 사전에 타겟 유전자의 발현량과 Oncotype DX RS로 학습된 것이다. 예컨대, 기계학습모델은 학습과정에서 Oncotype DX RS가 25이상인 경우 고위험(재발 가능성 높음)이라고 판단하고, 25미만인 경우 저위험이라고 판단할 수 있다.
도 7은 기계학습의 인공신경망 구조에 대한 예이다. 도 7은 기계학습 모델 중 인공신경망(Artificial Neural Network)에 대한 예이다. 인공신경망은 다양한 종류 중 어느 하나를 활용할 수 있다. 도 7의 인공신경망은 완전 연결 구조(fully connected network)이다. 단계별로 은닉 노드(hidden node)를 사용한다. 또한 학습데이터에 대한 오버피팅(over-fitting)을 막기 위하여 가가 계층별로 배치 정규화(batch normalization)를 적용할 수 있다. 배치 정규화는 계층을 통과한 결과에 대하여 활성화값을 적절하게 강제로 분포시키는 과정이다.
기계학습모델에서 설명한 바와 같이 인공신경망도 복수의 샘플에 대한 데이터를 이용하여 사전에 학습된다. 즉 복수의 샘플에 대한 타겟 유전자 발현량을 입력값을 이용하고, 해당 타겟 유전자(샘플)의 Oncotype DX RS를 이용하여 인공신경망 모델을 생성한다.
이제 특정 피험자의 데이터를 신경망에 입력하여 해당 피험자의 유방암 예후를 예측할 수 있다. 사전에 학습된 인공신경망에 입력되는 값은 피험자의 타겟 유전자의 발현량이다. 인공신경망의 출력값은 Oncotype DX RS에 기반한 유방암 예후 예측 결과일 수도 있다. 인공신경망의 출력값은 특정한 점수와 같은 정량적 결과가 출력될 수 있다. 또는 인공신경망의 출력값은 곧바로 고위험 또는 저위험과 같은 정성적 평가 결과일 수도 있다.
도 7에서 인공신경망을 중심으로 설명하였으나, 다양한 다른 기계학습모델을 이용하여 유방암 예후를 추정할 수 있다. 예컨대, 기계학습모델은 유전 알고리즘, 서포트 벡터 머신, 베이즈 네트워크 등과 같은 다양한 방식을 활용할 수 도 있다.
컴퓨터 장치는 기계학습모델의 결과값을 기준으로 현재 입력된 샘플(피험자)에 대한 유방암 예후를 예측한다(150). 예컨대, 컴퓨터 장치는 기계학습모델의 결과값이 특정한 점수일 수 있다. 이 경우 컴퓨터 장치는 인공신경망의 출력값을 사전에 마련된 기준값과 비교하여 출력값이 특정값 이상인 경우, 현재 샘플(피험자)에 대하여 고위험이라고 판단할 수 있다. 반대로 컴퓨터 장치는 인공신경망의 출력값이 기준값 미만인 경우 저위험이라고 판단할 수 있다.
도 8은 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후예측 시스템에 대한 예이다. 도 8(A)는 네트워크에서 구현된 시스템(200)의 예이다. 유방암 예후 예측 시스템(200)은 클라이언트 장치(210) 및 분석 서버(220)를 포함한다. 나아가 유방암 예후 예측 시스템(200)은 모델 DB(230)를 포함할 수도 있다. 분석 서버(220)는 전술한 컴퓨터 장치에 해당한다.
클라이언트 장치(210)는 피험자에 대한 데이터를 제공하는 장치이다. 클라이언트 장치(210)는 피험자의 유전자 발현에 대한 데이터(유전자 데이터)를 분석 서버(220)에 전달한다. 클라이언트 장치(210)가 전달하는 데이터는 유전자 서열을 나타내는 데이터일 수 있다.
분석 서버(220)는 유전자 데이터에 대한 NGS(next-generation sequencing) 기반 시퀀싱을 수행한 RNA 시퀀싱 데이터를 이용하여 타겟 유전자의 발현량을 측정하고, 사전에 마련한 기계학습모델에 상기 타겟 유전자의 발현량을 입력하여 출력되는 출력값을 기준으로 상기 피험자에 대한 유방암 예후를 추정한다. 분석 서버(220)는 전술한 데이터 후처리 및 정규화 과정을 수행할 수도 있다. 분석 서버(220)는 사전에 마련한 기계학습모델을 이용하다. 기계학습모델은 별도의 모델 DB(230)에 저장될 수도 있다. 분석 서버(220)가 데이터를 처리하고, 유방암 예후를 예측하는 과정은 전술한 바와 같다.
도 8(B)는 유방암 예후 예측하는 컴퓨터 장치(300)에 대한 예이다. 도 8(B)에 도시한 컴퓨터 장치(300)는 전술한 분석 서버(220)일 수도 있다. 컴퓨터 장치(300)는 PC, 노트북, 스마트기기 또는 서버 등과 같은 장치를 의미한다. 컴퓨터 장치(300)는 입력장치(310), 연산장치(320), 저장장치(330) 및 출력장치(340)를 포함한다.
입력장치(310)는 피험자의 유전자 데이터를 입력받는다. 유전자 데이터는 타겟 유전자의 발현에 관련된 데이터 내지 유전자 서열을 의미한다. 입력장치(310)는 피험자의 데이터를 통신이나 별도의 저장 장치를 통해 컴퓨터 장치(300)에 입력하는 장치이다. 나아가 입력장치(310)는 컴퓨터 장치(300)를 통해 피험자의 임상 데이터를 직접 입력받는 인터페이스 장치(키보드, 마우스, 터치 스크린 등)일 수도 있다.
저장장치(330)는 전술한 기계학습모델을 저장하는 장치이다. 저장장치(330)는 입력장치(310)로부터 전달받은 피험자의 유전자 데이터를 저장할 수 있다. 저장장치(330)는 유전자 데이터를 분석하여 유방암 예후를 예측하는 소프트웨어가 설치된 장치일 수도 있다.
연산 장치(320)는 입력된 유전자 데이터에 대한 유전자 발현량을 측정하고, 유전자 발현량을 기계학습모델에 입력하고, 기계학습모델의 출력값을 기준으로 피험자의 유방암 예후를 추정한다.
출력장치(340)은 예후에 대한 정보를 일정한 형태로 출력하는 장치이다. 출력장치(340)는 디스플레이 장치, 문서를 출력하는 출력 장치 및 예후에 대한 정보를 다른 장치에 전달하는 통신 장치 중 적어도 하나를 포함한다.
또한, 상술한 바와 같은 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법은 컴퓨터에서 실행될 수 있는 실행 가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
본 실시예 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.

Claims (12)

  1. 컴퓨터 장치가 피험자 조직(tissue)의 RNA 시퀀싱 데이터를 이용하여 타겟 유전자의 발현량을 측정하는 단계;
    상기 컴퓨터 장치가 상기 타겟 유전자의 발현량을 사전에 마련한 인공신경망(Artificial Neural Network)에 입력하는 단계; 및
    상기 컴퓨터 장치가 상기 인공신경망의 출력값을 기준으로 상기 피험자에 대한 유방암 예후를 추정하는 단계를 포함하되,
    상기 인공신경망은 복수의 샘플의 타겟 유전자 발현량를 입력값으로 갖고, 상기 복수의 샘플에 대한 온코타입(Oncotype DX)의 재발 점수(recurrence score)에 기반한 결과를 출력하도록 사전에 마련되는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법.
  2. 제1항에 있어서,
    상기 컴퓨터 장치는 NGS(next-generation sequencing) 기법으로 상기 타겟 유전자의 발현량을 측정하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법.
  3. 제1항에 있어서,
    상기 타겟 유전자는 온코타입 재발 점수 연산에 사용되는 16개의 유전자 및 상기 재발 점수와의 상관도가 기준값 이상인 추가 유전자를 포함하되, 상기 추가 유전자는 ER(Estrogen) 수용체가 양성이면서 임파선 전이가 없는 샘플의 유전자들 각각에 대하여 상기 재발 점수와 상관 분석(Correlation Analysis)을 수행하여 상관 계수가 기준값 이상인 유전자들로 선택하는 차세대 염기서열분석을 이용한 기계 학습 기반 유방암 예후 예측 방법.
  4. 제1항에 있어서,
    상기 RNA 시퀀싱 데이터는 복수의 샘플 데이터에서 공통되게 발현되는 보존된 엑손(conserved exon) 영역을 포함하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법.
  5. 제1항에 있어서,
    상기 컴퓨터 장치는 TMM(Trimmed Mean of M-value) 기법을 이용하여 상기 타
    겟 유전자의 발현량을 정규화하고, 정규화된 발현량을 상기 인공신경망에 입력하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법.
  6. 제1항에 있어서,
    상기 인공신경망은 완전 연결 구조(fully connected)인 3개의 은닉 계층을 포함하고, 각 계층별로 배치 정규화(batch normalization)가 적용되는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법.
  7. 제1항에 있어서,
    상기 컴퓨터 장치는 상기 출력값이 기준값 이상인 경우 상기 피험자가 고위험이라고 예후를 추정하고, 상기 출력값이 기준값 미만인 경우 상기 피험자가 저위험이라고 예후를 추정하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법.
  8. 컴퓨터에서 상기 제1항 내지 제7항 중 어느 하나의 항에 기재된 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
  9. 피험자 조직(tissue)의 RNA 유전자 데이터를 저장하는 클라이언트 장치; 및
    상기 유전자 데이터에 대한 NGS(next-generation sequencing) 기반 시퀀싱을 수행한 RNA 시퀀싱 데이터를 이용하여 타겟 유전자의 발현량을 측정하고, 사전에 마련한 인공신경망(neural network)에 상기 타겟 유전자의 발현량을 입력하여 출력되는 출력값을 기준으로 상기 피험자에 대한 유방암 예후를 추정하는 분석 서버를 포함하되,
    상기 인공신경망은 복수의 샘플의 타겟 유전자 발현량를 입력값으로 갖고, 상기 복수의 샘플에 대한 온코타입(Oncotype DX)의 재발 점수(recurrence score)에 기반한 결과를 출력하도록 사전에 마련되는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 시스템.
  10. 제9항에 있어서,
    상기 타겟 유전자는 ER(Estrogen) 수용체가 양성이면서 임파선 전이가 없는 샘플의 유전자들 각각에 대하여 상기 재발 점수와 상관 분석(Correlation Analysis)을 수행하여 상관 계수가 기준값 이상인 유전자들을 포함하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 시스템.
  11. 제9항에 있어서,
    상기 RNA 시퀀싱 데이터는 복수의 샘플 데이터에서 공통되게 발현되는 보존된 엑손(conserved exon) 영역을 포함하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 시스템.
  12. 제9항에 있어서,
    상기 분석 서버는 TMM(Trimmed Mean of M-value) 기법을 이용하여 상기 타겟
    유전자의 발현량을 정규화하고, 정규화된 발현량을 상기 인공신경망에 입력하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 시스템.
PCT/KR2018/013613 2017-11-10 2018-11-09 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법 및 예측 시스템 WO2019093814A2 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
SG11202004159WA SG11202004159WA (en) 2017-11-10 2018-11-09 Machine learning-based method for prediction of breast cancer prognosis using next-generation sequencing, and prediction system therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0149834 2017-11-10
KR1020170149834A KR102071491B1 (ko) 2017-11-10 2017-11-10 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법 및 예측 시스템

Publications (2)

Publication Number Publication Date
WO2019093814A2 true WO2019093814A2 (ko) 2019-05-16
WO2019093814A3 WO2019093814A3 (ko) 2019-07-11

Family

ID=66438048

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/013613 WO2019093814A2 (ko) 2017-11-10 2018-11-09 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법 및 예측 시스템

Country Status (4)

Country Link
KR (1) KR102071491B1 (ko)
CN (1) CN110070915B (ko)
SG (1) SG11202004159WA (ko)
WO (1) WO2019093814A2 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112492637A (zh) * 2020-12-28 2021-03-12 中国联合网络通信集团有限公司 一种用于小区业务量预测的方法和装置
KR102293109B1 (ko) * 2020-12-07 2021-08-25 주식회사 온코크로스 인공지능을 이용하여 도출된 유전자 세트를 이용한 유방암 예후 예측방법
WO2022124717A1 (ko) * 2020-12-07 2022-06-16 주식회사 온코크로스 인공지능을 이용하여 도출된 리보좀 유전자 세트를 이용한 유방암 예후 예측방법
WO2022124718A1 (ko) * 2020-12-07 2022-06-16 주식회사 온코크로스 인공지능을 이용하여 도출된 미토콘드리아 리보좀 유전자 세트를 이용한 유방암 예후 예측방법

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3964590A4 (en) * 2019-05-03 2023-06-21 DCGEN Co., Ltd. CANCER PREDICTION AND PROGNOSTIC METHOD AND COMPOSITION THEREOF
KR20200129383A (ko) 2019-05-08 2020-11-18 주식회사 엘지화학 전고체 이차전지용 음극의 전리튬화 방법 및 이를 이용한 이차전지
KR102289533B1 (ko) * 2019-08-19 2021-08-17 주식회사 테라젠바이오 특정 약물의 타겟 유전자와 관련된 시그니처를 기초로 타겟 유전자와 관련된 유전자들을 판단하는 전자 장치, 방법 및 상기 방법을 실행하기 위한 컴퓨터 프로그램
KR102068277B1 (ko) 2019-10-04 2020-02-11 주식회사 루닛 이미지 분석 방법 및 시스템
KR102068279B1 (ko) 2019-10-04 2020-01-20 주식회사 루닛 이미지 분석 방법 및 시스템
CN111161882A (zh) * 2019-12-04 2020-05-15 深圳先进技术研究院 一种基于深度神经网络的乳腺癌生存期预测方法
KR102230660B1 (ko) 2020-08-05 2021-03-22 주식회사 투비코 의료 데이터를 분석하기 위한 방법
KR102515355B1 (ko) 2020-09-11 2023-03-29 인천대학교 산학협력단 암 유발 유전자의 식별을 위한 전자 장치 및 그 동작 방법
CN112908470B (zh) * 2021-02-08 2023-10-03 深圳市人民医院 一种基于rna结合蛋白基因的肝细胞癌预后评分系统及其应用
KR20220133516A (ko) * 2021-03-25 2022-10-05 한국과학기술원 인공지능 기반 무세포 dna의 종양 유래 변이 검출 방법 및 이를 이용한 암 조기 진단 방법
KR20240033900A (ko) 2022-09-06 2024-03-13 충남대학교산학협력단 Shmt2를 타겟으로 하는 갑상선암 예방 또는 치료용 조성물

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE197511T1 (de) * 1995-07-25 2000-11-11 Horus Therapeutics Inc Rechnergestütztes verfahren und anordnung zur diagnose von krankheiten
US20020184569A1 (en) * 2001-04-25 2002-12-05 O'neill Michael System and method for using neural nets for analyzing micro-arrays
GB0320648D0 (en) * 2003-09-03 2003-10-01 Randox Lab Ltd Molecular marker
CN101965190A (zh) * 2005-04-04 2011-02-02 维里德克斯有限责任公司 乳腺肿瘤的激光显微解剖和微阵列分析揭示雌激素受体相关的基因和途径
KR101287600B1 (ko) 2011-01-04 2013-07-18 주식회사 젠큐릭스 초기유방암의 예후 예측용 유전자 및 이를 이용한 초기유방암의 예후예측 방법
KR101910576B1 (ko) * 2011-11-08 2018-12-31 삼성전자주식회사 인공신경망을 이용하여 신속하게 입력 패턴을 분류하는 방법 및 장치
WO2013177245A2 (en) * 2012-05-22 2013-11-28 Nanostring Technologies, Inc. Nano46 genes and methods to predict breast cancer outcome
KR101860061B1 (ko) * 2015-06-08 2018-05-23 한국과학기술원 심층 신경망 기반 질병 정보 예측 시스템 및 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102293109B1 (ko) * 2020-12-07 2021-08-25 주식회사 온코크로스 인공지능을 이용하여 도출된 유전자 세트를 이용한 유방암 예후 예측방법
WO2022124717A1 (ko) * 2020-12-07 2022-06-16 주식회사 온코크로스 인공지능을 이용하여 도출된 리보좀 유전자 세트를 이용한 유방암 예후 예측방법
WO2022124718A1 (ko) * 2020-12-07 2022-06-16 주식회사 온코크로스 인공지능을 이용하여 도출된 미토콘드리아 리보좀 유전자 세트를 이용한 유방암 예후 예측방법
CN112492637A (zh) * 2020-12-28 2021-03-12 中国联合网络通信集团有限公司 一种用于小区业务量预测的方法和装置
CN112492637B (zh) * 2020-12-28 2023-06-27 中国联合网络通信集团有限公司 一种用于小区业务量预测的方法和装置

Also Published As

Publication number Publication date
WO2019093814A3 (ko) 2019-07-11
KR20190053695A (ko) 2019-05-20
SG11202004159WA (en) 2020-06-29
KR102071491B1 (ko) 2020-01-30
CN110070915A (zh) 2019-07-30
CN110070915B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
WO2019093814A2 (ko) 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법 및 예측 시스템
Agrawal et al. Understanding preanalytical variables and their effects on clinical biomarkers of oncology and immunotherapy
Dickson et al. Targeted RNA sequencing: a routine ancillary technique in the diagnosis of bone and soft tissue neoplasms
WO2017023148A1 (ko) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
AU2019246833A1 (en) Maternal plasma transcriptome analysis by massively parallel RNA sequencing
WO2017126943A1 (ko) 염색체 이상 판단 방법
CN113450873A (zh) 一种预测胃癌预后和免疫治疗适用性的标志物及其应用
CN110033829A (zh) 基于差异snp标记物的同源基因的融合检测方法
CN110060733B (zh) 基于单样本的二代测序肿瘤体细胞变异检测装置
CN111676288B (zh) 用于预测肺腺癌患者预后的系统及其应用
Budhu et al. Tumor biology and immune infiltration define primary liver cancer subsets linked to overall survival after immunotherapy
Talebi et al. Fusion transcript discovery using RNA sequencing in formalin-fixed paraffin-embedded specimen
Cho et al. Whole transcriptome analysis of gestational trophoblastic neoplasms reveals altered PI3K signaling pathway in epithelioid trophoblastic tumor
Lotze et al. Workshop on cancer biometrics: identifying biomarkers and surrogates of cancer in patients: a meeting held at the Masur Auditorium, National Institutes of Health
WO2023191262A1 (ko) 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법
CN107885972A (zh) 一种基于单端测序的融合基因检测方法及其应用
Swarbrick et al. Gene-expression profiling to decipher breast cancer inter-and intratumor heterogeneity
Wilmott et al. Tumour procurement, DNA extraction, coverage analysis and optimisation of mutation-detection algorithms for human melanoma genomes
Jehan Single-cell omics: an overview
Liu et al. An integrated bioinformatics analysis of mouse testis protein profiles with new understanding
JP2019525308A (ja) 合成wgsバイオインフォマティクスの検証
KR20180052985A (ko) 유방암 예후 예측 유전자의 차세대염기서열분석을 이용한 유방암의 예후 예측 도구
Zhang et al. Body fluids should be identified before estimating the time since deposition (TsD) in microbiome-based stain analyses for forensics
WO2014119914A1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
Agendia MammaPrint and BluePrint Breast Cancer Recurrence and Molecular Subtyping Kit-Package Insert

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18875084

Country of ref document: EP

Kind code of ref document: A2