KR20190053695A - Breast cancer prognosis prediction method and system based on machine learning using next generation sequencing - Google Patents

Breast cancer prognosis prediction method and system based on machine learning using next generation sequencing Download PDF

Info

Publication number
KR20190053695A
KR20190053695A KR1020170149834A KR20170149834A KR20190053695A KR 20190053695 A KR20190053695 A KR 20190053695A KR 1020170149834 A KR1020170149834 A KR 1020170149834A KR 20170149834 A KR20170149834 A KR 20170149834A KR 20190053695 A KR20190053695 A KR 20190053695A
Authority
KR
South Korea
Prior art keywords
breast cancer
machine learning
gene
target gene
data
Prior art date
Application number
KR1020170149834A
Other languages
Korean (ko)
Other versions
KR102071491B1 (en
Inventor
한원식
이한별
박인애
유한석
안세현
이종원
이새별
이희진
김애리
김정렬
윤성로
김선
권선영
김민수
조정희
Original Assignee
울산대학교 산학협력단
재단법인 아산사회복지재단
고려대학교 산학협력단
서울대학교병원
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산대학교 산학협력단, 재단법인 아산사회복지재단, 고려대학교 산학협력단, 서울대학교병원, 서울대학교산학협력단 filed Critical 울산대학교 산학협력단
Priority to KR1020170149834A priority Critical patent/KR102071491B1/en
Priority to CN201810448347.0A priority patent/CN110070915B/en
Priority to PCT/KR2018/013613 priority patent/WO2019093814A2/en
Priority to SG11202004159WA priority patent/SG11202004159WA/en
Publication of KR20190053695A publication Critical patent/KR20190053695A/en
Application granted granted Critical
Publication of KR102071491B1 publication Critical patent/KR102071491B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

A method for predicting a breast cancer prognosis based on machine learning using next-generation sequencing comprises the steps of: measuring an expression level of a target gene using RNA sequencing data of a tissue of a subject, by a computer device; inputting the expression level of the target gene into an artificial neural network provided in advance, by the computer device; and estimating a breast cancer prognosis for the subject based on an output value of the artificial neural network, by the computer device, wherein the artificial neural network is provided in advance to have expression levels of a plurality of samples as an input value and to output a result according to a recurrence score of the Oncotype DX for the plurality of samples.

Description

차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법 및 예측 시스템{BREAST CANCER PROGNOSIS PREDICTION METHOD AND SYSTEM BASED ON MACHINE LEARNING USING NEXT GENERATION SEQUENCING}TECHNICAL FIELD The present invention relates to a method and a system for predicting breast cancer prognosis based on machine learning using a next-generation base sequence analysis.

이하 설명하는 기술은 유전자 발현 데이터를 이용하여 유방암 예후를 예측하는 기법에 관한 것이다.The technique described below relates to a technique for predicting breast cancer prognosis using gene expression data.

종양의 예후를 예측하기 위한 다양한 연구가 진행되고 있다. 예컨대, 유방암(breast cancer) 분야는 유전자 분석을 통해 유방암 예후를 예측하는 기술이 개발되고 있다. 대표적으로 유방암 예후예측 도구의 표준으로 사용되고 있는 Oncotype DX®, Mammaprint®등은 모두 RT-PCR(Real-time PCR) 기반의 검사이다.Various studies are under way to predict the prognosis of the tumor. For example, in the field of breast cancer, techniques for predicting breast cancer prognosis through genetic analysis have been developed. Oncotype DX ® and Mammaprint ® , which are used as the standard for predicting breast cancer prognosis, are all based on RT-PCR (Real-time PCR).

한국공개특허 제10-2012-0079295호Korean Patent Publication No. 10-2012-0079295

RT-PCR 기반의 검사는 비용과 효율성의 측면에서 많은 유전자를 동시에 분석하기 어려운 한계가 있다. 이하 설명하는 기술은 NGS(next-generation sequencing) 기법으로 유전자 발현량을 분석하여 유방암 예후를 추정할 수 있는 기법을 제공하고자 한다. RT-PCR-based assays have limitations that make it difficult to simultaneously analyze many genes in terms of cost and efficiency. The technique described below is to provide a technique for estimating the prognosis of breast cancer by analyzing the gene expression amount by the next-generation sequencing (NGS) technique.

차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법은 컴퓨터 장치가 피험자 조직(tissue)의 RNA 시퀀싱 데이터를 이용하여 타겟 유전자의 발현량을 측정하는 단계, 상기 컴퓨터 장치가 상기 타겟 유전자의 발현량을 사전에 마련한 인공신경망(Artificial Neural Network)에 입력하는 단계 및 상기 컴퓨터 장치가 상기 인공신경망의 출력값을 기준으로 상기 피험자에 대한 유방암 예후를 추정하는 단계를 포함한다. A method for predicting breast cancer prognosis based on the next generation nucleotide sequence analysis comprises the steps of: measuring the expression level of a target gene using RNA sequencing data of a tissue of a subject, wherein the computer device measures the expression level of the target gene A step of inputting the input data into an artificial neural network provided in advance, and the computer device estimating a breast cancer prognosis for the subject based on the output value of the artificial neural network.

차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 시스템은 피험자 조직(tissue)의 RNA 유전자 데이터를 저장하는 클라이언트 장치 및 상기 유전자 데이터에 대한 NGS(next-generation sequencing) 기반 시퀀싱을 수행한 RNA 시퀀싱 데이터를 이용하여 타겟 유전자의 발현량을 측정하고, 사전에 마련한 인공신경망(neural network)에 상기 타겟 유전자의 발현량을 입력하여 출력되는 출력값을 기준으로 상기 피험자에 대한 유방암 예후를 추정하는 분석 서버를 포함한다.A machine learning-based breast cancer prognosis prediction system using next generation nucleotide sequence analysis includes a client apparatus for storing RNA gene data of a tissue of a subject and RNA sequencing data for NGS (next-generation sequencing) -based sequencing of the gene data And an analysis server for estimating a breast cancer prognosis for the subject based on an output value obtained by inputting the expression amount of the target gene into a neural network prepared in advance and measuring the amount of expression of the target gene .

상기 인공신경망은 복수의 샘플의 타겟 유전자 발현량를 입력값으로 갖고, 상기 복수의 샘플에 대한 온코타입(Oncotype DX)의 재발 점수(recurrence score)에 기반한 결과를 출력하도록 사전에 마련된다.The artificial neural network has a target gene expression amount of a plurality of samples as an input value and is provided in advance to output a result based on a recurrence score of Oncotype DX for the plurality of samples.

이하 설명하는 기술은 NGS 기법을 이용하여 RT-PCR 기반 기법에 비하여 타겟 유전자 서열을 보다 저렴한 비용으로 빠르게 분석할 수 있다. 이하 설명하는 기술은 타겟 유전자의 발현량과 Oncotype DX의 재발 점수(recurrence score)로 학습한 기계학습(machine learning) 모델을 이용하여 빠르면서도 정확한 유방암 예후 예측이 가능하다.The technique described below allows NGS techniques to rapidly analyze target gene sequences at a lower cost than RT-PCR based techniques. The technique described below enables rapid and accurate prediction of breast cancer prognosis using a machine learning model that is learned by the amount of target gene expression and the recurrence score of Oncotype DX.

도 1은 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법에 대한 순서도의 예이다.
도 2는 타겟 유전자에 대한 예이다.
도 3은 NGS 기반한 타겟 유전자의 데이터 품질에 대한 예이다.
도 4는 특정 타겟 엑손 영역의 유전자 발현 데이터를 이용하는 예이다.
도 5는 특정 타겟 엑손 영역을 활용한 방식의 안정성을 검증한 예이다.
도 6은 RNA 시퀀스 데이터를 정규화하는 과정에 대한 예이다.
도 7은 기계학습의 인공신경망 구조에 대한 예이다.
도 8은 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 시스템에 대한 예이다.
Figure 1 is an example of a flowchart for a machine learning-based breast cancer prognosis prediction method using next-generation sequencing.
Figure 2 is an example of a target gene.
Figure 3 is an example of the data quality of a target gene based on NGS.
4 is an example using gene expression data of a specific target exon region.
5 is an example of verifying the stability of a method using a specific target exon region.
6 is an example of a process of normalizing RNA sequence data.
Figure 7 is an example of an artificial neural network structure for machine learning.
FIG. 8 shows an example of a machine learning-based breast cancer prognosis prediction system using next-generation nucleotide sequence analysis.

이하 설명하는 기술은 유전자 발현 데이터를 이용하여 유방암 예후를 예측하는 기법에 관한 것이다. 유방암 예후를 예측하는 도구로 기계학습모델을 사용한다. 기계학습모델은 유전자 발현량과 Oncotype DX®(이하 Oncotype DX라 함)의 재발 점수(recurrence score, 이하 RS라 함)를 이용하여 학습한다. 먼저 Oncotype DX에 대하여 간략하게 설명한다.The technique described below relates to a technique for predicting breast cancer prognosis using gene expression data. A machine learning model is used as a tool to predict breast cancer prognosis. The machine learning model is studied using the recurrent score (RS) of Oncotype DX ® and Oncotype DX ® . The Oncotype DX is briefly described first.

Oncotype DX는 미국 Genomic Health 사에서 개발한 분석 툴이다. Oncotype DX는 유방암 조직에서 21개의 다른 유전자의 활성도를 측정하고 분석하여 유방암이 재발한 가능성 및 화학요법이 얼마나 효과가 있을지 알려주는 검사이다. Oncotype DX는 16개의 유전자와 5개의 레퍼런스(reference) 유전자를 기준으로 RS를 계산한다. RS를 계산하는 수식은 다음과 같다. RS = + 0.47 × HER2 Group Score - 0.34 × ER(Estrogen) Group Score + 1.04 × Proliferation Group Score + 0.10 × Invasion Group Score + 0.05 × CD68 - 0.08 × GSTM1 - 0.07 × BAG1이다. 여기서 각 항목은 기능적 구분에 따른 유전자 그룹을 말한다. HER2 Group(2개 유전자), ER Group(4개 유전자), Proliferation Group(5개 유전자) 및 Invasion Group(2개의 유전자)은 복수의 유전자를 포함한다. CD68, GSTM1 및 BAG1는 각각 하나의 개별 유전자이다. RS 점수는 0 ~ 100점 범위의 값을 갖는다. 예컨대, RS 점수가 낮을 경우 재발율이 낮고, 화학치료의 효과도 낮을 가능성이 높다. 반대로 RS 점수가 높다면 재발율이 높고, 화학치료가 효과적일 가능성이 높다.Oncotype DX is an analysis tool developed by Genomic Health. Oncotype DX is an assay that measures and analyzes the activity of 21 different genes in breast cancer tissues to determine the likelihood of recurrence of breast cancer and the effectiveness of chemotherapy. Oncotype DX calculates RS based on 16 genes and 5 reference genes. The formula for calculating RS is as follows. RS = + 0.47 x HER2 Group Score - 0.34 x ER (Estrogen) Group Score + 1.04 x Proliferation Group Score + 0.10 x Invasion Group Score + 0.05 x CD68 - 0.08 x GSTM1 - 0.07 x BAG1. Here, each item refers to a gene group according to functional division. The HER2 Group (2 genes), ER Group (4 genes), Proliferation Group (5 genes) and Invasion Group (2 genes) contain multiple genes. CD68, GSTM1, and BAG1 are each an individual gene. The RS score has a value ranging from 0 to 100 points. For example, if the RS score is low, the recurrence rate is low and the effect of chemotherapy is likely to be low. Conversely, if the RS score is high, recurrence rate is high and chemotherapy is likely to be effective.

전술한 바와 같이 Oncotype DX는 RT-PCR에 기반하여 유전자 활성도를 검출하지만, 이하 설명하는 기술은 NGS 기법을 사용한다. 이하 설명하는 기술은 NGS 기법에 기반하여 RNA를 시퀀싱하고 유전자 발현량을 결정한다. NGS 기법에 대해서도 간략하게 설명한다.As described above, Oncotype DX detects gene activity based on RT-PCR, but the technique described below uses the NGS technique. The techniques described below sequence RNA and determine gene expression levels based on the NGS technique. The NGS technique is also briefly described.

NGS 기술은 수십만개의 반응을 동시에 수행하는 멀티플렉싱(multiplexing) 능력이 있으며, 적은 양의 샘플로도 시퀀싱이 가능하다. NGS는 상용화된 기술에 따라 구체적인 적용 기법이 다소 다르지만, 일반적으로 클론증폭(clonal amplification), 대량병렬 시퀀싱 및 Sanger 방법과 작용기전이 다른 새로운 염기서열결정법을 사용한다. 상용화 기술을 간략하게 소개한다. Roche사는 2007년 454 Cooperation사를 454 GS 개량형 FLX model sequencer를 출시하였다. Illumina사는 2006년 Genome Analyzer HiSeq를 출시하였고, Applied Biosystems사는 2007년 SOLiD를 차례로 출시하였다. 세 가지의 플랫폼은 공통적으로 복잡한 라이브러리 구축과 클로닝과정을 버리고 클론증폭기술을 채택하였고, 한꺼번에 대량으로 처리할 수 있는 대량병렬방식(massively parallel sequencing) 기술을 택하였으며, 순환 시퀀싱(cyclic sequencing)을 통한 합성신호읽기(sequencing by synthesis)로 염기서열을 결정하여 번잡한 전기영동과정을 배제하였다. 또한 shotgun 방식을 사용하여 읽혀진 짧은 리드(read)를 컴퓨터로 배열하여 중복된 부분을 찾아 전체를 완성하는 알고리즘을 사용한다.NGS technology has the ability to multiplex hundreds of thousands of responses simultaneously, allowing sequencing to even a small sample volume. NGS uses clonal amplification, massively parallel sequencing, and new nucleotide sequencing methods that differ from Sanger's method and mechanism of action, although the specific application technique is somewhat different according to the commercialized technology. Brief introduction of commercialization technology. In 2007, Roche launched the 454 GSO improved FLX model sequencer with 454 Cooperation. Illumina released Genome Analyzer HiSeq in 2006, and Applied Biosystems in 2007 released SOLiD in turn. All three platforms have adopted a massively parallel mass sequencing technique, which eliminates complex library construction and cloning processes, adopted clone amplification technology, and can process large amounts of data at once. By using cyclic sequencing, Sequencing by synthesis was used to determine the nucleotide sequence to exclude the complicated electrophoresis process. We also use a shotgun method to arrange short readings on a computer to find duplicates and complete the entire sequence.

이하 설명하는 기술은 특정 조직(유방 조직)에서 추출한 샘플에 대한 유전자 발현량(RNA 발현량)을 기준으로 유방암 예후를 예측한다. 이하 특정 조작에서 샘플을 준비하고 RNA를 추출하는 과정에 대한 예를 먼저 설명한다.The technique described below predicts the prognosis of breast cancer based on the amount of gene expression (RNA expression level) for a sample extracted from a specific tissue (breast tissue). Hereinafter, an example of a process of preparing a sample and extracting RNA from a specific operation will be described first.

대상 유방암 환자 선정 및 검사 조직 준비Selection of breast cancer patients and preparation of test tissue

1) 호르몬 수용체 양성, 임파선 전이 음성인 1-2기 유방암의 수술 조직 중 대표 포르말린고정파라핀포매 (formalin-fixed paraffin-embedded, FFPE) 블록을 선정한다.1) Select formalin-fixed paraffin-embedded (FFPE) blocks among the surgical tissues of hormone receptor positive and lymph node metastasis-negative breast tumors.

- 병리전문의의 H&E 염색 슬라이드 확인 하 블록을 선정함. 이때 대상이 되는 종양이 확실히 존재하는 블록을 선택하여야 하며 가급적 한 단면 내 종양의 면적이 가장 넓은 것, 종양조직 내 괴사부가 적거나 존재하지 않는 것이 좋다.- Select pathologist's H & E staining slides to identify blocks. At this time, it is necessary to select the block in which the target tumor is definitely present. It is preferable that the area of the tumor in the cross section is the largest, and the necrosis in the tumor tissue is little or absent.

2) 10㎛ 두께의 비염색 슬라이드 10장을 준비한다.2) Prepare 10 non-dyed slides 10 μm thick.

FFPE 조직으로부터 RNA 추출 프로토콜RNA Extraction Protocol from FFPE Tissue

1) RNA 추출 키트: 아래의 상용화된 두 키트 중 한 가지를 사용 할 수 있다.1) RNA Extraction Kit: One of the two commercial kits listed below can be used.

① Ambion RecoverAllTM Total Nucleic Acid Isolation Kit for FFPE① Ambion RecoverAll Total Nucleic Acid Isolation Kit for FFPE

② QIAGEN RNeasy FFPE Kit② QIAGEN RNeasy FFPE Kit

2) Wash 용액 준비2) Preparation of Wash Solution

- Wash 1에 42mL의 100mL 에탄올을 섞는다 -> Wash 1- Add 42 mL of 100 mL ethanol to Wash 1 -> Wash 1

- Wash 2/3에 48mL의 100mL 에탄올을 섞는다 -> Wash 2/3- Wash 2/3 with 48 mL of 100 mL ethanol -> Wash 2/3

3) 탈파라핀 (준비 : 조직, 100% 자일렌, 100% 에탄올, 가열 블록 50°C, 피펫, 볼텍스 믹서, 원심분리기)3) Deparaffin (preparation: tissue, 100% xylene, 100% ethanol, heating block 50 ° C, pipette, vortex mixer, centrifuge)

① 조직 준비 : 파라핀 블록에서 깎아낸 10um 두께의 파라핀 절편 4~8장, 총 40-80um을 준비한다. 이 때 절편 내 종양의 크기가 40㎟보다 작다면 8장의 절편 모두를 사용한다. 가급적 절편 중 종양부만 들어가도록 유의하며 준비된 절편을 1.5mL tube에 담는다. ① Preparation of tissue: Prepare 4-8 pieces of 10 μm thick paraffin slices cut from paraffin block, total 40-80um. If the size of the tumor in the section is less than 40 mm2, then all 8 sections are used. Make sure that only the tumor is inside the slice, and place the prepared slice in a 1.5 mL tube.

② 1mL의 100% 자일렌을 조직에 넣고 볼텍스 믹서로 섞고 짧게 원심분리한다. 이후 3분동안 50°C에 두어 파라핀이 녹도록 한다. (녹지 않으면 이 과정을 다시 반복한다)② Add 1 mL of 100% xylenes into the tissue, mix with a vortex mixer and shortly centrifuge. Allow the paraffin to dissolve by placing it at 50 ° C for 3 minutes. (If it does not melt, repeat this process again)

③ 2분동안 최대속도로 원심분리 하여 덩어리가 만들어지도록 한다. 단단히 뭉쳐지지 않으면 2분의 원심분리를 추가한다. 덩어리를 망가트리지 않고 자일렌을 버린다.③ Centrifuge at maximum speed for 2 minutes to make lumps. If not firmly attached, add 2 minutes of centrifugation. Discard the xylen without breaking the chunk.

④ 자일렌 씻어내기④ Wash xylene

a. 1mL의 100% 에탄올을 검체에 넣고 볼텍스 믹서로 섞는다. (뿌옇게 된다.)a. Add 1 mL of 100% ethanol to the sample and mix with a vortex mixer. (It becomes cloudy.)

b. 1분간 상온에서 최대속도로 원심분리하여 덩어리가 만들어지도록 한다.b. Centrifuge at maximum speed for 1 minute at room temperature to make lumps.

c. 덩어리가 망가지지 않도록 하면서 에탄올을 제거한다.c. Remove the ethanol while not losing the lumps.

d. a-c과정을 한 번 반복한다.d. Repeat steps a-c once.

e. 짧게 원심분리 후 가능한 한 덩어리를 건드리지 않으면서 남아있는 에탄올을 최대한 제거한다.e. After briefly centrifuging, remove as much of the remaining ethanol as possible without touching the lumps as much as possible.

⑤ 상온에서 15-45분간 건조시킨다.⑤ Dry at room temperature for 15-45 minutes.

4) 단백질 분해 (준비 : 가열 블록 50℃ & 80℃, Protease(단백분해효소)는 냉동실에서 꺼내서 상온에서 녹여둔다)4) Proteolysis (Preparation: Heat block 50 ℃ & 80 ℃, Protease (protease) is removed from freezer and dissolved at room temperature)

① Digestion Buffer 200㎕와 Protease 4㎕를 각 검체에 넣는다. 이때 잘 섞이도록 부드럽게 흔들어준다. Add 200 μl of Digestion Buffer and 4 μl of Protease to each sample. At this time, gently shake to mix well.

② 검체를 50℃(protease 활성화 온도) 가열 블록에 15분 이상, 완전히 투명해 질 때까지 둔다② Place the specimen in a heating block at 50 ° C (protease activation temperature) for at least 15 minutes until it becomes completely transparent

③ 이후 80℃(protease 비활성화 온도) 가열 블록에 15분동안 둔다. 이 때 시간을 정확히 지킨다.③ After that, place in the heating block for 15 minutes at 80 ℃ (protease deactivation temperature). At this time, we keep the time exactly.

④ 녹지 않으면 protease만 4㎕ 추가하여 위 과정(2 & 3)을 반복한다.④ If not dissolved, add 4 μl of protease and repeat the above procedure (2 & 3).

5) 핵산 분리 (준비 : Isolation Additive/에탄올 혼합물, 기타 시약 모두)5) Nucleic Acid Separation (Preparation: Isolation Additive / Ethanol mixture and all other reagents)

① Isolation Additive/에탄올 혼합물 제조① Isolation Additive / Ethanol mixture manufacturing

- Isolation Additive 240㎕ + 100% 에탄올 500㎕ = 총 790㎕- Isolation Additive 240 μl + 100% Ethanol 500 μl = Total 790 μl

- 제조 후 50mL 튜브에 보관한다. - Store in a 50 mL tube after manufacture.

(다수의 검체를 대상으로 할 때는 정량보다 5% 정도 많게 준비하도록 한다.)(When preparing a large number of specimens, prepare 5% more than quantitative.)

② 제조한 Isolation Additive/에탄올 혼합물을 790㎕씩 각 검체가 담긴 튜브에 분주하면서 피펫을 이용해 섞는다.② Mix the prepared Isolation Additive / Ethanol mixture in a tube containing 790 μl of each sample using a pipette.

③ 혼합물 거르기③ Mixture filtration

a. 필터 카트리지를 키트에서 제공된 튜브에 넣는다.a. Insert the filter cartridge into the tube provided in the kit.

b. 2번 과정에서 만든 혼합물 700㎕를 필터 위에 올리고 뚜껑을 닫는다.b. Place 700 μl of the mixture prepared in step 2 on the filter and close the lid.

c. 10,000rpm에서 30초간 원심분리한다.c. Centrifuge at 10,000 rpm for 30 seconds.

d. 걸러져 나온 용액은 버리고 필터를 같은 튜브에 넣는다.d. Discard the filtered solution and place the filter in the same tube.

e. 필요한 경우(혼합물이 충분히 걸러지지 않은 경우) 원심분리를 한 번 더 실시해 혼합물이 필터에 걸러지도록 한다.e. If necessary (if the mixture is not sufficiently filtered), perform one more centrifugation to filter the mixture into the filter.

④ Wash 1Wash 1

a. 700㎕의 Wash 1을 필터 카트리지에 더한다a. Add 700 μl of Wash 1 to the filter cartridge

b. 10,000rpm에서 30초간 원심분리한다.b. Centrifuge at 10,000 rpm for 30 seconds.

c. 걸러져 나온 용액은 버리고 필터를 같은 튜브에 넣는다.c. Discard the filtered solution and place the filter in the same tube.

⑤ Wash 2/3Wash 2/3

a. 500㎕의 Wash 1을 필터 카트리지에 더한다a. Add 500 μl of Wash 1 to the filter cartridge

b. 10,000rpm에서 30초간 원심분리한다.b. Centrifuge at 10,000 rpm for 30 seconds.

c. 걸러져 나온 용액은 버리고 필터를 같은 튜브에 넣는다.c. Discard the filtered solution and place the filter in the same tube.

d. 10,000rpm으로 한번 더 원심분리하여 남은 용액을 제거한다.d. Centrifuge once more at 10,000 rpm to remove any remaining solution.

6) RNA 분리 및 정제 (준비 : DNase(DNA 분해효소)와 Nuclease(핵산분해효소)는 냉동실에서 꺼내서 녹여둔다)6) RNA isolation and purification (preparation: DNase (DNA degradation enzyme) and Nuclease (nucleolytic enzyme) are removed from the freezer and dissolved)

① RNA 분리 ① RNA isolation

a. DNase 혼합물 제조: 10X DNase Buffer 6㎕ + DNase 4㎕ + Nuclease free water 50㎕ = 총 60㎕a. Preparation of DNase mixture: 6 占 퐇 of 10X DNase Buffer + 4 占 퐇 of DNase + 50 占 퐇 of Nuclease free water = 60 占 퐇

b. DNase 혼합물 60㎕를 각각의 필터 카트리지 중앙에 더한다.b. Add 60 μl of the DNase mixture to the center of each filter cartridge.

c. 뚜껑을 닫고 22-25ㅊC의 상온에서 30분간 둔다c. Close the lid and leave for 30 minutes at room temperature of 22-25 ° C

② Wash 1Wash 1

a. Wash 1 700㎕를 필터 카트리지에 넣고 30-60초간 상온에 둔다a. Add 1 700 μl of Wash into the filter cartridge and leave it at room temperature for 30-60 seconds

b. 10,000rpm에서 30초간 원심분리한다.b. Centrifuge at 10,000 rpm for 30 seconds.

c. 걸러져 나온 용액은 버리고 필터를 같은 튜브에 넣는다.c. Discard the filtered solution and place the filter in the same tube.

③ Wash 2/3 Wash 2/3

a. Wash 2/3 500㎕를 필터 카트리지에 넣는다.a. Wash 2/3 500 μl into the filter cartridge.

b. 10,000rpm에서 30초간 원심분리한다.b. Centrifuge at 10,000 rpm for 30 seconds.

c. 걸러져 나온 용액은 버리고 필터를 같은 튜브에 넣는다.c. Discard the filtered solution and place the filter in the same tube.

d. a-c를 한번 더 반복한다.d. Repeat a-c once more.

e. 10,000rpm에서 1분간 원심분리한다.e. Centrifuge at 10,000 rpm for 1 minute.

④ Elution solution 더하기 및 보관④ Addition and Storage of Elution Solution

a. 필터 카트리지를 새 튜브에 넣는다.a. Place the filter cartridge in a new tube.

b. 60㎕ Elution Solution을 필터의 중앙에 더한다b. Add 60 μl Elution Solution to the center of the filter

c. 뚜껑을 닫고 1분간 둔다c. Close the lid and leave for 1 minute.

d. 1분간 최대속도로 원심분리 한 후 필터는 버리고, 걸러져 나온 용액을 -20℃ 이하에서 보관한다.d. Centrifuge at full speed for 1 minute, discard the filter, and store the filtered solution at -20 ° C or less.

이하 샘플 조직에서 추출한 RNA를 이용하여 유방암 예후를 예측하는 과정에 대하여 설명한다. 도 1은 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법에 대한 순서도의 예이다. 먼저 RNA 샘플에 대한 시퀀싱을 수행한다(110). 다양한 방법으로 RNA 시퀀싱을 수행할 수 있다. 다양한 상용 키트(kit) 및 상용 솔루션을 사용하여 RNA를 시퀀싱할 수 있다. 하나의 예를 설명한다.Hereinafter, the process of predicting breast cancer prognosis using RNA extracted from a sample tissue is described. Figure 1 is an example of a flowchart for a machine learning-based breast cancer prognosis prediction method using next-generation sequencing. First, sequencing is performed on the RNA sample (110). RNA sequencing can be performed in a variety of ways. RNA can be sequenced using a variety of commercial kits and commercial solutions. One example is described.

Targeted RNA-sequencingTargeted RNA-sequencing

1) KAPA Stranded RNA-Seq kit with RiboErase (KK8483, KAPABIOSYSTEMS) 키트를 사용하여, 전체 RNA에서 ribosomal RNA를 제거한다.1) Remove the ribosomal RNA from the total RNA using KAPA Stranded RNA-Seq kit with RiboErase (KK8483, KAPABIOSYSTEMS) kit.

2) mRNA로 부터 cDNA를 제작하고 추가적인 과정을 통해 cDNA NGS 라이브러리(Library)를 완성한다. cDNA Library 및 Hybridization solution, Target Capture Probe를 이용하여, 액상 혼성화 유전자 포획 기법 (Solution-based hybridization capture)을 진행한다.2) cDNA is prepared from mRNA and an additional process is performed to complete the cDNA NGS library. Solution-based hybridization capture is performed using cDNA library, hybridization solution, and target capture probe.

3) 획득된 산물을 일정 부분 증폭하여 라이브러리 증폭(Library amplification)을 진행한다.3) Library amplification is performed by amplifying a part of the obtained product.

4) 최종 산물을 시퀀싱(Illumina사의 키트 사용)하여 생성된 타겟 영역의 시퀀싱 깊이(depth) 데이터를 기반으로 RNA 의 발현량을 예측할 수 있다.4) The amount of RNA expression can be predicted based on the sequencing depth data of the target region generated by sequencing the final product (using Illumina's kit).

NGS 기반의 RNA 시퀀싱을 수행하면 상용 프로그램에서 RNA 시컨스를 일정한 디지털 데이터로 생성한다. 또한 상용 프로그램은 시퀀싱 결과를 이용하여 각 RNA 유전자의 발현량을 산출할 수 있다. 따라서 RNA 샘플을 분석하는 과정 및 분석 결과는 컴퓨터 장치가 수행한다. 따라서 이하 컴퓨터 장치가 RNA 발현량을 이용한 유방암 예후 예측을 수행한다고 전제한다. 컴퓨터 장치는 샘플 RNA에 대한 발현량 데이터를 생성한다(120). When NGS-based RNA sequencing is performed, the RNA sequence in the commercial program is generated as constant digital data. In addition, the commercial program can calculate the expression amount of each RNA gene using the sequencing result. Therefore, the process of analyzing the RNA sample and the analysis result are performed by a computer device. Therefore, it is presumed that the following computer apparatus performs prediction of breast cancer prognosis using RNA expression amount. The computer device generates 120 expression volume data for the sample RNA.

한편 샘플 RNA 전체 유전자에 대하여 분석을 수행하지 않고, 유방암 예후와 연관성 있는 유전자(이하 타겟 유전자라함)를 선별하여 분석을 수행할 수 있다. 타겟 유전자를 결정하기 위하여 공개된 유전자 데이터를 활용하였다. 에스토로겐 수용체가 양성이고, 임파선에 전이가 되지 않은 피험자의 유전자 데이터를 활용하였다. 활용한 공개 데이터는 GSE2034, GSE2990, GSE3494, GSE4922, GSE6532, GSE7390 및 GSE12093이다.On the other hand, the analysis can be performed by selecting a gene (hereinafter referred to as a target gene) that is related to the prognosis of breast cancer without analyzing the entire gene of the sample RNA. The published gene data was used to determine the target gene. Genetic data from subjects who were positive for estrogen receptor and not metastasized to lymph nodes were used. Public data utilized are GSE2034, GSE2990, GSE3494, GSE4922, GSE6532, GSE7390 and GSE12093.

공개 데이터를 기반으로 각 유전자와 Oncotype DX RS(재발 점수)의 상관 관계(correlation)를 분석하였다. 대표적인 상관 관계 분석 기법인 피어슨(Pearson)와 스피어만(Spearman) 기법을 활용하였다. 각 공개 데이터에서 Oncotype DX RS(재발 점수)와의 상관 계수가 평균 0.5 이상인 유전자를 선별하였다. 아래 표와 같이 모두 135개의 유전자를 선별하였다.The correlation between each gene and Oncotype DX RS (recurrence score) was analyzed based on public data. Pearson and Spearman techniques, which are representative correlation analysis techniques, were used. The genes with an average correlation coefficient of 0.5 or more with Oncotype DX RS (recurrence score) in each open data were selected. 135 genes were selected as shown in the table below.

GSE2034GSE2034 GSE2990GSE2990 GSE3494GSE3494 GSE4922GSE4922 GSE6532GSE6532 GSE7390GSE7390 GSE12093GSE12093 합계(>0.5)Total (> 0.5) Oncotype DX RSOncotype DX RS 184184 298298 267267 292292 168168 7777 5656 135135

또한 추가적으로 Oncotype DX RS 계산에 사용되는 16개의 유전자를 추가 선별하였다. 결국 타겟 유전자는 149개의 유전자를 활용하였다. 물론 실험적으로 타겟 유전자는 다른 유전자 조합을 선택할 수도 있을 것이다. 다만 타겟 유전자는 Oncotype DX RS와의 상관도가 큰 유전자로 결정한다.In addition, 16 additional genes used in the Oncotype DX RS calculation were further screened. As a result, the target gene used 149 genes. Of course, the target gene may experimentally select other gene combinations. However, the target gene is determined to be highly correlated with Oncotype DX RS.

도 2는 타겟 유전자에 대한 예이다. 도 2는 모두 149개의 유전자를 표시한다. 도 2에서 음영으로 표시한 유전자는 세포 분열을 조절하는 기작(Cell Cycle)과 관련된 유전자이다. 도 2에서 실선 원으로 표시한 유전자는 p53 신호 경로에 관여하여 세포 분열을 조절하는 기작과 관련된 유전자이다. 도 2에서 점선 원으로 표시한 유전자는 DNA 복제 과정을 조절하는 유전자이다. 도 2에서 실선 사각형으로 표시한 유전자는 Cell cycle 및 p53 signaling pathway에 관여하는 유전자이다. 도 2에서 점선 사각형으로 표시한 유전자는 Cell cycle 및 DNA 복제에 관여하는 유전자이다.Figure 2 is an example of a target gene. Figure 2 shows all 149 genes. In Fig. 2, the shaded gene is a gene associated with a cell cycle regulating cell division. In Fig. 2, the gene indicated by the solid line circle is a gene related to a mechanism of regulating cell division involved in the p53 signal pathway. The gene indicated by the dotted circle in FIG. 2 is a gene that regulates the DNA replication process. The gene indicated by the solid line in Fig. 2 is a gene involved in the cell cycle and the p53 signaling pathway. In Fig. 2, the dotted rectangle is a gene involved in the cell cycle and DNA replication.

전술한 바와 같이 NGS 기반하여 컴퓨터 장치는 타겟 유전자의 발현량을 측정한다. 도 3은 NGS 기반한 타겟 유전자의 데이터 품질에 대한 예이다. 도 3은 타겟 RNA 시퀀싱한 데이터의 품질을 나타내는 그래프의 예이다. 데이터 품질 검증을 위하여 측정된 유전자 발현량 값과 전체-전사체 시퀀싱으로 측정된 값 사이의 편차를 확인한 것이다. 총 84개의 패널 유전자를 대상으로 10개의 RNA 샘플에 대해 표적 시퀀싱과 전체-전사체 시퀀싱으로 발현량을 각각 산출하고, 피어슨 상관 계수를 측정하였다. 결과적으로 0.85이상의 높은 상관 관계를 확인하였다. 따라서 타겟 RNA 시퀀싱과 전체-전사체 RNA 시퀀싱 결과가 높은 상관 관계를 보이므로, 실험에서 사용한 타겟 RNA 시퀀싱의 결과는 전체-전사체 RNA 시퀀싱과 유사한 정도의 데이터 품질을 갖는다고 해석된다.As described above, a computer device based on NGS measures the expression amount of a target gene. Figure 3 is an example of the data quality of a target gene based on NGS. Fig. 3 is an example of a graph showing the quality of the target RNA sequenced data. For the data quality verification, the deviation between the measured gene expression level and the value measured by total-transcript sequencing was confirmed. A total of 84 panel genes were subjected to target sequencing and total - transcript sequencing for 10 RNA samples, respectively, and expression levels were calculated and Pearson correlation coefficients were measured. As a result, a high correlation of 0.85 or more was confirmed. Therefore, the results of the target RNA sequencing used in the experiment are interpreted to have a data quality similar to that of the full - transcript RNA sequencing, since the target RNA sequencing and the total - transcript RNA sequencing results are highly correlated.

샘플에 대한 전체 유전자 발현량을 산출하지 않고, 각 샘플에서 공통되게 발현하는 특정 엑손(exon) 부위를 사용할 수 있다. 이 경우 유전자 발현량 연산 과정이 보다 빠르게 수행될 수 있다. 즉 샘플에 대하여 공통되게 보존된 엑손(conserved exon) 패널을 이용하는 것이다(이하 CE 방식이라고 함)A specific exon region commonly expressed in each sample can be used without calculating the total gene expression amount for the sample. In this case, the process of calculating the gene expression amount can be performed more quickly. A conserved exon panel commonly used for the sample (hereinafter referred to as CE method)

도 4는 특정 타겟 엑손 영역의 유전자 발현 데이터를 이용하는 예이다. 도 4는 복수의 샘플(A 내지 D)에 대한 유전자 엑손의 발현 상태를 나타낸다. 복수의 샘플에 대하여 공통되게 발현하는 영역(타겟 영역)을 결정하여 해당 영역을 기준으로 유전자 발현량을 결정할 수 있다. 유전자 전체 영역을 이용하는 방식(이하 WG 방식이라고 함)은 개개인의 유전자 아형 전사체 발현량 차이가 고려되지 않기 때문에 환자별 아형 전사체 발현 비율 차이로 인해 유전자 발현량 측정에 편차가 발생할 수 있다. CE 방식은 아형 전사체들이 공유하는 영역만을 사용하기에 WG 방식에서 발생하는 측정편차가 발생하지 않아 보다 안정적으로 발현량 측정이 가능하다. 안정성은 반복 측정시에 측정값이 변하는 정도를 의미한다.4 is an example using gene expression data of a specific target exon region. 4 shows the expression state of the gene exons to a plurality of samples (A to D). A region (target region) that is commonly expressed for a plurality of samples can be determined, and the amount of gene expression can be determined based on the region. Since the difference in expression level of individual gene subtype transcripts is not considered in the method using the whole gene region (hereinafter referred to as WG method), there may be a deviation in the gene expression amount measurement due to the difference in the expression ratio of subtype transcripts in each patient. Since the CE method uses only the region shared by the subtype transcripts, measurement deviations occurring in the WG method do not occur, so that it is possible to measure the expression amount more stably. Stability refers to the degree to which the measured value changes during repeated measurements.

나아가 샘플 데이터를 활용하여 CE 방식의 안정성을 검증하였다. 도 5는 특정 타겟 엑손 영역을 활용한 방식의 안정성을 검증한 예이다. 도 5(A)는 CE 방식의 안정성 검증을 위한 과정을 설명하는 예이다. Replicate 데이터는 단일 샘플에 대하여 반복측정한 값이다. 따라서 반복 측정한 데이터 사이의 오차는 측정 오차에 해당한다. 종양 셀 라인에서 추출한 9개의 RNA 샘플에 대해 각 2회씩의 반복 실험을 수행하여 총 18개의 표적 RNA 샘플 시퀀싱 데이터를 생성하였다(타겟 RNA 시퀀싱 I 및 타겟 RNA 시퀀싱 II). 도 5(B)는 WG 방식의 측정값과 CE 방식의 측정값 사이의 안정성을 나타내는 실험 결과이다. 총 9개의 샘플 중 8개 샘플에서 WG 방식 보다 CE 방식의 Replicate 데이터간 비교 시에 더 안정적이라고 나타난다(피어슨 계수가 더 높다). 9개의 샘플에 대한 평균 피어슨 계수도 CE 방식이 WG 방식보다 높고, 샘플간 표준편차도 적다. 따라서 CE 방식이 WG 방식보다 더 안정적이라고 해석된다.Furthermore, the stability of CE method was verified by using sample data. 5 is an example of verifying the stability of a method using a specific target exon region. FIG. 5A is an example for explaining a process for verifying the stability of the CE system. The replicate data is a repeated measurement for a single sample. Therefore, the error between the repeatedly measured data corresponds to the measurement error. A total of 18 target RNA sample sequencing data were generated (target RNA sequencing I and target RNA sequencing II) by performing 2 repeated iterations on each of 9 RNA samples extracted from tumor cell lines. 5 (B) is an experimental result showing the stability between the measured value of the WG system and the measured value of the CE system. Eight out of 9 samples appear to be more stable (Pearson factor is higher) in comparison between replicate data of CE method than WG method. The average Pearson coefficient for nine samples is also higher for the CE method than for the WG method, and the standard deviation between samples is also small. Therefore, it is interpreted that CE method is more stable than WG method.

도 1에 대한 설명으로 돌아가면, 컴퓨터 장치는 생성한 타겟 유전자의 발현량 데이터를 일정하게 후처리하고 정규화할 수 있다(130). 먼저 적용가능한 후처리 과정의 예를 설명한다. 후처리 및 정규화는 디지털 데이터(파일)을 일정하게 처리하는 과정에 해당한다.Returning to the description of FIG. 1, the computer apparatus can regularly post-process and normalize the expression amount data of the generated target gene (130). First, an example of the post-processing that can be applied will be described. Postprocessing and normalization correspond to the process of processing digital data (file) regularly.

Targeted RNA-sequencing 결과 후처리Targeted RNA-sequencing Post-treatment

1) 리드(read) 제거1) Remove the read

리드 품질 기준을 만족하지 않는 리드들을 제거한다(예컨대, 평균 품질이 20 이상이고, 평균 품질이 2 이하 염기(base) 가 5% 미만되도록 처리함)Leads that do not meet the lead quality criteria are removed (e.g., the average quality is above 20 and the average quality is below 2 and the base is below 5%)

Trimmomatic (0.33) 프로그램을 사용하여 시퀀싱 과정에서 삽입된 인덱스 시컨스를 제거한다.Use the Trimmomatic (0.33) program to remove the inserted index sequence during the sequencing process.

2) 시퀀싱된 리드를 레퍼런스 게놈에 정렬(Align sequenced reads to the reference genome)2) Align sequenced leads to the reference genome (Align sequenced reads to the reference genome)

STAR aligner 프로그램을 사용하여 시퀀싱된 리드들의 레퍼런스 게놈(hg19)을 기준으로 한 위치를 찾고 SortedByCoordinate 옵션을 주어 동시에 정렬한다. Use the STAR aligner program to locate the references based on the reference genome (hg19) of the sequenced leads and sort them together with the SortedByCoordinate option.

3) 유전자 발현량 연산3) Gene expression amount calculation

cufflinks 프로그램을 사용하여 정렬된 리드 정보들로부터 유전자별 발현량과 전사물별 발현량을 계산한다. 발현량은 FPKM(Fragments Per Kilobase of exon per Million fragments mapped)값으로 계산할 수 있다. 유전자별로 계산된 발현량은 genes.fpkm_tracking 파일로 생성되고, 전사물별로 계산된 발현량은 isoforms.fpkm_tracking 파일로 생성될 수 있다.Use the cufflinks program to calculate the amount of gene expression and transcript expression from the sorted lead information. The expression level can be calculated as the value of FPKM (Fragments Per Kilobase of exon per Million fragments mapped). The amount of expression calculated for each gene is generated in the gene.fpkm_tracking file, and the expression amount calculated for each transcript can be generated as isoforms.fpkm_tracking file.

한편 정확한 시컨스 정렬 및 발현량 측정을 위해 분석 전 처리 과정으로 시퀀싱 결과로 나온 리드 들 중 염기 품질이 좋지 않은 리드들을 제거하고 각 리드들의 말단부에 남아있을 수 있는 (시퀀싱 과정에서 삽입된) 인덱스 시퀀스를 제거할 수 있다. 전 처리 과정을 거친 리드들에 대해서 STAR 프로그램을 사용하여 각각의 리드들의 레퍼런스 게놈 상의 위치를 확인. 확인된 위치정보는 BAM 파일 포맷으로 생성되고 이 BAM 파일을 Cufflinks 프로그램을 이용하여 유전자 및 전사물별 발현량을 계산할 수 있다.In order to precisely align the sequence and measure the expression level, the preprocessing process removes the bad quality leads from the sequencing leads and inserts an index sequence (inserted in the sequencing process) that may remain at the end of each lead Can be removed. For pre-processed leads, use the STAR program to determine the position of each lead on the reference genome. The confirmed location information is generated in the BAM file format, and the BAM file can be used to calculate the expression level of each gene and transcript using the Cufflinks program.

컴퓨터 장치는 생성한 데이터를 정규화할 수 있다(130). The computer device may normalize the generated data (130).

Targeted RNA-sequencing 발현정보 정규화 (normalization)Targeted RNA-sequencing Expression information Normalization

종래 정규화 기법들 중 R package edgeR (Robinson et al. Bioinformatics 2010)에서 사용되는 "Trimmed Mean of M-value (TMM)" 기법이 가장 안정성이 높은 것으로 알려져 있다. 컴퓨터 장치는 상용 패키지인 edgeR package를 탑재하여 생산된 표적 RNA시퀀싱 데이터로부터 자동적으로 정규화된 유전자 발현정보를 추출하는 파이프라인을 설계할 수 있다.It is known that the "Trimmed Mean of M-value (TMM)" technique used in R package edge R (Robinson et al. Bioinformatics 2010) among the conventional normalization techniques is the most stable. The computer device is capable of designing a pipeline that automatically extracts normalized gene expression information from the target RNA sequencing data generated by mounting the edgeR package, a commercial package.

NGS 기술을 이용해 생성된 시퀀싱 데이터는 사용 정렬 소프트웨어(예컨대, RNA-STAR)를 이용하여 참조 유전체에 맵핑된다. 맵핑 결과를 통해 각각의 유전자로부터 나온 서열의 개수를 집계할 수 있고, 이는 유전자의 발현량에 대한 직접적인 추정치가 된다.The sequencing data generated using NGS technology is mapped to the reference genome using the usage alignment software (e.g., RNA-STAR). The mapping results can be used to count the number of sequences from each gene, which is a direct estimate of the amount of gene expression.

정규화 파이프라인은 맵핑이 완료되어 BAM 파일 형식으로 가공된 데이터를 입력받는다. 맵핑된 데이터는 파이프라인에 내장된 일련의 소프트웨어 패키지들HTseq-count 및 edgeR 에 의해 샘플간 비교가 가능한 정규화된 발현량 값으로 계산될 수 있다.The normalization pipeline receives the processed data in the BAM file format after the mapping is completed. The mapped data can be computed as a normalized expression value that can be compared between samples by a series of software packages HTseq-count and edgeR in the pipeline.

도 6은 RNA 시퀀스 데이터를 정규화하는 과정에 대한 예이다. 도 6의 두 개의 서로 다른 샘플에 대한 데이터를 정규화하는 과정의 예이다. 먼저 샘플 데이터는 유전자 발현량의 의미하는 매핑된 데이터를 입력받는다. 컴퓨터 장치는 HTseq-count를 적용하여 유전자 발현량을 계산한다. 각각의 샘플은 라이브러리 크기가 다르다(샘플 1은 100서열, 샘플 2는 300서열). 이후 컴퓨터 장치는 edgeR을 적용하여 발현량을 정규화한다. 도 6은 라이브러리 크기 100을 기준으로 샘플의 발현량을 정규화한 예이다. 6 is an example of a process of normalizing RNA sequence data. 6 is an example of a process of normalizing data for two different samples in Fig. First, the sample data is input with mapped data representing the amount of gene expression. Computer devices use HTseq-count to calculate gene expression levels. Each sample has a different library size (Sample 1 is 100 sequences, Sample 2 is 300 sequences). The computer device then normalizes the expression level by applying edgeR. 6 is an example of normalizing the expression amount of a sample on the basis of a library size of 100. FIG.

컴퓨터 장치는 유전자 발현량 데이터를 사전에 마련한 기계학습모델에 입력한다(140). 기계학습모델에 입력되는 유전자 발현량 데이터는 정규화된 데이터이다. 기계학습모델은 사전에 타겟 유전자의 발현량과 Oncotype DX RS로 학습된 것이다. 예컨대, 기계학습모델은 학습과정에서 Oncotype DX RS가 25이상인 경우 고위험(재발 가능성 높음)이라고 판단하고, 25미만인 경우 저위험이라고 판단할 수 있다.The computer device inputs the gene expression amount data into a machine learning model prepared in advance (140). The gene expression data input to the machine learning model is normalized data. The machine learning model is learned in advance by the amount of target gene expression and Oncotype DX RS. For example, a machine learning model can be judged to be high risk (high likelihood of recurrence) when Oncotype DX RS is 25 or more, and low risk if less than 25.

도 7은 기계학습의 인공신경망 구조에 대한 예이다. 도 7은 기계학습 모델 중 인공신경망(Artificial Neural Network)에 대한 예이다. 인공신경망은 다양한 종류 중 어느 하나를 활용할 수 있다. 도 7의 인공신경망은 완전 연결 구조(fully connected network)이다. 단계별로 은닉 노드(hidden node)를 사용한다. 또한 학습데이터에 대한 오버피팅(over-fitting)을 막기 위하여 가가 계층별로 배치 정규화(batch normalization)를 적용할 수 있다. 배치 정규화는 계층을 통과한 결과에 대하여 활성화값을 적절하게 강제로 분포시키는 과정이다.Figure 7 is an example of an artificial neural network structure for machine learning. 7 is an example of an artificial neural network among machine learning models. An artificial neural network can utilize any one of a variety of types. The artificial neural network of Fig. 7 is a fully connected network. It uses a hidden node for each step. In order to prevent over-fitting of learning data, it is possible to apply batch normalization to each layer. Batch normalization is the process of forcibly distributing the activation values for the results that pass through the hierarchy.

기계학습모델에서 설명한 바와 같이 인공신경망도 복수의 샘플에 대한 데이터를 이용하여 사전에 학습된다. 즉 복수의 샘플에 대한 타겟 유전자 발현량을 입력값을 이용하고, 해당 타겟 유전자(샘플)의 Oncotype DX RS를 이용하여 인공신경망 모델을 생성한다.As described in the machine learning model, artificial neural networks are also learned in advance by using data on a plurality of samples. In other words, an artificial neural network model is generated using Oncotype DX RS of a target gene (sample) using an input value of a target gene expression amount for a plurality of samples.

이제 특정 피험자의 데이터를 신경망에 입력하여 해당 피험자의 유방암 예후를 예측할 수 있다. 사전에 학습된 인공신경망에 입력되는 값은 피험자의 타겟 유전자의 발현량이다. 인공신경망의 출력값은 Oncotype DX RS에 기반한 유방암 예후 예측 결과일 수도 있다. 인공신경망의 출력값은 특정한 점수와 같은 정량적 결과가 출력될 수 있다. 또는 인공신경망의 출력값은 곧바로 고위험 또는 저위험과 같은 정성적 평가 결과일 수도 있다.Now, the data of a particular subject can be entered into the neural network to predict the breast cancer prognosis of the subject. The value input to the previously learned artificial neural network is the expression amount of the target gene of the subject. The output value of artificial neural network may be the result of breast cancer prognosis prediction based on Oncotype DX RS. The output value of the artificial neural network can be output as a quantitative result that is equal to a specific score. Or the output value of an artificial neural network may be a qualitative evaluation result such as high risk or low risk.

도 7에서 인공신경망을 중심으로 설명하였으나, 다양한 다른 기계학습모델을 이용하여 유방암 예후를 추정할 수 있다. 예컨대, 기계학습모델은 유전 알고리즘, 서포트 벡터 머신, 베이즈 네트워크 등과 같은 다양한 방식을 활용할 수도 있다.Although FIG. 7 illustrates the artificial neural network as an example, various other machine learning models can be used to estimate the prognosis of breast cancer. For example, a machine learning model may utilize a variety of approaches such as genetic algorithms, support vector machines, Bayesian networks, and the like.

컴퓨터 장치는 기계학습모델의 결과값을 기준으로 현재 입력된 샘플(피험자)에 대한 유방암 예후를 예측한다(150). 예컨대, 컴퓨터 장치는 기계학습모델의 결과값이 특정한 점수일 수 있다. 이 경우 컴퓨터 장치는 인공신경망의 출력값을 사전에 마련된 기준값과 비교하여 출력값이 특정값 이상인 경우, 현재 샘플(피험자)에 대하여 고위험이라고 판단할 수 있다. 반대로 컴퓨터 장치는 인공신경망의 출력값이 기준값 미만인 경우 저위험이라고 판단할 수 있다.The computer device predicts (150) the breast cancer prognosis for the currently entered sample (subject) based on the results of the machine learning model. For example, the computer device may have a certain score in the result value of the machine learning model. In this case, the computer device compares the output value of the artificial neural network with a preset reference value, and if the output value is greater than or equal to a specific value, it can be determined that the current sample (subject) has a high risk. On the contrary, the computer device can judge that the output value of the artificial neural network is lower than the reference value.

도 8은 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 시스템에 대한 예이다. 도 8(A)는 네트워크에서 구현된 시스템(200)의 예이다. 유방암 예후 예측 시스템(200)은 클라이언트 장치(210) 및 분석 서버(220)를 포함한다. 나아가 유방암 예후 예측 시스템(200)은 모델 DB(230)를 포함할 수도 있다. 분석 서버(220)는 전술한 컴퓨터 장치에 해당한다.FIG. 8 shows an example of a machine learning-based breast cancer prognosis prediction system using next-generation nucleotide sequence analysis. Figure 8 (A) is an example of a system 200 implemented in a network. The breast cancer prognosis prediction system 200 includes a client device 210 and an analysis server 220. Further, the breast cancer prognosis prediction system 200 may include a model DB 230. The analysis server 220 corresponds to the above-described computer apparatus.

클라이언트 장치(210)는 피험자에 대한 데이터를 제공하는 장치이다. 클라이언트 장치(210)는 피험자의 유전자 발현에 대한 데이터(유전자 데이터)를 분석 서버(220)에 전달한다. 클라이언트 장치(210)가 전달하는 데이터는 유전자 서열을 나타내는 데이터일 수 있다.The client device 210 is a device that provides data on a subject. The client device 210 transmits data (gene data) about gene expression of the subject to the analysis server 220. The data transmitted by the client device 210 may be data representing a gene sequence.

분석 서버(220)는 유전자 데이터에 대한 NGS(next-generation sequencing) 기반 시퀀싱을 수행한 RNA 시퀀싱 데이터를 이용하여 타겟 유전자의 발현량을 측정하고, 사전에 마련한 기계학습모델에 상기 타겟 유전자의 발현량을 입력하여 출력되는 출력값을 기준으로 상기 피험자에 대한 유방암 예후를 추정한다. 분석 서버(220)는 전술한 데이터 후처리 및 정규화 과정을 수행할 수도 있다. 분석 서버(220)는 사전에 마련한 기계학습모델을 이용하다. 기계학습모델은 별도의 모델 DB(230)에 저장될 수도 있다. 분석 서버(220)가 데이터를 처리하고, 유방암 예후를 예측하는 과정은 전술한 바와 같다.The analysis server 220 measures the expression level of the target gene using RNA sequencing data that has been subjected to next-generation sequencing (NGS) -based sequencing on the gene data, and determines the expression level of the target gene And estimates the breast cancer prognosis for the subject based on the output value. The analysis server 220 may perform the data post-processing and the normalization process described above. The analysis server 220 uses a machine learning model provided in advance. The machine learning model may be stored in a separate model DB 230. The process of analyzing data by the analysis server 220 and predicting the prognosis of breast cancer is as described above.

도 8(B)는 유방암 예후 예측하는 컴퓨터 장치(300)에 대한 예이다. 도 8(B)에 도시한 컴퓨터 장치(300)는 전술한 분석 서버(220)일 수도 있다. 컴퓨터 장치(300)는 PC, 노트북, 스마트기기 또는 서버 등과 같은 장치를 의미한다. 컴퓨터 장치(300)는 입력장치(310), 연산장치(320), 저장장치(330) 및 출력장치(340)를 포함한다. 8 (B) is an example of a computer device 300 for predicting breast cancer prognosis. The computer device 300 shown in Fig. 8 (B) may be the analysis server 220 described above. The computer device 300 refers to a device such as a PC, a notebook, a smart device, or a server. The computer device 300 includes an input device 310, a computing device 320, a storage device 330, and an output device 340.

입력장치(310)는 피험자의 유전자 데이터를 입력받는다. 유전자 데이터는 타겟 유전자의 발현에 관련된 데이터 내지 유전자 서열을 의미한다. 입력장치(310)는 피험자의 데이터를 통신이나 별도의 저장 장치를 통해 컴퓨터 장치(300)에 입력하는 장치이다. 나아가 입력장치(310)는 컴퓨터 장치(300)를 통해 피험자의 임상 데이터를 직접 입력받는 인터페이스 장치(키보드, 마우스, 터치 스크린 등)일 수도 있다. The input device 310 receives the gene data of the subject. The gene data refers to data or gene sequences related to the expression of the target gene. The input device 310 is a device for inputting subject data to the computer device 300 through communication or a separate storage device. Further, the input device 310 may be an interface device (a keyboard, a mouse, a touch screen, or the like) that receives clinical data of the subject directly through the computer device 300.

저장장치(330)는 전술한 기계학습모델을 저장하는 장치이다. 저장장치(330)는 입력장치(310)로부터 전달받은 피험자의 유전자 데이터를 저장할 수 있다. 저장장치(330)는 유전자 데이터를 분석하여 유방암 예후를 예측하는 소프트웨어가 설치된 장치일 수도 있다.The storage device 330 is a device that stores the above-described machine learning model. The storage device 330 may store genetic data of the subject transmitted from the input device 310. The storage device 330 may be a device equipped with software for analyzing gene data to predict breast cancer prognosis.

연산 장치(320)는 입력된 유전자 데이터에 대한 유전자 발현량을 측정하고, 유전자 발현량을 기계학습모델에 입력하고, 기계학습모델의 출력값을 기준으로 피험자의 유방암 예후를 추정한다.The computing device 320 measures the amount of gene expression for the input gene data, inputs the gene expression amount into the machine learning model, and estimates the subject's breast cancer prognosis based on the output value of the machine learning model.

출력장치(340)은 예후에 대한 정보를 일정한 형태로 출력하는 장치이다. 출력장치(340)는 디스플레이 장치, 문서를 출력하는 출력 장치 및 예후에 대한 정보를 다른 장치에 전달하는 통신 장치 중 적어도 하나를 포함한다.The output device 340 is a device that outputs information on the prognosis in a predetermined form. The output device 340 includes at least one of a display device, an output device for outputting a document, and a communication device for communicating information about the prognosis to another device.

또한, 상술한 바와 같은 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.Further, the machine learning-based breast cancer prognosis prediction method using the next generation nucleotide sequence analysis as described above can be implemented as a program (or application) including an executable algorithm that can be executed in a computer. The program may be stored and provided in a non-transitory computer readable medium.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다A non-transitory readable medium is a medium that stores data for a short period of time, such as a register, cache, memory, etc., but semi-permanently stores data and is readable by the apparatus. In particular, the various applications or programs described above may be stored and provided on non-volatile readable media such as CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM,

본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.The present embodiment and drawings attached hereto are only a part of the technical idea included in the above-described technology, and it is easy for a person skilled in the art to easily understand the technical idea included in the description of the above- It will be appreciated that variations that may be deduced and specific embodiments are included within the scope of the foregoing description.

200 : 갑상선암 예후 예측 시스템
210 : 클라이언트 장치
220 : 분석 서버
230 : 모델 DB
300 : 컴퓨터 장치
310 : 입력 장치
320 : 연산 장치
330 : 저장 장치
340 : 출력 장치
200: Thyroid Cancer Prognosis Prediction System
210: Client device
220: Analysis server
230: Model DB
300: computer device
310: input device
320:
330: Storage device
340: Output device

Claims (12)

컴퓨터 장치가 피험자 조직(tissue)의 RNA 시퀀싱 데이터를 이용하여 타겟 유전자의 발현량을 측정하는 단계;
상기 컴퓨터 장치가 상기 타겟 유전자의 발현량을 사전에 마련한 인공신경망(Artificial Neural Network)에 입력하는 단계; 및
상기 컴퓨터 장치가 상기 인공신경망의 출력값을 기준으로 상기 피험자에 대한 유방암 예후를 추정하는 단계를 포함하되,
상기 인공신경망은 복수의 샘플의 타겟 유전자 발현량를 입력값으로 갖고, 상기 복수의 샘플에 대한 온코타입(Oncotype DX)의 재발 점수(recurrence score)에 기반한 결과를 출력하도록 사전에 마련되는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법.
Measuring the expression level of a target gene using RNA sequencing data of a tissue of a subject;
Inputting an amount of expression of the target gene into an artificial neural network provided in advance; And
The computer device estimating a breast cancer prognosis for the subject based on an output value of the artificial neural network,
Wherein the artificial neural network has a target gene expression amount of a plurality of samples as an input value and outputs a result based on a recurrence score of oncotype DX for the plurality of samples, Based learning - based breast cancer prognostic method.
제1항에 있어서,
상기 컴퓨터 장치는 NGS(next-generation sequencing) 기법으로 상기 타겟 유전자의 발현량을 측정하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법.
The method according to claim 1,
Wherein the computer device is a machine learning-based breast cancer prognosis predicting method using a next-generation nucleotide sequence analysis that measures an expression level of the target gene using a next-generation sequencing (NGS) technique.
제1항에 있어서,
상기 타겟 유전자는 온코타입 재발 점수 연산에 사용되는 16개의 유전자 및 상기 재발 점수와의 상관도가 기준값 이상인 추가 유전자를 포함하되, 상기 추가 유전자는 ER(Estrogen) 수용체가 양성이면서 임파선 전이가 없는 샘플의 유전자들 각각에 대하여 상기 재발 점수와 상관 분석(Correlation Analysis)을 수행하여 상관 계수가 기준값 이상인 유전자들로 선택하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법.
The method according to claim 1,
The target gene includes 16 genes used in the onco type recurrence point calculation and an additional gene having a correlation value with the recurrence score of at least a reference value, wherein the additional gene is a sample in which ER (estrogen) receptor is positive and lymph node metastasis is absent A method for predicting breast cancer prognosis based on machine learning using next generation nucleotide sequence analysis by performing correlation analysis with the recurrence score for each of the genes and selecting the genes with correlation coefficient higher than the reference value.
제1항에 있어서,
상기 RNA 시퀀싱 데이터는 복수의 샘플 데이터에서 공통되게 발현되는 보존된 엑손(conserved exon) 영역을 포함하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법.
The method according to claim 1,
Wherein the RNA sequencing data comprises a conserved exon region that is commonly expressed in a plurality of sample data.
제1항에 있어서,
상기 컴퓨터 장치는 TMM(Trimmed Mean of M-value) 기법을 이용하여 상기 타겟 유전자의 발현량을 정규화하고, 정규화된 발현량을 상기 인공신경망에 입력하는 인공신경망을 이용한 유방암 예후 예측 방법.
The method according to claim 1,
Wherein the computer apparatus normalizes the expression level of the target gene using a trimmed mean of M-value (TMM) technique and inputs a normalized expression amount to the artificial neural network.
제1항에 있어서,
상기 인공신경망은 완전 연결 구조(fully connected)인 3개의 은닉 계층을 포함하고, 각 계층별로 배치 정규화(batch normalization)가 적용되는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법.
The method according to claim 1,
The method of predicting breast cancer prognosis based on machine learning using next generation nucleotide sequence analysis, wherein the artificial neural network includes three fully hidden hidden layers and batch normalization is applied to each layer.
제1항에 있어서,
상기 컴퓨터 장치는
상기 출력값이 기준값 이상인 경우 상기 피험자가 고위험이라고 예후를 추정하고, 상기 출력값이 기준값 미만인 경우 상기 피험자가 저위험이라고 예후를 추정하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법.
The method according to claim 1,
The computer device
A method for predicting breast cancer prognosis based on machine learning using next generation nucleotide sequence analysis, wherein the subject is at a high risk and the prognosis is estimated when the output value is above a reference value and the subject is at low risk when the output value is below a reference value.
컴퓨터에서 상기 제1항 내지 제7항 중 어느 하나의 항에 기재된 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.A computer-readable recording medium on which a program for executing a machine learning-based breast cancer prognostic prediction method using the next generation nucleotide sequence analysis according to any one of claims 1 to 7 is recorded on a computer. 피험자 조직(tissue)의 RNA 유전자 데이터를 저장하는 클라이언트 장치; 및
상기 유전자 데이터에 대한 NGS(next-generation sequencing) 기반 시퀀싱을 수행한 RNA 시퀀싱 데이터를 이용하여 타겟 유전자의 발현량을 측정하고, 사전에 마련한 인공신경망(neural network)에 상기 타겟 유전자의 발현량을 입력하여 출력되는 출력값을 기준으로 상기 피험자에 대한 유방암 예후를 추정하는 분석 서버를 포함하되,
상기 인공신경망은 복수의 샘플의 타겟 유전자 발현량를 입력값으로 갖고, 상기 복수의 샘플에 대한 온코타입(Oncotype DX)의 재발 점수(recurrence score)에 기반한 결과를 출력하도록 사전에 마련되는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 시스템.
A client device for storing RNA gene data of a subject tissue; And
The amount of expression of the target gene is measured using RNA sequencing data that has been subjected to next-generation sequencing (NGS) based on the gene data, and the expression amount of the target gene is input to a neural network provided in advance And an analysis server for estimating a breast cancer prognosis for the subject based on an output value output from the analysis server,
Wherein the artificial neural network has a target gene expression amount of a plurality of samples as an input value and outputs a result based on a recurrence score of oncotype DX for the plurality of samples, Machine Learning Based Breast Cancer Prognosis Prediction System Using.
제9항에 있어서,
상기 타겟 유전자는 ER(Estrogen) 수용체가 양성이면서 임파선 전이가 없는 샘플의 유전자들 각각에 대하여 상기 재발 점수와 상관 분석(Correlation Analysis)을 수행하여 상관 계수가 기준값 이상인 유전자들을 포함하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 시스템.
10. The method of claim 9,
The target gene is a next-generation sequencing analysis that includes genes having a correlation coefficient of at least a reference value by performing Correlation Analysis with the recurrence score for each gene of a sample having positive ER (estrogen) receptor and having no lymph node metastasis Machine learning based breast cancer prognosis prediction system.
제9항에 있어서,
상기 RNA 시퀀싱 데이터는 복수의 샘플 데이터에서 공통되게 발현되는 보존된 엑손(conserved exon) 영역을 포함하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 시스템.
10. The method of claim 9,
Wherein said RNA sequencing data is a machine learning based breast cancer prognostic prediction system using next generation sequencing comprising a conserved exon region commonly expressed in a plurality of sample data.
제9항에 있어서,
상기 분석 서버는 TMM(Trimmed Mean of M-value) 기법을 이용하여 상기 타겟 유전자의 발현량을 정규화하고, 정규화된 발현량을 상기 인공신경망에 입력하는 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 시스템.
10. The method of claim 9,
The analysis server may include a machine learning-based breast cancer prognostic prediction using a next generation nucleotide sequence analysis that normalizes the expression level of the target gene using a trimmed mean of M-value (TMM) technique and inputs a normalized expression amount into the artificial neural network system.
KR1020170149834A 2017-11-10 2017-11-10 Breast cancer prognosis prediction method and system based on machine learning using next generation sequencing KR102071491B1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020170149834A KR102071491B1 (en) 2017-11-10 2017-11-10 Breast cancer prognosis prediction method and system based on machine learning using next generation sequencing
CN201810448347.0A CN110070915B (en) 2017-11-10 2018-05-11 Machine learning-based breast cancer prognosis prediction method and prediction system for next generation by base sequence analysis
PCT/KR2018/013613 WO2019093814A2 (en) 2017-11-10 2018-11-09 Machine learning-based method for prediction of breast cancer prognosis using next-generation sequencing, and prediction system therefor
SG11202004159WA SG11202004159WA (en) 2017-11-10 2018-11-09 Machine learning-based method for prediction of breast cancer prognosis using next-generation sequencing, and prediction system therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170149834A KR102071491B1 (en) 2017-11-10 2017-11-10 Breast cancer prognosis prediction method and system based on machine learning using next generation sequencing

Publications (2)

Publication Number Publication Date
KR20190053695A true KR20190053695A (en) 2019-05-20
KR102071491B1 KR102071491B1 (en) 2020-01-30

Family

ID=66438048

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170149834A KR102071491B1 (en) 2017-11-10 2017-11-10 Breast cancer prognosis prediction method and system based on machine learning using next generation sequencing

Country Status (4)

Country Link
KR (1) KR102071491B1 (en)
CN (1) CN110070915B (en)
SG (1) SG11202004159WA (en)
WO (1) WO2019093814A2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200127878A (en) * 2019-05-03 2020-11-11 주식회사 디시젠 A method for predicting prognosis of cancer and the composition thereof
WO2020226324A1 (en) 2019-05-08 2020-11-12 주식회사 엘지화학 Method for pre-lithiation of negative electrode for all-solid-state secondary battery and secondary battery using same
KR20210021768A (en) * 2019-08-19 2021-03-02 주식회사 테라젠바이오 Device, method and computer program
US11100359B2 (en) 2019-10-04 2021-08-24 Lunit Inc. Method and system for analyzing image
WO2022203437A1 (en) * 2021-03-25 2022-09-29 한국과학기술원 Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same
US11630985B2 (en) 2019-10-04 2023-04-18 Lunit Inc. Method and system for analyzing image

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161882A (en) * 2019-12-04 2020-05-15 深圳先进技术研究院 Breast cancer life prediction method based on deep neural network
KR102230660B1 (en) 2020-08-05 2021-03-22 주식회사 투비코 Method to analyze medical data
KR102515355B1 (en) 2020-09-11 2023-03-29 인천대학교 산학협력단 Electronic device for identification of cancer-causing genes and the operating method thereof
KR102271313B1 (en) * 2020-12-07 2021-06-30 주식회사 온코크로스 Method for prognosis of breast cancer using mitochondria ribosomal protein artificial intelligence
KR102293109B1 (en) * 2020-12-07 2021-08-25 주식회사 온코크로스 Method for prognosis of breast cancer using gene set from artificial intelligence
KR102271315B1 (en) * 2020-12-07 2021-06-30 주식회사 온코크로스 Method for prognosis of breast cancer using ribosomal protein from artificial intelligence
CN112492637B (en) * 2020-12-28 2023-06-27 中国联合网络通信集团有限公司 Method and device for predicting cell traffic
CN112908470B (en) * 2021-02-08 2023-10-03 深圳市人民医院 Hepatocellular carcinoma prognosis scoring system based on RNA binding protein gene and application thereof
KR20240033900A (en) 2022-09-06 2024-03-13 충남대학교산학협력단 Composition for preventing or treating thyroid cancer targeting SHMT2

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120079295A (en) 2011-01-04 2012-07-12 주식회사 젠큐릭스 Prognostic genes for early breast cancer and prognostic model for early breast cancer patients

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK0842475T3 (en) * 1995-07-25 2000-11-27 Horus Therapeutics Inc Computer-aided methods and apparatus for diagnosing diseases
US20020184569A1 (en) * 2001-04-25 2002-12-05 O'neill Michael System and method for using neural nets for analyzing micro-arrays
GB0320648D0 (en) * 2003-09-03 2003-10-01 Randox Lab Ltd Molecular marker
BRPI0607874A2 (en) * 2005-04-04 2009-10-20 Veridex Llc Microarray and laser microdissection analyzes of breast tumors reveal estrogen receptor-related genes and pathways
KR101910576B1 (en) * 2011-11-08 2018-12-31 삼성전자주식회사 The apparutus and method for classify input pattern promptly using artificial neural network
CA2874492C (en) * 2012-05-22 2021-10-19 British Columbia Cancer Agency Branch Nano46 genes and methods to predict breast cancer outcome
KR101860061B1 (en) * 2015-06-08 2018-05-23 한국과학기술원 System and method for predicting disease inforamtion using deep neural network

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120079295A (en) 2011-01-04 2012-07-12 주식회사 젠큐릭스 Prognostic genes for early breast cancer and prognostic model for early breast cancer patients

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
C. Cava, "Integrating genetics and epigenetics in breast cancer: biological insights, experimental, computational methods and therapeutic potential", BMC Systems Biology (2015) 9:62, 2015.* *
S. Yousefi 외, "Predicting clinical outcomes from large scale cancer genomic profiles with deep survival models", Scientific Reports, 7, 2017.09.15.* *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200127878A (en) * 2019-05-03 2020-11-11 주식회사 디시젠 A method for predicting prognosis of cancer and the composition thereof
KR20220137578A (en) * 2019-05-03 2022-10-12 주식회사 디시젠 A method for predicting prognosis of cancer and the composition thereof
KR20220137577A (en) * 2019-05-03 2022-10-12 주식회사 디시젠 A method for predicting prognosis of cancer and the composition thereof
KR20230004398A (en) * 2019-05-03 2023-01-06 주식회사 디시젠 A composition for predicting prognosis of cancer
KR20230004397A (en) * 2019-05-03 2023-01-06 주식회사 디시젠 A composition for predicting prognosis of cancer
WO2020226324A1 (en) 2019-05-08 2020-11-12 주식회사 엘지화학 Method for pre-lithiation of negative electrode for all-solid-state secondary battery and secondary battery using same
KR20210021768A (en) * 2019-08-19 2021-03-02 주식회사 테라젠바이오 Device, method and computer program
US11100359B2 (en) 2019-10-04 2021-08-24 Lunit Inc. Method and system for analyzing image
US11630985B2 (en) 2019-10-04 2023-04-18 Lunit Inc. Method and system for analyzing image
US11854194B2 (en) 2019-10-04 2023-12-26 Lunit Inc. Method and system for analyzing image
WO2022203437A1 (en) * 2021-03-25 2022-09-29 한국과학기술원 Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same

Also Published As

Publication number Publication date
CN110070915B (en) 2023-08-04
SG11202004159WA (en) 2020-06-29
CN110070915A (en) 2019-07-30
WO2019093814A2 (en) 2019-05-16
WO2019093814A3 (en) 2019-07-11
KR102071491B1 (en) 2020-01-30

Similar Documents

Publication Publication Date Title
KR20190053695A (en) Breast cancer prognosis prediction method and system based on machine learning using next generation sequencing
Masucci et al. Validation of biomarkers to predict response to immunotherapy in cancer: volume I—pre-analytical and analytical validation
Agrawal et al. Understanding preanalytical variables and their effects on clinical biomarkers of oncology and immunotherapy
Yoshihara et al. Gene expression profiling of advanced‐stage serous ovarian cancers distinguishes novel subclasses and implicates ZEB2 in tumor progression and prognosis
JP2021058207A (en) Methods for predicting clinical outcome of cancer
US20200176080A1 (en) Systems and Methods for Analyzing Mixed Cell Populations
JP7421474B2 (en) Normalization of tumor gene mutation burden
CN111394456B (en) Early lung adenocarcinoma patient prognosis evaluation system and application thereof
WO2014144657A2 (en) Compositions and methods for cancer prognosis
KR20180059192A (en) Methods for predicting risk of recurrence of breast cancer patients
EP1815014A2 (en) Molecular indicators of breast cancer prognosis and prediction of treatment response
CN113228190A (en) Tumor classification based on predicted tumor mutation burden
Waldron et al. Expression profiling of archival tumors for long-term health studies
Clark-Langone et al. Biomarker discovery for colon cancer using a 761 gene RT-PCR assay
Macagno et al. Wholistic approach: transcriptomic analysis and beyond using archival material for molecular diagnosis
Wang et al. Prognostic significance of long non-coding RNA MALAT-1 in various human carcinomas: a meta-analysis
KR20180058118A (en) Methods for predicting effectiveness of chemotherapy for breast cancer patients
CN111676288A (en) System for predicting lung adenocarcinoma patient prognosis and application thereof
Pratanwanich et al. Detection of differential RNA modifications from direct RNA sequencing of human cell lines
Talebi et al. Fusion transcript discovery using RNA sequencing in formalin-fixed paraffin-embedded specimen
CN116206681A (en) Method for evaluating prognostic gene pair value of immune infiltration cell model
AU2020364225B2 (en) Fragment size characterization of cell-free DNA mutations from clonal hematopoiesis
Meyer et al. ReadZS detects cell type-specific and developmentally regulated RNA processing programs in single-cell RNA-seq
Swarbrick et al. Gene-expression profiling to decipher breast cancer inter-and intratumor heterogeneity
Simon Validation of pharmacogenomic biomarker classifiers for treatment selection

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
N231 Notification of change of applicant
GRNT Written decision to grant