KR20220125708A - 차세대 염기서열분석 기반 표적유전자 rna 염기서열 분석 패널 및 분석알고리즘 - Google Patents

차세대 염기서열분석 기반 표적유전자 rna 염기서열 분석 패널 및 분석알고리즘 Download PDF

Info

Publication number
KR20220125708A
KR20220125708A KR1020220028718A KR20220028718A KR20220125708A KR 20220125708 A KR20220125708 A KR 20220125708A KR 1020220028718 A KR1020220028718 A KR 1020220028718A KR 20220028718 A KR20220028718 A KR 20220028718A KR 20220125708 A KR20220125708 A KR 20220125708A
Authority
KR
South Korea
Prior art keywords
fusion
gene
leukemia
data
probe
Prior art date
Application number
KR1020220028718A
Other languages
English (en)
Inventor
신명근
임하진
Original Assignee
전남대학교산학협력단
케이블루바이오 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단, 케이블루바이오 주식회사 filed Critical 전남대학교산학협력단
Priority to PCT/KR2022/003196 priority Critical patent/WO2022186673A1/ko
Publication of KR20220125708A publication Critical patent/KR20220125708A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Microbiology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Oncology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 임상 진단 설정을 위한 단계적 필터링, 우선순위 전략 및 생체 정보 파이프라인과 통합된 혈액학적 악성과 관련된 84개의 유전자를 대상으로 표적 RNA-seq 패널을 설계했다. 이 시스템은 다양한 임상 샘플에서 기존의 분자 방식보다 더 민감한 유전자 융합 식별을 제공하였다. 전사체 및 발현 프로파일링에서 임상적으로 중요한 변이체는 추가적인 평행 테스트(parallel testing) 없이도 RNA-seq 데이터에서 직접 동시에 규명할 수 있다. 본 발명은 임상 실험실에서 혈액학적 악성도를 분석하기 위한 포괄적인 도구를 제공하여, 유전자 융합 검출을 위한 진단 수율을 높이고 진단 단계를 단순화하기 위한 임상 실험실-지향 표적((laboratory-oriented targeted) RNA-seq 시스템의 장점을 확인하였다.

Description

차세대 염기서열분석 기반 표적유전자 RNA 염기서열 분석 패널 및 분석알고리즘 {Next-generation sequencing-based target gene RNA sequencing panel and analysis algorithm}
본 발명은 백혈병 진단용 차세대 염기서열분석 패널 및 이를 이용한 백혈병 진단을 위한 정보제공방법에 관한 것이다.
암은 신체의 어느 조직에서나 발생할 수 있으며, 암세포는 일반적으로 인접한 조직에 침투하여 파괴하고, 점점 순환계를 침범하여 암 발생 부위로부터 멀리 떨어진 신체의 다른 부위로 전이되어 결국 숙주(예를 들면 사람)를 죽게 한다. 암세포는 비정상적으로 분열하며, 현미경 하에서 관찰해 보면 정상적인 조직이나, 세포의 형태를 잃고 비정상적인 기능을 나타낸다. 암은 종양의 형태에 따라 다양한 유전자 변이를 동반할 수 있으며, 암 발생과 진행에 있어 세포 돌연변이가 큰 영향을 미친다는 것이 보고되고 있다.
따라서 암세포로부터 유전자 변이를 검출하는 다양한 방법들이 연구되고 있으며, 검출된 돌연변이 정보는 암환자의 진단 및 정밀 맞춤 항암제 선정에 많은 도움을 줄 수 있다.
기존 유전체 변이 검출 방법들은 한 개의 유전체 변이만을 검출할 수 있도록 고안된 앰플리콘 (amplicon) 및 프로브 (probe)를 사용하고 있으므로, 암의 원인이 되는 다양한 체세포 돌연변이를 검출하기 위해서는 다른 유전체 변이의 검출을 위한 추가 실험이 필요하며, 기존에 밝혀진 변이 이외의 새로운 변이를 발견할 수 없다는 단점을 갖는다.
또한 기존의 방법은 각 유전체 변이 종류에 따라 별도의 검출 방법 (예, SNV: real-time PCR, direct sequencing; 발현량 분석: microarray, 정량 real-time PCR; 또는 전좌: FISH;등)을 수행하기 때문에, 환자 한명의 암조직을 대상으로 모든 종류의 변이를 검출하기 위해서는 많은 시간이 소요되고, 큰 비용이 발생하게 된다.
최근 차세대 염기 서열 분석(NGS) 기법의 도입으로 여러 개의 암 관련 유전자를 동시에 분석하는 것이 가능해졌으나 여전히 상당한 양의 위양성 (false positive) 결과의 발생은 질병을 진단하고 예후를 예측하는데 있어서 바이오인포매틱스(bioinformatics) 활용에 도전적인 요소가 많이 남아있음을 의미한다.
한국 공개특허 제 10-2017-0000743호
본 발명은 특정 유전자를 표적으로 하는 백혈병 진단용 차세대 염기서열분석 패널 및 이를 이용한 백혈병 진단을 위한 정보제공방법을 제공하는 것을 목적으로 한다.
1. PHB, PHB2, IGH, ABL1, ABL2, CRLF2, CSF1R, EPOR, ETV6, FGFR1, JAK2, PDGFRB 및 MYC에 특이적으로 결합하는 프로브를 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
2. 위 1에 있어서, AFF1, BAALC, BCL2, BCL6, BCR, CBFB, CRBN, CREBBP, DEK, DUSP22, EBF1, FGFR3, FIP1L1, FUS, GATA2, GUSB, IKZF1, IL3, KMT2A, MECOM, MEF2D, MLF1, MLLT3, MRTFA, MYH11, NUP98, PCM1, PICALM, PML, RARA, RBM15, RUNX1, RUNX1T1, SDHA, TRA 및 WT1로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
3. 위 1에 있어서, AFF1, ALK, BCL2, BCL6, BCL9, BCR, CBFB, CCND1, CCND2, CCND3, CREBBP, DEK, DUSP22, EP300, ERG, FGFR3, FIP1L1, HBS1L, HPRT1, IGK, IGL, IKZF1, KMT2A, MAF, MEF2D, MLLT10, MLLT3, NSD2, NTRK3, PAX5, PBX1, PCM1, PPIA, RAB7A, TCF3 및 ZNF384로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
4. 위 1에 있어서, ALK, BCL2, BCL6, BCL9, BCR, CBFB, DEK, DUSP22, FGFR3, HPRT1, IKZF1, IL2RB, IRF4, KMT2A, MAF, MAFA, MEF2D, MLLT10, MLLT3, NSD2, NTRK3, NUP214, PCM1, TBP, TCL1A, TRB, TRG 및 TYK2로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
5. 위 1에 있어서, BCL6, BCL9, CCND1, CCND2, CCND3, CREBBP, TP63, DEK, DUSP22, FGFR3, IGK, IGL, IKZF1, KMT2A, NTRK3, PAX5, PBX1, PPIA, RAB7A, TCF3, TP63 및 ZNF384로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
6. 위 1에 있어서, AFF1, BCL2, BCL6, BCR, CBFB, CRBN, CREBB, DEK, FGFR3, GAPDH, GUSB, IKZF1, MAF, MAFB, PSMB2 및 TP63으로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
7. 위 1에 있어서, AFF1, BCR, CBFB, CRBN, CREBBP, DEK, FGFR3, GATA2, IKZF1, MAFA, MAFB 및 PCM1로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
8. 위 1에 있어서, PDGFRA에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
9. ABL1, ABL2, AFF1, ALK, BAALC, BCL2, BCL6, BCL9, BCR, CBFB, CCND1, CCND2, CCND3, CRBN, CREBBP, CRLF2, CSF1R, DEK, DUSP22, EBF1, EP300, EPOR, ERG, ETV6, FGFR1, FGFR3, FIP1L1, FUS, GAPDH, GATA2, GUSB, HBS1L, HPRT1, IGH, IGK, IGL, IKZF1, IL2RB, IL3, IRF4, JAK2, KMT2A, MAF, MAFA, MAFB, MECOM, MEF2D, MLF1, MLLT10, MLLT3, MRTFA, MYC, MYH11, NSD2, NTRK3, NUP214, NUP98, PAX5, PBX1, PCM1, PDGFRA, PDGFRB, PHB, PHB2, PICALM, PML, PPIA, PSMB2, RAB7A, RARA, RBM15, RUNX1, RUNX1T1, SDHA, TBP, TCF3, TCL1A, TP63, TRA, TRB, TRG, TYK2, WT1 및 ZNF384에 특이적으로 결합하는 프로브를 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
10. 위 1 내지 9 중 어느 하나의 염기서열분석 패널로 표적 포획 혼성화하여 타겟 유전자를 선별하고 시퀀싱하여 리드 데이터를 얻는 단계;
상기 리드 데이터로부터 PHB 및 PHB2의 과발현 여부를 확인하는 단계; 및
상기 리드 데이터로부터 IGH, ABL1, ABL2, CRLF2, CSF1R, EPOR, ETV6, FGFR1, JAK2, PDGFRB 및 MYC로 이루어진 군에서 선택되는 어느 하나의 유전자가 포함된 융합을 검출하는 단계를 포함하는, 백혈병 진단을 위한 정보제공 방법.
11. 위 10에 있어서, 상기 과발현 여부는 상기 리드 데이터를 HISAT2로 참조 서열과 정렬하여 SAM/BAM 데이터를 얻고, StringTie로 각 유전자의 발현을 계산하여 얻은 GTF 데이터를 DESeq2로 정규화하여 수행되는 것인, 백혈병 진단을 위한 정보제공 방법.
12. 위 10에 있어서, 상기 유전자 융합 검출은 상기 리드 데이터를 Bowtie, STAR, Blat 또는 Bowtie2로 참조 서열과 정렬하여 STAR-Fusion 또는 Fusion Catcher 융합 유전자 확인 툴로 융합을 검출하는 단계를 포함하여 수행되는 것인, 백혈병 진단을 위한 정보제공 방법.
13. 위 10에 있어서, AFF1, ALK, BAALC, BCL2, BCL6, BCL9, BCR, CBFB, CCND1, CCND2, CCND3, CRBN, CREBBP, DEK, DUSP22, EBF1, EP300, ERG, FGFR3, FIP1L1, FUS, GAPDH, GATA2, GUSB, HBS1L, HPRT1, IGK, IGL, IKZF1, IL2RB, IL3, IRF4, KMT2A, MAF, MAFA, MAFB, MECOM, MEF2D, MLF1, MLLT10, MLLT3, MRTFA, MYH11, NSD2, NTRK3, NUP214, NUP98, PAX5, PBX1, PCM1, PDGFRA, PICALM, PML, PPIA, PSMB2, RAB7A, RARA, RBM15, RUNX1, RUNX1T1, SDHA, TBP, TCF3, TCL1A, TP63, TRA, TRB, TRG, TYK2, WT1 및 ZNF384로 이루어진 군에서 선택되는 어느 하나의 유전자의 과발현, 융합 또는 변이 여부를 확인하는 단계를 더 포함하는, 백혈병 진단을 위한 정보제공 방법.
14. (a) 개체로부터 분리된 RNA로부터 합성한 cDNA를 청구항 1 내지 9 중 어느 한 항의 염기서열분석 패널의 각 프로브에 결합시키고 차세대 염기서열 분석(NGS)을 수행하여 미가공 리드 데이터를 얻는 단계;
(b) 상기 미가공 리드 데이터를 Q10 이상의 품질 점수를 가진 데이터로 조정하는 단계;
(c) 상기 조정된 데이터에서 각 유전자의 융합을 검출하는 단계;
(d) 상기 조정된 데이터의 각 유전자에서 참조 서열 대비 변이를 검출하는 단계; 및
(e) 상기 조정된 데이터로부터 각 유전자의 발현을 확인하는 단계를 포함하고,
상기 융합의 검출은 상기 조정된 데이터를 Bowtie, STAR, Blat 또는 Bowtie2로 참조 서열과 정렬하여 융합 유전자 확인 툴 (STAR-Fusion, Fusion Catcher)로 융합을 검출하는 단계를 포함하여 수행되고,
상기 변이의 검출은 조정된 데이터의 서열을 STAR로 정렬된 SAM/BAM 데이터를 얻고, Piccard로 상기 BAM 데이터 내의 duplicate를 분류 및 표지하고, 상기 정렬, 분류 및 중복 제거된 BAM 데이터를 Freebayes로 SNV 및 Indel 호출하여 수행되고,
상기 유전자의 발현은 조정된 데이터를 HISAT2로 참조 서열과 정렬하여 SAM/BAM 데이터를 얻고, StringTie로 각 유전자의 발현을 계산하여 얻은 GTF 데이터를 DESeq2로 정규화하여 수행되는 것인, 백혈병 진단을 위한 정보제공방법.
본 발명은 특정 유전자를 표적으로 하는 RNA-seq 패널을 포함하는 백혈병 진단용 차세대 염기서열분석 (NGS, next generation sequencing) 패널에 관한 것으로, 높은 민감도 및 정확도로 백혈병을 진단하거나, 백혈병 진단을 위한 정보를 제공할 수 있다.
도 1은 융합 검출, 변이체 검출 및 발현 프로파일링을 위한 표적 RNA-시퀀싱 자료 분석의 생체정보분석 파이프라인을 나타내었다.
도 2는 캐리오버 (A-B), 반복성 (C-D) 및 직선성 (E-F)에 대한 표적 RNA 시퀀싱의 분석 검증에 관한 것이다. A-B: 표 4에 설명된 모든 알려진 융합은 STAR-Fusion(A) 및 FusionCatcher(B) 모두에서 미량 수준의 캐리오버 융합으로 실행 1에서 진정 융합으로 검출됨. 캐리오버 융합은 진정 융합보다 상당히 낮은 FFPM 및 리드 수를 가짐(P <0.001). C-D: 반복실험 내에서 알려진 융합은 리드 수 (C)의 신뢰할 수 있는 반복성을 보였으며 정규화된 FFPM 값을 사용했을 때 반복성이 증가함(D). E-F: BCR-ABL1(E) 및 PML-RARA(F) 융합으로 희석된 샘플의 FFPM은 선형 log2배 변화를 나타냄 (각 r2=0.9852 및 0.9447) (FFPM: 백만 개당 융합 조각).
도 3은 표적 RNA 시퀀싱에 의한 혈액 악성 종양 환자 30명과 정상 대조군 3명의 히트맵 및 계층적 클러스터링에 관한 것이다. 히트맵은 유전자 발현의 정규화된 log2배 변화를 색으로 보여주며, 패널의 표적 유전자 행과 환자 및 정상 대조군의 샘플 열이 모두 클러스터링됨. 상단 색상 막대는 각 샘플의 질병 그룹을 보여주고 질병 그룹을 4개의 별개의 클러스터로 구분함(CS: 임상 샘플; NC: 정상 제어; AML: 급성 골수성 백혈병; B-ALL: B-림프아구성 백혈병/림프종; T-ALL: T-림프아구성 백혈병/림프종; MBN: 성숙 B세포 종양; MPN: 골수 증식성 종양; CML-BP: 만성 골수성 백혈병 폭발기; MDS/MPN: 골수 형성 이상/골수 증식 종양; MLN: 골수성/림프성 종양).
도 4 및 5는 본 발명의 차세대 염기서열분석 패널을 이용하여 얻은, 다양한 유형의 백혈병에서 검출된 유전자 융합 빈도를 나타낸다. 도 4에서 검은색 막대는 각 백혈병 유형에서 유전자 융합이 감지된 환자의 빈도를 나타낸다. 93명의 백혈병 환자 중 77%(72명)에서 유전자 융합이 발견되었다. 유전적 융합 돌연변이는 성인 B-ALL 환자의 94%(33/35)와 소아 B-ALL 환자의 83%(25/30)에서 관찰되었다. 도 5는 백혈병의 각 유형에 대한 유전자 융합 패턴 및 빈도를 나타낸다. 성인 B-ALL에서 발견된 유전자 융합(n=35) 중 가장 흔한 융합 유전자는 BCR-ABL1(24/33, 73%)이었고, 소아 B-ALL에서 가장 흔한 융합 유전자 돌연변이는 ETV6-RUNX1 (4/26, 15%) 이었다.
도 6은 본 발명의 차세대 염기서열분석 패널을 이용한 분석과 기존 상품화된 targeted RNAseq 분석과의 비교평가를 나타낸다(B-ALL: B-림프아 구성 백혈병/림프종, APL: 급성 전골수성 백혈병(acute promyelocytic leukemia), AML: 급성 골수성 백혈병(acute myeloid leukemia), T-ALL: T-림프아구성 백혈병/림프종, FISH: 형광핵산혼성화(fluorescence in situ hybridization).
본 발명은 백혈병 진단용 차세대 염기서열분석 패널을 제공한다.
본 발명의 “백혈병”은 혈액세포 특히 백혈구가 이상 증식하는 혈액암의 일종으로, 예컨대 급성 골수성 백혈병, 급성 림프구성 백혈병, 만성 골수성 백혈병 또는 만성 림프구성 백혈병 등일 수 있다.
본 발명의 “진단”은 비정상적인 혈액세포가 억제되지 않고 과도하게 증식하여 정상적인 백혈구와 적혈구, 혈소판의 생성이 억제되고 있는 것을 발견하고 확인하는 모든 행위를 말하는 것으로, 백혈병에 대한 한 개체의 감수성을 판정하는 것, 한 개체가 백혈병을 현재 가지고 있는지 여부를 판정하는 것, 또는 백혈병에 걸린 개체의 예후를 판정하는 것을 포함할 수 있다.
본 발명의 “개체”는 백혈병이 발병하였거나 발병할 수 있는 인간을 포함한 쥐, 생쥐, 가축 등의 모든 동물을 의미한다. 구체적인 예로, 인간을 포함한 포유동물일 수 있다.
본 발명의 “프로브"는 특정 유전자 또는 다른 DNA 서열을 검색하기 위해 유전 공학에 사용되는 단일 가닥 DNA 또는 RNA 단편을 의미하는 것으로 효소 화학적인 분리정제 또는 합성과정을 거쳐 제작된 수 염기 내지 수백 염기길이의 mRNA와 특이적으로 결합할 수 있는 핵산일 수 있다. 상기 프로브에 방사성 동위원소나 효소 등을 표지하여 mRNA의 존재 유무를 확인할 수 있으며, 공지된 방법으로 디자인하고 변형하여 사용될 수 있다.
본 발명의“패널”은 백혈병 진단을 위한 다수의 유전자에 결합하는 프로브 임의의 조합을 사용하여 구성된 것으로서 유전자 패널 또는 유전자 프로브 패널을 의미하며, 상기 조합은 예컨대 유전자 13개, 14개, 25개, 29개, 35개, 41개, 49개 또는 84개 등에 대한 프로브 전체 세트, 또는 그의 임의의 서브세트 또는 서브조합을 포함한다.
본 발명은 PHB, PHB2, IGH, ABL1, ABL2, CRLF2, CSF1R, EPOR, ETV6, FGFR1, JAK2, PDGFRB 및 MYC에 특이적으로 결합하는 프로브를 포함하는 백혈병 진단용 차세대 염기서열분석 패널을 제공한다.
본 발명의 염기서열분석 패널로 선별한 PHB, PHB2, IGH, ABL1, ABL2, CRLF2, CSF1R, EPOR, ETV6, FGFR1, JAK2, PDGFRB 및 MYC유전자의 변이, 융합 및 발현이상을 검출함으로써 높은 민감도 및 특이도로 백혈병을 진단할 수 있다. 예컨대 PHB 및 PHB2의 발현이상(과발현)과 IGH, ABL1, ABL2, CRLF2, CSF1R, EPOR, ETV6, FGFR1, JAK2, PDGFRB 및 MYC 유전가 포함된 융합을 검출함으로써 높은 민감도 및 특이도로 필라델피아 염색체 유사 림프아구성 백혈병(Philadelphia chromosome-like-ALL)을 진단할 수 있다.
본 발명의 차세대 염기서열분석 패널은 AFF1, BAALC, BCL2, BCL6, BCR, CBFB, CRBN, CREBBP, DEK, DUSP22, EBF1, FGFR3, FIP1L1, FUS, GATA2, GUSB, IKZF1, IL3, KMT2A, MECOM, MEF2D, MLF1, MLLT3, MRTFA, MYH11, NUP98, PCM1, PICALM, PML, RARA, RBM15, RUNX1, RUNX1T1, SDHA, TRA 및 WT1로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함할 수 있다. 상기 프로브에 특이적으로 결합하는 유전자들을 선별하여 각 유전자들의 변이, 융합 및 발현이상을 검출함으로써 높은 민감도 및 특이도로 급성 골수성 백혈병(Acute myeloid leukemia, AML)을 진단할 수 있다.
본 발명의 차세대 염기서열분석 패널은 AFF1, ALK, BCL2, BCL6, BCL9, BCR, CBFB, CCND1, CCND2, CCND3, CREBBP, DEK, DUSP22, EP300, ERG, FGFR3, FIP1L1, HBS1L, HPRT1, IGK, IGL, IKZF1, KMT2A, MAF, MEF2D, MLLT10, MLLT3, NSD2, NTRK3, PAX5, PBX1, PCM1, PPIA, RAB7A, TCF3 및 ZNF384로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함할 수 있다. 상기 프로브에 특이적으로 결합하는 유전자들을 선별하여 각 유전자들의 변이, 융합 및 발현이상을 검출함으로써 높은 민감도 및 특이도로 B-림프아구성 백혈병/림프종(B-lymphoblastic leukemia/lymphoma, B-ALL)을 진단할 수 있다.
본 발명의 차세대 염기서열분석 패널은 ALK, BCL2, BCL6, BCL9, BCR, CBFB, DEK, DUSP22, FGFR3, HPRT1, IKZF1, IL2RB, IRF4, KMT2A, MAF, MAFA, MEF2D, MLLT10, MLLT3, NSD2, NTRK3, NUP214, PCM1, TBP, TCL1A, TRB, TRG 및 TYK2로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함할 수 있다. 상기 프로브에 특이적으로 결합하는 유전자들을 선별하여 각 유전자들의 변이, 융합 및 발현이상을 검출함으로써 높은 민감도 및 특이도로 T-림프아구성 백혈병/림프종(T-lymphoblastic leukemia/lymphoma, T-ALL)을 진단할 수 있다.
본 발명의 차세대 염기서열분석 패널은 BCL6, BCL9, CCND1, CCND2, CCND3, CREBBP, TP63, DEK, DUSP22, FGFR3, IGK, IGL, IKZF1, KMT2A, NTRK3, PAX5, PBX1, PPIA, RAB7A, TCF3, TP63 및 ZNF384로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함할 수 있다. 상기 프로브에 특이적으로 결합하는 유전자들을 선별하여 각 유전자들의 변이, 융합 및 발현이상을 검출함으로써 높은 민감도 및 특이도로 성숙 B세포 종양(Mature B-cell neoplasm, MBN)을 진단할 수 있다.
본 발명의 차세대 염기서열분석 패널은 AFF1, BCL2, BCL6, BCR, CBFB, CRBN, CREBB, DEK, FGFR3, GAPDH, GUSB, IKZF1, MAF, MAFB, PSMB2 및 TP63으로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함할 수 있다. 상기 프로브에 특이적으로 결합하는 유전자들을 선별하여 각 유전자들의 변이, 융합 및 발현이상을 검출함으로써 높은 민감도 및 특이도로 골수 증식성 종양(Myeloproliferative neoplasms, MPN)을 진단할 수 있다.
본 발명의 차세대 염기서열분석 패널은 AFF1, BCR, CBFB, CRBN, CREBBP, DEK, FGFR3, GATA2, IKZF1, MAFA, MAFB 및 PCM1로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함할 수 있다. 상기 프로브에 특이적으로 결합하는 유전자들을 선별하여 각 유전자들의 변이, 융합 및 발현이상을 검출함으로써 높은 민감도 및 특이도로 골수 형성 이상/골수 증식 종양 (Myelodysplastic/myeloproliferative neoplasm, MDS/MPN)을 진단할 수 있다.
본 발명의 차세대 염기서열분석 패널은 PDGFRA에 특이적으로 결합하는 프로브를 더 포함할 수 있다. 상기 프로브에 특이적으로 결합하는 유전자를 선별하여 변이, 융합 및 발현이상을 검출함으로써 높은 민감도 및 특이도로 골수성/림프성 종양(Myeloid/lymphoid neoplasm with eosinophilia and gene rearrangement, MLN)을 진단할 수 있다.
본 발명은 ABL1, ABL2, AFF1, ALK, BAALC, BCL2, BCL6, BCL9, BCR, CBFB, CCND1, CCND2, CCND3, CRBN, CREBBP, CRLF2, CSF1R, DEK, DUSP22, EBF1, EP300, EPOR, ERG, ETV6, FGFR1, FGFR3, FIP1L1, FUS, GAPDH, GATA2, GUSB, HBS1L, HPRT1, IGH, IGK, IGL, IKZF1, IL2RB, IL3, IRF4, JAK2, KMT2A, MAF, MAFA, MAFB, MECOM, MEF2D, MLF1, MLLT10, MLLT3, MRTFA, MYC, MYH11, NSD2, NTRK3, NUP214, NUP98, PAX5, PBX1, PCM1, PDGFRA, PDGFRB, PHB, PHB2, PICALM, PML, PPIA, PSMB2, RAB7A, RARA, RBM15, RUNX1, RUNX1T1, SDHA, TBP, TCF3, TCL1A, TP63, TRA, TRB, TRG, TYK2, WT1 및 ZNF384(84개 유전자)에 특이적으로 결합하는 프로브를 포함하는 백혈병 진단용 차세대 염기서열분석 패널을 제공한다.
본 발명의 염기서열분석 패널로 선별한 84개 유전자의 변이, 융합 및 발현이상을 검출함으로써 높은 민감도 및 특이도로 백혈병을 진단할 수 있다. 보다 구체적으로 표 1에 기재된 ABL1-ETV6, CSF1R-MEF2D 등과 같은 융합유전자, 특히 Ph-like ALL 환자에서 발견되는 융합유전자인 IGH-CRLF2를 검출할 수 있어 Ph-like ALL를 효과적으로 진단할 수 있다.
표 1. Philadelphia Chromosome-like 림프아구성 백혈병(ph-like ALL) 관련 융합유전자.
kinase Fusion partner genes
ABL1 ETV6, NUP214
CSF1R MEF2D
PDGFRB EBF1, ETV6
PDGFRA FIP1L1
CRLF2 IGH
JAK2 BCR, EBF1, ETV6, PAX5, PCM1
EPOR IGH, IGK
NTRK3 ETV6
FGFR1 BCR
본 발명은 차세대 염기서열분석 패널을 이용한 표적 포획 혼성화 방법으로 타겟 유전자를 선별하고 시퀀싱하여 리드 데이터를 얻는 단계; 상기 리드 데이터로부터 PHB 및 PHB2의 과발현 여부를 확인하는 단계; 및 상기 리드 데이터로부터 IGH, ABL1, ABL2, CRLF2, CSF1R, EPOR, ETV6, FGFR1, JAK2, PDGFRB 및 MYC로 이루어진 군에서 선택되는 어느 하나의 유전자가 포함된 융합을 검출하는 단계를 포함하는, 백혈병 진단을 위한 정보제공 방법을 제공한다.
본 발명의 염기서열분석 패널은 전술한 바와 같다.
본 발명의 표적 포획 혼성화 방법은 목적하는 유전자의 이상(변이, 유전자 융합, 발현이상)을 검출하기에 앞서 목적하는 유전자 타겟을 선별(Target enrichment)하는 방법으로, 타겟 유전자에 특이적으로 결합하는 프로브를 이용할 수 있다. 예컨대 특정 유전자에 특이적으로 결합하는 프로브를 포함하는 염기서열분석 패널로 타겟 유전자를 선별할 수 있다.
본 발명의 표적 포획 혼성화 방법은 분석대상 유전체로부터 RNA 추출, cDNA 합성, 어댑터 결찰 및 PCR 후 수행하게 된다.
본 발명의 리드 데이터는 미가공 리드 데이터(raw data) 또는 미가공 리드 데이터를 조정하여 얻어진 조정된 데이터이다.
미가공 리드 데이터의 조정은 미가공 리드 데이터(raw data)에서 일정 기준 이상의 품질 점수를 가진 데이터만을 필터링하는 것일 수 있고, 품질 점수는 미가공 데이터에서의 추정 오류 확률을 수치로 나타낸 값으로, 구체적으로는 각 염기의 품질을 나타내는 지표인 Phred 점수일 수 있다.
과발현 여부의 확인은 상기 리드 데이터를 참조 서열과 정렬하여 SAM/BAM 데이터를 얻는 단계; 상기 SAM/BAM 데이터에서 각 유전자의 발현을 계산하여 GTF 데이터를 얻는 단계; 및 상기 GTF 데이터를 정규화하는 단계를 포함할 수 있다.
리드 데이터를 참조 서열과 정렬하여 SAM/BAM 데이터를 얻는 방법은 HISAT2를 이용한 것일 수 있고, SAM/BAM 데이터에서 각 유전자의 발현을 계산하여 GTF 데이터를 얻는 방법은 StringTie를 이용한 것일 수 있으며, GTF 데이터를 정규화하는 방법은 DESeq2를 이용한 것일 수 있다.
융합의 검출은 상기 리드데이터와 참조 서열의 비교를 통해 융합 유전자를 확인하는 것일 수 있다. 참조 서열은 예컨대 알고리즘 또는 소프트웨어인 Bowtie, STAR, Blat 또는 Bowtie2 등 각 프로그램 내의 참조 서열일 수 있다. 융합 유전자 확인 툴로 STAR-Fusion 또는 Fusion Catcher을 이용할 수 있다.
또한 본 발명은 백혈병 진단용 차세대 염기서열분석 패널을 이용하여 차세대 염기서열 분석을 수행하여 미가공 데이터를 얻는 단계; 조정단계; 각 유전자의 융합을 검출하는 단계; 각 유전자의 변이를 검출하는 단계; 및 각 유전자의 발현을 확인하는 단계를 포함하는 백혈병 진단을 위한 정보제공방법을 제공한다:
상기 차세대 염기서열 분석(NGS, next-generation sequencing)은 유전체를 무수히 많은 조각으로 나눈 뒤 각각의 염기서열 분석하고 조합하여 방대한 유전체의 정보를 고속으로 해독하는 방법으로, RNA추출, cDNA 합성, 어댑터 결찰, 표적 포획 혼성화 및 시퀀싱의 단계로 이루어진다. 각 단계는 당 분야에 공지된 방법으로 수행될 수 있으며, 구체적으로는 환자 혈액 샘플에서 추출한 RNA로 cDNA를 합성하고, 이에 대해 어댑터 부착, PCR 수행 및 표적 포획 혼성화 (target capture hybridization)가 이루어지고, 이렇게 준비된 라이브러리에 대해 서열 분석(시퀀싱)이 수행될 수 있다.
상기 조정단계는 미가공 데이터(raw data)에서 일정 기준 이상의 품질 점수를 가진 데이터만을 필터링하는 것일 수 있고, 품질 점수는 미가공 데이터에서의 추정 오류 확률을 수치로 나타낸 값으로, 구체적으로는 각 염기의 품질을 나타내는 지표인 Phred 점수일 수 있다. 각 시퀀싱 리드(read)의 염기서열과 Phred 점수를 같이 표시한 것을 FASTQ 파일이라 부른다.
상기 Phred 점수가 20 (Q20)이라는 것은 해당 염기서열 결과가 오류일 확률이 1%이고, 30일 경우(Q30)에는 0.1%의 오류 확률을 가지는 것으로 규정되어 있으며, 일반적으로는 30 이상의 Phred 점수를 보이는 염기는 시퀀싱 품질이 우수하다고 판단하고, 추후 분석에 활용된다.
상기 유전자의 융합을 검출하는 단계는 서열 정렬 알고리즘 또는 소프트웨어인 Bowtie, STAR, Blat 또는 Bowtie2로 각 프로그램 내의 참조 서열과 정렬하고, 융합 유전자 확인 툴 (STAR-Fusion, Fusion Catcher)로 유전자의 융합을 발굴하는 단계를 포함할 수 있다.
상기 서열 정렬 알고리즘 Bowtie 및 Bowtie2는 http://bowtie-bio.sourceforge.net/bowtie2/index.shtml에서, STAR는 https://hbctraining.github.io/Intro-to-rnaseq-hpc-O2/lessons/03_alignment.html에서, Blat은 https://genome.ucsc.edu/goldenPath/help/blatSpec.html에서 이용가능하다.
상기 융합 유전자 확인 툴인 STAR-Fusion은 STAR 서열 정렬기를 이용하여 융합 전사체 후보군을 발굴하는 프로그램으로, https://github.com/STAR-Fusion/STAR-Fusion/wiki#RunnningStarF에서 이용 가능하며, Fusion Catcher은 RNA-seq 데이터에서 체세포 융합 유전자, 전이, 키메라를 규명하는 소프트웨어로 https://github.com/ndaniel/fusioncatcher에서 이용 가능하다.
상기 유전자의 변이를 검출하는 단계는 조정된 데이터의 서열을 정렬하여 SAM/BAM 데이터를 얻고, Piccard로 상기 SAM/BAM 데이터 내의 duplicate를 분류 및 표지하고, 상기 정렬, 분류 및 중복 제거된 BAM 데이터를 Freebayes로 SNV 및 Indel 호출하는 단계를 포함할 수 있다.
상기 SAM 데이터는 서열 정렬 데이터를 포함하고 있는 텍스트 파일로 각 내용들은 탭(tab)으로 분리되어 정렬, 매핑(mapping) 정보를 담고 있는 것으로, 차세대 염기서열 분석을 통해 시퀀싱된 서열의 전사체 혹은 유전체 서열에 FASTQ 파일을 다시 매핑시킨 형태의 파일이다. BAM 데이터 역시 SAM 데이터와 같은 정보를 담고 있는 압축된 파일로 SAM 데이터보다 용량이 작아 대용량의 차세대 염기서열 분석 데이터를 사용하는 주요 프로그램에서는 BAM 파일을 주로 이용한다.
상기 Piccard는 라이브러리 제작과정인 PCR에서 한 개의 리드(read) 또는 조각(fragment) 이 비정상적으로 증폭되어 얻게되는 의미없는 리드, 즉 중복(duplicate)에 의한 기술적인 편향을 조절하기 위한 툴로, https://broadinstitute.github.io/picard/command-line-overview.html#MarkDuplicates에서 이용가능하다.
상기 Freebayes는 haplotype-기반 유전적 변이 검출 툴로 모집단에서 변이를 호출하는데 유용하며, https://github.com/freebayes/freebayes에서 이용가능하다.
상기 SNV(Single nucleotide variant)는 단일 염기 변이를 말하며, SNP(Single nucleotide polymorphism, 인구집단에서 1% 이상의 빈도로 존재하는 변이)를 포괄하는 개념이고, Indel(Insertion/Deletion)은 게놈에 짧은 염기서열이 삽입되거나 결실된 것을 의미한다.
상기 유전자의 발현을 확인하는 단계는 조정된 데이터를 HISAT2로 참조 서열과 정렬하여 SAM/BAM 데이터를 얻는 단계; StringTie로 각 유전자의 발현을 계산하여 GTF 데이터를 얻는 단계; 및 GTF 데이터를 DESeq2로 정규화하는 단계를 포함할 수 있다.
상기 HISAT2는 차세대 염기서열 분석 리드(reads)를 인간 게놈 집단과 프로그램에서 제공하는 단일 참조 게놈에 매핑하기 위한 정렬 프로그램으로, http://daehwankimlab.github.io/hisat2/에서 이용가능하다.
상기 StringTie는 RNA-seq 데이터를 가능성있는 전사체(potential transcript)로 효율적으로 조립할 수 있는 프로그램으로, 구체적으로는 각 유전자 좌위(locus)에 대한 여러 스플라이싱 변이체를 나타내는 전체-길이의 전사체를 조립하고 정량화할 수 있으며, http://ccb.jhu.edu/software/stringtie/index.shtml에서 이용가능하다.
상기 GTF(Gene transfer format) 데이터는 유전자에 대한 annotation 정보를 포함하고 있는 데이터를 의미한다.
상기 DESeq2는 모든 샘플에서 각 유전자에 대해 기하 평균이 계산되는 내부 정규화(Normalization)를 수행하고, 그 다음 각 샘플의 유전자 수를 평균으로 나누는 분석법으로, 표본에서 이러한 비율의 중앙값은 해당 표본의 크기 인자를 의미하는 것으로 정규화는 데이터 중복 등의 이상현상으로 데이터가 실제 유전자의 발현 정도를 반영하지 못하는 문제점을 해결하기 위한 것으로 유전자 발현 분석에 필수적인 과정이다.
이하, 실시예를 통해 본 발명을 보다 상세하게 설명한다.
실시예 1. 84개 유전자를 표적으로 하는 차세대 염기서열분석 패널
1. 실험방법
(1) 샘플 수집 및 준비
진단 샘플은 1 개의 인간 참조 RNA (Cat no. 740000, Agilent Technologies), 1 개의 인간 참조 게놈 (NA12878), 반복 유전자 융합이 있는 4개의 검증 샘플, 반복 유전자 융합이 있거나/없는 30개의 임상 샘플 및 클론성 혈액 장애가 없는 14개의 정상 말초 혈액(PB) 샘플을 포함한다. 모든 검증 및 임상 샘플은 혈액 악성 종양 환자에서 유래되었으며 환자 진단이 잘 특성화되었을 때 포함되었다. 환자 진단은 골수 흡인물 (BM aspirates) 및 트레핀 생검 절편의 현미경 소견, 조직 면역염색법, 면역 표현법, 염색체 분석, FISH, 다중 RT-PCR, 실시간 PCR 및 임상 실험실에서 일반적으로 사용되는 NGS DNA 시퀀싱에서 WHO 분류에 따라 이루어졌다. 연구를 위한 환자 및 정상 샘플 수집은 전남 대학교 화순 병원 기관 심의위원회의 승인을 받았다(승인 번호 CNUHH-2020-091).
환자 샘플은 EDTA(ethylenediaminetetraacetic acid) 튜브에서 얻었다. 4 개의 검증 샘플에 대해, 백혈병 세포 분율이 높고(세포 수의 43% ~ 96%) 반복 유전자 융합을 가진 BM 흡인물의 환자 샘플 8개를 동일한 융합을 가진 쌍(pair)으로 풀링하였다. 검증 샘플에는 BCR-ABL1, PML-RARA, RUNX1-RUNX1T1 및 CBFBMYH11의 융합을 포함하고 있다. 임상 샘플은 6개의 급성 골수성 백혈병 (AML), 9개의 B 림프구성 백혈병/림프종 (B-ALL), 4개의 T 림프구성 백혈병/ 림프종 (TALL), 3개의 성숙 B-세포 종양, 6개의 MPN, 1개의 골수 이형성/ 골수 증식성 종양(MDS/ MPN), 및 호산구 증가증 및 유전자 재배열이 있는 1개의 골수성/ 림프성 종양으로 구성된 27개의 BM 흡인물과 3개의 PB 샘플이 포함되었다. Lymphoprep(Alere Technologies AS)를 사용하여 단핵 세포층을 혈액 샘플에서 분리했다. RNA는 제조업체의 지침에 따라 RNAqueous Isolation 키트 (Thermo Fisher Scientific)로 추출되었다.
(2) 표적 캡처 패널의 설계 및 평가
혈액 암과 관련된 총 84개의 유전자 (AML, ALL, 림프종, MPN 및 유전자 재배열이 있는 골수성/ 림프성 종양)가 이전 문헌을 기반으로 선택되었다.
84개의 유전자 및 각 유전자와 관련된 백혈병의 종류는 표 2 및 2에 기재하였다.
본 발명 패널이 표적으로 하는 84개의 유전자
ABL1 CCND1 EP300 GUSB JAK2 MRTFA PDGFRA RBM15 TRG
ABL2 CCND2 EPOR HBS1L KMT2A MYC PDGFRB RUNX1 TYK2
AFF1 CCND3 ERG HPRT1 MAF MYH11 PHB RUNX1T1 WT1
ALK CRBN ETV6 IGH MAFA NSD2 PHB2 SDHA ZNF384
BAALC CREBBP FGFR1 IGK MAFB NTRK3 PICALM TBP
BCL2 CRLF2 FGFR3 IGL MECOM NUP214 PML TCF3
BCL6 CSF1R FIP1L1 IKZF1 MEF2D NUP98 PPIA TCL1A
BCL9 DEK FUS IL2RB MLF1 PAX5 PSMB2 TP63
BCR DUSP22 GAPDH IL3 MLLT10 PBX1 RAB7A TRA
CBFB EBF1 GATA2 IRF4 MLLT3 PCM1 RARA TRB
백혈병의 세부종류 관련 유전자
1 급성 골수성 백혈병(Acute myeloid leukemia, AML) ABL2, AFF1, BAALC, BCL2, BCL6, BCR, CBFB, CRBN, CREBBP, CRLF2, DEK, DUSP22, EBF1, EPOR, ETV6, FGFR3, FGFR1, FIP1L1, FUS, GATA2, GUSB, IKZF1, IL3, KMT2A, MECOM, MEF2D, MLF1, MLLT3, MRTFA, MYC, MYH11, NUP98, PCM1, PHB, PHB2, PICALM, PML, RARA, RBM15, RUNX1, RUNX1T1, SDHA, TRA, WT1
2 B-림프아구성 백혈병/림프종(B-lymphoblastic leukemia/lymphoma, B-ALL) ABL1, ABL2, AFF1, ALK, BCL2, BCL6, BCL9, BCR, CBFB, CCND1, CCND2, CCND3, CREBBP, CRLF2, DEK, DUSP22, EP300, EPOR, ERG, FGFR1, FGFR3, FIP1L1, HBS1L, HPRT1, IGH, IGK, IGL, IKZF1, KMT2A, MAF, MEF2D, MLLT10, MLLT3, MYC, NSD2, NTRK3, PAX5, PBX1, PCM1, PHB, PHB2, PPIA, RAB7A, TCF3, ZNF384
3 T-림프아구성 백혈병/림프종(T-lymphoblastic leukemia/lymphoma, T-ALL) ABL1, ALK, BCL2, BCL6, BCL9, BCR, CBFB, CRLF2, DEK, DUSP22, EPOR, FGFR3, HPRT1, IKZF1, IL2RB, IRF4, KMT2A, MAF, MAFA, MEF2D, MLLT10, MLLT3, MYC, NSD2, NTRK3, NUP214, PCM1, PHB, PHB2, TBP, TCL1A, TRB, TRG, TYK2
4 성숙 B세포 종양(Mature B-cell neoplasm, MBN) ABL1, BCL6, BCL9, CCND1, CCND2, CCND3, CREBBP, CSF1R, TP63, DEK, DUSP22, ETV6, FGFR1, FGFR3, IGH, IGK, IGL, IKZF1, KMT2A, MYC, NTRK3, PAX5, PBX1, PHB, PHB2, PPIA, RAB7A, TCF3, TP63, ZNF384
5 골수 증식성 종양 (Myeloproliferative neoplasms, MPN) ABL1, AFF1, BCL2, BCL6, BCR, CBFB, CRBN, CREBB, DEK, EPOR, ETV6, FGFR3, GAPDH, GUSB, IKZF1, MAF, MAFB, MYC, PHB, PHB2, PSMB2, TP63
6 골수 형성 이상/골수 증식 종양 (Myelodysplastic/myeloproliferative neoplasm, MDS/MPN) ABL1, ABL2, AFF1, BCR, CBFB, CRBN, CREBBP, DEK, ETV6, FGFR3, GATA2, IKZF1, MAFA, MAFB, MYC, PCM1, PHB, PHB2
7 골수성/림프성 종양(Myeloid/lymphoid neoplasm with eosinophilia and gene rearrangement, MLN) FGFR1, JAK2, PDGFRB, MYC, PDGFRA, PHB, PHB2
8 Philadelphia chromosome-like ALL ABL1, ABL2, CRLF2, CSF1R, EPOR, ETV6, FGFR1, JAK2, PDGFRB, MYC
맞춤형 올리고 뉴클레오티드 프로브는 표적 유전자를 포착하도록 설계되었다. 프로브가 패널의 84개 유전자를 균일하게 포착했는지 평가하기 위해 DNA 템플릿 (인간 게놈 참조 NA12878)을 서열 분석하였다. 전체 평균 범위도는 deepTools를 사용하여 육안으로 검사되었으며, 범위 균일성(%)은 대상 영역에 대한 평균 범위보다 0.2 배 높은 기준 위치의 백분율로 계산되었다.
(3) 분석 검증 매트릭스 및 비교 분석
실험 전 30 개의 분석 검증 매트릭스를 마련하였다 (표 4). 실행 내 반복성과 이월성을 평가하기 위해 암 세포주에서 얻은 하나의 참조 RNA, 하나의 정상 샘플, 높은 종양 부담을 가진 4개의 검증 샘플 및 2 반복실험을 실행(run)에서 테스트했다 (실행 1). 희석 시험의 경우, BCR-ABL1과 PML-RARA를 포함하는 유효성 검사 샘플 2개를 첫 번째 농도 1,500ng에서 2배 희석(1:2, 1:4, 1:8)하여 테스트하였다(실행 2). 각 반복실험은 실행 간 유효성 검사를 위해 다시 시험되었다 (실행 3). 그 후, 30개의 임상 샘플과 13개의 정상 샘플을 융합 유전자 검출을 위해 기존의 FISH 또는 RT-PCR 방법과 비교 분석하고 추가로 발현 및 변이 분석을 위해 테스트하였다.
표 4. 유전자 융합 검출을 위한 표적 RNA 시퀀싱의 분석 검증 매트릭스
Run no. 샘플 색인 (sample index)
1 2 3 4 5 6 7 8
1 인간 참조 RNA* 정상 샘플 VS1
(BCR-ABL1)
VS1 replicate
(BCR-ABL1)
VS2
(PML-RARA)
VS2 replicate
(PML-RARA)
VS3
(RUNX1-RUNX1T1)
VS4
(CBFB-MYH11)
2 VS1-D1
[1:2 희석]
VS2-D1
[1:2 희석]
VS1-D2
[1:4 희석]
VS2-D2
[1:4희석]
VS1-D3
[1:8 희석]
VS2-D3
[1:8 희석]
VS1 replicate
(BCR-ABL1)
VS2 replicate
(PML-RARA)
3 VS1-D1 replicate
[1:2 희석]
VS2-D1 replicate
[1:2 희석]
VS1-D2 replicate
[1:4 희석]
VS2-D2 replicate
[1:4희석]
VS1-D3 replicate
[1:8 희석]
VS2-D3 replicate
[1:8 희석]
VS1 replicate
(BCR-ABL1)
VS2 replicate
(PML-RARA)
* 범용적인 인간 참조 RNA (Cat no. 740000, Agilent Technologies).괄호 안의 유전자 융합은 다중 RT-PCR 또는 형광 in situ 혼성화에 의해 이전에 검출된 유효성 검사 샘플에서 알려진 융합들임. VS (알려진 융합이 있는 검증 샘플); D (희석된 샘플).
(4) 라이브러리 준비 및 표적 RNA-seq
cDNA 합성, 라이브러리 준비, 포획 혼성화는 HEMEaccuTest RNA kit (NGeneBio, Seoul, Korea)를 사용하여 수행되었다. 추출된 총 RNA 800~1,500ng에서 NEBNext® rRNA Depletion kit (NEB)를 사용하여 리보솜 RNA를 제거한 후 cDNA를 합성 및 정제했다. 어댑터 결찰(ligation), PCR 농축 및 표적 포획 혼성화는 제조업체의 지침에 따라 수행되었다. 라이브러리의 농도와 크기는 각각 Qubit 2.0 Fluorometer (Invitrogen) 및 4200 TapeStation 시스템 (Agilent Technologies)을 사용하여 측정되었다. 라이브러리는 MiseqDx (Illumina)의 Miseq 시약 키트v3 (300 사이클)를 사용하여 150bp 페어드-엔드(paired-ends)로 서열분석되었다.
(5) 생물 정보학 파이프라인
이 연구에 사용된 생물 정보학 파이프 라인은 도 1에 요약되어 설명되어 있다. FASTQ 형식의 페어드-엔드 리드 (paired-end reads)의 시퀀싱 출력 파일은 Q10의 품질 점수로 조정되었다. 조정 후, STAR-Fusion 및 FusionCatcher 알고리즘을 모두 사용하여 융합 전사체(fusion transcript)를 확인했다.
융합 검출에서 융합 리드 수(fusion read counts)와 FFPM (백만 당 융합 단편)의 두 매개 변수를 사용하여 예측된 융합을 조사했다. FFPM은 융합 리드 수보다 정규화된(normalized) 값이며 STAR-Fusion에서 사용가능하다. 뉴클레오타이드 변이체를 검출하기 위해 STAR에서 생성한 정렬된 BAM 파일은 Picard로 처리되고, 그 다음 FreeBayes에서 변이체 호출(variant calling)이 수행되었다. 변이는 ANNOVAR을 사용하여 주석을 달고 주석이 달린 정보를 기반으로 필터링되는데, 여기에는 영역(엑소닉 및 스플라이싱), 기능 (비동의(non-synonymous), 미스센스, 넌센스, 프레임 쉬프트) 및 빈도 (인구 데이터베이스에서 1% 미만이고 질병 데이터베이스에서 병원성 또는 병원 가능성이 있음)가 포함된다. 필터링된 변이는 임상적 유의성에 대한 근거 수준에 따라 등급이 매겨졌으며, 임상적으로 유의한 근거가 있는 1단계 및 2단계 변이가 최종적으로 선택되었다.
발현 분석에서, 조정된 리드는 HISAT2를 사용하여 정렬된 다음, StringTie가 전사체 조립 및 발현 수준의 정량화에 사용되었다. 입수한 정렬 파일은 Samtools를 사용하여 BAM 형식으로 변환되었다. 그 다음, 리드 데이터는 DESeq2.38을 사용하여 정규화되었다. log2-fold-change는 임상 샘플의 정규화된 리드 수 및 14 개 정상 대조군의 평균을 이용하여 계산되었다.
조절 장애 유전자(dysregulated genes)를 결정할 때, 임의의 log2-fold-change cutoff는 ± 2.0으로 설정되었다. 전체 프로세스에서 데이터는 인간 참조 게놈 (GRCh37 / hg19)에 매핑되었다.
(6) 융합 후보군의 필터링 및 우선 순위 지정
예측된 융합 후보군을 위양성 결과를 배제하도록 필터링한 다음 문헌의 우선순위 증거와 임상 증상의 관련성에 따라 계층화된 등급 시스템을 사용하여 분류하였다. 단계적 필터링 기준을 조정할 때 융합 후보군은 다음과 같은 경우 진정 융합 (true fusions)으로 간주되었다: i) 최소 리드 수 (FFPM≥ 0.1 및 접합 리드 수≥ 1)에 의해 뒷받침될 것, ii) 짧은 반복측정, 유사유전자, 리드스루(read-through)에 해당되지 않거나 건강한 모집단 또는 정규 표본에서 발견된 경우, iii) 융합 파트너 유전자의 발현 수준에 영향을 주거나 프레임 내 융합(in-frame fusion)을 일으킨 경우, 및 iv) 두 융합 검출 알고리즘 (FusionCatcher 최종결과파일 및 STAR-Fusion 예비파일과 최종결과파일)에 의해 검출된 경우, 진정 융합으로 간주되었다.
예측된 진정 양성 융합은 암에서 NGS 결과를 해석하기 위한 이전 지침에 따라 분류되었다.
1 단계 (현장 전문가의 합의를 통한 우수한 연구) 및 2 단계 (일부 합의가 있는 여러 소규모 발표된 연구; 전임상 시험; 또는 합의가 없는 몇 가지 사례 보고서) 융합은 이전 계층 등급 시스템을 사용하여 선택되었다. 단계적 등급 부여를 위해, 전문가 합의있는 연구 및 ChimerDB 및 Mitelman 데이터베이스를 포함한 융합 데이터베이스가 이용되었다.
예측된 진정 양성 융합이 환자의 암 유형과 연관되지 않은 경우, 잘 알려진 연구와 질병 데이터베이스에서 발견되었더라도 융합이 1단계 또는 2단계로 간주되지 않았다. 등급 1단계와 2단계의 전체 예측된 진정 융합 중에서, 다중 RT-PCR, FISH 또는 직접 시퀀싱으로 입증된 융합은 확인된(confirmed) 융합으로 간주되고, 다른 방법으로 식별되지 않은 융합은 추정 융합으로 간주되었다.
(7) 융합 및 돌연변이 검출 방법
다중 RT-PCR은 28 개의 전좌(translocation)와 145 개의 절단점(breakpoints)을 표적으로 하는 HemaVision 키트 (DNA Technology)를 사용하여 수행되었다. FISH는 IGH-CCND1 (MetaSystems), BCR-ABL1 (MetaSystems), RUNX1-RUNX1T1 (Abbott Molecular), PML-RARA (Abbott Molecular)를 표적으로 하는 이중 융합 프로브 및 ETV6-RUNX1 (Abbott Molecular) 및 PDGFRB (MetaSystems), CBFB (MetaSystems) 및 KMT2A (Abbott Molecular)의 분리형 프로브를 사용하여 수행되었다. 표적 RNA-seq에서 예측된 융합이 다중 RT-PCR 또는 FISH에 의해 입증되지 않은 경우는 직접 시퀀싱(direct sequencing)을 시도하였다. cDNA 합성은 PrimeScript ™ II 1st strand cDNA 합성 키트 (Takara)를 사용하여 500~ 1,000ng의 총 RNA를 사용하여 수행되었다. Takara ExTaq (Takara)을 사용하여 1μL의 cDNA를 다음의 프라이머들로 증폭했다.
Primer 서열 서열번호
PAX5-F 5'-AGATGCGGGGAGACTTGTT-3' 1
ARHGAP22-R 5'-CTGCACCCAGTCCTCCATGT-3' 2
DACH1-R 5'-GCTCATTGCCATGGTGACAG-3' 3
PICALM-F 5'-ACCCCCTGTAATGGCCTATC-3' 4
MLLT10-R 5'-CAGTGGCTGCTTTGCTTTCTC-3' 5
MECOM-F 5'-CTGCATAGATGCCAGTCAACCA-3' 6
MBNL1-R 5'- CAGGCATCATGGCATTGGCTA-3' 7
MLLT3-R 5'-TCGTGCAAGTGGAAGACGAC-3' 8
CCND6-F 5'-TCCGAGAGTGAGTCCAGCTT-3' 9
PDGFRB-R 5'-CGGATCTCGTAACGTGGCTT-3' 10
PCR 산물의 사이즈는 4200 TapeStation 시스템 (Agilent Technologies)을 사용하여 측정하였다. 모든 PCR 단계는 양성 대조군으로 548 bp 크기의 GADPH 유전자를 이용하였다.
직접 시퀀싱은 마크로젠(대한민국, 서울)이 동일한 정방향 및 역방향 프라이머를 이용한 PCR 산물을 사용하여 수행하였다. 시퀀싱 파일은 SeqMan 소프트웨어 (DNASTAR)으로 분석되었다. 이용 가능한 DNA 기반 PCR 또는 시퀀싱 결과가 있는 경우, 표적 RNA-seq에서 검출된 모든 변이체는 정량적 실시간 PCR (JAK2 MutaQuant 분석 키트, Ipsogen) 및 시퀀싱 (HEMEaccuTest DNA kit; NGeneBio)을 포함하는 DNA 기반 방법의 결과와 비교하여 확인되었다.
(8) 통계적 분석
Wilcoxon rank-sum 테스트를 사용하여 평균 캐리오버(carryover)와 실제 융합 횟수를 비교하였다. 반복성과 선형성을 평가하기 위해 선형 회귀를 수행하였다. 계층 클러스터링(Hierarchical clustering)은 Euclidean 거리의 근접 측정을 사용하여 완전 연계(complete linkage)를 수행하였다. 모든 통계 분석은 R studio (Rstudio, Inc.)를 사용하여 수행되었다.
2. 실험결과
(1) 검증 샘플을 사용한 분석 검증
패널에 포함된 표적 유전자 커버리지 조사를 위해 RNA 표본이 각 표본의 유전자 발현 및 융합에 따라 다양한 패턴을 보일 수 있기 때문에 DNA 템플릿 (인간 게놈 참조 NA12878)을 사용하였다.
커버리지 플롯은 대상 성적표의 시작부터 끝 위치까지 균일한 평균 커버리지를 보여주었다. 커버리지의 균일성 (0.2×전체 평균 깊이 대비 높은 염기쌍의 %)은 99.8 %로 계산되었고, 패널 내 표적 유전자에 대한 균일한 커버리지를 보였다. 도 2는 본 발명의 표적화된 RNA-seq의 분석 성능을 보여준다. 실행 내 테스트 (표 4의 실행 1)에서, 예상되는 모든 융합은 6개의 양성 샘플과 알려진 융합을 가진 1 개의 참조 RNA로부터 필터링 전략을 조정한 후 안정적으로 검출되었다. 필터링 전, BCR-ABL1, PML-RARA, RUNX1-RUNX1T1 및 CBFB-MYH11을 포함한 캐리오버 융합들은 각 융합을 포함하지 않는 8개 샘플 모두에서 관찰되었다.
캐리오버 융합 및 실제 융합에 대한 평균 log2 FFPM은 STAR-Fusion에서 각각 -0.37 및 5.04 였고, 캐리오버 융합 및 실제 융합에 대한 평균 log2의 융합 지원 리드(fusion supporting reads)은 FusionCatcher에서 각각 2.30 및 9.62였다. 캐리오버 융합은 진정 융합 (P <0.001, 도 2A 및 2B)보다 log2 FFPM 및 log2 융합 지원 리드값이 현저히 낮음을 보여주었고, 낮은 리드 수로 인해 필터링되었다.
실행 내 및 실행 간 테스트 (표 4의 실행 1-3) 모두에서, 모든 반복실험의 리드 수는 신뢰할 수 있는 반복성을 보여주었다 (r2 = 0.9655; 도 2C). STAR-Fusion에서 제공하는 정규화된 FFPM 값을 사용할 때, 그 결과는 리드 수만 사용한 경우보다 더 높은 반복성을 보여주었다 (r2 = 0.9874; 도 2D). 2배 희석 테스트 (표 4의 실행 2 및 3)에서, 2개의 알려진 융합 (BCR-ABL1 및 PML-RARA)은 3번 2배 희석이 될 때까지(1:8 희석) 높은 FFPM (> 9.0)으로 안정적으로 검출되었다. BCR-ABL1 및 PML-RARA를 포함하는 희석된 샘플의 FFPM은 선형 log2 배 변화 (각각 r2=0.9852 및 0.9447; 도 2E 및 2F)를 보였고, 검출 한계는 FFPM 컷오프를 0.1로 가정할 때 2배 희석이 4-5번 (1:16~1:32)될 것으로 예측되었다.
(2) 임상 샘플을 사용한 유전자 융합 검출
첫 번째 단계에서, 30 개의 임상 샘플에서 약 2억 2천 7백만 개의 전사체 서열 리드를 생성하였다. 미가공 리드(raw reads)에서 최소 리드 수를 충족하는 총 1,243 및 3,363 융합 전사체가 각각 STAR-Fusion 및 FusionCatcher에 의해 예측되었다. 실험 방법 부분에 설명된 필터링 및 우선 순위 지정 전략을 조정한 후, 동형 유전자(isoform) 및 상호 융합(reciprocal fusions)을 포함하는 40 및 211개의 융합 전사체가 STAR-Fusion 및 FusionCatcher에서 각각 임상적으로 중요한 보고 가능한 융합 (1단계 및 2단계)으로 선택되었다. 우세한 동형 유전자를 선택하고 상호 융합을 무시한 후, 최종적으로 총 30개의 융합이 최종적으로 큐레이션되었다.
표 6은 6개의 AML, 9개의 B-ALL, 4개의 T-ALL, 3개의 성숙한 B 세포 종양, 6개의 MPN, 1개의 MDS/ MPN 및 1개의 PDGFRB 재배열이 있는 골수성/림프성 종양의 30개 임상 샘플을 사용한 기존 방법과 비교한 표적 RNA-seq의 최종 결과를 보여준다. 13개의 알려진 융합 중에서, 표적화된 RNA-seq는 동일한 12개의 융합과 CCND1-IGH의 1개의 상호 융합을 검출하였다. PDGFRB 재배열이 있는 하나의 샘플에서 파트너 유전자는 기존의 FISH와 달리 표적 RNA-seq에서 CCDC6으로 지정되었으며, 이는 직접 시퀀싱으로도 확인되었다.
표 6. 혈액 악성 종양에서 30 개의 임상 샘플을 사용하여 기존 방법 (FISH 또는 다중 RT-PCR)과 표적 RNA-seq 간의 결과 비교
샘플
번호
진단 FISH or multiplex RT-PCR 표적 RNA-seq *
확인된 융합◈ 추정 융합▣ 변이체
CS1 AML KMT2A-MLLT3 KMT2A-MLLT3
CS2 AML PML-RARA PML-RARA GATA2 p.I379Gfs*85WT1 p.T363Nfs*27
WT1 p.P271Rfs*20
CS3 AML PML-RARA PML-RARA NUP98-TOP2B WT1 p.K250Qfs*3
CS4 AML 음성 음성
CS5 AML 음성 음성
CS6 AML 음성 음성
CS7 B-ALL BCR-ABL1 BCR-ABL1 ABL1 p.E255K
CS8 B-ALL BCR-ABL1 BCR-ABL1
CS9 B-ALL BCR-ABL1 BCR-ABL1 P2RY8- CRLF2 §
CS10 B-ALL KMT2A-AFF1 KMT2A-AFF1
CS11 B-ALL ETV6-RUNX1 ETV6-RUNX1 ERG -DYRK1A §
IGH- PAX5 §
CS12 B-ALL 음성 PAX5 -ARHGAP22 IGH- PAX5 §
CS13 B-ALL 음성 PAX5 -DACH1
CS14 B-ALL 음성 음성 IGH- CRLF2 §
P2RY8- CRLF2 §
JAK2 p.R683G
CS15 B-ALL 음성 음성
CS16 T-ALL 음성 PICALM-MLLT10
CS17 T-ALL 음성 음성
CS18 T-ALL 음성 음성 NUP214-ABL1 § RUNX1 p.R162K
CS19 T-ALL 음성 음성
CS20 MCL IGH-CCND1 CCND1 -IGH
CS21 B-CLL NT 음성 IGH- BCL2 §
IGH- PAX5 §
CS22 B-CLL NT 음성 IGH- BCL2 § IGH- PAX5 §
CS23 CML, BP (myeloid BP) BCR-ABL1 BCR-ABL1
MECOM -MBNL1
ABL1 p.Y253H
ABL1 p.V299L
ABL1 p.T315I
IKZF1 p.S442fs
CS24 CML, BP (lymphoid BP) BCR-ABL1 BCR-ABL1 PAX5 -MLLT3 ABL1 p.M244V
ABL1 p.E255V
CS25 CML, CP BCR-ABL1 BCR-ABL1
CS26 PV 음성 음성 JAK2 p.V617F
CS27 PV 음성 음성 JAK2 p.V617F
CS28 PMF NT 음성 JAK2 p.V617F
CS29 MDS/MPN-U 음성 음성
CS30 MLN with PDGFRB 재배열 PDGFRB 유전자 재배열 CCDC6-PDGFRB    
* 표적 RNA-seq에서 검출된 모든 융합 및 변이체는 임상적 중요성을 결정하기 위해 증거 수준에 따라 등급 시스템에 의해 분류되었으며, 1 단계 및 2 단계이상만 선택됨.
표적 RNA-seq에서 검출되고, 다중 RT-PCR, FISH 또는 직접 시퀀싱으로 확인된 유전자 융합.
표적 RNA-seq에서 검출되었지만 다른 다중 RT-PCR, FISH 또는 직접 시퀀싱 분석에 의해 확인되지 않은 유전자 융합.
§ STAR-Fusion 알고리즘에 의해 최종 결과에서 필터링된 융합.
- 융합에서 과발현된 파트너 유전자는 굵게 표시(bolded).
- FISH(형광 in situ hybridization); RT-PCR(역전사 효소-PCR); RNA-seq(RNA 시퀀싱); CS(임상 샘플); AML(급성 골수성 백혈병); NOS(달리 지정되지 않음); B-ALL(B-림프구성 백혈병/림프종); T-ALL(T-림프구성 백혈병/림프종); MCL(외투세포 림프종); B-CLL(B 세포형, 만성 림프구성 백혈병); CML (만성 골수성 백혈병); BP(폭발 단계); CP(만성기); PV(적혈구 증가증); PMF(원발성 골수 섬유화증); MDS/MPN-U(골수 이형성/골수 증식성 종양-분류 불가); MLN(골수성/림프성 종양); NT(테스트되지 않음).
계층화된 등급 시스템을 사용하여 5 개의 융합 전사체가 표적 RNA-seq에서 1단계 또는 2단계 융합으로 새로 검출되었으며, 이들의 절단점은 모두 직접 시퀀싱에 의해 확인되었다. 이러한 5개의 추가 융합에는 2개의 B-ALL 샘플 내 PAX5-ARHGAP22 및 PAX5-DACH1, 1개의 T-ALL 샘플 내 PICALM-MLLT10, 2 개의 CML-BP 샘플 내 MECOM-MBNL1 및 PAX5-MLLT3가 포함되었다. 이러한 추가 융합 중 ARHGAP22, DACH1 및 MBNL1은 비-표적 유전자였으며 표적 프로브에서 융합 파트너와 부분 혼성화를 통해 지정될 수 있다. 또한 질병과 관련된 12 개의 추정 융합을 발견했지만 직접 시퀀싱으로는 확인할 수 없었다.
대부분의 추정 융합 (12개 융합 중 10개)은 파트너 유전자의 발현을 증가시키는 것으로 나타났으며, 그 중 7개 추정 융합이 IGH 재배열 (4개의 IGH-PAX5, 1개의 IGH-CRLF2 및 2개의 IGH-BCL2)으로 예측되었다.
나머지 2개의 추정 융합은 질병 관련 프레임 내 융합 (AML 샘플에서 하나의 NUP98-TOP2B, T-ALL 샘플에서 하나의 NUP214-ABL1)으로 예측되었으며, 낮은 발현으로 인해 직접 시퀀싱으로는 검출할 수 없었다.
(3) 임상 샘플에서의 변이 검출
더 나아가, 표적화된 RNA-seq는 10 개의 샘플의 발현된 전사체에서 16개의 변이체 (tier 1 또는 2)를 식별하였다 (표 6). 2 건의 AML 사례에서 GATA2와 WT1 내 4개의 프레임 이동 돌연변이가 발견되었다 (임상 샘플 [CS] 2-3). 하나의 B-ALL 및 두 개의 CML-BP (CS7 및 CS23-24) 샘플의 세 가지 경우에서, ABL1의 M244V, Y253H, E255K/V, V299L 및 T315I 돌연변이가 표적 RNA-seq에서 지정되었으며, 이는 티로신 키나제 억제제 (TKI) 저항성과 관련되어 있다. JAK2 R683G, RUNX1 R162K 및 IKZF1 S442fs 돌연변이를 포함한 질병 관련 변이체는 각각 하나의 B-ALL, 하나의 T-ALL 및 하나의 CML-BP 사례 (CS14, CS18 및 CS23)에서 검출되었다.
2개의 적혈구 증가증과 1개의 원발성 골수 섬유증 샘플을 포함하는 3개의 BCR-ABL1- 음성 MPN 샘플에서 3개의 JAK2 V617F 돌연변이가 지정되었다 (CS26-28). 이 변이체 중 15개의 변이체가 있는 모든 이용가능한 사례는 DNA 기반-NGS 시퀀싱 또는 실시간 PCR로 확인되었다.
(4) 임상 샘플의 발현 분석
도 3은 30 개의 혈액 악성 종양 사례와 3 개의 정상 대조군의 계층적 클러스터링을 보여주는 히트맵(heatmap)을 나타내었다. 계층적 클러스터링은 발현 데이터의 기본 구조에 따라 4개의 하위 트리를 생성하였다. 여기에는 1번 군집(첫 번째 T-ALL 및 AML), 2번 군집 (B-세포 백혈병 및 림프종), 3번 군집(두 번째 T-ALL 및 AML), 4번 군집(MPN, 기타 골수성 신경종 및 정상 대조군)의 4개의 군집이 포함된다. B-ALL의 한 사례를 제외하고, 클러스터링은 악성 세포의 암 아형 및 계보와 일치하는 신뢰할 수 있는 분할을 보여주었다.
(5) 결과 해석
본 발명은 다른 혈액 악성 종양과 관련된 84개의 유전자를 대상으로 이전 문헌의 기초뿐만 아니라 데이터를 고려하여 임상적으로 적용가능한 표적 RNA-seq 시스템을 개발하고 검증하였다. 본 발명의 플랫폼은 분석 검증에서 안정적인 성능을 보였으며, 알려진 유전자와 새로운 유전자 융합을 효율적으로 검출하였다. 또한 표적 RNA-seq 시스템은 혈액 악성 종양 환자의 30개 임상 샘플을 사용하여 발현 특징뿐만 아니라 임상적으로 유의한 서열 변이를 검출하는 더 나은 적용 가능성을 보여주었다.
분석 검증과 관련하여 표적 RNA-seq는 표적 유전자의 범위, 실행간 및 실행 내 반복성 및 선형성 테스트에서 신뢰할 수 있는 성능을 보였다. 그러나 테스트에서 미량 수준의 캐리오버 융합이 관찰되었다. 이에 대한 타당한 설명은 인덱스-홉핑(index-hopping) 또는 인덱스-스와핑(index-swapping)일 수 있으며, 이는 최근 일루미나 플랫폼 내 클러스터 증폭 도중 잔여 프라이머 또는 어댑터로 인한 시퀀싱 리드의 잘못된 할당으로 보고되었다. 모든 융합이 의심스러운 인덱스-홉핑 융합으로 감지된 것은 아니지만, 풀링에서 상위 히트(평균 FFPM=105.7)를 갖는 융합 전사체는 다른 샘플의 결과에서 잘못 검출되었다. 의심스러운 인덱스-홉핑 융합은 진정 융합(p<0.001)보다 리드 수가 훨씬 낮으므로, 낮은 지원 리드 수를 기반으로 필터링되었다. 이러한 맥락에서, 임상 환경 내 일루미나 플랫폼에 의해 생성된 RNA-seq 데이터는 동일한 풀링에서 다른 샘플의 상위-히트 융합과 정확히 동일한 중단점 및 서열을 보여주는 미량 수준의 전사체 리드에 대해 신중하게 해석되어야 하며, 환자의 임상 및 병리학적 징후와 불일치해야 한다.
지금까지 NGS 방법을 사용한 종양유발(oncogenic) 융합 검출의 성능은 상당히 향상되었다. 이는 대부분 짧은 리드(short reads) 정렬을 위한 강력한 바이오인포마틱스 도구뿐만 아니라 거짓 양성(false-positive) 융합을 배제하기 위한 다층 필터링 전략 때문이다. 본 발명에서는 거짓 양성 호출을 제거하기 위해 단계적 필터링 전략을 사용했다.
STAR-Fusion 및 FusionCatcher에 의해 각각 예측된 1,243 개 및 3,363 개의 융합 후보 중 83 개 (6.7 %) 및 477 개 (14.2 %)의 융합 전사체가 4 개의 필터링 단계 후 먼저 고려할 진정 양성 융합으로 선택되었다. 특히, 융합의 발암 기능(oncogenic fuction)을 고려하여, 대부분 짧은 반복, 유사 유전자, 리드-스루(read-through) 또는 건강한 집단에서 발견된 후보군은 추가 평가에서 제거되었으며, 반면 파트너 유전자의 비정상적 발현을 유발하는 융합 및 프레임 내 융합은 포함되었다. 그런 다음 우선 순위가 부여된 임상 증거에 따라 융합의 등급을 매기기 전, 많은 융합들이 혈액 악성 종양에서 증명되지 않았기 때문에 모든 융합들이 연구 환경에서와 달리 임상적으로 보고하기에 충분하지 않았다. 이러한 문제를 해결하기 위해 증거 수준에 따라 이상(aberrations)을 분류하여 그 중요성을 결정하는 계층적 등급 시스템을 채택했다. 계층적 등급 시스템에 따라 융합의 우선 순위를 지정함으로써 융합 전사체의 수는 STAR-Fusion 및 FusionCatcher 결과에서 각각 40 (3.2 %) 및 211 (6.3 %)로 좁혀져 임상적 중요성을 갖는 보고할만한 융합을 나타냈다. 마찬가지로, 적절한 필터링 및 우선 순위 지정 전략은 임상 환경에서 RNA-seq 데이터를 관리하는 데 필수적이다.
최종적으로, 30개의 임상 샘플의 표적 RNA-seq 결과로 18개의 확인된 융합과 12개의 추정 융합이 큐레이팅되었다. 18개의 확인된 융합 중 5개는 임상 실험실에서 일반적으로 사용되는 이전 FISH 또는 다중 RT-PCR 테스트에서는 알려지지 않은 융합이었다. 5개의 융합 중 3개는 프로브-혼성화 방법을 사용하여 파트너 유전자 중 하나만 표적으로 하여 확인되었다. 유사하게, 표적 RNA-seq는 알려진 PDGFRB 재배열의 한 경우에서 파트너 유전자를 비-표적 CCDC6로 지정했다. 이 네 가지 경우에서 볼 수 있듯이, 혼성 포획 방법은 관심있는 전사체와 함께 인접 측면 영역을 분리할 수 있기 때문에 융합 검출에 대한 진단율을 효율적으로 향상시킬 수 있다. 이러한 표적화 방법의 장점은 올리고 뉴클레오티드 프로브 세트의 비용을 줄이고 특히 여러 파트너 유전자를 가지는 CRLF2-, ETV6-, KMT2A-, NUP98-, PAX5- 및 PDGFRA/B 융합과 같은 경우에만 하나의 파트너에 대한 프로브를 사용하여 키메라 전사체를 쉽게 검출할 수 있다.
추정 융합이 실험적으로 확인될 수는 없었지만, 10개의 추정 융합에서 파트너 유전자의 대리(surrogate) 과발현은 두 유전 영역 사이의 재배열을 나타내는 것으로 보인다. 이러한 경우의 대부분은 인트론의 중단점이있는 IGH 재배열이었으며 FusionCatcher 알고리즘에서 소량의 잔여 DNA 분획이 검출될 가능성이 있었다. STAR-Fusion 알고리즘에서 이러한 IGH 재배열은 예비 파일에서 식별되었지만 최종 결과에서는 필터링되었다. 따라서 표적 RNA-seq를 융합 분석으로만 사용하는 것은 DNA 수준의 재배열을 직접 검출하기에는 부족했지만, 발현 분석과 함께 보완할 수 있었다. 이는 향상된 발현을 가진 표적 RNA-seq의 추정 결과가 임상 환경에서 FISH와 같은 추가 검사를 안내할 수 있음을 시사한다.
유전체 변이체의 식별은 주로 NGS 기술에 의한 DNA 기반 서열분석에 의존하는 반면, RNA-seq를 사용하는 것은 유전체 위치에서 여러 엑손에 걸쳐있는 전사체의 고유한 복잡성으로 인해 어려워서다. 이 장애물은 HISAT2, TopHat 및 STAR10-12와 같은 스플라이스-인식 매퍼(mapper)를 사용하여 극복되었지만 소수의 RNA-seq 연구만이 임상 진단 환경에서 변이 검출을 조사하였다. 본 발명에서는 임상적 중요성을 갖는 RNA-seq 데이터에서 흥미로운 변이를 확인할 수 있었다. 무엇보다도 B-ALL 및 CML-BP 환자에서 TKI 내성 및 BCR-ABL1 융합과 관련된 ABL1 돌연변이의 동시 검출은 보다 빠른 진단 및 치료 결정을 가능하게 하는 표적 RNA-seq의 이점을 보여주었다.
또한 3 개의 MPN 사례에서 BCR-ABL1 융합의 음성 결과와 JAK2 V617F 돌연변이의 양성 결과를 동시에 확인할 수 있었다. 2 명의 AML, 2 명의 ALL 및 1 명의 CML-BP 환자에서 예후 및 진단과 관련된 다른 변이도 발견되었다. 따라서 본 발명의 연구 결과는 신뢰할 수 있는 전산 바이오인포마틱스 도구(computational bioinformatics tools)와 결합된 표적 RNA-seq의 사용이 추가 DNA 기반 서열분석을 병렬적으로 수행할 필요 없이 진단 단계를 단순화할 수 있음을 보여준다.
표적 RNA-seq 데이터는 또한 지난 20년간 마이크로어레이 기술로 수행한 것과 유사한 발현 분석을 통해 분자적 특징을 측정할 수 있다. 상기 언급하였듯이, 발현 데이터는 유전자 융합으로 인한 드라이버 이벤트를 규명하는 데 도움이 될 수 있다. 표적 RNA-seq의 30개 융합 중 6개와 9개는 각각 5' 및 3' 파트너 유전자의 과발현을 나타냈다. 이러한 결과는 일부 발암성 융합의 구조적 및 기능적 메커니즘에 의해 뒷받침될 수 있다. 조절 장애를 일으키는 발암성 융합에서 5' 또는 3' 융합 파트너는 각각 매우 안정적인 UTR 영역을 가진 3' 파트너의 기여 또는 5' 파트너 유전자의 조절 요소에 의해 과발현된다.
또한, 발현 데이터의 후속 분석은 암 아형 및 세포 계통에 따라 임상 샘플의 뚜렷한 클러스터링을 보여주었다. 분류는 하위 유형 식별자로 몇 가지 대표적인 분자적 특징 (예: MPN의 MECOM 및 EPOR 과발현 및 B-ALL의 EBF1, PAX5 및 TCL1A 과발현)에 기초하였다. 이것은 모호한 경우의 하위 유형 또는 계통 분류의 진단 또는 새로운 질병 하위 유형의 추가 발견을 지원할 수 있다.
실시예 2. 본 발명의 차세대 염기서열분석 패널을 이용한, 백혈병 환자에서의 유전자 변이 분석
백혈병으로 확진된 93명(acute myeloid leukemia 15명, adult B-acute lymphoid leukemia 35명, childhood B-acute leukemia 30명 및 T-acute lymphoid leukemia 13명)의 진단시 골수 검체를 이용하였다. 전체 93명 백혈병 환자에서 유전자 융합 변이는 72명(77%)의 환자에서 tier 1이나 tier 2 유전변이가 관찰되었다. 소아 B-acute lymphoid leukemia (B-ALL)에서 유전자융합변이는 대상 환아의 83% (25/30)에서 검출되었고, 성인 B-ALL의 경우 94% (33/35)에서 유전자 융합 변이가 관찰되었다. Acute myeloid leukemia (AML) 와 T-acute lymphoid leukemia (T-ALL) 환자에서 융합유전자 변이는 각각 53% (8/15) 및 46% (6/13) 였다(도 4 및 5 참조).
실시예 3. 본 발명의 차세대 염기서열분석 패널과 기존 패널의 비교평가
Anchored multiplex PCR을 이용하여 특정 유전자들에 대한 cDNA library 구축하는 방법에 기반하여 개발된 상품화된 targeted RNAseq 분석 시스템(Engvall M, Cahill N, Jonsson BI, Hoglund M, Hallbook H, Cavelier L: Detection of leukemia gene fusions by targeted RNA-sequencing in routine diagnostics. BMC Med Genomics 2020, 13:106.)과 본 발명의 차세대 염기서열분석 패널을 이용한 분석시스템을 비교평가 하였다. 이 비교평가를 위해 B-ALL 환자 샘플 1개, AML 환자 샘플 2 개 그리고 급성 전골수성 백혈병(acute promyelocytic leukemia) 및 T-ALL의 경우 각각 1개 환자 샘플을 이용하였다. 그 결과 IGH-CRLF2 유전자 융합이 동반된 B-ALL 환자 샘플에서는 본 발명의 차세대 염기서열분석 패널을 이용한 분석에서만 IGH-CRLF2 유전자 융합이 검출이 되었다.
philadelphia chromosome-like acute lymphoblastic leukemia(Ph-like ALL)는 B-ALL의 20-25%에서 발견되며, 이의 원인유전자로 CRLF2 유전자와 연관된 융합유전자변이가 61% 정도로 알려 져 있다. Ph-like B-ALL은 매우 불량한 예후를 보여 ALL의 새로운 아형으로 분류되었다. 따라서 ALL 특히 B-ALL에서 유전자분석을 통한 Ph-like B-ALL 진단은 정밀의료 관점에서 백혈병을 치료하는데 매우 중요하다. 따라서 본 발명의 차세대 염기서열분석 패널은 일부 임상검사현장에서 사용중인 anchored multiplex PCR을 이용한 cDNA library 기반 targeted RNAseq 보다 Ph-like B-ALL을 검출하는데 매우 유용함을 알 수 있다(도 6). 도 6에서 Our targeted RNA seq system은 본 발명의 84개 유전자를 표적으로 하는 차세대 염기서열분석 패널을 이용한 경우, Commercial targeted RNA seq system은 기존에 상품화된 targeted RNAseq 분석 시스템을 이용한 경우 검출된 유전자 융합을 나타낸다.
<110> INDUSTRY FOUNDATION OF CHONNAM NATIONAL UNIVERSITY KblueBio Inc. <120> Next-generation sequencing-based target gene RNA sequencing panel and analysis algorithm <130> 21P12015 <150> KR 10-2021-0029703 <151> 2021-03-05 <160> 10 <170> KoPatentIn 3.0 <210> 1 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> primer <400> 1 agatgcgggg agacttgtt 19 <210> 2 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> primer <400> 2 ctgcacccag tcctccatgt 20 <210> 3 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> primer <400> 3 gctcattgcc atggtgacag 20 <210> 4 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> primer <400> 4 accccctgta atggcctatc 20 <210> 5 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> primer <400> 5 cagtggctgc tttgctttct c 21 <210> 6 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> primer <400> 6 ctgcatagat gccagtcaac ca 22 <210> 7 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> primer <400> 7 caggcatcat ggcattggct a 21 <210> 8 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> primer <400> 8 tcgtgcaagt ggaagacgac 20 <210> 9 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> primer <400> 9 tccgagagtg agtccagctt 20 <210> 10 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> primer <400> 10 cggatctcgt aacgtggctt 20

Claims (14)

  1. PHB, PHB2, IGH, ABL1, ABL2, CRLF2, CSF1R, EPOR, ETV6, FGFR1, JAK2, PDGFRB 및 MYC에 특이적으로 결합하는 프로브를 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
  2. 청구항 1에 있어서, AFF1, BAALC, BCL2, BCL6, BCR, CBFB, CRBN, CREBBP, DEK, DUSP22, EBF1, FGFR3, FIP1L1, FUS, GATA2, GUSB, IKZF1, IL3, KMT2A, MECOM, MEF2D, MLF1, MLLT3, MRTFA, MYH11, NUP98, PCM1, PICALM, PML, RARA, RBM15, RUNX1, RUNX1T1, SDHA, TRA 및 WT1로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
  3. 청구항 1에 있어서, AFF1, ALK, BCL2, BCL6, BCL9, BCR, CBFB, CCND1, CCND2, CCND3, CREBBP, DEK, DUSP22, EP300, ERG, FGFR3, FIP1L1, HBS1L, HPRT1, IGK, IGL, IKZF1, KMT2A, MAF, MEF2D, MLLT10, MLLT3, NSD2, NTRK3, PAX5, PBX1, PCM1, PPIA, RAB7A, TCF3 및 ZNF384로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
  4. 청구항 1에 있어서, ALK, BCL2, BCL6, BCL9, BCR, CBFB, DEK, DUSP22, FGFR3, HPRT1, IKZF1, IL2RB, IRF4, KMT2A, MAF, MAFA, MEF2D, MLLT10, MLLT3, NSD2, NTRK3, NUP214, PCM1, TBP, TCL1A, TRB, TRG 및 TYK2로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
  5. 청구항 1에 있어서, BCL6, BCL9, CCND1, CCND2, CCND3, CREBBP, TP63, DEK, DUSP22, FGFR3, IGK, IGL, IKZF1, KMT2A, NTRK3, PAX5, PBX1, PPIA, RAB7A, TCF3, TP63 및 ZNF384로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
  6. 청구항 1에 있어서, AFF1, BCL2, BCL6, BCR, CBFB, CRBN, CREBB, DEK, FGFR3, GAPDH, GUSB, IKZF1, MAF, MAFB, PSMB2 및 TP63으로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
  7. 청구항 1에 있어서, AFF1, BCR, CBFB, CRBN, CREBBP, DEK, FGFR3, GATA2, IKZF1, MAFA, MAFB 및 PCM1로 이루어진 군에서 선택되는 적어도 하나에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
  8. 청구항 1에 있어서, PDGFRA에 특이적으로 결합하는 프로브를 더 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
  9. ABL1, ABL2, AFF1, ALK, BAALC, BCL2, BCL6, BCL9, BCR, CBFB, CCND1, CCND2, CCND3, CRBN, CREBBP, CRLF2, CSF1R, DEK, DUSP22, EBF1, EP300, EPOR, ERG, ETV6, FGFR1, FGFR3, FIP1L1, FUS, GAPDH, GATA2, GUSB, HBS1L, HPRT1, IGH, IGK, IGL, IKZF1, IL2RB, IL3, IRF4, JAK2, KMT2A, MAF, MAFA, MAFB, MECOM, MEF2D, MLF1, MLLT10, MLLT3, MRTFA, MYC, MYH11, NSD2, NTRK3, NUP214, NUP98, PAX5, PBX1, PCM1, PDGFRA, PDGFRB, PHB, PHB2, PICALM, PML, PPIA, PSMB2, RAB7A, RARA, RBM15, RUNX1, RUNX1T1, SDHA, TBP, TCF3, TCL1A, TP63, TRA, TRB, TRG, TYK2, WT1 및 ZNF384에 특이적으로 결합하는 프로브를 포함하는 백혈병 진단용 차세대 염기서열분석 패널.
  10. 청구항 1 내지 9 중 어느 하나의 염기서열분석 패널로 표적 포획 혼성화하여 타겟 유전자를 선별하고 시퀀싱하여 리드 데이터를 얻는 단계;
    상기 리드 데이터로부터 PHB 및 PHB2의 과발현 여부를 확인하는 단계; 및
    상기 리드 데이터로부터 IGH, ABL1, ABL2, CRLF2, CSF1R, EPOR, ETV6, FGFR1, JAK2, PDGFRB 및 MYC로 이루어진 군에서 선택되는 어느 하나의 유전자가 포함된 융합을 검출하는 단계를 포함하는, 백혈병 진단을 위한 정보제공 방법.
  11. 청구항 10에 있어서, 상기 과발현 여부는 상기 리드 데이터를 HISAT2로 참조 서열과 정렬하여 SAM/BAM 데이터를 얻고, StringTie로 각 유전자의 발현을 계산하여 얻은 GTF 데이터를 DESeq2로 정규화하여 수행되는 것인, 백혈병 진단을 위한 정보제공 방법.
  12. 청구항 10에 있어서, 상기 유전자 융합 검출은 상기 리드 데이터를 Bowtie, STAR, Blat 또는 Bowtie2로 참조 서열과 정렬하여 STAR-Fusion 또는 Fusion Catcher 융합 유전자 확인 툴로 융합을 검출하는 단계를 포함하여 수행되는 것인, 백혈병 진단을 위한 정보제공 방법.
  13. 청구항 10에 있어서, AFF1, ALK, BAALC, BCL2, BCL6, BCL9, BCR, CBFB, CCND1, CCND2, CCND3, CRBN, CREBBP, DEK, DUSP22, EBF1, EP300, ERG, FGFR3, FIP1L1, FUS, GAPDH, GATA2, GUSB, HBS1L, HPRT1, IGK, IGL, IKZF1, IL2RB, IL3, IRF4, KMT2A, MAF, MAFA, MAFB, MECOM, MEF2D, MLF1, MLLT10, MLLT3, MRTFA, MYH11, NSD2, NTRK3, NUP214, NUP98, PAX5, PBX1, PCM1, PDGFRA, PICALM, PML, PPIA, PSMB2, RAB7A, RARA, RBM15, RUNX1, RUNX1T1, SDHA, TBP, TCF3, TCL1A, TP63, TRA, TRB, TRG, TYK2, WT1 및 ZNF384로 이루어진 군에서 선택되는 어느 하나의 유전자의 과발현, 융합 또는 변이 여부를 확인하는 단계를 더 포함하는, 백혈병 진단을 위한 정보제공 방법.
  14. (a) 개체로부터 분리된 RNA로부터 합성한 cDNA를 청구항 1 내지 9 중 어느 한 항의 염기서열분석 패널의 각 프로브에 결합시키고 차세대 염기서열 분석(NGS)을 수행하여 미가공 리드 데이터를 얻는 단계;
    (b) 상기 미가공 리드 데이터를 Q10 이상의 품질 점수를 가진 데이터로 조정하는 단계;
    (c) 상기 조정된 데이터에서 각 유전자의 융합을 검출하는 단계;
    (d) 상기 조정된 데이터의 각 유전자에서 참조 서열 대비 변이를 검출하는 단계; 및
    (e) 상기 조정된 데이터로부터 각 유전자의 발현을 확인하는 단계를 포함하고,
    상기 융합의 검출은 상기 조정된 데이터를 Bowtie, STAR, Blat 또는 Bowtie2로 참조 서열과 정렬하여 융합 유전자 확인 툴 (STAR-Fusion, Fusion Catcher)로 융합을 검출하는 단계를 포함하여 수행되고,
    상기 변이의 검출은 조정된 데이터의 서열을 STAR로 정렬된 SAM/BAM 데이터를 얻고, Piccard로 상기 BAM 데이터 내의 duplicate를 분류 및 표지하고, 상기 정렬, 분류 및 중복 제거된 BAM 데이터를 Freebayes로 SNV 및 Indel 호출하여 수행되고,
    상기 유전자의 발현은 조정된 데이터를 HISAT2로 참조 서열과 정렬하여 SAM/BAM 데이터를 얻고, StringTie로 각 유전자의 발현을 계산하여 얻은 GTF 데이터를 DESeq2로 정규화하여 수행되는 것인, 백혈병 진단을 위한 정보제공방법.
KR1020220028718A 2021-03-05 2022-03-07 차세대 염기서열분석 기반 표적유전자 rna 염기서열 분석 패널 및 분석알고리즘 KR20220125708A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/003196 WO2022186673A1 (ko) 2021-03-05 2022-03-07 차세대 염기서열분석 기반 표적유전자 rna 염기서열 분석 패널 및 분석알고리즘

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210029703 2021-03-05
KR1020210029703 2021-03-05

Publications (1)

Publication Number Publication Date
KR20220125708A true KR20220125708A (ko) 2022-09-14

Family

ID=83278838

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220028718A KR20220125708A (ko) 2021-03-05 2022-03-07 차세대 염기서열분석 기반 표적유전자 rna 염기서열 분석 패널 및 분석알고리즘

Country Status (1)

Country Link
KR (1) KR20220125708A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453591A (zh) * 2023-05-08 2023-07-18 上海信诺佰世医学检验有限公司 基于RNA-seq数据分析、变异评级和报告生成系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170000743A (ko) 2015-06-24 2017-01-03 사회복지법인 삼성생명공익재단 유전자의 전좌를 분석하는 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170000743A (ko) 2015-06-24 2017-01-03 사회복지법인 삼성생명공익재단 유전자의 전좌를 분석하는 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453591A (zh) * 2023-05-08 2023-07-18 上海信诺佰世医学检验有限公司 基于RNA-seq数据分析、变异评级和报告生成系统及方法

Similar Documents

Publication Publication Date Title
Beekman et al. The reference epigenome and regulatory chromatin landscape of chronic lymphocytic leukemia
Zaliova et al. ETV6/RUNX1‐like acute lymphoblastic leukemia: a novel B‐cell precursor leukemia subtype associated with the CD27/CD44 immunophenotype
JP6930992B2 (ja) 腫瘍変異負荷を評価するための方法及びシステム
CN108427864B (zh) 一种拷贝数变异的检测方法、装置以及计算机可读介质
Cheung et al. High resolution analysis of follicular lymphoma genomes reveals somatic recurrent sites of copy‐neutral loss of heterozygosity and copy number alterations that target single genes
US20160281171A1 (en) Targeted screening for mutations
HUE030510T2 (hu) Magzati kromoszómális aneuploidia diagnosztizálása genomszekvenálás alkalmazásával
CN109637587B (zh) 检测基因融合突变的方法、装置、存储介质、处理器及转录组数据表达量标准化的方法
CN110033829A (zh) 基于差异snp标记物的同源基因的融合检测方法
CN105925665A (zh) 试剂盒、建库方法以及检测目标区域变异的方法及系统
JP2023082157A (ja) 遺伝子調節
CN110229897A (zh) Med12基因突变检测试剂盒及其应用
KR101867011B1 (ko) 차세대 염기서열 분석기법을 이용한 유전자 재배열 검출 방법
Umeda et al. A new genomic framework to categorize pediatric acute myeloid leukemia
KR20220125708A (ko) 차세대 염기서열분석 기반 표적유전자 rna 염기서열 분석 패널 및 분석알고리즘
US20240084389A1 (en) Use of simultaneous marker detection for assessing difuse glioma and responsiveness to treatment
WO2022186673A1 (ko) 차세대 염기서열분석 기반 표적유전자 rna 염기서열 분석 패널 및 분석알고리즘
Sabri et al. Whole exome sequencing of chronic myeloid leukemia patients
Umeda et al. Proposal of a new genomic framework for categorization of pediatric acute myeloid leukemia associated with prognosis
Lim et al. Diagnostic validation of a clinical laboratory-oriented targeted RNA sequencing system for detecting gene fusions in hematologic malignancies
WO2018186687A1 (ko) 생물학적 시료의 핵산 품질을 결정하는 방법
CN112837749B (zh) 一种癌症筛查用基因芯片探针的优选方法
Hong et al. Detection of multiple types of cancer driver mutations using targeted RNA sequencing in NSCLC
Dixon-McIver Emerging technologies in paediatric leukaemia
Rosli et al. Cytogenetics analysis as the central point of genetic testing in acute myeloid leukemia (AML): a laboratory perspective for clinical applications