KR20220060493A - 비기능성 전사체를 이용한 parp 저해제 또는 dna 손상 약물 감수성 판정방법 - Google Patents

비기능성 전사체를 이용한 parp 저해제 또는 dna 손상 약물 감수성 판정방법 Download PDF

Info

Publication number
KR20220060493A
KR20220060493A KR1020210149860A KR20210149860A KR20220060493A KR 20220060493 A KR20220060493 A KR 20220060493A KR 1020210149860 A KR1020210149860 A KR 1020210149860A KR 20210149860 A KR20210149860 A KR 20210149860A KR 20220060493 A KR20220060493 A KR 20220060493A
Authority
KR
South Korea
Prior art keywords
dna
value
transcripts
drug
transcript
Prior art date
Application number
KR1020210149860A
Other languages
English (en)
Inventor
최정균
강헌구
조은해
Original Assignee
한국과학기술원
주식회사 지씨지놈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원, 주식회사 지씨지놈 filed Critical 한국과학기술원
Publication of KR20220060493A publication Critical patent/KR20220060493A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/106Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)

Abstract

본 발명은 비기능성 전사체를 이용한 PARP 저해제 또는 DNA 손상 약물 (DNA damaging agent)에 대한 감수성의 판정방법에 관한 것으로, 보다 구체적으로는 생체시료에서 핵산을 추출하여 DNA 수리(repair) 관련 유전자들의 비기능성 전사체들의 전사체별 발현량을 획득한 다음, 획득한 발현량을 기반으로 유전자별 비기능성 전사체들의 전사체별 사용율(TU)을 분석하여 PARP 저해제 또는 DNA 손상 약물에 대한 감수성을 판정하는 방법에 관한 것이다. 본 발명에 따른 PARP 저해제 또는 DNA 손상 약물 감수성 판정 방법은, 기존의 유전자 변이 정보를 기반으로 PARP 저해제 또는 DNA 손상 약물 감수성을 판정하는 방법과 달리, 유전자에서 전사된 전사체의 정보를 이용하기 때문에, 실시간으로 감수성을 판정할 수 있을 뿐만 아니라 정확도가 높아 유용하다.

Description

비기능성 전사체를 이용한 PARP 저해제 또는 DNA 손상 약물 감수성 판정방법 {Method for Determining Sensitivity to PARP inhibitor or genotoxic drugs based on non-functional transcripts}
본 발명은 비기능성 전사체를 이용한 PARP 저해제 또는 DNA 손상 약물 (DNA damaging agent)에 대한 감수성의 판정방법에 관한 것으로, 보다 구체적으로는 생체시료에서 핵산을 추출하여 DNA 수리(repair) 관련 유전자들의 비기능성 전사체들의 전사체별 발현량을 획득한 다음, 획득한 발현량을 기반으로 유전자별 비기능성 전사체들의 전사체별 사용율(TU)을 분석하여 PARP 저해제 또는 DNA 손상 약물에 대한 감수성을 판정하는 방법에 관한 것이다.
바이오마커란 '정상적인 생물학적 과정, 질병 진행 상황, 그리고 치료방법에 대한 약물의 감수성을 객관적으로 측정하고 평가할 수 있는 지표'라고 정의하고 있다. 최근 유전자 분석기술의 발달로 특정 유전자의 변이와 특정 질병 사이의 관련성에 대한 연구가 증가하면서 바이오마커는 유전자와 유전적 변이, 그로 인한 RNA, 단백질, 대사물질 발현의 차이를 모두 아우르는 분자적, 생물학적 지표로 재(再)정의되고 있다.
또한, 좀 더 효과적인 치료를 위해 의약품의 치료효과를 극대화 시키거나 부작용을 최소화 할 수 있는 환자군을 분류하고자 바이오마커의 감수성 여부를 판단할 수 있는 동반진단제(Companion Dignostics Device, CDx)의 개발이 이루어지고 있다.
동반진단(Companion Diagnosis)은 환자의 특정 약물 치료에 대한 감수성을 미리 예측하기 위한 진단 기법이다. 암세포와 정상세포에 대해 모두 작용하여 부작용이 큰 기존 대부분의 항암제의 단점을 극복하기 위해 특정 표적 단백질을 선택적으로 공격하도록 하는 표적 항암제가 개발되었다.
그러나 표적 항암제는 같은 종류의 암이라도 특정 표적 단백질을 가지는 암환자에게만 효과를 보이기 때문에 표적 분자를 가진 환자를 선별하지 않으면 치료 효율이 매우 낮다.
또한, 표적 항암제는 세포 사멸보다 세포 성장과 증식 억제에 의존하기 때문에 장기간에 걸쳐 지속적인 약물 투여로 인한 내성 발생 가능성이 높다. 따라서, 약물을 투여하기 전에 항암제의 표적에 대하여 분석하여 약물에 효과를 보이는 환자군을 선별하는 것이 필요하다.
다국적 제약사 중 하나인 Roche는 최초의 유방암 표적 항암제인 "Herceptin"과 이에 대한 동반진단키트인 "Herceptest"를 개발한 Genentech를 인수하여 동반진단 기반의 표적 항암제 치료를 시작하게 되었다. 동반진단키트는 DAKO, HercepTest와 같은 면역조직화학검사를 통해 특정 단백질의 과발현을 확인하는 방법, Ventana Medical Systems, INFORM HER-2/NEU와 같은 특정 유전자의 유전자 증폭을 DNA 프로브를 이용한 FISH 또는 CISH 검사를 통해 확인하는 방법, 그리고 Roche Diagnostics, cobas EGFR mutation test 와 같은 q-PCR 등 유전체학적 기법을 이용하여 바이오 마커 유전자의 돌연변이 여부를 검사하여 확인하는 방법 등이 있다.
한편, 올라파립(Olaparib, AZD2281)은 암세포의 비정상적인 증식을 억제하는 기능을 가진 항암제로, "PARP 단백질"의 저해제이다. PARP는 세포 내 DNA가 손상 받은 경우, 이를 복구(repair)하는 기능을 하는 단백질로, 세포가 DNA의 수리를 마치고, 지속적으로 증식을 할 수 있도록 기여하는데 큰 역할을 수행한다. 올라파립은 이 PARP의 기능을 저해함으로써, 암세포의 증식을 저해한다. 이러한 올라파립은 난소암, 유방암의 표적치료제로 잘 알려져 있으며, 특히 BRCA1, BRCA2의 돌연변이를 유전적으로 가지고 있는 암 환자들에게 효과적인 항암제로 알려져 있다.
즉, 항암제의 효과는 DNA 복구(repair) 능력에 영향을 많이 받으며, 또한, 항암제는 내성과 독성에 관해서 개인차가 상이하므로, 적합한 치료감수성 표식자를 이용한 선별은 항암제 치료의 획기적인 진보를 초래할 수 있다. 특정 유전자에 따른 개별 항암제의 치료감수성에 관한 연구가 최근 지속적으로 활발하게 전개되고 있다. 그러나 특정약제에 대한 생체반응 관련요소의 복합적 작용, 치료제 및 투여방식의 다양성과 방대한 시료확보의 어려움으로 아직 괄목할 만한 성과가 미약한 현실이다.
Myriad genetics 社에서는 PARP 저해제(올라파립(olaparib), 탈라조파립(talazoparib) 및 루카파립(rucaparib)의 동반진단을 위해 germline BRCA1 및 BRCA2의 변이유무를 진단하는 제품을 출시하였다. 그러나 이 제품은 BRCA1/2 유전자의 대립 유전자와 상관 없이 변이 존재의 유무만을 결정하는 제품이고, PARP 저해제에 대한 전체 반응율(ORR, overall response rat)가 34%밖에 되지 않아, 단순 BRCA1/2의 germline mutation 검출만으로는 PARP 저해제에 대한 동반진단이 충분히 이루어 질 수 없음을 의미한다.
Foundation medicine 社의 FoundationFocusCDxBRCA 제품 역시 BRCA1 및 BRCA2의 변이와 PARP 저해제인 루카파립(rucaparib)의 연관성을 진단하는 동반진단 제품이지만, 전체 반응율(ORR, overall response rate)가 53.8%밖에 되지 않아, 여전히 반응률이 낮은 상태이다.
이와 같이 BRCA1/2 유전자의 변이 만으로는 HRD 관련 약물의 감수성을 일부분만 예측할 수 있는 상황이다. 이에 HRD를 일으키는 원인이 아닌 HRD에 의해 발생한 결과를 검출하여 약물 감수성을 예측하고자 하는 시도가 이루어지고 있다. HRD는 유전체에 가해진 데미지 복구를 실패함에 따라 다양한 흔적을 남기게 된다. 특히, genomic scar와 signature 3는 HRD의 잘 알려진 표지자이다(Gulhan, D. C. et al., Nat. Genet. Vol. 51, pp. 912-919, 2019). Mutational signature는 단일염기 변이의 유전체적 패턴을 특정한 background factor와 연관시키는데 사용된다(Alexandrov, L. B. et al., Nature. Vol. 500, pp. 415-421, 2013). 이러한 의미에서 signature 3는 HRD와 잘 매칭된다. Genomic scar는 3개의 염색체 이상으로 검출되는데, 각각 텔로머 대립유전자 불균형(telomeric allelic imbalances, NtAI), 대규모 상태 전환(large-scale state transition, LST) 및 이형접합성 상실(loss of heterozygosity, LOH)를 의미한다(Abkevich, V. et al., Br. J. Cancer. Vol. 107, pp. 1776-1782, 2012; Popova, T. et al., Cancer Res. Vol. 72, pp. 5454-5462, 2012; Nicolai J. Birkbak. CANCER Discov. Vol. 2, 367, 2012).
게놈상의 HRD(genomic HRD, gHRD) 분석은 HR의 기능회복에 의해 영향을 받을 수 밖에 없다. 즉, BRCA1/2의 기능을 회복하는 또다른 변이의 발생은 난소암에서 발생하는 플래티넘 약물 저항성 케이스의 대략 절반의 원인이다(Norquist, B. et al., J. Clin. Oncol. Vol. 29, pp. 3008-3015, 2011). 또한, PARP 저해제 저항성과 관련하여 BRCA1/2 독립적인 기작이 알려지기도 하였다(Chaudhuri, A. R. et al., Nature. Vol. 535, pp. 382-387, 2016). 상기와 같이 HR 기능이 회복된 상황에서도 최초에 발생한 genomic scar는 여전히 검출된다는 문제점이 있다. 게다가 mutational signature를 계산하는 기술적 문제점들 때문에 더욱 위양성이 높아진다고 알려져 있다(Maura, F. et al., Nat. Commun. Vol. 10, 2019).
상기 문제점 때문에 DNA 손상 약물이나 PARP 저해제에 반응할 것이라고 예상되었던 환자들의 상당수가 실제로는 반응하지 않는 것이다(Watkins, J. A. et al., Breast Cancer Research. Vol. 16, pp. 1-11, 2014).
따라서, HRD의 기능적 상태를 측정하는 바이오마커를 이용하여 gHRD 예측결과에서 약물 저항성이 있는 케이스를 제거하는 방법 등과 같이 환자의 HRD 상태를 실시간으로 파악할 수 있는 새로운 기술이 필요한 실정이다.
이에 본 발명자들은 PARP 저해제 또는 플래티넘을 비롯한 DNA 손상 약물에 대한 정확도 높은 감수성 판정방법을 개발하기 위하여 예의 노력한 결과, DNA 수리 관련 유전자들의 전사체(transcript) 구조 정보를 이용하여, 각 유전자 별로 단백질의 정상적인 번역이 이루어지지 않거나 기능이 손실된 단백질로 번역될 것으로 추정되는 비기능성 전사체들을 추출한 다음, 이들의 발현량을 분석할 경우, PARP 저해제 또는 DNA 손상 약물에 대한 감수성을 유전자 변이 레벨의 HRD 검출방법보다 낮은 위양성과 높은 정확도로 결정할 수 있다는 것을 확인하고, 본 발명을 완성하였다.
본 발명의 목적은 비기능성 전사체를 이용한 PARP 저해제 및 DNA 손상 약물 감수성 판정방법을 제공하는 것이다.
본 발명의 다른 목적은 비기능성 전사체를 이용한 PARP 저해제 및 DNA 손상 약물에 대한 감수성을 판정하는 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 방법으로 PARP 저해제 및 DNA 손상 약물 감수성을 판정하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 방법을 이용한 표적 RNA 서열분석 키트를 제공하는 것이다.
상기 목적을 달성하기 위하여, 본 발명은 a) 생체시료에서 핵산을 추출하여 DNA 수리(repair) 관련 유전자들의 비기능성 전사체들의 전사체(transcript)별 발현량을 획득하는 단계; b) 획득한 발현량을 기반으로 유전자별 비기능성 전사체들의 전사체별 사용율(Transcript Usage, TU)을 계산하는 단계; 및 c) 계산된 TU값을 분석하여 수득한 값이 기준값 이상일 경우, PARP(Poly ADP Ribose Polymerase) 저해제 또는 DNA 손상 약물(genotoxic drugs)에 대한 감수성(susceptibility)이 있는 것으로 판정하는 단계를 포함하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법을 제공한다.
본 발명은 또한, 상기 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정방법에 이용되는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 장치 및 상기 판정방법을 수행하기 위한 명령을 포함하는 컴퓨터 판독 가능한 기록매체를 제공한다.
본 발명은 또한, 상기 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정방법에 이용되는 표적화 RNA 서열분석(Targeted RNA-Seq) 키트를 제공한다.
본 발명에 따른 PARP 저해제 또는 DNA 손상 약물 감수성 판정 방법은, 기존의 유전자 변이 정보를 기반으로 PARP 저해제 또는 DNA 손상 약물 감수성을 판정하는 방법과 달리, 유전자에서 전사된 전사체의 정보를 이용하기 때문에, 실시간으로 감수성을 판정할 수 있을 뿐만 아니라 정확도가 높아 유용하다.
도 1은 본 발명의 PARP 저해제 또는 DNA 손상 약물에 대한 감수성(susceptibility)을 판정하기 위한 전체 흐름도이다.
도 2는 본 발명의 전사체별 사용율(transcript usage, TU)을 산출하는 방법에 대한 개념도이다.
도 3은 본 발명의 일 실시예에 따라 gHRD(+) 샘플에서 과발현된 minor isoform들이 통계적으로 유의하게 단백질 기능의 상실로 이어짐을 보이는 결과이다.
도 4는 본 발명의 일 실시예에 따라 gHRD(+) 샘플에서 특정 minor isoform이 과발현되는 유전자들이 통계적으로 유의하게 DNA repair 기능과 연관되어 있음을 보이는 결과이다.
도 5는 본 발명의 일 실시예에 따라 gHRD(+) 샘플에서 minor isoform이 과발현되는 유전자들이 통계적으로 유의하게 다양한 DNA repair 의 하위기능들과 연관되어 있음을 보이는 결과이다.
도 6은 본 발명의 일 실시예에서 유방암 세포주들의 약물 감수성을 gHRD로 예측한 결과와 유방암 관련 36개 유전자의 104개 전사체 기반으로 도출한 tHRD로 예측한 결과와 비교한 것이다. gHRD 및 tHRD 가 양성으로 예측한 세포주들과 음성으로 판별한 세포주들간의 약물 감수성을 IC50 값으로 표시하였다.
도 7은 본 발명의 일 실시예에서 유방암 세포주들의 약물 감수성을 gHRD로 예측한 결과와 유방암 관련 36개 유전자의 104개 전사체 기반으로 도출한 tHRD로 예측한 결과를 정밀도-재현율(Precision and recall) 측면에서 비교한 결과로서, 파란색 점선은 gHRD (signature3) 보정 전, 실선은 보정 후의 성능이며, 빨간색은 tHRD 성능이다.
도 8은 본 발명의 일 실시예에서 발굴한 유방암 관련 104개 전사체 중 주요 전사체 20개로 tHRD를 계산한 결과를 gHRD 약물 반응성 예측과 비교한 결과이다.
도 9는 본 발명의 일 실시예에서 발굴한 유방암 관련 104개 전사체 중, 주요 전사체 10개로 tHRD를 계산한 결과를 gHRD 약물 반응성 예측과 비교한 결과이다.
도 10의 (A)와 (C)는 난소암 환자의 플래티넘 반응성을 gHRD 로 예측한 결과이고, (B)와 (D)는 본 발명의 일 실시예에서 발굴한 난소암 관련 25개 유전자의 89개 전사체 기반의 tHRD로 난소암 환자의 플래티넘 반응성을 예측한 결과이다. (A)와 (B)는 gHRD 및 tHRD 로 양성으로 분류된 환자와 음성으로 분류된 환자의 생존율을 비교한 결과이며, (C)와 (D)는 상기 두 방법에 대한 정밀도-재현율(Precision and recall) 및 수신자 조작 특성(Receiver operating characteristics)을 분석한 결과로서, 파란색 점선은 gHRD (scar), 파란색 실선은 gHRD (signature3). 빨간색은 tHRD 성능을 의미한다.
도 11의 (A)와 (C)는 난소암 환자의 플래티넘 반응성을 gHRD 로 예측한 결과이고, (B)와 (D)는 본 발명의 일 실시예에서 발굴한 난소암 관련 25개 유전자의 89개 전사체 중 주요 10개를 기반의 tHRD로 난소암 환자의 플래티넘 반응성을 예측한 결과이다. (A)와 (B)는 gHRD 및 tHRD 로 양성으로 분류된 환자와 음성으로 분류된 환자의 생존율을 비교한 결과이며, (C)와 (D)는 상기 두 방법에 대한 정밀도-재현율(Precision and recall) 및 수신자 조작 특성(Receiver operating characteristics)을 분석한 결과로서, 파란색 점선은 gHRD (scar), 파란색 실선은 gHRD (signature3). 빨간색은 tHRD 성능을 의미한다.
도 12는 gHRD 기준이 아닌 플래티넘 반응성을 기준으로 학습한 tHRD 모델의 성능과 gHRD로 플래티넘 반응성을 예측한 성능을 비교한 것이다. (A) 와 (B) 는 각각 gHRD 와 tHRD 로 학습한 모델에서 양성으로 분류된 환자와 음성으로 분류된 환자의 플래티넘 치료 후 생존율을 비교한 결과이고, (C) 와 (D) 는 상기 두 방법에 대한 정밀도-재현율(Precision and recall) 및 수신자 조작 특성(Receiver operating characteristics)을 분석한 결과로서, 파란색 점선은 gHRD (scar), 파란색 실선은 gHRD (signature3) 그리고 빨간색은 tHRD 의 성능을 의미한다.
도 13은 본 발명의 일 실시예에서 구축한 tHRD 모델로 실제 난소암 환자를 분류하여 플래티넘 약물 치료 후, 암 전이 기간을 이용해 생존 분석을 수행한 결과로서, (A)는 12개월, (B)는 24개월, (C)는 전체 기간을 의미한다.
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법 및 이하에 기술하는 실험 방법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또한, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명에서는, 샘플에서 획득한 유전자들의 비기능성 전사체들의 전사체별 발현량 정보를 기반으로 각 비기능성 전사체의 사용율(TU 값)을 계산한 다음, TU값을 분석하여 수득한 값을 기준값과 비교하여 PARP 저해제 또는 DNA 손상 약물의 감수성을 판정할 경우, 유전체에 나타난 흔적으로 감수성을 예측하는 방법보다 높은 정확도로 PARP 저해제 또는 DNA 손상 약물의 감수성을 판정할 수 있다는 것을 확인하고자 하였다.
즉, 본 발명의 일 실시예에서는, 유방암/난소암 환자 데이터로부터 genomic HRD를 산출하여 gHRD(+) 그룹과 gHRD(-) 그룹으로 분류한 다음, 전사체 구조 데이터베이스를 기반으로 유전자별 major isoform 및 복수의 minor isoform들을 구별한 뒤, 각 minor isoform 별 전사체의 전사체 사용률(transcripts usage, TU)값을 산출한 다음, gHRD(+) 에서 minor isoform 이 과발현되는 즉 aberrant TU(aTU)를 보이는 유전자들을 발굴한 결과 이들이 주로 DNA 수선에 관련한 유전자임을 발견하였으며, 이에 각 암종별로 약물 감수성 판정을 최적화하기 위해 사용할 유전자들 및 그들의 minor isoform을 선별하였으며, 이들 minor isoform들의 TU 값들을 random forest model의 input data로 활용하여 HRD의 유무를 결정하도록 하는 인공지능 모델을 학습시켜, tHRD가 양성일 경우, PARP 저해제 또는 DNA 손상 약물의 감수성이 높은 것으로 판정하는 방법을 개발하였다(도 1).
따라서 본 발명은 일 관점에서,
a) 생체시료에서 핵산을 추출하여 DNA 수리(repair) 관련 유전자들의 비기능성 전사체들의 전사체(transcript)별 발현량을 획득하는 단계;
b) 획득한 발현량을 기반으로 유전자별 비기능성 전사체들의 전사체별 사용율(Transcript Usage, TU)을 계산하는 단계; 및
c) 계산된 TU값을 분석하여 수득한 값이 기준값 이상일 경우, PARP(Poly ADP Ribose Polymerase) 저해제 또는 DNA 손상 약물(genotoxic drugs)에 대한 감수성(susceptibility)이 있는 것으로 판정하는 단계를 포함하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법에 관한 것이다.
본 발명에 있어서, 상기 핵산은 RNA인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 a) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다:
a-i) 혈액, 정액, 질 세포, 모발, 타액, 소변, 구강세포, 암 조직 세포, FFPE 샘플 및 이의 혼합물에서 핵산을 수득하는 단계;
a-ii) 채취된 핵산에서 솔팅-아웃 방법(salting-out method), 컬럼 크로마토그래피 방법(column chromatography method) 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
a-iii) 정제된 핵산에 대하여, DNA 수리 관련 유전자들을 풍부화(enrichment) 하여 라이브러리(library)를 제작하는 단계;
a-iv) 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
a-v) 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계.
본 발명에서 상기 DNA 수리 관련 유전자들을 풍부화하는 방법은 통상의 기술자에게 공지된 기술이면 모든 방법이 사용가능하며, 프로브 기반의 포획(capture), 프라이머 기반의 증폭(amplification) 방법이 있으나, 이에 한정되는 것은 아니다.
본 발명에서 상기 라이브러리는 cDNA로 구성될 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 상기 차세대 유전자서열검사기(next-generation sequencer)는 당업계에 공지된 임의의 시퀀싱 방법으로 사용될 수 있다. 선택 방법에 의해 분리된 핵산의 시퀀싱은 전형적으로는 차세대 시퀀싱(NGS)을 사용하여 수행된다. 차세대 시퀀싱은 개개의 핵산 분자 또는 고도로 유사한 방식으로 개개의 핵산 분자에 대해 클론으로 확장된 프록시 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 포함한다(예를 들어, 105개 이상의 분자가 동시에 시퀀싱된다). 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 상대적 발생 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있고, 예를 들어 본 명세서에 참조로서 포함된 문헌(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)에 기재된다.
일 실시형태에서, 차세대 시퀀싱은 개개의 핵산 분자의 뉴클레오타이드 서열을 결정하기 위해 한다(예를 들어, 헬리코스 바이오사이언스(Helicos BioSciences)의 헬리스코프 유전자 시퀀싱 시스템(HeliScope Gene Sequencing system) 및 퍼시픽바이오사이언스의 팩바이오 알에스 시스템(PacBio RS system)). 다른 실시형태에서, 시퀀싱, 예를 들어, 더 적지만 더 긴 리드를 만들어내는 다른 시퀀싱 방법보다 시퀀싱 단위 당 서열의 더 많은 염기를 만들어내는 대량병렬의 짧은-리드 시퀀싱(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer)) 방법은 개개의 핵산 분자에 대해 클론으로 확장된 프록시의 뉴클레오타이드 서열을 결정한다(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer); 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재) 및 아이온 토렌트(Ion Torrent)). 차세대 시퀀싱을 위한 다른 방법 또는 기계는, 이하에 제한되는 것은 아니지만, 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재), 어플라이드 바이오시스템스(캘리포니아주 포스터 시티에 소재; SOLiD 시퀀서), 헬리코스 바이오사이언스 코포레이션(매사추세츠주 캠브릿지에 소재) 및 에멀젼 및 마이크로 유동 시퀀싱 기법 나노 점적(예를 들어, 지누바이오(GnuBio) 점적)에 의해 제공된다.
차세대 시퀀싱을 위한 플랫폼은, 이하에 제한되는 것은 아니지만, 로슈(Roche)/454의 게놈 시퀀서(Genome Sequencer: GS) FLX 시스템, 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(Genome Analyzer: GA), 라이프(Life)/APG의 서포트 올리고(Support Oligonucleotide Ligation Detection: SOLiD) 시스템, 폴로네이터(Polonator)의 G.007 시스템, 헬리코스 바이오사이언스의 헬리스코프 유전자 시퀀싱 시스템(Helicos BioSciences' HeliScope Gene Sequencing system) 및 퍼시픽 바이오사이언스(Pacific Biosciences)의 팩바이오알에스(PacBio RS) 시스템을 포함한다.
본 발명에서 용어 "샘플", "조직 샘플", "환자 샘플", "환자 세포 또는 조직 샘플" “암 조직 세포”, “샘플” 또는 "표본"은 각각 피험체 또는 환자의 조직 또는 순환 세포로부터 얻은 유사한 세포의 수집을 지칭한다. 조직 샘플의 공급원은 신선한, 냉동 및/또는 보존된 기관, 조직 샘플, 생검 또는 흡입으로부터의 고형 조직; 혈액 또는 임의의 혈액 구성요소; 체액, 예컨대 뇌척수액, 양수, 복막액 또는 세포간질액; 또는 피험체의 임신 또는 발생에서 어느 시점으로부터의 세포일 수 있다. 조직 샘플은 자연에서 조직과 자연적으로 상호혼합되지 않는 화합물, 예컨대 보존제, 항응고제, 완충제, 정착제, 영양제, 항생제 등을 함유할 수 있다. 일 실시형태에서, 샘플은 냉동 샘플로서 또는 포름알데하이드- 또는 파라포름알데하이드-고정 파라핀-포매(paraformaldehyde-fixed paraffin-embedded: FFPE) 조직 제조물로서 제조된다. 예를 들어, 샘플은 매트릭스, 예를 들어 FFPE 블록 또는 냉동 샘플에서 포매될 수 있다.
일 실시형태에서, 샘플은 종양 샘플이며, 예를 들어, 하나 이상의 전암성 또는 악성 세포를 포함한다. 특정 실시형태에서, 샘플, 예를 들어 종양 샘플은 고형 종양, 연조직 종양 또는 전이성 병변으로부터 획득된다. 다른 실시형태에서, 샘플, 예를 들어 종양 샘플은 수술절제면으로부터 조직 또는 세포를 포함한다. 다른 실시형태에서, 샘플, 예를 들어 종양 샘플은 하나 이상의 혈중 종양 세포(CTC)(예를 들어, 혈액 샘플로부터 획득한 CTC)를 포함한다.
본 발명에서 상기 유전자별 비기능성 전사체의 발현량을 획득하는 단계는 통상의 기술자에게 공지된 NGS 기반의 RNA-seq 데이터 분석방법이면 제한없이 이용가능하다.
본 발명에 있어서, 상기 DNA 수리 관련 유전자들은 DNA repair와 관련되어 있다고 알려진 유전자이면 제한없이 포함할 수 있으며, 바람직하게는 ABL1, ALKBH1, APEX1, APTX, ASF1A, ATM, ATP23, ATR, ATRX, ATXN3, BLM, BRCA1, BRCA2, BTG2, CCNO, CDKN2D, CEBPG, CIB1, CSNK1D, CSNK1E, DDB1, DDB2, ERCC1, ERCC2, ERCC3, ERCC4, ERCC5, ERCC6, ERCC8, EXO1, FANCA, FANCC, FANCG, FEN1, GADD45A, GADD45G, GTF2H1, GTF2H4, HMGB1, HMGB1P10, HMGB2, HUS1, IGHMBP2, KAT5, LIG1, LIG3, LIG4, MLH1, MMS19, MNAT1, MPG, MRE11, MSH2, MSH3, MSH5, MSH6, MUTYH, NBN, NHEJ1, NTHL1, OGG1, PARP1, PARP3, PMS1, PMS2, PMS2P1, PNKP, POLA1, POLD1, POLE, POLE2, POLG, POLH, POLI, POLL, POLQ, PRKCG, RAD1, RAD17, RAD21, RAD23A, RAD23B, RAD50, RAD51, RAD51B, RAD51C, RAD52, RAD54B, RAD54L, RAD9A, RBBP8, RECQL, RECQL4, RECQL5, REV1, RFC3, RPA1, RPAIN, RUVBL2, SETX, SMC1A, SMUG1, SOD1, SUMO1, TDG, TNP1, TP53, TP73, TREX2, UBE2A, UBE2B, UBE2N, UBE2V1, UBE2V2, UNG, UPF1, UVRAG, VCP, WRNIP1, XAB2, XPC, XRCC2, XRCC3, XRCC4, XRCC6, BABAM2, BRIP1, CDCA5, CHEK1, DCLRE1C, FANCB, FANCI, MGME1, MND1, MUS81, NEIL1, PARP9, RAD51AP1, RFC4, SMARCB1, TICRR, TRIP13, UBE2T, USP47, ABRAXAS1, ASCC1, CHEK2, NSMCE4A, PARP2, RAD51AP1, RHNO1, RMI2, RPS3, TNKS1BP1, UBB, UIMC1 및 USP45로 구성된 군에서 선택되는 10개 이상의 유전자인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 PARP 저해제 또는 DNA 손상 약물이 유방암에 적용될 경우, 상기 DNA 수리 관련 유전자들은 ALKBH2, ATXN3, BABAM2, BRIP1, CDCA5, CHEK1, DCLRE1C, DDB2, ERCC1, EXO1, FANCB, FANCC, FANCI, FEN1, KAT5, MGME1, MND1, MSH5, MUS81, NEIL1, PARP3, PARP9, POLD1, RAD51, RAD51AP1, RAD54L, RFC4, RPAIN, SMARCB1, SMC1A, TICRR, TRIP13, UBE2T, UBE2V2 및 USP47로 구성된 군에서 선택되는 10개 이상의 유전자인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 PARP 저해제 또는 DNA 손상 약물이 난소암에 적용될 경우, 상기 DNA 수리 관련 유전자들은 ABRAXAS1, ASCC1, BLM, CHEK2, ERCC1, EXO1, GADD45A, MUTYH, NSMCE4A, PARP2, POLE2, RAD51AP1, RAD51B, RECQL4, RHNO1, RMI2, RPS3, SUMO1, TNKS1BP1, UBB, UBE2A, UIMC1, USP45, VCP 및XPC로 구성된 군에서 선택되는 10개 이상의 유전자인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 a) 단계의 비기능성 전사체는 마이너 동형체(minor isoform)인 것을 특징으로 할 수 있으며, 상기 마이너 동형체는 단백질의 정상적인 번역이 이루어지지 않거나, 기능이 손실된 단백질로 번역될 것으로 추정되는 전사체 또는 단백질 번역에 이용되지 않는 전사체를 포함할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 a) 단계의 비기능성 전사체들은 공지된 데이터베이스(예를 들어, APRIS 데이터베이스)에서 각 유전자별로 잘 보존된 단백질을 코딩하는 전사체(예들 들어 APRIS 데이터베이스에서는 principal (1~5)에 해당하는 전사체)를 제거하고 남은 전사체인 것을 특징으로 할 수 있다.
본 발명에서 상기 비기능성 전사체들은, 추후 분석의 정확도를 향상 시키기 위하여 유전자별 평균 Count per million (CPM) 값이 1 이상인 유전자에서 유래하는 비기능성 전사체를 선별하는 단계를 추가로 포함할 수 있다.
본 발명에 있어서, 상기 b) 단계의 유전자별 비기능성 전사체들의 전사체별 사용율(Transcript Usage, TU)을 계산하는 단계에서, 상기 TU값은 하나의 유전자에서 발생하는 모든 전사체의 TPM 값의 합을 분모로 취하고, 각각의 전사체의 TPM을 분자로 하는 비율 형태의 단위인 것을 특징으로 할 수 있으며, 바람직하게는 하기 수식 1로 계산되는 것을 특징으로 할 수 있다:
수식 1:
Figure pat00001
여기서 TPM은 transcripts per million을 의미함.
본 발명에서, 상기 유전자별 비기능성 전사체들의 발현량을 획득한 다음, 추후 분석의 정확도를 향상시키기 위하여 선별한 유전자에서 특정 전사체의 TU값이 1 내지 5% 이상, 바람직하게는 3% 이상인 전사체를 선별하는 단계를 추가로 포함할 수 있다.
본 발명에 있어서, 상기 c) 단계의 계산된 TU값을 분석하여 값을 수득하는 단계는 유전체 상동성 재조합 결핍(genomic Homologous Recombinant Deficiency, gHRD) 양성 또는 약물 반응성이 있는 것으로 알려진 샘플에서 과발현되는 비기능성 전사체들의 TU 값에 특정 가중치를 곱하여 합산하여 특정 범위의 판정값을 도출하거나, 각 비기능성 전사체들의 TU 값이 특정 기준치를 초과하는 양상에 따라 최종 판정을 하는 의사결정 절차를 사용하는 것을 특징으로 할 수 있다.
본 발명에서 상기 특정 가중치는 특정 범위의 판정값을 도출하기 위한 값이면 제한없이 이용가능하며, 유전체 상동성 재조합 결핍(genomic Homologous Recombinant Deficiency, gHRD) 양성 또는 약물 반응성이 있는 것으로 알려진 샘플에서 과발현되는 비기능성 전사체들의 TU값이 클수록 큰 값을 가지는 것을 특징으로 할 수 있다.
본 발명에서 상기 특정 범위의 판정값은 PARP 저해제 또는 DNA 손상 약물의 감수성 양성과 음성을 판별할 수 있는 값이면 제한없이 이용가능하며 바람직하게는 0 내지 1사이로 정규화될 수 있는 값일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 상기 특정 기준치는 유전체 상동성 재조합 결핍(genomic Homologous Recombinant Deficiency, gHRD) 양성 또는 약물 반응성이 있는 것으로 알려진 샘플에서 수득한 비기능성 전사체, 바람직하게는 과발현되는 비기능성 전사체의 TU값을 바탕으로 결정할 수 있으나, 이에 한정되는 것은 아니다.
예를 들어, 본 발명에서 상기 c) 단계의 계산된 TU값을 분석하여 값을 수득하는 단계는 유전체 상동성 재조합 결핍(genomic Homologous Recombinant Deficiency, gHRD) 양성 또는 약물 반응성이 있는 것으로 알려진 샘플에서 과발현되는 비기능성 전사체들에 해당하는 비기능성 전사체들의 TU값에 가중치를 곱한후, 합산하여 0 내지 1 사이의 값으로 정규화하여 도출하는 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다.
본 발명에서 상기 가중치는 합산한 값이 0 내지 1 사이의 값이 되도록 부여하는 값이면 제한없이 이용가능하며, 유전체 상동성 재조합 결핍(genomic Homologous Recombinant Deficiency, gHRD) 양성 또는 약물 반응성이 있는 것으로 알려진 샘플에서 과발현되는 비기능성 전사체들의 TU값이 클수록 큰 값을 가지는 것을 특징으로 할 수 있다.
예를 들어, 본 발명에서 상기 c) 단계의 계산된 TU값을 분석하여 값을 수득하는 단계는 수득한 각 비기능성 전차세들의 TU값을 유전체 상동성 재조합 결핍(genomic Homologous Recombinant Deficiency, gHRD) 양성 또는 약물 반응성이 있는 것으로 알려진 샘플에서 수득한 비기능성 전사체들의 TU값들을 기반으로 판정하는 의사결정 절차를 사용하여 수행할 수 있다.
본 발명에 있어서, 상기 c) 단계의 계산된 TU값을 분석하여 값을 수득하는 단계는 인공지능 모델을 이용하여 수행하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 인공지능 모델은 기존에 이미 알려진 유전체 상동성 재조합 결핍(genomic Homologous Recombinant Deficiency, gHRD) 양성 샘플 또는 약물 반응성 양성 샘플에서 도출한 유전자별 비기능성 전사체들의 TU 값에 대한 가중치 및 그로부터 도출된 판정값의 기준치, 혹은 의사결정을 위한 각 TU 값의 기준치 및 의사결정 절차 구조를 기계학습하여 gHRD 또는 약물 반응성과 유전자별 비기능성 전사체 발현량의 관계에 대한 예측모델을 구축하는 것을 특징으로 할 수 있다.
즉, 본 발명의 인공지능 모델은 gHRD 양성 또는 약물 반응성 양성 샘플에서 과발현되는 유전자별 비기능성 전사체들의 TU값에 부과할 수 있는 가중치들의 조합들과 그 가중화된 TU 값들의 합산으로 이루어지는 판정값의 기준치를 다양한 환자별 전사체 발현 양상을 반영할 수 있도록 기계학습하여 예측모델을 구축하거나, gHRD 양성 또는 약물 반응성 양성 샘플에서 과발현되는 유전자별 비기능성 전사체들의 TU 값을 각각의 기준치와 비교하는 의사결정 과정을 다양한 환자별 전사체 발현 양상을 반영할 수 있도록 구조화하여 기계학습을 통해 예측모델을 구축하는 것이다.
예를 들어, 본 발명의 인공지능 모델은 gHRD 양성 또는 약물 반응성 양성 샘플에서 과발현되는 유전자별 비기능성 전사체들의 TU값에 가중치를 곱하여 합산한 값을 1에 가깝도록 학습하여, 예측모델을 구축하는 것이다.
본 발명에서 상기 다양한 환자별 전사체 발현 양상은 환자에 따라 과발현되는 전사체의 종류와 양상을 의미할 수 있다.
따라서, input data로 특정 TU값의 조합이 입력되었을 때, gHRD 양성 또는 약물 반응성 양성 샘플과 유사한 조합일수록 양성에 가까운 의사결정값이나 판정값이 출력되므로, 이를 기준값과 비교하여 기준값 이상일 경우에는 PARP 저해제 또는 DNA 손상 약물에 감수성이 있다고 판정하는 것이다.
본 발명에 있어서, 상기 기준값은 샘플의 PARP 저해제 또는 DNA 손상 약물에 대한 감수성을 판정할 수 있는 값이면 제한없이 사용할 수 있으며, 바람직하게는 0.5 내지 1, 더욱 바람직하게는 0.5 내지 0.8, 가장 바람직하게는 0.5 일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 기계학습은 지도학습이면 제한 없이 이용가능하나, 바람직하게는 K-최근접 이웃(k-Nearest Neighbors), 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(SVM, Support Vector Machine), 의사결정나무(Decision Tree), 랜덤 포레스트(Random Forest) 및 신경망(Neural Network)으로 구성된 군에서 선택되는 어느 하나 이상의 방법으로 수행되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 상기 기계학습을 랜덤 포레스트로 사용할 경우, 하위 의사결정 트리는 하기 수식 2로 계산되는 지니 불순도를 최소화하는 방향으로 학습하게 된다:
수식 2:
Figure pat00002
여기서, i는 i번째 노드, n은 결과값 클래스의 개수, k는 결과값의 k번째 클래스를 의미하고, pi,k 는 i번째 노드에 있는 훈련 샘플 중 클래스 k에 속한 샘플의 비율을 의미한다.
본 발명에서, 상기 랜덤 포레스트는 하나의 훈련 데이터를 기반으로 중복을 허용하는 여러 개의 훈련 데이터를 만든 다음, 이를 기반으로 여러 개의 하위 의사결정 트리를 훈련한 다음, 이들 모델 예측의 평균을 계산하여 최종 예측값을 도출하게 된다.
본 발명에서 상기 기계학습이 gHRD를 기준으로 학습될 경우, DNA repair 에 관련된 유전자들의 minor isoform들의 TU 값을 input data로 이용하여 HRD 상태를 예측하도록 학습되었는데, 이 때 HRD 상태는 gHRD를 기준으로 하여 분류하였다.
gHRD 방법은 이미 BRCA1/2 의 추가 돌연변이 등으로 HR 기능이 복구된 경우에도 양성을 나타내거나, 기술적인 artifact들로 인하여 HR 기능과 전혀 상관없이 양성을 나타내는 false positive가 많음이 알려져 있으며, 실제로 gHRD(+) 로 예측된 샘플들의 PARP 저해제나 플래티넘 약물에 대한 감수성은 50%도 되지 않음이 보고되었다. 따라서 gHRD(+) 그룹 내에서도 minor isoform의 TU가 통계적으로 유의미하게 높은 전사체가 있는 샘플만이 기능적으로 HRD가 있으며 실제적으로 PARP 저해제나 DNA 손상 약물에 감수성이 있는 것으로 결정할 수 있도록 학습이 가능한 것이다. 또한 이러한 낮은 정밀도의 문제로 인하여 gHRD의 기준값이 높아짐에 따라, 실제로 기능적으로 HRD가 있고 약물 감수성이 있음에도 불구하고 기준값을 통과하지 못하는 false negative 가 발생함에 따라 재현율도 낮아지게 된다. 따라서 실제로 기능적인 aTU 양상을 보이는 경우만을 판별함으로써 정밀도와 재현율 모두 향상이 가능하므로 전체적인 정확도가 높아지게 되는 것이다.
본 발명에서 상기 기계학습이 약물 반응성을 기준으로 학습될 경우, DNA repair 에 관련된 유전자들의 minor isoform들의 TU 값을 input data로 이용하여 PARP 저해제나 플래티넘 등 DNA 손상 약물에 대한 반응성을 예측하도록 학습되었는데, 이 때 약물에 대한 반응성은 통상의 방법대로 약물치료 이후 6개월 이내 암 진행 여부를 기준으로 하였다. 이에 따라 6개월 이내 암이 진행되는 경우를 저항성 환자로, 진행이 되지 않은 경우를 반응성 환자로 구분하였다.
본 발명에서는 상기 인공지능 모델에 의해서 HRD 양성 혹은 약물 반응성으로 판정되는 샘플은 “전사체 기반 상동성 재조합 결핍(transcriptional homologous recombination deficiency, tHRD)”를 보유한다고 정의하였다.
본 발명에서는 “genomic scar”및 “signature3”를 기준으로 유전체 레벨에서 HRD를 나타내는 그룹(gHRD(+))과 HRD를 나타내지 않는 그룹(gHRD(-)) 사이의 TU 값의 차이를 통계적으로 분석하여 특정 minor isoform이 상대적으로 과발현되는 경우를 aberrant TU(aTU)로 정의하였으며, gHRD(+) 그룹에서 과발현되는 경우를 “aTU in gHRD(+)”로, gHRD(-) 그룹에서 과발현되는 경우를 “aTU in gHRD(-)”로 결정하였다.
이론적으로는 동일 유전자에서 aTU in gHRD(+) 에 해당하는 isoform과 aTU in gHRD(-) 에 해당하는 isoform이 모두 나올 수 있으나, 실제적으로는 DNA repair에 관련된 유전자들에서는 aTU in gHRD(+)가 훨씬 빈번하게 나타나는 것을 확인하였다.
본 발명에서 용어 “genomic scar” 및 “signature 3”는 상동성 재조합의 기능이 상실된 세포에서 나타나는 염색체 재배열 혹은 돌연변이 양상을 의미하는 것으로, 상동성 재조합 pathway의 어느 부분이 소실 되었는지 와는 관계없이 전체 유전체 레벨에서 발생하는 염색체 재배열 혹은 돌연변이 양상을 의미하며, array-based comparative genomic hybridization (aCGH), single nucleotide polymorphism (SNP) genotyping 및 next generation sequencing (NGS)으로 확인할 수 있다.
본 발명에 있어서, 상기 PARP 저해제는 PARP 단백질의 활성을 저해할 수 있는 물질이면 제한없이 이용가능하나, 바람직하게는 PARP 단백질 활성을 저해하는 천연 화합물, 합성 화합물, DNA, RNA, 펩티드, 효소, 리간드, 세포 추출물 또는 포유동물의 분비물일 수 있으며, 더욱 바람직하게는 AZD2281(올라파립, Olaparib), ABT888(벨리파립, Veliparib), AG014699(루카파립, Rucaparib), MK-4827(니라파립, Niraparib), BMN-673(탈라조파립, Talazoparib), BSI201(이니파립, Iniparib), BGP15(O-(3-piperidino-2-hydroxy-1-propyl)nicotinicamidoxime),INO1001(3-Aminobenzamide), ONO2231, 니코틴아미드(nicotinamide), 3-아미노벤즈아미드(3-aminobenzamide), ,4-디히드로-5-[4-(1-피페리디닐)부톡시]-1(2H)-이소퀴놀론(3,4-dihydro-5-[4-(1-piperidinyl)butoxy]-1(2H)-isoquinolone), 벤즈아미드(benzamide), 퀴놀론(quinolone), 이소퀴놀론(isoquinolone), 벤조피론(benzopyrone), 사이클릭 벤즈아미드(cyclic benzamide), 벤즈이미다졸(benzimidazole), 인돌(indole) 및 펜안트리디논(phenanthridinone)으로 구성된 군에서 선택되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 PARP 저해제의 표적 암 질환은 ACTH 생성 종양, 급성 림프구성 또는 림프아구성 백혈병, 급성 또는 만성의 림포구성 백혈병, 급성 비림프구성 백혈병, 방광암, 뇌종양, 유방암, 경관암, 만성 골수성 백혈병, 림프종, 자궁내막증, 식도암, 방광암, 에윙스 육종(Ewing's sarcoma), 설암, 홉킨스 림프종, 카포시스 육종, 신장암, 간암, 폐암, 중피종, 다발성 골수종, 신경아세포종, 비홉킨 림프종, 골육종, 난소암, 유선암, 전립선암, 췌장암, 대장암, 페니스암, 레티노블라스토마, 피부암, 위암, 갑상선압, 자궁암, 고환암, 윌름스 종양 및 트로포블라스토마로 구성된 군에서 선택되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 DNA 손상 약물은 세포 내 DNA의 crosslink, double-strand break, intercalation 을 유도하는 등 DNA에 변형을 일으키는 약물이면 제한없이 이용가능하며, 바람직하게는 블레오마이신(Bleomycin), 시스플라틴(Cisplatin), 카보플라틴(carboplatin), 옥살리플라틴(Oxaliplatin), 네다플라틴(Nedaplatin), 독소루비신(Doxorubicin), 에토포시드(Etoposide) 및 SN38로 구성된 군에서 선택되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 따른 PARP 저해제 또는 DNA 손상 약물 감수성 판정 방법은 하나의 구체화된 형태로 다음과 같은 단계를 포함하여 이루어질 수 있지만, 이에 한정되는 것은 아니다(도 1).
(1) 생체시료에서 대규모병렬서열분석(massive parallel sequencing) 방법으로 RNA 단편(reads) 데이터 확보
(2) 상기 RNA 단편 데이터를 휴먼 참조 유전체에 정렬
(3) 상기 정렬된 데이터에서 퀄리티에 따른 필터링 수행
(4) 판정에 사용할 DNA 수리 관련 유전자들의 비기능성 전사체 선별
(5) 유전자별 비기능성 전사체의 발현량 획득
(6) 유전자별 비기능성 전사체들의 전사체별 사용율(TU) 계산
(7) 약물 감수성 판정 인공지능 모델에 TU값 입력하여 출력값 도출
(8) 출력값과 기준값을 비교하여 약물 감수성 판정
본 발명은 다른 관점에서, 본 발명에 따른 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정방법에 이용되는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 장치로서, 상기 장치는
(1) 생체시료에서 핵산을 추출하여 DNA 수리(repair) 관련 유전자들의 비기능성 전사체들의 전사체(transcript)별 발현량을 획득하는 정보 획득부;
(2) 획득한 발현량을 기반으로 유전자별로 비기능성 전사체들의 전사체별 사용율(Transcript Usage, TU)을 계산하는 계산부; 및
(3) 계산된 TU값을 분석하여 수득한 값이 기준값 이상일 경우, PARP(Poly ADP Ribose Polymerase) 저해제 또는 DNA 손상 약물(genotoxic drugs)에 대한 감수성(susceptibility)이 있는 것으로 판정하는 감수성 판정부;
를 포함하는 것을 특징으로 하는 감수성 판정 장치에 관한 것이다.
본 발명에서 상기 정보 획득부는 독립적으로 생산된 생체시료에서 대규모병렬서열분석 방법으로 수득한 RNA 단편(reads) 데이터를 수신하는 데이터 수신부; 수신한 데이터를 참조 유전체에 정렬하는 데이터 정렬부; 데이터 퀄리티에 따라 필터링을 수행하는 필터링부; 및 DNA 수리 관련 유전자들의 비기능성 전사체들을 선별하여 이들의 발현량을 획득하는 발현량 획득부를 포함할 수 있으나, 이에 한정되는 것은 아니다.
본 발명은 또 다른 관점에서, 본 발명에 따른 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정방법에 이용되는 컴퓨터 판독 가능한 기록매체로서, 상기 매체는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성을 판정하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
a) 생체시료에서 핵산을 추출하여 DNA 수리(repair) 관련 유전자들의 비기능성 전사체들의 전사체(transcript)별 발현량을 획득하는 단계;
b) 획득한 발현량을 기반으로 유전자별 비기능성 전사체들의 전사체별 사용율(Transcript Usage, TU)을 계산하는 단계; 및
c) 계산된 TU값을 분석하여 수득한 값이 기준값 이상일 경우, PARP(Poly ADP Ribose Polymerase) 저해제 또는 DNA 손상 약물(genotoxic drugs)에 대한 감수성(susceptibility)이 있는 것으로 판정하는 단계를 포함하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 기록매체에 관한 것이다.
다른 양태에서 본원에 따른 방법은 컴퓨터를 이용하여 구현될 수 있다. 일 구현예에서, 컴퓨터는 칩 세트에 연결된 하나 이상의 프로세서를 포함한다. 또한 칩 세트에는 메모리, 저장 장치, 키보드, 그래픽 어댑터(Graphics Adapter), 포인팅 장치(Pointing Device) 및 네트워크 어댑터(Network Adapter) 등이 연결되어 있다. 일 구현예에서, 상기 칩 세트의 성능은 메모리 컨트롤러 허브(Memory Controller Hub) 및 I/O 컨트롤러 허브에 의하여 가능하다. 다른 구현예에서, 상기 메모리는 칩 세트 대신에 프로세서에 직접 연결되어 사용될 수 있다. 저장 장치는 하드 드라이브, CD-ROM(Compact Disk Read-Only Memory), DVD 또는 기타 메모리 장치를 포함하는 데이터를 유지할 수 있는 임의의 장치이다. 메모리는 프로세서에 의하여 사용된 데이터 및 명령에 관여한다. 상기 포인팅 디바이스는 마우스, 트랙볼 (Track Ball) 또는 다른 유형의 포인팅 디바이스일 수 있고, 키보드와 조합하여 입력 데이터를 컴퓨터 시스템으로 전송하는데 사용된다. 상기 그래픽 어댑터는 디스플레이 상에서 이미지 및 다른 정보를 나타낸다. 상기 네트워크 어댑터는 근거리 또는 장거리 통신망으로 컴퓨터 시스템과 연결된다. 본원에 사용되는 컴퓨터는 하지만 위와 같은 구성으로 제한되는 것은 아니고, 일부 구성이 없거나, 추가의 구성을 포함 할 수 있으며, 또한 저장장치영역네트워크(Storage Area Network, SAN)의 일부일 수 있으며, 본원의 컴퓨터는 본원에 따른 방법의 수행을 위한 프로그램에 모듈의 실행에 적합하도록 구성될 수 있다.
본원에서 모듈이라 함은, 본원에 따른 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스(Resource)의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본원 기술분야의 당업자에게 자명한 것이다.
본원에 따른 방법은 하드웨어, 펌웨어, 또는 소프트웨어 또는 이들의 조합으로 구현될 수 있다. 소트프웨어로 구현되는 경우 저장매체는 컴퓨터와 같은 장치에 의해 판독가능한 형태의 저장 또는 전달하는 임의의 매체를 포함한다. 예를 들면 컴퓨터 판독가능한 매체는 ROM(Read Only Memory); RAM(Random Access Memory); 자기디스크 저장 매체; 광저장 매체; 플래쉬 메모리 장치 및 기타 전기적, 광학적 또는 음향적 신호 전달 매체 등을 포함한다.
이러한 측면에서 본원은 또한 상술한 본원에 따른 단계를 포함하는 동작을 수행하도록 하는 프로세서를 실행시키는 실행모듈을 포함하는 컴퓨터 판독 가능한 매체에 관한 것이다.
본 발명은 또 다른 관점에서, 본 발명에 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정방법에 이용되는 표적화 RNA 서열분석(Targeted RNA-Seq) 키트로서, 상기 키트는
DNA 수리 관련 유전자들의 전사체를 포획하는 프로브; 및 포획한 전사체를 증폭하는 프라이머를 포함하는 것을 특징으로 하는 표적화 RNA 서열분석 키트에 관한 것이다.
본 발명에서 상기 전사체는 비기능성 전사체인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 키트는 버퍼(buffer), DNA 중합효소(DNA polymerase), DNA 중합효소 조인자(DNA polymerase cofactor) 및 데옥시리보뉴클레오티드-5-트리포스페이트(dNTP)와 같은 핵산 증폭 반응(예컨대, 중합효소연쇄반응)을 실시하는데 필요한 시약을 선택적으로 포함할 수 있다. 선택적으로, 본 발명의 키트는 또한 다양한 올리고뉴클레오티드(oligonucleotide) 분자, 역전사효소(reverse transcriptase), 다양한 버퍼 및 시약, 및 DNA 중합효소 활성을 억제하는 항체를 포함할 수 있다. 또한, 상기 키트의 특정 반응에서 사용되는 시약의 최적량은, 본 명세서에 개시사항을 습득한 당업자에 의해서 용이하게 결정될 수 있다. 전형적으로, 본 발명의 장비는 앞서 언급된 구성 성분들을 포함하는 별도의 포장 또는 컴파트먼트(compartment)로 제작될 수 있다.
하나의 실시예에서, 상기 키트는 샘플을 담는 구획된 캐리어 수단, 시약을 포함하는 용기, 프로브 또는 프라이머를 포함하는 용기 및 상기 증폭 산물을 검출하기 위한 프로브를 포함하는 용기를 포함할 수 있다.
상기 캐리어 수단은 병, 튜브와 같은 하나 이상의 용기를 함유하기에 적합하고, 각 용기는 본 발명의 방법에 사용되는 독립적 구성요소들을 함유한다. 본 발명의 명세서에서, 당해 분야의 통상의 지식을 가진 자는 용기 중의 필요한 제제를 손쉽게 분배할 수 있다.
실시예
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예 1. 유방암, 난소암 환자의 유전체 데이터 및 전사체 데이터 수득
TCGA 데이터베이스로부터 whole-exome sequencing (WES), genotyping data (Affymetrix SNP chip), RNA sequencing (RNA-seq) 데이터가 가용한 유방암 645명의 샘플 및 platinum 치료 반응 데이터가 가용한 난소암 315명의 샘플에 대한 데이터를 수집하였다(https://portal.gdc.cancer.gov/). 유방암 세포주의 경우 CCLE 데이터베이스로부터 WES 및 RNA-seq 데이터를 획득하였다(https://portals.broadinstitute.org/ccle).
실시예 2. Genomic HRD(gHRD) 산출
실시예 1에서 수집한 샘플들의 genomic scar는 Affymetrix SNP 데이터 기반으로 기존 소프트웨어 (https://github.com/GerkeLab/TCGAhrd)를 사용하여 산출하였으며, WES 데이터를 기반으로 하는 mutational signature 3 는 TCGA에서 mSignatureDB (Po-Jung Huang. et al. mSignatureDB a database for deciphering mutational signatures in human cancers) 에서 deconstructSigs 를 사용하여 산출된 값을 사용하였다.
gHRD(+)와 gHRD(-)를 구분하기 위하여 genomic scar 와 mutational signature 3의 median 값을 기준으로 사용하였다. Index(genomic scar 와 mutational signature 3의 median 값) 간 불일치에 의한 오류를 제거하기 위해서 두 가지 index 모두의 median을 초과하는 경우는 gHRD(+)로 분류하였고 median 보다 이하인 경우는 gHRD(-)로 분류하였다.
실시예 3. Transcript Usage(TU) 산출
TCGA, CCLE 각각에서 RNA-seq bam 파일을 input으로 stringtie 2-pass method 를 사용해 novel transcript 의 TPM (transcripts per million)을 산출하였다. 해당 과정은 참고문헌(Mihaela Peratea. et al. Nat Protoc. Vol. 11(9), pp. 1650-1667, 2016.) 을 참고하였다.
Reference는 gencode v29 gtf (CCLE 의 경우 gencode v19 gtf 를 이용) 를 사용하여 assemble step 을 진행하였고, 거기에서 나온 개별 sample 들의 gtf 를 merge하여 제조한 merged.gtf를 새로운 reference annotation으로 사용하여 second pass transcript quantification step을 진행하였다.
기존 form으로 annotation 이 불가능한 de novo/novel transcript 의 경우, gene annotation을 위해 gffcompare를 사용하여 가장 유사한 annotated transcript의 gene을 해당 form에 할당하였다.
그 결과, 각 샘플에서 발현하는 대부분의 transcript 의 TPM 값을 얻었으며, 이를 기반으로 하기 수식 1로 각 transcript 별 TU를 산출하였다(도 2).
수식 1:
Figure pat00003
실시예 4. Minor isoform 선별
Isoform의 분류를 위해서는 APPRIS 데이터베이스(Jose Manuel Rodriguez. et al. Nucleic Acids Res. Vol. 46(D1):D213-D217, 2018.)에서 제공하는 transcript annotation을 사용하였으며 해당 annotation의 버전은 2019. 02. v29 이다.
Minor isoform (alternative transcript)을 정의하기 위해서 APPRIS 에서 제공하는 기준을 그대로 사용하였고, 기능적으로나 진화적으로 잘 보존된 protein 을 coding 하는 transcript 인 Principal (1~5)을 major form으로 판단하여 모두 제거하였으며, 결과적으로 alternative 혹은 not-report 로 이루어진 minor transcript set를 선별하였다.
발현양이 낮은 유전자를 필터링 하기 위해 gene 별 HTSeq read count data 를 통해 gene 별 Count per million (CPM) normalization 을 진행한 다음, 전체 sample 의 mean CPM > 1 인 gene 만을 선별하고, 이 genes에 대해 Transcript usage (TU)가 3% 이상 (TU >= 0.03) 인 경우 만을 최종 TU set 으로 선정하였다.
실시예 5. gHRD 관련 aberrant TU(aTU) 발굴 및 기능 분석
5-1. aTU 발굴
도 2에 기재된 바와 같이 gHRD(+), gHRD(-) group 간의 비교를 통해 aTU를 발굴하였다. 보다 정밀한 분류를 위하여 gHRD(+) 내에서 genomic scar 값이 상위 50% 인 샘플과 gHRD(-) 내에서 genomic scar 값이 하위 50% 인 샘플들을 추가 선별하였다.
이 두 그룹간 TU 값 차이의 통계적 유의성은 Mann-Whitney U test를 사용하였고, Benjanimi-Hochberg correction (BH correction) 을 사용하여 보정을 수행하였다.
gHRD(+) 에서 특정 minor isoform의 TU 가 유의하게 (FDR < 1%) 높은 경우를 aTU in gHRD(+) 로 정의하였고, 반대로 gHRD(-) 에서 특정 minor isoform의 TU 가 유의하게 (FDR < 1%) 높은 경우를 aTU in gHRD(-) 로 정의하였다.
5-2. 기능 분석 결과
유방암 환자 샘플을 대상으로 DNA repair, replication, recombination 3개의 Gene ontology parent terms 을 merge 하여 HR-related term (1,033개 유전자) 으로 정의하고, 이를 이용하여 GSEA (prerank) 분석한 결과, 도 3에 기재된 바와 같이 DNA repair 와 관련된 유전자들이 통계적으로 밀집되어 있는 것을 확인하였다.
5-1의 방법으로 Mann-Whitney U test (FDR < 5%) 의 U 값을 기준으로 transcript 를 sorting 하여 해당 matrix 에 HR-related term 을 overlap 하였다. 이때 U 값은 그 값이 클수록 해당 gene 의 minor isoform 이 gHRD(+) 샘플에서 더욱 많이 발현됨을 의미한다
5-1의 방법을 난소암에도 적용하여 aTU 를 발굴하였다. 난소암의 경우 유전자 개수의 부족으로 BH correction 은 적용하지 않고 Mann-Whitney U test 의 P < 0.05 를 적용하여 gene 별 most significant aTU 를 선정하였다. 이후 gene 별 방향성에 따라 aTU in gHRD(+), aTU in gHRD(+) 로 구분한 결과, 도 3(B)에 기재된 바와 같이, DNA repair와 관련된 유전자들이 통계적으로 밀집되어 있는 것을 확인하였다.
실시예 6. Transcriptional HRD (tHRD) 모델 구축
6-1. 모델 구축을 위한 input data 준비
실시예 5-1의 방법으로 도출한 유전자 중 DNA repair 에 해당되는 유전자를 선별한 결과, 유방암에서는 총 36 개의 유전자 (104 개 minor transcript), 난소암에서는 25개의 유전자 (89개 minor transcript) 를 선별하였다.
유방암 선별 유전자 그룹 및 transcript 리스트
Genes Minor isoforms Isoform type
RPAIN ENST00000327154.10-RPAIN protein_coding
ENST00000381208.9-RPAIN protein_coding
ENST00000405578.8-RPAIN protein_coding
ENST00000536255.6-RPAIN protein_coding
ENST00000572174.5-RPAIN retained_intron
ENST00000573126.1-RPAIN retained_intron
ENST00000575112.5-RPAIN nonsense_mediated_decay
MUS81 ENST00000524647.5-MUS81 nonsense_mediated_decay
ENST00000525006.1-MUS81 processed_transcript
ENST00000525224.5-MUS81 processed_transcript
ENST00000525768.5-MUS81 protein_coding
ENST00000529374.5-MUS81 protein_coding
ENST00000530282.1-MUS81 retained_intron
FEN1 ENST00000535307.1-FEN1 protein_coding
ENST00000535723.1-FEN1 protein_coding
SMARCB1 ENST00000344921.11-SMARCB1 protein_coding
ENST00000407422.8-SMARCB1 protein_coding
DCLRE1C ENST00000378242.1-DCLRE1C protein_coding
ENST00000489845.1-DCLRE1C processed_transcript
CDCA5 ENST00000404147.3-CDCA5 protein_coding
ENST00000479032.6-CDCA5 retained_intron
RAD51AP1 ENST00000228843.13-RAD51AP1 protein_coding
ENST00000442992.6-RAD51AP1 nonsense_mediated_decay
ENST00000544029.1-RAD51AP1 retained_intron
ALKBH2 ENST00000536358.1-ALKBH2 protein_coding
BABAM2 ENST00000361704.6-BABAM2 protein_coding
ENST00000379632.6-BABAM2 protein_coding
ATXN3 ENST00000340660.10-ATXN3 protein_coding
ENST00000393287.9-ATXN3 protein_coding
ENST00000503767.5-ATXN3 protein_coding
BRIP1 ENST00000577598.5-BRIP1 protein_coding
KAT5 ENST00000525600.1-KAT5 retained_intron
ENST00000530446.5-KAT5 protein_coding
ENST00000533441.1-KAT5 retained_intron
EXO1 ENST00000423131.5-EXO1 protein_coding
ENST00000518483.5-EXO1 protein_coding
ENST00000521202.2-EXO1 protein_coding
POLD1 ENST00000593407.5-POLD1 protein_coding
ENST00000595904.6-POLD1 protein_coding
ENST00000596221.1-POLD1 retained_intron
ENST00000596648.1-POLD1 retained_intron
ENST00000597963.5-POLD1 retained_intron
ENST00000600859.5-POLD1 nonsense_mediated_decay
CHEK1 ENST00000427383.6-CHEK1 protein_coding
ENST00000498122.4-CHEK1 nonsense_mediated_decay
ENST00000532449.5-CHEK1 protein_coding
ENST00000544373.5-CHEK1 protein_coding
RAD54L ENST00000459678.2-RAD54L nonsense_mediated_decay
ENST00000472889.2-RAD54L protein_coding
FANCI ENST00000310775.11-FANCI protein_coding
ENST00000566895.5-FANCI retained_intron
USP47 ENST00000305481.10-USP47 processed_transcript
ENST00000529813.1-USP47 retained_intron
MGME1 ENST00000377704.4-MGME1 protein_coding
ENST00000377709.1-MGME1 protein_coding
ENST00000467391.1-MGME1 processed_transcript
PARP3 ENST00000398755.7-PARP3 protein_coding
ENST00000470601.5-PARP3 retained_intron
ENST00000475782.1-PARP3 retained_intron
ENST00000498510.1-PARP3 protein_coding
RFC4 ENST00000417876.1-RFC4 protein_coding
ENST00000418288.5-RFC4 protein_coding
ENST00000494047.5-RFC4 retained_intron
FANCC ENST00000490972.7-FANCC protein_coding
MND1 ENST00000504860.2-MND1 protein_coding
ENST00000509752.5-MND1 nonsense_mediated_decay
FANCB ENST00000452869.1-FANCB protein_coding
ENST00000489126.1-FANCB retained_intron
PARP9 ENST00000462315.5-PARP9 protein_coding
ENST00000471785.5-PARP9 protein_coding
ENST00000489652.1-PARP9 retained_intron
SMC1A ENST00000375340.10-SMC1A protein_coding
ENST00000463684.1-SMC1A nonsense_mediated_decay
ENST00000470241.2-SMC1A protein_coding
DDB2 ENST00000378601.7-DDB2 nonsense_mediated_decay
TICRR ENST00000560985.5-TICRR protein_coding
ENST00000561095.1-TICRR nonsense_mediated_decay
RAD51 ENST00000525066.5-RAD51 nonsense_mediated_decay
ENST00000527860.5-RAD51 protein_coding
ENST00000531277.2-RAD51 nonsense_mediated_decay
UBE2T ENST00000487227.6-UBE2T retained_intron
ERCC1
ENST00000013807.9-ERCC1 protein_coding
ENST00000340192.11-ERCC1 protein_coding
ENST00000423698.6-ERCC1 protein_coding
ENST00000592083.5-ERCC1 protein_coding
ENST00000592444.5-ERCC1 protein_coding
ENST00000592905.5-ERCC1 retained_intron
MSH5 ENST00000375703.7-MSH5 protein_coding
ENST00000395853.5-MSH5 protein_coding
ENST00000463094.5-MSH5 retained_intron
ENST00000463144.5-MSH5 nonsense_mediated_decay
ENST00000467319.1-MSH5 retained_intron
ENST00000494458.1-MSH5 retained_intron
ENST00000494646.1-MSH5 retained_intron
ENST00000497269.5-MSH5 nonsense_mediated_decay
UBE2V2
ENST00000518360.5-UBE2V2 nonsense_mediated_decay
ENST00000521628.1-UBE2V2 retained_intron
ENST00000523432.5-UBE2V2 protein_coding
TRIP13
ENST00000508456.1-TRIP13 processed_transcript
ENST00000513435.1-TRIP13 protein_coding
NEIL1
ENST00000561643.5-NEIL1 retained_intron
ENST00000565121.1-NEIL1 retained_intron
ENST00000567393.5-NEIL1 retained_intron
ENST00000567547.1-NEIL1 retained_intron
난소암 선별 유전자 그룹 및 transcript 리스트
Genes Minor isoforms Isoform type
VCP ENST00000493886.5-VCP retained_intron
BLM
ENST00000560559.1-BLM retained_intron
ENST00000558825.5-BLM retained_intron
ENST00000560821.1-BLM processed_transcript
ENST00000560509.5-BLM protein_coding
ABRAXAS1
ENST00000515303.2-ABRAXAS1 protein_coding
ENST00000475656.6-ABRAXAS1 nonsense_mediated_decay
ENST00000504777.1-ABRAXAS1 retained_intron
XPC
ENST00000476581.6-XPC nonsense_mediated_decay
ENST00000427795.2-XPC retained_intron
RECQL4 ENST00000534626.6-RECQL4 protein_coding
RAD51AP1
ENST00000544029.1-RAD51AP1 retained_intron
ENST00000544927.5-RAD51AP1 protein_coding
ENST00000228843.13-RAD51AP1 protein_coding
ENST00000442992.6-RAD51AP1 nonsense_mediated_decay
UBB
ENST00000535788.1-UBB protein_coding
ENST00000578649.1-UBB processed_transcript
SUMO1
ENST00000409181.1-SUMO1 protein_coding
ENST00000409368.5-SUMO1 protein_coding
EXO1 ENST00000518483.5-EXO1 protein_coding
CHEK2
ENST00000472807.1-CHEK2 retained_intron
ENST00000403642.5-CHEK2 protein_coding
ENST00000382580.6-CHEK2 protein_coding
ENST00000402731.5-CHEK2 protein_coding
ENST00000433728.5-CHEK2 nonsense_mediated_decay
UIMC1
ENST00000510376.1-UIMC1 retained_intron
ENST00000510698.2-UIMC1 protein_coding
ENST00000503273.1-UIMC1 processed_transcript
ENST00000505229.1-UIMC1 retained_intron
RPS3
ENST00000527273.5-RPS3 protein_coding
ENST00000526608.5-RPS3 protein_coding
ENST00000534440.5-RPS3 protein_coding
ENST00000532872.5-RPS3 nonsense_mediated_decay
TNKS1BP1
ENST00000527207.1-TNKS1BP1 protein_coding
ENST00000427750.2-TNKS1BP1 retained_intron
ENST00000532273.5-TNKS1BP1 retained_intron
MUTYH
ENST00000531105.5-MUTYH protein_coding
ENST00000355498.6-MUTYH protein_coding
ENST00000478796.5-MUTYH retained_intron
ENST00000533178.5-MUTYH nonsense_mediated_decay
ENST00000482094.5-MUTYH retained_intron
ENST00000528013.6-MUTYH protein_coding
ENST00000466231.1-MUTYH retained_intron
RMI2
ENST00000576027.1-RMI2 protein_coding
ENST00000572992.1-RMI2 processed_transcript
GADD45A
ENST00000370985.4-GADD45A protein_coding
ENST00000484245.1-GADD45A retained_intron
PARP2
ENST00000429687.7-PARP2 protein_coding
ENST00000530598.2-PARP2 retained_intron
ENST00000527915.5-PARP2 protein_coding
ENST00000527384.1-PARP2 retained_intron
ENST00000532299.5-PARP2 retained_intron
ASCC1
ENST00000486689.6-ASCC1 protein_coding
ENST00000534259.1-ASCC1 retained_intron
USP45
ENST00000513344.1-USP45 retained_intron
ENST00000508908.1-USP45 protein_coding
ENST00000329966.10-USP45 protein_coding
ENST00000496090.6-USP45 protein_coding
UBE2A
ENST00000371569.6-UBE2A retained_intron
ENST00000469205.2-UBE2A retained_intron
ENST00000346330.6-UBE2A protein_coding
RAD51B
ENST00000460526.5-RAD51B processed_transcript
ENST00000390683.7-RAD51B protein_coding
ENST00000487861.5-RAD51B protein_coding
ENST00000554183.1-RAD51B processed_transcript
NSMCE4A
ENST00000489266.5-NSMCE4A processed_transcript
ENST00000369017.5-NSMCE4A protein_coding
ENST00000459911.5-NSMCE4A processed_transcript
ENST00000483541.1-NSMCE4A retained_intron
ENST00000468209.5-NSMCE4A processed_transcript
POLE2
ENST00000554396.5-POLE2 protein_coding
ENST00000553805.2-POLE2 protein_coding
ENST00000556937.5-POLE2 processed_transcript
ENST00000539565.6-POLE2 protein_coding
ENST00000554851.5-POLE2 retained_intron
ENST00000554377.1-POLE2 retained_intron
ENST00000555724.5-POLE2 processed_transcript
ENST00000554671.5-POLE2 processed_transcript
ERCC1
ENST00000592083.5-ERCC1 protein_coding
ENST00000423698.6-ERCC1 protein_coding
ENST00000013807.9-ERCC1 protein_coding
ENST00000592444.5-ERCC1 protein_coding
ENST00000591636.5-ERCC1 protein_coding
ENST00000340192.11-ERCC1 protein_coding
ENST00000592905.5-ERCC1 retained_intron
RHNO1
ENST00000366285.5-RHNO1 protein_coding
ENST00000464682.2-RHNO1 processed_transcript
ENST00000535978.5-RHNO1 nonsense_mediated_decay
ENST00000461997.5-RHNO1 protein_coding
유방암의 경우 115개 transcript들 중에서 약물반응 테스트에 사용한 CCLE data set 에서도 가용한 104개를 최종적인 모델의 input 으로 준비하였으며, 난소암의 경우에는 모든 transcript를 input으로 준비하였다.
6-2. 모델 구축
tHRD 예측 모델로서 Random Forest 를 사용하였다.
유방암과 난소암 공통적으로 gHRD를 기준으로 양성과 음성으로 나누어 예측 모델을 구축하였고, 난소암의 경우는 플래티넘 반응성을 기준으로 반응성과 저항성으로 나눈 예측 모델을 추가적으로 생성하였다.
training set과 test set의 비율은 7:3으로 split 하였고 RandomizedSearchCV 패키지를 이용하여 hyperparameter tuning 을 100번 진행하였으며, 각각 3-fold cross validation 을 통해서 mean validation accuracy 를 측정하여 최적의 hyperparameter 를 선정하였다.
sklearn.ensemble 모듈의 RandomForestClassifier 를 통해 RandomizedSearchCV 를 통해 찾은 hyperparameter 로 model 을 학습하여 예측 모델을 구축하였다.
실시예 7. 약물반응 분석
7-1. 유방암
CCLE 세포주들의 somatic mutation data 를 input 으로 사용하여 Rpackage deconstrucSigs 를 통해 96 class type 으로 분류한 다음, Sgenome.Hsapiens.UCSC.hg19 를 reference 로 하고 기존에 정의된 Cosmic signature 에 대하여 Non-negative matrix factorization (NMF) 을 이용하여 각각의 signature 값을 산출하였다.
이때 fitting method 에서 빚어지는 erroneous signature assignment 를 보정하기 위해 참조문헌 (Francesco Maura. et al. Nat. cummunications, Vol. 10:2069, 2019.) 을 참고하여 유방암 특이적인 Cosmic signature set 으로 fitting 한 signature 3 를 산출하였다. 이를 토대로 signature 3 값 상위 25% 에 속하는 cell line 을 gHRD(+) 로 나머지를 gHRD(-)로 정의하였다.
또한 비교를 위하여 유방암 특이적인 것이 아닌 Cosmic signature 전체에 대해 fitting 한 signature 3 를 산출하였다.
Genomics of Drug Sensitivity in Cancer (GDSC) data 가 가용한 36 개의 유방암 세포주에 대한 104개 TU data 를 통해 상기 유방암 random forest 모델로부터 예측된 tHRD(+) 와 tHRD(-) 간 drug response 차이를 측정하였고 약물감수성으로는 GDSC 에서 제공하는 2020. 02 updated data 의 PARP inhibitor (Olaparib, Rucaparib, Veliparib, Talazoparib) 및 다른 DNA-damaging agent (Bleomycin, Cisplatin, Doxorubicin, Etoposide, SN-38) 에 대한 IC50 값을 사용하였다. 두 그룹간 IC50 비교는 Mann-Whitney U test 를 사용하였다.
Precision recall을 위해서는 signature 3 값과 tHRD 예측값을 변경시켜가며 IC50 의 중앙값을 기준으로 true positive, false positive, true negative, false negative 의 개수를 측정하였다.
그 결과, 도 6 및 도 7에 기재된 바와 같이 gHRD 방법에 비해 tHRD 방법의 정확도가 월등히 뛰어난 것을 확인하였다.
또한, 104개 transcript 중, 하기 표 3과 같이 주요 transcript 20개 만을 이용하여 상기와 같은 방법으로 유방암 세포주의 약물반응을 예측한 결과, 도 8에 기재된 바와 같이, gHRD 방법보다 여전히 성능이 뛰어난 것을 확인하였다.
유방암 주요 20개 transcript list
Gene Minor Isoform
RPAIN ENST00000536255.6-RPAIN
MUS81 ENST00000525006.1-MUS81
DCLRE1C ENST00000489845.1-DCLRE1C
CDCA5 ENST00000404147.3-CDCA5
ATXN3 ENST00000393287.9-ATXN3
CHEK1 ENST00000498122.4-CHEK1
CHEK1 ENST00000544373.5-CHEK1
PARP3 ENST00000398755.7-PARP3
RFC4 ENST00000417876.1-RFC4
MND1 ENST00000509752.5-MND1
FANCB ENST00000452869.1-FANCB
PARP9 ENST00000462315.5-PARP9
SMC1A ENST00000463684.1-SMC1A
TICRR ENST00000560985.5-TICRR
RAD51 ENST00000525066.5-RAD51
UBE2T ENST00000487227.6-UBE2T
ERCC1 ENST00000013807.9-ERCC1
ERCC1 ENST00000592444.5-ERCC1
NEIL1 ENST00000565121.1-NEIL1
NEIL1 ENST00000567547.1-NEIL1
뿐만 아니라, 104개 transcript 중, 하기 표 4와 같이 주요 transcript 10개 만을 이용하여 상기와 같은 방법으로 유방암 세포주의 약물반응을 예측한 결과, 도 9에 기재된 바와 같이, gHRD 방법보다 여전히 성능이 뛰어난 것을 확인하였다.
유방암 주요 10개 transcript list
Gene Minor isoform
DCLRE1C ENST00000489845.1-DCLRE1C
CDCA5 ENST00000404147.3-CDCA5
RFC4 ENST00000417876.1-RFC4
FANCB ENST00000452869.1-FANCB
SMC1A ENST00000463684.1-SMC1A
TICRR ENST00000560985.5-TICRR
RAD51 ENST00000525066.5-RAD51
ERCC1 ENST00000013807.9-ERCC1
NEIL1 ENST00000565121.1-NEIL1
NEIL1 ENST00000567547.1-NEIL1
7-2. 난소암
7-1과 같은 방법을 사용하되, TCGA 난소암 환자의 platinum response 를 분류하기 위해 참고문헌 (Victor M. Villalobos. et al. JCO Clinical Cancer Informatics, Vol.2, pp.1-16, 2018.)에서 제시하는 first-line therapy 를 받은 환자 중에서 6개월 이내에 progression 이 생긴 경우는 플래티넘 저항성으로 분류하고 그렇지 않은 경우의 환자는 플래티넘 반응성으로 분류하였다. 참고문헌에서 제공하는 전체 450 명의 환자 중에서 RNA-seq, genomic scar, signature 3 가 모두 가용한 162 명을 이용하여 난소암 예측 모델에 사용하였다.
그 결과, 도 10에 기재된 바와 같이 gHRD 방법에 비해 tHRD 기반 방법의 정확도가 뛰어나며 tHRD 로 분류된 경우의 환자 생존율 역시 gHRD 로 분류된 경우보다 뚜렷한 차이를 보임을 확인하였다.
또한, 89개 transcript 중, 하기 표 5와 같이 주요 transcript 10개 만을 이용하여 상기와 같은 방법으로 난소암 환자의 약물반응을 예측한 결과, 도 11에 기재된 바와 같이, gHRD 방법과 대등하거나 여전히 성능이 뛰어난 것을 확인하였다.
난소암 주요 10개 transcript list
Gene Minor isoform
SUMO1 ENST00000409368.5-SUMO1
CHEK2 ENST00000403642.5-CHEK2
MUTYH ENST00000528013.6-MUTYH
RMI2 ENST00000576027.1-RMI2
PARP2 ENST00000527915.5-PARP2
UBE2A ENST00000346330.6-UBE2A
RAD51B ENST00000487861.5-RAD51B
NSMCE4A ENST00000468209.5-NSMCE4A
POLE2 ENST00000556937.5-POLE2
ERCC1 ENST00000591636.5-ERCC1
추가적으로, 실시예 7-1과 같이 gHRD를 기준으로 예측 모델을 학습하는 대신, 상기 참고문헌에서 제시된대로 6개월 이내의 progression 여부에 따른 플래티넘 반응성을 기준으로 추가적인 예측 모델을 구축하여 성능을 확인하였다.
그 결과, 도 12에 기재된 바와 같이 gHRD 방법에 비해 tHRD 기반 방법의 예측성능이 뛰어나며, tHRD 로 분류된 경우의 환자 생존율 역시 gHRD로 분류된 경우만큼 뚜렷한 차이를 보임을 확인하였다.
7-3. 실제 난소암 환자에서의 모델 성능 검증
실시예 6에서 구축한 모델 (TCGA-OV 샘플의 DNA repair 관련 유전자 isoforms 의 TU 값들을 random forest model 의 input data 로 활용하여 genomic HRD 의 유무를 결정하도록 학습시킨 인공지능 모델) 을 platinum chemotherapy 처치 난소암 환자 (n=27) 의 RNA-seq data 에 적용하여 얻은 최적의 기준점 (0.4841) 를 검증하기 위해 독립적인 platinum chemotherapy 처치 난소암 (n=20) 샘플의 MGI DNB platform 기반 RNA sequencing 데이터로 반응성을 예측하여 HRD class 를 구분하였다.
그 결과, 약물 처리 후 6개월 이내 암 전이를 기준으로 둘 경우 모델의 예측 결과는 높은 specificity (1.0) 를 보이고 12개월 이내 암 전이를 기준으로 둘 경우 모델의 예측 결과는 specificity (0.78), sensitivity (0.63) 인 것을 확인하였다 (표 6).
Figure pat00004
또한 암 전이 기간 (PFS) 을 통해 생존분석을 진행한 결과, 기존에 얻은 최적의 기준치(0.4841)로 분류할 경우 HRD 양성 (Positive) 으로 분류된 환자들이 2년 미만의 기간에서 암 전이가 통계적으로 유의하게 낮게 일어나는 것을 확인하였다(도 13).
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.

Claims (19)

  1. a) 생체시료에서 핵산을 추출하여 DNA 수리(repair) 관련 유전자들의 비기능성 전사체들의 전사체(transcript)별 발현량을 획득하는 단계;
    b) 획득한 발현량을 기반으로 유전자별 비기능성 전사체들의 전사체별 사용율(Transcript Usage, TU)을 계산하는 단계; 및
    c) 계산된 TU값을 분석하여 수득한 값이 기준값 이상일 경우, PARP(Poly ADP Ribose Polymerase) 저해제 또는 DNA 손상 약물(genotoxic drugs)에 대한 감수성(susceptibility)이 있는 것으로 판정하는 단계를 포함하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법.
  2. 제1항에 있어서, 상기 핵산은 RNA인 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법.
  3. 제1항에 있어서, 상기 a) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법:
    a-i) 혈액, 정액, 질 세포, 모발, 타액, 소변, 구강세포, 암 조직 세포, FFPE 샘플 및 이의 혼합물에서 핵산을 수득하는 단계;
    a-ii) 채취된 핵산에서 솔팅-아웃 방법(salting-out method), 컬럼 크로마토그래피 방법(column chromatography method) 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
    a-iii) 정제된 핵산에 대하여, DNA 수리 관련 유전자 그룹을 풍부화(enrichment) 하여 라이브러리(library)를 제작하는 단계;
    a-iv) 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
    a-v) 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계.
  4. 제1항에 있어서, 상기 DNA 수리 관련 유전자들은 ABL1, ALKBH1, APEX1, APTX, ASF1A, ATM, ATP23, ATR, ATRX, ATXN3, BLM, BRCA1, BRCA2, BTG2, CCNO, CDKN2D, CEBPG, CIB1, CSNK1D, CSNK1E, DDB1, DDB2, ERCC1, ERCC2, ERCC3, ERCC4, ERCC5, ERCC6, ERCC8, EXO1, FANCA, FANCC, FANCG, FEN1, GADD45A, GADD45G, GTF2H1, GTF2H4, HMGB1, HMGB1P10, HMGB2, HUS1, IGHMBP2, KAT5, LIG1, LIG3, LIG4, MLH1, MMS19, MNAT1, MPG, MRE11, MSH2, MSH3, MSH5, MSH6, MUTYH, NBN, NHEJ1, NTHL1, OGG1, PARP1, PARP3, PMS1, PMS2, PMS2P1, PNKP, POLA1, POLD1, POLE, POLE2, POLG, POLH, POLI, POLL, POLQ, PRKCG, RAD1, RAD17, RAD21, RAD23A, RAD23B, RAD50, RAD51, RAD51B, RAD51C, RAD52, RAD54B, RAD54L, RAD9A, RBBP8, RECQL, RECQL4, RECQL5, REV1, RFC3, RPA1, RPAIN, RUVBL2, SETX, SMC1A, SMUG1, SOD1, SUMO1, TDG, TNP1, TP53, TP73, TREX2, UBE2A, UBE2B, UBE2N, UBE2V1, UBE2V2, UNG, UPF1, UVRAG, VCP, WRNIP1, XAB2, XPC, XRCC2, XRCC3, XRCC4, XRCC6, BABAM2, BRIP1, CDCA5, CHEK1, DCLRE1C, FANCB, FANCI, MGME1, MND1, MUS81, NEIL1, PARP9, RAD51AP1, RFC4, SMARCB1, TICRR, TRIP13, UBE2T, USP47, ABRAXAS1, ASCC1, CHEK2, NSMCE4A, PARP2, RAD51AP1, RHNO1, RMI2, RPS3, TNKS1BP1, UBB, UIMC1 및 USP45로 구성된 군에서 선택되는 10개 이상의 유전자인 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법.
  5. 제4항에 있어서, 상기 PARP 저해제 또는 DNA 손상 약물이 유방암에 적용될 경우, 상기 DNA 수리 관련 유전자들은 ALKBH2, ATXN3, BABAM2, BRIP1, CDCA5, CHEK1, DCLRE1C, DDB2, ERCC1, EXO1, FANCB, FANCC, FANCI, FEN1, KAT5, MGME1, MND1, MSH5, MUS81, NEIL1, PARP3, PARP9, POLD1, RAD51, RAD51AP1, RAD54L, RFC4, RPAIN, SMARCB1, SMC1A, TICRR, TRIP13, UBE2T, UBE2V2 및 USP47로 구성된 군에서 선택되는 10개 이상의 유전자인 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법.
  6. 제4항에 있어서, 상기 PARP 저해제 또는 DNA 손상 약물이 난소암에 적용될 경우, 상기 DNA 수리 관련 유전자들은 ABRAXAS1, ASCC1, BLM, CHEK2, ERCC1, EXO1, GADD45A, MUTYH, NSMCE4A, PARP2, POLE2, RAD51AP1, RAD51B, RECQL4, RHNO1, RMI2, RPS3, SUMO1, TNKS1BP1, UBB, UBE2A, UIMC1, USP45, VCP 및XPC로 구성된 군에서 선택되는 10개 이상의 유전자인 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법.
  7. 제1항에 있어서, 상기 a) 단계의 비기능성 전사체는 마이너 동형체(minor isoform)인 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법.
  8. 제1항에 있어서, 상기 b) 단계의 유전자별 비기능성 전사체들의 전사체별 사용율(Transcript Usage, TU)을 계산하는 단계는 하기 수식 1로 계산하는 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법:
    수식 1:
    Figure pat00005

    여기서 TPM은 transcripts per million을 의미함.
  9. 제1항에 있어서, 상기 c) 단계의 계산된 TU값을 분석하여 값을 수득하는 단계는 유전체 상동성 재조합 결핍(genomic Homologous Recombinant Deficiency, gHRD) 양성 또는 약물 반응성이 있는 것으로 알려진 샘플에서 과발현되는 비기능성 전사체들의 TU 값에 특정 가중치를 곱하여 합산하여 특정 범위의 판정값을 도출하거나, 각 비기능성 전사체들의 TU 값이 특정 기준치를 초과하는 양상에 따라 최종 판정을 하는 의사결정 절차를 사용하는 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법.
  10. 제9항에 있어서, 상기 유전체 상동성 재조합 결핍(genomic Homologous Recombinant Deficiency, gHRD) 양성 또는 약물 반응성이 있는 것으로 알려진 샘플에서 과발현되는 비기능성 전사체들의 TU 값에 특정 가중치를 곱하여 합산하여 특정 범위의 판정값을 도출하는 방법은 유전체 상동성 재조합 결핍(genomic Homologous Recombinant Deficiency, gHRD) 양성 또는 약물 반응성이 있는 것으로 알려진 샘플에서 과발현되는 비기능성 전사체들에 해당하는 비기능성 전사체들의 TU값에 가중치를 곱한후, 합산하여 0 내지 1 사이의 값으로 정규화하여 도출하는 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법.
  11. 제1항에 있어서, 상기 기준값은 0.5 내지 1 인 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법.
  12. 제9항에 있어서, 상기 계산된 TU값을 분석하여 값을 수득하는 단계는 인공지능 모델을 이용하여 수행하는 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법.
  13. 제12항에 있어서, 상기 인공지능 모델은 gHRD 양성 또는 약물 반응성 양성 샘플에서 과발현되는 유전자별 비기능성 전사체들의 TU값에 부과할 수 있는 가중치들의 조합들과 그 가중화된 TU 값들의 합산으로 이루어지는 판정값의 기준치를 다양한 환자별 전사체 발현 양상을 반영할 수 있도록 기계학습하여 예측모델을 구축하거나, gHRD 양성 또는 약물 반응성 양성 샘플에서 과발현되는 유전자별 비기능성 전사체들의 TU 값을 각각의 기준치와 비교하는 의사결정 과정을 다양한 환자별 전사체 발현 양상을 반영할 수 있도록 구조화하여 기계학습을 통해 예측모델을 구축하는 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법.
  14. 제13항에 있어서, 상기 기계학습은 K-최근접 이웃(k-Nearest Neighbors), 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(SVM, Support Vector Machine), 의사결정나무(Decision Tree), 랜덤 포레스트(Random Forest) 및 신경망(Neural Network)으로 구성된 군에서 선택되는 어느 하나 이상의 방법으로 수행되는 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법.
  15. 제1항에 있어서, 상기 PARP 저해제는 AZD2281(올라파립, Olaparib), ABT888(벨리파립, Veliparib), AG014699(루카파립, Rucaparib), MK-4827(니라파립, Niraparib), BMN-673(탈라조파립, Talazoparib), BSI201(이니파립, Iniparib), BGP15(O-(3-piperidino-2-hydroxy-1-propyl)nicotinicamidoxime),INO1001(3-Aminobenzamide), ONO2231, 니코틴아미드(nicotinamide), 3-아미노벤즈아미드(3-aminobenzamide), ,4-디히드로-5-[4-(1-피페리디닐)부톡시]-1(2H)-이소퀴놀론(3,4-dihydro-5-[4-(1-piperidinyl)butoxy]-1(2H)-isoquinolone), 벤즈아미드(benzamide), 퀴놀론(quinolone), 이소퀴놀론(isoquinolone), 벤조피론(benzopyrone), 사이클릭 벤즈아미드(cyclic benzamide), 벤즈이미다졸(benzimidazole), 인돌(indole) 및 펜안트리디논(phenanthridinone)으로 구성된 군에서 선택되는 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법
  16. 제1항에 있어서, 상기 DNA 손상 약물은 블레오마이신(Bleomycin), 시스플라틴(Cisplatin), 카보플라틴(carboplatin), 옥살리플라틴(Oxaliplatin), 네다플라틴(Nedaplatin), 독소루비신(Doxorubicin), 에토포시드(Etoposide) 및 SN38로 구성된 군에서 선택되는 것을 특징으로 하는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 따른 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정방법에 이용되는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정 장치로서, 상기 장치는
    (1) 생체시료에서 핵산을 추출하여 DNA 수리(repair) 관련 유전자들의 비기능성 전사체들의 전사체(transcript)별 발현량을 획득하는 정보 획득부;
    (2) 획득한 발현량을 기반으로 유전자별 비기능성 전사체들의 전사체별 사용율(Transcript Usage, TU)을 계산하는 계산부; 및
    (3) 계산된 TU값을 분석하여 수득한 값이 기준값 이상일 경우, PARP(Poly ADP Ribose Polymerase) 저해제 또는 DNA 손상 약물(genotoxic drugs)에 대한 감수성(susceptibility)이 있는 것으로 판정하는 감수성 판정부;
    를 포함하는 것을 특징으로 하는 감수성 판정 장치.
  18. 제1항 내지 제16항 중 어느 한 항에 따른 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정방법에 이용되는 컴퓨터 판독 가능한 기록매체로서, 상기 매체는 PARP 저해제 또는 DNA 손상 약물에 대한 감수성을 판정하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
    a) 생체시료에서 핵산을 추출하여 DNA 수리(repair) 관련 유전자들의 비기능성 전사체들의 전사체(transcript)별 발현량을 획득하는 단계;
    b) 획득한 발현량을 기반으로 유전자별 비기능성 전사체들의 전사체별 사용율(Transcript Usage, TU)을 계산하는 단계; 및
    c) 계산된 TU값을 분석하여 수득한 값이 기준값 이상일 경우, PARP(Poly ADP Ribose Polymerase) 저해제 또는 DNA 손상 약물(genotoxic drugs)에 대한 감수성(susceptibility)이 있는 것으로 판정하는 단계를 포함하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 기록매체.
  19. 제1항 내지 제16항 중 어느 한 항에 따른 PARP 저해제 또는 DNA 손상 약물에 대한 감수성 판정방법에 이용되는 표적화 RNA 서열분석(Targeted RNA-Seq) 키트로서, 상기 키트는
    DNA 수리 관련 유전자 그룹의 전사체를 포획하는 프로브; 및 포획한 전사체를 증폭하는 프라이머를 포함하는 것을 특징으로 하는 표적화 RNA 서열분석 키트.
KR1020210149860A 2020-11-04 2021-11-03 비기능성 전사체를 이용한 parp 저해제 또는 dna 손상 약물 감수성 판정방법 KR20220060493A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200145901 2020-11-04
KR20200145901 2020-11-04

Publications (1)

Publication Number Publication Date
KR20220060493A true KR20220060493A (ko) 2022-05-11

Family

ID=81458101

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210149860A KR20220060493A (ko) 2020-11-04 2021-11-03 비기능성 전사체를 이용한 parp 저해제 또는 dna 손상 약물 감수성 판정방법

Country Status (5)

Country Link
US (1) US20230383363A1 (ko)
EP (1) EP4243023A1 (ko)
JP (1) JP2023548419A (ko)
KR (1) KR20220060493A (ko)
WO (1) WO2022098086A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023224488A1 (en) * 2022-05-19 2023-11-23 Agendia N.V. Dna repair signature and prediction of response following cancer therapy

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013133876A1 (en) * 2011-12-07 2013-09-12 The Regents Of The University Of California Biomarkers for prediction of response to parp inhibition in breast cancer
WO2016018089A1 (ko) * 2014-07-29 2016-02-04 재단법인 아산사회복지재단 Parp 저해제에 대한 감수성 예측용 신규한 바이오 마커 및 이의 용도

Also Published As

Publication number Publication date
JP2023548419A (ja) 2023-11-16
WO2022098086A1 (ko) 2022-05-12
US20230383363A1 (en) 2023-11-30
EP4243023A1 (en) 2023-09-13

Similar Documents

Publication Publication Date Title
US11174519B2 (en) Method of treating cancer
AU2020223754B2 (en) Methods and materials for assessing loss of heterozygosity
Villani et al. The clinical utility of integrative genomics in childhood cancer extends beyond targetable mutations
KR20220157976A (ko) 무세포 핵산의 분석 방법 및 이의 적용
US20190073445A1 (en) Identifying false positive variants using a significance model
Lin et al. Evolutionary route of nasopharyngeal carcinoma metastasis and its clinical significance
KR20220060493A (ko) 비기능성 전사체를 이용한 parp 저해제 또는 dna 손상 약물 감수성 판정방법
Li et al. Identification and Validation of a DNA Damage Repair-Related Signature for Diffuse Large B-Cell Lymphoma
CN115982644B (zh) 一种食管鳞状细胞癌分类模型构建与数据处理方法
CN111919257B (zh) 降低测序数据中的噪声的方法和系统及其实施和应用
Friedl Transcriptional Signatures of the Tumor and the Tumor Microenvironment Predict Cancer Patient Outcomes
WO2023150627A1 (en) Systems and methods for monitoring of cancer using minimal residual disease analysis
EP4208868A1 (en) ASSESSMENT AND QUANTIFICATION OF IMPERFECT dsDNA BREAK REPAIR FOR CANCER DIAGNOSIS AND TREATMENT
Song INTEGRATED GENOMIC MARKERS FOR CHEMOTHERAPEUTICS
NZ625468B2 (en) Methods and materials for assessing loss of heterozygosity