KR20230045009A - 낮은 커버리지 차세대 시퀀싱 데이터에서 상동 복구 결핍과 같은 염색체 공간 불안정성을 확인하는 방법 - Google Patents

낮은 커버리지 차세대 시퀀싱 데이터에서 상동 복구 결핍과 같은 염색체 공간 불안정성을 확인하는 방법 Download PDF

Info

Publication number
KR20230045009A
KR20230045009A KR1020237002728A KR20237002728A KR20230045009A KR 20230045009 A KR20230045009 A KR 20230045009A KR 1020237002728 A KR1020237002728 A KR 1020237002728A KR 20237002728 A KR20237002728 A KR 20237002728A KR 20230045009 A KR20230045009 A KR 20230045009A
Authority
KR
South Korea
Prior art keywords
coverage
data
hrd
chromosome
bins
Prior art date
Application number
KR1020237002728A
Other languages
English (en)
Inventor
크리스찬 포조리니
그레고리 앙드레
토마소 콜레타
젠위 수
Original Assignee
소피아 제네틱스 에스에이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소피아 제네틱스 에스에이 filed Critical 소피아 제네틱스 에스에이
Publication of KR20230045009A publication Critical patent/KR20230045009A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Genetics & Genomics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Processing (AREA)

Abstract

게놈 데이터 분석기는 트레이닝된 컨볼루션 신경망과 같은 머신 러닝 모델을 사용하여, 종양 샘플에서 게놈 불안정성의 존재를 검출하고 특성화하도록 구성될 수 있다. 게놈 데이터 분석기는 다양한 임상 종양학 환경에서 일상적으로 사용될 수 있기 때문에 고처리량 시퀀싱 워크플로우에서 낮은 시퀀싱 커버리지에서도 전체 게놈 시퀀싱 리드를 입력 데이터로서 사용할 수 있다. 게놈 데이터 분석기는 가능하게는 이미지로서 커버리지 데이터 신호 어레이를 형성하기 위해 염색체 아암 또는 전체 염색체로부터 정렬된 판독 데이터 커버리지를 배열할 수 있다. 트레이닝된 머신 러닝 모델은 커버리지 데이터 신호를 처리하여, 예를 들어, 상동 복구 또는 재조합 결핍(HRD)에 의해 야기된 게놈 불안정성과 같은 염색체 공간 불안정성(CSI)이 종양 샘플에 존재하지는지 여부를 결정할 수 있다. 후속 지시는 종양에 대한 바람직한 항암 치료의 선택을 안내할 수 있다.

Description

낮은 커버리지 차세대 시퀀싱 데이터에서 상동 복구 결핍과 같은 염색체 공간 불안정성을 확인하는 방법
본원에 기재된 방법은 일반적으로 게놈 분석에 관한 것이고, 보다 구체적으로 암을 검출하고 치료하기 위한 게놈 정보의 용도에 관한 것이다.
항암 치료 반응의 예측인자로서의 종양 유전체학
선천성 생식계열 돌연변이 외에도, 암 세포는 종종 특정 대립유전자 또는 게놈 영역의 복사체 수 변이, 복제 또는 결실과 같은 체세포 총 염색체 이상을 갖는다. 이러한 변이체 중 일부는, 예를 들어, 종양 억제인자 기전, 특히 상동 재조합 복구(HRR 또는 HR) 기능과 같은 일부 게놈 기능의 손실을 야기하여, 암을 더욱 공격적으로 만들 수 있다. 이러한 게놈 돌연변이를 확인하는 것은, 특정 항암 요법에 대한 세포 증식성 장애를 갖는 대상체의 반응을 예측하는 것으로 나타나기 때문에, 개인화된 암 약제의 최근 발전에서 핵심적으로 중요하다. 대상체는 인간 또는 동물일 수 있다. 항암 치료의 예는 이러한 알킬화제, 예를 들어, 비제한적으로 백금-기반 화학요법제, 카보플라틴, 시스플라틴, 이프로플라틴, 네다플라틴, 옥살리플라틴, 피코플라틴, 클로르메틴, 클로람부실, 멜팔란, 사이클로포스파미드, 이포스파미드, 에스트라무스틴, 카르무스틴, 로무스틴, 포테무스틴, 스트렙토조신, 부설판, 피포브로만, 프로카바진, 다카바진, 티오테파, 테모졸로미드 및/또는 다른 항종양 백금 배위 화합물; DNA 손상제 또는 방사선; 예를 들어, 비제한적으로 에피루빈신 또는 독소루비신과 같은 안트라사이클린; 토포이소머라제 I 억제제, 예를 들어, 비제한적으로 캄포테신, 토포테칸, 이리노테칸; 및/또는 PARP(폴리 ADP-리보스 폴리머라제) 억제제를 포함한다. 암 세포를 선택적으로 파괴하기 위해 종양 DNA 상동 복구 결핍(HRD)을 이용하는 PARP 억제제의 예는 올라파립, 루카파립, 니라파립(MK4827), 및 탈라조파립(BMN-673)이며, 이는 특정 암 유형에 대해 미국 및 유럽에서 승인된 것이었으며; PARP 억제제의 다른 예는 이니파립, CEP 9722(-14-메톡시-9-[(4-메틸피페라진-1-일)메틸]-9,19-디아자펜타사이클로[10.7.0.0^{2,6}.0^{7,11}.0^{13,18}]노나데카-1(12),2(6),7(11),13(18),14,16-헥사엔-8,10-디온), 3-아미노벤즈아미드, 벨라피립, 파미파립 또는 E7016(10-((4-하이드록시피페리딘-1-일)메틸)크로메노[4,3,2-de]프탈라진-3(2H)-온)을 포함한다. PARP 억제제는 HRD 종양 세포의 발달을 방지하는 다수의 DNA 이중 가닥 파손(DSB)을 간접적으로 유도하지만, 정상 세포는 일반적으로 HR을 통해 이러한 파손을 복구할 수 있다(Keung et al., 2019, Journal of Clinical Medicine 8(4), p.435).
HRD 게놈 분석 시험
따라서, 종양으로부터의 샘플과 같은 DNA 샘플을 분류하는 방법은 이에 따라 가능한 암 유형의 진단을 용이하게 할 수 있거나 게놈 시퀀싱 및 분석으로 인해 환자의 종양 샘플에서 총 DNA 복사체 수 이상의 특성화에 따라 환자에게 가장 적합한 암 치료를 적용할 수 있다. 특히, 암이 상동 복구 결핍(HRD)인지 여부의 확인은 치료 계획에 상당한 도움이 될 수 있다. 지난 10년 동안, 이를 위해 상이한 게놈 돌연변이 시그니쳐(signiture)가 확인되었다. 유럽 특허 EP2609216B1호에는 PARP 억제제와 같은 항암 치료, 방사선 요법 또는 백금-기반 화학요법제를 포함하는 화학요법의 결과를 예측하기 위한 전체 염색체 이상 점수(GCAS)의 사용이 개시되어 있다. 유럽 특허 EP2817630B1호에는 텔로머 대립유전자 불균형(TAI) 이벤트의 수의 검출, 및 이러한 수가 백금-내성인 것으로 알려진 유사한 암으로부터의 기준 값보다 큰 경우 백금-포함 요법의 선택이 제안되어 있다. Institut Curie 및 INSERM의 Stern, Manie 및 Popova에 의한 유럽 특허 EP2859118B1호에는 적어도 3 메가베이스에 걸쳐 있는 세그먼트의 게놈당 수를 카운팅함으로써 HRD를 예측하는 방법이 개시되어 있으며, 이는 염색체 복사체 수의 대규모 전이(LST)에 상응한다. Myriad Genetics로부터의 Abkevich 등의 유럽 특허 EP2794907B1호에는 적어도 한 쌍의 인간 염색체에서 11 메가염기보다 길지만 전체 염색체보다 짧은 이형접합 손실(LOH) 영역의 총 수를 카운팅하는 단계, 및 이러한 수를 참조 수와 비교하여 다양한 가능한 암 치료에 대한 환자 반응을 예측하는 단계가 개시되어 있으며; EP2981624B1호에는 LOH, TAI 및 LST 지표를 사용하는 것이 개시되어 있으며; EP3180447B1호에는 다양한 가능한 암 치료에 대한 환자 반응을 예측하기 위해 참조 수와 비교하도록 이들의 값을 HRD 점수로 합산하는 것이 개시되어 있다. 후자의 시험 방법은 현재 Myriad Genetics myChoice CDx 검정에 의해 난소암 환자에서 HRD에 대한 시험으로서 사용되고 있으며, 이는 적어도 500X의 중간 커버리지에서 다수의 유전자에 대한 맞춤 혼성화-기반 표적-농축을 사용한다. 이러한 HRD 점수는 또한 최근에 고등급 장액 난소 암종(HGSOC)의 진행에 관한 가능한 예후 예측인자로서 나타났다(Takaya et al, "Homologous recombination Deficiency status-based classification of high-grade serous ovarian carcinoma", Nature Research Scientific Reports (2020) 10:2757).
Myriad myChoice 검정과 유사하게, Foundation Medicine 상업적 검정 FoundationFocus CDxBRCALOH는, 난소암 환자가 PARP 억제제 요법인 루카파립에 반응할 것인지 여부를 결정하기 위해 BRCA1 및 BRCA2 유전자의 분석을 전문으로 한다. 후자의 검정은 또한 500X의 중간 커버리지에서 다수의 유전자의 모든 코딩 엑손의 맞춤 혼성화-기반 포획을 사용하지만, 게놈-전체 복사체 수 프로파일과 SNP의 최소 대립유전자 분획의 조합으로부터 평가된 LOH 점수만을 사용한다.
WGS 데이터에 대한 HRD 분석 방법
보다 일반적으로, WO2017191074호에는 염기 치환, 재배열 및 인델 시그니쳐를 포함하는, 상이한 게놈 변경의 분석으로부터 계산된 확률적 점수에 따라 종양 DNA 샘플의 HRD 상태를 특성화하는 것이 제안되어 있다(HRDetect 점수). 후자 HRDetect 점수와 함께, 문헌["HRDetect is a predictor of BRCA1 and BRCA2 deficiency based on mutational signatures", H. Davies et al., Nature Medicine, published online March 13 th , 2017]에 기술된 바와 같이, 전체 게놈 시퀀싱(WGS)은 전체 게놈 전반에 걸쳐 관찰된 돌연변이 시그니쳐로부터, 98.7%의 감도로 HRD를 검출하는 가능한 방법으로 제시된다. WGS와 대조적으로, 전체 엑솜 시퀀싱(WES)만이 적용될 때, HRDetect의 민감도는 생물정보학 알고리즘의 특정 조정에 따라 46.8% 내지 73%로 크게 떨어진다.
유방암 및 난소암 이외에, 문헌["Genomic aberration based molecular signatures efficiently characterize homologous recombination deficiency in prostate cancer"]에 보고된 바와 같이, Sztupinszki 등은 또한, 최근에, WGS 및 WES 데이터(scarHRD)로부터 전립선 종양에서 HRD 시그니쳐의 지표로서 LOH, TAI 및 LST의 사용을 조사하기 시작하였다.
상기 모든 방법이 SNV 및/또는 INDEL 호출(calling)에 의존하기 때문에, 이들은 차세대 시퀀싱(NGS) 워크플로우에서 높은 깊이의 커버리지(통상적으로, 적어도 30x)를 필요로 한다. WGS 및 대형 패널에서의 높은 커버리지 요건은 습식 실험실 실험 및 건식 실험실 데이터 처리 오버헤드 둘 모두의 측면에서 임상 실무에서의 분석 비용을 상당히 증가시킨다. 따라서, 저역 통과 WGS(LP-WGS - 1x 내지 5x) 또는 심지어 초저역 통과 WGS(ULP-WGS - 0.1x 이하)를 사용하는 대안적인 방법은 임상 종양학에 더 유리할 수 있다. 문헌["ShallowHRD: Detection of Homologous Recombination Deficiency from Shallow Whole Genome Sequencing", Bioinformatics, Apr 21 2020]에서, Eeckhoutte 등의 문헌에는 Manie, Stern 및 Pova의 방법과 유사하지만, 상세하게는 얕은 WGS 데이터에 대해 약 1X의 커버리지까지 LST 상태를 특성화하기 위한 소프트웨어 방법인 ShallowHRD가 기술되어 있다. 이들의 접근법은 단순히 염색체내 아암 복사체 수 변경의 카운트를 사용한다. 이러한 카운트는 커버리지 데이터 신호에서 3 Mb 미만의 세그먼트를 제거한 후 적어도 10 메가베이스의 인접한 세그먼트들 사이의 대규모 전이의 수로서 추정될 수 있다. 저자에 따르면, 15개 미만의 전이는 HRD 음성 종양을 확인할 수 있는 반면, 19개 초과는 종래 기술의 scarHRD 방법과 유사한 민감도 및 특이성으로 HRD 양성 종양을 확인할 수 있게 한다. 이러한 방법이 임상 종양학에서 보다 비용 효율적인 NGS 워크플로우의 사용에 대한 가능성을 제공하지만, 본 저자는 이의 감도가 HRDetect 및 SNP 어레이에서 LST 지표의 측정에 의해 달성된 결과보다 여전히 낮다는 것을 관찰하였다. 이는 종래 기술의 방법의 LOH 및 TAI 시그니쳐를 통합할 수 없다는 사실 때문일 수 있다. 또한, 이는, 한편으로 각각의 염색체 아암 내에 및 다른 한편으로 인간 게놈의 다수의 염색체들 사이에 그러한 전이가 어떻게 분포되는지와 상관없이, 염색체 변경이 12개 초과의 대규모 전이를 야기하기에 충분히 크고 빈번한, 종양만을 분류할 수 있게 한다.
종양학에서의 다수의 최근 연구 작업은 기능장애 DNA의 초돌연변이성이 염색체의 상이한 영역에서 이종 변경(heterogenous alteration)을 야기할 수 있음을 시사하였다. 문헌["Regulation of mitotic recombination between DNA repeats in centromeres", Nucleic Acids Research, 2017, Vol. 45, No. 19, Zafar et al. In "dark side of centromeres, types, cause and results ofstructuralablicating centromeric DNA", Barra et al., Nature Communications (2018) 9:4340]에서, Barra 등은, 상당한 비율의 염색체 재배열 및 파손이, 가능하게는 종양에서 동원체 영역의 선천성 취약성으로 인해, 결장직장 암종 및 선암종으로부터 유래된 암 세포주에서 동원체 주변 영역 및 동원체 영역에서 관찰되며, 이는 다른 암에서도 일반적이다. Barra 등은 그러한 영역에서 고도로 반복적인 서열을 명시적으로 분석하기 위한 모델 및 기술의 부족을 강조한다.
따라서, 최근의 암 유전체학 발견 및 특히 종양 게놈에서 염색체 이상의 특정 공간적 특징의 유망한 발견에 대해 조정하면서 일상적인 종양학 임상 실습을 위한 자동화된 NGS 워크플로우에 용이하고 비용 효율적으로 배치될 수 있는, 개선된 게놈 분석 방법이 필요하다. 최근의 암 유전체학 발견을 통합하고 진단, 예후, 치료 선택 및 환자 관리와 관련된 HRD를 포함하는 특징을 확인할 수 있게 하는 개선된 게놈 분석 방법이 특히 필요하다. 바람직하게는, 이러한 방법 및 기술은 또한 종래 기술의 기술과 비교하여 HR 이벤트의 검출에서 합리적인 정확성을 보존하면서 일상적인 임상 환경에서 전체 분석 비용을 감소시키기 위해 더 낮은 커버리지에서 적용될 수 있다. 또한, 개선된 게놈 분석 방법은 또한 종래 기술의 LOH, LST 또는 TAI 지표와 같은 스칼라 HRD 지표의 명시적 측정 및 임계값에 의존하는 대신 머신 러닝 기술을 사용함으로써 HR-결핍 종양의 특성규명을 용이하게 할 수 있어서, 인간 및 동물에서 다양한 상이한 암에 대한 종양의 분류에서 증가하는 임상 데이터 이용가능성을 보다 용이하게 이용할 수 있다.
대상체 DNA 샘플의 상동 재조합 결핍(HRD) 상태를 결정하는 방법으로서, 방법은 분석될 대상체 DNA 샘플의 전체 게놈의 시퀀싱 리드 세트를 수득하는 단계, 대상체 DNA 샘플의 시퀀싱 리드 세트를 참조 게놈에 정렬하는 단계로서, 참조 게놈은 복수의 빈(bin)으로 분할되고, 각각의 빈은 분석될 전체 게놈 염색체에서 염색체 아암으로부터의 동일한 게놈 영역에 속하는 단계, 각 염색체 아암을 따라 각 빈에서 정렬된 리드의 수를 카운팅 및 표준화하여 염색체 아암에 대한 커버리지 신호를 얻는 단계, 대상체 DNA 샘플에 대한 커버리지 데이터 신호 어레이에 염색체의 커버리지 신호를 배열하는 단계, 커버리지 데이터 신호 어레이를 트레이닝된 머신 러닝 모델에 입력하는 단계로서, 모델은 양성 상동 재조합 결핍 상태를 갖는 샘플로부터의 커버리지 데이터 신호 어레이와 음성 상동 재조합 결핍 상태를 갖는 샘플로부터의 커버리지 데이터 신호 어레이를 구별하기 위해 알려진 상동 재조합 결핍 상태의 샘플 세트를 사용하여 트레이닝된 단계, 이에 의해 대상체 DNA 샘플의 상동 재조합 결핍 점수(HRD 점수)를 결정하는 단계, 및 트레이닝된 머신 러닝 모델로부터의 HRD 점수에 따라 대상체 DNA 샘플의 음성, 양성 또는 불확실한 상동 재조합 결핍(HRD) 상태를 결정하는 단계를 포함하는, 방법이 제안된다. 가능한 구현예에서, 시퀀싱 리드의 세트는 리드 깊이 커버리지가 최대 30x인 전체 게놈 시퀀싱으로부터, 또는 리드 깊이 커버리지가 적어도 0.1X 및 최대 저역 통과 전체 게놈 시퀀싱으로부터 얻어질 수 있다. 가능한 구현예에서, 각각의 염색체 아암을 따라 각각의 빈에서 정렬된 리드의 수를 카운팅하고 표준화하여 염색체 아암에 대한 커버리지 신호를 얻는 단계는 샘플 당 커버리지 신호를 표준화하고/하거나 GC 함량에 의해 표준화하여 GC-편향 보정을 적용하는 것을 포함할 수 있다. 가능한 구현예에서, 염색체 아암의 커버리지 신호는 1D 커버리지 데이터 신호 벡터 또는 2D 커버리지 데이터 신호 이미지로 배열될 수 있다. 가능한 구현예에서, 염색체 아암의 커버리지 신호는 각 염색체 아암의 동원체 빈, 즉 염색체 아암의 동원체 영역에 인접한 가장 가까운 빈에 대해 각 염색체에 대한 커버리지 데이터 신호를 행으로 정렬함으로써 2D 커버리지 데이터 신호 이미지로 배열될 수 있다. 가능한 구현예에서, 머신 러닝 모델은 트레이닝 라벨로서 알려진 상동 재조합 결핍 상태를 갖는 종양 데이터 샘플의 세트를 사용하여 이전에 트레이닝되었을 수 있다. 트레이닝 데이터세트는 데이터 샘플의 염색체로부터의 데이터를 알려진 상동 재조합 결핍 상태 라벨과 조합함으로써 생성된 인공 샘플 데이터로 증강될 수 있다. 데이터 증강된 샘플은 실제 샘플 데이터세트에서 관찰된 바와 같은 순도-배수비 분포를 나타내기 위해 생성될 수 있다. 가능한 구현예에서, 참조 게놈은 최대 100 kbp 빈의 제1 세트로 분할될 수 있고, 각각의 염색체 아암 상에 커버리지 신호를 배열하기 전에 100 kbp 빈을 적어도 500 kbp의 더 큰 빈의 제2 세트로 붕괴시키는 단계를 추가로 포함한다. 제1 빈 세트의 빈은 최대 100 kbp의 균일한 크기를 가질 수 있으며, 제2 빈 세트의 빈은 2.5 내지 3.5 Mbp의 크기를 가질 수 있고, 제1 빈 세트로부터 100 kbp 빈 중 25 내지 35의 100 kbp 빈을 풀링함으로써 수득된다.
환자 DNA 샘플의 상동 재조합 결핍(HRD) 상태를 결정하기 위한 시험관내 방법으로서, 방법은
- 환자 샘플로부터 DNA의 단편을 제공하는 단계;
- 염색체 세트와 중첩되는 상기 단편을 포함하는 라이브러리를 작제하는 단계;
- 라이브러리를 최대 30X 전체 게놈 시퀀싱 커버리지, 바람직하게는 적어도 0.1X 및 최대 5X의 게놈 시퀀싱 커버리지로 시퀀싱하는 단계;
및 본원에 개시된 방법에 따라 얻어진 트레이닝된 머신 러닝 모델의 분석에 기초하여 환자 샘플의 HRD 상태를 결정하는 단계를 포함하는 방법이 제안된다. 환자 DNA 샘플은 종양 세포-비함유 DNA(cfDNA), 신선-동결 조직(FFT) 또는 포르말린-고정 파라핀-포매(FFPE) 샘플일 수 있다. 환자 샘플의 HRD 점수 또는 HRD 상태는 암 치료 요법에 대한 종양 반응의 예측인자일 수 있다. 암 치료 요법은 알킬화제, 백금-기반 화학요법제, 카보플라틴, 시스플라틴, 이프로플라틴, 네다플라틴, 옥살리플라틴, 피코플라틴, 클로르메틴, 클로람부실, 멜팔란, 사이클로포스파미드, 이포스파미드, 에스트라무스틴, 카르무스틴, 로무스틴, 포테무스틴, 스트렙토조신, 부설판, 피포브로만, 프로카바진, 다카바진, 티오테파, 테모졸로미드 및/또는 다른 항종양성 백금 배위 화합물, DNA 손상제, 방사선 요법, 안트라사이클린, 에피루빈신, 독소루비신, 토포이소머라제 I 억제제, 캄포테신, 토포테칸, 이리노테칸, PARP(폴리 ADP-리보스 폴리머라제) 억제제, 올라파립, 루카파립, 니라파립, 탈라조파립, 이니파립, CEP9722, MK4827, BMN-673, 3-아미노벤즈아미드, 벨라피립, 파미파립 및/또는 E7016으로 구성되는 군으로부터 선택될 수 있다.
백금-기반 화학요법제, DNA 손상제, 안트라사이클린, 토포이소머라제 I 억제제, PARP 억제제로 치료하기 위한 암 환자를 선택하는 방법으로서, 본원에 개시된 방법에 따라 종양 환자 샘플이 HRD 양성임을 검출하는 단계를 포함하는 방법이 제안된다. 가능한 구현예에서, 환자는 고등급 장액 난소암, 전립선암, 유방암 또는 췌장암으로부터 선택된 암을 가질 수 있다.
대상체 DNA 샘플의 상동 재조합 결핍(HRD) 상태를 결정하기 위한 머신 러닝 알고리즘을 트레이닝시키기 위한 방법으로서, 방법은 머신 러닝 트레이닝 알고리즘에, 알려진 양성 상동 재조합 결핍을 갖는 샘플로부터의 커버리지 데이터 신호 어레이 및 알려진 음성 상동 재조합 결핍 상태를 갖는 샘플로부터의 커버리지 데이터 신호 어레이를 입력하는 단계를 포함하는, 방법이 제안된다.
트레이닝된 머신 러닝 모델은 랜덤 포레스트 모델, 신경망 모델, 딥 러닝 분류기 또는 컨볼루션 신경망 모델일 수 있다. 신경망 모델 트레이닝된 머신 러닝 모델은 그 출력에서 양성 또는 음성 HRD 상태의 단일 라벨 이진 분류, 또는 양성, 음성 또는 불확실한 HRD 상태의 단일 라벨 다중클래스 분류, 또는 HRD 상태를 나타내는 스칼라 HRD 점수를 생성하도록 트레이닝된 컨볼루션 신경망일 수 있다. 머신 러닝 모델은 동일한 HRD 상태 및 동일한 표준화된 순도 및 배수비를 공유하는 실제 샘플의 세트의 염색체로부터 데이터를 샘플링함으로써 생성된 데이터 증강된 세트를 사용하여 반-지도 모드에서 트레이닝될 수 있다.
DNA 샘플을 특성화하기 위한 방법으로서, 방법은 상기 참조 게놈에 대해 정렬된 환자 샘플로부터 시퀀싱 리드 세트를 수득하는 단계; 참조 게놈의 적어도 2개의 염색체에 대한 염기쌍 위치(bp)를 빈의 세트로 나누는 단계로서, 각 빈은 최대 20 메가염기쌍(20 Mbp)의 게놈 영역에 상응하며, 각각의 빈은 단일 염색체 아암으로부터의 커버리지 데이터만을 함유하는, 단계; 정렬된 리드로부터, 시퀀싱된 환자 샘플의 각 빈에 대한 커버리지 데이터를 추정하는 단계; 커버리지 데이터를 한 차원을 따라 염색체 또는 염색체 아암 및 다른 차원을 따라 상기 염색체 또는 염색체 아암에 대한 빈 세트 중 어느 하나를 포함하는 다차원 어레이로 배열하는 단계로서, 각 염색체 또는 염색체 아암에 대한 동원체 빈 또는 텔로머 빈 중 어느 하나가 다차원 어레이 공간 배열로 정렬됨을 특징으로 하는 단계; 다차원 어레이를 트레이닝된 머신 러닝 모델에 입력하는 단계; 및 트레이닝된 머신 러닝 모델의 출력에서, 염색체 공간 불안정성(CSI) 지표를 생성하는 단계를 포함하는 방법이 제안된다. 가능한 구현예에서, CSI 지표는 상기 환자 샘플이 상동 재조합(HR)-결핍일 가능성이 높은지(HRD+) 또는 낮은지(HRD-)의 지표일 수 있다. 환자 샘플은 종양 샘플일 수 있으며, 환자 샘플의 CSI 지표는 백금-기반 화학요법제, DNA 손상제, 안트라사이클린, 토포이소머라제 I 억제제, 또는 PARP 억제제를 포함하는 암 치료 요법에 대한 종양 반응의 예측인자일 수 있다.
일 구현예에서, 머신 러닝 모델은 HRD 상태(양성 또는 음성)와 같은 공지된 게놈 불안정성 상태를 갖는 샘플로부터의 라벨링된 커버리지 데이터를 사용하여 지도 또는 반-지도 모드로 트레이닝된다.
일 구현예에서, 게놈 불안정성의 염색체 공간 불안정성(CSI) 지표는 머신 러닝 모델에 의해 학습될 수 있는 바와 같이, 상기 DNA 샘플에서 염색체 아암 중 적어도 하나의 적어도 하나의 영역에서 게놈 불안정성을 갖지 않는 다른 DNA 샘플과, 상기 DNA 샘플에서 염색체 아암 중 적어도 하나의 적어도 하나의 영역에서 게놈 불안정성을 갖는 DNA 샘플 간의 차이를 기초로 한다.
가능한 구현예에서, 제1 빈 세트는 다차원 어레이를 배열하기 전에, 빈 크기가 염색체 아암을 따라 일정하게 유지되도록 각 염색체 아암 길이에 대해 더 큰 빈 크기를 구성시킴으로써, 더 큰 빈으로 추가로 붕괴될 수 있다. 제1 빈 세트는 최대 100 kbp의 균일한 크기를 가질 수 있는 반면, 붕괴된 빈은 적어도 500 kbp의 크기를 가질 수 있다. 커버리지 데이터는 다차원 어레이를 배열하기 전에 이산 복사체 수 값을 추론하기 위해 표준화될 수 있고/있거나 세그먼트화될 수 있다. 가능한 구현예에서, 다차원 어레이의 빈(empty) 요소는 가장 가까운 빈의 값 또는 미리 정의된 값으로 채워질 수 있다. 가능한 구현예에서, 트레이닝된 머신 러닝 모델은 랜덤 포레스트 모델 또는 신경망 모델, 예를 들어, 이의 출력에서 양성 또는 음성 CSI 상태의 단일 라벨 이진 분류, 또는 양성, 음성 또는 불확실한 CSI 상태의 단일 라벨 다중클래스 분류, 또는 CSI 상태를 나타내는 스칼라 CSI 점수를 생성하도록 트레이닝된 컨볼루션 신경망일 수 있다. 환자 샘플은 종양 샘플일 수 있으며, 머신 러닝 모델은 표적 적용에 따라 CSI 상태로 라벨링된 실제 샘플의 세트를 사용하여 지도 또는 반-지도 모드로 트레이닝될 수 있다. 가능한 구현예에서, CSI 상태 라벨은 HRDetect 방법에 따른 및/또는 동일한 HRD 상태를 공유하고 유사한 종양 함량을 갖는 실제 샘플 세트의 염색체를 샘플링함으로써 생성된 인공 샘플을 사용하는 HRD 상태일 수 있다. 인공 샘플은 실제 샘플 데이터세트에서와 동일한 순도-배수성 분포를 재현하기 위해 선택될 수 있다.
하나의 특정 구현예에서, 환자 샘플은 종양 샘플일 수 있으며, 머신 러닝 모델은 HRD 상태를 갖는 라벨링된 데이터를 사용하여 지도 또는 반-지도 모드로 트레이닝될 수 있다. 트레이닝 데이터는 HRD 상태를 갖는 임상 샘플로부터 수득되고 다차원 어레이로서 배열된 커버리지 데이터로 구성될 수 있다. 트레이닝 데이터 라벨은 HRD 검출 방법, 예를 들어, HRDetect 방법으로부터 얻어질 수 있다.
하나의 특정 구현예에서, 순도 및 배수성과 같은 샘플 특정 특성에 의해 도입된 편향을 설명하는 데이터 증강 전략은 머신 러닝 알고리즘을 트레이닝시키는 데 사용되는 다차원 어레이의 다양성 및 수를 증가시키는 데 사용될 수 있다.
도 1은 본 개시의 특정 구현예에 따른 차세대 시퀀싱 시스템을 나타낸다.
도 2는 본 개시의 특정 구현예에 따른 게놈 분석 워크플로우를 나타낸다.
도 3은 별개의 염색체 아암을 따라 보다 구체적으로 관찰 가능한 공간 이벤트를 더 잘 입증하기 위해 작은 커버리지 빈을 더 큰 빈으로 붕괴 및 스무딩하는 것을 포함하는 저 커버리지 데이터 준비 전처리 워크플로우의 가능한 구현예를 개략적으로 예시한다.
도 4는 인간 DNA 샘플에서 22개의 비-성염색체 세트를 따라, 저역 통과 전체 게놈 시퀀싱 실험의 커버리지 데이터 신호로부터의 제1 세트의 작은 빈으로 초기에 측정될 수 있는 바와 같은 표준화된 리드 커버리지 데이터 신호의 예를 플롯팅한다.
도 5는 도 4의 커버리지 데이터 신호로부터 제2 세트의 더 큰 빈으로 계산될 수 있는 바와 같은 표준화된 리드 커버리지 데이터 신호의 예를 플롯팅한다.
도 6은 각각의 p-아암 및 q-아암 염색체 아암 길이(y-축)를 갖는, 이들의 동원체 영역을 정렬시키도록 배열된 인간 게놈 염색체의 전체 세트(x-축에 상세히 설명됨)를 보여준다.
도 7은 각각 a) HRD 음성 종양 DNA 샘플 및 b) HRD 양성 종양 DNA 샘플에 대한, 염색체 공간 불안정성 분석 전에, 제안된 커버리지 데이터 준비 방법의 특정 구현예에 따라, 동원체 빈이 단일 열에서 수직으로 정렬되도록, 행마다 배열된 염색체 및 열을 따라 배열된 커버리지 빈을 갖는 2D 매트릭스로서 공간적으로 재배열된 표준화된 커버리지 데이터를 예시한다.
도 8은 (예를 들어, HRD 상태 분석을 위한) 가능한 염색체 공간 불안정성 분석기의 내부 데이터 워크플로우 아키텍처를 개략적으로 나타낸다.
도 9는 제안된 CSI 분석기 데이터 처리 모듈의 특정 구현예에 따른 컨볼루션 신경망의 가능한 아키텍처를 도시한다.
도 10a 및 도 10b는 560 유방암 게놈 데이터베이스의 2개 샘플에 대한 표준화된 커버리지 데이터를 도시한다.
도 11은 560 유방암 게놈 데이터베이스로부터의 202 BAM 파일 샘플로부터 22개의 비-성염색체에 따른 표준화된 커버리지 데이터를 도시한다.
도 12는 HRDetect 점수에 대한 종래 기술의 HRD 점수 방법 대 제안된 CSI 지표 분류기를 벤치마킹한다.
도 13은 HR 결핍과 관련하여 상이한 BRCA 결핍을 갖는 일련의 69개 시험 샘플에 대한 HRD 점수, 제안된 CSI 지표 점수 및 HRDetect 점수 결과를 플롯팅한다.
도 14는 동원체 영역에 인접한 적어도 하나의 빈 또는 텔로미어 영역에 인접한 하나의 빈에 대해 적어도 2개의 분석된 예시적인 염색체(chr.A 및 chr.B)로부터의 각각의 염색체 아암(p-아암 및 q-아암)에 대한 커버리지 신호 이미지의 예시적인 정렬을 도시한다. 패널 A) 적어도 2개의 예시적인 분석된 염색체(chr.A 및 chr.B)로부터의 각 염색체 아암(p-아암 및 q-아암)에 대한 커버리지 신호 이미지, 점선 직사각형 - 텔로미어 영역에 인접한 빈; 수직 줄무늬 직사각형 - 동원체 영역에 인접한 빈; 패널 B) - 동원체 영역에 인접한 빈에 대한 커버리지 신호 이미지의 정렬; 패널 C) - 텔로미어 영역에 인접한 빈에 대한 커버리지 신호 이미지의 정렬; 패널 D) - 동원체 영역에 인접한 빈에 대한 커버리지 신호 이미지의 정렬; 패널 E) - 텔로미어 영역에 인접한 빈에 대한 커버리지 신호 이미지의 정렬.
도 15는 실시예 2에 기재된 바와 같이 조합된 lpWGS 및 표적화된 포획으로부터 수득된 예시적인 출력 데이터를 도시한다. 도 15a: 저역 통과 WGS(lpWGS) 및 표적화된 시퀀싱을 조합한 워크플로우에서 생성된 NGS 데이터로부터 수득된, 100 kB 간격으로 계산된 미가공 범위를 도시한다. 예시 목적으로, 표적화된 실험에서 풍부한 게놈 영역의 미가공 범위는 빈 마커로 표시되고 lpWGS 영역은 채워진 마커로 표시된다. 도 15b: 비표적화(lpWGS만) 영역(좌, 도 15B1) 및 표적화(포획 농축) 영역(우, 도 15B2)에서의 맵핑된 리드의 정렬을 예시한다. 도 15c: lpWGS 영역으로 제한된 표준화된 범위(좌, 도 15C1), 및 포획 농축 영역에서 확인된 변이체의 대립유전자 분획(우, 도 15C2)을 도시한다.
도 16은 실시예 3에 기재된 바와 같은 인공 샘플의 제조를 도시한다. 패널 A는 인공 샘플을 생성하기 위해 무작위로 선택된 3개의 원래 종양 샘플에 대한 게놈(X-축, 표준화된 커버리지 플롯)에 걸친 표준화된 커버리지(Y-축)를 도시한다. 각 샘플에 대한 종양 함량(또는 순도, T), 배수성(P) 및 순도 배수성 비율(PPR)은 샘플에 대한 상응하는 표준화된 커버리지 플롯 위에 표시된다. 패널 B는 세트의 원래 샘플에서 관찰된 최저 PPR과 일치하도록 샘플의 인-실리코 희석 후 표준화된 커버리지 플롯을 나타내고, 패널 C는 희석된 샘플의 커버리지 플롯으로부터의 데이터를 조합함으로써 조립된 인공 샘플의 표준화된 커버리지 플롯을 나타낸다. 원래, 희석된 및 인공 샘플에서 표준화된 커버리지 포인트의 칼라가 보존되었다.
본 개시는 적어도 부분적으로, 기본 염색체 배열과 관련하여 종양 샘플 시퀀싱 데이터 커버리지를 처리하도록 설계된, 본원에 개시된 머신 러닝 트레이닝된 분석기가 일반적으로 염색체 공간 불안정성(CSI)의 지표, 및 특히 종양 샘플에 대한 상동 복구 결핍(HRD) 상태의 지표를 추출할 수 있다는 발견을 기초로 한 것이다.
제안된 방법 및 시스템은 이제 보다 상세한 구현예를 참조하여 설명될 것이다. 그러나, 제안된 방법 및 시스템은 상이한 형태로 구현될 수 있고 본원에 기재된 구현예로 제한되는 것으로 해석되어서는 안 된다. 오히려, 이러한 구현예는 본 개시가 철저하고 완전해질 것이고, 당업자에게 범위를 완전히 전달할 수 있도록 제공된다.
정의
"DNA 샘플"은, 예를 들어, 고형 종양 또는 유체로부터 추출될 수 있는 바와 같이, 유기체로부터 유래된 핵산 샘플을 지칭한다. 유기체는 인간, 동물, 식물, 진균, 또는 미생물일 수 있다. 핵산은 포르말린-고정 파라핀-포매(FFPE) 샘플과 같은 고체 샘플에서 발견될 수 있다. 대안적으로, 핵산은 혈액 또는 혈장에서 순환 종양 DNA와 같이 제한된 양 또는 낮은 농도로 발견될 수 있다.
"DNA 단편"은 고분자량 DNA의 단편화로부터 생성된 짧은 DNA 조각을 지칭한다. 단편화는 샘플 유기체에서 자연적으로 발생할 수 있거나, 예를 들어, 기계적 전단, 초음파처리, 효소적 단편화 및 다른 방법에 의해 DNA 샘플에 적용된 DNA 단편화 방법으로부터 인공적으로 생성될 수 있다. 단편화 후, DNA 조각은 각 분자가 평활 말단을 갖는 것을 보장하기 위해 말단 복구될 수 있다. 결찰 효율을 향상시키기 위해, 아데닌이 단편화된 DNA의 3' 평활 말단 각각에 첨가되어, DNA 단편이 상보적인 dT-오버행을 갖는 어댑터에 결찰될 수 있다.
"DNA 생성물"은 차세대 시퀀싱 워크플로우에 적응시키기 위해 DNA 단편을 조작, 연장, 결찰, 복제, 증폭, 복사, 편집 및/또는 절단함으로써 생성된 DNA의 조작된 조각을 지칭한다.
"DNA-어댑터 생성물"은 차세대 시퀀싱 워크플로우와 양립가능하게 하기 위해 DNA 단편을 DNA 어댑터와 결찰시킴으로써 생성된 DNA 생성물을 지칭한다.
"DNA 라이브러리"는 차세대 시퀀싱 워크플로우와의 양립성을 위해 DNA 단편을 적응시키기 위한 DNA 생성물 또는 DNA-어댑터 생성물의 컬렉션(collection)을 지칭한다.
"풀(pool)"은 단일 고처리량 시퀀싱 분석으로 다중화될 수 있는 바와 같이, 동일하거나 상이한 유기체로부터 유래된 다수의 DNA 샘플(예를 들어, 48개 샘플, 96개 샘플, 또는 그 초과)을 지칭한다. 각각의 샘플은 고유한 샘플 바코드에 의해 풀에서 식별될 수 있다.
"뉴클레오타이드 서열" 또는 "폴리뉴클레오타이드 서열"은 시토신(서열 스트링에서 C 문자로 표시됨), 티민(서열 스트링에서 T 문자로 표시됨), 아데닌(서열 스트링에서 A 문자로 표시됨), 구아닌(서열 스트링에서 G 문자로 표시됨) 및 우라실(서열 스트링에서 U 문자로 표시됨)과 같은 뉴클레오타이드의 임의의 중합체 또는 올리고머를 지칭한다. 이는 DNA 또는 RNA, 또는 이들의 조합일 수 있다. 이는 단일-가닥 또는 이중-가닥 형상으로 영구적으로 또는 일시적으로 발견될 수 있다. 달리 지시되지 않는 한, 핵산 서열은 5'에서 3' 배향으로 왼쪽에서 오른쪽으로 기록된다.
"증폭"은 하나 이상의 모 서열로부터 복제된 다수의 폴리뉴클레오타이드 서열을 생산하기 위한 폴리뉴클레오타이드 증폭 반응을 지칭한다. 증폭은 다양한 방법, 예를 들어, 폴리머라제 연쇄 반응(PCR), 선형 폴리머라제 연쇄 반응, 핵산 서열-기반 증폭, 롤링 서클(rolling circle) 증폭, 및 다른 방법에 의해 생산될 수 있다.
"시퀀싱"은 생물정보학 워크플로우에서 생물정보학 컴퓨터에 의해 처리될 수 있는 시퀀싱 리드 세트를 생성하기 위해 DNA 라이브러리로부터 뉴클레오타이드의 서열을 판독하는 것을 지칭한다. 고처리량 시퀀싱(HTS) 또는 차세대-시퀀싱(NGS)은 병렬로, 통상적으로 서열 당 50 내지 수천 개의 염기쌍의 실시간 시퀀싱을 지칭한다. 예시적인 NGS 기술은 Illumina, Ion Torrent Systems, Oxford Nanopore Technologies, Complete Genomics, Pacific Biosciences, BGI 등의 기술을 포함한다. 실제 기술에 따라, NGS 시퀀싱은 합성에 의한 시퀀싱의 경우에 유세포로의 전달 전에 단일 모 분자의 다수의 경우가 예를 들어 PCR 증폭으로 시퀀싱되도록 증폭 단계뿐만 아니라 추가 시퀀싱 단계를 용이하게 하기 위해 시퀀싱 어댑터 또는 프라이머를 사용한 샘플 제조를 필요로 할 수 있다.
"시퀀싱 깊이" 또는 "시퀀싱 커버리지" 또는 "시퀀싱의 깊이"는 게놈이 시퀀싱된 횟수를 지칭한다. 표적 농축 워크플로우에서, 전체 게놈에서 관심 영역의 작은 서브세트만이 시퀀싱되며, 따라서 이는 너무 중요한 데이터 저장 및 데이터 처리 오버헤드에 직면하지 않으면서 시퀀싱 깊이를 증가시키는 것이 합리적일 수 있다. 게놈을 따라 고해상도를 필요로 하지 않는 일부 게놈 분석 적용에서, 예를 들어, 복사체 수 변경을 검출함에 있어서, 저역 통과(LP) 커버리지(1x 내지 10x) 또는 심지어 초저역 통과(ULP) 커버리지(<1X 내지 모든 위치가 시퀀싱되는 것은 아님)는 정보 기술 인프라 비용의 관점에서 더 효율적일 수 있지만, 이러한 워크플로우는 시퀀서 및 정렬기로부터 덜 신뢰할 수 있는 데이터 입력을 처리하기 위해 보다 정교한 생물정보학 방법 및 기술을 필요로 한다. 또한, 데이터 저장 및 처리와 관련된 더 높은 비용과는 별도로, 실험적 NGS 실행의 작동 비용, 즉, 시퀀싱을 위한 샘플을 시퀀서에 로딩하는 것은 또한 일상적인 임상 워크플로우에서 병렬로 분석될 수 있는 샘플의 커버리지 깊이와 수의 균형을 맞춤으로써 최적화될 필요가 있다. 실제로, 차세대 시퀀서는 단일 실험에서 (즉, 주어진 실행에서) 생산할 수 있는 총 리드 수에서 여전히 제한적이다. 커버리지가 낮을수록, 게놈 분석을 위한 샘플 당 리드가 더 적고, 차세대 시퀀싱 실행 내에서 다중화될 수 있는 샘플의 수는 더 많다.
"정렬하는" 또는 "정렬" 또는 "정렬기"는 생물정보학 워크플로우에서, 적용에 따라, 참조 게놈 서열에 대한 시퀀싱 리드를 맵핑하고 염기별로 정렬함을 지칭한다. 예를 들어, 시퀀싱 리드가 실험적 증폭 과정에 사용되는 하이브리드 포획 프로브에 따라 특정 표적화된 게놈 영역에 맵핑될 것으로 예상되는 표적화된 농축 적용에서, 정렬은 참조 게놈에서 염색체 번호, 시작 위치 및 끝 위치와 같은 게놈 좌표에 의해 규정된, 상응하는 서열에 대해 특이적으로 조사될 수 있다. 생물정보학 실무에 공지된 바와 같이, 일부 구현예에서, 본원에서 사용되는 "정렬" 방법은 또한, 예를 들어, 짝을 이루지 않는 리드를 제거함으로써 및/또는 리드의 말단으로서 어댑터 서열을 트리밍함으로써 및/또는 다른 리드 전-처리 필터링 수단에 의해, 시퀀싱 리드의 맵핑을 용이하게 하고/하거나 리드로부터 관련이 없는 데이터를 제거하기 위한 특정의 전-처리 단계를 포함할 수 있다. 상이한 좌표 시스템(절대 또는 상대 위치 인덱싱, 0-기반 또는 1-기반 등)을 갖는 예시적인 생물정보학 데이터 표현은 BED 형식, GTF 형식, GFF 형식, SAM 형식, BAM 형식, VCF 형식, BCF 형식, Wiggle 형식, GenomicRanges 형식, BLAST 형식, GenBank/EMBL 특징 표 형식 등을 포함한다.
"커버리지" 또는 "서열 리드 커버리지" 또는 "리드 커버리지"는 게놈 위치 또는 게놈 위치의 세트에 정렬된 시퀀싱 리드의 수를 지칭한다. 일반적으로, 더 높은 커버리지를 갖는 게놈 영역은 특히 변이체를 호출할 때 다운스트림 게놈 특성화에서 더 높은 신뢰성과 관련이 있다.
"빈(Bin)", "게놈 섹션", "구획", "게놈 부분" 또는 "염색체의 부분"은 게놈의 인접한 관심 영역을 지칭한다. 이러한 영역은 변이체를 포함할 수 있으므로, 빈은 일반적으로 고정된 DNA 서열보다는 게놈의 위치 또는 영역을 지칭한다. 생물정보학 방법 및 공정에서, 빈은 참조 게놈을 따라 이의 시작 및 끝 게놈 좌표에 의해 확인될 수 있고, 빈 길이는 시작부터 끝 좌표까지 염기(b, kb, Mb) 또는 염기쌍(bp, kbp, Mbp)의 수로서 측정될 수 있다. 일반적으로, 빈은 전체 염색체, 염색체의 세그먼트, 참조 게놈의 세그먼트, 다중 염색체 부분, 다중 염색체, 다중 염색체로부터의 부분, 및/또는 이들의 조합에 상응할 수 있다. 바람직하게는, 빈은 참조 게놈을 게놈 섹션으로 분할(예를 들어, 크기, 분절, 인접 영역, 임의로 정의된 크기의 인접 영역 등에 의해 분할됨)로부터 수득된 염색체의 일부이다. 게놈 섹션은 생물정보학에 공지된 임의의 적합한 기준을 사용하여 선택, 분류, 여과 및/또는 고려 대상에서 제거될 수 있다. 게놈을 따라, 빈은 동일하고 균일한 길이 또는 상이한 가변 길이를 가질 수 있다.
"커버리지 빈 카운트" 또는 "커버리지 카운트" 또는 "카운트"는 빈에 맵핑되거나 빈과 부분적으로 중첩되는 다수의 시퀀싱 리드 또는 페어드-엔드 리드(DNA 단편을 나타냄)를 지칭한다. 카운트는 게놈 섹션에 맵핑되거나 정렬된(즉, 관련된) 미가공 서열 리드 및/또는 전처리된 서열 리드의 일부 또는 모두로부터 유래될 수 있다. 리드의 세트 중 일부는 당 분야에 공지된 다양한 생물정보학 방법에 따라, 카운팅되기 전에 리드 단위 또는 페어드-엔드 리드 단위로 가중, 제거, 필터링, 표준화, 조정, 축소, 병합, 추가, 및/또는 감산되거나 이들의 조합에 의해 처리될 수 있다. 일부 구현예에서, 카운트는 불확실성 또는 품질 값과 관련될 수 있다. 일부 구현예에서, 리드 또는 페어드-엔드 리드는 단일 빈에 완전히 함유되지 않고, 오히려 2개의 인접한 빈에 걸쳐 중첩될 수 있으며; 이러한 경우, 리드는 가장 큰 중첩을 갖는 빈 내에서 카운팅될 수 있다.
"커버리지 데이터 신호" 또는 "커버리지 신호" 또는 "커버리지 데이터 신호 어레이"는 1D 벡터(이에 따라 커버리지 신호 벡터 또는 커버리지 신호 어레이 또는 1D 히트맵을 획득함), 2D 매트릭스(이에 따라 커버리지 신호 매트릭스 또는 커버리지 신호 이미지 또는 2D 히트맵을 획득함), 또는 임의의 적합한 토폴로지로서 배열될 수 있는, 이들의 각각의 카운트와 관련된 빈의 컬렉션을 지칭한다. 커버리지 데이터 신호는 기술적 편견을 제거하기 위해 선택적으로 표준화될 수 있다. 커버리지 데이터 신호 어레이는 본원에서 커버리지 데이터 신호 이미지 또는 커버리지 데이터 신호 다차원 어레이로 지칭되는, 2D 표현으로 배열될 수 있다.
"염색체 아암"은 염색체 동원체에 의해 서로 결합된 염색체의 2개의 섹션(아암) 중 임의의 섹션(아암)을 지칭한다. p-아암은 가장 짧은 아암을 지칭하는 반면 q-아암은 가장 긴 아암을 지칭한다. 각 아암은 텔로미어로 종결된다. 중부 동원체 염색체에서, p-아암 및 q-아암은 유사한 크기를 갖는다. 서브-중부 동원체 염색체에서, p-아암은 q-아암보다 짧다. 말단 동원체 염색체에서, p-아암은 매우 짧다. 단부 동원체 염색체에서, p-아암은 더 이상 존재하지 않거나 너무 짧아서 염색체를 검사할 때 더 이상 볼 수 없다. 인간의 정상 세포는 단부 동원체 염색체를 보유하지 않는다. 그러나, 이들은 특정 종양 세포에서 발견될 수 있다.
염색체에 대한 "동원체 영역(centromeric region)" 또는 "동원체 영역(certromere region)"은 염색체의 동원체 옆의 영역을 지칭한다.
염색체 커버리지 데이터 신호에 대한 "동원체 빈"은 염색체 아암과 관련된 커버리지 빈 세트 내의 동원체 영역에 대한 가장 가까운 인접한 빈인 커버리지 빈을 지칭한다. 최대 2개의 동원체 빈이 임의의 주어진 인간 염색체에 대한 게놈 커버리지 데이터와 연관될 수 있으며, 하나는 동원체의 좌측에, 하나는 동원체의 우측에 시퀀싱 데이터 게놈 좌표계를 따라 존재한다.
염색체에 대한 "텔로머 영역"은 염색체의 텔로미어 옆의 영역을 지칭한다.
염색체 커버리지 데이터 신호에 대한 "텔로머 빈"은 이 염색체와 관련된 커버리지 빈 세트 내의 염색체의 시작 및 끝에서 각각 2개의 텔로머 영역 중 임의의 텔로머 영역에 대한 가장 가까운 인접한 빈인 커버리지 빈을 지칭한다. 최대 2개의 별도의 원거리 텔로머 빈이 임의의 주어진 인간 염색체에 대한 게놈 커버리지 데이터와 연관될 수 있으며, 하나는 p-아암에 대한 것이고 다른 하나는 q-아암에 대한 것이다.
"염색체 불안정성" 또는 "CIN"은 염색체가 불안정하여, 전체 염색체 또는 염색체의 일부가 복제되거나 결실되는, 게놈 불안정성의 유형을 지칭한다. 보다 구체적으로, CIN은 전체 염색체 또는 이들의 섹션의 첨가 또는 손실 속도의 증가를 지칭한다. 이러한 게놈 변경은 특히 종양 세포에서 전체 염색체의 획득 또는 손실 또는 전체 염색체 재배열과 같은 구조적 이상을 수반할 수 있다.
"염색체 공간 불안정성" 또는 "CSI"는 첨가 또는 손실 속도의 증가가 게놈을 따른 사건의 공간적 분포에 따라 특성화될 수 있는 염색체 불안정성을 지칭한다. CSI 정보는 트레이닝된 머신 러닝 모델의 출력에서, 직접적으로, 제공된 표현형에 대한 머신 러닝 모델에 의해 계산된 CSI 점수, 예를 들어, 스칼라 수로서 또는 양의 값 "CSI+", 음의 값 "CSI-", 또는 가능하게는 불확실하거나 결정되지 않은 값 "미결정 CSI"로서 라벨링될 수 있는 CSI로서 획득될 수 있다. CSI 양성 또는 음성 상태는 또한 CSI 점수에 기초하여 추론될 수 있다.
"상동 재조합 결핍 상태" 또는 "HRD 상태"는 상동 재조합 경로의 분류를 지칭하고, 상동 재조합 경로 결핍을 초래하는 임의의 세포 상태/사건에 관한 것이다. HRD 상태는 상동 재조합 경로가 결핍된 양성(HRD+)으로 분류될 수 있거나, 또는 상동 재조합 경로가 결핍되지 않은 음성(HRD-)으로 분류될 수 있거나, 달리 결정되지 않은 것으로 분류될 수 있다(HRD 불확실함, HRD 미정).
"머신 러닝 모델"은 명시적 통계 모델과 대조적으로, 데이터 과학 분야에 공지된 지도, 반-지도 또는 비지도 러닝 기술을 사용하여 트레이닝된 데이터 모델 또는 데이터 분류기를 지칭한다. 데이터 입력은 1D 신호(벡터), 2D 신호(매트릭스), 또는 보다 일반적으로 다차원 어레이 신호(예를 들어, 텐서, 또는 이의 적색, 녹색, 및 청색 분해 평면 - 3개의 매트릭스의 3*2D 신호로서 표현되는 RGB 컬러 이미지) 및/또는 이들의 조합으로서 표현될 수 있다. 다차원 어레이는 적어도 2개의 차원을 따라 배열된 데이터 구조에 의해 수학적으로 정의되며, 각각의 차원은 1개 초과의 값을 기록한다.
딥 러닝 분류기의 경우, 데이터 입력은 숨겨진 데이터 구조, 데이터 시그니쳐 및 기본 패턴을 암시적으로 캡처하기 위해 일련의 데이터 처리 층을 통해 추가로 처리된다. 다중 데이터 처리 층의 사용 덕분에, 딥 러닝은 자동화된 데이터 처리를 다양한 복잡한 패턴 검출 및 데이터 분석 작업으로 일반화하는 것을 용이하게 한다. 머신 러닝 모델은 지도, 반-지도 또는 비지도 러닝 프레임워크 내에서 트레이닝될 수 있다. 지도 러닝 프레임워크 내에서, 모델은 입력 및 매칭 출력의 예시적인 쌍에 기반하여 입력 데이터 세트로부터 출력 결과를 맵핑하는 함수를 학습한다. 지도 러닝에 사용되는 머신 러닝 모델의 예는 SVM(Support Vector Machines), 회귀 분석, 선형 회귀, 로지스틱 회귀, 나이브 베이즈, 선형 판별 분석, 결정 트리, k-최근접 이웃 알고리즘, 랜덤 포레스트, 인공 신경망(ANN), 예컨대, 컨볼루션 신경망(CNN), 순환 신경망(RNN), 완전-연결된 신경망, 장단기 기억(LSTM) 모델, 등; 및/또는 이들의 조합을 포함한다. 비지도 러닝 프레임워크 내에서 트레이닝된 모델은 데이터에 대한 사전 지식 없이도 데이터 세트의 숨겨진 구조를 식별하는 기능을 추론한다. 당 분야에 공지된 비지도 머신 러닝 모델의 예는 k-평균 클러스터링, 혼합 모델 클러스터링, 계층적 클러스터링과 같은 클러스터링; 이상 검출 방법; 주성분 분석(PCA), 독립 성분 분석(ICA), T-분포 확률적 이웃 임베딩(t-SNE); 생성 모델; 및/또는 비지도 신경망; 오토인코더; 및/또는 이들의 조합을 포함한다. 반-지도 러닝(SSL)은 라벨링된 데이터와 라벨되지 않은 데이터 모두를 사용하여 모델을 트레이닝할 수 있는 머신 러닝 프레임워크이다. 데이터 증강 방법은 부족한 실제 데이터 샘플 세트로부터 인공 데이터 샘플을 생성하고 모델 트레이닝에 사용되는 데이터의 수 및 다양성을 증가시키기 위해 선택적으로 사용될 수 있다. 라벨링되지 않은 데이터는 소량의 라벨링된 데이터와 함께 사용될 때 다른 프레임워크에 비해 학습 정확도에서 상당한 개선을 일으킬 수 있다. 이러한 접근법은 이용 가능한 데이터의 일부만이 라벨링될 때 특히 흥미롭다.
"컨볼루션 신경망" 또는 "CNN"은 분류 또는 회귀 임무를 해결하는 데 가장 적합한 방식으로 입력 데이터를 나타내기 위해 컨볼루션 층으로 알려진 다수의 데이터 처리 층을 사용하는 머신 러닝 모델을 지칭한다. 트레이닝 동안, 가중치 파라미터는 확률적 구배 하강을 수행하기 위해 역전파 알고리즘과 같은 당 분야에 공지된 최적화 알고리즘을 사용하여 각각의 CNN 층에 대해 최적화된다. 런타임에, 결과적인 트레이닝된 CNN은 이후, 예를 들어, 트레이닝된 분류 임무의 경우에 가능한 한 적은 가양성 및 가음성을 갖는 올바른 데이터 출력 라벨로 이를 분류하기 위해 입력 데이터를 매우 효율적으로 처리할 수 있다. 컨볼루션 신경망은 또한 반복 신경망과 조합되어 딥 러닝 분류기를 생성할 수 있다.
게놈 분석 시스템
예시적인 게놈 분석 시스템 및 워크플로우는 이제 도 1을 참조하여 추가로 상세히 설명될 것이다. DNA 분석의 당업자에게 명백한 바와 같이, 게놈 분석 워크플로우는 DNA 분석 데이터, 예컨대, 생물정보학 시스템("건식 실험실"이라고도 함)으로, DNA 변이체 및 관련 주석의 상세한 식별과 같은, 최종 사용자에게 관심 정보를 추가로 식별하기 위해 DNA 분석 데이터에 대해 수행될 후속 데이터 처리 단계뿐만 아니라 차세대 시퀀싱 워크플로우에서 미가공 시퀀싱 리드와 같은 DNA 분석 데이터를 생성하기 위해 실험실("습식 실험실"이라고도 함)에서 수행되는 사전 실험 단계를 포함한다. 실제 적용, 실험실 환경 및 생물정보학 플랫폼에 따라, DNA 분석 워크플로우의 다양한 구현예가 가능하다. 도 1은 DNA 샘플이 NGS 시퀀서(110)에 의한 처리를 용이하게 하기 위해 DNA 단편을 생산, 시퀀싱에 적합화 및 증폭할 수 있는 DNA 라이브러리 제조 프로토콜(100)로 먼저 실험적으로 제조되는 습식 실험실 시스템을 포함하는 NGS 시스템의 예를 설명한다. 차세대 시퀀싱 워크플로우에서, 생성된 DNA 분석 데이터는 FASTQ 형식의 미가공 시퀀싱 리드의 데이터 파일로서 생산될 수 있다. 이후, 워크플로우는 제안된 방법에 따라 제조된 DNA 샘플의 풀에 대한 미가공 시퀀싱 리드를 입력으로 취하고 입력 샘플의 특정 게놈 특징을 특성화하기 위해 일련의 데이터 처리 단계를 적용하는 건조 실험실 게놈 데이터 분석기 시스템(120)을 추가로 포함할 수 있다. 예시적인 게놈 데이터 분석기 시스템(120)은 2020년에 전 세계적으로 1000개 이상의 병원에서 이미 게놈 변이체를 식별 및 특성화하고 이를 최종 사용자에게 보고하기 위해 이미 사용되는 소피아 데이터 기반 의학 플랫폼(Sophia DDM)이지만, 다른 시스템이 또한 사용될 수 있다. 게놈 변이체 분석을 위해 게놈 데이터 분석기 시스템(120)에 의해 적용될 수 있는 데이터 처리 단계의 상이한 상세한 가능한 구현예는, 예를 들어, 국제 PCT 특허 출원 WO2017/220508호에 기재되어 있지만, 다른 구현예가 또한 가능하다.
도 1에 예시된 바와 같이, 게놈 데이터 분석기(120)는 미가공 NGS 시퀀싱 데이터를 참조 게놈, 예를 들어, 의료 적용에서의 인간 게놈, 또는 수의학적 적용에서의 동물 게놈과 비교하는 서열 정렬 모듈(121)을 포함할 수 있다. 통상적인 게놈 데이터 분석기 시스템에서, 생성된 정렬 데이터는 SNP 및 INDEL 다형성과 같은 변이체 정보를 검색하기 위해 변이체 호출 모듈(도시되지 않음)에 의해 추가로 필터링되고 분석될 수 있다. 변이체 호출 모듈은 상이한 변이체 호출 알고리즘을 실행하도록 구성될 수 있다. 얻어진 검출된 변이체 정보는 이후 최종 사용자에 의한, 예를 들어 시각화 툴로의 추가 처리를 위한 게놈 변이체 리포트로서의 게놈 데이터 분석기 모듈(120)에 의해, 및/또는 추가 변이체 주석 처리 모듈(도시되지 않음)에 의해 출력될 수 있다. 가능한 구현예에서, 게놈 데이터 분석기 시스템(120)은 공간적으로 배열된 커버리지 데이터 신호를 준비하기 위한 커버리지 데이터 준비 모듈(122), 및 공간적으로 배열된 커버리지 데이터 신호를 분석하고 CSI 정보를 도출하고, 이후, 예를 들어, 시각화 도구를 사용하여 최종 사용자에게, 또는 다른 다운스트림 프로세스(도시되지 않음)에 보고하기 위한 염색체 공간 불안정성(CSI) 분석기 모듈(123)과 같은 자동화된 데이터 처리 모듈을 포함할 수 있다. 가능한 구현예에서, 염색체 공간 불안정성(CSI) 분석기 모듈(123)은 공간적으로 배열된 커버리지 데이터 신호를 분석하고 CSI 정보로부터, CSI 점수, 예컨대 HRD 점수, 또는 CSI 상태, 예컨대 HRD 상태를 도출하도록 구성될 수 있다. HRD 상태 및/또는 CSI 정보는 이후, 예를 들어, 시각화 도구를 사용하여 최종 사용자에게, 또는 다른 다운스트림 프로세스(도시되지 않음)에 보고될 수 있다.
데이터 처리 워크플로우
게놈 데이터 분석기(120)는 상이한 데이터 처리 방법을 이용하고 조합함으로써 게놈 데이터 분석 리포트를 생성하기 위해 시퀀싱 데이터를 처리할 수 있다.
서열 정렬 모듈(121)은 상이한 정렬 알고리즘을 실행하도록 구성될 수 있다. 다수의 게놈 데이터 시퀀싱 리드의 빠른 처리를 위해 최적화된 Bowtie2 또는 BWA와 같은 표준 미가공 데이터 정렬 알고리즘이 사용될 수 있지만, 다른 구현예가 또한 가능하다. 정렬 결과는 생물정보학 분야의 당업자에게 공지된 바와 같이 BAM 또는 SAM 형식의 하나 또는 여러 개의 파일로 표시될 수 있지만, 다른 형식, 예를 들어, 저장 최적화 및/또는 게놈 데이터 프라이버시 시행을 위한 게놈 데이터 분석기(120) 요건에 따라, 차수-보존 암호화를 위해 최적화된 포맷 또는 압축 포맷이 또한 사용될 수 있다.
도 2는 생물정보학 파이프라인에서 BAM 파일과 같은 정렬 파일의 분석으부터 CSI 리포트를 생성하기 위한 자동화된 데이터 처리 모듈에 대한 가능한 워크플로우를 보여준다. 가능한 구현예에서, 커버리지 데이터 준비 모듈(122)은 각각의 게놈 빈에 정렬된 미가공 수의 리드 또는 페어드-엔드 리드로서 정렬된 리드로부터 커버리지 데이터 신호를 생성하고(200), 생성된 데이터를 공간적으로 배열된 커버리지 데이터 신호로서 배열(210)하도록 구성될 수 있다. 공간적으로 배열된 커버리지 데이터는 2D 이미지 각각, 다평면 2D 이미지, 또는 다차원 어레이(텐서) 입력 신호에서 작동하는 CSI 분석기(123)에 의한 이의 처리를 용이하게 하기 위해 각각의 매트릭스로서, 매트릭스의 세트로서, 또는 커버리지 다차원 어레이 데이터(텐서)로서 표현될 수 있다. 염색체 공간 불안정성(CSI) 분석기 모듈(123)은 이후 데이터가 종양 샘플의 경우 가능한 염색체 공간 불안정성(CSI)을 특징으로 하는 특정 특성을 나타내는지 여부를 최종 사용자에게 보고하기 위해(230) 공간적으로 배열된 커버리지 데이터 정보를 추가로 분석, 분류 및/또는 분류할 수 있다(220). 가능한 구현예에서, 염색체 공간 불안정성(CSI) 분석기 모듈(123)은 CSI 점수를 생성할 수 있다. 또 다른 가능한 구현예에서, 염색체 공간 불안정성(CSI) 분석기 모듈(123)은 음성 상태, 양성 상태, 또는 미결정 상태와 같은 CSI 상태를 생성할 수 있다. 가능한 구현예에서, CSI 상태는 CSI 점수에 기초하여 추론될 수 있지만, 다른 구현예가 또한 가능하다. 바람직한 구현예에서, CSI는 종양 샘플의 상동 복구 결핍(HRD)을 HRD 점수 또는 HRD 상태로 특성화할 수 있지만, 염색체 공간 불안정성과 관련된 다른 게놈 특징, 예를 들어, BRCA1 또는 BRCA2 결핍에 의해 야기된 HRD가 또한 특징화될 수 있다. 이러한 리포트는 이후 암 서브타입의 종양유전체학 진단 및/또는 이의 예후를 용이하게 할 수 있다. 이러한 리포트는 또한, 예를 들어, 종양 세포 증식을 감소 또는 중지시키기 위해 HRR 경로의 결핍을 이용하는 특정 암 치료의 사용과 같이, 분석된 종양을 특이적으로 표적화하는 의학적 치료의 선택을 용이하게 할 수 있다.
게놈 데이터 분석기(120)는 중앙 처리 유닛(CPU, 본원에서 "프로세서" 또는 "컴퓨터 프로세서"), RAM과 같은 메모리 및 하드 디스크와 같은 저장 유닛, 및 통신 네트워크, 예를 들어, 인터넷 또는 로컬 네트워크를 통해 다른 컴퓨터 시스템과 통신하기 위한 통신 인터페이스를 포함하는 컴퓨터 시스템 또는 컴퓨터 시스템의 일부일 수 있다. 게놈 데이터 분석기 컴퓨팅 시스템, 환경, 및/또는 구성의 예는 개인용 컴퓨터 시스템, 서버 컴퓨터 시스템, 씬 클라이언트(thin client), 씩 클라이언트(thick client), 휴대용 또는 랩톱 디바이스, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 세트 탑 박스, 프로그램 가능한 소비자 전자 제품, 네트워크 PC, 미니컴퓨터 시스템, 메인프레임 컴퓨터 시스템, 그래픽 처리 유닛(GPU) 등을 포함하지만, 이로 제한되지 않는다. 일부 구현예에서, 컴퓨터 시스템은 하나 이상의 컴퓨터 서버를 포함할 수 있고, 이는 다수의 다른 범용 또는 특수 목적 컴퓨팅 시스템과 함께 작동하고, 예를 들어, 게놈 데이터 팜에서 클라우드 컴퓨팅과 같은 분산 컴퓨팅을 가능하게 할 수 있다. 일부 구현예에서, 게놈 데이터 분석기(120)는 대규모 병렬 시스템으로 통합될 수 있다. 일부 구현예에서, 게놈 데이터 분석기(120)는 차세대 시퀀싱 시스템에 직접 통합될 수 있다.
게놈 데이터 분석기(120) 컴퓨터 시스템은 컴퓨터 시스템에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 시스템-실행 가능한 명령어의 일반적인 맥락에서 적합화될 수 있다. 일반적으로, 프로그램 모듈은 특정 임무를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 로직, 데이터 구조 등을 포함할 수 있다. 컴퓨터 프로그래밍 분야의 당업자에게 잘 알려진 바와 같이, 프로그램 모듈은 네이티브 운영 시스템 및/또는 파일 시스템 기능, 독립형 애플리케이션; 브라우저 또는 애플리케이션 플러그인, 애플릿 등; Python, Biopython, C/C++, 또는 다른 프로그래밍 언어로 프로그래밍될 수 있는 상업적 또는 오픈 소스 라이브러리 및/또는 라이브러리 도구; Perl 또는 Bioperl 스크립트와 같은 사용자 정의 스크립트을 사용할 수 있다.
명령어는 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 임무가 수행되는 분산형 클라우드 컴퓨팅 환경에서 실행될 수 있다. 분산형 클라우드 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 디바이스를 포함하는 로컬 및 원격 컴퓨터 시스템 저장 매체 둘 모두에 위치할 수 있다.
따라서, 본원에 기재된 방법은 컴퓨터-구현되는 방법인 것으로 이해된다.
커버리지 데이터 준비 - 비닝
가능한 구현예에서, 참조 게놈 좌표는 먼저 P 빈의 세트로 분할되고, 각각의 빈에 맵핑되는 DNA 단편의 수는 BAM 또는 SAM 파일로부터 정렬된 리드를 입력으로서 취하여(시퀀싱 리드 정렬 후), 당 분야에 공지된 바와 같은 생물정보학 방법을 이용하여 P 빈을 따라 200개의 커버리지 데이터 신호를 생성한다. 생물정보학의 당업자에게 명백한 바와 같이, 일부 구현예에서, 입력 데이터 품질을 개선하기 위해 일부 빈은 무시되거나, 필터링되거나, 다른 빈과 병합될 수 있다.
가능한 간단한 구현예에서, 참조 게놈을 따라 빈에 대해 균일한 크기가 사용될 수 있지만, 이종 크기의 선택도 가능하다. 빈의 크기는 본원에 기재된 머신 러닝 분석 방법으로 커버리지 데이터 신호 분석을 용이하게 하면서 각 염색체에 대한 커버리지 데이터 신호의 분석을 위해 충분한 공간적 세부사항을 보존하도록 선택될 수 있다. 바람직하게는, 빈의 크기는 300 bp 내지 20 Mpb의 범위일 수 있지만, 다른 구현예도 가능하다.
참조 인간 게놈의 경우, 염색체는 가능하게는 성 염색체를 배제하면서 가장 큰 염색체(chr1)에서 가장 작은 염색체(chr22)로 순차적으로 정렬된다. 인간 염색체는 chr1의 경우 249 Mbp로부터 chr22의 경우 51 Mbp로 감소하는 길이로 넘버링된다. 예를 들어, 참조 게놈을 3 Mbp의 빈으로 분할함으로써, 따라서 가장 긴 염색체 1에 대한 84 빈부터 가장 짧은 염색체 22에 대한 4 빈까지의 1D 어레이(벡터)를 수득하는 것이 가능하다. 표 1은 리드 정렬을 위해 사용되는 참조 게놈의 좌표계에서, GRCh37 참조 게놈(hs37d5 버전)을 참조하여, 인간 게놈의 각 염색체의 경우 p-아암(짧은 아암) 및 q-아암(긴 아암)에 대한 Mbp 단위의 개개 길이뿐만 아니라 동원체 영역의 이론적 각각의 시작 및 끝 위치, 총 염색체 길이 및 이의 유형을 나타낸다. 예를 들어, 짧은 NGS 리드를 인간 게놈의 특정 반복적인 서열 또는 문제가 있는 영역, 예를 들어, 말단 동원체 염색체 13, 14, 15, 21, 22 또는 Y의 p-아암에 정확하게 맵핑하는 것의 어려움으로 인해, 인간 게놈의 모든 빈이 현재의 고처리량 시퀀싱 기술로 BAM 파일에 정렬된 리드를 포함할 수 있는 것은 아님에 유의한다.
표 1. GRCh37 참조 게놈 좌표계(hs37d5 버전)로 표현된 인간 염색체에 대한 동원체 영역 위치의 시작 및 끝 위치, 염색체 길이(bp) 및 염색체 아암 길이(Mbp)
Figure pct00001
생물정보학 분야의 당업자에게 명백한 바와 같이, 가능한 구현예에서, 전체 게놈 시퀀싱 데이터에 따른 빈 크기 및 위치는 또한 BAM 파일로부터의 실제 커버리지에 적응될 수 있다. 일반적으로, 본 발명자는 P 개의 빈 세트의 각 빈이 기준 좌표 시스템에서 빈 {bin_start, bin_end} 1<=bin_index<=P 의 시작 및 종료 위치에 대응하는 2개의 값에 의해 정의될 수 있다고 고려할 수 있다. 따라서, 빈의 크기는 bin_size= bin_end - bin_start와 같이 가변적일 수 있다. 가능한 구현예에서, 빈의 크기는 0.5Mbp 내지 1.5Mbp, 또는 1.5Mbp 내지 2.5Mbp, 또는 2.5Mbp 내지 3.5Mbp, 또는 3.5Mbp 내지 4.5Mbp, 또는 4.5Mbp, 또는 5.5Mbp 내지 5.5Mbp, 또는 5.5Mbp 내지 6.5Mbp, 또는 6.5Mbp 내지 7.5Mbp, 또는 7.5Mbp 내지 8.5Mbp, 또는 8.5Mbp 내지 9.5Mbp의 범위일 수 있다. 또 다른 가능한 구현예에서, 빈의 크기는 각각의 염색체 또는 각각의 염색체 아암에 대해 고정된 수의 빈이 수득될 수 있도록 선택될 수 있다. 다른 구현예가 또한 가능하다.
이후, 각각의 염색체 또는 각각의 염색체 아암에 대한 커버리지 신호는 고정된 빈 세트의 각 빈에서 정렬된 리드의 수를 카운팅함으로써 수득될 수 있다. 가능한 구현예에서, 각각의 염색체 또는 각각의 염색체 아암에 대한 생성된 고해상도 커버리지 데이터 신호 어레이는 다운스트림 CSI 분석을 위한 고차원의 데이터 입력으로서 사용될 수 있다. 가능한 대안적인 구현예에서, 100 kbp의 제1 크기는 고해상도 커버리지 빈의 제1 세트를 생성하는 데 사용될 수 있다. 생성된 고해상도 커버리지 데이터 신호는, 예를 들어, 약 30개의 100 kbp-큰 초기 빈을 조합하여 2.5Mbp 내지 3.5Mbp의 더 큰 크기의 빈을 생성함으로써, 1 내지 20Mbp의 더 큰 빈의 제2 세트로 추가로 붕괴될 수 있고, 따라서 다운스트림 CSI 분석을 위한 데이터의 차원을 감소시킨다. 이를 위해 생물정보학 분야의 당업자에게 공지된 다양한 방법, 예를 들어, 스무딩(smoothing), 중간값 또는 평균을 사용하여 차원을 감소시키기 위한 수단, 풀링(pooling), 샘플링, 및 다른 방법이 사용될 수 있다. 바람직한 구현예에서, 붕괴는 상이한 염색체 아암으로부터의 커버리지 데이터를 빈으로 혼합하지 않고 각 빈을 특정 염색체 아암에 고유하게 할당한다. 커버리지 데이터는 이후 하나의 염색체 아암에서 다음 염색체 아암으로 명확하게 분리되며, 이는 염색체 아암 수준에서 염색체 공간 불안정성 사건의 분석을 용이하게 할 수 있다.
가능한 구현예에서, 붕괴는 염색체 아암 경계에서 경계 효과를 감소시키기 위해 붕괴된 빈의 크기를 각각의 염색체 아암 길이에 적응시키는 것을 포함할 수 있다. 예를 들어, 염색체 아암 길이가 고려되는 초기 빈 크기로 나눌 수 없는 상황에서, 수득된 마지막 붕괴된 빈은 일반적으로 다른 것보다 짧을 것이고, 이는 경계 효과를 야기한다(예를 들어, 염색체 아암의 임의의 말단 상의 동원체 빈 또는 텔로머 빈은 3 Mbp의 전체 영역을 포함하지 않을 수 있고, CSI 사건을 분석하는데 핵심이 될 수 있는 동안 이러한 영역에 대한 왜곡된 커버리지를 초래할 수 있음). 이러한 효과를 감소시키기 위한 전략은 고려되는 염색체 아암 길이가 무시할 수 있는 나머지를 갖는 비닝 크기로 나눌 수 있도록 염색체 아암 길이에 대해 비닝 크기를 적응시키는 것이다. 이는 고려되는 염색체 아암 상의 모든 붕괴된 빈이 동일한 실제 크기를 가질 것임을 보장한다.
가능한 추가 구현예에서, 붕괴는 붕괴된 빈의 가변 크기의 합이 여전히 염색체 아암 길이와 동일하면서 염색체 아암을 따라 다소 고르게 분포되도록 염색체 아암을 따라 붕괴된 빈의 시작 또는 종료 위치, 및 이에 따른 실제 크기를 개별적으로 조정하는 것을 포함할 수 있다.
도 3은 동원체에 상응하는 중심 위치(320), p-아암 텔로미어에 상응하는 시작 위치(310) 및 q-아암 텔로미어에 상응하는 종료 위치(330)를 포함하는 염색체(300)를 개략적으로 예시한다. 염색체는 시작 위치(310)로부터 시작하는 제1 텔로머 영역(315), 동원체 주위의 동원체 영역(325), 및 말단 위치(330)에서 끝나는 제2 텔로머 영역(335)을 포함한다. 생물정보학 분야의 당업자에게 명백한 바와 같이, 동원체 영역(325)의 부분(351)은 이 영역(325)을 덮는 기존의 참조 게놈 내에 관련된 참조 서열을 갖지 않으므로 맵핑될 수 없다. 가능한 구현예에서, 제한된 커버리지 영역 또는 낮은 품질 영역에 상응하는 고해상도 빈은 또한 상응하는 영역(예를 들어, 도 3의 영역 370)의 게놈 지식에 따라 제거될 수 있다. 바람직한 구현예에서, 상이한 세트의 제1 고해상도 커버리지 빈(350, 352)은 BAM 파일로부터의 각각의 염색체 아암에 대해 별도로 구성될 수 있다. 고해상도 빈의 각각의 세트는 이후 각각의 아암에 대한 제2 세트의 더 큰 규모의 빈(360, 362)으로 추가로 붕괴될 수 있다. 빈은 또한 상응하는 영역의 게놈 지식에 따라 및/또는 2개의 염색체 아암의 각각의 말단에서(텔로미어 310, 330 옆에 가장 가까운 빈인 텔로머 빈 372, 375 또는 동원체 320 옆에 가장 가까운 빈인 동원체 빈 373, 374) 비닝을 최적화하기 위해 더 짧거나 더 큰 게놈 영역(예를 들어, 2.5Mbp의 빈 371 다음에 3.5Mbp의 빈 372가 여전히 평균 3 Mbp 비닝임)에 걸쳐 있을 수 있다.
예를 들어, 각각의 염색체 아암으로부터의 초기 100 kbp 빈은 독립적으로 스무딩되어 3 Mbp의 빈(즉, 100 kbp의 30개 빈에 걸친 응집)을 수득할 수 있다. 각 염색체 아암에서 빈의 총 수는 정확히 30으로 나눌 수 없기 때문에, 염색체 아암의 마지막 스무딩된 빈은 일반적으로 30개 미만의 원래 빈을 함유한다. 이는 이러한 영역을 유지하는 경우 너무 많은 중요성을 부여하거나, 반대로 제거하는 경우 너무 많은 정보를 잃을 수 있다. 경계 효과를 감소시키기 위해, 가변 크기의 더 큰 빈이 각각의 염색체 아암에 대해 독립적으로 붕괴될 수 있다. 가능한 구현예에서, 가장 작은 불완전한 빈 나머지를 초래하고 표적 크기에 가장 가까운 빈 크기가 선택될 수 있다. 가능한 구현예에서, 완료되지 않은 경우 마지막 빈은 이제 무시할 수 있는 것으로 거부될 수 있지만, 다른 구현예도 가능하다. 표 2 컬럼 3은 2*22 염색체 아암을 따라 표적 3 Mbp 크기에서 더 큰 빈으로 붕괴된 100 kbps 빈의 초기 세트에 대한 각각의 염색체 아암에 대한 제안된 붕괴된 빈 크기의 예시적인 분포를 보여준다. 컬럼 4는 모든 아암에 대해 3Mpb의 고정 크기로 나눌 때 아암 경계에서 마지막 붕괴된 빈을 형성할 나머지 고해상도 빈의 컬럼 2의 디폴트 수(default number)와 비교하여 거부된 경계 빈의 결과 크기를 보여준다.
표 2. 100 kbp 빈으로부터 3 Mbp의 표적 붕괴된 빈 크기로의 예시적인 빈 붕괴 분포
Figure pct00002
커버리지 데이터 준비 - 표준화
생물정보학의 당업자에게 명백한 바와 같이, 일부 구현예에서, 미가공 커버리지 데이터 신호는 당 분야에 공지된 방법에 의해 추가로 표준화, 필터링 또는 스무딩될 수 있다. 가능한 구현예에서, 표준화는 샘플 당 커버리지의 차이를 야기할 수 있는 샘플 시퀀싱 실험과 관련된 편향을 제거하기 위해, 커버리지 데이터 신호를 전체 샘플에 대한 평균 커버리지 신호로 나눔으로써 샘플당 표준화를 포함할 수 있다. 표준화는 또한 GC-편향 보정을 적용하기 위한 GC 함량에 의한 표준화를 포함할 수 있다. 빈-방식(bin-wise) 표준화, 선형 및 비선형 최소 제곱 회귀, GC LOESS(GC 표준화), LOWESS, PERUN(샘플 당 표준화), RM, GCRM, cQn 및/또는 이들의 조합과 같은 다른 구현예가 또한 가능하다.
가능한 추가 구현예에서, 표준화된 데이터는 가능하게는 상이한 복사체 수(일반적으로 염색체 당 2개)에 상응하는, 커버리지 데이터 신호 내의 균질한 영역을 확인하기 위해 빈 내의 서브-영역으로 추가로 세그먼트화될 수 있다. 커버리지 세그먼트화는 주어진 샘플의 커버리지 프로파일로부터 다른 게놈 영역에 비해 별개의 세그먼트에서의 복사체 수를 추론할 수 있게 한다. 이를 위해, 커버리지 프로파일은 커버리지가 일정한 것으로 여겨지는 세그먼트(즉, 게놈의 일부)로 분해된다. 이후, 이전 단계에서 정의된 세그먼트 각각은 커버리지 신호 진폭의 관점에서 정의된 별개의 수준과 연관될 수 있다. 이러한 스테이지에서, 복사체 수 변이(CNV) 사건은 이미 검출될 수 있지만, 각 커버리지 수준과 관련된 절대 복사체 수는 알려지지 않은 채로 남아 있다.
샘플 종양 함량 및 배수성이 공지되어 있거나 데이터로부터 추론될 수 있는 경우, 세그먼트화에 의해 확인된 별개의 수준은 종양에 존재하는 복사체의 수를 반영하는 정수로 맵핑될 수 있다(예를 들어, CN=1, CN=2 , …). 생물정보학의 당업자에게 명백한 바와 같이, 절대 복사체 수 참조의 유무에 관계없이 이러한 세그먼트화 방법은 노이즈를 감소시키고 샘플에 대한 복사체 수 프로파일의 확인을 용이하게 할 수 있다. 그러나, 노이즈의 존재 하에, 세그먼트화는 특히 낮은 커버리지 깊이에서 시퀀싱할 때 복사체 수의 변화로 인한 커버리지 변동을 억제함으로써 잘못된 결과를 생성할 수 있다. 바람직한 구현예에서, 본원에 기재된 바와 같은 게놈 분석 방법은 따라서 세그먼트화 단계 없이 작동할 수 있다. 대안적인 구현예에서, 본원에 개시된 바와 같은 머신 러닝 방법을 적용하기 전에 데이터를 전처리하기 위해 세그먼트화 단계가 적용될 수 있다.
표준화 및/또는 세그먼트화의 가능한 단계 후, 커버리지 데이터는 일반적으로 각각 염색체에 상응하는 1D 벡터의 세트로 구성된다. 가능한 구현예에서, 커버리지 데이터는 또한 1D 벡터의 세트로 구성될 수 있고, 이들 각각은 염색체 아암에 상응한다. 가능한 구현예에서, 벡터의 크기는 가변적일 수 있으며, 이는 상이한 염색체가 상이한 크기를 갖는다는 사실을 반영한다. 또 다른 가능한 구현예에서, 빈은 각각의 염색체 벡터(또는 각각의 염색체 아암 벡터)가 동일한 크기를 갖도록 가변 크기를 갖는다.
예시적인 커버리지 데이터 1D 신호는 샘플 및 GC-함량에 의한 표준화 후, 100 kbp 빈을 갖는, 인간 게놈의 처음 22개 염색체(성염색체 제외)에 대한 1X 커버리지에서 전체 게놈 NGS 시퀀싱 실험에 대해 도 4에 플롯팅된다. 도 5는 3 Mbp의 붕괴된 빈을 갖는 염색체 당 배열된 동일한 커버리지 데이터 신호를 보여준다.
커버리지 데이터의 공간적 배열
바람직한 구현예에서, 커버리지 데이터는 따라서 다차원 데이터 어레이를 형성하기 위해 추가로 공간적으로 배열될 수 있으며(210), 여기서, 커버리지 데이터는 어레이 구조에서 이들의 텔로머 또는 동원체 빈 중 임의의 것을 따라 각 염색체 또는 염색체 아암에 대해 빈을 정렬시키기 위해 조직화된다. 다차원 어레이 구조는 종래 기술의 HRD 검출 방법에서와 같이 단순한 인간 조작된 특징에 의존하는 대신, 이미지 분류기와 같은 비-게놈 적용을 위해 최근에 개발된 효율적인 게놈 분석 머신 러닝 트레이닝된 모델로부터 이익을 얻는 데 특히 매우 적합할 수 있다.
즉, 텔로머 또는 동원체 빈의 제공된 정의에 따라, 커버리지 데이터 신호 벡터는 추가로 공간적으로 배열되어(210), 커버리지 데이터가 동원체 영역에 인접한 적어도 하나의 동원체 빈 또는 2D 어레이 구조에서 텔로머 영역에 인접한 적어도 하나의 텔로머 빈을 따라 각 염색체 또는 염색체 아암에 대해 빈을 정렬하기 위해 조직화되는 커버리지 데이터 신호 이미지를 형성한다.
가능한 구현예에서, 커버리지 데이터 신호 벡터는 1D 커버리지 데이터 어레이를 형성하기 위해 추가로 공간적으로 배열될 수 있으며(210), 여기서, 커버리지 데이터는 게놈을 따라 각각의 염색체 또는 염색체 아암에 대한 빈의 테일 대 헤드 연결로서 조직화된다.
또 다른 바람직한 구현예에서, 커버리지 데이터 신호 벡터는 추가로 공간적으로 배열되어(210) 다차원 커버리지 데이터 신호 어레이를 형성할 수 있고, 여기서 커버리지 데이터는 동원체에 인접한 적어도 2개의 빈을 따라 각각의 염색체 또는 염색체 아암에 대한 빈을 정렬하도록 구성된다. 하나의 빈은 동원체의 좌측에 있고, 다른 빈은 동원체의 우측에 있고, 이러한 다차원 데이터 어레이는 2D 어레이, 및 특히 2D 이미지인 어레이 구조의 영역을 포함한다.
또 다른 바람직한 구현예에서, 커버리지 데이터는 다차원 데이터 어레이를 형성하기 위해 추가로 공간적으로 배열될 수 있으며(210), 여기서 커버리지 데이터는 어레이 구조에서 텔로머 영역에 인접한 적어도 2개의 빈을 따라 각각의 염색체 또는 염색체 아암에 대한 빈을 정렬시키도록 구성된다. 여기서, 하나의 빈은 이 염색체와 관련된 커버리지 빈의 세트 내의 염색체의 시작에 있고, 다른 빈은 이러한 염색체와 관련된 커버리지 빈의 세트 내의 염색체의 끝에 있고, 이러한 다차원 데이터 어레이는 2D 어레이, 및 특히 2D 이미지이다.
추가의 바람직한 구현예에서, 커버리지 데이터는 다차원 데이터 어레이를 형성하도록 추가로 공간적으로 배열될 수 있으며(210), 여기서 동원체 영역 또는 어레이 구조에서 텔로미어 영역에 인접한 적어도 하나 또는 적어도 2개의 빈을 포함하고, 여기서 이러한 다차원 데이터 어레이는 2D 어레이, 및 특히 2D 이미지이다.
이러한 맥락에서, 동원체 또는 텔로미어 영역에 인접한 빈은 이것이 이러한 영역에 가장 가까운 빈이라는 것을 의미한다.
추가의 바람직한 구현예에서, 각각의 염색체 아암에 대한 빈은 독립적으로 컴퓨팅된다.
일 구현예에서, 방법은 염색체 아암 각각에 대해 2.5 Mbp 내지 3.5 Mbp의 윈도우에 걸쳐 표준화된 중앙값을 취함으로써 커버리지 데이터를 추가로 표준화할 수 있는 단계를 포함할 수 있지만, 이로 제한되지 않는다. 정확한 빈 분해능은 염색체 아암의 말단에서 가능한 가장 작은 비-완전한 빈이 얻어지도록 각 염색체 아암에 대해 독립적으로 이러한 두 값 사이에서 선택될 수 있다. 마지막 불완전한 빈은 CNN과 같은 머신 러닝 모델의 입력에서 폐기된다. 따라서, 각각의 p-아암에 대한 마지막 빈은 이의 상응하는 염색체 동원체에 대한 이의 위치와 관련하여 가장 가까운 커버리지 신호를 함유한다. 유사하게, 각각의 q-아암에 대한 제1 빈은 이의 상응하는 염색체 동원체에 대한 이의 위치와 관련하여 가장 가까운 커버리지 신호를 함유하는 것이다. 동시에, 각각의 p-아암에 대한 제1 빈은 이의 상응하는 p-아암 염색체 텔로미어 영역에 대한 이의 위치와 관련하여 가장 가까운 커버리지 신호를 함유한다. 유사하게, 각각의 q-아암에 대한 마지막 빈은 이의 상응하는 q-아암 염색체 텔로미어 영역에 대한 이의 위치와 관련하여 가장 가까운 커버리지 신호를 포함하는 빈이다.
따라서, 동원체 영역이 이러한 빈에 포함되지 않을 수 있음이 도 3에서 이해되고 기술된다. 따라서, p-아암의 마지막 빈 및 q-암의 첫 번째 빈은 오히려 염색체의 동원체 영역을 표시한다.
본원에 기재된 바와 같이 빈을 정렬하기 위한 커버리지 데이터의 조직화 효과는 검출된 이벤트, 예컨대, 염색체 아암 내의 게놈 불안정성 사이의 공간 관계를 검출할 수 있게 한다. CNN과 같은 머신 러닝 모델은 검출된 사건의 공간 분포에 대한 정보를 사용할 수 있고, 따라서 정확한 상태 검출이 이러한 유형의 공간 배열로부터 이익을 얻을 때 잠재적으로 이의 출력 예측을 향상시킬 수 있다.
도 6은 이들의 동원체 위치에 따라 정렬된 염색체의 그래프 표현을 보여준다. 표 1 및 도 6에서 볼 수 있는 바와 같이, 가장 긴 염색체 chr1은 chr1에 대해 249 Mbp 길이이고, 가장 긴 p-아암은 124.7 Mbp 길이인 반면, 가장 긴 q-아암은 실제로 chr2에서 147.9 Mbp로 더 길다. 주어진 일정한 빈 크기 bin_size를 갖는 가능한 구현예에서, 커버리지 데이터는 (ceiling(chr_p-arm_max_len)/bin_size + ceiling(chr_q-arm_max_len)/bin_size) * N 2차원 어레이에 피팅할 수 있고, 여기서 N은 나타낼 염색체의 수이고, chr_p-arm_max_len은 공동 분석될 N 염색체 세트에서 가장 긴 p-아암 길이이고, chr_q-arm_max_len은 가장 긴 q-아암 길이이다. 예시적인 예로서, bin_size = 3 Mbp의 일정한 크기의 빈을 갖는 이들의 동원체 빈에 의해 정렬된 22개의 비-성염색체의 아암에 대한 전체 게놈 시퀀싱 커버리지 데이터의 경우, 차원 92*22(또는 22*92)의 어레이가 CSI 분석기(123)에 대한 데이터 입력으로서 게놈 데이터 분석기(120)에 의해 공간적으로 배열(210)될 수 있다. 124.7 Mbp(chr1)의 가장 긴 p-아암에 대한 커버리지 데이터는 실제로 3 Mbp의 42개 빈에 피팅할 수 있는 반면, 147.9Mbp(chr2)의 가장 긴 q-아암은 3 Mbp의 50개 빈에 피팅할 수 있다. 가능한 구현예에서, 다차원 어레이는 분석될 N 염색체 세트에서 가장 긴 염색체 아암에 대한 빈에 걸쳐 2*N 염색체 아암을 나타내도록 배열될 수 있다. 예를 들어, 커버리지 데이터는 3 Mbp의 일정한 빈 크기에서 22개의 염색체를 분석하기 위해 차원 44*50의 어레이로서 공간적으로 배열될 수 있다. 각각의 염색체 아암에 대한 커버리지 데이터는 염색체 아암 동원체 빈이 어레이에서 정렬되도록 어레이에서 행(또는 열)으로서 배열될 수 있다. 가능한 구현예에서, 도 3에 개략적으로 도시된 적응적 비닝은 관련 없는 고해상도 빈을 제거하고 염색체 게놈을 따라 가변 빈 크기 및 위치를 조정하기 위해 적용될 수 있다. 예를 들어, 차원 84*22(또는 22*84)의 어레이는 CSI 분석기(123)에 대한 데이터 입력으로서 게놈 데이터 분석기(120)에 의해 공간적으로 배열될 수 있다(210). 다른 구현예가 또한 가능하다.
빈의 수가 염색체 및/또는 염색체 아암의 길이에 따라 변화함에 따라, 어레이의 일부 요소는 커버리지 데이터로부터 이용가능하지 않은 가상 데이터를 패딩함으로써 채워질 필요가 있다. 데이터 과학 분야의 당업자에게 명백한 바와 같이, 다차원 어레이의 빈 엔트리(또는 요소)를 채우는 상이한 옵션이 가능하다. 가능한 구현예에서, 빈 요소는 상수 값으로 채워질 수 있다. 또 다른 가능한 구현예에서, 빈 요소는 미리 정의된 상수 값의 마스크 어레이로부터 채워질 수 있다. 또 다른 가능한 구현예에서, 빈 요소는 실제 데이터로 채워진 행 또는 열의 일부에서 커버리지 데이터의 함수로서 채워질 수 있다. 가능한 구현예에서, 빈 요소는 염색체 또는 염색체 아암 행(각각 컬럼)을 따라 빈들 중 컬럼(각각 행)에서 마지막으로 이용 가능한 빈으로부터 좌측 또는 우측(각각 위 또는 아래)의 커버리지 값을 반복함으로써 채워질 수 있다.
또 다른 가능한 구현예에서, 빈의 개별 크기는 어레이의 더 조밀한 충전을 용이하게 하도록 선택될 수 있다. 일부 염색체 아암에 대한 빈의 총 수를 증가시키기 위해 특정 게놈 관심 영역에서 더 작은 빈 크기(더 나은 분해능에 상응함)가 선택될 수 있다.
도 7은 a) HRD 음성 종양 DNA 샘플 및 b) HRD 양성 종양 DNA 샘플로부터 각각 머신 러닝 모델을 이용한 CSI 분석에 적합한 2D 어레이 이미지로서 공간적으로 재배열된 표준화된 커버리지 데이터의 예를 보여준다. 염색체 공간 불안정성 분석 전에, 제안된 커버리지 데이터 제조 방법의 특정 구현예에 따라, 동원체 빈이 단일 컬럼에서 수직으로 정렬되도록, 염색체가 행마다 배열되고 커버리지 빈이 열을 따라 배열된다. 픽셀이 밝을수록, 플롯팅된 빈에 대한 표준화된 커버리지 카운트 값 C bin 은 더 높고, 반대로 픽셀이 더 어두울수록 값이 낮아진다.
염색체 공간 불안정성(CSI) 분석기
게놈 데이터 분석기 시스템(250)은 염색체 공간 불안정성 분석기(123)를 공간적으로 배열된 커버리지 데이터 다차원 어레이에 추가로 적용하여 각 DNA 샘플에서 2개 이상의 염색체 또는 염색체 아암에 대한 특정 공간 불안정성 패턴을 특성화하는 하나 이상의 게놈 특성을 자동으로 분석하고 보고할 수 있다. 종양 샘플 분석의 경우, CSI 분석기 모듈(123)은 각각의 염색체 아암을 따라 주어진 게놈 영역에서 대립유전자의 큰 결실 또는 중복과 같은 염색체 이상의 부담을 보고할 수 있다.
가능한 구현예에서, CSI 분석기 모듈(123)은 HRD 양성 상태로 라벨링된 게놈 불안정성을 갖는 DNA 샘플과 HRD 음성 상태로 라벨링된 게놈 불안정성이 없는 또 다른 DNA 샘플을 구별하도록 트레이닝된 컴퓨터-구현된 알고리즘이다.
가능한 구현예에서, 종양 샘플의 경우, CSI 분석기 모듈(123)은 유사한 특징을 공유하는 샘플을 식별할 수 있고 따라서 주어진 치료에 잘 반응할 수 있는 시그니쳐를 식별할 수 있다.
CSI 분석기 모듈(123)은 이에 따라 종양 샘플의 하나 이상의 게놈 특성을 특성화하기 위해 지표, 스칼라 점수 또는 특징 지표의 조합을 식별, 분류 및 보고할 수 있다. 바람직한 구현예에서, CSI 분석기 모듈(123)은 이에 따라 HRD-음성 또는 HRD-양성 또는 가능하게는 미결정(불확실)과 같은 종양 샘플의 상태를 확인, 분류 및 보고할 수 있다. 가능한 구현예에서, CSI 분석기 모듈(123)은 종양 샘플에 대한 HRD 가능성의 지표로서 스칼라 점수를 보고할 수 있다. 당업자에게 명백한 바와 같이, 이러한 생물정보학 방법은 이후 종양 샘플에서 암 세포 게놈 변경의 상세한 이해 및 환자에 대한 추론된 암 세포 생물학의 특이성에 대한 개인화된 의약 치료의 적응을 유의하게 용이하게 한다.
일 구현예에서, 게놈 특성 리포트는 그래픽 사용자 인터페이스에서 최종 사용자에게 디스플레이될 수 있다. 또 다른 가능한 구현예에서, 게놈 특성 리포트는 추가 자동화 처리를 위한 텍스트 파일로서 생성될 수 있다. 다른 구현예가 또한 가능하다.
바람직한 구현예에서, CSI 분석기 모듈(123)은 머신 러닝 모델을 공간적으로 배열된 커버리지 데이터 다차원 어레이에 적용하도록 구성될 수 있다. 가능한 구현예에서, CSI 분석기 모듈(123)은 트레이닝된 신경망 입력으로서 공간적으로 배열된 커버리지 데이터 다차원 어레이를 분석하고(220) 트레이닝된 신경망 출력으로서 CSI 결과를 생성하기 위해 데이터 처리 모듈로서 트레이닝된 신경망 또는 트레이닝된 신경망의 조합을 포함할 수 있다.
예시적인 CSI 분석기(123) 및 이의 데이터 처리 워크플로우는 이제 도 8을 참조하여 추가로 상세히 설명될 것이다. 머신 러닝의 당업자에게 명백한 바와 같이, 당 분야에 공지된 상이한 방법 및 아키텍처는 제조된 커버리지 데이터 다차원 어레이 입력을 처리하고 종양 샘플에 대한 CSI 상태 또는 CSI 점수를 유도하는 데 사용될 수 있다.
예시적인 CNN 머신 러닝 모델
이 염색체 세트의 CSI 상태를 특징짓는 시각적 패턴을 강조하기 위해 염색체 암이 이들의 각각의 동원체 위치를 따라 정렬된 2D 이미지와 같은 다차원 어레이를 분류하기 위해, 컨볼루션 신경망(CNN)이 구성되고 TensorFlow, Caffe, Caffe2, Pytorch, Theano 등과 같은 이미지 패턴 인식 분야에 공지된 방법 및 기술을 이용함으로써 트레이닝될 수 있다.
도 8은 환자 종양 DNA 샘플에 대한 공간적으로 배열된 커버리지 데이터 매트릭스 이미지를 처리하여 이를 HRD 양성(HRD+) 또는 HRD 음성(HRD-)으로 분류할 수 있는 컨볼루션 신경망(CNN)의 예를 개략적으로 나타낸다. 도 8의 예에서, 트레이닝된 CNN은 22개의 비-성염색체의 행 배열로 플롯팅된 공간적으로 배열된 커버리지 데이터 매트릭스 이미지(800)를 입력으로서 취하고, 여기서 상부에서 chr 1에서 아래로 하부에서 chr 22를 가지며, 빈의 컬럼 배열을 갖는다(도 8의 예시적인 예시에서, 대략 3 Mbp 크기에서, 염색체의 동원체 영역을 따라 정렬되며, 0 커버리지 카운트에서 기본 패딩을 가지며, 다른 구현예가 또한 가능하다). 입력 이미지(800)는 이의 2개의 출력으로서, HRD-에 대해 하나의 스코어, HRD+에 대해 하나의 스코어인 2개의 스코어를 추출하는 것을 담당하는 제2 신경망 분류기(820)에 입력되는 중간 특징 세트를 정량화하기 위해, 여러 개의 처리 층을 갖는 제1 컨볼루션 신경망(810)에 입력된다. CSI 분석기는 이후 HRD- 및 HRD+ 출력 값을 비교하고 임계화함으로써 HRD 상태(HRD-, HRD+, 또는 불확실함)를 도출할 수 있다.
보다 일반적으로, 딥 러닝 분야의 당업자에게 명백한 바와 같이, CSI 분석기(123)는 다양한 CNN 아키텍처를 채용하도록 구성될 수 있다. 컨볼루션 네트워크는 제1 시리즈의 직렬 연결된 컨볼루션 데이터 처리 층(810)을 포함할 수 있고, 이는 다양한 예측을 출력하기 위해 제2 시리즈의 완전히 연결된 층(720)을 추가로 공급할 수 있다. CNN 아키텍처는, 예를 들어, 1D, 2D 또는 다차원 데이터를 처리하도록 배열된 하나 이상의 컨볼루션 층; 선택적으로, 1D, 2D 또는 다차원 데이터를 처리하도록 배열된 하나 이상의 최대-, 중간- 또는 평균-풀링 층; 트레이닝 동안 정규화를 용이하게 하기 위한 하나 이상의 다수의 드롭아웃 층; 선택적으로, 하나 이상의 배치 표준화 층; 평탄화 층 다음에 하나 이상의 완전히 연결된 층; 또는 이들의 조합을 포함한다. 예를 들어, ReLU, SELU, 또는 보다 일반적으로 소실 구배를 방지하는 임의의 활성화 함수와 같은 상이한 활성화 방법이 당 분야에 공지된 바와 같이 사용될 수 있다. 또한 단일 라벨 이진 분류와 관련된 확률을 생성하기 위해 당 분야에 공지된 바와 같이, 상이한 출력 활성화, 예를 들어, 단일 라벨 이진 분류와 관련된 확률(예를 들어, 양성 상태의 확률, 음성 상태의 확률 = 1- 양성 상태의 확률)을 생성하기 위한 시그모이드 방법, 또는 단일 라벨 다중클래스 분류 출력과 관련된 확률(예를 들어, 양성 상태, 음성 상태, 또는 불확실한 상태의 상호 배타적 확률)을 생성하기 위한 소프트맥스 방법, 또는 예를 들어 HRD 점수와 같은, 확률로서 해석되는 것을 의미하지 않는 스칼라 값을 생성하기 위한 선형 방법 또는 ReLU와 같은 회귀 방법이 사용될 수 있다.
바람직한 구현예에서, CSI 분석기(123)는 CNN으로부터의 출력을 임계화함으로써 각 샘플에 대한 HRD+ 또는 HRD- 상태 분석과 같은 최종 출력 결정을 생성한다. 임계값은, 예를 들어, 진단, 예후를 위해, 또는 가장 효율적인 암 치료의 선택을 안내하기 위해 최종 사용자 요구에 따라 CSI 분석의 민감도 및/또는 특이성을 최적화하기 위해 적용에 따라 조정될 수 있다. 가능한 구현예에서, CSI 분석기(123)는 또한 최종 사용자 요구에 따라 CNN 출력 값(들)을 추가로 보고할 수 있다(230).
도 9는 공간적으로 배열된 커버리지 데이터를 분석하기 위해(220) CSI 분석기(123)에 의해 이용될 수 있는 가능한 상세한 CNN 아키텍처의 예를 도시한다. 네트워크 내부의 각각의 컨볼루션 층에 대해, 필터의 수뿐만 아니라 필터 차원은 [N x H x W]로 표현되며, 여기서 N은 필터의 수이고, H는 필터 높이이고, W는 필터 폭이다. 각각의 컨볼루션은 활성화 함수(Rectified Linear Unit, ReLU)에 이어 배치 표준화(BN)를 통해 전달된다. 중간 컨볼루션 층은 맥스-풀링 층과 인터리빙될 수 있고, 끝에는 통상적인 CNN 아키텍처에 따라 평균 풀링 및 플래튼닝 층이 뒤따를 수 있다. 이 예에서, CNN의 출력 층은 플랫화되고, 배치 정규화 층인 드롭아웃 층을 통과하고, 시그모이드 활성화 함수를 사용하여 단일 노드 밀집 층(즉, 완전 연결 층)에 대한 입력으로서 제공된다.
염색체 공간 불안정성(CSI) 분석기 트레이닝
지도 및 반-지도 CSI 분석기 트레이닝의 경우, 라벨링된 입력-출력 쌍의 세트가 트레이닝 세트로 사용될 수 있다. 예를 들어, HRD 상태를 분류하기 위해 CSI 분석기를 트레이닝시키기 위해, 공개 도메인 HRD 라벨링된 데이터 샘플의 서브세트는 사용되어 네트워크가, 트레이닝 단계 동안 상세하게 적용되는 역전파와 같은 최적화 프로세스를 통해 이의 상이한 층을 따라 이의 파라미터(예를 들어, 가중치)를 조정함으로써 이의 출력 오류를 최소화할 수 있게 한다. 머신 러닝 분야의 당업자에게 명백한 바와 같이, 상이한 손실 함수는 오류, 예를 들어, 단일 라벨 이진 분류 출력을 갖는 모델에 대한 이진 교차 엔트로피 측정, 단일 라벨 다중클래스 분류 출력을 갖는 모델에 대한 카테고리 교차 엔트로피 측정, 또는 제곱 평균 제곱근 오차, 절대 오차, 또는 다른 오차 측정에 기반한 회귀 방법을 측정하기 위해 사용될 수 있다. 최적화는 ADAM 또는 RMPSprop와 같은 최신 기술의 확률적 하강 구배 기반 최적화기를 이용할 수 있다. 표준화는 드롭아웃(dropout) 방법, 얼리-스톱(early-stop) 방법, 및/또는 L-1 또는 L-2 파라미터 표준화를 이용할 수 있다. 다른 구현예가 또한 가능하다.
염색체 불안정성과 관련된 더 많은 임상 상태가 현재 및 미래의 종양학 연구에 의해 분류됨에 따라, HRD 또는 주어진 치료에 대한 반응과 같은 다른 현상에 의해 유도된 게놈 흉터를 검출하기 위한 머신 러닝 모델을 트레이닝시키기 위해 추가 데이터세트가 사용될 수 있다. 가능한 구현예에서, HRD+ 및 HRD- 이진 상태, 및 선택적으로 "불확실한" 상태는 멀티클래스 정답 라벨로서 사용될 수 있다. 또 다른 가능한 구현예에서, HRDetect와 같은 종래 기술의 방법으로부터의 HRD 점수는 스칼라 출력 라벨로서 사용될 수 있다. 다차원 어레이 형식 구현예의 선택이 트레이닝 시간 및 런타임에 동일하게 유지되는 한, 입력 커버리지 신호 데이터 어레이는 또한 본원에 개시된 방법의 임의의 가능한 구현예에 따라 다차원 데이터로서 공간적으로 배열될 수 있다.
가능한 구현예에서, 머신 러닝 모델을 트레이닝시키기 위한 추가 데이터 세트는 환자 DNA 샘플로부터의 커버리지 데이터 신호 어레이를 포함할 수 있고, 여기서 이러한 환자는 알려진 상동 재조합 결핍 상태이고/이거나 이들 환자는 암 치료 요법을 받았으며, 치료의 결과(반응 대 무반응)가 알려져 있다.
가능한 구현예에서, 머신 러닝 모델을 트레이닝시키기 위한 추가적인 데이터세트는 일차 또는 불멸화 세포주 실험 또는 종양-유래 오가노이드 실험, 특히 HRD를 가질 것으로 예측된 오가노이드가 제거되는지 또는 암 치료 요법에 의해 감소된 이의 성장을 갖는지를 결정하는 실험으로부터 생성된 DNA 샘플로부터의 커버리지 데이터 신호 어레이를 포함할 수 있다.
가능한 구현예에서, 반-지도 러닝 프레임워크는 머신 러닝 모델을 트레이닝시키기 위해 사용될 수 있다. 실제로, 라벨링된 데이터에 대한 액세스는 특히 반-지도 학습을 이 적용에 대한 유망한 프레임워크로 만드는 HRD 상태 예측의 맥락에서 도전적이고 비용이 많이 들 수 있다. 모델 과적합의 정도는 모델의 복잡성과 그것이 받는 트레이닝의 양 둘 모두에 의해 결정되기 때문에, 모델에 더 많은 트레이닝 예를 제공하면 과적합을 줄이는 데 도움이 될 수 있다. 데이터 증강은 기존 데이터로부터 새로운 인공 트레이닝 샘플의 생성으로 구성된다. 가능한 구현예에서, 인공 샘플은 동일한 HRD 상태를 공유하고 유사한 종양 함량(또는 유사한 종양 함량을 모방하도록 생체공학적으로 전처리됨) 및 배수성을 갖는 이용 가능한 실제 샘플로부터 염색체를 샘플링함으로써 생성될 수 있다.
가능한 구현예에서, 인공 샘플은 동일한 HRD 상태 및 동일한 표준화된 순도 및 배수성 비율을 공유하는 이용 가능한 실제 샘플로부터 염색체를 샘플링함으로써 생성될 수 있으며, 여기서 순도는 샘플에서 종양 세포의 백분율이고 배수성은 평균 염색체 복사체 수이며, 따라서, 평균 종양 세포에서 얼마나 많은 완전한 염색체 세트를 갖는지를 특성화한다.
일 구현예에서, 머신 러닝 모델은 라벨링된 실제 샘플로부터의 커버리지 데이터 신호 어레이 데이터에 대해 트레이닝된다.
또 다른 구현예에서, 머신 러닝 모델은 동일한 HRD 상태를 공유하고 샘플링된 염색체의 순도/배수성 비율이 동일한지 확인하는 이용 가능한 실제 샘플로부터 염색체를 샘플링함으로써 생성된 라벨링된 데이터 증강 샘플 및 라벨링된 실제 샘플 둘 모두로부터의 커버리지 데이터 신호 어레이 데이터에 대해 트레이닝된다.
따라서, 임의의 머신 러닝 모델은 양성 HRD 상태를 갖는 DNA 샘플과 음성 HRD 상태를 갖는 다른 DNA 샘플 사이의 차이를 CSI 점수로서 정량화한 다음, CSI 점수 결과에 기초하여 시험된 DNA 샘플을 분류하는 것을 학습할 수 있다.
가능한 구현예에서, 머신 러닝 모델은 HRDetect 방법에 따라 HRD 상태로 라벨링된 실제 샘플의 적어도 세트를 사용하여 지도 또는 반-지도 모드로 트레이닝되었다. 바람직하게는, 학습 모델은 HRDetect 방법에 따라 HRD 상태로 라벨링된 실제 샘플의 적어도 세트를 사용하여 지도 모드에서 트레이닝되었다.
가능한 구현예에서, 머신 러닝 모델은 동일한 HRD 상태를 공유하고 순도 배수성 비율의 차이를 설명하는 세트의 실제 샘플의 염색체를 샘플링함으로써 생성된 인공 샘플을 사용하여 지도 또는 반-지도 모드로 트레이닝되었다. 가능한 구현예에서, 머신 러닝 모델은 동일한 HRD 상태를 공유하고 순도 배수성 비율의 차이를 고려하여 실제 샘플의 세트의 염색체를 샘플링함으로써 생성된 인공 샘플을 사용하여 지도 모드에서 트레이닝되었다.
일 구현예에서, 트레이닝된 머신 러닝 모델은 대상체 DNA 샘플의 CSI 점수를 계산하고 이 CSI 점수를 사용하여 특정 CSI 상태를 갖는 샘플의 그룹에 속하는 대상체 DNA 샘플의 확률을 분류한다.
일 구현예에서, 트레이닝된 머신 러닝 모델은 대상체 DNA 샘플의 CSI 점수를 계산하고 이 CSI 점수를 사용하여 샘플의 그룹에 속하는 대상체 DNA 샘플의 HRD 상태를 결정한다.
일 구현예에서, DNA 샘플의 CSI 상태를 결정하는 컴퓨터-기반 방법이 제공되며, 여기서 CSI 상태는 HRD 상태이다.
일 구현예에서, DNA 샘플의 CSI 상태를 결정하는 컴퓨터-기반 방법이 제공되며, 여기서 DNA 샘플은 암 샘플로부터의 DNA이다.
일 구현예에서, DNA 샘플의 CSI 상태를 결정하는 컴퓨터-기반 방법이 제공되며, 여기서 저역 통과 전체 게놈 시퀀싱 커버리지는 적어도 0.1x 내지 최대 30x, 예를 들어, 1x 내지 10x, 예를 들어, 0.1x이다. 내지 5x 또는 예컨대 0.1x 내지 1x이다.
일 구현예에서, DNA 샘플의 CSI 상태를 결정하는 컴퓨터-기반 방법이 제공되며, 여기서 저역 통과 게놈 시퀀싱은 적어도 0.1x 내지 최대 30x, 예를 들어, 1x 내지 10x, 예를 들어, 0.1x 내지 5x이다. 또는 예를 들어, 0.1x 내지 1x이고 적어도 2개 내지 최대 22개의 염색체로부터의 리드를 함유하는 대상체 DNA 샘플의 시퀀싱 리드 세트가 수득된다.
일 구현예에서, DNA 샘플의 CSI 상태를 결정하는 컴퓨터-기반 방법이 제공되며, 여기서 인간 참조 게놈에 대한 DNA 샘플의 시퀀싱 리드의 정렬이 수행된다.
일 구현예에서, DNA 샘플의 CSI 상태를 결정하는 컴퓨터-기반 방법이 제공되며, 여기서 수행되는 것은 GC-편향 보정을 적용하기 위한 GC 함량에 의한 표준화이다.
일 구현예에서, HRD 상태인 DNA 샘플의 CSI 상태를 결정하는 컴퓨터-기반 방법이 제공된다.
일 구현예에서, DNA 샘플의 CSI 상태를 결정하는 컴퓨터-기반 방법이 제공되며, 여기서 머신 러닝 모델은 HRD +/HRD - 상태와 같은 공지된 게놈 불안정성 상태의 샘플의 트레이닝 데이터 세트를 사용하여 이전에 트레이닝되었고, 이에 따라 이 머신 러닝 모델은 HRD 상태와 같은 특정 CSI 상태를 갖는 샘플의 특징적인 커버리지 프로파일을 갖는 샘플을 구별하도록 트레이닝된다.
진단/예후 방법
일 구현예에서, 환자로부터 수득된 DNA 샘플을 특성화하는 시험관내 방법이 제공되며, 상기 방법은
- 환자 샘플로부터 DNA의 단편을 단리하는 단계;
- 염색체 세트와 중첩되는 상기 단편을 포함하는 시퀀싱 라이브러리를 작제하는 단계;
- 최대 30X 시퀀싱 커버리지로 라이브러리를 시퀀싱하는 단계;
- 생성된 시퀀싱 리드를 인간 참조 게놈에 정렬시키는 단계; 및
- 본 발명의 방법으로, 환자 샘플에 대한 CSI 점수를 생성하는 단계를 포함한다.
일 구현예에서, 환자로부터 수득된 DNA 샘플을 특성화하는 시험관내 방법이 제공되며, 상기 방법은
- 환자 샘플로부터 DNA의 단편을 단리하는 단계;
- 염색체 세트와 중첩되는 상기 단편을 포함하는 시퀀싱 라이브러리를 작제하는 단계;
- 최대 30X 시퀀싱 커버리지로 라이브러리를 시퀀싱하는 단계;
- 생성된 시퀀싱 리드를 인간 참조 게놈에 정렬시키는 단계; 및
- 본 발명의 방법으로 수득된 CSI 점수에 기초하여, 환자 샘플의 HRD 상태를 결정하는 단계를 포함한다.
종양 환자 샘플이 본원에 기재된 방법들 중 임의의 방법으로 HRD 양성인 것을 검출하는 단계를 포함하는 PARP 억제제로의 치료를 위한 암 환자를 선택하는 방법.
일 구현예에서, 환자는 본원에 기재된 방법들 중 임의의 방법을 사용하여 HRD 양성(HRD+) 또는 HRD 음성(HRD-)인 것으로 분류될 수 있는 암을 앓고 있다.
일 구현예에서, 환자로부터 수득된 DNA 샘플을 특성화하는 시험관내 방법이 제공되며, 여기서 환자 샘플은 종양 샘플이고, 환자 샘플의 염색체 공간 불안정성 지표는 백금-기반 화학요법제, DNA 손상제, 안트라사이클린, 토포이소머라제 I 억제제, 또는 PARP 억제제를 포함하는 암 치료 요법에 대한 종양 반응의 지표이다.
일 구현예에서, 염색체 공간 불안정성 지표에 기초하여 종양 환자 샘플이 상동 재조합(HR)-결핍인지 여부를 확인하는 단계를 포함하는 환자로부터 수득된 DNA 샘플을 특성화하는 시험관내 방법이 제공되고, 여기서 상동 재조합(HR)-결핍이라는 높은 가능성은 PARP 억제제가 암을 치료하기 위한 방법에 사용하기 위한 것일 수 있음을 나타낸다. PARP 억제제는 단독으로 또는 다른 치료와 조합하여 사용될 수 있다.
일 구현예에서, 환자 DNA 암 샘플이 본원에 기재된 바와 같은 DNA 암 샘플의 CSI 상태를 결정하는 컴퓨터-기반 방법에 따라 HRD 양성임을 검출하는 단계를 포함하는, 백금-기반 화학치료제, DNA 손상제, 안트라사이클린, 토포이소머라제 I 억제제, 또는 PARP 억제제로의 치료를 위한 암 환자를 선택하는 방법이 제공된다. 일 구현예에서, 치료를 위해 암 환자를 선택하는 방법은 시험관내 방법이다.
일 구현예에서, 본원에 기재된 바와 같은 DNA 암 샘플의 CSI 상태를 결정하는 컴퓨터-기반 방법이 제공되며, 상기 방법은
DNA 암 샘플이 상동 재조합 결핍인 것으로 결정될 때, 폴리 ADP 리보스 폴리머라제(PARP) 억제제를 시험 대상체에게 투여함으로써 암을 치료하는 단계를 추가로 포함한다.
일 양태에 따르면, 샘플은 환자 샘플이고, 조직, 신선한 냉동 조직(FFT), 혈액 또는 임의의 체액, 또는 세포학적 시편/제제(FFPE, 도말) 등의 형태이다. 일 양태에 따르면, 샘플은 FFPE 샘플을 포함하는 환자 종양 샘플이다.
또 다른 특정 구현예에서, 환자는 암, 특히 고등급 장액 난소암, 전립선암, 유방암, 췌장암 등을 앓고 있다.
일 구현예에 따르면, 본원에 기재된 방법에 따라 HDR+ 또는 HDR-인 암 유형을 진단하는 방법이 제공되며, 여기서 샘플은 암을 갖거나 갖는 것으로 의심되는 대상체로부터 수득된다.
wetlab 워크플로우 내 통합
- CSI 분석기를 위한 데이터 생성 - WGS 워크플로우
가능한 구현예에서, 대상체 DNA 샘플의 CSI 상태를 결정하는 방법이 제공되며, 상기 방법은
a) 핵산을 포함하는 샘플 물질을 제공하는 단계;
b) 전체 게놈 시퀀싱을 위한 제1 핵산 시퀀싱 라이브러리를 준비하는 단계;
c) 단계 b)에서 수득된 제1 핵산 시퀀싱 라이브러리를 시퀀싱하는 단계
d) 단계 c)에서 수득된 핵산 서열을 분석하는 단계를 포함하며,
여기서, 핵산 서열로부터의 서열(단계 c에서 수득됨)은 본원에 기재된 바와 같은 대상체 DNA 샘플의 CSI 상태를 결정하는 컴퓨터-기반 방법에 따라 분석된다.
- CSI 분석기를 위한 데이터 생성 - WGS 워크플로우 및 변이체 호출자 표적 강화 워크플로우
가능한 구현예에서, 대상체 DNA 샘플의 CSI 상태를 결정하는 방법이 제공되며, 상기 방법은
a) 핵산을 포함하는 샘플 물질을 제공하는 단계;
b) 전체 게놈 시퀀싱을 위한 제1 핵산 시퀀싱 라이브러리를 준비하는 단계;
c) 단계 b)에서 수득된 핵산 시퀀싱 라이브러리를 시퀀싱하는 단계;
d) 단계 c)에서 수득된 핵산 서열을 분석하는 단계를 포함하며,
여기서, 핵산 서열로부터의 서열(단계 c에서 수득됨)은 본원에 기재된 바와 같은 대상체 DNA 샘플의 CSI 상태를 결정하는 컴퓨터-기반 방법에 따라 분석된다.
상기 방법은
e) 동일한 샘플 물질로부터, 제2 핵산 시퀀싱 라이브러리를 제조하는 단계;
f) 제2 핵산 시퀀싱 라이브러리에 대해 표적화된 농축을 수행하는 단계;
g) 단계 f)에서 수득된 표적화된 농축 라이브러리를 시퀀싱하는 단계;
h) 단계 g)에서 수득된 핵산 서열을 분석하는 단계를 추가로 포함하며,
여기서, 농축 핵산 라이브러리로부터의 서열(단계 f)에서 수득됨)은 임의의 공지된 변이체 호출 방법에 따라 분석된다.
게놈 분석의 당업자에게 명백한 바와 같이, 제1 및 제2 라이브러리는 동일한 샘플로부터 동시에 또는 상이한 시간에 임의의 순서로 독립적으로 제조될 수 있다. 가능한 구현예에서, 제1 및 제2 라이브러리는 라이브러리를 2개의 서브세트, 즉 단계 c) 및 d)를 통해 진행하는 하나의 서브세트(제1 라이브러리 - CSI 분석을 위한 WGS 라이브러리) 및 서브 세트 e) 내지 h)를 통해 진행하는 다른 서브세트(제2 라이브러리 - 변이체 호출 분석을 위한 표적화된 농축 라이브러리)로 분할함으로써 수득될 수 있다.
또 다른 가능한 구현예에서, 대상체 DNA 샘플의 CSI 상태를 결정하는 방법이 제공되며, 상기 방법은
a) 핵산을 포함하는 샘플 물질을 제공하는 단계;
b) 제1 핵산 시퀀싱 라이브러리를 준비하는 단계;
c) 핵산 시퀀싱 라이브러리에 대해 표적화된 농축을 수행하여 제2의 농축된 핵산 시퀀싱 라이브러리를 수득하는 단계;
d) 단계 b) 및 단계 c)에서 수득된 핵산 시퀀싱 라이브러리를 시퀀싱하는 단계;
e) 단계 d)에서 수득된 핵산 서열을 분석하는 단계를 포함하며,
여기서, c)에서 농축된 영역에 정렬되는 서열을 배제한 후, 제1의, 비-농축 서열 라이브러리(단계 b)에서 수득됨)로부터 비-표적화된 게놈 영역의 서열은 본원에 기술된 바와 같은 대상체 DNA 샘플의 CSI 상태를 결정하는 컴퓨터-기반 방법에 따라 분석되며,
제2의 농축 핵산 라이브러리(단계 c)에서 수득됨)로부터의 서열을 임의의 공지된 변이체 호출 방법에 따라 분석한다.
유전체학의 당업자에게 명백한 바와 같이, 상기 워크플로우는 게놈 분석의 상이한 단계를 사용할 수 있다.
핵산을 포함하는 샘플 물질을 제공하는 단계는 임의의 공지된 DNA 추출 방법에 따라 수행될 수 있다. 다수의 샘플이 단일 실험에서 함께 시퀀싱되어야 하는 경우, 다운스트림 분석에서 샘플 물질을 확인하기 위해 게놈 바코딩 방법이 사용될 수 있다.
핵산 시퀀싱 라이브러리를 제조하는 단계는 시퀀싱 라이브러리를 제조하기 위한 임의의 공지된 방법에 따라 수행될 수 있다. 선택적으로, 핵산 시퀀싱 라이브러리를 제조하는 단계 b)는 핵산 서열을 증폭시키는 추가 단계 b.0.)을 포함할 수 있다. 핵산 증폭은 폴리머라제 연쇄 반응(PCR)과 같은 임의의 공지된 방법에 따라 수행될 수 있다.
표적화된 농축을 수행하는 단계는 표적화된 농축 DNA-시퀀싱 또는 RNA-시퀀싱의 임의의 공지된 방법, 예컨대, 표적 혼성화 포획(즉, 혼성화 포획-기반 표적화된 시퀀싱) 또는 앰플리콘-기반 접근법(앰플리콘 시퀀싱)에 따라 수행될 수 있다.
일 구현예에 따르면, 표적화된 농축은 포획-기반 표적화된 농축이다. 이러한 구현예에 따르면, 표적화된 농축을 수행하는 단계는 관심 변이체를 가질 수 있는 것으로 알려진 게놈 영역(예를 들어, BRCA1 및 BRCA2 영역, 그러나 이로 제한되지 않음)("표적화된 영역" 또는 "농축된 영역")으로부터의 표적 핵산에 적어도 하나의 프로브 또는 프로브 세트를 혼성화시키는 단계, 비-표적 핵산을 세척 제거하는 단계 및 핵산을 농축시키는 단계를 포함한다. 용어 "프로브" 또는 상호교환적으로 "베이트(bait)" 또는 "(프로브) 핵산 분자" 또는 "포획 프로브" 또는 "(DNA/RNA) 올리고뉴클레오타이드 (포획) 프로브"는 표적 핵산 분자에 혼성화할 수 있는 핵산 분자를 지칭하는 것으로 이해된다. 임의의 공지된 프로브 설계가 사용될 수 있다. 용어 "표적 핵산"은 사용된 프로브에 의해 포획될 수 있는 유전자 또는 전사체 내의 핵산 영역을 지칭한다. 바람직하게는 표적 핵산은 예컨대 BRCA1 및 BRCA2로부터 선택되지만 이로 제한되지 않는 HRR 경로와 관련된 유전자이다.
단계 b)에서 수득된 핵산 시퀀싱 라이브러리는 적어도 2개의 부분으로 분할될 수 있고, 여기서 한 부분은 표적화된 농축을 거치지 않아 비-농축 핵산 라이브러리로 남을 것이고, 또 다른 부분은 표적화되고 농축 핵산 라이브러리를 형성할 것으로 이해된다.
비-농축 핵산 라이브러리 및 농축 핵산 라이브러리는 시퀀서에 함께 또는 별도로 로딩될 수 있는 것으로 이해된다. 따라서, 핵산 서열은 선택된 워크플로우에 따라 별도로 또는 함께 수득될 수 있다.
비-농축 핵산 라이브러리 및 농축 핵산 라이브러리가 시퀀서에 함께 로딩될 때, 이러한 라이브러리는 미리 결정된 농도로 로딩된다. 이러한 상대 농도는 비-농축 라이브러리의 핵산의 커버리지가 0.1x 내지 10x, 0.5x 내지 10x, 적어도 0.2x, 또는 바람직하게는 적어도 0.1x, 및 최대 30X이며; 농축 라이브러리의 핵산의 커버리지가 적어도 30X, 또는 30X 내지 100X, 또는 100X 내지 500X, 또는 500X 내지 1000X, 또는 1000X 내지 5000X, 바람직하게는 적어도 4000X가 되도록, 표적화(농축) 영역 및 비표적화 영역에서의 요망되는 커버리지의 함수이다.
핵산 라이브러리를 시퀀싱하는 단계는 임의의 공지된 방법에 따라 및 공지된 시퀀서를 사용하여 수행될 수 있다.
가능한 구현예에서, 비-농축 핵산 라이브러리로부터의 서열의 분석 및 농축된 핵산 샘플로부터의 서열의 분석은 별도로 수행된다.
2개의 라이브러리가 함께 시퀀싱될 때, 본원에 기재된 바와 같은 컴퓨터-기반 방법에 따라 CSI 상태를 획득하기 위한 비-농축 핵산 라이브러리로부터의 서열의 분석은 표적화된 농축 라이브러리에서 커버되는 영역을 여과 제거하는 추가 단계를 포함할 수 있다. 이러한 영역은, 임의의 공지된 마스킹 전략에 따라, 예를 들어, 하기 단계에 의해 CSI 분석기에 의해 마스킹되거나 필터링될 수 있다:
m1) 표적화된 농축 라이브러리에 의해 커버되지 않은 게놈 영역에서만 참조 게놈에 대해 시퀀싱 리드를 정렬시키는 단계; 또는
m2) 표적화된 농축 라이브러리에 의해 커버되지 않은 정렬된 게놈 영역만을 정렬 파일(예를 들어, BAM 또는 SAM 파일)에서 선택하는 단계; 또는
m3) 표적화된 게놈 영역과 중첩되는 고해상도 빈을 CSI 점수 결정으로부터 배제하는 단계(예를 들어, 표적화된 농축 라이브러리에 의해 커버되는 게놈 영역과 중첩하는 빈을 마스킹하는 단계).
비-농축 및 농축 라이브러리의 조합된 시퀀싱에서 농축 라이브러리로부터 수득된 게놈의 표적화된 농축된 영역을 마스킹하는 단계는 표적화된 농축에 의해 도입된 커버리지 차이가 CSI 분석에 영향을 미치지 않도록 보장한다.
가능한 구현예에서, 농축 핵산 라이브러리로부터의 서열의 분석은 공지된 방법에 따른 변이체 호출을 포함한다. 변이체 대립유전자 분획(VAF)에 관한 이러한 분석으로부터 수득된 데이터는 환자 DNA 샘플을 추가로 특성화하는 데 사용될 수 있는 추가 정보이다. 가능한 구현예에서, 샘플에 대한 HRD 상태는 CSI 상태로부터, (예를 들어, 상동 복구 결핍과 관련된 유전자에서 하나 이상의 변이체, 예를 들어, 그러나 비제한적으로 BRCA1 또는 BRCA2 유전자에서의 특정 변이체가 확인되는 경우) 변이체 호출 결과로부터, 또는 (예를 들어, CSI 상태가 양성으로 확인된 경우 또는 상동 복구 결핍과 관련된 유전자에서 하나 이상의 변이체가 확인된 경우) 이들의 임의의 조합으로부터 유래될 수 있다. 가능한 구현예에서, 변이 호출 분석이 먼저 수행될 수 있으며, 본원에 기재된 컴퓨터-기반 방법에 따른 샘플에 대한 CSI 분석은 샘플의 전체 게놈을 따라 게놈 불안정성으로부터 가능한 HRD 상태를 확인하기 위해, 변이체 호출 결과가 샘플의 HRD 상태를 확인하지 않은 경우에만 분석될 수 있다.
실험 - 실시예 1
첫 번째 실험에서, 도 9의 CNN은 560명의 유방암 환자에 포함된 133개의 신선한 동결 종양 샘플의 서브세트에서 측정된 저역 통과 WGS 커버리지 데이터를 사용하여 트레이닝되었으며, 이에 대해 HRDetect 점수에 의해 정의된 바와 같은 BRCA-결핍 상태 및 HRD 상태는 문헌[Nik-Zainal et al., "Landscape of somatic mutations in 560 breast cancer whole-genome sequences" Nature 534, 47-54 (2016) - data set from the Wellcome Trust Sanger Institute and the International Cancer Genome Consortium ICGC available at the European Genome-phenome Archive EGA (https://www.ebi.ac.uk/ega/studies/EGAS00001001178) 및 "HRDetect is a predictor of BRCA1 and BRCA2 deficiency based on mutational signatures", H. Davies et al., Nature Medicine, published online March 13 th , 2017]을 참조하여 공개적으로 입수 가능하다. 133개의 공개적으로 입수 가능한 실제 샘플의 이러한 원래의 트레이닝 데이터세트는 3083개의 인공 트레이닝 샘플로 증강되었다. 원래 데이터세트에서 관찰된 동일한 순도-배수성 분포를 보존하기 위해 데이터 증강을 수행하였다. 데이터 증강을 통해 수득된 인공 샘플을 트레이닝 및 검증에만 사용하였다. 원래 데이터세트의 상당한 부분(560명의 유방암 연구에서 취한 202개의 샘플 중 69개 샘플)은 시험을 위해 보관되었고 데이터 증강 절차에 관여하지 않았다.
각 종양 샘플의 원래 BAM 파일을 먼저 저역 통과 WGS를 모방하기 위해 1천만 페어드-엔드 리드로 다운샘플링하고, 커버리지 신호를 먼저 100 kbp의 고해상도 커버리지 빈의 제1 세트를 사용하여 사전 계산하고, 샘플 및 GC 표준화를 수행함으로써 전처리하였다. 생성된 표준화된 커버리지 신호(y-축)는 각각 HRD- 샘플에 대해 도 10a)에 및 성염색체를 제외한 전체 게놈(x-축)에 대한 HRD+ 샘플에 대해 도 10b에 표시된다. x-축은 각 염색체의 경계에서 수직 파선으로 게놈 좌표를 제공한다.
표준화된 커버리지 데이터를 도 3의 적응형 비닝 전략을 사용하여 2.5 Mpb 내지 3.5 Mbp 범위에서 평균 3 Mbp 표적 빈 크기로 추가로 축소시켰다. 도 11은 y-축의 상단의 HR-결핍 샘플과 함께 CSI 상태에 의해 분류된 133개의 원래 트레이닝 샘플에 대해, 본 개시의 일부 구현예에 따른 공간 배열 방법을 적용하기 전, 샘플 당 하나의 행인 1D 신호로서 생성된 커버리지 데이터를 도시한다. x-축은 각 염색체의 경계에서 수직 파선으로 게놈 좌표를 나타낸다.
트레이닝 데이터세트에서 샘플에 대한 표준화된 커버리지 데이터는 HRD 상태를 예측하기 위해 CNN 모델을 트레이닝시키는 데 사용된 84 빈 * 22 염색체의 2D 어레이를 형성하기 위해 추가로 공간적으로 배열되었다. 22개 염색체에 대한 커버리지 빈은 이들의 동원체 빈에 대해 정렬된, chr1에서 chr 22까지의 22개 행으로 플롯팅된다. 더 짧은 염색체 아암의 경우, 비어있는 빈은 동일한 행에 존재하는 가장 가까운 텔로머 빈의 값을 복사함으로써 채워진다. 도 7a)는 HRD- 샘플에 대한 생성된 어레이를 보여주며, 도 7b)는 HRD+ 샘플에 대한 생성된 어레이를 보여준다.
도 12는 좌측에는 트레이닝에 사용되지 않은 69개의 시험 샘플을 포함하는 202개의 샘플의 전체 데이터세트에 트레이닝된 CNN을 적용함으로써 수득된 결과(softmax를 통한 확률로의 전환 전에 CNN의 출력에서 측정된 바와 같이 "BRCAness" 상태 표시로서 표시됨) 및 우측에는 HRDetect 점수에 대한 분류기로서 벤치마킹된, 종래 기술 HRD 점수의 결과(LOH, LST 및 TAI 점수를 평균처리함으로써 얻어짐)를 나타낸다. 도 12에 도시된 히스토그램에서 볼 수 있는 바와 같이, 제안된 방법은 202개의 실제 샘플의 전체 세트 또는 단독으로 머신 러닝 모델을 트레이닝하기 위해 사용되지 않은 69개의 샘플의 세트에 대한 시험과 상관없이, HRDetect 양성 샘플을 예측하는데 종래 기술 HRD 점수 방법을 능가한다.
도 13은 시험 세트의 69개 샘플 각각에 대해 트레이닝된 CNN의 출력에서 수득된 3개의 HRDetect 점수(상부), HRD 점수(하부) 및 SOPHiA CSI(본원에서 BRCAness로 표시됨) 점수를 나타낸다. 각각의 개별 패널에서, 샘플은 점수 결과를 증가시킴으로써 왼쪽에서 오른쪽으로 분류된다. BRCA-결핍이 없는 샘플은 밝은 회색으로 표시된다. BRCA-결핍 샘플은 짙은 회색으로 표시된다(BRCA-결핍을 유발하는 돌연변이의 유형을 나타내기 위해 상이한 회색 수준이 사용됨). 도 13에 입증된 바와 같이, HRDetect 점수 및 SOPHiA BRCAness CSI 점수는 모든 BRCA-결핍 샘플에 대해 매우 높다. 이 결과는 CSI 지표가 BRCA-결핍 샘플을 식별하는데 HRD 점수를 능가함을 나타낸다.
실험 - 실시예 2 - 고등급 난소 장액 선암종 Ovkate 세포에 대한 단일 wetlab 워크플로우에서 lpWGS와 포획-기반 표적 패널의 조합
OVKATE(RRID:CVCL_3110) 세포(https://web.expasy.org/cellosaurus/CVCL_3110)에서 저역 통과 전체 게놈 서열분석 및 포획-기반 표적 패널을 수행하였다. DNA를 제조사의 지침에 따라 DNeasy Blood & Tissue Kits(Qiagen)를 사용하여 추출하였다. 이어서, 전체-게놈 시퀀싱 라이브러리를 SOPHiA Genetics 라이브러리 제조 키트를 사용하여 제조하였다. 전체-게놈 라이브러리의 일부를 사용하여 SOPHiA Genetics 포획 프로토콜로 HRR 경로와 관련된 유전자를 커버하는 프로브 패널을 사용하여 표적 농축을 수행하였다. 농축 라이브러리 및 전체-게놈 라이브러리를 이후 Nextseq Mid 유동-세포(Illumina)에서 함께 시퀀싱하였다. 2개 유형의 라이브러리를, 예를 들어, 게놈에서 대략 1-2x 및 포획 패널의 표적 영역에서 1000x 초과의 커버리지를 달성하도록 유동-셀에 로딩 및 균형을 맞추었다.
도 15는 lpWGS 및 표적화된 포획 후에 수득된 데이터의 분석의 예시적인 워크플로우를 나타낸다.
배양된 Ovkate 세포로부터 추출된 DNA를 저역 통과 WGS 및 표적화된 농축을 조합한 NGS 워크플로우에 따라 처리하였다. NGS 데이터를 생물정보학적으로 처리하여 참조 게놈에 정렬된 리드의 정보를 함유하는 BAM 파일을 생성하였다. 표적화된 영역에 대해 맵핑하는 리드는 변이체 호출을 수행하고 농축된 영역에서 대립유전자 분획을 측정할 수 있었다(우측, 도 15C2). 포획 농축 접근법에 의해 표적화된 영역을 마스킹한 후 lp-WGS 영역으로부터의 리드는 전체 게놈에 대한 커버리지 수준의 프로파일을 계산할 수 있게 하였다. 후자는 편향을 제거하기 위해 표준화되었고(좌측, 도 15C1), HRD 점수를 계산하기 위해 CNN으로 처리되었다. Ovkate 세포는 HRD 양성으로 분류되었다(점수 15.8을 가짐).
따라서, lpWGS 및 포획-기반 표적 시퀀싱의 조합은 관심 유전자에서 샘플 CSI 상태 및 돌연변이 HRD 상태의 병렬 검출을 가능하게 한다.
실험 - 실시예 3 - 증강 트레이닝 데이터 획득
하나의 실험에서, 문헌[Nik-Zainal et al., "Landscape of somatic mutations in 560 breast cancer whole-genome sequences", Nature 534, 47-54 (2016)]의 공개적으로 입수 가능한 데이터로부터 공지된 HRD 상태를 갖는 신선한 동결된 조직의 169개의 실제 샘플을 먼저 선택하였다. 각각의 인공 샘플에 대해, 동일한 HRD 상태를 갖는 무작위 수의 실제 샘플로부터의 염색체를 무작위로 조합하여 데이터 증강(DA) 트레이닝 샘플을 생성할 수 있다. 인공 샘플을 생성하기 위한 샘플의 수는 x가 무작위 수이고 K=1/3을 갖는 N = K * exp(-K*x)를 사용하는 지수 분포로부터 도출된 무작위 수일 수 있다. 이러한 접근법을 사용하면 단지 제한된 수의 샘플로부터의 데이터만 조합되어 인공 샘플을 어셈블링할 수 있다.
다음으로, 풀에서 가장 낮은 순도/배수성 비율을 갖는 샘플(들)이 확인되었고, 풀 내의 모든 샘플의 순도/배수성 비율이 이 비율과 동일하도록 다른 모든 샘플의 순도를 감소시켰다. 이는 상이한 종양 순도 및 배수성을 갖는 샘플로부터 무작위로 선택된 염색체 사이의 커버리지 진폭의 차이의 도입을 방지할 수 있다(도 16a). 이를 달성하기 위해, 정상 샘플로부터의 시퀀싱 리드를 첨가함으로써 인-실리코(in-silico) 순도를 감소시켰다(도 16b). 이 전략은 모든 DA 샘플에서, 주어진 배수성에 대해 관찰된 커버리지 차이의 진폭이 데이터 증강 샘플에 대한 모든 염색체에 걸쳐 일정했지만(도 16c), DA 트레이닝 데이터의 순도/배수성 비율에 편향이 도입되었음을 보장하였다. 특히, 이러한 샘플에서 순도 및 배수성의 분포는 원래 샘플 세트에 대해 관찰된 것보다 낮은 경향이 있었다. 이러한 잠재적인 교란 요인을 설명하고 생성된 4403개의 보유 DA 샘플 세트의 순도/배수성 분포가 원래 샘플의 순도/배수성 분포와 일치하도록 하기 위해 Metropolis-Hastings and Gibbs 샘플링 방법이 적용되었다.
이러한 DA 트레이닝 데이터의 세트는 머신 러닝 모델을 트레이닝시키기 위해 사용될 수 있다. 머신 러닝 분야의 당업자에게 명백한 바와 같이, 이러한 데이터 증강 전략은 HRD와 같은 방법들 중 일부 부류의 성능을 지원하는 데 필요할 수 있는 대량의 데이터가 입수 가능하지 않을 때, CSI 분류기 머신 러닝 모델의 트레이닝을 용이하게 할 수 있다. 데이터 증강은 트레이닝 데이터세트의 크기 및 다양성을 증가시키기 위해 인-실리코(in-silico)로 제조될 수 있다. 증강된 데이터세트의 주요 특성을 보존하는 성공적인 데이터 증강 전략은 구별될 수 없는 인공 및 실제 데이터를 초래한다.
제안된 방법의 추가 장점 및 이점
제안된 머신 러닝 방법은 특히 종양학 실무에서 개인화된 의학 데이터의 증가하는 가용성에 본질적으로 적응하기 때문에 추가적인 장점을 추가로 가져온다. 이들은 진단, 예후, 및/또는 치료를 안내하기에 적합한 예측 특징을 확립하기 위해 명시적인 생물학 모델(예를 들어, 바람직하게는 텔로미어 또는 동원체 주변과 같은 특정 염색체 아암 영역에서 발생하는 의심되는 사건)을 필요로 하지 않는다. 반-지도 트레이닝 프레임워크를 사용할 때, 데이터 증강은 DNA 샘플에서 노이즈 데이터 또는 낮은 종양 함량에 덜 민감한 보다 강력한 데이터 모델의 개발을 용이하게 한다. 더 많은 데이터가 입수 가능해짐에 따라, 모델 파라미터만 변경되기 때문에 런타임 게놈 분석기 시스템 및 워크플로우를 재설계할 필요 없이 모델을 재트레이닝시킬 수 있다. 특정 적용(예를 들어, 유방암)을 위해 초기에 개발된 트레이닝된 모델은 다른 적용(예를 들어, 난소암, 전립선암 또는 췌장암) 및/또는 다른 샘플 유형(FFPE, FFT, cfDNA, ctDNA)으로 이전될 수 있다. 이들은 또한 상이한 요법 및 치료에 대한 반응을 포함하는 상이한 상태를 예측하는 데 사용될 수 있다.
본원에서 제안된 방법은 lpWGS 시퀀싱 데이터에 사용하기에 적합하고, 따라서 고 커버리지(>30X) WGS 또는 SNP 어레이를 사용하는 종래 기술의 방법보다 표준 임상 실습에서 구현 및 전개하기가 더 저렴하고 용이하다.
다른 구현예 및 적용
다양한 구현예가 위에서 설명되었지만, 이들은 제한이 아니라 예로서 제시된 것임을 이해해야 한다. 형태 및 세부사항의 다양한 변화가 사상 및 범위를 벗어나지 않고 이루어질 수 있음이 관련 기술 분야(들)의 당업자에게 명백할 것이다. 실제로, 상기 설명을 읽은 후, 당업자에게 대안적인 구현예를 구현하는 방법이 명백할 것이다.
제안된 방법의 예시적인 구현예 및 적용은 표적화된 차세대 시퀀싱 게놈 분석과 관련하여 설명되었지만, 생물정보학 분야의 당업자에게는 이들이 또한 예를 들어, SNP 어레이 및 어레이 CGH wet lab 워크플로우로부터의 게놈 데이터를 사용하여, 대안적인 종양 샘플 게놈 분석 워크플로우로부터 HR 결핍의 검출 및 분류에 적용하도록 구성될 수 있다는 것이 명백할 것이다. SNP 어레이, 어레이 CGH, 또는 차세대-시퀀싱(NGS) 기술을 사용하여 복사체 수에 따라 달라지는 카운트를 생성할 수 있다. 또한, 예를 들어, WES(전체 엑솜 시퀀싱) 또는 CES(모세관 전기영동) 패널로부터 수득될 수 있는 저역 통과 WGS(0.1x 내지 5x) 또는 큰 표적화된 농축 시퀀싱 라이브러리는 단독으로 사용되거나 조합되어 제안된 머신 러닝 방법에 대한 입력 데이터를 생성할 수 있다. 대안적으로, 저역 통과 WGS는 단일 또는 별도의 wetlab 워크플로우에서 작은 표적화된 패널(앰플리콘 기반 또는 포획 기반)과 조합될 수 있다. 가능하게는, 표적화된 시퀀싱 방법으로부터 발행된 표적외 리드는 또한 다차원 어레이로의 주요 또는 상보적 입력 데이터로서 사용될 수 있는 한편, CSI 분석기(123) 아키텍처에서 입력 데이터 처리 성분으로서 트레이닝된 신경망에 매우 적합하게 유지된다.
제안된 방법의 예시적인 구현예 및 적용은 행으로 배열되고 이들의 동원체 빈에 의해 수직으로 정렬된 염색체 커버리지 빈의 이미지로서 배열된 커버리지 데이터 신호 어레이와 관련하여 설명되었지만, 생물정보학 분야의 당업자에게, 다양한 다른 구현예가 또한 가능하다는 것이 명백할 것이다. 도 14는 동원체 영역 또는 텔로머 빈에 인접한 적어도 하나의 빈에 대해 적어도 2개의 분석된 염색체(chr.A 및 chr.B)로부터의 각 염색체 아암(p-아암 및 q-아암)에 대한 커버리지 신호 이미지의 예시적인 정렬을 예시한다.
가능한 구현예에서, 염색체 아암은 어레이에서 행으로 표현될 수 있고, 모든 아암에 대한 동원체 빈은 어레이의 제1 열을 따라 정렬될 수 있다. 또 다른 가능한 구현예에서, 염색체 아암은 어레이에서 행으로 표현될 수 있고, 모든 아암에 대한 텔로머 빈은 어레이의 첫 번째 열을 따라 정렬될 수 있다. 또 다른 가능한 구현예에서, 염색체 아암은 어레이에서 행으로 표현될 수 있고, 모든 아암에 대한 동원체 빈은 어레이의 마지막 열을 따라 정렬될 수 있다. 또 다른 가능한 구현예에서, 염색체 아암은 어레이에서 행으로 표현될 수 있고, 모든 아암에 대한 텔로머 빈은 어레이의 마지막 열을 따라 정렬될 수 있다.
가능한 구현예에서, 염색체 아암은 어레이에서 열로서 표현될 수 있고, 모든 아암에 대한 동원체 빈은 어레이의 첫 번째 행을 따라 정렬될 수 있다. 또 다른 가능한 구현예에서, 염색체 아암은 어레이에서 열로서 표현될 수 있고, 모든 아암에 대한 텔로머 빈은 어레이의 첫 번째 행을 따라 정렬될 수 있다. 또 다른 가능한 구현예에서, 염색체 아암은 어레이에서 열로서 표현될 수 있고, 모든 아암에 대한 동원체 빈은 어레이의 마지막 행을 따라 정렬될 수 있다. 또 다른 가능한 구현예에서, 염색체 아암은 어레이에서 열로서 표현될 수 있고, 모든 아암에 대한 텔로머 빈은 어레이의 마지막 행을 따라 정렬될 수 있다.
가능한 구현예에서, 전체 염색체는 어레이에서 열로서 표현될 수 있고, 모든 염색체에 대한 동원체 빈은 어레이의 행을 따라 정렬될 수 있다. 동원체 빈에 대한 정렬 행은 어레이의 중심에 있을 수 있거나, 염색체 세트의 p-아암 및 q-암에 대한 각각의 빈 길이에 따라 중심으로부터 위 또는 아래로 이동될 수 있다. 염색체에 대한 p-아암과 관련된 빈 및 q-아암과 관련된 빈은 동원체 빈 행으로부터 각각 위 및 아래에 있거나, 반대로 동원체 빈 열로부터 아래 및 위에 있을 수 있다.
가능한 구현예에서, 전체 염색체는 어레이에서 행으로 표현될 수 있고, 모든 염색체에 대한 동원체 빈은 어레이의 열을 따라 정렬될 수 있다. 동원체 빈에 대한 정렬 컬럼은 어레이의 중간에 있을 수 있거나, 염색체 세트의 p-아암 및 q-아암에 대한 각각의 빈 길이에 따라 중간으로부터 오른쪽 또는 왼쪽으로 이동될 수 있다. 염색체에 대한 p-아암과 관련된 빈 및 q-아암과 관련된 빈은 동원체 빈 컬럼으로부터 각각 우측 및 좌측, 또는 역으로 동원체 빈 컬럼으로부터 좌측 및 우측일 수 있다.
가능한 구현예에서, 전체 염색체는 어레이에서 행으로서 표현될 수 있고, 모든 염색체에 대한 2개의 텔로머 빈 중 하나는 어레이의 열을 따라 정렬될 수 있다. 가능한 구현예에서, 텔로머 빈에 대한 정렬 컬럼은 어레이의 제1 컬럼일 수 있다. 또 다른 가능한 구현예에서, 텔로머 빈에 대한 정렬 컬럼은 어레이의 마지막 컬럼일 수 있다. 가능한 구현예에서, p-아암 텔로머 빈은 정렬을 위해 사용될 수 있다. 또 다른 가능한 구현예에서, q-아암 텔로머 빈이 정렬을 위해 사용될 수 있다. 또 다른 가능한 구현예에서, 정렬을 위한 p-아암 또는 q-아암 텔로머 빈의 선택은 각각의 염색체에 대해 개별적으로 선택될 수 있다.
가능한 구현예에서, 전체 염색체는 어레이에서 열로서 표현될 수 있고, 모든 염색체에 대한 2개의 텔로머 빈 중 하나는 어레이의 행을 따라 정렬될 수 있다. 가능한 구현예에서, 텔로머 빈에 대한 정렬 행은 어레이의 제1 행일 수 있다. 또 다른 가능한 구현예에서, 텔로머 빈에 대한 정렬 행은 어레이의 마지막 행일 수 있다. 가능한 구현예에서, p-아암 텔로머 빈은 정렬을 위해 사용될 수 있다. 또 다른 가능한 구현예에서, q-아암 텔로머 빈이 정렬을 위해 사용될 수 있다. 또 다른 가능한 구현예에서, 정렬을 위한 p-아암 또는 q-아암 텔로머 빈의 선택은 각각의 염색체에 대해 개별적으로 선택될 수 있다.
게놈 데이터 분석기(120) 컴퓨터 시스템(또한 본원에서 "시스템")(120)은 본원에 기재된 바와 같은 CSI 및 HRD 분석기 시스템 및 방법에 추가하여 상이한 게놈 데이터 분석 방법, 예를 들어, 종양 샘플을 추가로 특성화하기 위해 시퀀싱 데이터를 수용 및/또는 조합, 복사체 수 변경을 호출 및/또는 변이체에 주석 달기를 구현하도록 프로그래밍되거나 달리 구성될 수 있다. 머신 러닝 모델은 표준화된 커버리지 데이터 2D 어레이 입력 이외에 GC 함량, 빈 크기, 맵핑 가능성, 맵핑 품질, 변이체 대립유전자 분획(VAF)과 같은 정보를 추가로 포함하는 확장된 다차원 어레이 입력을 이용할 수 있다. 머신 러닝 모델은 또한 종양 함량 정보(순도), 샘플 배수성 정보를 제공하는 추가적인 스칼라 입력을 이용할 수 있다. 게놈 데이터 분석기 시스템은 또한 샘플의 품질을 평가하기 위해 사용될 수 있다(즉, FFPE 분해 정도를 측정함). 게놈 데이터 분석기 시스템은 또한 암의 CSI 상태 수준에 기반한 암의 분류에 사용될 수 있다. 게놈 데이터 분석기 시스템은 또한 암의 CSI 상태 및 면역 탈출 사건과의 연관성에 기반한 암의 계층화에 사용될 수 있다(Bakhoum et al., 2018, Cell 174(6), p. 1347-1360).
제안된 방법의 예시적인 구현예 및 적용이 트레이닝된 머신 러닝 모델로서 CNN과 관련하여 설명되었지만, 가능한 구현예(도시되지 않음)에서, 랜덤 포레스트 머신 러닝 모델이 대안적으로 사용될 수 있다. 랜덤 포레스트 또는 랜덤 결정 포레스트는 트레이닝 시간에 다수의 결정 트리를 구성하고 개별 트리의 클래스의 모드(분류) 또는 평균 예측(회귀)인 클래스를 출력함으로써 작동하는 분류, 회귀 및 다른 작업을 위한 앙상블 학습 방법이다. 랜덤 결정 포레스트는 고차원 입력 데이터에 대한 좋은 후보가 되도록 하는 트레이닝 세트에 과적합하는 결정 트리의 습관을 교정한다.
달리 정의되지 않는 한, 본원에서 사용되는 모든 기술 및 과학 용어는 본 발명이 속하는 분야의 당업자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 본원의 설명에서 사용된 용어는 단지 특정 구현예를 설명하기 위한 것이며, 제한하려는 것이 아니다. 상세한 설명 및 첨부된 청구범위에서 사용되는 바와 같이, 단수 형태("a", "an", 및 "the")는 문맥이 명백하게 달리 지시하지 않는 한 복수 형태를 또한 포함하는 것으로 의도된다.
달리 지시되지 않는 한, 하기 명세서 및 첨부된 청구범위에 기재된 수치 파라미터는 수득하고자 하는 요망되는 특성에 따라 달라질 수 있는 근사치이며, 따라서 용어 "약"에 의해 변형될 수 있다. 최소한, 청구 범위의 범위에 대한 등가물의 교리의 적용을 제한하려는 시도가 아니라, 각각의 수치 파라미터는 유효 자릿수 및 통상적인 반올림 접근법에 비추어 해석되어야 한다.
넓은 범위를 나타내는 수치 범위 및 파라미터가 근사치임에도 불구하고, 특정 실시예에 기재된 수치 값은 가능한 한 정확하게 보고된다. 그러나, 임의의 수치는 본질적으로 각각의 시험 측정에서 발견된 표준 편차로부터 필연적으로 발생하는 특정 오차를 포함한다. 본 명세서 전반에 걸쳐 주어진 모든 수치 범위는, 마치 그러한 더 좁은 수치 범위가 모두 본원에 명시적으로 기재된 것처럼, 그러한 더 넓은 수치 범위 내에 속하는 모든 더 좁은 수치 범위를 포함할 것이다.
디지털 데이터 통신 분야의 당업자에게 명백한 바와 같이, 본원에 기재된 방법은 데이터 파일 또는 데이터 스트림과 같은 다양한 데이터 구조에 무관심하게 적용될 수 있다. 따라서, 용어 "데이터", "데이터 세트", "데이터 구조", "데이터 필드", "파일", 또는 "스트림"은 본 명세서 전반에 걸쳐 무관심하게 사용될 수 있다.
상기 상세한 설명은 많은 특정 세부사항을 포함하지만, 이들은 구현예의 범위를 제한하는 것으로서 해석되어서는 안 되며, 단지 몇몇 구현예의 예시를 제공하는 것으로 해석되어야 한다.
또한, 기능성 및 이점을 강조하는 임의의 도면은 단지 예시의 목적으로 제공되는 것으로 이해되어야 한다. 개시된 방법은 도시된 것과 다른 방식으로 이용될 수 있도록 충분히 유연하고 구성 가능하다.

Claims (21)

  1. 대상체 DNA 샘플의 상동 재조합 결핍(HRD) 상태를 결정하는 컴퓨터-기반 방법으로서,
    - 분석될 대상체 DNA 샘플의 전체 게놈의 시퀀싱 리드 세트를 수득하는 단계,
    - 대상체 DNA 샘플의 시퀀싱 리드 세트를 참조 게놈에 정렬하는 단계로서, 참조 게놈은 복수의 빈(bin)으로 분할되며, 각각의 빈은 분석될 전체 게놈 염색체에서 염색체 아암으로부터의 동일한 게놈 영역에 속하는 단계,
    - 염색체 아암에 대한 커버리지 신호(coverage signal)를 얻기 위해 각각의 염색체 아암을 따라 각 빈에서 정렬된 리드의 수를 카운팅 및 표준화하는 단계,
    - 염색체 아암의 커버리지 신호를 대상체 DNA 샘플에 대한 커버리지 데이터 신호 어레이로 배열하는 단계,
    - 커버리지 데이터 신호 어레이를 트레이닝된 머신 러닝 모델(trained machine learning model)에 입력하는 단계로서, 모델은 양성 상동 재조합 결핍 상태를 갖는 샘플로부터의 커버리지 데이터 신호 어레이와 음성 상동 재조합 결핍 상태를 갖는 샘플로부터의 커버리지 데이터 신호 어레이를 구별하기 위해 공지된 상동 재조합 결핍 상태의 샘플 세트를 사용하여 트레이닝된 것인 단계,
    이에 의해 대상체 DNA 샘플의 상동 재조합 결핍 점수(HRD 점수)를 결정하는 단계, 및
    트레이닝된 머신 러닝 모델로부터의 HRD 점수에 따라 대상체 DNA 샘플의 음성, 양성 또는 불확실한 상동 재조합 결핍(HRD) 상태를 결정하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 시퀀싱 리드 세트가 전체 게놈 시퀀싱으로부터 수득되며, 여기서 리드 깊이 커버리지(read depth coverage)가 최대 30x인, 방법.
  3. 제2항에 있어서, 시퀀싱 리드 세트가 저역 통과 전체 게놈 시퀀싱으로부터 수득되며, 여기서 리드 깊이 커버리지는 적어도 0.1X 및 최대 5X인, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 염색체 아암에 대한 커버리지 신호를 얻기 위해 각각의 염색체 아암을 따라 각각의 빈에서 정렬된 리드의 수를 카운팅하고 표준화하는 단계가 샘플당 커버리지 신호를 표준화하고/거나 GC 함량에 의해 표준화하여 GC-편향 보정(GC-bias correction)을 적용하는 것을 포함하는 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 염색체 아암의 커버리지 신호가 1D 커버리지 데이터 신호 벡터 또는 2D 커버리지 데이터 신호 이미지로 배열되는, 방법.
  6. 제5항에 있어서, 염색체 아암의 커버리지 신호가 각 염색체 아암의 동원체 빈(centromeric bin), 즉 염색체 아암의 동원체 영역에 인접한 가장 가까운 빈에 대해 각 염색체에 대한 커버리지 데이터 신호를 행으로 정렬함으로써 2D 커버리지 데이터 신호 이미지로 배열되는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 머신 러닝 모델이 트레이닝 라벨(training label)로서 공지된 상동 재조합 결핍 상태를 갖는 종양 데이터 샘플의 세트를 사용하여 사전에 트레이닝된, 방법.
  8. 제7항에 있어서, 트레이닝 데이터세트가 데이터 샘플의 염색체로부터의 데이터를 공지된 상동 재조합 결핍 상태 라벨과 조합함으로써 생성된 인공 샘플 데이터로 증강되는, 방법.
  9. 제8항에 있어서, 데이터 증강된 샘플이 실제 샘플 데이터세트에서 관찰된 바와 같은 순도-배수비 분포(purity-ploidy ratio distribution)를 나타내기 위해 생성되는, 방법.
  10. 제1항에 있어서, 참조 게놈이 최대 100 kbp 빈의 제1 세트로 분할되며, 각각의 염색체 아암에 대한 커버리지 신호를 배열하기 전에 100 kbp 빈을 적어도 500 kbp의 더 큰 빈의 제2 세트로 붕괴시키는 단계를 추가로 포함하는, 방법.
  11. 제10항에 있어서, 제1 빈 세트의 빈이 최대 100 kbp의 균일한 크기를 가지며, 제2 빈 세트의 빈이 2.5 내지 3.5 Mbp의 크기를 가지고 제1 빈 세트로부터 25 내지 35의 100 kbp의 빈을 풀링함으로써 수득되는, 방법.
  12. 환자 DNA 샘플의 상동 재조합 결핍(HRD) 상태를 결정하는 시험관내 방법으로서,
    - 환자 샘플로부터 DNA의 단편을 제공하는 단계;
    - 염색체 세트와 중첩되는 상기 단편을 포함하는 라이브러리를 작제하는 단계;
    - 라이브러리를 최대 30X 전체 게놈 시퀀싱 커버리지, 바람직하게는 적어도 0.1X 및 최대 5X의 게놈 시퀀싱 커버리지로 시퀀싱하는 단계; 및
    제1항에 따라 얻어진 트레이닝된 머신 러닝 모델의 분석에 기반하여 환자 샘플의 HRD 상태를 결정하는 단계를 포함하는, 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 환자 DNA 샘플이 종양 세포-비함유 DNA(cfDNA), 신선-동결 조직(FFT) 또는 포르말린-고정 파라핀-포매(FFPE) 샘플인, 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 환자 샘플의 HRD 점수 또는 HRD 상태가 암 치료 요법에 대한 종양 반응의 예측인자인, 방법.
  15. 제15항에 있어서, 암 치료 요법이 알킬화제, 백금-기반 화학요법제, 카보플라틴, 시스플라틴, 이프로플라틴, 네다플라틴, 옥살리플라틴, 피코플라틴, 클로르메틴, 클로람부실, 멜팔란, 사이클로포스파미드, 이포스파미드, 에스트라무스틴, 카르무스틴, 로무스틴, 포테무스틴, 스트렙토조신, 부설판, 피포브로만, 프로카바진, 다카바진, 티오테파, 테모졸로미드 및/또는 다른 항종양 백금 배위 화합물, DNA 손상제, 방사선 요법, 안트라사이클린, 에피루빈신, 독소루비신, 토포이소머라제 I 억제제, 캄포테신, 토포테칸, 이리노테칸, PARP(폴리 ADP-리보스 폴리머라제) 억제제, 올라파립, 루카파립, 니라파립, 탈라조파립, 이니파립, CEP 9722, MK 4827, BMN-673, 3-아미노벤즈아미드, 벨라피립 및/또는 E7016로 구성된 군으로부터 선택되는, 방법.
  16. 백금-기반 화학요법제, DNA 손상제, 안트라사이클린, 토포이소머라제 I 억제제, 또는 PARP 억제제로의 치료를 위해 암 환자를 선택하는 방법으로서, 종양 환자 샘플이 제1항의 방법에 따라 HRD 양성인 것을 검출하는 단계를 포함하는, 방법.
  17. 제16항에 있어서, 환자가 고등급 장액 난소암, 전립선암, 유방암 또는 췌장암으로부터 선택된 암을 갖는, 방법.
  18. 대상체 DNA 샘플의 상동 재조합 결핍(HRD) 상태를 결정하기 위한 머신 러닝 알고리즘을 트레이닝시키는 방법으로서,
    머신 러닝 지도 트레이닝 알고리즘에, 알려진 양성 상동 재조합 결핍 상태를 갖는 샘플로부터의 커버리지 데이터 신호 어레이 및 알려진 음성 상동 재조합 결핍 상태를 갖는 샘플로부터의 커버리지 데이터 신호 어레이를 입력하는 단계를 포함하는, 방법.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서, 트레이닝된 머신 러닝 모델이 랜덤 포레스트 모델, 신경망 모델, 딥 러닝 분류기 또는 컨볼루션 신경망 모델인, 방법.
  20. 제19항에 있어서, 신경망 모델 트레이닝된 머신 러닝 모델이 이의 출력에서 양성 또는 음성 HRD 상태의 단일 라벨 이진 분류(single label binary classification), 또는 양성, 음성 또는 불확실한 HRD 상태의 단일 라벨 다중클래스 분류(single label multiclass classification), 또는 HRD 상태를 나타내는 스칼라 HRD 점수를 생성하도록 트레이닝된 컨볼루션 신경망인, 방법.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서, 머신 러닝 모델이 동일한 HRD 상태 및 동일한 표준화된 순도 및 배수비를 공유하는 실제 샘플의 세트의 염색체로부터 데이터를 샘플링함으로써 생성된 데이터 증강 세트를 사용하여 반-지도 모드로 트레이닝된 방법.
KR1020237002728A 2020-07-27 2021-07-27 낮은 커버리지 차세대 시퀀싱 데이터에서 상동 복구 결핍과 같은 염색체 공간 불안정성을 확인하는 방법 KR20230045009A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20187813.9A EP3945525A1 (en) 2020-07-27 2020-07-27 Methods for identifying chromosomal spatial instability such as homologous repair deficiency in low coverage next-generation sequencing data
EP20187813.9 2020-07-27
PCT/EP2021/071073 WO2022023381A1 (en) 2020-07-27 2021-07-27 Methods for identifying chromosomal spatial instability such as homologous repair deficiency in low coverage next-generation sequencing data

Publications (1)

Publication Number Publication Date
KR20230045009A true KR20230045009A (ko) 2023-04-04

Family

ID=71833187

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237002728A KR20230045009A (ko) 2020-07-27 2021-07-27 낮은 커버리지 차세대 시퀀싱 데이터에서 상동 복구 결핍과 같은 염색체 공간 불안정성을 확인하는 방법

Country Status (9)

Country Link
US (3) US20220028481A1 (ko)
EP (2) EP3945525A1 (ko)
JP (1) JP2023535962A (ko)
KR (1) KR20230045009A (ko)
CN (1) CN116194995A (ko)
AU (1) AU2021314892A1 (ko)
BR (1) BR112023000014A2 (ko)
CA (1) CA3185856A1 (ko)
WO (1) WO2022023381A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220198267A1 (en) * 2020-12-18 2022-06-23 Vmware, Inc. Apparatus and method for anomaly detection using weighted autoencoder
WO2023160574A1 (en) * 2022-02-22 2023-08-31 Guangdong Jiyin Biotech Co., Ltd. Methods for detecting homologous recombination deficiency in cancer patients
EP4297037A1 (en) * 2022-06-24 2023-12-27 Seqone Device for determining an indicator of presence of hrd in a genome of a subject
WO2024050366A1 (en) * 2022-08-30 2024-03-07 Foundation Medicine, Inc. Systems and methods for classifying and treating homologous repair deficiency cancers
CN115330603B (zh) * 2022-10-17 2023-01-20 湖南自兴智慧医疗科技有限公司 基于深度学习卷积神经网络的人类染色体图像摆正方法
CN116129123B (zh) * 2023-02-27 2024-01-05 中国矿业大学 基于不确定度校准和区域分解的端到端染色体分割方法
CN116646010B (zh) * 2023-07-27 2024-03-29 深圳赛陆医疗科技有限公司 人源性病毒检测方法及装置、设备、存储介质
CN117373678B (zh) * 2023-12-08 2024-03-05 北京望石智慧科技有限公司 基于突变签名的疾病风险预测模型构建方法及分析方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ606725A (en) 2010-08-24 2014-06-27 Dana Farber Cancer Inst Inc Methods for predicting anti-cancer response
JP6325453B2 (ja) 2011-12-21 2018-05-16 ミリアド・ジェネティックス・インコーポレイテッド ヘテロ接合性の消失(lossofheterozygosity)を評価するための方法および材料
CA2864481C (en) 2012-02-23 2020-07-14 The Children's Hospital Corporation Methods for predicting anti-cancer response
EP2859118B1 (en) 2012-06-07 2017-11-22 Institut Curie Methods for detecting inactivation of the homologous recombination pathway (brca1/2) in human tumors
NZ712663A (en) 2013-04-05 2021-07-30 Myriad Genetics Inc Methods and materials for assessing homologous recombination deficiency
EP3686288B1 (en) 2014-08-15 2023-03-08 Myriad Genetics, Inc. Methods and materials for assessing homologous recombination deficiency
WO2017191074A1 (en) 2016-05-01 2017-11-09 Genome Research Limited Method of characterising a dna sample
WO2017191076A1 (en) * 2016-05-01 2017-11-09 Genome Research Limited Method of characterising a dna sample
WO2017220508A1 (en) 2016-06-22 2017-12-28 Sophia Genetics S.A. Methods for processing next-generation sequencing genomic data
TWI822789B (zh) * 2018-06-01 2023-11-21 美商格瑞爾有限責任公司 用於資料分類之卷積神經網路系統及方法
EP4073805A1 (en) * 2019-12-10 2022-10-19 Tempus Labs, Inc. Systems and methods for predicting homologous recombination deficiency status of a specimen
US20220025468A1 (en) * 2020-05-14 2022-01-27 Guardant Health, Inc. Homologous recombination repair deficiency detection

Also Published As

Publication number Publication date
EP4189685A1 (en) 2023-06-07
BR112023000014A2 (pt) 2023-02-07
EP3945525A1 (en) 2022-02-02
US20220310199A1 (en) 2022-09-29
AU2021314892A1 (en) 2023-03-09
CN116194995A (zh) 2023-05-30
US20220084626A1 (en) 2022-03-17
JP2023535962A (ja) 2023-08-22
WO2022023381A1 (en) 2022-02-03
CA3185856A1 (en) 2022-02-03
US20220028481A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
US20220310199A1 (en) Methods for identifying chromosomal spatial instability such as homologous repair deficiency in low coverage next- generation sequencing data
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
AU2017292854B2 (en) Methods for fragmentome profiling of cell-free nucleic acids
US20230114581A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
CN112048559A (zh) 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用
KR20210110241A (ko) 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법
US20230279498A1 (en) Molecular analyses using long cell-free dna molecules for disease classification
Cambon et al. Classification of clinical outcomes using high-throughput informatics: Part 1–nonparametric method reviews
Zhang et al. Multi-omics deep-learning prediction of homologous recombination deficiency-like phenotype improved risk stratification and guided therapeutic decisions in gynecological cancers
Thirimanne et al. Meningioma transcriptomic landscape demonstrates novel subtypes with regional associated biology and patient outcome
Andre et al. A deep learning approach for improved detection of homologous recombination deficiency from shallow genomic profiles
Bizet Bioinformatic inference of a prognostic epigenetic signature of immunity in breast cancers
AU2022349855A1 (en) Methods of cancer prognosis
김민수 Machine learning techniques for decoding and utilizing high throughput RNA sequencing data
Dorri et al. MuClone: Somatic mutation detection and classification through probabilistic integration of clonal population structure
WO2019016353A1 (en) CLASSIFICATION OF SOMATIC MUTATIONS FROM A HETEROGENEOUS SAMPLE
Reiter et al. Reconstructing robust phylogenies of metastatic cancers