KR20210073526A - 전사 인자 프로파일링 - Google Patents

전사 인자 프로파일링 Download PDF

Info

Publication number
KR20210073526A
KR20210073526A KR1020217010231A KR20217010231A KR20210073526A KR 20210073526 A KR20210073526 A KR 20210073526A KR 1020217010231 A KR1020217010231 A KR 1020217010231A KR 20217010231 A KR20217010231 A KR 20217010231A KR 20210073526 A KR20210073526 A KR 20210073526A
Authority
KR
South Korea
Prior art keywords
signal
subject
disease
transcription factor
processing
Prior art date
Application number
KR1020217010231A
Other languages
English (en)
Inventor
페터 울츠
미카엘 에아 슈파이허
엘렌 하이츠어
Original Assignee
프리놈 홀딩스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프리놈 홀딩스, 인크. filed Critical 프리놈 홀딩스, 인크.
Publication of KR20210073526A publication Critical patent/KR20210073526A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Mathematical Physics (AREA)
  • Medicinal Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Computing Systems (AREA)
  • Microbiology (AREA)

Abstract

본원에 개시된 방법 및 시스템은 게놈 물질의 분석 능력을 향상시킬 수 있다. 본원에 제공된 방법은 대상체에서 전사 인자 결합 부위 접근성을 조사하여 질환을 진단하거나 질환의 진행을 모니터링할 수 있다.

Description

전사 인자 프로파일링
상호 참조
본 출원은 2018년 10월 8일에 출원된 미국 특허 가출원 62/742,854, 2018년 10월 29일에 출원된 미국 특허 가출원 62/752,270 및 2019년 5월 16일에 출원된 미국 특허 가출원 62/849,097의 이익을 주장하며, 이들 각각은 전체적으로 본원에 참고로 포함된다.
배경
전사 인자(TF)는 표적 유전자의 발현을 조절할 수 있으며 발생 및 분화에 중요한 역할을 할 수 있다. 게놈 변경은 TF의 활성화 또는 불활성화로 이어질 수 있으며, 결과적인 유전자 조절 장애는 노화와 같은 생리적 병태 또는 암과 같은 기저 질환의 원인이 될 수 있다. 조절 데옥시리보핵산(DNA)에 결합하기 위해서, TF는 종종 점유와 배치 모두에 영향을 미칠 수 있는 뉴클레오솜과 상호 작용해야 한다.
전사 인자의 변경은 암에서 종양 형성의 중요한 동인일 수 있으며, TF-뉴클레오솜 상호 작용은 대부분 맵핑되지 않은 채로 남아 있다. 그러나 전사 인자 활성을 평가하기 위한 비침습적 분석법이 부족하다.
염색질 접근성 및 전사를 조절하는 데에 있어 TF의 역할을 고려할 때, TF 결합에 대한 유전적 변이의 영향을 이해하면 발생 및 질환의 비코딩 유전적 구성 요소에 대한 통찰을 제공할 수 있다. 염색질의 핵단백질 구조 내에 코딩된 후성 유전학적 정보에 대한 주요 통찰은 염색질 접근성("개방 염색질"), 뉴클레오솜 배치, 및 전사 인자(TF) 점유를 개별적으로 분석하기 위한 고 처리량의 전장 유전체(genome-wide) 방법을 사용하여 얻을 수 있다.
전사 인자(TF)의 탈조절(deregulation)은 종양 형성의 중요한 동인이 될 수 있다. TF가 DNA에 결합하려면 결합 영역에 접근할 필요가 있을 수 있다. 따라서 TF 및 염색질 리모델링 복합체는 접근성을 향상시키기 위해 뉴클레오솜을 이동시키고 배치한다. 따라서 필요한 것은 뉴클레오솜 위치와 염색질 접근성을 추론하기 위해 전사 인자 결합 부위를 프로파일링하는 방법이다. 또 필요한 것은 질환 상태, 질환 진행 및 치료 반응성을 추론하기 위해 전사 인자 결합 부위 프로파일링, 및 전사 인자 결합 부위 시그니처를 사용하는 방법이다.
요약
본 개시 내용은 전사 인자(TF) 결합 부위(TFBS)를 평가(예를 들어, 모델링)하고 TFBS 정보를 사용하여 질환 상태를 검출, 평가, 진단, 및 분석하고 치료 반응성을 확인하기 위한 방법 및 시스템을 제공한다.
TF 결합 패턴 및 관련 염색질 구조를 제공하기 위해 차세대 시퀀싱 기반 전장 유전체 분석이 사용될 수 있다. 뉴클레오솜과 서열 특이적 TF가 상호 배타적인 방식으로 조절 데옥시리보핵산(DNA) 영역에 결합하기 때문에, TF는 뉴클레오솜과 경쟁하거나 상호 작용하고, 이는 점유 및 배치 모두에 영향을 미친다. 주어진 세포 집단에서, 뉴클레오솜 점유는 지정된 게놈 영역 내에서 측정된 평균 뉴클레오솜 수를 지칭하는 한편, 뉴클레오솜 배치는 특정 게놈 좌표에 존재하는 뉴클레오솜 상 기준점(일반적으로 다이애드(dyad), 예를 들어 표준 뉴클레오솜의 중간점)의 확률을 나타낸다.
무세포 DNA(cfDNA)와 같은 무세포 순환 핵산은 TFBS 분석을 위해 쉽게 접근할 수 있는 핵산 공급원을 제공할 수 있다. 이러한 cfDNA는 히스톤 복합체와 같은 단백질에 의해 보호되지 않는 DNA를 우선적으로 분해하는 분해 과정의 산물일 수 있다. 무세포 DNA 커버리지 패턴은 게놈에 활성적으로 결합하는 전사 인자로 인한 뉴클레오솜 배치 및 점유를 반영할 수 있다. 그리고 cfDNA를 통해 측정된 이러한 뉴클레오솜 점유 패턴은 정상 및 종양 게놈에서 TF의 활성을 추론하는 데 사용될 수 있다.
TF는 개방 염색질 내에서 우선적으로 결합할 수 있으며, 이는 뉴클레오솜 배치에 영향을 미칠 수 있다. 혈장으로부터 순환하는 무세포 DNA는 모노뉴클레오솜 DNA를 나타낼 수 있으며, 뉴클레오솜 혈장 지문은 TFBS에 관한 정보를 제공할 수 있다.
본 개시 내용은 질환 확인, 예측, 병기 결정, 및/또는 치료 반응성 확인과 관련된 적용을 위한 TF에 관한 정보를 제공하기 위해 cfDNA로부터 뉴클레오솜 위치를 차트화하기 위한 방법 및 시스템을 제공한다. 핵산 분자(예를 들어, cfDNA)에서 뉴클레오솜 지문으로부터 결정된 전사 인자 정보를 사용하기 위한 방법 및 시스템이 본원에 기술된다. 핵산 분자에서 뉴클레오솜 지문 정보는 암과 같은 질환을 평가(evaluate, assess), 검출, 및 진단하는 데 사용될 수 있다. 일부 예에서, 정보는 질환 확인, 예측, 병기 결정 및 치료 반응 확인과 같은 이러한 많은 적용에서 유용한 기계 학습 모델에 대한 입력으로서 피처화되고(featurized) 사용될 수 있다.
한 측면에서, 본 개시 내용은 대상체로부터의 핵산 샘플에서 전사 인자 결합 프로파일을 결정하기 위한 컴퓨터 구현 방법으로서, (a) 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드(read) 세트를 제공하는 단계; (b) 상기 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 단계; (c) 커버리지 패턴을 처리하여 신호를 제공하는 단계; 및 (d) 제1 신호를 참조 신호로 처리하여 샘플에서 전사 인자 결합 프로파일을 결정하는 단계로서, 제1 신호와 참조 신호는 상이한 주파수를 갖는 것인 단계를 포함하는 방법을 제공한다.
일부 예에서, DNA는 무세포 DNA이다.
일부 예에서, (c)는 저주파 통과 필터를 사용하는 단계를 포함한다. 일부 예에서, (c)는 사비츠키-골레이(Savitzky-Golay) 필터를 사용하는 단계를 포함한다.
일부 예에서, 대상체는 인간이다.
또 다른 측면에서, 본 개시 내용은 대상체에서 질환의 존재 또는 부재를 검출하기 위한 컴퓨터 구현 방법으로서, (a) 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드 세트를 제공하는 단계; (b) 상기 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 단계; (c) 커버리지 패턴을 처리하여 신호를 제공하는 단계; 및 (d) 신호를 참조 신호로 처리하여 상기 대상체에서 상기 질환의 상기 존재 또는 부재를 검출하는 단계로서, 신호와 참조 신호는 상이한 주파수를 갖는 것인 단계를 포함하는 방법을 제공한다.
일부 예에서, DNA는 무세포 DNA이다.
일부 예에서, 질환은 암이다.
(b)는 서열 리드 세트를 참조 서열에 정렬시켜 정렬된 서열 패턴을 제공하는 단계, 전사 인자의 결합 부위에 상응하는 정렬된 서열 패턴의 영역을 선택하는 단계, 및 영역에서 정렬된 서열 패턴을 정규화하는 단계를 포함한다. 일부 예에서, (d)는 전사 인자의 결합 부위 각각에 대한 접근성 점수를 계산하는 단계를 포함한다.
일부 예에서, (c)는 저주파 통과 필터를 사용하는 단계를 포함한다. 일부 예에서, (c)는 사비츠키-골레이 필터를 사용하는 단계를 포함한다.
일부 예에서, 대상체는 인간이다.
일부 예에서, 전사 인자는 암 특이적 전사 인자이다. 일부 예에서, 전사 인자는 GRH-L2, ASH-2, HOX-B13, EVX2, PU.1, Lyl-1, Spi-B, FOXA1, HNF-1A, HNF-4A, HNF-4G, 및 DLX-2로 이루어진 군으로부터 선택된다.
일부 예에서, 적어도 2개, 또는 적어도 5개, 또는 적어도 10개, 또는 적어도 15개, 또는 적어도 20개, 또는 적어도 25개의 전사 인자 결합 부위에 대한 접근성 점수를 결정하고 건강한 대상체와 암 환자 사이, 질환 진행자와 비-진행자 사이, 복수의 질환 아형 사이, 복수의 질환 단계 사이, 질환 치료 반응자와 비-반응자 사이, 또는 이들의 임의의 조합을 구별할 수 있는 분류기(classifier)를 훈련하기 위한 기계 학습 모델에 입력한다.
일부 예에서, 전사 인자는 GRH-L2, ASH-2, HOX-B13, EVX2, PU.1, Lyl-1, Spi-B, 및 FOXA1로 이루어진 군으로부터 선택된다.
일부 예에서, 전사 인자 AR, HOXB13, 및 NKX3-1에 대한 추론된 결합 패턴을 포함하는 환자 특이적 및/또는 종양 특이적 패턴이 관찰된다.
일부 예에서, (d)는 전사 인자의 더 높은 접근성의 징후를 확인하는 단계를 포함한다. 일부 예에서, 전사 인자는 상피 전사 인자이다. 일부 예에서, 전사 인자는 GRH-L2이다.
일부 예에서, 전사 인자 GRHL2, FOXA1, 및 ZNF121은 유방암 환자에서 증가된 접근성 점수 또는 개방 염색질 접근성과 관련된다.
일부 예에서, 전사 인자 GRHL2, FOXA1, 및 ZNF121의 개방 접근성은 유방암을 나타낸다.
일부 예에서, 전사 인자 EVX2, DLX2, HNF1A, HNF4A, GRHL2, 및 HNF4G는 결장암 환자에서 증가된 접근성 점수 또는 개방 염색질 접근성과 관련된다.
일부 예에서, 전사 인자 EVX2, DLX2, HNF1A, GRH-L2, HNF4A, 및 HNF4G의 개방 접근성은 결장암을 나타낸다.
일부 예에서, 전사 인자 LYL1 및 PU.1은 결장암 환자에서 감소된 접근성 점수 또는 폐쇄된 염색질 접근성과 관련된다.
일부 예에서, 전사 인자 LYL1 및 PU.1의 폐쇄된 접근성은 결장암을 나타낸다.
하나의 예에서, 전사 인자 tbx21 또는 EOMES의 개방 접근성은 탈진된 CD8+ T 세포를 나타낸다.
하나의 예에서, 에오메소더민(Eomesodermin)(EOMES), Ybx21, Gata3, Rora, Bcl6, Blimp-1, 폰 히펠 린다우(von Hippel-Lindau) 종양 억제제(VHL), Foxo1, IRF4, BATF, 및 NFATc1으로부터 선택된 전사 인자의 개방 접근성은 탈진된 CD8+ T 세포를 나타낸다.
일부 예에서, 방법은 적어도 약 70%의 정확도로 대상체에서 질환의 존재 또는 부재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 방법은 적어도 약 80%의 정확도로 대상체에서 질환의 존재 또는 부재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 방법은 적어도 약 90%의 정확도로 대상체에서 질환의 존재 또는 부재를 검출하는 단계를 추가로 포함한다.
일부 예에서, 방법은 적어도 약 70%의 민감도로 대상체에서 질환의 존재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 방법은 적어도 약 80%의 민감도로 대상체에서 질환의 존재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 방법은 적어도 약 90%의 민감도로 대상체에서 질환의 존재를 검출하는 단계를 추가로 포함한다.
일부 예에서, 방법은 적어도 약 70%의 특이도로 대상체에서 질환의 부재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 방법은 적어도 약 80%의 특이도로 대상체에서 질환의 부재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 방법은 적어도 약 90%의 특이도로 대상체에서 질환의 부재를 검출하는 단계를 추가로 포함한다.
일부 예에서, 방법은 적어도 약 70%의 양성 예측도(PPV)로 대상체에서 질환의 존재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 방법은 적어도 약 80%의 양성 예측도(PPV)으로 대상체에서 질환의 존재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 방법은 적어도 약 90%의 양성 예측도(PPV)로 대상체에서 질환의 존재를 검출하는 단계를 추가로 포함한다.
일부 예에서, 방법은 적어도 약 70%의 음성 예측도(NPV)로 대상체에서 질환의 부재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 방법은 적어도 약 80%의 음성 예측도(NPV)로 대상체에서 질환의 부재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 방법은 적어도 약 90%의 음성 예측도(NPV)로 대상체에서 질환의 부재를 검출하는 단계를 추가로 포함한다.
일부 예에서, 방법은 적어도 약 0.70의 수신자 조작 특성 아래 면적(AUROC)으로 대상체에서 질환의 존재 또는 부재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 방법은 적어도 약 0.80의 수신자 조작 특성 아래 면적(AUROC)으로 대상체에서 질환의 존재 또는 부재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 방법은 적어도 약 0.90의 수신자 조작 특성 아래 면적(AUROC)으로 대상체에서 질환의 존재 또는 부재를 검출하는 단계를 추가로 포함한다.
일부 예에서, 방법은 훈련된 분류기를 신호에 적용하여 대상체에서 질환의 존재 또는 부재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 방법은 훈련된 분류기를 전사 인자의 결합 부위의 접근성 점수에 적용하여 대상체에서 질환의 존재 또는 부재를 검출하는 단계를 추가로 포함한다. 일부 예에서, 훈련된 분류기는 훈련된 기계 학습 분류기를 포함한다. 일부 예에서, 훈련된 기계 학습 분류기는 지도 기계 학습 알고리즘을 포함한다. 일부 예에서, 지도 기계 학습 알고리즘은 회귀, 서포트 벡터 머신(support vector machine), 트리 기반 방법(tree-based method), 신경망, 및 랜덤 포레스트(random forest) 중 하나 이상을 포함한다.
또 다른 측면에서, 본 개시 내용은 치료 계획 및 반응성을 포함하는 환자 관리에 중요한 임상적 의의를 가질 수 있는, 예를 들어, 종양 아형(예를 들어, 전립선암, 결장직장암, 유방암, 폐암의 아형), 또는 종양 병기를 포함하는 종양 유형에 의해 환자를 분류할 수 있는 방법을 제공한다. 따라서, 환자 샘플(예를 들어, 혈액, 혈장, 또는 혈청 샘플)을 기반으로 하여 생체 내에서 종양 특이적 전사 인자 결합을 맵핑하여, 비코딩 게놈의 주요 부분을 임상 분석에 적용할 수 있게 만드는 방법을 본원에서 제공한다.
일부 예에서, 방법은 질환의 아형을 구별하는 단계를 포함한다.
일부 예에서, 방법은 암의 아형을 구별하는 단계를 포함한다.
일부 예에서, 방법은 전립선암, 결장직장암, 유방암, 및 폐암의 아형을 구별하는 단계를 포함한다.
일부 예에서, 방법은 예를 들어 전립선 선암종 또는 소세포 신경 내분비 전립선암 환자들 중에서 전립선암 아형을 구별하는 단계를 포함한다.
일부 예에서, 방법은 암의 단계(예를 들어, I, II, III 및 IV기 암 중에서)를 구별하는 단계를 포함한다.
일부 예에서, 방법은 I기 및 II기 암을 III기 및 IV기 암과 구별하는 단계를 포함한다.
일부 예에서, 전사 인자 GRHL2, FOXA1, HOXB13, AR, 및 NKX3-1은 전립선 선암종 환자에서 증가된 접근성 점수 또는 개방 염색질 접근성과 관련된다.
일부 예에서, 전사 인자 GRHL2, FOXA1, HOXB13, AR, 및 NKX3-1의 개방 접근성은 전립선 선암종을 나타낸다.
일부 예에서, 전사 인자 REST, GRHL2, FOXA1, HOXB13, AR, 및 NKX3-1은 소세포 신경 내분비 전립선암 환자에서 감소된 또는 폐쇄된 염색질 접근성과 관련된다.
일부 예에서, 전사 인자 REST, GRHL2, GRHL3, FOXA1, FOXA2, GATA2, GATA3, HOXB13, AR, 및 NKX3-1의 감소된 접근성은 소세포 신경 내분비 전립선암을 나타낸다.
일부 예에서, 전사 인자 GLIS1, SOX2, 및 SOX11의 증가된 접근성은 소세포 신경 내분비 전립선암을 나타낸다.
또 다른 측면에서, 본 개시 내용은 적어도 하나의 컴퓨터 프로세서를 포함하는 컴퓨팅 장치, 실행 가능한 명령을 수행하도록 구성된 운영 체제, 메모리, 및 컴퓨팅 장치에 의해 실행 가능한 명령을 포함하여 대상체에서 질환의 존재 또는 부재를 검출하기 위한 컴퓨터 애플리케이션을 제공하는 컴퓨터 프로그램을 포함하는 시스템으로서, 컴퓨터 애플리케이션은 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드 세트를 획득하는 것으로 프로그래밍된 서열 모듈; 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 것으로 프로그래밍된 커버리지 모듈; 커버리지 패턴을 처리하여 신호를 제공하는 것으로 프로그래밍된 신호 모듈; 신호를 참조 신호로 처리하여 대상체에서 질환의 존재 또는 부재를 검출하는 것으로 프로그래밍된 검출 모듈로서, 신호와 참조 신호는 상이한 주파수를 갖는 것인 검출 모듈을 포함하는 것인 시스템을 제공한다.
또 다른 측면에서, 본 개시 내용은 하나 이상의 컴퓨터 프로세서에 의해 실행될 때, 대상체에서 질환의 존재 또는 부재를 검출하기 위한 방법을 구현하는 기계 실행 가능 코드를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 방법은 (a) 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드 세트를 제공하는 단계; (b) 상기 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 단계; (c) 커버리지 패턴을 처리하여 신호를 제공하는 단계; 및 (d) 신호를 참조 신호로 처리하여 상기 대상체에서 상기 질환의 상기 존재 또는 부재를 검출하는 단계로서, 신호와 참조 신호는 상이한 주파수를 갖는 것인 단계를 포함하는 것인 비일시적 컴퓨터 판독 가능 매체를 제공한다.
또 다른 측면에서, 본 개시 내용은 대상체에서 질환의 존재 또는 부재를 검출하기 위한 시스템으로서, 시스템은 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드 세트를 포함하는 데이터베이스; 및 데이터베이스에 작동 가능하게 결합된 하나 이상의 컴퓨터 프로세서를 포함하며, 하나 이상의 컴퓨터 프로세서는 (a) 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 것; (b) 커버리지 패턴을 처리하여 신호를 제공하는 것; 및 (d) 신호를 참조 신호로 처리하여 대상체에서 질환의 존재 또는 부재를 검출하는 것으로서, 신호와 참조 신호는 상이한 주파수를 갖는 것으로 개별적으로 또는 총체적으로 프로그래밍되는 것인 시스템을 제공한다.
또 다른 측면에서, 본 개시 내용은 대상체에서 질환의 진행 또는 완화를 모니터링하기 위한 컴퓨터 구현 방법으로서, (a) 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터 제1의 서열 리드 세트 및 1차 시기보다 늦은 2차 시기에 대상체로부터 추출된 DNA로부터 제2의 서열 리드 세트를 제공하는 단계; (b) 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 제2의 서열 리드 세트를 사용하여 전사 인자에 대한 제2 커버리지 패턴을 생성하는 단계; (c) 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 단계; (d) 제1 신호를 참조 신호로 처리하는 단계로서, 제1 신호와 참조 신호는 상이한 주파수를 갖는 것인 단계; (e) 제2 신호를 참조 신호로 처리하는 단계로서, 제2 신호와 참조 신호는 상이한 주파수를 갖는 것인 단계; 및 (f) 제1 신호 및 제2 신호를 참조 신호로 처리하는 것을 기반으로 하여, 대상체에서 질환의 진행 또는 완화를 모니터링하는 단계를 포함하는 방법을 제공한다.
일부 예에서, 적어도 2개, 또는 적어도 5개, 또는 적어도 10개, 또는 적어도 15개, 또는 적어도 20개, 또는 적어도 25개의 전사 인자 결합 부위에 대한 접근성 점수를 결정하고 질환 진행자와 비-진행자 사이, 복수의 질환 아형 사이, 복수의 질환 단계 사이, 또는 이들의 임의의 조합을 구별할 수 있는 분류기를 훈련하기 위한 기계 학습 모델에 입력한다.
일부 예에서, 적어도 2개, 또는 적어도 5개, 또는 적어도 10개, 또는 적어도 15개, 또는 적어도 20개, 또는 적어도 25개의 전사 인자 결합 부위에 대한 접근성 점수를 결정하고 질환 치료 반응자와 비-반응자 사이를 구별할 수 있는 분류기를 훈련하기 위한 기계 학습 모델에 입력한다.
일부 예에서, 제2 커버리지 패턴은 질환 과정 중에 종양의 표현형 변화를 나타낸다.
일부 예에서, 표현형 변화는 암의 안드로겐 의존성에서 안드로겐 독립적인 단계로의 변화이다.
일부 예에서, DNA는 무세포 DNA이다.
일부 예에서, 질환은 암이다.
일부 예에서, (b)는 제1의 서열 리드 세트 및 제2의 서열 리드 세트를 참조 서열에 정렬시켜 제1의 정렬된 서열 패턴 및 제2의 정렬된 서열 패턴을 각각 제공하는 단계, 전사 인자의 결합 부위에 상응하는 제1의 정렬된 서열 패턴 및 제2의 정렬된 서열 패턴의 영역을 선택하는 단계, 및 영역에서 제1의 정렬된 서열 패턴 및 제2의 정렬된 서열 패턴을 정규화하는 단계를 포함한다.
일부 예에서, (c)는 저주파 통과 필터를 사용하는 단계를 포함한다. 일부 예에서, (c)는 사비츠키-골레이 필터를 사용하는 단계를 포함한다.
일부 예에서, 대상체는 인간이다.
일부 예에서, 전사 인자는 암 특이적 전사 인자이다.
일부 예에서, 전사 인자는 GRH-L2, ASH-2, HOX-B13, EVX2, PU.1, Lyl-1, Spi-B, 및 FOXA1로 이루어진 군으로부터 선택된다.
일부 예에서, 전사 인자는 HNF-1a, HNF-4a, HNF-4g, EVX-2 및 DLX-2로 이루어진 군으로부터 선택된다.
일부 예에서, 방법은 (f)를 기반으로 하여 대상체에서 질환에 대한 치료 요법을 조정하는 단계를 추가로 포함한다.
또 다른 측면에서, 본 개시 내용은 적어도 하나의 컴퓨터 프로세서를 포함하는 컴퓨팅 장치, 실행 가능한 명령을 수행하도록 구성된 운영 체제, 메모리, 및 컴퓨팅 장치에 의해 실행 가능한 명령을 포함하여 대상체에서 질환의 진행 또는 완화를 모니터링하기 위한 컴퓨터 애플리케이션을 제공하는 컴퓨터 프로그램을 포함하는 시스템으로서, 컴퓨터 애플리케이션은 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터 제1의 서열 리드 세트 및 1차 시기보다 늦은 2차 시기에 대상체로부터 추출된 DNA로부터 제2의 서열 리드 세트를 획득하는 것으로 프로그래밍된 서열 모듈; 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 제2의 서열 리드 세트를 사용하여 전사 인자에 대한 제2 커버리지 패턴을 생성하는 것으로 프로그래밍된 커버리지 모듈; 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 것으로 프로그래밍된 신호 모듈; 제1 신호를 참조 신호로 처리하는 것으로 프로그래밍된 제1 프로세싱 모듈로서, 제1 신호와 참조 신호는 상이한 주파수를 갖는 것인 제1 프로세싱 모듈; 제2 신호를 참조 신호로 처리하는 것으로 프로그래밍된 제2 프로세싱 모듈로서, 제2 신호와 참조 신호는 상이한 주파수를 갖는 것인 제2 프로세싱 모듈; 및 제1 신호 및 제2 신호를 참조 신호로 처리하는 것을 기반으로 하여, 대상체에서 질환의 진행 또는 완화를 모니터링하는 것으로 프로그래밍된 검출 모듈을 포함하는 것인 시스템을 제공한다.
또 다른 측면에서, 본 개시 내용은 하나 이상의 컴퓨터 프로세서에 의해 실행될 때, 대상체에서 질환의 진행 또는 완화를 모니터링하기 위한 방법을 구현하는 기계 실행 가능 코드를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 방법은 (a) 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터 제1의 서열 리드 세트 및 1차 시기보다 늦은 2차 시기에 대상체로부터 추출된 DNA로부터 제2의 서열 리드 세트를 제공하는 단계; (b) 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 제2의 서열 리드 세트를 사용하여 전사 인자에 대한 제2 커버리지 패턴을 생성하는 단계; (c) 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 단계; (d) 제1 신호를 참조 신호로 처리하는 단계로서, 제1 신호와 참조 신호는 상이한 주파수를 갖는 단계; (e) 제2 신호를 참조 신호로 처리하는 단계로서, 제2 신호와 참조 신호는 상이한 주파수를 갖는 단계; 및 (f) 제1 신호 및 제2 신호를 참조 신호로 처리하는 것을 기반으로 하여, 대상체에서 질환의 진행 또는 완화를 모니터링하는 단계를 포함하는 것인 비일시적 컴퓨터 판독 가능 매체를 제공한다.
또 다른 측면에서, 본 개시 내용은 대상체에서 질환의 진행 또는 완화를 모니터링하기 위한 시스템으로서, 시스템은 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터 제1의 서열 리드 세트 및 1차 시기보다 늦은 2차 시기에 대상체로부터 추출된 DNA로부터 제2의 서열 리드 세트를 포함하는 데이터베이스; 및 데이터베이스에 작동 가능하게 결합된 하나 이상의 컴퓨터 프로세서를 포함하며, 하나 이상의 컴퓨터 프로세서는 (a) 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 제2의 서열 리드 세트를 사용하여 전사 인자에 대한 제2 커버리지 패턴을 생성하는 것; (b) 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 것; (c) 제1 신호를 참조 신호로 처리하는 것으로서, 제1 신호와 참조 신호는 상이한 주파수를 갖는 것; (d) 제2 신호를 참조 신호로 처리하는 것으로서, 제2 신호와 참조 신호는 상이한 주파수를 갖는 것; 및 (e) 제1 신호 및 제2 신호를 참조 신호로 처리하는 것을 기반으로 하여, 대상체에서 질환의 진행 또는 완화를 모니터링하는 것으로 개별적으로 또는 총체적으로 프로그래밍되는 것인 시스템을 제공한다.
또 다른 측면에서, 본 개시 내용은 대상체로부터의 핵산 샘플에서 전사 인자 결합 프로파일을 결정하는 시스템으로서, (a) 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드 세트를 분석하는 단계; (b) 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 단계; (c) 커버리지 패턴을 처리하여 신호를 제공하는 단계; 및 (d) 신호를 참조 신호로 처리하여 전사 인자 결합 프로파일을 결정하는 단계로서, 신호와 참조 신호는 상이한 주파수를 갖는 것인 단계로 구성된 프로세서를 포함하는 시스템을 제공한다.
일부 예에서, DNA는 무세포 DNA이다.
일부 예에서, (c)는 저주파 통과 필터를 사용하는 단계를 포함한다. 일부 예에서, (c)는 사비츠키-골레이 필터를 사용하는 단계를 포함한다.
일부 예에서, 대상체는 인간이다.
또 다른 측면에서, 본 개시 내용은 대상체에서 질환의 존재 또는 부재를 검출하기 위한 시스템으로서, (i) 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 단계; (ii) 커버리지 패턴을 처리하여 신호를 제공하는 단계로서, 신호는 참조 신호와 상이한 주파수를 갖는 것인 단계; (iii) 신호를 참조 신호로 처리하여 대상체에서 질환의 존재 또는 부재를 검출하는 단계로 구성된 프로세서를 포함하는 시스템을 제공한다.
일부 예에서, 본 개시 내용은 종양을 종양 아형 또는 종양 병기에 의해 분류하기 위한 시스템으로서, (i) 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터 제1의 서열 리드 세트 및 1차 시기보다 늦은 2차 시기에 대상체로부터 추출된 DNA로부터 제2의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴 및 제2의 서열 리드 세트를 사용하여 전사 인자에 대한 제2 커버리지 패턴을 생성하는 단계; (ii) 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 단계로서, 제1 신호 및 제2 신호는 참조 신호와 상이한 주파수를 갖는 것인 단계; 및 (iii) 제1 신호를 참조 신호로 처리하고 제2 신호를 참조 신호로 처리하여 대상체에서 질환의 진행 또는 완화를 모니터링하는 단계로 구성된 프로세서를 포함하는 시스템을 제공한다.
또 다른 측면에서, 본 개시 내용은 대상체에서 질환의 진행 또는 완화를 모니터링하기 위한 시스템으로서, (i) 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터 제1의 서열 리드 세트 및 1차 시기보다 늦은 2차 시기에 대상체로부터 추출된 DNA로부터 제2의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴 및 전사 인자에 대한 제2 커버리지 패턴을 생성하는 단계; (ii) 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 단계로서, 제1 신호 및 제2 신호는 참조 신호와 상이한 주파수를 갖는 것인 단계; 및 (iii) 제1 신호를 참조 신호로 처리하고 제2 신호를 참조 신호로 처리하여 대상체에서 질환의 진행 또는 완화를 모니터링하는 단계로 구성된 프로세서를 포함하는 시스템을 제공한다.
본 개시 내용의 또 다른 측면은 하나 이상의 컴퓨터 프로세서에 의해 실행될 때 상기 또는 본원의 다른 곳에서 임의의 방법을 구현하는 기계 실행 가능 코드를 포함하는 비일시적 컴퓨터 판독 가능 매체를 제공한다.
본 개시의 다른 측면은 하나 이상의 컴퓨터 프로세서 및 그에 결합된 컴퓨터 메모리를 포함하는 시스템을 제공한다. 컴퓨터 메모리는 하나 이상의 컴퓨터 프로세서에 의해 실행될 때 상기 또는 본원의 다른 곳에서 임의의 방법을 구현하는 기계 실행 가능 코드를 포함한다.
또 다른 측면에서, 본 개시 내용은 종양 특이적 TFBS 패턴을 결정하는 방법으로서, (a) 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터 제1의 서열 리드 세트 및 1차 시기보다 늦은 2차 시기에 대상체로부터 추출된 DNA로부터 제2의 서열 리드 세트를 제공하는 단계; (b) 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 제2의 서열 리드 세트를 사용하여 전사 인자에 대한 제2 커버리지 패턴을 생성하는 단계; (c) 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 단계; (d) 제1 신호를 참조 신호로 처리하는 단계로서, 제1 신호와 참조 신호는 상이한 주파수를 갖는 단계; (e) 제2 신호를 참조 신호로 처리하는 단계로서, 제2 신호와 참조 신호는 상이한 주파수를 갖는 단계; 및 (f) 제1 신호 및 제2 신호를 참조 신호로 처리하는 것을 기반으로 하여, 종양 특이적 TFBS 패턴을 결정하는 단계를 포함하는 방법을 제공한다.
또 다른 측면에서, 본 개시 내용은 적어도 하나의 컴퓨터 프로세서를 포함하는 컴퓨팅 장치, 실행 가능한 명령을 수행하도록 구성된 운영 체제, 메모리, 및 컴퓨팅 장치에 의해 실행 가능한 명령을 포함하여 종양 특이적 TFBS 패턴을 결정하기 위한 컴퓨터 애플리케이션을 제공하는 컴퓨터 프로그램을 포함하는 시스템으로서, 컴퓨터 애플리케이션은 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터 제1의 서열 리드 세트 및 1차 시기보다 늦은 2차 시기에 대상체로부터 추출된 DNA로부터 제2의 서열 리드 세트를 획득하는 것으로 프로그래밍된 서열 모듈; 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 제2의 서열 리드 세트를 사용하여 전사 인자에 대한 제2 커버리지 패턴을 생성하는 것으로 프로그래밍된 커버리지 모듈; 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 것으로 프로그래밍된 신호 모듈; 제1 신호를 참조 신호로 처리하는 것으로 프로그래밍된 제1 프로세싱 모듈로서, 제1 신호와 참조 신호는 상이한 주파수를 갖는 것인 제1 프로세싱 모듈; 제2 신호를 참조 신호로 처리하는 것으로 프로그래밍된 제2 프로세싱 모듈로서, 제2 신호와 참조 신호는 상이한 주파수를 갖는 것인 제2 프로세싱 모듈; 및 제1 신호 및 제2 신호를 참조 신호로 처리하는 것을 기반으로 하여, 종양 특이적 TFBS 패턴을 결정하는 것으로 프로그래밍된 검출 모듈을 포함하는 것인 시스템을 제공한다.
또 다른 측면에서, 본 개시 내용은 하나 이상의 컴퓨터 프로세서에 의해 실행될 때, 종양 특이적 TFBS 패턴을 결정하기 위한 방법을 구현하는 기계 실행 가능 코드를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 방법은 (a) 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터 제1의 서열 리드 세트 및 1차 시기보다 늦은 2차 시기에 대상체로부터 추출된 DNA로부터 제2의 서열 리드 세트를 제공하는 단계; (b) 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 제2의 서열 리드 세트를 사용하여 전사 인자에 대한 제2 커버리지 패턴을 생성하는 단계; (c) 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 단계; (d) 제1 신호를 참조 신호로 처리하는 단계로서, 제1 신호와 참조 신호는 상이한 주파수를 갖는 것인 단계; (e) 제2 신호를 참조 신호로 처리하는 단계로서, 제2 신호와 참조 신호는 상이한 주파수를 갖는 것인 단계; 및 (f) 제1 신호 및 제2 신호를 참조 신호로 처리하는 것을 기반으로 하여, 종양 특이적 TFBS 패턴을 결정하는 단계를 포함하는 것인 비일시적 컴퓨터 판독 가능 매체를 제공한다.
또 다른 측면에서, 본 개시 내용은 대상체에서 질환의 진행 또는 완화를 모니터링하기 위한 시스템으로서, 시스템은 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터 제1의 서열 리드 세트 및 1차 시기보다 늦은 2차 시기에 대상체로부터 추출된 DNA로부터 제2의 서열 리드 세트를 포함하는 데이터베이스; 및 데이터베이스에 작동 가능하게 결합된 하나 이상의 컴퓨터 프로세서를 포함하며, 하나 이상의 컴퓨터 프로세서는 (a) 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 제2의 서열 리드 세트를 사용하여 전사 인자에 대한 제2 커버리지 패턴을 생성하는 것; (b) 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 제2커버리지 패턴을 처리하여 제2 신호를 제공하는 것; (c) 제1 신호를 참조 신호로 처리하는 것으로서, 제1 신호와 참조 신호는 상이한 주파수를 갖는 것; (d) 제2 신호를 참조 신호로 처리하는 것으로서, 제2 신호와 참조 신호는 상이한 주파수를 갖는 것; 및 (e) 제1 신호 및 제2 신호를 참조 신호로 처리하는 것을 기반으로 하여, 종양 특이적 TFBS 패턴을 결정하도록 하는 것으로 개별적으로 또는 총체적으로 프로그래밍되는 것인 시스템을 제공한다.
본 개시 내용의 또 다른 측면은 하나 이상의 컴퓨터 프로세서에 의해 실행될 때 상기 또는 본원의 다른 곳에서 임의의 방법을 구현하는 기계 실행 가능 코드를 포함하는 비일시적 컴퓨터 판독 가능 매체를 제공한다.
본 개시의 다른 측면은 하나 이상의 컴퓨터 프로세서 및 그에 결합된 컴퓨터 메모리를 포함하는 시스템을 제공한다. 컴퓨터 메모리는 하나 이상의 컴퓨터 프로세서에 의해 실행될 때 상기 또는 본원의 다른 곳에서 임의의 방법을 구현하는 기계 실행 가능 코드를 포함한다.
본 개시 내용의 추가 측면 및 이점은 본 개시 내용의 단지 예시적인 예가 도시되고 설명되는 다음의 상세한 설명으로부터 당업자에게 쉽게 명백해질 것이다. 알 수 있는 바와 같이, 본 개시 내용은 기타 상이한 예들이 가능하고, 그 몇몇 세부 사항들은 모두 본 개시 내용으로부터 벗어나지 않고 다양한 명백한 측면에서 변형될 수 있다. 따라서, 도면 및 설명은 제한적인 것이 아니라 사실상 예시적인 것으로 간주해야 한다.
참고의 포함
본 명세서에 언급된 모든 간행물, 특허 및 특허 출원은 각각의 개별 간행물, 특허, 또는 특허 출원이 참고로 포함되는 것으로 구체적이고 개별적으로 나타낸 것과 동일한 정도로 본원에 참고로 포함된다. 참고로 포함된 공보 및 특허 또는 특허 출원이 명세서에 포함된 개시 내용과 모순될 경우, 명세서는 임의의 그러한 모순되는 자료를 대체하고/거나 그에 우선하도록 의도된다.
본 발명의 특징은 첨부된 청구 범위에서 구체적으로 제시된다. 본 방법 및 시스템의 특징 및 이점은 방법 및 시스템의 원리가 이용되는 예시적인 실시예를 제시하는 다음의 상세한 설명과 첨부 도면(또한, "도" 및 "도면")을 참조하여 더 잘 이해될 수 있으며, 그 중:
[도 1]은 대상체(예를 들어, 환자) 데이터, 생물학적 데이터, 생물학적 서열, 참조 서열, 전사 인자(TF) 결합 부위(TFBS) 데이터, 또는 z-점수 또는 TFBS 접근성 점수와 같은 TFBS 피처(feature)를 저장, 처리, 확인, 또는 해석하는 것과 같은 본 개시 내용의 방법을 수행하도록 프로그래밍되거나 달리 구성된 컴퓨터 시스템을 보여준다.
[도 2a-2e]는 무세포 데옥시리보핵산(cfDNA)으로부터 TF-뉴클레오솜 상호 작용의 확립을 보여준다. [도 2a]는 고도로 조직화된, 예를 들어 위상화된 뉴클레오솜이 있는 영역이 진동하는 리드 깊이 패턴을 생성함을 보여주며, 여기서 리드 피크는 다이애드, 예를 들어 표준 뉴클레오솜의 중간점의 위치를 나타낸다. 덜 정의된 뉴클레오솜의 배치는 다소 평평한 커버리지 프로파일을 생성한다. [도 2b]는 676개의 TF에 대한 TFBS 데이터가 GTRD에서 검색되었고 알려진 또는 가능성 있는 인간 TF의 큐레이트된 목록과 정렬되었음을 보여준다. 각각이 증가된 엄격도로 세 가지 상이한 계산을 수행하였다. [도 2c]는 CCCTC 결합 인자(CTCF)의 커버리지 패턴이 분석된 모든 cfDNA 걸쳐 유사함을 보여주며, 이는 혈액(GM12878) 및 상피 조직, 예를 들어, 전립선(LNCaP) 및 결장(HCT116))에서 거의 동일한 접근성을 보여주는 DNase 과민성 데이터와 일치한다. 이 패널과 각각의 후속 패널에서, 건강한 대조군으로부터 계산된 프로파일은 회색으로 표시되는 반면, 환자 유래 프로파일은 나타낸 색상으로 표시된다. [도 2d]는 TF(PU.1, LYL1, SPIB)의 조혈 계통 특이성이 DNA 과민성 분석에 의해 확인되었으며 그 진폭이 암 환자의 혈장에서 건강한 대조군에 비해 감소됨을 보여준다. 대조적으로, 상피 TF GRHL2의 진폭은 암 환자의 cfDNA에서 증가한다. [도 2e]는 TF FOXA1에 대한 접근성 플롯 및 DNase 과민성을 보여주며, 이는 호르몬 의존성 암, 예를 들어 전립선암 및 유방암 환자에서 우선적인 진폭 변화를 보여준다.
[도 3a-3f]는 TFBS의 특성화를 위한 접근성 점수를 보여준다. [도 3a]는 TF 접근성이 결정되는 방법을 보여준다. TF 접근성을 측정하기 위해, 관찰된 원시 커버리지 신호(왼쪽 패널의 보라색과 오른쪽 패널의 검은색)를 사비츠키-골레이 필터링에 의해 상이한 창 크기를 사용하는 저주파 신호(빨간색)와 고주파 신호(파란색)로 분할하였다. 오른쪽 패널은 이 세 가지 신호의 오버레이를 보여준다. 고주파 신호는 접근성을 위한 척도로서 사용된다. [도 3b]는 결합 부위가 적은 TF가 더 낮은 평균화로 인해 노이즈가 많기 때문에 고주파 신호의 범위(Y축)가 TFBS의 수(X축)에 정밀하게 의존한다는 것을 보여준다. 이 편향을 보정하기 위해 LOESS 모델을 피팅하였다(파란색). [도 3c]는 GRHL2의 웨이블렛 분석: GRHL2의 TFBS를 둘러싼 영역 주변의 주기의 히트맵(왼쪽 패널)을 보여준다. 색상 코드는 신호 전력 분포의 분위수를 나타낸다. 전사 인자 GRHL2의 주기의 평균 전력(오른쪽 패널). [도 3d]는 웨이블렛 분석 결과 전사 인자 GRHL2의 추세가 제거된 원본(검은색) 및 재구성된(빨간색) 뉴클레오솜 커버리지 프로파일을 보여준다. [도 3e]는 시험된 모든 절차(왼쪽:>50%-TFBS, 사비츠키-골레이 필터링, 가운데: 전력의 합, 웨이블렛 분석, 오른쪽: 1,000-msTFBS, 사비츠키-골레이 필터링)가 혈액에서 발현되지만(10 FPKM 초과), 발현 징후가 없거나 낮은 유전자(<0.1 FPKM)에서는 발현되지 않는 전사 인자의 접근성의 척도로서 증가된 값을 보였음을 나타낸다. [도 3f]는 ENCODE 프로젝트의 GM12878 DNase 데이터에서 평균 DNase 과민성 커버리지가 2 초과인 전사 인자가 수행된 세 가지 분석 모두에서 평균 커버리지가 <1인 인자보다 조정된 범위가 더 높고 전력의 합이 더 높음을 보여준다(왼쪽: >50%-TFBS, 사비츠키-골레이 필터링; 가운데: 전력의 합, 웨이블렛 분석; 오른쪽: 1,000-msTFBS, 사비츠키-골레이 필터링).
[도 4a-4f]는 전립선 계통 특이적 TF, 이들의 가소성, 및 종양 분류에 대한 적합성을 보여준다. [도 4a]는 전립선 선암종이 AR 의존적이며 따라서 빈번하게 PSA(전립선 특이적 항원) 수준이 증가하고 NSE(뉴런 특이적 에놀라아제) 값이 정상임을 보여준다. 대조적으로 t-SCNC는 더 이상 AR에 의존적이지 않으며 일반적으로 PSA가 낮고 NSE 수준이 증가한다. 선암종에서 t-SCNC로의 전환 분화 과정에 관련된 여러 TF가 확인되었으며 화살표로 표시된다. [도 4b]는 전립선암 세포주 LNCaP의 전립선 계통 특이적 호메오박스 TF HOXB13의 접근성 프로파일 및 각각의 DNase 과민성 분석을 보여준다. 이 패널과 후속 패널에서, 건강한 대조군으로부터 계산된 프로파일은 회색으로 표시되는 반면, 환자에서 유래된 프로파일은 표시된 색상으로 나타낸다. [도 4c]는 전립선 상피 성숙 과정에서 발현되는 최초의 유전자 중 하나인 NKX3-1의 접근성 패턴 및 DNA 과민성 분석을 보여준다. [도 4d]는 GTRD의 모든 AR 결합 부위에 대한 AR 접근성, 그리고 또한 종양(T-ARBS)에서 결합 강도가 더 높은 AR 결합 부위에 대한 AR 접근성, 및 정상 샘플(정상 AR 결합 부위, N-ARBS)에서 결합 강도가 높은 부위에 대한 AR 접근성을 보여준다(Pomerantz et al., 2015). AR의 잘 확립된 계통 특이성은 DNA 과민성 분석에 의해 확인되었다. [도 4e]는 호르몬 의존성(AR, FOXA1), 조직 정체 특이성(HOXB13, NKX3-1), 및 신경 내분비 재프로그래밍(REST, N-MYC) TF에 대해 환자 P148의 2개의 혈장 샘플로부터 확립된, 선암종에서 신경 내분비 암종으로의 전환 분화 과정에서 커버리지 패턴 변화를 보여준다. [도 4f]는 신경 내분비 전립선암 환자의 4개의 혈장 샘플로부터 [도 4a]에서와 동일한 TF의 분석을 보여준다.
[도 5]는 암 환자의 혈장 샘플에서 체세포 복제수 변이(SCNA)를 보여준다. 4명의 환자(C2, P40, P147, 및 P148)로부터 8개의 혈장 샘플의 전체 게놈 시퀀싱 후 SCNA를 확인하였다.
[도 6a-6e]는 신뢰할 수 있는 결합 부위 정보를 갖는 676개의 고 신뢰성 TF에 대한 TF-뉴클레오솜 상호 작용 지도를 보여준다. [도 6a]는 건강한 대조군의 24개의 cfDNA 샘플로부터 확립된 2개의 대표적인 TF, CREM 및 GATAD1에 대한 TFBS-뉴클레오솜 커버리지 프로파일을 보여주며, 각각은 개별 파란색 선으로 나타낸다. ENCODE로부터 얻은 림프모구성 세포주 GM12878의 MNase-seq 커버리지 패턴은 빨간색으로 나타낸다. 추가 MNase 플롯은 [도 17]에 나타낸다. [도 6b]는 각각의 주석이 달린 피처(X축)에 대한 단편 중간점에서 부위 중심까지의 거리의 함수로서 각 시퀀싱 리드의 길이(Y축)의 플롯으로 표시된 CTCF 결합 부위 주변의 단편 크기의 히트맵을 보여준다. [도 6c]는 개별 CTCF 결합 부위 및 주변 영역의 히트맵을 보여준다. 영역은 TFBS 주변의 중앙 50개의 염기쌍(bp) 내의 커버리지에 따라 정렬된다. TFBS를 중심으로 한 1 킬로베이스(kb) 영역 내의 cfDNA 단편의 공간 밀도를 계산하고 순위를 매겼다. [도 6d]는 TFBS 사이의 중첩 행렬을 보여준다(왼쪽 패널: 전체 676개의 GRTD TF, 오른쪽 패널: 1,000-msTFBS를 가진 505개의 TF). 각 포인트는 결합 부위 정의에서 (약 50 bp 이내의) 중첩 백분율을 나타낸다. [도 6e]는 모노뉴클레오솜 DNA가 아닌 고분자량 DNA를 사용한 TFBS 분석이 혈장 DNA(녹색)와 대조적으로 균일한 비진동 패턴(파란색)을 생성함을 보여준다.
[도 7]은 다양한 TF에 대한 TF-뉴클레오솜 상호 작용 지도를 보여준다. 전사 인자 결합 부위 주변의 cfDNA 커버리지 프로파일과 MNase-seq 사이의 추가 비교를 나타낸다.
[도 8a-8e]는 TFBS의 모양을 보여준다. [도 8a]는 TSS 내부 및 외부의 TFBS에 대해 개별적으로 수행된 계산 후 TF AP-4 및 BCL-3에 대한 커버리지 프로파일을 보여준다. [도 8b]는 TF ATF1, CREB, CREM, 및 ATF-3에 대한 TFBS의 분석이 GTRD의 모든 조직이 포함되었는 지의 여부 또는 더 엄격하게는 최대 샘플 수의 50% 초과(>50%-TFBS)가 지지하는 피크만 포함되었는 지의 여부에 따라 균일한 간격 또는 TSS 유사 커버리지 패턴을 생성할 수 있음을 보여준다. [도 8c]는 전체 및 >50%-TFBS(상부 패널) 및 1,000-msTFBS(하부 패널)에 대해 계산된 TF-뉴클레오솜 프로파일의 예를 보여주며, 이는 cfDNA에서 상이한 TF의 가변 뉴클레오솜 패턴을 나타낸다. [도 8d]는 TFBS 폭의 측정값이 다양한 TFBS 사이에 상당한 차이를 나타냄을 보여준다. [도 8e]는 CpG 아일랜드(왼쪽 패널) 및 TSS(오른쪽 패널)에 대한 중첩 백분율을 나타내는 상자 그림을 보여준다.
[도 9]는 풀링된 얕은 커버리지 cfDNA의 분석을 보여준다. 상피 TF GRHL2 및 조혈 TF(PU.1, LYL1, 및 SPIB)의 전립선(n=69), 결장(n=100) 및 유방암(n=60) 암 사례에서 풀링된 cfDNA 샘플에 대한 접근성을 나타낸다. 접근성은 계통 특이적 TF AR, HOXB13, 및 NKX3-1의 전립선암 cfDNA 풀 내에서도 나타난다.
[도 10a-10b]는 선암종에서 t-SCNC로의 전환 분화에 관여하는 전사 인자를 보여준다. [도 10a]는 환자 P148의 혈장 샘플 P148_1 및 P148_3에서 GRHL2 접근성을 보여준다. [도 10b]는 환자 P148의 2개의 혈장 샘플에서 GLIS1의 분석을 보여준다.
[도 11]은 환자 P148의 혈장 샘플 P148_1 및 P148_3의 다운샘플링을 보여준다. 혈장 샘플 P148_1(819,607,690 리드) 및 P148_3(768,763,081 리드)을 약 5천만 리드로 다운샘플링하고 1,000-msTFBS(왼쪽 열) 및 전체 및 > 50%-TFBS(오른쪽 열)에 대해 분석하였다. 분석은 우선적으로 TFBS 수가 적은 TF가 증가된 노이즈의 영향을 받는다는 것을 나타낸다.
[도 12]는 연속 분석에서 TFBS 접근성의 비교를 보여준다. 환자 C2, P147, P40, 및 P148의 연속 샘플 사이의 상관관계 플롯. X축은 첫 번째 혈장 샘플을 나타내고, Y축은 두 번째 혈장 샘플을 나타낸다.
[도 13a-13b]는 TF-뉴클레오솜 상호 작용의 확립을 보여준다. [도 13a]는 4개의 TF, 예를 들어 SP1 및 SP2에 대한 TFBS-뉴클레오솜 프로파일을 보여주며, 이는 대부분 게놈의 공통 부위에 결합하고 게다가 NF-YA 및 NF-YB와 공동 결합한다. [도 13b]는 조혈 세포 계통 특이적 TF PU.1, LYL1, 및 SPIB, 및 상피 세포 특이적 TF GRHL2에 대해 나타낸, 혈장 DNA로부터 확립된 평균 뉴클레오솜 점유 프로파일로서 도시된 TF-뉴클레오솜 상호 작용을 보여준다. 상이한 진폭은 조혈 및 상피 세포로부터 순환으로 방출된 DNA의 상이한 기여를 반영할 수 있다.
[도 14a-14b]는 CTCF가 상이한 TFBS의 특성화를 위한 특별한 예임을 입증하고 TFBS의 특성화를 위한 접근성 점수를 입증한다. [도 14a]는 TAD 또는 TSS와 관련하여 CTCF의 다양한 결합 부위를 예시한다. CTCF의 커버리지 패턴은 전체 GTRD 데이터 세트(왼쪽 패널) 및 오직 분석된 최대 샘플 수의 50% 초과가 지지하는 피크(오른쪽 패널)에 대해 TAD 경계와 중첩하는(빨간색) 또는 TAD 경계 외부(주황색) CTCF 부위, TSS에 근위(예를 들어, 약 2 kbp 이내, 녹색) 또는 원위(2 kbp 초과, 파란색) CTCF 부위, 및 극보존된 CTCF 부위(검은색)로 분할된다. [도 14b]는 패턴의 가변성을 보여주는 TF-뉴클레오솜 프로파일을 보여준다.
[도 15]는 종양 유전자 c-Jun(상부 패널) 및 JunD(하부 패널)가 CRC 환자 C2에서만 증가된 접근성을 보였고 상대적인 결장 특이도는 DNA 과민성 분석에 의해 확인되었음을 보여준다.
[도 16a-16c]는 전립선암의 전환 분화 동안 TF의 변화하는 접근성을 보여준다. 특히, [도 16a-16c]는 샘플 P148에서 신경 내분비 분화 후 커버리지 패턴 변화를 보여준다. [도 16a]는 GTRD에 의해 정의된 부위에서 안드로겐 수용체 결합 부위 및 종양 특이적 AR 결합 부위(포메란츠(Pomerantz et al.)에 의해 정의됨)에서 뉴클레오솜 위상이 현저하게 변화함을 보여준다. [도 16b]는 뉴클레오솜 위상이 또한 AR 축의 다른 전사 인자에서 크게 감소됨을 보여준다. 위상은 샘플 1에서 두드러지지만 대부분 샘플 3에서 사라진다. [도 16c]는 신경 발생에서 역할을 하는 억제 인자(ZNF644, REST)가 샘플 3에서 크게 비활성화되었음을 보여준다.
[도 17]은 신뢰할 수 있는 결합 부위 정보를 갖는 676개의 고 신뢰성 TF에 대한 TF-뉴클레오솜 상호 작용 지도를 보여준다. TF-뉴클레오솜 프로파일은 접근성 점수와 TFBS 수에 따라 분류된다.
[도 18a-18b]는 순차 중복체 표현형(Tandem Duplicator Phenotype)이 있는 4개의 cfDNA 샘플(P21_2, P111_1, P111_4, 및 P166_1) 및 염색체 10에 염색체 파열이 있는 1건(P143_3)을 포함하는 순차 중복체 표현형 또는 염색체 파열이 있는 전립선암 사례의 분석을 보여준다. 상피 TF FOXA1, GRHL1, 및 GRHL2, 및 전립선 계통 특이적 TF AR, HOXB13, 및 NKX3-1의 접근성.
[도 19]는 P40의 혈장 샘플에 대한 AR 결합 부위의 분석을 보여준다. 이 전립선암 환자는 ADT 치료를 받았으며 샘플 P40_1과 P40_2 사이에 높은 수준의 AR 증폭을 발생하였다.
[도 20]은 후성 유전적 조절 영역이 뉴클레오솜 배치에 어떻게 영향을 미치는지 보여주는 플롯을 보여준다. 히스톤 변형 및 인핸서가 예시된다.
[도 21]은 선택된 TF의 뉴클레오솜 배치를 보여준다.
[도 22]는 선택된 TF에 대한 커버리지 패턴을 보여준다.
[도 23]은 서로 다른 TF의 중첩을 보여준다. 이러한 중첩 값은 [도 2c]의 히트맵에 해당한다.
[도 24]는 TFBS 크기의 영향을 보여준다.
[도 25]는 24명의 건강한 개인의 샘플에 대해 REST 및 KLF16에 대한 뉴클레오솜 패턴을 보여준다. 각 선은 서로 다른 개인을 나타낸다. 24명의 건강한 개인에서, 패턴은 혈액 세포에서 활성인 전사 인자에 대해 동일한 설정에서 거의 동일하게 나타난다.
[도 26a-26c]는 말기 암 샘플에 대해 선택된 TF에 대한 뉴클레오솜 배치를 보여준다. CTCF 패턴은 모든 샘플에서 비슷하게 보인다. PU.1, Lyl-1, 및 Spi-B를 포함한 혈액 특이적 TF의 활성은 암 샘플에서 감소한다. GRH-L2(상피 마커), ASH-2, 및 HOX-B13(안드로겐 수용체 축의 전립선암 마커), 및 EVX2(결장암 마커)를 포함한 암 특이적 TF가 더 활성적이다.
[도 27]은 본원에 제공된 방법 및 시스템에서 사용될 수 있는 TF 목록을 포함한다.
[도 28a-28b]는 본원에 제공된 방법 및 시스템에서 사용될 수 있는 TF를 포함한다. [도 28a]는 300 bp 초과의 결합 부위를 갖는 TF를 포함하는 반면, [도 28b]는 디-뉴클레오솜 크기(312 내지 352 bp)에 가까운 결합 부위를 갖는 TF를 포함한다.
[도 29a-29e]는 암 환자의 혈장 샘플에서 접근성이 변경된 전사 인자의 확인을 제공한다. [도 29a]는 건강한 기증자(NPH001)의 혈장 샘플의 TFBS 분석을 제공한다. 각 포인트는 TF를 나타내고, y축은 접근성 값을 표시하고, x축은 정상 대조군 샘플과의 접근성 편차의 척도로서 전체 z-점수를 나타낸다. 건강한 기증자의 샘플에서 (나머지 모든 건강한 기증자와 비교하여) 몇 개의 TF만이 ± 3의 z-점수를 초과했으며(회색 점선) ± 5 z-점수(빨간색 선) 임계값을 초과한 TF는 없었다. [도 29b]는 전립선암 환자(P40)에서 추출한 혈장 샘플을 사용한다는 것을 제외하고는 [도 29a]에서와 같이 전체 z-점수 플롯을 제공한다. [도 29c]는 혈장 샘플 C2_6에 대해 [도 29a]에서와 같이 전체 z-점수 플롯을 제공한다. [도 29d]는 TF EVX2에 대한 건강한 대조군의 혈장 DNA(회색 프로파일)와 결장암 환자 C2에서 유래한 2개의 혈장 샘플(파란색 및 빨간색)의 뉴클레오솜 위치 프로파일을 제공한다. [도 29e]는 병합된 유방암, 전립선암, 및 결장암 풀에 대한 전체 z-점수 플롯의 막대 차트를 제공한다. 왼쪽 패널은 적어도 하나의 종양 개체에서 접근성이 증가된 TF를 표시한다. 오른쪽 패널은 조혈 관련 TF의 접근성을 요약하였다.
[도 30a-30b]는 TF 기반 혈장 분해 한계 및 조기 암 검출을 보여주는 그래프를 제공한다. [도 30a]는 종양 분율을 기준으로 한 COAD 코호트의 서브샘플에서 선택된 TF에 대한 접근성의 비교를 보여주는 그래프를 제공한다. [도 30b]는 각각 I기 (왼쪽 패널) 및 II기(오른쪽 패널)의 결장암 코호트의 샘플에 대해 전체 504개의 TF로 로지스틱 회귀를 보여주는 그래프를 제공한다. 제시된 모든 결과는 교차 검증된 테스트 세트 값이다.
본 발명의 다양한 실시 양태가 본원에 제시되고 기술되었지만, 이러한 실시 양태는 단지 예로서 제공된다는 것은 당업자에게 명백할 것이다. 당업자는 본 발명에서 벗어나지 않고 다양한 변이, 변화 및 대체를 생각해 낼 수 있다. 본원에 기술된 본 발명의 실시 양태에 대한 다양한 대안이 사용될 수 있음을 이해해야 한다.
값이 범위로서 기술되는 경우, 이러한 개시는 이러한 범위 내의 가능한 모든 부분 범위의 개시뿐만 아니라, 구체적인 수치 또는 구체적인 부분 범위가 분명히 명시되는 지의 여부와 관계없이 이러한 범위에 속하는 구체적인 수치를 포함하는 것으로 이해될 것이다.
본원에 사용되는 바와 같이, 용어 "접근성 점수"는 일반적으로 각 전사 인자(TF) 결합 부위의 접근성에 대한 척도를 지칭한다. 전사 인자 결합은 그 표적 인핸서 그 자체를 반드시 활성화하지 않고서도 그들을 개방하거나 "프라이밍"할 수 있기 때문에, 순위 값을 "접근성 점수"라고 한다. 접근성 점수는 동일한 사람 또는 상이한 개인의 연속 분석에서 TFBS의 접근성을 객관적으로 비교하는 데 사용될 수 있다. 이 점수는 임상 진단, 암 검출 및 치료 모니터링에서 cfDNA를 사용하는 데 특별한 유용성을 갖춘 TFBS 접근성에 대한 강력한 평가법을 제공한다.
본원에 사용되는 바와 같이, 용어 "정렬된 서열 패턴"은 일반적으로 참조 게놈에 대한 정렬 후 서열 리드의 공간적 패턴을 지칭한다.
본원에 사용되는 바와 같이, "순환하는 유리 DNA" 또는 "무세포 DNA"(cfDNA)는 일반적으로 1948년에 인간 혈장에서 처음 검출된 데옥시리보핵산(DNA)을 지칭한다(Mandel, P. Metais, P., CR Acad. Sci. Paris, 142, 241-243 (1948)). 그 이후로 여러 분야에서 질환과의 연관성이 확립되었다(Tong, Y.K. Lo, Y.M., Clin Chim Acta, 363, 187-196 (2006)). 연구는 혈액에서 순환하는 핵산의 대부분이 괴사 또는 자멸 세포에서 발생하고(Giacona, M.B., et al., Pancreas, 17, 89-97 (1998)) 암과 같은 질환에서 아폽토시스로 인해 크게 상승된 수준의 핵산이 관찰된다는 것을 보여준다(Giacona, M.B., et al., Pancreas, 17, 89-97 (1998); Fournie, G.J., et al., Cancer Lett, 91, 221- 227 (1995)). 특히, 순환하는 DNA가 종양 유전자의 돌연변이, 미세 위성 변형을 포함하여 질환의 특징적인 징후를 나타내는 암의 경우, 그리고 특정 암의 경우, 혈장의 바이러스 게놈 서열, DNA 또는 RNA가 질환에 대한 잠재적인 바이오 마커로 점점 더 연구되고 있다(16266-16271 (2008)).
무세포 분획은 혈청 또는 혈장일 수 있다. 본원에 사용되는 바와 같이, 생물학적 샘플의 "무세포 분획"이라는 용어는 일반적으로 세포가 실질적으로 없는 생물학적 샘플의 분획을 지칭한다. 본원에 사용되는 바와 같이, 용어 "실질적으로 세포가 없는"은 일반적으로 mL당 약 20,000개 미만의 세포, mL당 약 2,000개 미만의 세포, mL당 약 200개 미만의 세포, 또는 mL당 20개 미만의 세포를 포함하는 생물학적 샘플로부터의 제제를 지칭한다. 게놈 DNA는 무세포 샘플로부터 제외되지 않을 수 있으며 전형적으로 샘플에 존재하는 핵산의 약 50% 내지 약 90%를 포함한다.
본원에 사용되는 바와 같이, 용어 "커버리지 패턴"은 일반적으로 참조 게놈과 정렬 후 시퀀싱 리드의 공간적 배열을 지칭한다. 커버리지 패턴은 차세대 시퀀싱 방법의 커버리지 범위와 깊이를 확인한다.
본원에 사용되는 바와 같이, 용어 "로부터 유래된"은 일반적으로 기원 또는 공급원을 지칭하고, 자연 발생, 재조합, 정제되지 않은 또는 정제된 분자를 포함할 수 있다. 원래 핵산에서 유래된 핵산은 원래 핵산을 부분적으로 또는 전체적으로 포함할 수 있으며, 원래 핵산의 단편 또는 변이체일 수 있다. 생물학적 샘플로부터 유래된 핵산은 해당 샘플로부터 정제될 수 있다.
본원에 사용되는 바와 같이, 상태 또는 결과를 "진단하다" 또는 "진단"이라는 용어는 일반적으로 상태 또는 결과를 예측 또는 진단하는 것, 및 상태 또는 결과에 대한 소인을 결정하는 것, 대상체(예를 들어, 환자)의 치료를 모니터링하는 것, 대상체(예를 들어, 환자)의 치료 반응을 진단하는 것, 상태 또는 결과, 진행 및 특정 치료에 대한 반응의 예후를 지칭한다.
본원에 사용되는 바와 같이, 용어 "핵산"은 일반적으로 2개 이상의 뉴클레오티드를 포함하는 폴리뉴클레오티드를 지칭한다. 이는 DNA 또는 RNA일 수 있다. 핵산은 데옥시리보뉴클레오티드(dNTP) 또는 리보뉴클레오티드(rNTP), 또는 이들의 유사체인 임의의 길이의 뉴클레오티드의 중합체 형태일 수 있다. 핵산은 임의의 3차원 구조를 가질 수 있으며, 공지된 또는 비공지된 임의의 기능을 수행할 수 있다. 핵산의 비제한적 예에는 데옥시리보핵산(DNA), 리보핵산(RNA), 유전자 또는 유전자 단편의 코딩 또는 비코딩 영역, 연관 분석에서 정의된 유전자 좌(들), 엑손, 인트론, 전령 RNA(mRNA), 전달 RNA, 리보솜 RNA, 짧은 간섭 RNA(siRNA), 짧은 헤어핀 RNA(shRNA), 마이크로-RNA(miRNA), 리보자임, cDNA, 재조합 핵산, 분지형 핵산, 플라스미드, 벡터, 임의 서열의 단리된 DNA, 임의 서열의 단리된 RNA, 핵산 프로브, 및 프라이머가 포함된다. 핵산은 메틸화된 뉴클레오티드 및 뉴클레오티드 유사체와 같은 하나 이상의 변형된 뉴클레오티드를 포함할 수 있다. 존재한다면, 뉴클레오티드 구조에 대한 변형은 핵산의 조립 전 또는 후에 이루어질 수 있다. 핵산의 뉴클레오티드 서열은 비-뉴클레오티드 성분에 의해 비연속적일 수 있다. 예를 들어 리포터 물질과의 접합 또는 결합에 의해, 핵산은 중합 후 추가로 변형될 수 있다. "변이체" 핵산은 적어도 하나의 뉴클레오티드가 변형, 예를 들어 각각 결실, 삽입, 또는 대체된 것을 제외하고는 원래의 핵산과 동일한 뉴클레오티드 서열을 갖는 폴리뉴클레오티드이다. 변이체는 원래 핵산의 뉴클레오티드 서열과 적어도 약 80%, 90%, 95%, 또는 99% 동일성을 갖는 뉴클레오티드 서열을 가질 수 있다.
본원에 사용되는 바와 같이, 용어 "표적 핵산"은 일반적으로 그 존재, 양, 및/또는 서열, 또는 이들 중 하나 이상에서 변화가 결정되기를 원하는 뉴클레오티드 서열을 갖는 핵산 분자의 출발 집단에 있는 핵산 분자를 지칭한다. 표적 핵산은 DNA, RNA, 및 이들의 유사체를 포함한 임의의 유형의 핵산일 수 있다. 본원에서 사용되는 바와 같이, "표적 리보핵산(RNA)"는 일반적으로 RNA인 표적 핵산을 지칭한다. 본원에서 사용되는 바와 같이, "표적 데옥시리보핵산(DNA)"은 일반적으로 DNA인 표적 핵산을 지칭한다.
본원에 사용되는 바와 같이, 용어 "증폭하는 것" 및 "증폭"은 일반적으로 핵산 분자의 크기 또는 양을 증가시키는 것을 지칭한다. 핵산 분자는 단일 가닥 또는 이중 가닥일 수 있다. 증폭은 핵산 분자의 하나 이상의 복제본 또는 "증폭된 생성물"을 생성하는 것을 포함할 수 있다. 증폭은 예를 들어 신장(예를 들어, 프라이머 신장) 또는 결찰에 의해 수행될 수 있다. 증폭은 단일 가닥 핵산 분자에 상보적인 가닥을 생성하고 일부 경우 가닥의 하나 이상의 복제본 및/또는 단일 가닥 핵산 분자를 생성하기 위해 프라이머 신장 반응을 수행하는 것을 포함할 수 있다. 용어 "DNA 증폭"은 일반적으로 DNA 분자의 하나 이상의 복제본 또는 "증폭된 DNA 생성물"을 생성하는 것을 의미한다. 용어 "역전사 증폭"은 일반적으로 역전사 효소의 작용을 통해 리보핵산(RNA) 주형으로부터 데옥시리보핵산(DNA)의 생성을 지칭한다.
용어 "전사 인자"는 일반적으로 특정 DNA 서열에 결합함으로써 DNA로부터 전령 RNA로의 유전 정보의 전사 속도를 제어하는 단백질을 지칭한다. 전사 인자는 일반적으로 표적 유전자의 5' 상류 영역에 위치하여 유전자 전사 속도를 조절하는 DNA 조절 서열(예를 들어, 인핸서 및 사일런서)에 결합하는 단백질이다. 이는 증가된 또는 감소된 유전자 전사, 단백질 합성, 및 후속적인 변경된 세포 기능(예를 들어, 세포가 예를 들어 위축, 비대, 과형성, 화생, 또는 이형성 과정에서, 환경(정상 또는 병리)에 반응하여 변화함)을 초래할 수 있다. 본원에 사용된 바와 같이, 특정 전사 인자는 명명법으로 지칭되지만, 본원에 언급된 전사 인자에 대해 다른 동의어도 사용될 수 있다.
용어 "전사 인자 결합 프로파일"은 일반적으로 조직 기여 및 생물학적 과정을 모두 포함하는 주어진 전사 인자에 대한 다중 인자 정보 프로파일을 지칭한다. 또한, TFBP은 "접근성 점수" 및 z-점수 통계를 포함하여 TFBS 접근성의 유의한 변화를 상이한 혈장 샘플에 걸쳐 객관적으로 비교한다. 프로파일은 기원 조직 및 기원 종양 확인 모두에 적합한 계통 특이적 TF의 확인을 가능하게 할 수 있다.
본원에 사용되는 바와 같이, 용어 "대상체"는 일반적으로 시험 가능하거나 검출 가능한 유전 정보 또는 물질을 갖거나 가질 것으로 의심되는 개인, 개체 또는 매체를 지칭한다. 대상체는 사람, 개인, 또는 환자일 수 있다. 대상체는 예를 들어 포유류와 같은 척추동물일 수 있다. 포유류의 비제한적인 예는 인간, 유인원, 농장 동물, 스포츠 동물, 설치류, 및 애완동물을 포함한다. 대상체는 대상체의 건강 또는 생리적 상태 또는 병태, 예컨대 대상체의 암 또는 암의 병기를 나타내는 증상(들)을 나타낼 수 있다. 대안으로서, 대상체는 그러한 건강 또는 생리적 상태 또는 병태와 관련하여 무증상일 수 있다.
본원에 사용되는 바와 같이, 용어 "샘플"은 일반적으로 하나 이상의 대상체로부터 얻거나 유래된 생물학적 샘플을 지칭한다. 생물학적 샘플은 무세포 생물학적 샘플 또는 실질적으로 무세포 생물학적 샘플일 수 있거나, 처리되거나 분별되어 무세포 생물학적 샘플을 생성할 수 있다. 예를 들어, 무세포 생물학적 샘플에는 무세포 리보핵산(cfRNA), 무세포 데옥시리보핵산(cfDNA), 무세포 단백질 및/또는 무세포 폴리펩티드가 포함될 수 있다. 생물학적 샘플은 조직(예를 들어, 생검으로 얻은 조직), 혈액(예를 들어, 전혈), 혈장, 혈청, 땀, 소변, 타액, 또는 이들의 유도체일 수 있다. 무세포 생물학적 샘플은 에틸렌디아민테트라아세트산(EDTA) 수집 튜브, 무세포 RNA 수집 튜브(예를 들어, Streck), 또는 무세포 DNA 수집 튜브(예를 들어, Streck)를 사용하여 대상체로부터 얻거나 유래될 수 있다. 무세포 생물학적 샘플은 분별에 의해 전혈 샘플로부터 유래될 수 있다. 생물학적 샘플 또는 이의 유도체는 세포를 포함할 수 있다. 예를 들어, 생물학적 샘플은 혈액 샘플 또는 이의 유도체(예를 들어, 수집 튜브로 수집된 혈액 또는 혈액 점적), 종양 샘플, 조직 샘플, 소변 샘플, 또는 세포(예를 들어, 조직) 샘플일 수 있다.
본 개시 내용은 전사 인자(TF) 결합 부위(TFBS)를 모델링하고 TFBS 정보를 사용하여 질환 상태를 검출, 평가, 진단, 및 분석하기 위한 방법 및 시스템을 제공한다. cfDNA는 전체 게놈 시퀀싱에 의해 뉴클레오솜 점유의 생체 내 지도를 생성하기 위해 내인성 생리학적 과정에 의해 생성된 고유한 분석물을 나타낸다. 전사 인자 결합 부위(TFBS)에서 뉴클레오솜 점유는 DNA를 순환으로 방출하는 세포로부터 발현된 유전자를 추론하는 데 활용될 수 있다. cfDNA 뉴클레오솜 점유는 TF의 지문을 반영할 수 있다.
I. 전사 인자 결합 부위/뉴클레오솜 점유 분석
차세대 시퀀싱이 TF에 관한 중요한 정보를 제공할 수 있지만, (예를 들어, 혈액으로부터) 치료하에서 TF 활성 또는 이들의 조절을 측정하기 위한 비침습적 방법이 필요하다. 암 환자에서 순환 종양 DNA(ctDNA)도 포함하는 (예를 들어, 혈장으로부터의) 무세포 DNA(cfDNA)는 암 환자에서 비침습적 진단 전략을 위한 기회를 제공할 수 있다. cfDNA는 아폽토시스 세포로부터 효소 분해 후 방출될 수 있으므로, 대부분 단일 뉴클레오솜 DNA로서 순환할 수 있다. 따라서, cfDNA 단편의 전체 게놈 시퀀싱은 뉴클레오솜 선호도가 높은 부위의 다이애드(예를 들어, 표준 뉴클레오솜의 중간점)가 강한 리드 피크를 생성하는 반면 덜 우선적으로 배치된 뉴클레오솜의 다이애드가 감소된 피크를 나타내거나 피크를 전혀 나타내지 않는 뉴클레오솜 지도의 생성을 가능하게 할 수 있다.
cfDNA로부터 TF 결합의 추론이 암과 그 이외에서 엄청난 진단 잠재력을 가지고 있기 때문에, 개선되고 최적화된 생물 정보학 파이프 라인이 개발되었다. 이 과정은 TFBS에서 뉴클레오솜 시그니처와 관련된 구성 성분을 분석하여 상이한 혈장 샘플에서 TFBS 접근성을 객관적으로 평가하고 비교할 수 있다. 심층 전체 게놈 시퀀싱(WGS) 데이터는 건강한 기증자의 혈장 샘플과 암 환자(예를 들어, 전이성 전립선암, 결장암, 또는 유방암)의 혈장 샘플로부터 얻을 수 있다. 일부 예에서, cfDNA는 또한 순환 종양 DNA(ctDNA)를 포함한다. 또한, 얕은 WGS 데이터도 앞서 언급한 종양 개체를 가진 환자의 혈장 샘플로부터 얻을 수 있다. 이 접근법은 다른 접근법에 따라 여러 세포 유형으로 인한 cfDNA 신호의 혼합물 및 푸리에 변환에 의한 분석을 사용하여 일반적인 조직 특이적 패턴을 설정하는 대신 개별 TF를 프로파일링하는 데 사용될 수 있다. 본원에 제공된 방법 및 시스템은 또한 조직 기여 및 생물학적 과정에 대한 보다 미묘한 관점을 유익하게 제공하며, 이는 기원 조직 및 기원 종양 분석 모두에 적합한 계통 특이적 TF의 확인을 가능하게 한다.
특정 계통 특이적 TF는 혈장 DNA의 기원 조직을 결정하는 데 적합할 수 있다. 그러나 이러한 적용에서 어떤 TF가 유용할 수 있는지 결정하려면, 예를 들어, cfDNA 내 결합 부위에서, TF의 접근성을 평가해야 한다. 종래의 방법은 cfDNA 내 결합 부위에서 TF 접근성을 활성의 대용으로서 평가하지 못할 수 있다. 계산은 전사 시작 부위(TSS) 내부 및 외부의 TFBS에 대해 개별적으로 수행된다. 평균 TFBS 패턴은 2가지 신호를 포함한다: TSS 근위(TSS의 약 2 kb 이내에서 "저주파 패턴" 생성) 및 더 균일한 간격의 피크 신호에 해당하는 TSS 원위(TSS 피크로부터 2 kb 넘게 떨어져 "고주파 패턴" 생성). 우선적인 뉴클레오솜 배치가 기여하지 않는 커버리지에 대한 영향을 없애고 뉴클레오솜 데이터로부터 국소 편향을 제거하기 위해 필터를 추세 제거에 사용할 수 있다(예를 들어, 사비츠키-골레이 필터). 그 후 획득된 저주파 신호를 사용하여 고주파 신호를 정규화할 수 있으며, 이어서 고주파 신호를 사용하여 데이터 범위(데이터 값의 최댓값에서 최솟값을 뺀 값, 진폭에 해당)를 기록할 수 있다. 고주파 신호의 범위는 TFBS의 수(1,000-msTFBS를 제외하고)에 따라 결정되므로, 이 범위 값은 TFBS의 수에 따라 결정되므로 평활화에 의해 보정한 후 각 TFBS의 접근성에 대한 척도로서 순위를 계산하는 데 사용된다.
"접근성 점수"라고 하는, 이 분석을 위해 개발된 메트릭은 동일한 사람 또는 상이한 개인으로부터 얻은 샘플의 연속 분석에서 TFBS의 접근성을 객관적으로 비교하는 데 사용될 수 있다. TF 결합이 그 표적 인핸서 자체를 반드시 활성화하지 않고서도 그들을 개방하거나 "프라이밍"하기 때문에 순위 값을 "접근성 점수"라고 할 수 있다. 이러한 결과는 임상 진단에서 cfDNA를 사용하는 데 특별한 유용성을 갖춘 TFBS 접근성을 평가하기 위한 강력한 접근법을 입증한다.
여러 세포 유형으로 인한 cfDNA 신호의 혼합물 및 푸리에 변환에 의한 분석을 사용하여 일반적인 조직 특이적 패턴을 사용할 수 있는 다른 분석과는 대조적으로, 본 개시 내용의 방법 및 시스템은 개별 TF를 프로파일링하여 임상 적용을 위한 계통 특이적 TF를 확립할 수 있다. TFBS 분석의 개선된 분해능으로 인해 cfDNA로부터 TFBS의 접근성을 모니터링하는 것이 가능할 수 있으며, 일부 예에서는 질환 과정, 예를 들어 상이한 세포 계통으로 재프로그래밍 중에 TF 가소성을 밝히는 데 유용한 것으로 입증되었다.
[도 20]은 후성 유전적 조절 영역이 뉴클레오솜 배치에 어떻게 영향을 미치는지 보여주는 플롯을 보여준다. 히스톤 변형 및 인핸서가 예시된다.
[도 21]은 선택된 TF의 뉴클레오솜 배치를 보여준다.
[도 22]는 선택된 TF에 대한 커버리지 패턴을 보여준다.
[도 23]은 서로 다른 TF의 중첩을 보여준다. 이러한 중첩 값은 [도 2c]의 히트맵에 해당한다.
[도 24]는 TFBS 크기의 영향을 보여준다.
[도 25]는 24명의 건강한 개인의 샘플에 대해 REST 및 KLF16에 대한 뉴클레오솜 패턴을 보여준다. 각 선은 서로 다른 개인을 나타낸다. 건강한 24명의 개인에서, 패턴은 혈액 세포에서 활성인 전사 인자에 대해 동일한 설정에서 거의 동일하게 나타난다.
[도 26a-26c]는 말기 암 샘플에 대해 선택된 TF에 대한 뉴클레오솜 배치를 보여준다. CTCF 패턴은 모든 샘플에서 비슷하게 보인다. PU.1, Lyl-1, 및 Spi-B를 포함한 혈액 특이적 TF의 활성은 암 샘플에서 감소한다. GRH-L2(상피 마커), ASH-2 및 HOX-B13(안드로겐 수용체 축의 전립선암 마커), 및 EVX2(결장암 마커)를 포함한 암 특이적 TF가 더 활성적이다.
II. 전사 인자 결합 부위
전사 인자 결합 부위는 본 방법과 시스템에서 사용하기 위해 통계적 임계값을 사용하여 유전자 전사 조절 데이터베이스(GTRD(Gene Transcription Regulation Database): 유전자 전사 조절에 관한 데이터베이스-2019 업데이트. I.S. Yevshin, R.N. Sharipov. S.K. Kolmykov, Y.V. Kondrakhin, F.A. Kolpakov. Nucleic Acids Res. 2019 Jan 8;47(D1):D100-D105)로부터 확인하며 기계 학습 모델 및 분류기 생성에 정보를 제공한다. 일부 예에서, 전사 인자의 관련 경로 및 부류는 기계 학습 모델 및 분류기 생성에 유사하게 유용하고 정보를 제공한다.
분석을 위해 둘 이상의 환자 그룹(예를 들어, 건강 vs. 암, 진행자 vs. 비-진행자, 복수의 병기 중 병기(예를 들어, I, II, III, 또는 IV), 복수의 아형 중 아형, 또는 치료 반응자 vs. 비-반응자) 사이에서 차등적 TF를 확인하기 위해 통계적 임계값이 사용된다.
일부 예에서, [도 27] 및 [도 28]에 열거된 것과 같은 전사 인자는 본원에 기술된 방법 및 시스템을 사용하여 분석될 수 있다.
일부 예에서, 전사 인자는 GRH-L2, ASH-2, HOX-B13, EVX2, PU.1, Lyl-1, Spi-B, 및 FOXA1로 이루어진 군으로부터 선택된다.
일부 예에서, 전사 인자 AR, HOXB13, 및 NKX3-1에 대해 추론된 결합 패턴을 포함하는 환자 특이적 및 종양 특이적 패턴이 관찰된다.
일부 예에서, 전사 인자는 상피 전사 인자이다. 일부 예에서, 전사 인자는 GRHL2이다.
일부 예에서, 전사 인자 GRHL2, FOXA1, 및 ZNF121은 유방암 환자에서 증가된 접근성 점수 또는 개방 염색질 접근성과 관련된다.
일부 예에서, GRHL2, FOXA1, 및 ZNF121로부터 선택된 적어도 하나의 전사 인자의 개방 접근성은 유방암을 나타낸다.
일부 예에서, 전사 인자 EVX2, DLX2, HNF1A, HNF4A, GRHL2, 및 HNF4G는 결장암 환자에서 증가된 접근성 점수 또는 개방 염색질 접근성과 관련된다.
일부 예에서, EVX2, DLX2, HNF1A, GRHL2, HNF4A, 및 HNF4G로부터 선택되는 적어도 하나의 전사 인자의 개방 접근성은 결장암을 나타낸다.
일부 예에서, 전사 인자 LYL1, EVI1, TAL1, Spi-B, TBX21, 및 PU.1은 결장암 환자에서 감소된 접근성 점수 또는 폐쇄된 염색질 접근성과 관련된다.
일부 예에서, LYL1, EVI1, TAL1, Spi-B, TBX21, 및 PU.1로부터 선택된 적어도 하나의 전사 인자의 폐쇄된 접근성은 결장암을 나타낸다.
일부 예에서, 전사 인자 GRHL2, FOXA1, HOXB13, AR, 및 NKX3-1은 전립선 선암종 환자에서 증가된 접근성 점수 또는 개방 염색질 접근성과 관련된다.
일부 예에서, GRHL2, FOXA1, HOXB13, AR, 및 NKX3-1로부터 선택된 적어도 하나의 전사 인자의 개방 접근성은 전립선 선암종을 나타낸다.
일부 예에서, 전사 인자 REST, GRHL2, FOXA1, HOXB13, AR, 및 NKX3-1은 소세포 신경 내분비 전립선암 환자에서 감소된 또는 폐쇄된 염색질 접근성과 관련이 있다.
일부 예에서, REST, GRHL2, FOXA1, HOXB13, AR 및 NKX3-1로부터 선택된 적어도 하나의 전사 인자의 감소된 접근성은 소세포 신경 내분비 전립선암을 나타낸다.
한 예에서, 조혈 전사 인자와 조직 특이적 TF의 접근성 사이의 상관관계는 암과 같은 질환의 존재와 관련된다.
한 예에서, 조혈 전사 인자는 LYL1, SCL, Bcl11a, Hhex, Lmo2, Spi1, 및 PU.1로부터 선택된다. 한 예에서, 조혈 전사 인자는 LYL1 또는 PU.1로부터 선택된다.
일부 예에서, LYL1, SPIB 및 EVI1(전사 조절 인자 에코트로픽 바이러스 통합 부위 1)과 같은 조혈 전사 인자의 낮은 접근성은 전립선암과 관련된다.
일부 예에서, 전사 인자는 GRH-L2, ASH-2, HOX-B13, EVX2, PU.1, Lyl-1, Spi-B, 및 FOXA1로 이루어진 군으로부터 선택된다.
일부 예에서, 전사 인자는 HNF-1a, HNF-4A, HNF-4G, EVX-2, 및 DLX-2로 이루어진 군으로부터 선택된다.
일부 예에서, 조혈 관련 TF, 예를 들어 LYL1, TAL1(SCL/TAL1(줄기세포 백혈병/T 세포 급성 림프모구성 백혈병[T-ALL] 1, EVI1, TBX21(T-bet), 및 PU.1은 암과 관련된다.
만성 바이러스 감염 또는 암에서 항원에 지속적으로 노출되는 동안, 이펙터 CD8+ T 세포는 T 세포 탈진이라는 대체 세포 분화 운명을 획득한다. 이들은 기억 세포와 같은 항원 독립적인 자가 재생을 거치지 못하고 계층적 방식으로 이펙터 기능을 상실하여 이러한 항원 특이적 CD8+ T 세포에 의한 바이러스 제거 및 종양 제어를 방해한다.
한 예에서, 전사 인자 tbx21 또는 EOMES의 개방 접근성은 탈진된 CD8+ T 세포를 나타낸다.
한 예에서, 전사 인자 에오메소더민(EOMES), Blimp-1, 폰 히펠 린다우 종양 억제 인자(VHL), Foxo1, IRF4, BATF, 및 NFATc1의 개방 접근성은 탈진된 CD8+ T 세포를 나타낸다.
III. 기계 학습 시스템 및 모델
A. 샘플 피처
일부 예에서, TFBS 접근성 점수는 서열 구성과 대상체(예를 들어, 환자) 그룹 사이의 상관관계를 찾기 위해 기계 학습 모델에서 입력 피처로서 사용된다. 이러한 환자 그룹의 예로는 질환 또는 병태, 병기, 아형, 반응자 vs. 비-반응자, 진행자 vs. 비-진행자가 포함된다. 일부 예에서, 알려진 조건 또는 특성을 가진 개인으로부터 얻은 샘플을 비교하기 위해 피처 매트릭스를 생성한다. 일부 예에서, 샘플은 알려진 징후가 없는 건강한 개인 또는 개인들, 및 암에 걸린 것으로 알려진 환자의 샘플로부터 얻는다.
본원에 사용되는 바와 같이, 기계 학습 및 패턴 인식에 관한 것일 때, 용어 "피처"는 관찰되고 있는 현상의 개별 측정 가능한 특성 또는 특징을 지칭한다. 피처는 일반적으로 숫자이지만, 문자열 및 그래프와 같은 구조적 피처가 구문 패턴 인식에 사용될 수 있다. "피처"의 개념은 예를 들어, 그러나 이에 제한되지 않는, 선형 회귀와 같은 통계 기법에 사용되는 설명 변수의 개념과 관련이 있다. 일부 예에서, 피처는 전사 인자 결합 프로파일이다. 일부 예에서, 피처는 전사 인자 결합 프로파일로부터 계산된 접근성 점수이다.
일부 예에서, 피처는 기계 학습 분석을 위해 피처 매트릭스에 입력된다.
일부 예에서, 적어도 2개, 또는 적어도 5개, 또는 적어도 10개, 또는 적어도 15개, 또는 적어도 20개, 또는 적어도 25개의 전사 인자 결합 부위의 접근성 점수를 결정하고 건강한 대상체와 암 환자, 또는 질환 진행자와 비-진행자를 구별할 수 있는 분류기를 훈련하기 위한 기계 학습 모델에 입력한다.
일부 예에서, 적어도 2개, 또는 적어도 5개, 또는 적어도 10개, 또는 적어도 15개, 또는 적어도 20개, 또는 적어도 25개의 전사 인자 결합 부위의 접근성 점수를 결정하고 복수의 질환 아형 또는 복수의 질환 단계를 구별할 수 있는 분류기를 훈련하기 위한 기계 학습 모델에 입력한다.
일부 예에서, 적어도 2개, 또는 적어도 5개, 또는 적어도 10개, 또는 적어도 15개, 또는 적어도 20개, 또는 적어도 25개의 전사 인자 결합 부위의 접근성 점수를 결정하고 질환 치료 반응자와 비-반응자를 구별할 수 있는 분류기를 훈련하기 위한 기계 학습 모델에 입력한다.
복수의 분석에 대해, 시스템은 기계 학습 모델에 대한 입력으로서 받아들일 피처 세트를 확인한다. 시스템은 각 분자 부류에 대해 분석을 수행하고 측정된 값에서 피처 벡터를 형성한다. 시스템은 기계 학습 모델에 피처 벡터를 입력으로서 받아들이고 생물학적 샘플에 지정된 속성이 있는 지의 여부에 대한 분류를 출력으로서 생성한다.  
일부 예에서, 기계 학습 모델은 개인 또는 개인 집단 내 피처 또는 집단의 피처의 둘 이상의 그룹 또는 부류 사이를 구별할 수 있는 분류기를 생성한다. 예를 들어, 분류기는 개인 또는 개인 집단 내 피처 또는 집단의 피처의 둘 이상의 그룹 또는 부류 사이를 구별할 수 있는 이진 분류기일 수 있다. 또 다른 예로서, 분류기는 개인 또는 개인 집단 내 피처 또는 집단의 피처의 2개 초과의 그룹 또는 부류 사이를 구별할 수 있는 다중(multi-class) 분류기일 수 있다. 일부 예에서, 분류기는 훈련된 기계 학습 분류기이다.
일부 예에서, 암 조직 내 바이오 마커의 정보를 제공하는 유전자 좌 또는 피처를 분석하여 프로파일을 형성한다. 이진 분류기의 경우, 두 집단(예를 들어, 치료체에 반응하는 개인과 반응하지 않는 개인) 사이를 구별할 때 특정 피처(예를 들어, 본원에 기술된 임의의 바이오마커 및/또는 추가의 생체 의학 정보의 임의의 항목)의 성능을 플로팅하기 위해 수신자 조작 특성(ROC)이 생성될 수 있다. 일부 예에서, 전체 집단(예를 들어, 사례 및 대조군)에 대한 피처 데이터는 단일 피처의 값을 기준으로 오름차순으로 정렬된다.
일부 예에서, 명시된 특성은 건강 vs. 암, 복수의 질환 아형 중 질환 아형, 복수의 질환 단계 중 질환 단계, 진행자 vs. 비-진행자, 반응자 vs. 비-반응자, 또는 이들의 조합으로부터 선택된다.
B. 데이터 분석
일부 예에서, 본 개시 내용은 데이터 분석이 소프트웨어 애플리케이션, 컴퓨팅 하드웨어, 또는 둘 모두에서 실현되는 시스템, 방법 또는 키트를 제공한다. 일부 예에서, 분석 애플리케이션 또는 시스템은 적어도 하나의 데이터 수신 모듈, 데이터 전처리 모듈, 데이터 분석 모듈(하나 이상의 유형의 게놈 데이터에서 작동할 수 있음), 데이터 해석 모듈, 또는 데이터 시각화 모듈을 포함한다. 일부 예에서, 데이터 수신 모듈은 실험실 하드웨어 또는 기기를 실험실 데이터를 처리하는 컴퓨터 시스템과 연결하는 컴퓨터 시스템을 포함할 수 있다. 일부 예에서, 데이터 전처리 모듈은 분석을 준비하기 위해 데이터에 대한 연산을 수행하는 하드웨어 시스템 또는 컴퓨터 소프트웨어를 포함할 수 있다. 사전 처리 모듈의 데이터에 적용할 수 있는 연산의 예로는 아핀 변환, 노이즈 제거 연산, 데이터 정제, 리포맷팅, 또는 서브샘플링이 포함된다. 하나 이상의 게놈 물질로부터 게놈 데이터를 분석하기 위해 특화될 수 있는 데이터 분석 모듈은 예를 들어 조립된 게놈 서열을 취하고 확률적 및 통계적 분석을 수행하여 질환, 병리, 상태, 위험, 병태, 또는 표현형과 관련된 비정상 패턴을 확인할 수 있다. 데이터 해석 모듈은 통계, 수학, 또는 생물학에서 취한 분석 방법을 사용하여 확인된 비정상 패턴과 건강 상태, 기능 상태, 예후, 또는 위험 사이의 관계에 대한 이해를 지지할 수 있다. 데이터 시각화 모듈은 수학적 모델링, 컴퓨터 그래픽, 또는 렌더링 방법을 사용하여 (예를 들어, 대상체(예를 들어, 환자) 또는 의사 또는 기타 의료 제공자에 의한) 결과의 이해 또는 해석을 용이하게 할 수 있는 데이터의 시각적 표현을 생성할 수 있다.
일부 예에서, 샘플 집단에서 샘플을 구별하기 위해 기계 학습 방법이 적용된다. 일부 예에서, 건강한 샘플과 암(예를 들어, 진행된 선종) 샘플을 구분하기 위해 기계 학습 방법이 적용된다.
일부 예에서, 예측 엔진을 훈련시키는 데 사용되는 하나 이상의 기계 학습 연산은 일반화 선형 모델, 일반화 가법 모델, 비모수 회귀 연산, 랜덤 포레스트 분류기, 공간 회귀 연산, 베이지안 회귀 모델, 시계열 분석, 베이지안 네트워크, 가우스 네트워크, 의사 결정 트리 학습 연산, 인공 신경망, 순환 신경망, 강화 학습 연산, 선형 또는 비선형 회귀 연산, 서포트 벡터 머신(support vector machine), 클러스터링 연산, 및 유전 알고리즘 연산 중 하나 이상을 포함한다.
일부 예에서, 컴퓨터 처리 방법은 로지스틱 회귀, 다중 선형 회귀(MLR), 차원 축소, 부분 최소 제곱(PLS) 회귀, 주성분 회귀, 오토 인코더, 변분 오토 인코더, 특이 값 분해, 푸리에 기저, 웨이블렛, 판별 분석, 서포트 벡터 머신, 의사 결정 트리, 분류 및 회귀 트리(CART), 트리 기반 방법, 랜덤 포레스트, 그라디언트 부스트 트리, 로지스틱 회귀, 행렬 인수 분해, 다차원 척도법(MDS), 차원 축소 방법, t-분포 확률적 인접 임베딩(t-SNE), 다층 퍼셉트론(MLP), 네트워크 클러스터링, 뉴로 퍼지, 및 인공 신경망으로부터 선택된다.
일부 예에서, 본원에 개시된 방법은 개인 또는 다수의 개인으로부터의 샘플의 핵산 서열 분석 데이터에 대한 계산 분석을 포함할 수 있다.
C. 분류기 생성
한 측면에서, 본 개시 내용은 cfDNA의 생물학적 샘플의 서열 분석으로부터 유도된 피처 정보를 기반으로 하여 생성된 분류기를 포함하는 시스템 및 방법을 제공한다. 분류기는 cfDNA와 같은 생물학적 샘플에서 확인된 서열 피처를 기반으로 하여 집단에서 그룹을 구별하기 위한 예측 엔진의 일부를 형성한다.
일부 예에서, 분류기는 서열 정보의 유사한 부분을 통합된 포맷 및 통합된 스케일로 포맷하여 서열 정보를 정규화하는 단계; 정규화된 서열 정보를 컬럼형 데이터베이스에 저장하는 단계; 저장된 정규화된 서열 정보에 하나 이상의 기계 학습 연산을 적용함으로써 예측 엔진을 훈련시키는 단계, 예측 엔진은 특정 집단에 대해 하나 이상의 피처의 조합을 맵핑하는 단계; 그룹과 관련된 개인을 확인하기 위해 예측 엔진을 액세스된 필드 정보에 적용하는 단계; 개인을 그룹으로 분류하는 단계에 의해 생성된다.
훈련된 분류기는 복수의 입력 변수를 수용하고 복수의 입력 변수를 기준으로 하여 하나 이상의 출력 값을 생성하도록 구성될 수 있다. 복수의 입력 변수는 질환, 장애, 또는 비정상 상태(예를 들어, 암)를 나타내는 하나 이상의 데이터 세트를 포함할 수 있다. 예를 들어, 입력 변수는 질환 관련 게놈 유전자 좌 세트에 상응하거나 정렬하는 다수의 핵산 서열을 포함할 수 있다. 복수의 입력 변수는 또한 대상체의 임상 건강 데이터를 포함할 수 있다.
예를 들어, 임상 건강 데이터는 연령, 체중, 신장, 체질량 지수(BMI), 혈압, 심박수, 및 포도당 수준과 같은 대상체의 하나 이상의 정량적 측정치를 포함할 수 있다. 다른 예로서, 임상 건강 데이터는 인종, 민족성, 약물 또는 기타 임상 치료 이력, 담배 사용 이력, 알코올 소비 이력, 일일 활동 또는 체력 수준, 유전자 검사 결과, 혈액 검사 결과, 및 영상 결과와 같은 하나 이상의 범주의 측정값을 포함할 수 있다.
본원에 제공된 훈련된 알고리즘은 하나 이상의 출력 값 각각이 분류기에 의한 샘플의 분류를 나타내는 고정된 수의 가능한 값(예를 들어, 선형 분류기, 로지스틱 회귀 분류기 등) 중 하나를 포함하도록 분류기를 포함할 수 있다. 훈련된 알고리즘은 하나 이상의 출력 값 각각이 분류기에 의한 샘플의 분류를 나타내는 2개의 값(예를 들어, {0, 1}, {양, 음} 또는 {고위험, 저위험}) 중 하나를 포함하도록 이진 분류기를 포함할 수 있다. 훈련된 알고리즘은 하나 이상의 출력 값 각각이 분류기에 의한 샘플의 분류를 나타내는 2개 초과의 값(예를 들어, {0, 1, 2}, {양, 음, 또는 불확정} 또는 {고위험, 중간 위험 또는 저위험}) 중 하나를 포함하도록 또 다른 유형의 분류기일 수 있다. 출력 값은 설명 라벨, 수치, 또는 이들의 조합을 포함할 수 있다. 일부 출력 값은 설명 라벨을 포함할 수 있다. 이러한 설명 라벨은 대상체의 질환, 장애, 또는 비정상 상태의 평가에 대한 확인 또는 표시를 제공할 수 있으며, 예를 들어 양성, 음성, 고위험, 중간 위험, 저위험 또는 불확정을 포함할 수 있다. 이러한 설명 라벨은 질환, 장애, 또는 비정상 상태에 대한 대상체의 평가에 대한 치료법의 확인을 제공할 수 있으며, 예를 들어 질환, 장애, 또는 비정상 상태를 치료하는 데 적합한 치료적 중재, 치료적 중재의 기간, 및/또는 치료적 중재의 투여량을 포함할 수 있다. 이러한 설명 라벨은 대상체에 대해 수행하기에 적절할 수 있고, 예를 들어 영상 검사, 혈액 검사, 컴퓨터 단층 촬영(CT) 스캔, 자기 공명 영상(MRI) 스캔, 초음파 스캔, 흉부 X선, 양전자 방출 단층 촬영(PET) 스캔, PET-CT 스캔, 세포학 분석, 또는 이들의 임의의 조합을 포함할 수 있는 2차 임상 검사의 확인을 제공한다. 예를 들어, 이러한 설명 라벨은 대상체의 질환, 장애, 또는 비정상 상태의 예후를 제공할 수 있다. 또 다른 예로서, 이러한 설명 라벨은 대상체의 질환, 장애, 또는 비정상 상태의 상대적 평가를 제공할 수 있다. 예를 들어 "양수"를 1로, "음수"를 0으로 맵핑하여 일부 설명 라벨을 수치에 맵핑할 수 있다.
일부 출력 값은 이진, 정수, 또는 연속 값과 같은 수치를 포함할 수 있다. 이러한 이진 출력 값은 예를 들어, {0, 1}, {양, 음}, 또는 {고위험, 저위험}을 포함할 수 있다. 이러한 정수 출력 값은 예를 들어 {0, 1, 2}를 포함할 수 있다. 이러한 연속 출력 값은 예를 들어 0 이상 1 이하의 확률 값을 포함할 수 있다. 이러한 연속 출력 값은 예를 들어 0 이상의 정규화되지 않은 확률 값을 포함할 수 있다. 이러한 연속 출력 값은 대상체의 질환, 장애, 또는 비정상 상태의 예후를 나타낼 수 있다. 예를 들어 1을 "양"에 맵핑하고 0을 "음"에 맵핑하여 일부 수치를 설명 라벨에 맵핑할 수 있다.
일부 출력 값은 하나 이상의 컷오프 값을 기준으로 할당될 수 있다. 예를 들어, 샘플의 이진 분류는 샘플이 대상체가 질환, 장애, 또는 비정상 상태를 가질 적어도 50%의 확률을 가짐을 나타내는 경우 "양" 또는 1의 출력 값을 할당할 수 있다. 예를 들어, 샘플의 이진 분류는 샘플이 대상체가 질환, 장애, 또는 비정상 상태를 가질 50% 미만의 확률을 가짐을 나타내는 경우 "음" 또는 0의 출력 값을 할당할 수 있다. 이 경우, 50%의 단일 컷오프 값을 사용하여 샘플을 두 가지 가능한 이진 출력 값 중 하나로 분류한다. 단일 컷오프 값의 예는 약 1%, 약 2%, 약 5%, 약 10%, 약 15%, 약 20%, 약 25%, 약 30%, 약 35%, 약 40%, 약 45%, 약 50%, 약 55%, 약 60%, 약 65%, 약 70%, 약 75%, 약 80%, 약 85%, 약 90%, 약 91%, 약 92%, 약 93%, 약 94%, 약 95%, 약 96%, 약 97%, 약 98%, 및 약 99%를 포함할 수 있다.
다른 예로서, 샘플의 분류는 샘플이 대상체가 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 그 이상의 질환, 장애, 또는 비정상 상태를 가질 확률을 가짐을 나타낼 경우 "양" 또는 1의 출력 값을 할당할 수 있다. 샘플의 분류는 샘플이 대상체가 약 50% 초과, 약 55% 초과, 약 60% 초과, 약 65% 초과, 약 70% 초과, 약 75% 초과, 약 80% 초과, 약 85% 초과, 약 90% 초과, 약 91% 초과, 약 92% 초과, 약 93% 초과, 약 94% 초과, 약 95% 초과, 약 96% 초과, 약 97% 초과, 약 98%, 또는 약 99% 초과의 질환, 장애, 또는 비정상 상태를 가질 확률을 가짐을 나타낼 경우 "양" 또는 1의 출력 값을 할당할 수 있다.
샘플의 분류는 샘플이 대상체가 약 50% 미만, 약 45% 미만, 약 40% 미만, 약 35% 미만, 약 30% 미만, 약 25% 미만, 약 20% 미만, 약 15% 미만, 약 10% 미만, 약 9% 미만, 약 8% 미만, 약 7% 미만, 약 6% 미만, 약 5% 미만, 약 4% 미만, 약 3% 미만, 약 2% 미만, 또는 약 1% 미만의 질환, 장애, 또는 비정상 상태를 가질 확률을 가짐을 나타낼 경우 "음" 또는 0의 출력 값을 할당할 수 있다. 샘플의 분류는 샘플이 대상체가 약 50% 이하, 약 45% 이하, 약 40% 이하, 약 35% 이하, 약 30% 이하, 약 25% 이하, 약 20% 이하, 약 15% 이하, 약 10% 이하, 약 9% 이하, 약 8% 이하, 약 7% 이하, 약 6% 이하, 약 5% 이하, 약 4% 이하, 약 3% 이하, 약 2% 이하, 또는 약 1% 이하의 질환, 장애, 또는 비정상 상태를 가질 확률을 가짐을 나타낼 경우 "음" 또는 0의 출력 값을 할당할 수 있다.
샘플의 분류는 샘플이 "양", "음", 1, 또는 0으로 분류되지 않을 경우 "불확정" 또는 2의 출력 값을 할당할 수 있다. 이 경우, 2개의 컷오프 값 세트를 사용하여 샘플을 세 가지 가능한 출력 값 중 하나로 분류한다. 컷오프 값 세트의 예에는 {1%, 99%}, {2%, 98%}, {5%, 95%}, {10%, 90%}, {15%, 85%}, {20%, 80%}, {25%, 75%}, {30%, 70%}, {35%, 65%}, {40%, 60%}, 및 {45%, 55%}가 포함될 수 있다. 유사하게, n개의 컷오프 값 세트를 사용하여 샘플을 n+1개의 가능한 출력 값 중 하나로 분류할 수 있으며, 여기서 n은 임의의 양의 정수이다.
훈련된 분류기는 복수의 독립적인 훈련 샘플로 훈련될 수 있다. 각각의 독립적인 훈련 샘플은 대상체의 샘플, 샘플을 분석하여 얻은 관련 데이터 세트(본원의 다른 곳에서 기술됨), 및 샘플에 해당하는 하나 이상의 알려진 출력 값(예를 들어, 대상체의 질환, 장애, 또는 비정상 상태의 임상 진단, 예후, 부재, 또는 치료 효능)을 포함할 수 있다. 독립적인 훈련 샘플은 복수의 상이한 대상체로부터 얻거나 유래된 샘플 및 관련 데이터 세트 및 출력을 포함할 수 있다. 독립적인 훈련 샘플은 동일한 대상체로부터 복수의 상이한 시점에서(예를 들어, 매주, 격주, 또는 매달과 같이 정기적으로) 얻은 샘플 및 관련 데이터 세트 및 출력을 포함할 수 있다. 독립적인 훈련 샘플은 질환, 장애, 또는 비정상 상태의 존재와 관련될 수 있다(예를 들어, 질환, 장애, 또는 비정상 상태를 갖는 것으로 알려진 복수의 대상체로부터 얻거나 유래된 샘플 및 관련 데이터 세트 및 출력을 포함하는 훈련 샘플). 독립적인 훈련 샘플은 질환, 장애, 또는 비정상 상태의 부재와 관련될 수 있다(예를 들어, 질환, 장애, 또는 비정상 상태의 이전 진단을 받지 않은 것으로 알려진 복수의 대상체 또는 질환, 장애, 또는 비정상 상태에 대해 음성 검사 결과를 받은 복수의 대상체로부터 얻거나 유래된 샘플 및 관련 데이터 세트 및 출력을 포함하는 훈련 샘플).
훈련된 분류기는 적어도 약 5개, 적어도 약 10개, 적어도 약 15개, 적어도 약 20개, 적어도 약 25개, 적어도 약 30개, 적어도 약 35개, 적어도 약 40개, 적어도 약 45개, 적어도 약 50개, 적어도 약 100개, 적어도 약 150개, 적어도 약 200개, 적어도 약 250개, 적어도 약 300개, 적어도 약 350개, 적어도 약 400개, 적어도 약 450개, 또는 적어도 약 500개의 독립적인 훈련 샘플로 훈련될 수 있다. 독립적인 훈련 샘플은 질환, 장애, 또는 비정상 상태의 존재와 관련된 샘플 및/또는 질환, 장애, 또는 비정상 상태의 부재와 관련된 샘플을 포함할 수 있다. 훈련된 분류기는 약 500개 이하, 약 450개 이하, 약 400개 이하, 약 350개 이하, 약 300개 이하, 약 250개 이하, 약 200개 이하, 약 150개 이하, 약 100개 이하, 또는 약 50개 이하의 질환, 장애, 또는 비정상 상태의 존재와 관련된 독립적인 훈련 샘플로 훈련될 수 있다. 일부 실시 양태에서, 샘플은 훈련된 분류기를 훈련시키는 데 사용되는 샘플과 무관하다.
훈련된 분류기는 질환, 장애, 또는 비정상 상태의 존재와 관련된 제1의 개수의 독립적인 훈련 샘플 및 질환, 장애, 또는 비정상 상태의 부재와 관련된 제2의 개수의 독립적인 훈련 샘플로 훈련될 수 있다. 질환, 장애, 또는 비정상 상태의 존재와 관련된 독립적인 훈련 샘플의 제1의 개수는 질환, 장애, 또는 비정상 상태의 부재와 관련된 독립적인 훈련 샘플의 제2의 개수 이하일 수 있다. 질환, 장애, 또는 비정상 상태의 존재와 관련된 독립적인 훈련 샘플의 제1의 개수는 질환, 장애, 또는 비정상 상태의 부재와 관련된 독립적인 훈련 샘플의 제2의 개수와 동일할 수 있다. 질환, 장애, 또는 비정상 상태의 존재와 관련된 독립적인 훈련 샘플의 제1의 개수는 질환, 장애, 또는 비정상 상태의 부재와 관련된 독립적인 훈련 샘플의 제2의 개수보다 클 수 있다.
훈련된 분류기는 적어도 약 5개, 적어도 약 10개, 적어도 약 15개, 적어도 약 20개, 적어도 약 25개, 적어도 약 30개, 적어도 약 35개, 적어도 약 40개, 적어도 약 45개, 적어도 약 50개, 적어도 약 100개, 적어도 약 150개, 적어도 약 200개, 적어도 약 250개, 적어도 약 300개, 적어도 약 350개, 적어도 약 400개, 적어도 약 450개, 또는 적어도 약 500개의 독립적인 훈련 샘플에 대해; 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 81%, 적어도 약 82%, 적어도 약 83%, 적어도 약 84%, 적어도 약 85%, 적어도 약 86%, 적어도 약 87%, 적어도 약 88%, 적어도 약 89%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 그 이상의 정확도로 질환, 장애, 또는 비정상 상태의 존재 또는 부재를 확인하도록 구성될 수 있다. 훈련된 알고리즘에 의해 질환, 장애, 또는 비정상 상태의 존재 또는 부재를 확인하는 정확도는 질환, 장애, 또는 비정상 상태를 갖거나 갖지 않는 것으로 정확하게 확인되거나 분류된 독립적인 검사 샘플(예를 들어, 질환, 장애, 또는 비정상 상태를 가진 것으로 알려진 대상체 또는 질환, 장애, 또는 비정상 상태에 대한 임상 검사 결과가 음성인 대상체)의 백분율로서 계산될 수 있다.
훈련된 분류기는 적어도 약 5%, 적어도 약 10%, 적어도 약 15%, 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 81%, 적어도 약 82%, 적어도 약 83%, 적어도 약 84%, 적어도 약 85%, 적어도 약 86%, 적어도 약 87%, 적어도 약 88%, 적어도 약 89%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 그 이상의 양성 예측도(PPV)로 질환, 장애, 또는 비정상 상태의 존재를 확인하도록 구성될 수 있다. 훈련된 분류기를 사용하여 질환, 장애, 또는 비정상 상태의 존재를 확인하는 PPV는 실제로 질환, 장애, 또는 비정상 상태를 가진 대상체에 해당하는 질환, 장애, 또는 비정상 상태를 가진 것으로 확인 또는 분류된 샘플의 백분율로서 계산될 수 있다.
훈련된 분류기는 적어도 약 5%, 적어도 약 10%, 적어도 약 15%, 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 81%, 적어도 약 82%, 적어도 약 83%, 적어도 약 84%, 적어도 약 85%, 적어도 약 86%, 적어도 약 87%, 적어도 약 88%, 적어도 약 89%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 그 이상의 음성 예측도(NPV)로 질환, 장애, 또는 비정상 상태의 부재를 확인하도록 구성될 수 있다. 훈련된 분류기를 사용하여 질환, 장애, 또는 비정상 상태의 부재를 확인하는 NPV는 실제로 질환, 장애, 또는 비정상 상태를 갖지 않는 대상체에 해당하는 질환, 장애, 또는 비정상 상태를 갖지 않는 것으로 확인 또는 분류된 샘플의 백분율로서 계산될 수 있다. 훈련된 분류기는 적어도 약 5%, 적어도 약 10%, 적어도 약 15%, 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 81%, 적어도 약 82%, 적어도 약 83%, 적어도 약 84%, 적어도 약 85%, 적어도 약 86%, 적어도 약 87%, 적어도 약 88%, 적어도 약 89%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 적어도 약 99.1%, 적어도 약 99.2%, 적어도 약 99.3%, 적어도 약 99.4%, 적어도 약 99.5%, 적어도 약 99.6%, 적어도 약 99.7%, 적어도 약 99.8%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 또는 그 이상의 임상 특이도로 질환, 장애, 또는 비정상 상태의 부재를 확인하도록 구성될 수 있다. 본원에서 사용되는 바와 같이, 특이도는 "질환이 없는 사람들 사이에서 음성 검사의 확률"을 지칭한다. 이는 음성으로 검사된 무질환자 수를 무질환자 총수로 나눈 것과 같다. 훈련된 분류기를 사용하여 질환, 장애, 또는 비정상 상태의 부재를 확인하는 임상적 특이도는 질환, 장애, 또는 비정상 상태를 갖지 않는 것으로 정확하게 확인 또는 분류된 질환, 장애, 또는 비정상 상태의 부재와 관련된 독립적인 검사 샘플(예를 들어, 질환, 장애, 또는 비정상 상태에 대한 임상 검사 결과가 음성인 대상체)의 백분율로서 계산될 수 있다. 일부 예에서, 모델, 분류기, 또는 예측 검사는 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 또는 적어도 약 99%의 특이도를 갖는다.
훈련된 분류기는 적어도 약 5%, 적어도 약 10%, 적어도 약 15%, 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 81%, 적어도 약 82%, 적어도 약 83%, 적어도 약 84%, 적어도 약 85%, 적어도 약 86%, 적어도 약 87%, 적어도 약 88%, 적어도 약 89%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 적어도 약 99.1%, 적어도 약 99.2%, 적어도 약 99.3%, 적어도 약 99.4%, 적어도 약 99.5%, 적어도 약 99.6%, 적어도 약 99.7%, 적어도 약 99.8%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 또는 그 이상의 임상 민감도로 질환, 장애, 또는 비정상 상태의 존재를 확인하도록 구성될 수 있다. 본원에서 사용되는 바와 같이, 민감도는 "질환에 걸린 사람들 중 양성 검사의 확률"을 지칭한다. 이는 양성으로 검사된 질환자의 수를 질환자 총수로 나눈 것과 같다.
일부 예에서, 모델, 분류기, 또는 예측 검사는 적어도 약 40%, 적어도 약 45%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 또는 적어도 약 99%의 민감도를 갖는다. 훈련된 분류기를 사용하여 질환, 장애, 또는 비정상 상태의 존재를 확인하는 임상 민감도는 질환, 장애, 또는 비정상 상태를 갖는 것으로 정확하게 확인 또는 분류된 질환, 장애, 또는 비정상 상태의 존재와 관련된 독립적인 검사 샘플(예를 들어, 질환, 장애, 또는 비정상 상태를 가진 것으로 알려진 대상체)의 백분율로서 계산될 수 있다.
훈련된 분류기는 적어도 약 0.50, 적어도 약 0.55, 적어도 약 0.60, 적어도 약 0.65, 적어도 약 0.70, 적어도 약 0.75, 적어도 약 0.80, 적어도 약 0.81, 적어도 약 0.82, 적어도 약 0.83, 적어도 약 0.84, 적어도 약 0.85, 적어도 약 0.86, 적어도 약 0.87, 적어도 약 0.88, 적어도 약 0.89, 적어도 약 0.90, 적어도 약 0.91, 적어도 약 0.92, 적어도 약 0.93, 적어도 약 0.94, 적어도 약 0.95, 적어도 약 0.96, 적어도 약 0.97, 적어도 약 0.98, 적어도 약 0.99, 또는 그 이상의 수신자 조작 특성 아래 면적(AUROC)으로 질환, 장애, 또는 비정상 상태의 존재 또는 부재를 확인하도록 구성될 수 있다. AUROC는 샘플을 질환, 장애 또는 비정상이 있거나 없는 것으로 분류할 때 훈련된 분류기와 관련된 수신자 조작 특성(ROC) 곡선(예를 들어, ROC 곡선 아래 영역, 또는 AUC)의 적분으로서 계산될 수 있다.
훈련된 분류기는 질환, 장애, 또는 비정상 상태를 확인하는 성능, 정확도, PPV, NPV, 임상 민감도, 임상 특이도 또는 AUC 중 하나 이상을 개선하도록 조정 또는 조절될 수 있다. 훈련된 분류기는 훈련된 분류기의 매개 변수(예를 들어, 본원의 다른 곳에서 기술된 바와 같이 샘플을 분류하는 데 사용되는 컷오프 값 세트, 또는 신경망의 가중치)를 조정함으로써 조정 또는 조절될 수 있다. 훈련된 분류기는 훈련 과정 중에 또는 훈련 과정이 완료된 후에 지속적으로 조정되거나 조절될 수 있다.
훈련된 분류기가 초기에 훈련된 후, 입력의 서브세트는 고품질 분류를 만들기 위해 포함되어야 하는 가장 영향력이 있거나 가장 중요한 것으로 확인될 수 있다. 예를 들어, 복수의 입력 변수의 서브세트는 질환, 장애, 또는 비정상 상태의 평가에 대한 고품질 분류 또는 확인을 위해 포함되어야 하는 가장 영향력이 있거나 가장 중요한 것으로 확인될 수 있다. 복수의 입력 변수 또는 그 서브세트는 질환, 장애, 또는 비정상 상태의 평가에 대한 고품질 분류 또는 확인에 대한 각 입력 변수의 영향 또는 중요성을 나타내는 분류 메트릭을 기준으로 순위가 매겨질 수 있다. 이러한 메트릭은 훈련된 분류기를 원하는 성능 수준(예를 들어, 원하는 최소 정확도, PPV, NPV, 임상 민감도, 임상 특이도, AUC, 또는 이들의 조합을 기준으로 하여)으로 훈련시키는 데 사용될 수 있는 입력 변수(예를 들어, 예측 변수)의 개수를, 일부 경우에 크게, 줄이는 데 사용될 수 있다. 예를 들어, 훈련된 분류기에서 수십 또는 수백 개의 입력 변수를 포함하는 복수로 훈련된 분류기를 훈련시킨 결과 분류 정확도가 99%를 초과한다면, 대신에 복수 중에서 약 5개 이하, 약 10개 이하, 약 15개 이하, 약 20개 이하, 약 25개 이하, 약 30개 이하, 약 35개 이하, 약 40개 이하, 약 45개 이하, 약 50 이하, 또는 약 100개 이하의 이러한 가장 영향력 있거나 가장 중요한 입력 변수의 선택된 서브세트만으로 훈련된 분류기를 훈련하여 감소되었지만 여전히 허용 가능한 분류 정확도(예를 들어, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 81%, 적어도 약 82%, 적어도 약 83%, 적어도 약 84%, 적어도 약 85%, 적어도 약 86%, 적어도 약 87%, 적어도 약 88%, 적어도 약 89%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%)를 제공할 수 있다. 서브세트는 전체 복수의 입력 변수를 순위 정렬하고 최상의 분류 메트릭으로 미리 결정된 개수(예를 들어, 약 5개 이하, 약 10개 이하, 약 15개 이하, 약 20개 이하, 약 25개 이하, 약 30개 이하, 약 35개 이하, 약 40개 이하, 약 45개 이하, 약 50개, 또는 약 100개 이상)의 입력 변수를 선택함으로써 선택될 수 있다.
D. 디지털 처리 장치
일부 예에서, 본원에 기술된 주제는 디지털 처리 장치 또는 그의 용도를 포함할 수 있다. 일부 예에서, 디지털 처리 장치는 장치의 기능을 수행하는 하나 이상의 하드웨어 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 또는 텐서 처리 장치(TPU)를 포함할 수 있다. 일부 예에서, 디지털 처리 장치는 실행 가능한 명령을 수행하도록 구성된 운영 체제를 포함할 수 있다. 일부 예에서, 디지털 처리 장치는 컴퓨터 네트워크에 연결될 수 있다. 일부 예에서, 디지털 처리 장치는 인터넷에 연결될 수 있다. 일부 예에서, 디지털 처리 장치는 클라우드 컴퓨팅 인프라에 연결될 수 있다. 일부 예에서, 디지털 처리 장치는 인트라넷에 연결될 수 있다. 일부 예에서, 디지털 처리 장치는 데이터 저장 장치에 연결될 수 있다.
적합한 디지털 처리 장치의 비제한적인 예는 서버 컴퓨터, 데스크탑 컴퓨터, 랩톱 컴퓨터, 노트북 컴퓨터, 서브 노트북 컴퓨터, 넷북 컴퓨터, 넷패드 컴퓨터, 셋톱 컴퓨터, 핸드헬드 컴퓨터, 인터넷 기기, 모바일 스마트폰, 및 태블릿 컴퓨터를 포함한다. 적합한 태블릿 컴퓨터는 예를 들어 부클릿, 슬레이트, 및 컨버터블 구성을 가진 컴퓨터를 포함할 수 있다.
일부 예에서, 디지털 처리 장치는 실행 가능한 명령을 수행하도록 구성된 운영 체제를 포함할 수 있다. 예를 들어 운영 체제에는 장치의 하드웨어를 관리하고 애플리케이션 실행을 위한 서비스를 제공하는 프로그램 및 데이터를 포함한 소프트웨어가 포함될 수 있다. 운영 체제의 비 제한적인 예로는 Ubuntu, FreeBSD, OpenBSD, NetBSD®, Linux, Apple® Mac OS X Server®, Oracle® Solaris®, Windows Server®, 및 Novell® NetWare®가 포함된다. 적합한 개인용 컴퓨터 운영 체제의 비제한적인 예로는 Microsoft® Windows®, Apple® Mac OS X®, UNIX®, 및 UNIX 유사 운영 체계, 예컨대 GNU/Linux®이 포함된다. 일부 예에서, 운영 체제는 클라우드 컴퓨팅에 의해 제공될 수 있고, 클라우드 컴퓨팅 리소스는 하나 이상의 서비스 제공자에 의해 제공될 수 있다.
일부 예에서, 장치는 저장 장치 및/또는 메모리 장치를 포함할 수 있다. 저장 및/또는 메모리 장치는 일시적 또는 영구적으로 데이터 또는 프로그램을 저장하는 데 사용되는 하나 이상의 물리적 장치일 수 있다. 일부 예에서, 장치는 휘발성 메모리일 수 있으며 저장된 정보를 유지하기 위해 전력을 필요로 할 수 있다. 일부 예에서, 장치는 비휘발성 메모리일 수 있으며 디지털 처리 장치에 전원이 공급되지 않을 때 저장된 정보를 유지할 수 있다. 일부 예에서, 비휘발성 메모리는 플래시 메모리를 포함할 수 있다. 일부 예에서, 비휘발성 메모리는 동적 랜덤 액세스 메모리(DRAM)를 포함할 수 있다. 일부 예에서, 비휘발성 메모리는 강유전성 랜덤 액세스 메모리(FRAM)를 포함할 수 있다. 일부 예에서, 비휘발성 메모리는 상 변화 랜덤 액세스 메모리(PRAM)를 포함할 수 있다. 일부 예에서, 장치는 예를 들어 CD-ROM, DVD, 플래시 메모리 장치, 자기 디스크 드라이브, 자기 테이프 드라이브, 광 디스크 드라이브, 및 클라우드 컴퓨팅 기반 스토리지를 포함하는 저장 장치일 수 있다. 일부 예에서, 저장 및/또는 메모리 장치는 본원에 개시된 것과 같은 장치의 조합 일 수 있다. 일부 예에서, 디지털 처리 장치는 시각적 정보를 사용자에게 전송하는 디스플레이를 포함할 수 있다. 일부 예에서, 디스플레이는 음극선관(CRT)일 수 있다. 일부 예에서, 디스플레이는 액정 디스플레이(LCD)일 수 있다. 일부 예에서, 디스플레이는 박막 트랜지스터 액정 디스플레이(TFT-LCD) 일 수 있다. 일부 예에서, 디스플레이는 유기 발광 다이오드(OLED) 디스플레이일 수 있다. 일부 예에서, OLED 디스플레이는 수동 매트릭스 OLED(PMOLED) 또는 능동 매트릭스 OLED(AMOLED) 디스플레이일 수 있다. 일부 예에서, 디스플레이는 플라즈마 디스플레이일 수 있다. 일부 예에서, 디스플레이는 비디오 프로젝터일 수 있다. 일부 예에서, 디스플레이는 본원에 개시된 것과 같은 장치의 조합일 수 있다.
일부 예에서, 디지털 처리 장치는 사용자로부터 정보를 수신하기 위한 입력 장치를 포함할 수 있다. 일부 예에서, 입력 장치는 키보드일 수 있다. 일부 예에서, 입력 장치는 예를 들어 마우스, 트랙볼, 트랙 패드, 조이스틱, 게임 컨트롤러, 또는 스타일러스를 포함하는 포인팅 장치일 수 있다. 일부 예에서, 입력 장치는 터치 스크린 또는 멀티 터치 스크린일 수 있다. 일부 예에서, 입력 장치는 음성 또는 기타 사운드 입력을 캡처하기 위한 마이크일 수 있다. 일부 예에서, 입력 장치는 모션 또는 시각적 입력을 캡처하기 위한 비디오 카메라일 수 있다. 일부 예에서, 입력 장치는 본원에 개시된 것과 같은 장치들의 조합일 수 있다.
E. 비일시적 컴퓨터 판독 가능 저장 매체
일부 예에서, 본원에 개시된 주제는 운영 체제에 의해 실행 가능한 명령을 포함하는 프로그램으로 코딩된 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 운영 체제는 네트워크로 연결된 디지털 처리 장치의 일부일 수 있다. 일부 예에서, 컴퓨터 판독 가능 저장 매체는 디지털 처리 장치의 유형적 구성 요소일 수 있다. 일부 예에서, 컴퓨터 판독 가능 저장 매체는 디지털 처리 장치로부터 제거될 수 있다. 일부 예에서, 컴퓨터 판독 가능 저장 매체는 예를 들어 CD-ROM, DVD, 플래시 메모리 장치, 솔리드 스테이트 메모리, 자기 디스크 드라이브, 자기 테이프 드라이브, 광 디스크 드라이브, 클라우드 컴퓨팅 시스템 및 서비스 등을 포함할 수 있다. 일부 예에서, 프로그램 및 명령은 영구적으로, 실질적으로 영구적으로, 반영구적으로, 또는 비일시적으로 매체에 코딩될 수 있다.
F. 컴퓨터 시스템
본 개시는 본원에 기술된 방법을 구현하도록 프로그래밍된 컴퓨터 시스템을 제공한다. [도 1]은 대상체(예를 들어, 환자) 데이터, 생물학적 데이터, 생물학적 서열, 참조 서열, TFBS 데이터, 또는 z-점수 또는 TFBS 접근성 점수와 같은 TFBS 피처를 저장, 처리, 확인, 또는 해석하는 것과 같은 본 개시 내용의 방법을 수행하도록 프로그래밍되거나 달리 구성된 컴퓨터 시스템(101)을 도시한다. 컴퓨터 시스템(101)은 본 개시 내용의 대상체(예를 들어, 환자) 데이터, 생물학적 데이터, 생물학적 서열, 또는 참조 서열의 다양한 측면을 처리할 수 있다. 컴퓨터 시스템(101)은 사용자의 전자 장치 또는 전자 장치와 관련하여 원격에 위치한 컴퓨터 시스템일 수 있다. 전자 장치는 모바일 전자 장치일 수 있다.
컴퓨터 시스템(101)은 단일 코어 또는 멀티 코어 프로세서, 또는 병렬 처리를 위한 복수의 프로세서일 수 있는 중앙 처리 장치(CPU, 본원에서 또한 "프로세서" 및 "컴퓨터 프로세서")(105)를 포함한다. 컴퓨터 시스템(101)은 또한 메모리 또는 메모리 위치(110)(예를 들어, 랜덤 액세스 메모리, 읽기 전용 메모리, 플래시 메모리), 전자 저장 장치(115)(예를 들어, 하드 디스크), 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스(120)(예를 들어, 네트워크 어댑터), 및 주변 장치(125), 예컨대 캐시, 기타 메모리, 데이터 저장 및/또는 전자 디스플레이 어댑터를 포함한다. 메모리(110), 저장 장치(115), 인터페이스(120) 및 주변 장치 (125)는 마더보드와 같은 통신 버스(실선)를 통해 CPU(105)와 통신한다. 저장 장치(115)는 데이터를 저장하기 위한 데이터 저장 장치(또는 데이터 저장소)일 수 있다. 컴퓨터 시스템(101)은 통신 인터페이스(120)의 도움으로 컴퓨터 네트워크("네트워크")(130)에 작동 가능하게 결합될 수 있다. 네트워크(130)는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷과 통신하는 인트라넷 및/또는 엑스트라넷일 수 있다. 일부 예에서 네트워크(130)는 텔레커뮤니케이션 및/또는 데이터 네트워크이다. 네트워크(130)는 클라우드 컴퓨팅과 같은 분산 컴퓨팅을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 네트워크(130)는 일부 예에서 컴퓨터 시스템(101)의 도움으로 피어-투-피어 네트워크를 구현할 수 있으며, 이는 컴퓨터 시스템(101)에 연결된 장치가 클라이언트 또는 서버로서 동작하도록 할 수 있다.
CPU(105)는 프로그램 또는 소프트웨어로 구현될 수 있는 기계 판독 가능 명령 시퀀스를 실행할 수 있다. 명령은 메모리(110)와 같은 메모리 위치에 저장될 수 있다. 명령은 CPU(105)로 지시될 수 있으며, 이는 본 개시 내용의 방법을 구현하기 위해 CPU(105)를 후속적으로 프로그래밍하거나 그렇지 않으면 구성할 수 있다. CPU(105)에 의해 수행되는 작업의 예는 페치, 디코딩, 실행 및 라이트백(writeback)을 포함할 수 있다.
CPU(105)는 집적 회로와 같은 회로의 일부일 수 있다. 시스템 (101)의 하나 이상의 다른 구성 요소가 회로에 포함될 수 있다. 일부 예에서, 회로는 주문형 집적 회로(ASIC)이다.
저장 장치(115)는 드라이버, 라이브러리 및 저장된 프로그램과 같은 파일을 저장할 수 있다. 저장 장치(115)는 사용자 데이터, 예를 들어 사용자 선호도 및 사용자 프로그램을 저장할 수 있다. 일부 예에서 컴퓨터 시스템(101)은 인트라넷 또는 인터넷을 통해 컴퓨터 시스템(101)과 통신하는 원격 서버에 위치된 것과 같이, 컴퓨터 시스템(101) 외부에 있는 하나 이상의 추가 데이터 저장 장치를 포함할 수 있다.
컴퓨터 시스템(101)은 네트워크(130)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들어, 컴퓨터 시스템(101)은 사용자의 원격 컴퓨터 시스템과 통신할 수 있다. 원격 컴퓨터 시스템의 예로는 개인용 컴퓨터(예를 들어, 휴대용 PC), 슬레이트 또는 태블릿 PC(예를 들어, Apple® iPad, Samsung® Galaxy Tab), 전화기, 스마트폰(예를 들어, Apple® iPhone, Android 사용 가능 장치, Blackberry®), 또는 개인용 디지털 비서가 포함된다. 사용자는 네트워크(130)를 통해 컴퓨터 시스템(101)에 액세스할 수 있다.
본원에 기술된 바와 같은 방법은 예를 들어, 메모리(110) 또는 전자 저장 장치(115)와 같은 컴퓨터 시스템(101)의 전자 저장 위치에 저장된 기계(예를 들어, 컴퓨터 프로세서) 실행 가능 코드에 의해 구현될 수 있다. 기계 실행 가능 코드 또는 기계 판독 가능 코드는 소프트웨어 형태로 제공될 수 있다. 사용 중에, 코드는 프로세서(105)에 의해 실행될 수 있다. 일부 예에서, 코드는 저장 장치(115)으로부터 검색되고 프로세서(105)에 의한 빠른 액세스를 위해 메모리(110)에 저장될 수 있다. 일부 예에서, 전자 저장 장치(115)는 제외될 수 있고, 기계 실행 가능 명령은 메모리(110)에 저장된다.
코드는 코드를 실행하기에 적합한 프로세서를 가진 기계와 함께 사용하기 위해 프리컴파일되고 구성될 수 있거나 런타임 동안 해석 또는 컴파일될 수 있다. 코드는 프리컴파일, 해석 또는 컴파일된 방식으로 코드가 실행할 수 있도록 선택될 수 있는 프로그래밍 언어로 제공될 수 있다.
컴퓨터 시스템(101)과 같은 본원에 제공된 시스템 및 방법의 측면은 프로그래밍으로 구현될 수 있다. 기술의 다양한 측면은 전형적으로 기계(또는 프로세서) 실행 가능 코드 및/또는 일종의 기계 판독 가능 매체에서 수행되거나 구현되는 관련 데이터의 형태인 "제품" 또는 "제조품"으로 간주될 수 있다. 기계 실행 가능 코드는 메모리(예를 들어, 읽기 전용 메모리, 랜덤 액세스 메모리, 플래시 메모리) 또는 하드 디스크와 같은 전자 저장 장치에 저장될 수 있다. "저장"형 매체는 소프트웨어 프로그래밍을 위해 언제든지 비일시적 스토리지를 제공할 수 있는 다양한 반도체 메모리, 테이프 드라이브, 디스크 드라이브 등과 같은, 컴퓨터, 프로세서 등, 또는 그의 관련 모듈의 모든 유형의 메모리를 포함할 수 있다. 소프트웨어의 전부 또는 일부는 때때로 인터넷 또는 다양한 기타 텔레커뮤니케이션 네트워크를 통해 통신될 수 있다. 예를 들어, 이러한 통신은 하나의 컴퓨터 또는 프로세서에서 다른 컴퓨터 또는 프로세서로, 예를 들어 관리 서버 또는 호스트 컴퓨터에서 애플리케이션 서버의 컴퓨터 플랫폼으로 소프트웨어의 로딩을 가능하게 할 수 있다. 따라서 소프트웨어 요소를 포함할 수 있는 또 다른 유형의 매체에는 유선 및 광 유선 네트워크를 통해, 다양한 무선 링크를 통해 로컬 장치 간의 물리적 인터페이스를 통해 사용되는 것과 같은 광, 전기 및 전자기파가 포함된다. 유선 또는 무선 링크, 광 링크 등과 같이 이러한 파동을 전달하는 물리적 요소도 소프트웨어를 포함하는 매체로서 간주될 수 있다. 본원에서 사용되는 바와 같이, 비일시적 유형의 "저장" 매체로 제한되지 않는 한, 컴퓨터 또는 기계 "판독 가능 매체"와 같은 용어는 실행을 위해 프로세서에 명령을 제공하는 데 참여하는 임의의 매체를 지칭한다.
따라서, 컴퓨터 실행 가능 코드와 같은 기계 판독 가능 매체는 유형의 저장 매체, 반송파 매체 또는 물리적 전송 매체를 포함하는, 그러나 이에 제한되지 않는 다양한 형태를 취할 수 있다. 비휘발성 저장 매체는 예를 들어, 광학 또는 자기 디스크, 예컨대 도면에 도시된 데이터베이스를 구현하는데 사용될 수 있는 것 등과 같은 임의의 컴퓨터(들)의 임의의 저장 장치 등을 포함한다. 휘발성 저장 매체는 이러한 컴퓨터 플랫폼의 주 메모리와 같은 동적 메모리를 포함한다. 유형의 전송 매체에는 동축 케이블; 컴퓨터 시스템 내의 버스를 구성하는 와이어를 포함한 구리 와이어 및 광섬유가 포함된다. 반송파 전송 매체는 전기 또는 전자기 신호, 또는 무선 주파수(RF) 및 적외선(IR) 데이터 통신 중에 생성되는 것과 같은 음향 또는 광파의 형태를 취할 수 있다. 따라서 컴퓨터 판독 가능 매체의 일반적인 형태에는 예를 들어, 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 기타 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 기타 광학 매체, 펀치 카드 용지 테이프, 구멍 패턴이 있는 임의의 기타 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 기타 메모리 칩 또는 카트리지, 데이터 또는 명령을 전송하는 반송파, 이러한 반송파를 전송하는 케이블 또는 링크, 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 읽을 수 있는 임의의 기타 매체가 포함된다. 이러한 형태의 컴퓨터 판독 가능 매체 중 다수는 실행을 위해 하나 이상의 명령의 하나 이상의 시퀀스를 프로세서에 전달하는 데 관여할 수 있다.
컴퓨터 시스템(101)은 예를 들어, 핵산 서열, 농축 핵산 샘플, 전사 인자 결합 프로파일, 접근성 점수, 발현 프로파일, 및 발현 프로파일의 분석을 제공하기 위한 사용자 인터페이스(UI)(140)를 구성하는 전자 디스플레이(135)를 포함하거나 그와 통신할 수 있다. UI의 예로는 그래픽 사용자 인터페이스(GUI) 및 웹 기반 사용자 인터페이스가 포함된다.
본 개시 내용의 방법 및 시스템은 하나 이상의 알고리즘에 의해 구현될 수 있다. 알고리즘은 중앙 처리 장치(105)에 의해 실행될 때 소프트웨어를 통해 구현될 수 있다. 알고리즘은 예를 들어 복수의 조절 요소를 조사하고, 핵산 샘플을 시퀀싱하고, 핵산 샘플을 농축하고, 핵산 샘플의 발현 프로파일을 결정하고, 핵산 샘플의 발현 프로파일을 분석하고, 발현 프로파일의 분석 결과를 보관 또는 배포할 수 있다.
일부 예에서, 본원에 개시된 주제는 적어도 하나의 컴퓨터 프로그램 또는 그의 용도를 포함할 수 있다. 컴퓨터 프로그램은 디지털 처리 장치의 CPU, GPU, 또는 TPU에서 실행 가능한 명령 시퀀스로 지정된 작업을 수행하도록 작성될 수 있다. 컴퓨터 판독 가능 명령은 특정 작업을 수행하거나 특정 추상 데이터 유형을 구현하는 함수, 객체, 애플리케이션 프로그래밍 인터페이스(API), 데이터 구조 등과 같은 프로그램 모듈로 구현될 수 있다. 예를 들어, 컴퓨터 프로그램은 다양한 언어의 다양한 버전으로 작성될 수 있다.
컴퓨터 판독 가능 명령의 기능은 다양한 환경에서 원하는 대로 결합되거나 분산될 수 있다. 일부 예에서, 컴퓨터 프로그램은 하나의 명령 시퀀스를 포함할 수 있다. 일부 예에서, 컴퓨터 프로그램은 복수의 명령 시퀀스를 포함할 수 있다. 일부 예에서, 컴퓨터 프로그램은 한 위치로부터 제공될 수 있다. 일부 예에서, 컴퓨터 프로그램은 복수의 위치로부터 제공될 수 있다. 일부 예에서, 컴퓨터 프로그램은 하나 이상의 소프트웨어 모듈을 포함할 수 있다. 일부 예에서, 컴퓨터 프로그램은 부분적으로 또는 전체적으로 하나 이상의 웹 애플리케이션, 하나 이상의 모바일 애플리케이션, 하나 이상의 독립형 애플리케이션, 하나 이상의 웹 브라우저 플러그인, 확장, 애드인, 또는 애드온, 또는 이들의 조합을 포함할 수 있다.
일부 예에서, 컴퓨터 처리는 통계, 수학, 생물학, 또는 이들의 임의의 조합의 방법일 수 있다. 일부 예에서, 컴퓨터 처리 방법은 예를 들어 로지스틱 회귀, 차원 축소, 주성분 분석, 오토 인코더, 특이 값 분해, 푸리에 기저, 특이 값 분해, 웨이블렛, 판별 분석, 서포트 벡터 머신, 트리 기반 방법, 랜덤 포레스트, 그라디언트 부스트 트리, 로지스틱 회귀, 행렬 인수 분해, 네트워크 클러스터링, 및 신경망을 포함하는 차원 축소 방법을 포함한다.
일부 예에서, 컴퓨터 처리 방법은 예를 들어 회귀, 서포트 벡터 머신, 트리 기반 방법, 및 네트워크를 포함하는 지도 기계 학습 방법이다.
일부 예에서, 컴퓨터 처리 방법은 예를 들어, 클러스터링, 네트워크, 주성분 분석, 및 행렬 인수 분해를 포함하는 비지도 기계 학습 방법이다.
G. 데이터베이스
일부 예에서, 본원에 개시된 주제는 하나 이상의 데이터베이스, 또는 대상체(예를 들어, 환자) 데이터, 생물학적 데이터, 생물학적 서열, 또는 참조 서열을 저장하기 위한 그의 용도를 포함할 수 있다. 참조 서열은 데이터베이스에서 유래할 수 있다. 예를 들어, 많은 데이터베이스가 서열 정보의 저장 및 검색에 적합할 수 있다. 일부 예에서, 적합한 데이터베이스는 예를 들어 관계형 데이터베이스, 비관계형 데이터베이스, 객체 지향 데이터베이스, 객체 데이터베이스, 엔티티-관계 모델 데이터베이스, 연관 데이터베이스, 및 XML 데이터베이스를 포함할 수 있다. 일부 예에서, 데이터베이스는 인터넷 기반일 수 있다. 일부 예에서, 데이터베이스는 웹 기반일 수 있다. 일부 예에서, 데이터베이스는 클라우드 컴퓨팅 기반일 수 있다. 일부 예에서, 데이터베이스는 하나 이상의 로컬 컴퓨터 저장 장치를 기반으로 할 수 있다.
유전자 전사 조절 데이터베이스(GTRD; 버전 18.01)로부터의 676개의 TF를 사용하였는데, 그 이유는 이들이 다양한 조직 샘플에 대한 ChIP-seq 데이터를 기반으로 하여 상세한 TFBS 정보를 포함하기 때문이다. TF는 알려진 또는 가능성 있는 1,639개의 인간 TF의 최신 큐레이트된 목록으로 주석을 달았다(도 6a). TF가 가변 주파수로 결합하는 잠재적으로 많은 수의 TFBS 때문에, 세 가지 다른 엄격성 기준을 정의하였다(도 6a): 첫째, GTRD의 모든 조직 샘플에 대한 모든 TFBS; 둘째, 최대 샘플 수의 50% 초과가 지지하는 피크(이후 ">50%-TFBS"로 지칭함; 이 두 분석에서 전체 676개의 GTRD TF가 포함되었음); 셋째, 대부분의 샘플이 지지하는 TF당 1,000개의 TFBS("1,000-msTFBS", 505개의 TF가 이 기준을 충족시켰음).
일부 예에서, 참조 게놈은 GrCH38, GrCH37, hg19, 또는 hg38로부터 선택된다.
일부 예에서, 참조 게놈 데이터베이스는 본원에 개시된 방법의 정렬 및 맵핑 단계에 사용된다.
IV. 사용 방법
A. 진단 및 대상체 특성화 방법 및 시스템
본원에 제공된 방법 및 시스템은 대상체(예를 들어, 환자)로부터 획득한 TFBS 데이터를 분석하여 암(예를 들어, 결장직장암, 유방암, 전립선암)을 가진 대상체의 평가(예를 들어, 진단, 예후, 치료법 선택, 치료 모니터링, 병기 결정, 또는 아형 결정)의 결과를 생성하기 위해서 인공 지능 기반 접근법을 사용하여 예측 분석을 수행할 수 있다. 예를 들어, 애플리케이션은 획득된 TFBS 데이터에 예측 알고리즘을 적용하여 암에 걸린 대상체의 평가(예를 들어, 진단, 예후, 치료법 선택, 치료 모니터링, 병기 결정, 또는 아형 결정)를 생성할 수 있다. 예측 알고리즘은 암에 걸린 대상체의 평가(예를 들어, 진단, 예후, 치료법 선택, 치료 모니터링, 병기 결정, 또는 아형 결정)를 생성하기 위해서 획득된 TFBS 데이터를 처리하도록 구성된 기계 학습 기반 모델과 같은 인공 지능 기반 예측기를 포함할 수 있다.
기계 학습 예측기는 기계 학습 예측기에게 입력으로서 테이터세트, 예를 들어 암환자의 하나 이상의 코호트 세트의 개체의 생물학적 샘플의 TFBS 분석을 수행하여 생성한 데이터세트 및 출력으로서 대상체의 알려진 진단(예를 들어, 병기 결정 및/또는 종양 분율, 아형, 치료 반응자 vs. 비-반응자, 진행자 vs. 비진행자) 결과를 사용하여 훈련될 수 있다.
훈련 데이터세트(예를 들어, 개인의 생물학적 샘플의 다중 분석물 분석을 수행하여 생성된 데이터세트)는 예를 들어 공통 특징(피처) 및 결과(라벨)를 갖는 하나 이상의 대상체 세트로부터 생성될 수 있다. 훈련데이터 세트는 피처 및 진단과 관련된 피처에 해당하는 라벨의 세트를 포함할 수 있다. 피처는 예를 들어 z-점수, 접근성 점수 등과 같은 cfDNA 분석 측정값의 특정 범위 또는 범주와 같은 특징을 포함할 수 있다. 예를 들어, 주어진 시점에서 주어진 대상체로부터 수집된 피처 세트는 총체적으로 주어진 시점에 대상체의 확인된 암을 나타낼 수 있는 진단 시그니처로서 사용될 수 있다. 특징은 또한 하나 이상의 암에 대한 것과 같이 대상체의 진단 결과를 나타내는 라벨을 포함할 수 있다.
라벨은 예를 들어 대상체의 알려진 진단 결과(예를 들어, 병기 결정, 아형, 종양 분율, 또는 진행자 vs. 비-진행자)와 같은 결과를 포함할 수 있다. 결과에는 대상체에서 암과 관련된 특징이 포함될 수 있다. 예를 들어, 특징은 하나 이상의 암에 걸린 대상체를 나타낼 수 있다.
훈련 세트(예를 들어, 훈련 데이터세트)는 하나 이상의 대상체 세트(예를 들어, 하나 이상의 암에 걸린 또는 걸리지 않은 대상체(예를 들어, 환자)의 후향적 및/또는 전향적 코호트)에 해당하는 데이터세트의 무작위 샘플링에 의해 선택될 수 있다. 대안적으로, 훈련 세트(예를 들어, 훈련 데이터세트)는 하나 이상의 대상체 세트(예를 들어, 하나 이상의 암에 걸린 또는 걸리지 않은 대상체(예를 들어, 환자)의 후향적 및/또는 전향적 코호트)에 해당하는 데이터 세트의 비례 샘플링에 의해 선택될 수 있다. 훈련 세트는 하나 이상의 대상체 세트(예를 들어, 상이한 임상 현장 또는 검사의 환자)에 해당하는 데이터 세트에 대해 균형을 이룰 수 있다. 기계 학습 예측기는 진단 정확도 척도에 해당하는 원하는 최솟값을 갖는 것과 같이 정확도 또는 성능에 대해 미리 결정된 특정 조건이 충족될 때까지 훈련될 수 있다. 예를 들어, 진단 정확도 척도는 대상체에서 하나 이상의 암의 진단, 병기 결정, 또는 아형의 예측에 해당할 수 있다.
진단 정확도 척도의 예에는 암(예를 들어, 결장직장암)을 검출하거나 예측하는 진단 정확도에 해당하는 민감도, 특이도, 양성 예측도(PPV), 음성 예측도(NPV), 정확도 및 수신자 조작 특성(ROC) 곡선의 곡선 아래 면적이 포함될 수 있다.
한 측면에서, 본 개시 내용은 대상체에서 질환의 존재 또는 부재를 검출하기 위한 컴퓨터 구현 방법으로서, (a) 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드 세트를 제공하는 단계; (b) 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 단계; (c) 커버리지 패턴을 처리하여 신호를 제공하는 단계; (d) 신호를 참조 신호로 처리하여 대상체에서 질환의 존재 또는 부재를 검출하거나 질환을 진단하는 단계로서, 신호와 참조 신호는 상이한 주파수를 갖는 것인 단계를 포함하는 방법을 제공한다.
일부 예에서, DNA는 무세포 DNA이다.
일부 예에서, 질환은 암이다.
(b)는 서열 리드 세트를 참조 서열에 정렬시켜 정렬된 서열 패턴을 제공하는 단계, 전사 인자의 결합 부위에 상응하는 정렬된 서열 패턴의 영역을 선택하는 단계, 및 영역에서 정렬된 서열 패턴을 정규화하는 단계를 포함한다.
일부 예에서, (c)는 저주파 통과 필터를 사용하는 단계를 포함한다. 일부 예에서, (c)는 사비츠키-골레이 필터를 사용하는 단계를 포함한다.
일부 예에서, 대상체는 인간이다.
일부 예에서, 전사 인자는 암 특이적 전사 인자이다.
일부 예에서, 적어도 2개, 또는 적어도 5개, 또는 적어도 10개, 또는 적어도 15개, 또는 적어도 20개, 또는 적어도 25개의 전사 인자 결합 부위에 대한 접근성 점수를 결정하고 건강한 대상체와 암 환자 사이를 구별할 수 있는 분류기를 훈련하기 위한 기계 학습 모델에 입력한다.
일부 예에서, 적어도 2개, 또는 적어도 5개, 또는 적어도 10개, 또는 적어도 15개, 또는 적어도 20개, 또는 적어도 25개의 전사 인자 결합 부위에 대한 접근성 점수를 결정하고 질환 진행자와 비-진행자 사이, 복수의 질환 아형 중 질환 아형 사이, 복수의 질환 단계 중 질환 단계 사이, 또는 이들의 임의의 조합을 구별할 수 있는 분류기를 훈련하기 위한 기계 학습 모델에 입력한다.
일부 예에서, 적어도 2개, 또는 적어도 5개, 또는 적어도 10개, 또는 적어도 15개, 또는 적어도 20개, 또는 적어도 25개의 전사 인자 결합 부위에 대한 접근성 점수를 결정하고 질환 치료 반응자와 비-반응자 사이를 구별할 수 있는 분류기를 훈련하기 위한 기계 학습 모델에 입력한다.
한 측면에서, 본원에 기재된 방법은 치료 계획 및 반응성을 포함하여 환자 관리에 중요한 임상적 의의를 가질 수 있는, 예를 들어, 종양 아형(예를 들어, 전립선암, 결장직장암, 유방암, 폐암의 아형)을 포함하는 종양 유형에 의해 환자의 분류를 가능하게 한다. 따라서, 환자 샘플(예를 들어, 혈액, 혈장, 또는 혈청 샘플)을 기반으로 하여 생체 내에서 종양 특이적 전사 인자 결합을 맵핑하기 위한 본원에 제공된 방법은 비코딩 게놈의 주요 부분을 임상 분석에 적용할 수 있게 만든다.
일부 예에서, 방법은 질환의 아형을 구별한다.
일부 예에서, 방법은 암의 아형을 구별한다.
일부 예에서, 방법은 전립선암, 결장직장암, 유방암, 및 폐암의 아형을 구별한다.
또 다른 측면에서, 본 개시 내용은 대상체에서 질환의 진행 또는 완화를 모니터링하기 위한 컴퓨터 구현 방법으로서, (a) 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터 제1의 서열 리드 세트 및 1차 시기보다 늦은 2차 시기에 대상체로부터 추출된 DNA로부터 제2의 서열 리드 세트를 제공하는 단계; (b) 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 제2의 서열 리드 세트를 사용하여 전사 인자에 대한 제2 커버리지 패턴을 생성하는 단계; (c) 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 단계; (d) 제1 신호를 참조 신호로 처리하는 단계로서, 제1 신호와 참조 신호는 상이한 주파수를 갖는 것인 단계; (e) 제2 신호를 참조 신호로 처리하는 단계로서, 제2 신호와 참조 신호는 상이한 주파수를 갖는 것인 단계; 및 (f) 제1 신호 및 제2 신호를 참조 신호로 처리하는 것을 기반으로 하여, 대상체에서 질환의 진행 또는 완화를 모니터링하는 단계를 포함하는 방법을 제공한다.
일부 예에서, DNA는 무세포 DNA이다.
일부 예에서, 질환은 암이다.
일부 예에서, (b)는 제1의 서열 리드 세트 및 제2의 서열 리드 세트를 참조 서열에 정렬시켜 제1의 정렬된 서열 패턴 및 제2의 정렬된 서열 패턴을 각각 제공하는 단계, 및 전사 인자의 결합 부위에 상응하는 제1의 정렬된 서열 및 제2의 정렬된 서열 패턴의 영역을 선택하는 단계, 및 영역에서 제1의 정렬된 서열 패턴 및 제2의 정렬된 서열 패턴을 정규화하는 단계를 포함한다.
일부 예에서, (c)는 저주파 통과 필터를 사용하는 단계를 포함한다. 일부 예에서, (c)는 사비츠키-골레이 필터를 사용하는 단계를 포함한다.
일부 예에서, 대상체는 인간이다.
일부 예에서, 전사 인자는 암 특이적 전사 인자이다.
추가의 측면에서, 본 개시 내용은 대상체에서 질환을 검출 또는 진단하기 위한 시스템으로서, (i) 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 단계; (ii) 커버리지 패턴을 처리하여 신호를 제공하는 단계로 신호는 참조 신호와 상이한 주파수를 갖는 것인 단계; (iii) 신호를 기반으로 하여, 대상체에 대해 질환의 검출 또는 진단을 제공하는 단계로 구성된 프로세서를 포함하는 시스템을 제공한다.
또 다른 측면에서, 본 개시 내용은 대상체에서 치료 과정 중에 또는 후에 질환의 진행 또는 완화를 모니터링하기 위한 시스템으로서, (i) 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터 제1의 서열 리드 세트 및 1차 시기보다 늦은 치료 중 또는 후의 2차 시기에 대상체로부터 추출된 DNA로부터 제2의 서열 리드 세트를 사용하여 제1의 서열 리드 세트에 상응하는 전사 인자에 대한 제1 커버리지 패턴 및 제2의 서열 리드 세트에 상응하는 전사 인자에 대한 제2 커버리지 패턴을 생성하는 단계; (ii) 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 단계로 제1 신호 및 제2 신호는 참조 신호와 상이한 주파수를 갖는 것인 단계; 및 (iii) 제1 신호 및 제2 신호를 참조 신호로 처리하는 것을 기반으로 하여, 대상체에서 치료 과정 중에 또는 후에 질환의 진행 또는 완화를 모니터링하는 단계로 구성된 프로세서를 포함하는 시스템을 제공한다.
추가의 측면에서, 본 개시 내용은 대상체에서 질환을 검출 또는 진단하기 위한 시스템으로서, (i) 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 단계; (ii) 커버리지 패턴을 처리하여 신호를 제공하는 단계로 신호는 참조 신호와 상이한 주파수를 갖는 것인 단계; (iii) 신호를 기반으로 하여, 대상체에 대해 질환의 검출 또는 진단을 제공하는 단계로 구성된 프로세서를 포함하는 시스템을 제공한다.
일부 실시 양태에서, 훈련된 분류기는 대상체가 적어도 약 5%, 적어도 약 10%, 적어도 약 15%, 적어도 약 20%, 적어도 약 25%, 적어도 약 30%, 적어도 약 35%, 적어도 약 40%, 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 81%, 적어도 약 82%, 적어도 약 83%, 적어도 약 84%, 적어도 약 85%, 적어도 약 86%, 적어도 약 87%, 적어도 약 88%, 적어도 약 89%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 그 이상의 질환, 장애, 또는 비정상 상태(예를 들어, 암)의 위험에 있음을 결정할 수 있다.
훈련된 분류기는 대상체가 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 81%, 적어도 약 82%, 적어도 약 83%, 적어도 약 84%, 적어도 약 85%, 적어도 약 86%, 적어도 약 87%, 적어도 약 88%, 적어도 약 89%, 적어도 약 90%, 적어도 약 91%, 적어도 약 92%, 적어도 약 93%, 적어도 약 94%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 적어도 약 99.1%, 적어도 약 99.2%, 적어도 약 99.3%, 적어도 약 99.4%, 적어도 약 99.5%, 적어도 약 99.6%, 적어도 약 99.7%, 적어도 약 99.8%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 또는 그 이상의 정확도로 질환, 장애, 또는 비정상 상태의 위험에 있음을 결정할 수 있다.
대상체가 질환, 장애, 또는 비정상 상태를 갖는 것으로 확인되면, 대상체에게 치료적 중재(예를 들어, 대상체의 질환, 장애, 또는 비정상 상태를 치료하기 위한 적절한 치료 과정의 처방)이 제공될 수 있다. 치료적 중재는 유효량의 약물 처방, 질환, 장애, 또는 비정상 상태의 추가 검사 또는 평가, 질환, 장애, 또는 비정상 상태의 추가 모니터링, 또는 이들의 조합을 포함할 수 있다. 대상체가 현재 치료 과정을 통해 질환, 장애, 또는 비정상 상태에 대해 치료를 받는다면, 치료적 중재는 후속의 다른 치료 과정(예를 들어, 현재 치료 과정의 비효능으로 인한 치료 효능을 증가시키기 위한)을 포함할 수 있다.
치료적 중재는 질환, 장애, 또는 비정상 상태의 진단 또는 기타 평가를 확인하기 위한 2차 임상 검사를 대상체에게 추천하는 단계를 포함할 수 있다. 이 2차 임상 검사는 영상 검사, 혈액 검사, 컴퓨터 단층 촬영(CT) 스캔, 자기 공명 영상(MRI) 스캔, 초음파 스캔, 흉부 X선, 양전자 방출 단층 촬영(PET) 스캔, PET-CT 스캔, 세포학 분석, 또는 이들의 임의의 조합을 포함할 수 있다.
복수의 입력 변수(예를 들어, TFBS 정보)는 환자(예를 들어, 질환, 장애, 또는 비정상 상태를 갖거나 질환, 장애, 또는 비정상 상태에 대해 치료중인 대상체)를 모니터링하기 위해 일정 기간에 걸쳐 평가될 수 있다. 이러한 경우, 환자 샘플의 입력 변수(예를 들어, TFBS 정보)는 치료 과정에서 변화될 수 있다. 예를 들어, 효과적인 치료로 인해 질환, 장애, 또는 비정상 상태의 위험이 감소하는 환자의 TFBS 정보는 건강한 대상체(예를 들어, 질환, 장애, 또는 비정상 상태가 없는 대상체)의 프로파일 또는 분포로 이동할 수 있다. 반대로, 예를 들어, 효과가 없는 치료로 인해 질환, 장애, 또는 비정상 상태의 위험이 증가하는 환자의 TFBS 정보는 질환, 장애, 또는 비정상 상태의 위험이 더 높거나 질환, 장애, 또는 비정상 상태의 더 진행된 상태가 대상체의 프로파일 또는 분포로 이동할 수 있다.
대상체의 질환, 장애, 또는 비정상 상태를 치료하기 위한 치료 과정을 모니터링함으로써 대상체의 질환, 장애, 또는 비정상 상태를 모니터링할 수 있다. 모니터링은 2개 이상의 시점에서 대상체의 TFBS 정보를 평가하는 단계를 포함할 수 있다. 평가는 2개 이상의 시점 각각에서 결정된 TFBS 정보를 적어도 기반으로 할 수 있다.
일부 예에서, 2개 이상의 시점 사이에 결정된 TFBS 정보의 차이는 (i) 대상체의 질환, 장애, 또는 비정상 상태의 검출 또는 진단, (ii) 대상체의 질환, 장애, 또는 비정상 상태의 예후, (iii) 대상체의 질환, 장애, 또는 비정상 상태의 증가된 위험, (iv) 대상체의 질환, 장애, 또는 비정상 상태의 감소된 위험, (v) 대상체의 질환, 장애, 또는 비정상 상태를 치료하기 위한 치료 과정의 효능, 및 (vi) 대상체의 질환, 장애, 또는 비정상 상태를 치료하기 위한 치료 과정의 비효능과 같은 하나 이상의 임상 징후를 나타낼 수 있다.
일부 예에서, 2개 이상의 시점 사이에서 결정된 TFBS 정보의 차이는 대상체의 질환, 장애, 또는 비정상 상태의 진단을 나타낼 수 있다. 예를 들어, 질환, 장애, 또는 비정상 상태가 이전 시점에 대상체에서 검출되지 않았지만 나중 시점에 대상체에서 검출된 경우, 그 차이는 대상체의 질환, 장애, 또는 비정상 상태의 검출 또는 진단을 나타낸다. 대상체의 질환, 장애, 또는 비정상 상태의 검출 또는 진단의 이러한 지표를 기반으로 하여 예를 들어, 대상체에 대한 새로운 치료적 중재를 처방하는 것과 같은 임상적 조치 또는 결정이 이루어질 수 있다. 임상적 조치 또는 결정은 질환, 장애, 또는 비정상 상태의 진단을 확인하기 위해 2차 임상 검사를 대상체에게 추천하는 단계를 포함할 수 있다. 이 2차 임상 검사는 영상 검사, 혈액 검사, 컴퓨터 단층 촬영(CT) 스캔, 자기 공명 영상(MRI) 스캔, 초음파 스캔, 흉부 X선, 양전자 방출 단층 촬영(PET) 스캔, PET-CT 스캔, 세포학 분석, 또는 이들의 임의의 조합을 포함할 수 있다.
일부 예에서, 2개 이상의 시점 사이에 결정된 TFBS 정보의 차이는 대상체의 질환, 장애, 또는 비정상 상태의 예후를 나타낼 수 있다.
일부 예에서, 2개 이상의 시점 사이에 결정된 TFBS 정보의 차이는 질환, 장애, 또는 비정상 상태의 위험이 증가한 대상체를 나타낼 수 있다. 예를 들어, 질환, 장애, 또는 비정상 상태가 이전 시점과 이후 시점 모두에서 대상체에서 검출된 경우, 그 차이는 질환, 장애 또는 질환의 위험이 증가한 대상체를 나타낼 수 있다. 질환, 장애, 또는 비정상 상태의 증가된 위험에 대한 이러한 지표를 기반으로 하여 임상 조치 또는 결정, 예를 들어, 대상체에 대한 새로운 치료적 중재의 처방 또는 치료적 중재의 전환(예를 들어, 현재 치료 종료 및 새로운 치료 처방)이 이루어질 수 있다. 임상적 조치 또는 결정은 질환, 장애, 또는 비정상 상태의 증가된 위험을 확인하기 위해 2차 임상 검사를 대상체에게 추천하는 단계를 포함할 수 있다. 이 2차 임상 검사는 영상 검사, 혈액 검사, 컴퓨터 단층 촬영(CT) 스캔, 자기 공명 영상(MRI) 스캔, 초음파 스캔, 흉부 X선, 양전자 방출 단층 촬영(PET) 스캔, PET-CT 스캔, 세포학 분석, 또는 이들의 임의의 조합을 포함할 수 있다.
일부 예에서, 2개 이상의 시점 사이에 결정된 TFBS 정보의 차이는 질환, 장애, 또는 비정상 상태의 위험이 감소한 대상체를 나타낼 수 있다. 예를 들어, 질환, 장애, 또는 비정상 상태가 이전 시점과 이후 시점 모두에서 대상체에서 검출된 경우, 그 차이는 질환, 장애, 또는 비정상적인 상태. 질환, 장애, 또는 비정상 상태의 위험이 감소한 대상체를 나타낼 수 있다. 질환, 장애, 또는 비정상 상태의 감소한 위험의 지표를 기초로 하여 표시를 기반으로 임상 조치 또는 결정, 예를 들어, 대상체에 대한 새로운 치료적 중재의 처방 또는 치료적 중재의 전환(예를 들어, 현재 치료의 지속 또는 종료)이 이루어질 수 있다. 임상적 조치 또는 결정은 질환, 장애, 또는 비정상 상태의 증가된 위험을 확인하기 위해 2차 임상 검사를 대상체에게 추천하는 단계를 포함할 수 있다. 이 2차 임상 검사는 영상 검사, 혈액 검사, 컴퓨터 단층 촬영(CT) 스캔, 자기 공명 영상(MRI) 스캔, 초음파 스캔, 흉부 X선, 양전자 방출 단층 촬영(PET) 스캔, PET-CT 스캔, 세포학 분석, 또는 이들의 임의의 조합을 포함할 수 있다.
일부 예에서, 2개 이상의 시점 사이에 결정된 TFBS 정보의 차이는 질환, 장애, 또는 비정상 상태를 치료하기 위한 치료 과정의 효능을 나타낼 수 있다. 예를 들어, 질환, 장애, 또는 비정상 상태가 이전 시점에 대상체에서 검출되었지만 나중 시점에 대상체에서 검출되지 않은 경우, 그 차이는 대상체의 질환, 장애, 또는 비정상적인 상태를 치료하기 위한 치료 과정의 효능을 나타낼 수 있다. 질환, 장애, 또는 비정상적인 상태를 치료하기 위한 치료 과정의 효능의 지표를 기반으로 하여 임상 조치 또는 결정, 예를 들어 대상체에 대한 현재 치료적 중재의 지속 또는 종료가 이루어질 수 있다. 임상적 조치 또는 결정은 질환, 장애, 또는 비정상 상태를 치료하기 위한 치료 과정의 효능을 확인하기 위해 2차 임상 검사를 대상체에게 추천하는 단계를 포함할 수 있다. 이 2차 임상 검사는 영상 검사, 혈액 검사, 컴퓨터 단층 촬영(CT) 스캔, 자기 공명 영상(MRI) 스캔, 초음파 스캔, 흉부 X선, 양전자 방출 단층 촬영(PET) 스캔, PET-CT 스캔, 세포학 분석, 또는 이들의 임의의 조합을 포함할 수 있다.
일부 예에서, 2개 이상의 시점 사이에 결정된 TFBS 정보의 차이는 질환, 장애, 또는 비정상 상태를 치료하기 위한 치료 과정의 비-효능을 나타낼 수 있다. 예를 들어, 질환, 장애, 또는 비정상 상태가 이전 시점과 나중 시점 모두에서 대상체에서 검출되는 경우와 효능적인 치료가 이전 시점에 나타난 경우, 그 차이는 대상체의 질환, 장애, 또는 비정상적인 상태를 치료하기 위한 치료 과정의 비-효능을 나타낼 수 있다. 질환, 장애, 또는 비정상적인 상태를 치료하기 위한 치료 과정의 비-효능의 지표를 기반으로 하여 임상 조치 또는 결정, 예를 들어 대상체에 대한 현재 치료적 중재의 종료 및/또는 다른 새로운 치료적 중재로의 전환(예를 들어, 처방)이 이루어질 수 있다. 임상적 조치 또는 결정은 질환, 장애, 또는 비정상 상태를 치료하기 위한 치료 과정의 비-효능을 확인하기 위해 2차 임상 검사를 대상체에게 추천하는 단계를 포함할 수 있다. 이 2차 임상 검사는 영상 검사, 혈액 검사, 컴퓨터 단층 촬영(CT) 스캔, 자기 공명 영상(MRI) 스캔, 초음파 스캔, 흉부 X선, 양전자 방출 단층 촬영(PET) 스캔, PET-CT 스캔, 세포학 분석, 또는 이들의 임의의 조합을 포함할 수 있다.
B. 징후
개시된 방법에 의해 추론될 수 있는 암의 비제한적인 예는 급성 림프모구성 백혈병(ALL), 급성 골수성 백혈병(AML), 부신피질 암종, 카포시 육종, 항문암, 기저 세포 암종, 담관암, 방광암, 골암, 골육종, 악성 섬유 조직구종, 뇌간 신경 교종, 뇌암, 두개인두종, 뇌실막 모세포종, 뇌실막 세포종, 수모세포종, 수질 상피종, 송과체 실질 종양, 유방암, 기관지 종양, 버킷 림프종, 비호지킨 림프종, 카르시노이드 종양, 자궁 경부암, 척색종, 만성 림프구성 백혈병(CLL), 만성 골수성 백혈병(CML), 결장암, 결장직장암, 피부 T 세포 림프종, 유관 상피내 암종, 자궁내막암, 식도암, 유잉 육종, 안암, 안내 흑색종, 망막 모세포종, 섬유 조직 구종, 담낭암, 위암, 신경 교종, 모세포 백혈병, 두경부암, 심장암, 간세포(간) 암, 호지킨 림프종, 하인두암, 신장암, 후두암, 구순암, 구강암(oral cavity cancer), 폐암, 비소세포 암종, 소세포 암종, 흑색종, 구강암(mouth cancer), 골수이형성 증후군, 다발성 골수종, 수모세포종, 비강암, 부비동암, 신경 모세포종, 비인두암, 구강암(oral cancer), 구인두암, 골육종, 난소암, 췌장암, 유두종증, 부신경절종, 부갑상선암, 음경암, 인두암, 뇌하수체 종양, 형질 세포 신생물, 전립선암, 직장암, 신세포 암, 횡문근 육종, 침샘암, 세자리 증후군, 피부암, 소장암, 연조직 육종, 편평세포 암종, 고환암, 인후암, 흉선종, 갑상선암, 요도암, 자궁암, 자궁 육종, 질암, 외음부암, 발텐스트롬 마크로글로불린혈증, 및 윌름 종양을 포함한다.
다양한 예에서, 종양은 결장직장암, 진행성 선종, 궤양성 대장염, 크론병, 과민성 대장 증후군(IBS)으로 이루어진 군으로부터 선택된 결장직장 질환이다.
일부 예에서, 결장직장암은 0기, I기, IIA기, IIB기, IIC기, IIIA기, IIIB기, IIIC기, IVA기, IVB기, 또는 IVC기와 같은 병기로 분류된다.
실시예
실시예 1: 무세포 DNA로부터의 세포 특이적 전사 인자 결합의 추론은 종양 아형 예측 및 암의 조기 검출을 가능하게 한다
본 개시 내용의 방법 및 시스템에 따라, 전사 인자 결합 부위의 접근성을 결정하기 위한 분석 프로그램을 개발하였고, 이 프로그램을 전립선암, 유방암, 또는 결장암 환자의 244개의 cfDNA 샘플에 적용하였다.
cfDNA로부터 TF 결합의 추론으로 암과 그 이외에서 엄청난 진단 잠재력을 갖고, 개선되고 최적화된 생물 정보학 파이프 라인을 개발하였다. 이 과정은 TFBS에서 뉴클레오솜 시그니처와 관련된 구성 요소를 분석하여 상이한 혈장 샘플에서 TFBS 접근성을 객관적으로 평가하고 비교할 수 있다. 임상 목적을 위해 이 파이프 라인을 검증하기 위해서, 건강한 기증자의 24개의 혈장 샘플과 전이성 전립선암, 결장암, 또는 유방암 환자의 15개의 혈장 샘플에서 심층 전체 게놈 시퀀싱(WGS) 데이터를 얻었으며, 여기서 cfDNA는 순환하는 종양 DNA(ctDNA)도 포함한다. 또한, 앞서 언급한 종양 개체를 가진 환자의 229개의 혈장 샘플에 대해 얕은 WGS 데이터를 생성하였다(총 185억 개 초과의 맵핑된 혈장 서열 리드). 결장암 환자(n=592) 및 건강한 대조군(n=177) 환자의 추가 769개의 혈장 샘플도 포함하였다(약 2,380억 개의 맵핑된 혈장 서열 리드 제공). 이 접근법은 여러 세포 유형으로 인한 cfDNA 신호의 혼합물 및 다른 접근법에 따라 푸리에 변환에 의한 분석을 사용하여 일반적인 조직 특이적 패턴을 설정하는 대신에 개별 TF를 프로파일링한다. 본원에 제공된 방법 및 시스템은 조직 기여 및 생물학적 과정 모두에 대한 통찰을 제공하며, 이는 기원 조직 및 기원 종양 분석 모두에 적합한 계통 특이적 TF의 확인을 가능하게 한다. 또한, 암환자의 cfDNA에서 TFBS 가소성과 전립선암 아형을 분류하기 위한 TF의 잠재력을 관련 임상 적용의 두 가지 예를 통해 입증한다. 첫째, 이러한 TF 기반 cfDNA 분석으로 전립선 선암종과 소세포 신경 내분비 전립선암을 구별할 수 있으며, 그 구별은 중요한 치료적 의의를 갖는다. 둘째, 대규모 결장암 코호트로 분해능 한계를 정확하게 설정하고 초기 암 병기를 검출하기 위한 TF 기반 혈장 분석의 용도를 탐색할 수 있었다.
진행된 암이 있는 개인의 소규모 패널(n=5) 분석은 cfDNA 단편화 패턴을 사용하여 비-조혈 시그니처를 검출할 수 있음을 입증하였다. cfDNA로부터 TF-뉴클레오솜 상호 작용 맵핑의 잠재력을 더 자세히 조사하기 위해, 알려진 조혈 TF 뉴클레오솜 지문을 건강한 대조군의 혈장 샘플에서 확인하였다. 유전자 전사 조절 데이터베이스(GTRD)에서 큐레이트된 TFBS 목록은 676개의 TF에 대한 cfDNA 포괄적인 TFBS 뉴클레오솜 점유 지도로부터 생기는 알려진 또는 가능성이 있는 인간 TF의 최근에 공개된 목록으로 주석을 달았다. 본원에 제공된 생물 정보학 파이프 라인을 사용하여, TFBS에서 뉴클레오솜 시그니처를 측정하고 "접근성 점수"라고 하는 메트릭, 및 z-점수 통계를 설정하여 상이한 혈장 샘플에서 TFBS 접근성의 중요한 변화를 객관적으로 비교하기 위해 상이한 엄격성 기준을 평가하였다. 임상 목적을 위해, cfDNA의 기원 조직 또는 암 환자에서 기원 종양을 확인하기 위해 일련의 계통 특이적 TF를 사용하였다. 마지막으로, 접근성 점수 및 z-점수 통계를 사용하여 암 환자의 cfDNA에서 TFBS 접근성 변화를 설명하였다.
TF 결합 부위(TFBS)에 상대적인 게놈에서 뉴클레오솜의 정확한 위치를 아는 것은 유전자가 어떻게 조절되는지 이해하는 데 유용하다. 이를 위해, 암 환자에서 순환하는 종양 DNA(ctDNA)를 또한 포함하는 혈장의 무세포 DNA(cfDNA) 분석은 인간의 생체 내에서 비침습적으로 TFBS를 연구할 수 있는 향상된 기회를 제공한다. cfDNA는 주로 자멸 세포로부터 효소 소화 후에 방출되기 때문에, 대부분 모노뉴클레오솜 DNA로서 순환한다. 따라서, cfDNA 단편의 시퀀싱은 "완벽하게 배치된" 뉴클레오솜의 다이애드, 예를 들어 높은 뉴클레오솜 선호도를 갖는 부위가 뉴클레오솜의 위상을 반영하는 강한 리드 피크를 생성하는 반면 덜 우선적으로 배치된 뉴클레오솜의 다이애드는 감소된 피크를 보이거나 피크를 전혀 보이지 않는 뉴클레오솜 지도를 생성할 수 있다. 따라서, cfDNA는 전체 게놈 시퀀싱에 의해 뉴클레오솜 점유의 생체 내 지도를 생성할 수 있는 내인성 생리학적 과정에 의해 생성된 고유한 분석물을 대표한다. 이것은 전사 시작 부위(TSS)에서 뉴클레오솜 점유에 대한 상세한 분석에 의해 발현된 유전자를 추론하는 데 활용될 수 있다. cfDNA 뉴클레오솜 점유는 TF의 지문을 반영할 수 있다. 암이 있는 개인의 소규모 패널(n=5)에서 cfDNA 단편화 패턴을 참조 데이터 세트와 대응시켜 비-조혈 시그니처를 검출하였다. 그러나 TF-뉴클레오솜 상호 작용은 대부분 맵핑되지 않은 상태로 남아 있으며, 인간의 생체 내에서 게놈 규모에 대한 TF 실시간 동적 측정값을 얻을 필요가 있다.
cfDNA의 뉴클레오솜 위치 맵핑 전략 및 생물 정보학 파이프 라인을 사용하여 다음 문제를 해결한다: (1) cfDNA가 알려진 TF-뉴클레오솜 상호 작용을 정확하게 반영하는지 여부; (2) 676개의 TF에 대한 데이터를 포함하는 가장 포괄적인 TF-뉴클레오솜 상호 작용 지도를 생성하는 문제; (3) "접근성 점수"라고 하는 개선된 메트릭을 설정하여 동일한 사람 또는 상이한 개인의 연속 분석에서 TFBS의 접근성을 객관적으로 비교하는 문제; 및 (4) cfDNA의 기원 조직 또는 암 환자에서 기원 종양을 확인하기에 적합한 계통 특이적 TF 세트를 정의하는 문제. 게다가, 이 연구에서 암 환자의 cfDNA로부터 TFBS 추적이 TFBS 접근성 변화 및 관련 경로를 설명할 수 있는 지의 여부도 조사하였다. 이를 위해, 건강한 기증자(남성 12명, 여성 12명)의 24개의 혈장 샘플과 전이성 전립선암, 결장암, 또는 유방암 환자의 16개의 혈장 샘플로부터 높은 커버리지의 전체 게놈 시퀀싱(WGS) 데이터를 얻었다. 또한, 확인 목적을 위해 229명의 환자의 cfDNA 얕은 커버리지 시퀀싱 데이터를 앞서 언급한 종양 개체와 함께 사용하여 모두 183억 개 초과의 맵핑된 혈장 서열 리드를 생성하여 비코딩 게놈의 중요한 부분에 대한 광범위한 생체 내 관점을 제공하였다.
cfDNA에서 추론한 뉴클레오솜 점유는 특징적인 TF 결합 지문을 보여준다
TFBS에서 뉴클레오솜 점유 지도를 준비하고 건강한 개인과 암 환자 사이의 유사성과 차이점에 대해 시험하였다. 이를 위해, 높은 커버리지의 cfDNA 샘플을 cfDNA의 대다수(90% 초과)가 다른 조직으로부터 기여가 최소인 백혈구 세포의 아폽토시스로부터 유래하는 24명의 건강한 대조군(남성과 여성, 각각 12명), 및 3개의 일반적인 종양 개체를 가진 7명의 환자, 예를 들어 18-78% 범위의 ctDNA 분율을 포함한 전립선암 4건(P40, P147, P148, 및 P190), 결장직장암 1건(CRC; C2), 및 유방암 2건(B7 및 B13)(도 5)으로부터 유래한 11개의 혈장 샘플로부터 얻었다.
유전자 전사 조절 데이터베이스(GTRD; 버전 18.01)의 676개의 TF를 사용하였는데, 그 이유는 이들이 다양한 조직 샘플에 대한 ChIP-seq 데이터를 기반으로 한 상세한 TFBS 정보를 포함하기 때문이다. TF는 알려진 또는 가능성 있는 1,639개의 인간 TF의 최신 큐레이트된 목록으로 주석을 달았다(도 6a). TF가 가변 주파수로 결합하는 잠재적으로 많은 수의 TFBS 때문에, 세 가지 상이한 엄격성 기준을 정의하였다(도 6a): 첫째, GTRD의 모든 조직 샘플에 대한 모든 TFBS; 둘째, 최대 샘플 수의 50% 초과가 지지하는 피크(이후 ">50%-TFBS"로 지칭함; 이 두 분석에서 전체 676개의 GTRD TF가 포함되었음); 셋째, 대부분의 샘플에서 지지하는 TF당 1,000개의 TFBS("1,000-msTFBS", 505개의 TF가 이 기준을 충족시켰음).
TF - 뉴클레오솜 상호 작용의 확립
[도 2a-2e]는 무세포 데옥시리보핵산(cfDNA)으로부터 TF-뉴클레오솜 상호 작용의 확립을 보여준다. [도 2a]는 고도로 조직화된, 예를 들어 위상화된 뉴클레오솜이 있는 영역이 진동하는 리드 깊이 패턴을 생성함을 보여주며, 여기서 리드 피크는 다이애드, 예를 들어 표준 뉴클레오솜의 중간점의 위치를 나타낸다. 뉴클레오솜의 덜 정의된 배치는 다소 평평한 커버리지 프로파일을 생성한다. [도 2b]는 676개의 TF에 대한 TFBS 데이터가 GTRD에서 검색되었고 알려진 또는 가능성 있는 인간 TF의 큐레이트된 목록과 정렬되었음을 보여준다. 각각 증가된 엄격도로 세 가지 상이한 계산을 수행하였다. [도 2c]는 CCCTC 결합 인자(CTCF)의 커버리지 패턴이 분석된 모든 cfDNA 걸쳐 유사함을 보여주며, 이는 혈액(GM12878) 및 상피 조직, 예를 들어, 전립선(LNCaP) 및 결장(HCT116))에서 거의 동일한 접근성을 보여주는 DNase 과민성 데이터와 일치한다. 이 패널과 각각의 후속 패널에서, 건강한 대조군으로부터 계산된 프로파일은 회색으로 표시되는 반면, 환자 유래 프로파일은 나타낸 색상으로 표시된다. [도 2d]는 TF(PU.1, LYL1, SPIB)의 조혈 계통 특이성이 DNA 과민성 분석에 의해 확인되었으며 그 진폭이 암 환자의 혈장에서 건강한 대조군에 비해 감소됨을 보여준다. 대조적으로, 상피 TF GRHL2의 진폭은 암 환자의 cfDNA에서 증가한다. [도 2e]는 TF FOXA1에 대한 접근성 플롯 및 DNase 과민성을 보여주며, 이는 호르몬 의존성 암, 예를 들어 전립선암 및 유방암 환자에서 우선적인 진폭 변화를 보여준다.
건강한 대조군으로부터 24개의 cfDNA 샘플을 사용하여 샘플당 평균 435,135,450(범위: 352,904,231-556,303,420) 시퀀싱 리드를 얻었다. TF 결합 부위는 종종 주기적인 진동 패턴으로 보이는 강하게 배치된 뉴클레오솜의 배열이 측면에 위치하였다(도 6a-6e). 대조적으로, 음성 대조군 정상의 고분자량 DNA를 사용하여 TFBS에 대한 균일한 커버리지를 관찰하였다(도 8a-8e). 강하게 위치된 뉴클레오솜의 어레이로 둘러싸인 CTCF 결합 부위는 cfDNA가 건강한 대조군에서 유래되었는 지 또는 암 환자에서 유래되었는 지에 관계없이 분석된 모든 샘플에서 유사하게 유지되는 진동 커버리지 패턴을 산출하였다(도 2c). 이러한 결과는 세포주 GM12878(유럽 조상을 가진 여성 기증자의 B 림프구 세포주), LNCaP(안드로겐 감수성 인간 전립선 선암종 세포주), 및 HCT116(인간 결장암 세포주)에 대한 Encyclopedia of DNA Elements(ENCODE) 데이터베이스의 DNase 과민성 분석과 일치하였다(도 2c).
암 환자의 혈장 내 ctDNA는 건강한 대조군과 비교하여 조혈 세포 대 상피 세포의 DNA 사이의 균형을 변경하여, 예를 들어 계통 제한 조혈 TF 퓨린 풍부 상자 1(PU.1), LYL1(림포모구성 백혈병 1), 및 림프구 계통 제한 전사 인자 SPIB에 대해 진폭이 감소하고 상피 세포의 선구자 TF인 TF GRHL2에 대해 진폭이 증가한 암 유래 샘플을 생성하였다(도 2d). 또한, 공개적으로 이용 가능한 DNase 과민성 분석 데이터로 이들 TF의 계통 특이성을 확인하였다(도 2d). 잘 확립된 TF의 또 다른 예로서, 유방과 전립선의 내분비 유도 종양에서 핵 호르몬 수용체와 협력하는 FOXA1을 분석하였다. DNase 과민성 분석과 일치하여 전립선암 및 유방암 환자의 혈장 샘플에서 FOXA1의 우선적으로 증가된 접근성이 관찰되었다. 마이크로코커스 뉴클레아제(MNase) 분해에 의해 단일 뉴클레오솜 결합 DNA 단편이 생성된 ENCODE 데이터와의 비교를 또한 수행하였다(도 6a-6e 및 도 7). 커버리지 독립적인 분석을 수행하고(도 6b), 단일 인식 서열과 관련된 cfDNA 단편의 공간 밀도를 계산하였다(도 6c). 서열 특이적 TF는 표준 모티프 및 중요한 이차 모티프를 가질 수 있으며, 이는 다른 TF의 모티프에 해당할 수 있다. TFBS의 카탈로그를 또한 생성하였으며, 이는 전체 676개의 TF와 1,000-msTFBS로부터 505개의 TTF에 대해 하나 초과의 TF의 공동 결합에 의해 영향을 받을 수 있다(도 6d). 또한, 정제된 고분자량 DNA를 음성 대조군으로 사용하여 TFBS에 걸쳐 균일한 커버리지가 관찰되었다(도 6e). 따라서, 이러한 결과는 해당 TFBS 커버리지 프로파일이 서로 매우 유사하여 접근법의 높은 정확도를 보여주고 주어진 임의의 TF에 대해 얻은 패턴이 모든 샘플에서 재현 가능함을 보여주었다.
서열 특이적 TF는 표준 모티프 및 다른 TF의 모티프에 해당할 수 있는 중요한 2차 모티프를 가질 수 있으므로 다양한 TFBS 사이에 중첩을 계산하였다(도 6d). 하나 초과의 TF의 공동 결합에 의해 영향을 받을 수 있는 TFBS 목록을 생성하였다(도 27). 이러한 중첩의 효과에 대한 예는 TFBS 뉴클레오솜 프로파일이 실제로 유사했던 중첩 범위가 10 내지 36%인 TF SP1, SP2, NF-YA 및 NF-YB이다(도 13a). 혈액으로부터의 cfDNA의 우세한 기원은 특히 퓨린 풍부 상자 1(PU.1), LYL1(림포모구성 백혈병 1), 및 림프구 계통 제한된 전사 인자 SPI-B와 같은 계통 제한된 조혈 TF의 결합 부위의 측면에 있는 잘 배치된 뉴클레오솜에서 반영되었다(도 13a). 대조적으로, 상피 세포에 대한 선구자 TF인 GRHL2의 TFBS 프로파일은 실질적으로 감소된 진폭을 나타냈다(도 13a).
CTCF 결합 부위를 평가하였으며, 이는 앞서 언급한 3개의 상이한 엄격성 기준을 적용하는 강하게 배치된 뉴클레오솜의 배열로 둘러싸여 있고 우선적으로 >50%-TFBS 및 1,000-msTFBS에 대해 예상되는 진동 패턴을 관찰하였다(도 2c-2e). 또한, CTCF를 사용하여 별개의 결합 부위를 개별적으로 평가하고(도 17) 추가 확인에 따라 커버리지 독립적인 분석을 수행하였고(도 17) 단일 인식 서열과 관련된 cfDNA 단편의 공간 밀도를 계산하였다. 결과 히트맵은 대부분의 분석된 부위에서 뉴클레오솜 위상이 균일하다는 것을 보여 주었으며 이는 커버리지 프로파일과 일치한다.
[도 7]은 다양한 TF에 대한 TF-뉴클레오솜 상호 작용 지도를 보여준다. 전사 인자 결합 부위 주변의 cfDNA와 MNase-seq의 커버리지 프로파일 사이의 추가 비교를 나타낸다.
여러 상이한 결합 부위를 가진 TF에 대한 특별한 예로서의 CTCF
동일한 TF의 상이한 TFBS를 조사하기 위해, CCCTC 결합 인자(CTCF)를 사용하였다. CTCF는 포유류 게놈에서 55,000-65,000개의 결합 부위에 존재한다. 이들 부위 중, 약 5,000개가 극보존되어 있고, 약 50%가 유전자 간 영역에 있으며, 약 15%가 프로모터 근처에 위치하며, 약 40%가 유전자 내에 있다. 또한, 염색체는 토폴로지 연관 도메인(TAD)으로 명명된 진화적으로 보존된 고차 염색체 구조로 분할되며, 그 경계는 CTCF 및 코헤신의 결합 부위가 풍부하다. 포유류에서, 게놈 CTCF 결합 부위의 15%는 TAD 경계에 존재하는 반면, 나머지 85%는 TAD 내부에 있다.
TAD 경계와 중첩된 또는 TAD 경계 외부 CTCF 부위를 TSS에 근위(예를 들어, 약 2 kbp 이내) 또는 원위(2 kbp 초과), 및 극보존된 부위에서 개별적으로 분석하였다. 분석은 GTRD에서 모든 조직 유형으로 수행하였으며, 진폭이 가장 큰 극보존된 CTCF 부위를 사용하여 다양한 CTCF 커버리지 패턴을 얻었다(도 14a, 왼쪽 패널). GTRD에서 모든 샘플의 50% 초과에서 호출된 결합 부위에 분석을 제한하였을 때, 결과 프로파일은 서로 더 유사해졌다(도 14a, 오른쪽 패널). TFBS 신호의 커버리지 독립적인 확인으로서, 각 cfDNA 단편의 길이를 CTCF 결합 부위까지 단편 중간점의 거리의 함수로서 플롯팅하였다. 결과 히트맵으로 커버리지 기반 진동 패턴과 일치하는 신호 주기성을 확인하였다(도 6b). 또한, 단일 인식 서열과 관련된 단편의 지형을 보다 면밀하게 분석하기 위해, TFBS를 중심으로 한 2 kb 영역 내에서 cfDNA 단편의 공간 밀도를 계산하고, 중앙 40 bp의 커버리지에 따라 부위에 순위를 매겼다. 그 결과 히트맵은 분석된 대부분의 부위에서 뉴클레오솜 위상이 균일하다는 것을 보였으며(도 6c), 이는 역시 커버리지 프로파일과 일치한다.
"접근성 점수"는 cfDNA로부터 TF 결합의 정확한 추론을 가능하게 한다
뉴클레오솜이 개재 TF 결합에 의해 재배치되는 결합 부위는 각각의 DNA가 단백질 및 전사 및 복제 기구에 접근할 수 있도록 보장한다. 일부 TF는 그 결합 부위(예를 들어, [도 13b]에서 PU.1 및 GRHL2)를 포함하는 균일한 간격의 뉴클레오솜 피크를 나타냈던 반면, 다른 TF는 그 결합 부위에서 TSS에 대한 것과 유사한 더 넓은 골을 가졌다(예를 들어, 도 13a). 후자의 경우, TF의 실질적인 결합 부위 폭 차이를 측정하였다(도 8d). 이 측정으로 TFBS가 300 bp를 초과하는 55개의 TFBS를 확인했으며, 이 중 26개는 디-뉴클레오솜 크기(312-352 bp)에 가까운 결합 부위를 가졌다(도 28a-28b). 이러한 패턴이 CpG 아일랜드 프로모터에 대한 결합의 부작용인지 시험하기 위해서, 55개의 넓은 TF vs. 좁게 정의된 결합 부위를 가진 것에 대한 CpG 밀도(박스 플롯) 및 CpG 아일랜드와의 공동 국소화(막대 차트/원형 차트)에 대한 플롯을 생성하였다.
특정 계통 특이적 TF는 혈장 DNA의 기원 조직을 결정하는 데 적합하다. 그러나 이러한 애플리케이션에서 어떤 TF가 유용할 수 있는지 결정하려면, 예를 들어 cfDNA 내 결합 부위에서, TF의 접근성을 평가해야 한다. 종래의 방법은 cfDNA 내 결합 부위에서 TF 접근성을 활성의 대용으로서 평가하지 못할 수 있다. 이러한 접근법을 구현하기 위해서, TF 특이적 뉴클레오솜 커버리지 프로파일을 조사하였다. 전사 시작 부위(TSS) 내부 및 외부의 TFBS(도 8a) 및 모든 GTRD 조직 vs. >50%-TFBS(도 8b)에 대해 개별적으로 계산을 수행하였다. 이러한 분석은 평균 TFBS 패턴이 2가지 신호, TSS 근위(TSS의 2 kb 이내에서 "저주파 패턴" 생성) 및 더 균일한 간격의 피크 신호에 해당하는 TSS 원위(TSS 피크로부터 2kb 넘게 떨어져 "고주파 패턴" 생성)를 포함함을 보여주었다. 우선적인 뉴클레오솜 배치가 기여하지 않는 커버리지에 대한 영향을 없애고 뉴클레오솜 데이터에서 국소적 편향을 제거하기 위해 사비츠키-골레이 필터를 추세 제거에 사용하였다(도 3a). 그 후 획득된 저주파 신호를 사용하여 고주파 신호를 정규화하였으며, 이후 고주파 신호의 데이터 범위(데이터 값의 최댓값에서 최솟값을 뺀 값으로 진폭에 해당)를 기록하였다. 고주파 신호의 범위는 TFBS의 수에 따라 결정되므로(도 3b)(1,000-msTFBS 제외), 이 범위 값은 TFBS의 수에 따라 결정되므로(도 3b) LOESS 평활화에 의해 보정한 후 각 TFBS의 접근성에 대한 척도로 순위를 계산하였다. [도 3c]는 GRHL2의 웨이블렛 분석: GRHL2의 TFBS를 둘러싼 영역을 따라 주기의 히트맵(왼쪽 패널)을 보여준다. 색상 코드는 신호 전력 분포의 분위수를 나타낸다. 전사 인자 GRHL2 주기의 평균 전력(오른쪽 패널). [도 3d]는 웨이블렛 분석 결과 전사 인자 GRHL2의 추세가 제거된 원본(검은색) 및 재구성된(빨간색) 뉴클레오솜 커버리지 프로파일을 보여준다.
TF 접근성 평가를 위한 잠재적인 대안을 시험하기 위해, 135와 235 bp 사이 주기에서 추세가 제거된 신호를 웨이블렛 분석에 의해 재구성하고 신호의 전력을 TFBS 측면에 있는 2,000 bp에 걸쳐 합산하였다(도 3e-3f). 사비츠키-골레이 필터링 및 웨이블렛 분석의 성능을 벤치마킹하기 위해, cfRNA 데이터를 사용하였으며, 발현된 TF(예를 들어, 10 FPKM 초과)의 접근성과 비교하여 발현되지 않은 TF(예를 들어, <0.01 FPKM [Fragments Per Kilobase Million])에 대한 유의하게 감소된 접근성이 관찰되었다(>50%-TFBS; 사비츠키-골레이 필터링: p=1.75x10-13; 전력의 합(웨이블렛 분석): p=0.0004049; 1,000-msTFBS; 사비츠키-골레이 필터링: p=1.254x10-11; 각각 만-휘트니 U 검정)(도 14b). 이러한 차이는 조정된 범위를 평균 DNase 커버리지와 비교할 때 또한 유의하였다(>50%-TFBS; 사비츠키-골레이 필터링: p<2.2x10-16; 전력의 합(웨이블렛 분석): p<2.2x10-16; 1,000-msTFBS; 사비츠키-골레이 필터링: p<2.2x10-16; 각각 만-휘트니 U 검정). 사비츠키-골레이 필터링이 약간 더 잘 수행되었기 때문에 이 접근법을 선호하였으며, 그 후 표준 편차의 ± 3 평균(z-점수 3)으로서 정상 샘플에서 벗어난 TFBS 접근성에 대한 검출 임계값을 정의하였다. 전체 또는 > 50%-TFBS를 기반으로 한 평가의 경우, 정규화된 접근성 점수에 대한 검출 임계값은 분석 가능한 TF가 더 적은 1,000-msTFBS에 대해 ± 253 및 ± 88이었다(도 8c).
또한, cfDNA로부터 676개의 GTRD TF에 대해 포괄적인 TF-뉴클레오솜 상호 작용 지도를 생성하였다(도 14b; 도 17). TF-뉴클레오솜 상호 작용은 예를 들어 ENCODE Consortium의 ChIP-seq 데이터 세트를 사용하여 맵핑할 수 있으며, 119개의 인간 TF 주변의 염색질 구조를 특성화하였다. 이러한 노력으로 167개의 TF에 대한 데이터를 포함하는 TF 중심 웹 저장소 Factorbook을 생성하였다. 그러나 이 데이터는 생체 외 조직 샘플에 기반하는 반면, 본원에서는 내인성 과정에 의해 생성된 생체 내 접근성을 조사한다.
이러한 결과는 임상 진단에서 cfDNA를 사용하기 위한 특정 유용성을 가지고 TFBS 접근성을 평가하는 강력한 접근법을 입증한다.
여러 세포 유형에 걸친 cfDNA에서의 TFBS 접근성
3개의 일반적인 종양 개체로부터의 혈장 샘플을 사용하여 임상 적용을 입증하였다. 이 연구는 7명의 환자, 예를 들어 전립선암 4건의 사례(P40, P147, P148, P190), 1건의 결장직장암(CRC; C2), 2건의 유방암(B7 및 B13)으로부터 유래한 11개의 혈장 샘플의 분석으로 시작하였다(도 4a-4f). C2, P40, P147, 및 P148의 cfDNA는 Illumina NovaSeq 플랫폼에서 평균 688,482,254(범위: 541,216,395-870,285,698) 시퀀싱 리드로 시퀀싱한 반면, B7(328,515,075 리드) 및 B13(379,733,061 리드)는 Illumina NextSeq 플랫폼에서 시퀀싱하였다.
CTCF는 염색체 3D 구조를 조절하기 때문에 모든 조직에서 활성인 특수 전사 인자이며, 이는 조직 전체에서 보존된다. CTCF의 진폭은 cfDNA가 건강한 대조군 또는 암 환자로부터 유래하였는지에 관계없이 분석된 모든 샘플에서 유사하게 유지되었다(도 2c). 이것은 다양한 조직에 걸쳐 CTCF 결합 부위의 증가된 접근성을 보여주는 세포주 GM12878, LNCaP(안드로겐 감수성 인간 전립선 선암종 세포주) 및 HCT116(인간 결장암 세포주)에 대한 ENCODE 데이터베이스의 DNase 과민성 분석과 일치하였다(도 2c). 그러나 암 환자는 ctDNA의 분율이 증가하고, 이는 cfDNA 내에서 조혈 세포와 상피 세포 사이의 균형을 변경한다. 따라서, 조혈 TF(PU.1, Lyl-1 및 Spi-B)의 진폭은 감소한 반면 상피 TF GRH-L2의 진폭은 증가하였으며, 이는 조혈계의 기여도가 희석되고 상피 세포의 기여도가 증가함을 보여준다(도 2d). 이러한 관찰은 역시 DNase 과민성 분석과 일치하였다(도 2d).
잘 확립된 TF의 또 다른 예로서, 세포 분화 및 기관 기능을 조절하는 여러 조직에서 널리 발현되는 TF인 FOXA1을 분석하였다. 또한, FOXA1은 유방과 전립선의 내분비 유도된 종양에서 핵 호르몬 수용체와 협력하며 전립선에서 그 발현은 거세 저항성 전립선암(CRPC)과 관련되었다. 실제로, DNase 과민성 분석과 일치하여, 전립선 및 유방암 환자의 혈장 샘플에서 우선적으로 증가된 FOXA1 접근성이 관찰되었다(도 2e).
cfDNA로부터의 TF 결합의 추론은 전립선암에서 분자 아형 결정을 지원한다
일부 경우에, 조직 특이적 TF가 기원 종양의 확인 및 분자 아형 결정에 적합한 정도를 평가하는 것이 중요할 수 있다. 이를 위해서, 아비라테론 또는 엔잘루타미드와 같은 AR 경로를 표적화하는 신규 약물에 대한 치료 내성의 발생에서 빈번한(약 20%) 메커니즘이 선암종의 치료 응급의 소세포 신경 내분비 전립선암(t-SCNC)으로의 전환 분화이기 때문에 전립선암은 특히 흥미로운 종양 개체이다. 이러한 전환 분화는 치료의 변화를 필요로 하기 때문에 엄청난 임상적 의의를 가지며, 이러한 전환 분화 과정에서 여러 TF의 관여가 연구될 수 있다(도 4a).
여러 TF가 하나의 종양 개체에서 증가된 접근성으로 검출되었지만 다른 종양 개체에서는 검출되지 않았다. 예를 들어, CRC가 있는 환자 C2의 혈장 샘플은 c-Jun 및 JunD 종양 유전자에 대한 증가된 접근성을 보였고(도 15), DNA 과민성 분석으로 결장 편향으로 확인되었다(도 15).
전립선암 샘플에 대해 또 다른 분석을 수행하였다. 데이터는 문헌(Lambert et al., 2018) 및 공개적으로 사용 가능한 인간 단백질 아틀라스가 제공하는 조직 및 다양한 세포 유형에 걸친 인간 TF의 발현에 대해 데이터를 스크리닝하였고, TF AR, HOXB13, 및 NKX3-1의 잘 확립된 전립선 계통 특이성을 확인하였으며, 이는 전립선암 세포주 LNCaP의 DNase 과민성 분석에서도 반영되었다(도 4b-4d).
HOXB13은 전립선 발생에 중요하고 정상 전립선에서 성인기에 높은 발현 수준을 유지하는 고도로 계통 특이적인 호메오박스 TF 유전자이다(도 4b). NKX3 -1 호메오박스 유전자는 전립선 상피 성숙 동안 발현되는 가장 초기 유전자 중 하나이며, 전립선 상피의 분화에 중요하며 전립선 종양 진행에 필요하다(도 4c). 두 TF 모두 전립선암 환자의 cfDNA에서만 그 결합 부위에서 증가된 접근성을 보였으며, 또한 DNase 과민성 분석으로 조직 특이성을 확인하였다(도 15 및 4b-4d).
따라서, 이들 TF는 전립선암 환자의 cfDNA에서만 그 결합 부위에서 증가된 접근성을 나타냈다. 전립선암에서 AR의 특별한 관련성으로 인해, GTRD에 의해 정의된 AR 결합 부위가 사용되었을 뿐만 아니라 문헌(Pomerantz et al., 2015)에 의해 보고된 것도 사용되어, AR 시스트롬을 분석하여 종양에서 더 높은 결합 강도를 갖는 9,179개의 종양 AR 결합 부위(종양 AR 결합 부위, T-ARBS), 및 정상 샘플에서 높은 결합 강도를 갖는 2,690개의 정상 AR 결합 부위(정상 AR 결합 부위, N-ARBS)를 확인하였다. 실제로, N-ARBS는 대조군과 환자 모두에서 접근할 수 없었던 반면, T-ARBS는 환자의 혈장 샘플에서 증가된 접근 가능성을 보여주었다(도 4d).
풀링된 샘플에서 계통 특이적 전사 인자의 확인
이 접근법은 더 적은 커버리지로 시퀀싱되고 심하게 재배열된 샘플에도 적용될 수 있다. 이를 시험하기 위해서, P148_1(819,607,690 리드) 및 P148_3(768,763,081 리드)을 약 5천만 리드로 다운샘플링한 후 TF 분석을 반복하였다. 이 비교는 동일한 TF가 접근성이 증가하거나 감소하는 것으로 확인됨을 밝혔으며, 이는 더 적은 시퀀싱 리드를 가진 샘플이 이 분석에 적용될 수 있다는 것을 입증한다. 그 후, 4개의 cfDNA 샘플(P21_2, P111_1, P111_4, P166_1)을 순차 중복체 표현형(Viswanathan et al., 2018)으로 분석하고 1건(P143_3)은 염색체 10에서 염색체 파열(평균: 52,869,911; 범위: 41,780,819 - 84,049,593)로 분석하였다(도 18a-18b). 이 사례에서, 상피 TF FOXA1, GRHL1, 및 GRHL2, 뿐만 아니라 전립선 계통 특이적 TF AR, HOXB13, 및 NKX3-1이 역시 증가된 접근성을 보였으며(도 18a-18b), 이는 방해받는 요건 하에서도 결과를 얻을 수 있고 더욱이 이러한 TF의 접근성의 변경이 전립선암에서 보편적인 특징인 것으로 보임을 나타낸다.
cfDNA에서 계통 특이적 TF의 견고성 및 재현성에 대한 추가 확인으로서, 얕은 커버리지(<0.2x)에 의해 생성된 다중 cfDNA 샘플의 풀을 분석하였으며, 이는 대다수 또는 모든 샘플에서 접근성이 증가한 TF, 예를 들어 계통 특이적 TF가 증가된 접근성 점수를 보이지만 나머지는 평균이 된다는 것을 보여준다. 이를 위해, cfDNA 샘플을 전립선암 사례(n=69), 결장암 사례(n=100) 및 유방암 사례(n=60)에 대해 개별적으로 풀링하고 분석을 반복하였다. 상피 TF GRHL2는 증가된 접근성이 지속된 반면, 조혈 TF는 접근성이 감소하였다(도 8a-8e). 전립선암 cfDNA 풀 내에서, 계통 특이적 TF AR(340; 4.0), HOXB13(712; 8.4), 및 NKX3-1(253; 3.0)은 증가된 접근성을 보였으며, 이는 이러한 TF의 접근성 변경이 전립선암에서 보편적인 특징이며(도 8a-8e), 이러한 특징은 전립선암에 보편적으로 존재하며 cfDNA로부터 기원 종양의 확인에 적합할 수 있음을 보여준다.
[도 9]는 풀링된 얕은 커버리지 cfDNA의 분석을 보여준다. 상피 TF GRHL2 및 조혈 TF(PU.1, LYL1, 및 SPIB)의 전립선암(n=69), 결장암(n=100) 및 유방암(n=60) 사례에서 풀링된 cfDNA 샘플에 대한 접근성을 나타낸다. 접근성은 계통 특이적 TF AR, HOXB13, 및 NKX3-1의 전립선암 cfDNA 풀 내에서도 나타난다.
이들 분석은 일부 계통 특이적 TF가 일반적으로 상피암 및 전립선암에서 각각 변화되기 때문에 cfDNA에서 이들 TF의 결합 부위에서의 접근성이 기원 종양의 확인에 또한 이용될 수 있음을 입증하였다.
종양 하위 분류를 위해, 인덱스 사례인 P148을 사용하였으며, 여기서 전립선 선암종이 t-SCNC로 전환 분화되는 동안 12개월 간격으로 채취한 2개의 혈장 샘플(P148_1, P148_3)에 대해 분석을 수행하였다. 이 두 샘플은 특히 여러 TF에서 반영된 상당한 TFBS 접근성 변화(켄달 타우: 0.7573)를 보였다. t-SCNC는 더 이상 전립선암의 안드로겐 의존적 단계가 아니므로 결과적으로 AR 결합 부위의 접근성은 샘플 P148_3에서 더 이상 관찰되지 않았다(도 4e). 핵 호르몬 수용체와의 긴밀한 협력으로 인해, FOXA1에 대한 접근성이 그에 따라 감소하였다(도 4e). 또한, 전립선 특이적 계통 TF HOXB13 및 NKX3-1(도 4e) 및 상피 TF GRHL2(도 10a)의 결합 부위에 대한 접근성이 감소함에 따라 세포 유형 정체성 변화가 분명해졌다. 신경 발생과 관련된 TF 변화에는 저산소 상태하에서 발현이 극적으로 증가하는 TF인 GLI 유사 1(GLIS1)의 증가된 접근성이 포함되었다(도 10b). 안드로겐 독립적인 상태로 전립선 선암종의 발생을 촉진하고 또한 신경 내분비 재프로그래밍을 유도하는 억제 요소-1(RE-1) 침묵 전사 인자(REST)를 하향 조절하기 위해 저산소증이 논의되었으며, 실제로 REST의 유의하게 감소된 접근성(도 4e)이 관찰되었다. 또한, N-MYC는 AR 신호 전달 억제 및 신경 내분비 프로그램 조절에 관여하는데, 이는 증가된 접근성으로 반영되었다(도 4e). 이러한 관찰은 특정 암 질환 단계에서 TFBS가 경로에 영향을 미치는 높은 가소성을 가질 수 있음을 나타냈다.
cfDNA로부터의 TFBS를 기준으로 전립선암 아형 분류가 가능함을 입증하기 위해, 4개의 추가 t-SCNC 사례(P170_2, P179_4, P198_5, 및 P240_1)의 혈장 샘플을 분석하였다. 이 사례에 대해, 이 접근법이 혈장 샘플 P148_1(819,607,690 리드) 및 P148_3(768,763,081 리드)을 약 5천만 리드로 다운샘플링하여 더 적은 커버리지로 시퀀싱된 cfDNA에도 적용될 수 있음을 보였다. 리드의 감소는 노이즈 수준을 증가시켰는데, 이는 TFBS의 수에 의존적이었지만 1,000개 초과의 TFBS가 있는 TF에서는 무시할 수 있으므로(도 11) 앞서 언급한 고도로 관련된 TF에 대한 분석은 영향받지 않았다. 전술한 4개의 샘플에 대해 분석을 반복하였으며, 각각 약 5천만 리드로 시퀀싱되었으며, TF AR, FOXA1, HOX-B13, 및 NKX3-1에 대한 접근성 감소 또는 N-MYC의 접근성 증가(도 4f)가 역시 관찰되었다. REST의 감소된 접근성은 이 4건의 사례 중 2건(P170_2 및 P198_5; 도 4f)에서만 나타났으며, 이는 일반적으로 신경 내분비 전립선암 사례의 50%에서 관찰되는 REST 하향 조절과 일치한다. 이 2건의 사례에서만 GLIS1이 역시 접근성이 증가하였으며(z-점수: P170_2: 4.3; P198_5: 4.4), 이는 저산소증 관련 TF가 REST 하향 조절과 연관될 수 있음을 입증한다.
TFBS에 대한 접근성은 질환 과정에서 변화할 수 있다
TF 접근성이 시간이 지남에 따라 안정적으로 유지되는 지의 여부에 대한 질문을 해결하기 위해, 4명의 환자(P40, P147, P148, C2)로부터 일련의 샘플을 얻어 분석하였다. 분석은 1,000 msTFBS로 제한하였으며 4개의 혈장 샘플 쌍 중 3개에 대해 유의한 차이를 보이지 않았다(대조군: 중앙값: 0.8404 ± 0.0196 (IQR); P40: 0.8620; P147: 0.8370; C2: 0.8719; 각각 켄달 타우)(도 12).
P147_1과 P147_3 사이에서, RET 유전자를 포함하는 새로운 고진폭 증폭이 진화한 반면, C2_7은 C2_6에서 관찰된 KRAS를 포함하는 증폭을 상실하였다. 전립선암의 RET와 CRC의 KRAS는 모두 PI3K/AKT/mTOR 경로에 영향을 미칠 수 있으므로 TF CREB와 같은 하류 표적을 조사하였다. 그러나 접근성은 대조군 혈장 샘플과 다르지 않았으며 더 나아가 변화없이 유지되었다. P40_1과 P40_2 사이에서 안드로겐 박탈 요법(ADT)에 대한 내성이 진화하였으며, 이는 AR 유전자의 높은 수준의 증폭에서 반영되었다. 그러나 AR이 전사 표적의 레퍼토리를 확장한 경우, 이는 앞서 언급한 T-ARBS 및 N-ARBS에서 뚜렷해지지 않았다(도 18a-18b). 이 분석에는 보수적인 접근법이 사용되었으며, 변화는 접근성 점수가 한 분석에서 다음 분석으로 ≥100 차이가 나는 경우에만 관찰되었으며 이러한 샘플 사이에서 감소된 또는 제한된 차이를 설명할 수 있다.
종양이 전립선 선암종(P148_1)에서 신경 내분비 종양(P148_3)으로 전환 분화된 경우 사례 P148(피어슨 상관관계: 0.777291)에 대해 TF 접근성이 유의하게 변화하였다. 신경 내분비 종양은 더 이상 전립선 암의 안드로겐 의존적 단계가 아니므로 결과적으로 AR 결합 부위의 접근성이 더 이상 필요하지 않으며, 이는 따라서 이 분석에서 반영되었다(도 16a-16c). TF GRHL2 및 GRHL3을 결정하는 상피 세포 운명의 결합 부위에 대한 접근성이 상실되었기 때문에 이 전립선암 사례의 세포 유형 정체성의 변화는 뚜렷하였다(도 16a-16c). 또한, 다른 전립선 특이적 계통 TF HOXB13, NKX3-1, FOXA1, GATA2, 및 GATA3에서도 유사한 접근성 감소가 관찰되었다.
중요하게는, 위에서 언급한 바와 같이, 뉴런 발생과 관련된 TF의 변화도 관찰되었다. 저산소증은 진행성 고형 종양에서 빈번하게 발생하며 안드로겐 독립적인 상태로 전립선 선암종의 발생을 촉진하고 신경 내분비 프로그램을 유도할 수 있다. 실제로 저산소 상태에서 발현이 급격히 증가하는 TF인 GLI 유사 1(GLIS1)의 증가된 접근성이 관찰되었다. 또한, 저산소증은 전립선암 상피에서 억제 요소-1(RE-1) 침묵 전사 인자(REST)를 하향 조절하고 신경 내분비 재프로그래밍에 관련된 신경 유전자의 발현을 유도한다. REST는 안드로겐 고갈로 인한 신경 내분비 분화의 핵심 매개체이며 실제로 REST의 감소된 접근성이 관찰되었다(도 16a-16c).
줄기세포 특징과 관련된 차이도 관찰되었다. TF SOX2 및 SOX11은 신경 내분비 전환 분화 동안 상향 조절된다. 이 두 TF에 대한 증가된 접근성이 관찰되었다. 그러나 이들은 이미 혈장 샘플 P148_1에 존재하여 다른 변화에 선행하였다(도 6e). 이 실시예는 이 실시간 분석의 또 다른 특징, 예를 들어, 현상의 순서를 설정할 수 있다는 것을 입증하였다. 추가의 줄기세포 관련 변화는 FOXA2의 감소된 접근성이었다(도 16a-16c).
TF ZNF644(ZNF644는 전사 억제와 관련된 특정 유전자 좌에서 히스톤 H3의 Lys9의 모노- 및 디메틸화를 매개하는 G9a/GLP 복합체의 코어 서브 유닛 중 하나임) 또는 전환 분화 과정에서 잠재적 역할이 불분명한 ZNF701(도 16a-16c)과 같은 거의 특성화되지 않은 TF에서도 변화가 관찰되었다.
cfDNA로부터의 TF를 기준으로 한 전립선암 분류
이 접근법이 더 적은 커버리지로 시퀀싱된 샘플 및 약 5천만 리드로 다운샘플링된 혈장 샘플 P148_1(819,607,690 리드) 및 P148_3(768,763,081 리드)에 적용 가능하다는 것을 보여주기 위해서. 리드의 감소는 노이즈 수준을 증가시켰는데, 이는 TFBS의 수에 따라 의존적이었고 1,000개 초과의 TFBS를 가진 TF에서는 무시할 수 있었다(도 18a-18b). 따라서, 신경 내분비 암종으로의 전환 분화와 관련된 앞서 언급한 고도로 관련성이 있는 TF에 대한 접근성 분석은 영향받지 않았다.
Figure pct00001
고찰
이 연구는 임상 진단 및 비침습적 종양 분류와 관련하여 혈액 내 무세포 DNA로부터 종양 세포 특이적 전사 인자 결합을 추론하기 위한 방법 및 생물 정보학 소프트웨어 파이프 라인을 제공한다. 일부 연구에서는 체세포로 획득된 변경을 평가할 때 유전자 중심의 초점을 채택했지만, 이 분석은 TFBS에 초점을 맞춘 비코딩 게놈의 중요한 부분을 사용한다. 많은 TF가 개방 염색질 내에서 우선적으로 결합하고 따라서 뉴클레오솜과 상호 작용해야 하기 때문에, 단일 뉴클레오솜 cfDNA는 뉴클레오솜 위치의 맵핑을 허용하기 때문에 주로 사용된다. 이 접근법의 고유한 특징은 생체 외 분석과 관련된 기술적 변동과는 대조적으로 내인성 생리학적 과정에서 TFBS에 대한 생체 내 데이터를 생성하는 것이다. 그럼에도 불구하고, 이러한 데이터는 세포주 GM12878, LNCaP, 또는 HCT116에 대한 DNase I 과민성 데이터와 강력한 상관관계를 가지며, 이로써 이 접근법의 신뢰성을 입증하였다.
여러 세포 유형으로 인한 cfDNA 신호의 혼합물 및 푸리에 변환에 의한 분석을 사용하여 일반적인 조직 특이적 패턴을 사용할 수 있는 다른 분석과는 대조적으로, 본 개시 내용의 방법 및 시스템은 개별 TF를 프로파일링하여 임상 적용을 위한 계통 특이적 TF를 확립할 수 있다. TFBS 분석의 개선된 분해능으로 인해 cfDNA로부터 TFBS의 접근성을 모니터링하는 것이 가능해지며, 상이한 세포 계통으로의 재프로그래밍과 같은 질환 과정에서 그의 가소성을 밝힐 수 있다. 또한, 다른 분석에는 샘플당 15억 개 이상의 리드가 필요할 수 있지만, 이 연구는 심층 TF 분석에 약 5 천만 개의 리드가 충분하므로 이 접근법이 임상 적용에 더 효율적이고 비용 효율적임을 보여준다. 중요하게는, 이 cfDNA TFBS 생물 정보학 파이프 라인은 종양 분류를 가능하게 하고, 따라서 환자, 예를 들어 전립선암 환자를 관리하는 데 있어 중요한 진단 격차를 메운다.
이 작업은 TF 프로파일링을 위한 현재 기술에 대한 일부 상당한 개선을 제공한다. 첫째, cfDNA를 사용하여, 높은 신뢰도의 TF 목록으로 주석이 달린 GTRD의 큐레이트된 TFBS 목록인 676개의 TF를 cfDNA 분석에 적용할 수 있다. 둘째, 이 생물 정보학 파이프 라인을 사용하여 서로 다른 cfDNA 샘플 사이에서 TFBS의 접근성을 비교할 수 있도록 개선된 메트릭인 접근성 점수를 확립하였다. 셋째, 대조군 샘플(예를 들어, 참조 샘플)과 사례 샘플(예를 들어, 대상체로부터 얻은 시험 샘플) 사이의 비교를 기반으로 하는 z-점수 통계를 사용하여 TFBS 접근성의 중요한 변화를 확인할 수 있다. 넷째, 혈액학(PU.1, LYL1, 및 SPIB), 상피(GRHL2), 및 전립선 계통(AR, HOXB13, NKX3-1)에 대한 계통 특이적 TF의 용도가 cfDNA 기반 임상 적용에 대해 제시된다. 이것은 cfDNA에 기여하는 여러 세포 유형으로 인한 신호의 혼합물 및 푸리에 변환에 의한 분석을 포함하는 다른 방법과 대조된다. 임상적 유용성에 대한 현재의 평가는 이러한 TF가 상피암 또는 전립선암이 있는 개인을 확인하는 데 광범위하게 적용될 수 있음을 나타낸다. 시간 경과에 따라 TFBS의 접근성을 모니터링하는 능력이 입증되고, 특히 전립선 선암종이 신경 내분비 종양으로 전환 분화되는 동안 AR, 상피, 전립선, 및 신경 계통과 관련된 급격한 변화가 말초 혈액에서 비침습적으로 평가될 수 있음이 입증되었다.
TF-뉴클레오솜 상호 작용 지도는 cfDNA를 발생시키는 모든 세포 유형의 신호를 포함하여 이종성일 수 있다. ctDNA의 큰 부담을 갖는 개인의 혈장 샘플을 사용할 수 있으며, 이는 측정 민감도에 영향을 미칠 수 있다. 또한, 이 접근법은 SCNA 설정을 위한 얕은 시퀀싱 혈장 접근법보다 많은 비교적 높은 커버리지(약 5천만 리드)의 전체 게놈 시퀀싱을 사용한다.
그럼에도 불구하고, 여기에서 분석된 종양 개체인 진행성 전립선암은 전이성 암종을 특성화하는 난치성 및 결과적인 치사성의 전형적인 예이다. 전이성 병변의 임상 생검은 일상적으로 수행되지 않으므로 전립선암 세포의 생존과 진행을 제어하는 분자 메커니즘에 대한 자세한 지식이 존재하지 않는다. 실제로 종양 연구에는 경로 간 전환 및 상호 작용을 탐색하기 위한 동적 모델, 특히 임상 샘플의 동적 프로파일링이 없다. TF가 게놈 전체에 걸쳐 그리고 그들의 종종 정교한 계통 특이적 방식으로 유전자 전사를 조절할 수 있는 잠재력으로 인해, 이들의 상세한 분석은 임상 진단을 개선할 수 있는 고유한 기회를 제공한다. 이 데이터는 또한 전사 조절 프로파일링을 위한 개선된 접근법을 통해 비코딩 게놈의 추가적 해부를 위한 기반을 제공할 수 있다.
방법
대상체
이 연구는 그라츠 의과 대학 윤리위원회(Ethics Committee of the Medical University of Graz)의 승인을 받았으며(승인 번호 21-227 ex 09/10 [유방암], 21-228 ex 09/10 [전립선암], 21-229 ex 09/10 [결장직장암], 및 29-272 ex 16/17 [혈장 DNA의 고분해능 분석]), 헬싱키 선언에 따라 수행되었으며 모든 환자와 건강한 계보 발단자로부터 각각 서면 동의를 얻었다. 예를 들어 환자 B7 및 B13 및 P40, P147, 및 P148의 일부 혈장 샘플은 다른 연구에서 분석되었다.
B7 및 B13: 이들 연구는 혈장 DNA 이외에 2건의 전이성 유방암 사례(B7, B13)로부터 일치하는 동시 획득된 원발성 종양을 전체 게놈 시퀀싱 및 RNA-Seq에 의해 분석하였다. 혈장 DNA는 높은 커버리지(B7: 약 4억 1100만 리드; 약 8.2x; B13: 약 4억 5500만 리드; 약 9.1x)로 시퀀싱하고 복제수 변이를 계산하였다. B7에서 11q13.3(CCND1을 포함한 15개의 유전자) 또는 B13에서 8p11(FGFR1을 포함한 31개의 유전자) 및 17q12(ERBB2를 포함한 46개의 유전자)의 증폭과 같이 유방암에서 빈번한 초점 증폭이 확인되었다.
P40: 환자 P40에 대한 초기 혈장 DNA 분석에서 대부분의 상염색체에서 다중 복제수 변화가 나타났지만, X 염색체에서는 복제수 변화가 관찰되지 않았다(도 3b). 이 치료 전에, 환자는 국소 방사선 치료를 받았다. 질환의 진행으로 인해, 치료는 3세대 LHRH 길항제 데가렐릭스로 전환하였다. 그러나 이러한 치료 전환에도 불구하고, 10개월 후 진행이 확인되었고, 반복된 혈장 분석을 통해 상염색체의 변화는 동일하지만 AR 유전자를 보유하는 Xq12 염색체에 초점 증폭이 있음이 밝혀졌다.
B7 및 B13: 이들 연구는 전체 게놈 시퀀싱 및 RNA-Seq에 의해 혈장 DNA 이외에 2건의 전이성 유방암 사례(B7, B13)로부터 일치하는 동시 획득된 원발성 종양을 분석하였다. 혈장 DNA는 높은 커버리지(B7: 약 4억 1100만 리드; 약 8.2x; B13: 약 4억 5500만 리드; 약 9.1x)로 시퀀싱하고 복제수 변이를 계산하였다. B7에서 11q13.3(CCND1을 포함한 15개의 유전자) 또는 B13에서 8p11(FGFR1을 포함한 31개의 유전자) 및 17q12(ERBB2를 포함한 46개의 유전자)의 증폭과 같이 유방암에서 빈번한 이전(Ulz et al., 2016b)에 정의된 바와 같이 초점 증폭이 확인되었다.
P21: 환자 P21은 전이성 거세 저항성 전립선암(CRPC)으로 진단받았다. LHRH 길항제 데가렐릭스 치료 4개월 후, 환자는 임상 진행의 징후를 보인 후 PSA 값의 증가를 보였다. 진행 시(P21_2) cfDNA 프로파일은 순차 중복체 표현형으로 관찰되었다.
P40: 진단 시, 환자 P40은 거세 민감성 전립선암(CSPC)으로 분류되었다. 환자가 이전의 방사선 요법에 대한 임상 반응을 보이지 않았기 때문에, 치료는 LHRH 길항제 데가렐릭스로 전환하였다. 처음에, 환자는 안드로겐 차단에 대해 양호한 반응을 보였지만(PSA 값은 425.3 ng/mL에서 115.3 ng/mL로 떨어짐), 10개월 후, CRPC로 진행하였다(PSA: 656.0 ng/mL). 진행 시(P40_2) 환자의 cfDNA 프로파일은 염색체 X에서 높은 수준의 AR 증폭을 나타냈다.
P40: 환자 P40의 초기 혈장 DNA 분석에서 대부분의 상염색체에서 다중 복제수 변화가 나타났지만, X 염색체에서는 복제수 변화가 관찰되지 않았다(도 4b). 이 치료 전에, 환자는 국소 방사선 치료를 받았다. 질환의 진행으로 인해, 환자의 치료는 3세대 LHRH 길항제 데가렐릭스로 전환하였다(Rick et al., 2013). 그러나 이러한 치료 전환에도 불구하고, 10개월 후 진행이 확인되었고, 반복된 혈장 분석을 통해 상염색체의 변화는 동일하지만 AR 유전자를 보유하는 Xq12 염색체에 초점 증폭이 있음이 밝혀졌다.
P111: 첫 번째 샘플 P111_1은 전립선암 진단 시 얻었다. 환자는 이미 뼈, 림프절, 및 신장에 여러 악성 병변이 있었다. 1차 치료는 GnRH 유사체 고세렐린 후 방사선 치료였다. 두 샘플 P111_1과 P111_4 사이에서, 환자는 치료에 대해 잘 반응하였다(CSPC, PSA가 15.5 ng/mL로 떨어짐). P111_4 샘플링 2개월 전에 임상 진행이 확인되었고, 환자는 CRPC가 발생하였다. 진행 시(P111_4) cfDNA 샘플을 분석하여 부분 AR 증폭이 관찰되었다. 게다가, 환자는 화학 요법(도세탁셀)을 받았지만 추가 반응은 나타나지 않았다.
P143: 환자 P143은 샘플 P143_3 수집 6년 전에 전이성 전립선암 진단을 받았다. 이전에, 환자는 2세대 항안드로겐(아비라테론)을 포함한 다양한 항안드로겐으로 치료받았다. 따라서 그는 샘플 P143_3을 얻을 때 사전 치료를 심하게 받았다. 진행성 질환과 다양한 ADT로 여러 번의 치료 실패로 인해 화학 요법을 도입하였다(미세소관 억제제 - 카바지탁셀).
P147: 진단 5년 후 첫 번째 혈액 샘플(P147_1)을 얻었다. 환자는 여러 뼈 전이가 있었고 CRPC로 특성화되었다. 이 5년 동안, 그는 방사선 치료를 받았고 여러 항안드로겐을 투여받았다. P147_1 샘플 수집 당시, 새로운 PSA 증가가 확인되었다. cfDNA 분석은 Xq12(AR) 및 염색체 5q14.3에서 높은 수준의 증폭을 발견하였다. 화학 요법(도세탁셀) 및 항안드로겐(아비라테론 및 엔잘루타미드) 6개월 후, 새로운 cfDNA 샘플(P147_3)을 분석하였다. 이 분석은 염색체 10에 대한 새로운 RET 증폭을 보여주었다. 새로운 초점 현상의 발생과 ctDNA 함량의 증가(P147_1 ichorCNA: 52%; 147_3 ichorCNA: 73%)는 임상 진행과 관련되었다.
환자 P147에서, 전립선 절제술과 첫 번째 혈장 샘플 사이의 기간은 56개월이었다. 수술 20개월 후, PSA 수준증가가 나타났고 방사선 치료를 시작하였다. 진단 후 28개월 후, PSA 수준이 다시 증가하였다. 이 환자는 비스테로이드성 항안드로겐 비칼루타미드로 13개월 동안 치료하였으며 이후 4개월 동안 GnRH 유사체 류프로렐린을 추가로 투여한 후 결국 나중에, 뼈 전이 검출로 인해 단클론 항체 데노수맙을 추가하였다. PSA 수준이 증가했을 때, 혈장 샘플을 얻었고, Xq12(AR)와 염색체 5q14.3에서 새로운 고수준 증폭이 검출되었다. 추가의 높은 수준의 초점 증폭이 염색체 10q11.21에서 진화했으며, 이는 첫 번째 및 두 번째 혈장 샘플(예: P147_1 및 P147_2)의 수집 사이에 발생하였다. 이 두 샘플 사이의 기간은 6개월이었다. 이 기간 동안, 환자는 화학 요법, 예를 들어 도세탁셀로 치료를 받았다.
P148: P148은 전립선의 선암종으로 진단받았다. 환자는 최초 혈액 수집(P148_1) 전 기간에 ADT를 받았다. 임상의는 새로운 뼈 및 림프절 병변이 있는 진행성 질환(PSA: 694.4)을 보고하였다. P148_1 샘플 수집 당시, 화학 요법(도세탁셀)을 도입하였다. AR 증폭을 포함한 다중 초점 현상이 확인되었다(MYC 증폭; PTEN 상실; FOXP1 , RYBP , SHQ1 상실; TMPRSS2 -ERG 융합)(환자는 이전에 CRPC로 특성화됨).
첫 번째 샘플 수집 6개월 후, 샘플 P147_3을 얻었다. 이 기간 동안, PSA 수준은 mL당 52.0 ng이고 NSE 값은 370 ng/mL 초과로 여러 간 및 뼈 전이를 동반한 대규모 진행이 확인되었다. 흥미롭게도, AR 증폭은 샘플 P147_3에서 검출되지 않았는데, 이는 선암종에서 신경 내분비 전립선암으로의 전환 분화에 특징적이다(문헌[Ulz et al. 2016, Belic et al. 2018]에 기술된 바와 같음). 카보플라틴과 에토포시드를 사용한 완화 치료에 대한 짧은 반응 후, 질환 진행이 확인되었고 환자는 2개월 후 사망하였다.
환자 P148은 전립선 선암종으로 진단받았다. 첫 번째 혈장 샘플은 초기 진단 16개월 후에 얻었으며, 이때 환자는 뼈로의 전이가 증가하는 분명한 진행성 질환이었으며 림프절병증으로 새로이 진단받았다. 진행성 질환(PSA: 694.41 ng/mL)으로 인해, 환자는 7개월 동안 도세탁셀 치료를 받았다. 이 시간 동안 두 번째 혈장 DNA 분석으로 높은 수준의 AR 증폭의 존재가 확인되었다. 마지막 도세탁셀 치료 5개월 후, PSA 수준은 52.0 ng/mL이고 NSE 값은 370 ng/mL 초과로 여러 간 및 뼈 전이를 동반한 대규모 진행이 관찰되었다. 환자는 카보플라틴과 에토포시드로 완화 치료를 받았으며 초기 부분 반응이 3개월 동안 지속하였다. 그 후, 그의 질환은 진행되었고 2개월 후 사망하였다.
P166: 환자 P166의 혈액 샘플은 전이성 전립선암의 초기 진단 2년 후에 얻었다. 그는 항안드로겐 비칼루타미드로 치료를 받았지만, 진행성 질환(CRPC)이 발생하였다. 샘플 P166_1에서 진행의 징후로서 염색체 X에서 AR 증폭이 확인되었다. 환자가 CRPC로 발전한 이후 화학 요법(도세탁셀)을 추가로 도입하였다. 화학 요법을 3개월 후 환자는 부분 반응을 보였다.
P190: 채혈 5년 전 환자는 국소 전립선암 진단을 받았다. 2년 후, 그는 국소적으로 진행되었고 다음 2년 동안 주로 뼈 전이를 동반한 전이성 질환이 발생하였다. 이 기간 동안 그는 항안드로겐 비칼루타미드로 치료받았다. 환자는 뼈 전이와 질환 진행이 발생했으며, 일부 뼈 전이는 신경 내분비 표현형으로 특성화되었다. 따라서 임상의는 그를 카보플라틴계 화학 요법(카보플라틴/에토포시드)으로 치료하였다. 카보플라틴/에토포시드 치료 시작 3개월 후 cfDNA 분석을 수행하였다. 이 분석 당시, 환자는 ≥50% PSA 반응과 NSE 값의 정규화로 양호한 반응을 보였다.
순차 중복체 표현형:
P21_2: 59,849,368 리드
P111_1: 58,258,680 리드
P111_4: 61,085,342 리드
P166_1: 52,829,575 리드
염색체 파열 (염색체 10):
P143_3: 111,958,416 리드 (최소 PC 특이적 변화)
혈장 샘플의 쌍별 비교
TF 접근성이 시간이 지남에 따라 안정적으로 남아있는 지의 여부를 해결하기 위해, 환자 P40, P147, 및 C2에서 각각 2개의 샘플을 분석하였다. 그러나 매우 엄격한 기준으로, 예를 들어, 분석을 1,000-msTFBS로 제한함으로써, 이 혈장 샘플 쌍에서 유의한 차이가 관찰되지 않았다(대조군: 중앙값: 0.8404 ±0.0196 (IQR); P40: 0.8620; P147: 0.8370; C2: 0.8719; 각각 켄달 타우(Kendall's Tau))(도 12).
환자 P147로부터 수집한 P147_1 및 P147_3 샘플 사이에서, RET 유전자를 포함하는 새로운 고진폭 증폭이 진화한 반면, C2_7은 이전 샘플 C2_6에서 관찰된 KRAS를 포함한 증폭을 상실하였다. 전립선암의 RET와 CRC의 KRAS는 모두 PI3K/AKT/mTOR 경로에 영향을 미칠 수 있으므로 TF CREB와 같은 하류 표적을 조사하였다. 그러나 접근성은 대조군 혈장 샘플과 다르지 않았으며 더 나아가 변화없이 유지되었다. 환자 P40의 샘플 P40_1과 P40_2 사이에서, 안드로겐 박탈 요법(ADT: androgen deprivation therapy)에 대한 내성이 진화했으며, 이는 AR 유전자의 높은 수준의 증폭에서 반영되었다. 그러나 AR이 전사 표적의 레퍼토리를 확장한 경우, 이는 앞서 언급한 T-ARBS 및 N-ARBS에서 뚜렷해지지 않았다(도 19). 분석을 1,000-msTFBS로 제한하는 매우 보수적인 접근법으로 이러한 샘플 사이의 차이가 관찰되지 않은 이유를 설명할 수 있다.
TFBS의 모양
일부 TF는 그 결합 부위를 포함하여 균일한 간격의 뉴클레오솜 피크를 보였던 반면(예를 들어, [도 2d]에서 PU.1 및 GRHL2), 다른 TF는 TSS에 대해 관찰된 것과 유사하게 결합 부위에서 더 넓은 골을 보였기 때문에(예를 들어, [도 6a]에서 CREM) TF 특이적 뉴클레오솜 커버리지 프로파일을 조사하였다. 전체적으로, TFBS가 300 bp를 초과하는 55개의 TFBS가 확인되었고, 이들로부터 26개는 디뉴클레오솜 크기에 가까운 결합 부위를 가졌다(312-352 bp; 도 8d). 이러한 패턴의 경우, 크기가 300 bp보다 더 큰 TFBS에 대해 CpG 아일랜드(p=4.2x10-11; 만-휘트니(Mann-Whitney) U 검정) 및 TSS(p=8.5x10-12; 만-휘트니 U 검정) 모두에서 매우 유의한 중첩 증가가 확인되었다(도 8e).
여러 상이한 결합 부위를 가진 TF에 대한 특별한 예로서의 CTCF
동일한 TF의 상이한 TFBS를 조사하기 위해, CCCTC 결합 인자(CTCF)를 사용하였다. CTCF는 포유류 게놈에서 55,000-65,000개의 결합 부위에 존재한다. 이들 부위 중, 약 5,000개가 극보존되어 있고, 약 50%가 유전자 간 영역에 있으며, 약 15%가 프로모터 근처에 위치하며, 약 40%가 유전자 내에 있다. 또한, 염색체는 토폴로지 연관 도메인(TAD)으로 명명된 진화적으로 보존된 고차 염색체 구조로 분할되며, 그 경계는 CTCF 및 코헤신의 결합 부위가 풍부하다. 포유류에서, 게놈 CTCF 결합 부위의 15%는 TAD 경계에 존재하는 반면, 게놈 CTCF 결합 부위의 나머지 85%는 TAD 내부에 있다.
혈액 샘플링 및 라이브러리 제조
그라츠 의과 대학 종양학과의 전이성 전립선암, 유방암, 및 결장암 환자와 그라츠 의과 대학 혈액학과의 알려진 만성 또는 악성 질환이 없는 익명의 건강한 기증자로부터 말초 혈액을 수집하였다. QIAamp Circulating Nucleic Acids 키트(QIAGEN, Hilden, Germany)를 사용하여 제조업체의 프로토콜에 따라 혈장에서 cfDNA를 단리하였다. WGS를 위한 라이브러리 제조는 이전에 기술된 바와 같이 수행하였다(Heitzer et al., 2013).
시퀀싱
대조군 및 높은 커버리지 종양 샘플은 오스트리아 비엔나 소재 CeMM의 Biomedical Sequencing Facility에 의해 Illumina NovaSeq S4 flow cell에서 2x150 bp로 시퀀싱하였다. 대조군 샘플의 경우, 평균 435,135,450(범위: 352,904,231-556,303,420) 페어드 엔드 리드를 얻었다. 종양 샘플(P40_1, P40_2, P147_1, P147_3, P148_1, P148_3, C2_6, 및 C2_7)의 경우, 평균 688,482,253 리드(범위: 541,216,395-870,285,698)를 시퀀싱하였다. 추가 샘플은 Illumina NextSeq 플랫폼(B7_1, B13_1, 및 P190_3, 평균 시퀀싱 수율: 296,733,931 리드, 범위: 181,953,656-379,733,061) 및 HiSeq 플랫폼(P21_2, P111_1, P111_4, P143_3, 및 P166_1, 평균 시퀀싱 수율: 52,869,911 리드; 범위: 41,780,819-84,049,593)을 사용하여 각각 시퀀싱하였다.
단일 개체 풀을 생성하는 데 사용된 낮은 커버리지의 종양 샘플은 Illumina Next-Seq 또는 MiSeq 플랫폼에서 시퀀싱하였다. 그 결과 69개의 전립선암 샘플에서 382,306,130 리드, 60개의 유방암 샘플에서 254,490,128 리드, 100개의 대장암 샘플에서 604,080,473 리드를 생성하였다.
혈장 샘플의 특성화
예를 들어 환자 B7 및 B13 및 P40, P147, 및 P148의 일부 혈장 샘플을 분석하고 알고리즘 ichorDNA를 기반으로 하여 혈장 샘플의 돌연변이, 특이적 SCNA, 및 종양 함량에 관한 정보를 포함하였다.
종양 형성 전사 인자의 ETS 계열(문헌[Sizemore et al., 2017]에서 영감을 얻음) 국소 전립선 암종의 약 50% 및 전이성 전립선 암종의 약 40%는 TMPRSS2-ETS 융합을 포함한다. 안드로겐으로 조절되는 TMPRSS2의 5' 비번역 영역과 ERG의 반복적인 유전자 융합(TMPRSS2 -ERG 유전자 융합)은 원발성 전립선암의 약 50%에서 관찰되며, AR에 의한 ETS 발현 및 전사 프로그램의 차단을 초래한다.
ERG는 또한 전립선 신경 내분비 세포 분화를 차단하는 것으로 밝혀졌다. 전립선 줄기 및 전구 세포의 TMPRSS2 -ERG 매개 유지를 위한 한 가지 가능한 메커니즘은 SOX9를 통한 것이다.
전사 인자로서의 그 역할을 감안할 때, ETS 인자가 기본적인 생존 신호에서 완전한 후성적 재프로그래밍에 이르는 다양한 메커니즘을 통해 종양 형성을 매개한다는 것은 놀라운 일이 아니다. ETS 인자는 또한 뉴클레오티드, 에너지 및 스테로이드 대사에 영향을 미친다.
P40: BRCA1에서의 돌연변이: NM_007294: Q975R; 특이적 SCNA: TMPRSS2 -ERG 융합; 샘플 2에서 AR 증폭; chr12 증폭(ARID2, HDAC7 포함); 종양 함량: P40_1: 30%, P40_2: 24%. 염색체 15(SNORD(소핵소체 RNA, C/D 상자) 유전자 포함), 16 (2x), 및 19 (BRD4)에 대한 추가 초점 증폭; P40_1 ichorCNA: 30%; P40_2 ichorCNA: 24%.
P147: 돌연변이: BRCA2: T298fs; TP53: F338I; 특이적 SCNA: 샘플 3에서 RET 증폭; AR 증폭; BRAF 증폭 (7q34); PTEN 상실; 종양 함량: P147_1: 52%; P147_3: 73%. 염색체 5(XRCC4) 및 21(RBM11)에 대한 추가 초점 증폭; P147_1 ichorCNA: 52%; 147_3 ichorCNA: 73%.
P148: 돌연 변이: TP53: R213X; 특이적 SCNA: MYC 증폭; PTEN 상실; FOXP1, RYBP, SHQ1 상실; TMPRSS2 -ERG 융합; AR 증폭(P148_3에서 사라짐); 종양 함량: P148_1: 38%; 148_3: 49%.
C2: 특이적 SCNA: C2_6에서 염색체 12에 대한 높은 수준 증폭(KRAS), C2_7에서는 보이지 않음; 종양 함량: C2_6: 18%; C2_7: 28%.
전사 인자 결합 부위 정의
GTRD 데이터베이스로부터 데이터를 다운로드하고 TF당 개별 BED 파일을 추출하였다. 메타-클러스터가 가장 높은 ChIP-seq 신호를 갖는 보고된 지점에 초점을 맞춰 위치를 재계산하였다. 이 특정 전사 인자에 대해 분석된 최대 샘플 수의 50% 초과가 지지하는 피크만 포함하는 추가 BED 파일을 생성하였다. 그 후 모든 BED 파일을 UCSC에서 제공하는 liftOver 도구를 사용하여 (원본 hg38로부터) hg19로 변환하였다.
전사 인자 결합 부위 중첩
전사 인자의 결합 부위가 중첩되는지 확인하기 위해서, bedtools slop을 사용하여 GTRD의 결합 부위(샘플의 50% 초과가 지지하는 부위)의 영역을 양쪽에 각각 25 bp, 50 bp, 및 100 bp 증가시켰다. 그 후, 다른 모든 전사 인자와 함께 모든 전사 인자에 대해 pybedtools에 의해 bedtools intersect를 사용하여 중첩 수를 계산하였다.
단일 엔드 (single end) 시퀀싱 데이터 준비
뉴클레오솜 신호를 증강하기 위해서, 시퀀싱 리드를 트리밍하여 링커 영역과 관련된 시퀀싱 리드의 일부를 제거하였다. 따라서, 정방향 시퀀싱 리드는 염기 53-113만을 포함하도록 트리밍하였다(이는 166 bp 단편의 중앙 60 bp에 해당할 수 있음). 그 후, Burrows-Wheeler aligner(bwa)를 사용하여 리드를 인간 hg19 게놈에 정렬하고, samtools rmdup을 사용하여 PCR 중복체를 제거하였다. bedtools genomecov에 의해 평균 커버리지를 계산한다.
페어드 엔드 (paired-end) 시퀀싱 데이터 준비
페어드 엔드 시퀀싱 리드는 bwa mem을 사용하여 인간 hg19 게놈에 정렬하였고, PCR 중복체는 picard MarkDuplicates로 표시하였다.
MNase - seq 데이터 준비
ENCODE 포털로부터 GM12878의 MNase-seq 실험의 BAM 파일을 다운로드하였다. pysam을 사용하여 BAM 파일로부터 BAM 파일의 시퀀싱 리드를 직접 트리밍하였다. 간략하게, BAM 파일에서 가장 왼쪽 정렬 위치를 각 방향으로 53 bp 이동시키고 서열 길이를 60 bp로 조정하였다. 그런 다음 트리밍된 무세포 DNA 시퀀싱 데이터와 동일한 방식으로 커버리지 패턴을 계산하였다.
전사 인자 결합 부위의 커버리지 패턴
GTRD의 모든 전사 인자에 대해 커버리지 패턴을 계산하였다. 이를 위해, 정의된 결합 부위 주변 영역 ± 1000 bp에서 pysam count_coverage를 사용하여 모든 영역에 대한 커버리지 데이터를 추출하였다. 모든 부위의 커버리지 데이터를 국소 복제수 변이와 평균 커버리지로 정규화하였다. TFBS 주변의 모든 위치에 대해 커버리지를 평균화하였고, 95% 신뢰 구간을 계산하였다. 전사 인자에 대해 100,000개 초과의 위치가 정의되면, 100,000개의 부위를 무작위로 선택하여 분석하였다.
전사 인자 결합 부위 주변의 삽입체 크기
전사 인자 결합 부위 주변의 단편 크기가 편향되었는 지의 여부를 평가하기 위해서, 페어드-엔드 분석으로부터 삽입체 크기 데이터를 사용하였다. 결합 부위에서 -1000 bp에서 1000 bp까지의 모든 위치를 순회하고 이 위치에서 중간점 주변의 중앙 3 bp가 위치한 (단일 엔드) 시퀀싱 리드를 pysam을 사용하여 가져왔다. 또한, 동일한 샘플에서 페어드-엔드 정렬을 가져오고 삽입체 크기 정보를 각 리드에 지정하였다. 그런 다음 TFBS에 상대적인 특정 위치에서 모든 삽입체 크기를 요약하고, 1000개의 데이터 포인트를 샘플링하여 TFBS에서 -1000 bp 내지 1000 bp 범위의 각 위치에 대해 플로팅하였다.
전사 인자 결합 부위 크기의 측정
전사 인자 결합 부위의 크기를 측정하기 위해서, 3차 사비츠키-골레이 필터(창 크기: 31)를 사용하여 각 커버리지 패턴을 평활화하였다. 양쪽에 인접한 20개의 데이터 포인트보다 큰 데이터 포인트를 검색하여 피크를 확인하였다. 예상되는 결합 부위의 중심의 50 bp 이내에 피크가 있을 경우, 이들을 제거하였다. 결합 부위 피크 옆에 있는 가장 가까운 피크 사이의 거리를 전사 인자 결합 부위 크기로 지정하였다.
뉴클레오솜 동기화가 검출 가능한 경우에만 결합 부위 추정이 타당하기 때문에 신호를 다양한 기준에 의해 필터링하였다:
● 고주파 신호 진폭이 0.1 초과이다
● 중앙 100 bp의 평균 정규화 커버리지가 1 미만이다
● 피크 수가 15개 미만이다
● 피크 사이의 중앙값 거리가 150 bp 초과이다
● 결합 부위 세트가 500개 초과 부위를 포함한다
총 228개의 결합 부위 세트가 이들 필터를 통과하였고 이들을 결합 부위 추정에 사용하였다.
사비츠키 - 골레이 필터를 사용한 전사 인자 접근성의 측정
2개의 별개의 신호가 커버리지 패턴을 구성하고, 상이한 주파수의 2개의 신호를 더 낮은 범위 주파수와 더 높은 범위의 주파수로 추출하였다. 더 낮은 범위의 주파수 데이터를 사비츠키-골레이 필터(3차 다항식 및 창 크기 1001)에 의해 추출하였다. 고주파 신호는 다른 사비츠키-골레이 필터(3차 다항식 및 창 크기 51)에 의해 추출하였다. 그 후 고주파 신호를 저주파 신호의 결과로 분할하여 정규화하였다. 그 후 고주파 신호의 데이터 범위를 기록하였다. 설명된 결합 부위가 거의 없는 전사 인자의 커버리지 프로파일은 본질적으로 노이즈가 더 많으므로, 설명된 결합 부위의 신호 범위의 양에 대해 LOESS(국소 가중 평활화)를 수행하였다. 범위 값을 평활화된 LOESS로 보정하였으며 조정된 범위의 순위를 계산하였다.
웨이블렛 변환을 사용한 전사 인자 접근성의 측정
전사 인자의 접근성을 측정하기 위한 추가적인 방법으로 R-package "WaveletComp"를 사용하여 웨이블렛 변환을 적용하였다. 모든 신호에 대해, 2 bp와 512 bp 사이의 주기를 따라 전력 스펙트럼에 피크를 기록하였다. 135 bp와 235 bp(185 bp ± 50 bp) 사이의 범위에서 최고 피크를 사용하여 해당 특정 주기에서 노이즈가 제거된 고주파 뉴클레오솜 신호를 재구성하였다. 또한, 원본 데이터 시리즈의 추세 제거를 사용하여 잔여 기준선을 제거하였다. 재구성된 신호의 3가지 매개 변수를 분석하였다: 신호의 최대 진폭, 신호 전력의 합(진폭 제곱) 및 전사 인자 결합 부위 주변 2000 bp 사이 절대 진폭의 합.
종양을 정상 샘플과 비교하기 위해, 모든 전사 인자에 대한 정상 샘플에 각 매개 변수에 대한 평균값과 표준 편차를 기록하고, 암 샘플에서 각 매개 변수를 취하고, 정상의 평균값을 빼고, 표준 편차로 나누어 z-점수를 계산하였다.
종양 및 대조군 샘플의 비교
종양 및 대조군 샘플을 비교하기 위해서, 조정된 범위 값에서 각 전사 인자의 순위를 비교하였다. 종양 샘플과 모든 대조군 샘플 사이에서 순위차를 계산하고 평균 순위차를 기록하였다. 게다가, 각각의 순위를 취하고, 대조군 샘플의 평균 순위를 차감하고, 대조군 샘플의 이 전사 인자 순위의 표준 편차로 나누어 접근성 순위로부터 모든 전사 인자에 대해 z-점수를 계산하였다.
DNase 과민성 데이터 분석
GM12878, LNCaP, 및 HCT116 세포주에 대한 ENCODE 데이터베이스로부터 DNase 과민성 실험의 BAM 파일을 다운로드하였다. bedtools slop을 사용하여 전사 인자의 결합 부위 영역을 양쪽에서 25 bp 증가시켰다. 각 결합 부위의 커버리지는 mosdepth를 사용하여 추출하고 샘플당 백만 개의 맵핑된 리드를 정규화하였다.
체세포 복제수 변이( SCNA )의 분석
대조군 데이터의 경우, samtools view를 사용하여 페어드-엔드 정렬을 서브샘플링하여 초기 정렬의 2%만을 포함하고 samtools fastq를 사용하여 FastQ로 변환하였다. 암 샘플의 경우, 별도의 낮은 커버리지 전체 게놈 시퀀싱을 수행하였다. 서브샘플링된 FastQ 파일과 암 샘플의 낮은 커버리지 데이터에 Plasma-Seq를 각각 적용하였다. 간략하게, 시퀀싱 리드를 인간 hg19 게놈에 정렬하였고, 미리 지정된 빈(bin) 내에서 시퀀싱 리드를 계수하였다. 빈 크기는 게놈 전체에 걸친 맵핑 가능성의 차이를 설명하기 위해 이론적으로 맵핑 가능한 위치의 양에 의해 결정하였다. 총 리드 양에 대해 리드 카운트를 정규화하였으며 빈의 GC 함량은 GC 스펙트럼에 대한 LOESS 평활화에 의해 보정하였다. 또한, 보정된 리드 카운트는 추가적인 위치 변이에 대해 대조군에 대한 빈당 비-암 대조군의 평균 리드 카운트로 정규화하였다.
접근성 점수로 cfDNA로부터 TF 결합을 정확하게 추론할 수 있다.
건강한 공여자의 샘플은 ± 5 z-점수 임계값을 초과하는 TF를 나타내지 않았다(도 29a). 그러나 암 환자에서 유래한 샘플에서는 매우 상이한 패턴이 관찰되었다. 예를 들어, 환자 P40의 전립선 샘플 P40_1에서, +5 z-점수 임계값을 초과하는 접근성을 가진 TF는 GRHL2 이외에, 전립선 및 유방의 내분비 유도된 종양에서 핵 호르몬 수용체와 협력하는 FOXA1뿐만 아니라, 전립선 계통 특이적 TF HOXB13, AR, 및 NKX3-1을 포함하였다(도 29b). 대조적으로, LYL1, SPIB, 및 EVI1(전사 조절 인자 에코트로픽 바이러스 통합 부위 1)(도 29b)과 같은 조혈 TF는 접근성이 낮았다. 이러한 결과는 ATAC-seq 데이터에 기반한 TF 순위와 매우 일치하였다. 유방암 샘플 B7 및 B13에서, GRHL2, FOXA1, 및 ZNF121(세포 증식 및 유방암 발생의 조절에 관여하는 징크 핑거 단백질)에 대한 ATAC-seq 데이터에 따라 증가된 접근성이 검출되었다.
결장암 환자 C2의 샘플에서, ATAC-seq 데이터가 암과 강하게 연관되지 않은 TF인 EVX2를 COAD에서 가장 접근하기 쉬운 것으로 순위 매긴 것이 예기치 않게 관찰되었다. 실제로, EVX2는 이 분석에서 가장 높은 접근성으로 순위 매겨졌고(도 29c) 뉴클레오솜 위치 지도는 EVX2의 엄청나게 증가된 접근성 점수를 보였다(도 29d). ATAC-seq 데이터와 일치하여, TF HNF4A, GRHL2, DLX2, HNF4G, 및 HNF1A에 대해서도 증가된 접근성이 관찰되었다(도 29d).
또한, ATAC-seq 데이터의 평가에 의해 예측된 바와 같이, LYL1, TAL1(SCL/TAL1(줄기 세포 백혈병/T 세포 급성 림프모구성 백혈병[T-ALL])1, EVI1, TBX21(T-bet), 및 PU.1과 같은 조혈 관련 TF에 대한 접근성은 모든 종양 샘플에서 감소하였다(도 29b-29c). cfDNA에서 계통 특이적 TF의 견고성과 재현성에 대한 추가 확인으로서, 얕은 커버리지(<0.2x)에 의해 생성된 다중 cfDNA 샘플의 풀에서, 대부분의 샘플에서 접근성이 증가한 TF가 증가된 접근성 점수를 보이는 반면, 나머지는 평균이 될 수 있음을 보였다. 이를 위해, 전립선 (n=69), 결장 (n=100), 및 유방암 (n=60) 사례에 대해 별도로 cfDNA 샘플을 풀링하였다. 분석을 반복하였을 때, 상피 TF GRHL2 및 조혈 TF는 3가지 상피 계통에서 각각 증가 및 감소된 접근성 패턴을 반복하였다. 결장 cfDNA 풀에서, TF EVX2, DLX2, HNF1A, HNF4A, 및 HNF4G뿐만 아니라, 전립선암 cfDNA 풀에서 TF AR 및 HOXB13은 접근성이 증가하는 반면, FOXA1은 전립선 및 유방 풀 모두에서 > 5 z-점수 임계값을 초과하였다. 이로써 ATAC-seq 데이터에서 비롯된 TF 접근성 추정이 혈장 DNA 뉴클레오솜 맵핑으로부터 신뢰할 만하게 추론될 수 있음을 확인되었다.
[도 29e]는 병합된 유방암, 전립선암, 및 결장암 풀에 대한 전체 z-점수 플롯의 막대 차트를 제공한다. 왼쪽 패널은 적어도 하나의 종양 개체에서 접근성이 증가한 TF를 표시한다. 오른쪽 패널은 조혈 관련 TF의 접근성을 요약하였다.
[도 30a-30b]는 TF 기반 혈장 분해 한계 및 조기 암 검출을 보여주는 그래프를 제공한다. [도 30a]는 종양 분율을 기준으로 COAD 코호트의 서브샘플에서 선택된 TF에 대한 접근성의 비교를 보여주는 그래프를 제공한다. [도 30b]는 각각 I기 (왼쪽 패널) 및 II기(오른쪽 패널)의 결장암 코호트의 샘플에 대해 전체 504개의 TF로 로지스틱 회귀를 보여주는 그래프를 제공한다. 제시된 모든 결과는 교차 검증된 테스트 세트 값이다.
방법 및 시스템의 특정 예가 본원에 제시되고 기술되었지만, 당업자는 이들이 단지 예로서 제공되고 명세서 내에서 제한적인 것으로 의도되지 않음을 인식할 것이다. 당업자는 본원에 기술된 범위를 벗어나지 않고 수많은 변이, 변화 및 대체를 생각해낼 것이다. 또한, 기술된 방법 및 시스템의 모든 측면은 다양한 조건 및 변수에 의존하는 본원에 제시된 구체적인 묘사, 구성 또는 상대적 비율에 제한되지 않으며 설명은 이러한 대안, 변이, 변화 또는 등가물을 포함하도록 의도된 것임을 이해해야 할 것이다.

Claims (60)

  1. 대상체에서 질환의 존재 또는 부재를 검출하기 위한 컴퓨터 구현 방법으로서,
    (a) 상기 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드(read) 세트를 제공하는 단계;
    (b) 상기 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 단계;
    (c) 상기 커버리지 패턴을 처리하여 신호를 제공하는 단계; 및
    (d) 상기 신호를 참조 신호로 처리하여, 상기 대상체에서 상기 질환의 존재 또는 부재를 검출하는 단계로서, 상기 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 단계
    를 포함하는 컴퓨터 구현 방법.
  2. 제1항에 있어서, 상기 DNA는 무세포 DNA인 방법.
  3. 제1항 또는 제2항에 있어서, 상기 질환은 암인 방법.
  4. 제1항 내지 제3항 중 어느 하나의 항에 있어서, (b)는 상기 서열 리드 세트를 참조 서열에 정렬시켜 정렬된 서열 패턴을 제공하는 단계, 상기 전사 인자의 결합 부위에 상응하는 상기 정렬된 서열 패턴의 영역을 선택하는 단계, 및 상기 영역에서 상기 정렬된 서열 패턴을 정규화하는 단계를 포함하는 것인 방법.
  5. 제4항에 있어서, (d)는 상기 전사 인자의 상기 결합 부위 각각에 대한 접근성 점수를 계산하는 단계를 포함하는 것인 방법.
  6. 제5항에 있어서, 적어도 2개, 또는 적어도 5개, 또는 적어도 10개, 또는 적어도 15개, 또는 적어도 20개, 또는 적어도 25개의 전사 인자 결합 부위에 대한 상기 접근성 점수를 결정하고 건강한 대상체와 암 환자 사이, 질환 진행자와 비-진행자 사이, 복수의 질환 아형 사이, 복수의 질환 단계 사이, 질환 치료 반응자와 비-반응자 사이, 또는 이들의 임의의 조합을 구별할 수 있는 분류기(classifier)를 훈련하기 위한 기계 학습 모델에 입력하는 것인 방법.
  7. 제1항 내지 제6항 중 어느 하나의 항에 있어서, (c)는 저주파 통과 필터를 사용하는 단계를 포함하는 것인 방법.
  8. 제7항에 있어서, (c)는 사비츠키-골레이(Savitzky-Golay) 필터를 사용하는 단계를 포함하는 것인 방법.
  9. 제1항 내지 제8항 중 어느 하나의 항에 있어서, 상기 대상체는 인간인 방법.
  10. 제1항 내지 제9항 중 어느 하나의 항에 있어서, 상기 전사 인자는 상피 전사 인자인 방법.
  11. 제1항 내지 제10항 중 어느 하나의 항에 있어서, 상기 전사 인자는 암 특이적 전사 인자인 방법.
  12. 제11항에 있어서, 상기 전사 인자는 GRH-L2, ASH-2, HOX-B13, EVX2, PU.1, Lyl-1, Spi-B, FOXA1, HNF-1A, HNF-4A, HNF-4G, 및 DLX-2로 이루어진 군으로부터 선택되는 것인 방법.
  13. 제1항 내지 제12항 중 어느 하나의 항에 있어서, (d)는 상기 전사 인자의 더 높은 접근성의 징후를 확인하는 단계를 포함하는 방법.
  14. 제1항에 있어서, 적어도 약 70%의 정확도로 상기 대상체에서 상기 질환의 상기 존재 또는 부재를 검출하는 단계를 추가로 포함하는 방법.
  15. 제1항에 있어서, 적어도 약 80%의 정확도로 상기 대상체에서 상기 질환의 상기 존재 또는 부재를 검출하는 단계를 추가로 포함하는 방법.
  16. 제1항에 있어서, 적어도 약 90%의 정확도로 상기 대상체에서 상기 질환의 상기 존재 또는 부재를 검출하는 단계를 추가로 포함하는 방법.
  17. 제1항에 있어서, 적어도 약 70%의 민감도로 상기 대상체에서 상기 질환의 상기 존재를 검출하는 단계를 추가로 포함하는 방법.
  18. 제1항에 있어서, 적어도 약 80%의 민감도로 상기 대상체에서 상기 질환의 상기 존재를 검출하는 단계를 추가로 포함하는 방법.
  19. 제1항에 있어서, 적어도 약 90%의 민감도로 상기 대상체에서 상기 질환의 상기 존재를 검출하는 단계를 추가로 포함하는 방법.
  20. 제1항에 있어서, 적어도 약 70%의 특이도로 상기 대상체에서 상기 질환의 상기 부재를 검출하는 단계를 추가로 포함하는 방법.
  21. 제1항에 있어서, 적어도 약 80%의 특이도로 상기 대상체에서 상기 질환의 상기 부재를 검출하는 단계를 추가로 포함하는 방법.
  22. 제1항에 있어서, 적어도 약 90%의 특이도로 상기 대상체에서 상기 질환의 상기 부재를 검출하는 단계를 추가로 포함하는 방법.
  23. 제1항에 있어서, 적어도 약 70%의 양성 예측도(PPV)로 상기 대상체에서 상기 질환의 상기 존재를 검출하는 단계를 추가로 포함하는 방법.
  24. 제1항에 있어서, 적어도 약 80%의 양성 예측도(PPV)로 상기 대상체에서 상기 질환의 상기 존재를 검출하는 단계를 추가로 포함하는 방법.
  25. 제1항에 있어서, 적어도 약 90%의 양성 예측도(PPV)로 상기 대상체에서 상기 질환의 상기 존재를 검출하는 단계를 추가로 포함하는 방법.
  26. 제1항에 있어서, 적어도 약 70%의 음성 예측도(NPV)로 상기 대상체에서 상기 질환의 상기 부재를 검출하는 단계를 추가로 포함하는 방법.
  27. 제1항에 있어서, 적어도 약 80%의 음성 예측도(NPV)로 상기 대상체에서 상기 질환의 상기 부재를 검출하는 단계를 추가로 포함하는 방법.
  28. 제1항에 있어서, 적어도 약 90%의 음성 예측도(NPV)로 상기 대상체에서 상기 질환의 상기 부재를 검출하는 단계를 추가로 포함하는 방법.
  29. 제1항에 있어서, 적어도 약 0.70의 수신자 조작 특성 아래 면적(AUROC)으로 상기 대상체에서 상기 질환의 상기 존재 또는 부재를 검출하는 단계를 추가로 포함하는 방법.
  30. 제1항에 있어서, 적어도 약 0.80의 수신자 조작 특성 아래 면적(AUROC)으로 상기 대상체에서 상기 질환의 상기 존재 또는 부재를 검출하는 단계를 추가로 포함하는 방법.
  31. 제1항에 있어서, 적어도 약 0.90의 수신자 조작 특성 아래 면적(AUROC)으로 상기 대상체에서 상기 질환의 상기 존재 또는 부재를 검출하는 단계를 추가로 포함하는 방법.
  32. 제1항에 있어서, 훈련된 분류기를 상기 신호에 적용하여 상기 대상체에서 상기 질환의 상기 존재 또는 부재를 검출하는 단계를 추가로 포함하는 방법.
  33. 제5항에 있어서, 상기 전사 인자의 상기 결합 부위의 상기 접근성 점수에 훈련된 분류기를 적용하여 상기 대상체에서 상기 질환의 상기 존재 또는 부재를 검출하는 단계를 추가로 포함하는 방법.
  34. 제32항 또는 제33항에 있어서, 상기 훈련된 분류기는 훈련된 기계 학습 분류기를 포함하는 것인 방법.
  35. 제34항에 있어서, 상기 훈련된 기계 학습 분류기는 지도 기계 학습 알고리즘을 포함하는 것인 방법.
  36. 제35항에 있어서, 상기 지도 기계 학습 알고리즘은 회귀, 서포트 벡터 머신(support vector machine), 트리 기반 방법(tree-based method), 신경망, 및 랜덤 포레스트(random forest) 중 하나 이상을 포함하는 것인 방법.
  37. 적어도 하나의 컴퓨터 프로세서를 포함하는 컴퓨팅 장치, 실행 가능한 명령을 수행하도록 구성된 운영 체제, 메모리, 및 컴퓨팅 장치에 의해 실행 가능한 명령을 포함하여 대상체에서 질환의 존재 또는 부재를 검출하기 위한 컴퓨터 애플리케이션을 제공하는 컴퓨터 프로그램을 포함하는 시스템으로서, 상기 컴퓨터 애플리케이션은
    상기 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드 세트를 획득하는 것으로 프로그래밍된 서열 모듈;
    상기 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 것으로 프로그래밍된 커버리지 모듈;
    상기 커버리지 패턴을 처리하여 신호를 제공하는 것으로 프로그래밍된 신호 모듈; 및
    상기 신호를 참조 신호로 처리하여, 상기 대상체에서 상기 질환의 상기 존재 또는 부재를 검출하는 것으로 프로그래밍된 검출 모듈로서, 상기 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 검출 모듈
    을 포함하는 것인 시스템.
  38. 하나 이상의 컴퓨터 프로세서에 의해 실행될 때, 대상체에서 질환의 존재 또는 부재를 검출하기 위한 방법을 구현하는 기계 실행 가능 코드를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 상기 방법은
    (a) 상기 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드 세트를 제공하는 단계;
    (b) 상기 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 단계;
    (c) 상기 커버리지 패턴을 처리하여 신호를 제공하는 단계; 및
    (d) 상기 신호를 참조 신호로 처리하여, 상기 대상체에서 상기 질환의 상기 존재 또는 부재를 검출하는 단계로서, 상기 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 단계
    를 포함하는 것인 비일시적 컴퓨터 판독 가능 매체.
  39. 대상체에서 질환의 존재 또는 부재를 검출하기 위한 시스템으로서,
    상기 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드 세트를 포함하는 데이터베이스; 및
    데이터베이스에 작동 가능하게 결합된 하나 이상의 컴퓨터 프로세서
    를 포함하며, 상기 하나 이상의 컴퓨터 프로세서는
    (a) 상기 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 것;
    (b) 상기 커버리지 패턴을 처리하여 신호를 제공하는 것; 및
    (c) 상기 신호를 참조 신호로 처리하여, 상기 대상체에서 상기 질환의 상기 존재 또는 부재를 검출하는 것으로서, 상기 신호와 상기 참조 신호는 상이한 주파수를 갖는 것
    으로 개별적으로 또는 총체적으로 프로그래밍되는 것인 시스템.
  40. 대상체에서 질환의 진행 또는 완화를 모니터링하기 위한 컴퓨터 구현 방법으로서,
    (a) 1차 시기에 상기 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 제1의 서열 리드 세트 및 상기 1차 시기보다 늦은 2차 시기에 상기 대상체로부터 추출된 DNA로부터의 제2의 서열 리드 세트를 제공하는 단계;
    (b) 상기 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 상기 제2의 서열 리드 세트를 사용하여 상기 전사 인자에 대한 제2 커버리지 패턴을 생성하는 단계;
    (c) 상기 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 상기 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 단계;
    (d) 상기 제1 신호를 참조 신호로 처리하는 단계로서, 상기 제1 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 단계;
    (e) 상기 제2 신호를 상기 참조 신호로 처리하는 단계로서, 상기 제2 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 단계; 및
    (f) 상기 제1 신호 및 상기 제2 신호를 상기 참조 신호로 처리하는 것을 기반으로 하여, 상기 대상체에서 상기 질환의 상기 진행 또는 완화를 모니터링하는 단계
    를 포함하는 컴퓨터 구현 방법.
  41. 제40항에 있어서, 상기 DNA는 무세포 DNA인 방법.
  42. 제40항 또는 제41항에 있어서, 상기 질환은 암인 방법.
  43. 제40항 내지 제42항 중 어느 하나의 항에 있어서, (b)는 상기 제1의 서열 리드 세트 및 상기 제2의 서열 리드 세트를 참조 서열에 정렬시켜 제1의 정렬된 서열 패턴 및 제2의 정렬된 서열 패턴을 각각 제공하는 단계, 상기 전사 인자의 결합 부위에 상응하는 상기 제1의 정렬된 서열 패턴 및 상기 제2의 정렬된 서열 패턴의 영역을 선택하는 단계, 및 상기 영역에서 상기 제1의 정렬된 서열 패턴 및 상기 제2의 정렬된 서열 패턴을 정규화하는 단계를 포함하는 것인 방법.
  44. 제40항 내지 제43항 중 어느 하나의 항에 있어서, (c)는 저주파 통과 필터를 사용하는 단계를 포함하는 것인 방법.
  45. 제41항에 있어서, (c)는 사비츠키-골레이 필터를 사용하는 단계를 포함하는 것인 방법.
  46. 제40항 내지 제45항 중 어느 하나의 항에 있어서, 상기 대상체는 인간인 방법.
  47. 제40항 내지 제46항 중 어느 하나의 항에 있어서, 상기 전사 인자는 암 특이적 전사 인자인 방법.
  48. 제47항에 있어서, 상기 전사 인자는 GRH-L2, ASH-2, HOX-B13, EVX2, PU.1, Lyl-1, Spi-B, FOXA1, HNF-1a, HNF-4a, HNF-4g, 및 DLX-2로 이루어진 군으로부터 선택되는 것인 방법.
  49. 제40항 내지 제48항 중 어느 하나의 항에 있어서, (f)를 기반으로 하여, 상기 대상체에서 상기 질환에 대한 치료 요법을 조정하는 단계를 추가로 포함하는 방법.
  50. 적어도 하나의 컴퓨터 프로세서를 포함하는 컴퓨팅 장치, 실행 가능한 명령을 수행하도록 구성된 운영 체제, 메모리, 및 컴퓨팅 장치에 의해 실행 가능한 명령을 포함하여 대상체에서 질환의 진행 또는 완화를 모니터링하기 위한 컴퓨터 애플리케이션을 제공하는 컴퓨터 프로그램을 포함하는 시스템으로서, 상기 컴퓨터 애플리케이션은
    1차 시기에 상기 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 제1의 서열 리드 세트 및 상기 1차 시기보다 늦은 2차 시기에 상기 대상체로부터 추출된 DNA로부터의 제2의 서열 리드 세트를 획득하는 것으로 프로그래밍된 서열 모듈;
    상기 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 상기 제2의 서열 리드 세트를 사용하여 상기 전사 인자에 대한 제2 커버리지 패턴을 생성하는 것으로 프로그래밍된 커버리지 모듈;
    상기 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 상기 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 것으로 프로그래밍된 신호 모듈;
    상기 제1 신호를 참조 신호로 처리하는 것으로 프로그래밍된 제1 프로세싱 모듈로서, 상기 제1 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 제1 프로세싱 모듈;
    상기 제2 신호를 상기 참조 신호로 처리하는 것으로 프로그래밍된 제2 프로세싱 모듈로서, 상기 제2 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 제2 프로세싱 모듈; 및
    상기 제1 신호 및 상기 제2 신호를 상기 참조 신호로 처리하는 것을 기반으로 하여, 상기 대상체에서 상기 질환의 상기 진행 또는 완화를 모니터링하는 것으로 프로그래밍된 모니터링 모듈
    을 포함하는 것인 시스템.
  51. 하나 이상의 컴퓨터 프로세서에 의해 실행될 때, 대상체에서 질환의 진행 또는 완화를 모니터링하기 위한 방법을 구현하는 기계 실행 가능 코드를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 상기 방법은
    (a) 1차 시기에 상기 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 제1의 서열 리드 세트 및 상기 1차 시기보다 늦은 2차 시기에 상기 대상체로부터 추출된 DNA로부터의 제2의 서열 리드 세트를 제공하는 단계;
    (b) 상기 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 상기 제2의 서열 리드 세트를 사용하여 상기 전사 인자에 대한 제2 커버리지 패턴을 생성하는 단계;
    (c) 상기 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 상기 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 단계;
    (d) 상기 제1 신호를 참조 신호로 처리하는 단계로서, 상기 제1 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 단계;
    (e) 상기 제2 신호를 상기 참조 신호로 처리하는 단계로서, 상기 제2 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 단계; 및
    (f) 상기 제1 신호 및 상기 제2 신호를 상기 참조 신호로 처리하는 것을 기반으로 하여, 상기 대상체에서 상기 질환의 상기 진행 또는 완화를 모니터링하는 단계
    를 포함하는 것인 비일시적 컴퓨터 판독 가능 매체.
  52. 대상체에서 질환의 진행 또는 완화를 모니터링하기 위한 시스템으로서,
    1차 시기에 상기 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 제1의 서열 리드 세트 및 상기 1차 시기보다 늦은 2차 시기에 상기 대상체로부터 추출된 DNA로부터의 제2의 서열 리드 세트를 포함하는 데이터베이스; 및
    데이터베이스에 작동 가능하게 결합된 하나 이상의 컴퓨터 프로세서
    를 포함하며, 상기 하나 이상의 컴퓨터 프로세서는
    (a) 상기 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 상기 제2의 서열 리드 세트를 사용하여 상기 전사 인자에 대한 제2 커버리지 패턴을 생성하는 것;
    (b) 상기 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 상기 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 것;
    (c) 상기 제1 신호를 참조 신호로 처리하는 것으로서, 상기 제1 신호와 상기 참조 신호는 상이한 주파수를 갖는 것;
    (d) 상기 제2 신호를 상기 참조 신호로 처리하는 것으로서, 상기 제2 신호와 상기 참조 신호는 상이한 주파수를 갖는 것; 및
    (e) 상기 제1 신호 및 상기 제2 신호를 상기 참조 신호로 처리하는 것을 기반으로 하여, 상기 대상체에서 상기 질환의 상기 진행 또는 완화를 모니터링하는 것
    으로 개별적으로 또는 총체적으로 프로그래밍되는 것인 시스템.
  53. 종양 특이적 전사 인자 결합 부위(TFBS) 패턴을 결정하기 위한 컴퓨터 구현 방법으로서,
    (a) 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 제1의 서열 리드 세트 및 상기 1차 시기보다 늦은 2차 시기에 상기 대상체로부터 추출된 DNA로부터의 제2의 서열 리드 세트를 제공하는 단계;
    (b) 상기 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 상기 제2의 서열 리드 세트를 사용하여 상기 전사 인자에 대한 제2 커버리지 패턴을 생성하는 단계;
    (c) 상기 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 상기 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 단계;
    (d) 상기 제1 신호를 참조 신호로 처리하는 단계로서, 상기 제1 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 단계;
    (e) 상기 제2 신호를 상기 참조 신호로 처리하는 단계로서, 상기 제2 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 단계; 및
    (f) 상기 제1 신호 및 상기 제2 신호를 상기 참조 신호로 처리하는 것을 기반으로 하여, 상기 종양 특이적 TFBS 패턴을 결정하는 단계
    를 포함하는 컴퓨터 구현 방법.
  54. 적어도 하나의 컴퓨터 프로세서를 포함하는 컴퓨팅 장치, 실행 가능한 명령을 수행하도록 구성된 운영 체제, 메모리, 및 컴퓨팅 장치에 의해 실행 가능한 명령을 포함하여 종양 특이적 전사 인자 결합 부위(TFBS) 패턴을 결정하기 위한 컴퓨터 애플리케이션을 제공하는 컴퓨터 프로그램을 포함하는 시스템으로서, 상기 컴퓨터 애플리케이션은
    1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 제1의 서열 리드 세트 및 상기 1차 시기보다 늦은 2차 시기에 상기 대상체로부터 추출된 DNA로부터의 제2의 서열 리드 세트를 획득하는 것으로 프로그래밍된 서열 모듈;
    상기 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 상기 제2의 서열 리드 세트를 사용하여 상기 전사 인자에 대한 제2 커버리지 패턴을 생성하는 것으로 프로그래밍된 커버리지 모듈;
    상기 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 상기 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 것으로 프로그래밍된 신호 모듈;
    상기 제1 신호를 참조 신호로 처리하는 것으로 프로그래밍된 제1 프로세싱 모듈로서, 상기 제1 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 제1 프로세싱 모듈;
    상기 제2 신호를 상기 참조 신호로 처리하는 것으로 프로그래밍된 제2 프로세싱 모듈로서, 상기 제2 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 제2 프로세싱 모듈; 및
    상기 제1 신호 및 상기 제2 신호를 상기 참조 신호로 처리하는 것을 기반으로 하여, 상기 종양 특이적 TFBS 패턴을 결정하는 것으로 프로그래밍된 검출 모듈
    을 포함하는 것인 시스템.
  55. 하나 이상의 컴퓨터 프로세서에 의해 실행될 때, 종양 특이적 전사 인자 결합 부위(TFBS) 패턴을 결정하기 위한 방법을 구현하는 기계 실행 가능 코드를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 상기 방법은
    (a) 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 제1의 서열 리드 세트 및 상기 1차 시기보다 늦은 2차 시기에 상기 대상체로부터 추출된 DNA로부터의 제2의 서열 리드 세트를 제공하는 단계;
    (b) 상기 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 상기 제2의 서열 리드 세트를 사용하여 상기 전사 인자에 대한 제2 커버리지 패턴을 생성하는 단계;
    (c) 상기 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 상기 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 단계;
    (d) 상기 제1 신호를 참조 신호로 처리하는 단계로서, 상기 제1 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 단계;
    (e) 상기 제2 신호를 상기 참조 신호로 처리하는 단계로서, 상기 제2 신호와 상기 참조 신호는 상이한 주파수를 갖는 것인 단계; 및
    (f) 상기 제1 신호 및 상기 제2 신호를 상기 참조 신호로 처리하는 것을 기반으로 하여, 상기 종양 특이적 TFBS 패턴을 결정하는 단계
    를 포함하는 것인 비일시적 컴퓨터 판독 가능 매체.
  56. 종양 특이적 전사 인자 결합 부위(TFBS) 패턴을 결정하기 위한 시스템으로서,
    1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 제1의 서열 리드 세트 및 상기 1차 시기보다 늦은 2차 시기에 상기 대상체로부터 추출된 DNA로부터의 제2의 서열 리드 세트를 포함하는 데이터베이스; 및
    데이터베이스에 작동 가능하게 결합된 하나 이상의 컴퓨터 프로세서
    를 포함하며, 상기 하나 이상의 컴퓨터 프로세서는
    (a) 상기 제1의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴을 생성하고 상기 제2의 서열 리드 세트를 사용하여 상기 전사 인자에 대한 제2 커버리지 패턴을 생성하는 것;
    (b) 상기 제1 커버리지 패턴을 처리하여 제1 신호를 제공하고 상기 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 것;
    (c) 상기 제1 신호를 참조 신호로 처리하는 것으로서, 상기 제1 신호와 상기 참조 신호는 상이한 주파수를 갖는 것;
    (d) 상기 제2 신호를 상기 참조 신호로 처리하는 것으로서, 상기 제2 신호와 상기 참조 신호는 상이한 주파수를 갖는 것; 및
    (e) 상기 제1 신호 및 상기 제2 신호를 상기 참조 신호로 처리하는 것을 기반으로 하여, 상기 종양 특이적 TFBS 패턴을 결정하는 것
    으로 개별적으로 또는 총체적으로 프로그래밍되는 것인 시스템.
  57. 대상체에서 질환의 존재 또는 부재를 검출하기 위한 시스템으로서,
    (i) 상기 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 서열 리드 세트를 사용하여 전사 인자에 대한 커버리지 패턴을 생성하는 단계;
    (ii) 상기 커버리지 패턴을 처리하여 신호를 제공하는 단계로서, 상기 신호는 참조 신호와 상이한 주파수를 갖는 것인 단계; 및
    (iii) 상기 신호를 상기 참조 신호로 처리하여, 상기 대상체에서 상기 질환의 진단을 제공하는 단계
    로 구성된 프로세서를 포함하는 시스템.
  58. 제57항에 있어서, (ii)는 상기 전사 인자의 더 높은 접근성의 징후를 확인하는 단계를 포함하는 것인 시스템.
  59. 대상체에서 질환의 진행 또는 완화를 모니터링하기 위한 시스템으로서,
    (i) 1차 시기에 대상체로부터 추출된 데옥시리보핵산(DNA)으로부터의 제1의 서열 리드 세트 및 상기 1차 시기보다 늦은 2차 시기에 상기 대상체로부터 추출된 DNA로부터의 제2의 서열 리드 세트를 사용하여 전사 인자에 대한 제1 커버리지 패턴 및 상기 전사 인자에 대한 제2 커버리지 패턴을 생성하는 단계;
    (ii) 상기 제1 커버리지 패턴을 처리하여 제1 신호를 제공하는 단계, 및 상기 제2 커버리지 패턴을 처리하여 제2 신호를 제공하는 단계로서, 상기 제1 신호와 상기 제2 신호는 참조 신호와 상이한 주파수를 갖는 것인 단계; 및
    (iii) 상기 제1 신호를 상기 참조 신호로 처리하고 상기 제2 신호를 상기 참조 신호로 처리하여, 상기 대상체에서 상기 질환의 상기 진행 또는 완화를 모니터링하는 단계
    로 구성된 프로세서를 포함하는 시스템.
  60. 제59항에 있어서, 상기 전사 인자는 GRH-L2, ASH-2, HOX-B13, EVX2, PU.1, Lyl-1, Spi-B, FOXA1, HNF-1a, HNF-4a, HNF-4g, 및 DLX-2로 이루어진 군으로부터 선택되는 것인 시스템.
KR1020217010231A 2018-10-08 2019-10-08 전사 인자 프로파일링 KR20210073526A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862742854P 2018-10-08 2018-10-08
US62/742,854 2018-10-08
US201862752270P 2018-10-29 2018-10-29
US62/752,270 2018-10-29
US201962849097P 2019-05-16 2019-05-16
US62/849,097 2019-05-16
PCT/US2019/055119 WO2020076772A1 (en) 2018-10-08 2019-10-08 Transcription factor profiling

Publications (1)

Publication Number Publication Date
KR20210073526A true KR20210073526A (ko) 2021-06-18

Family

ID=70165281

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217010231A KR20210073526A (ko) 2018-10-08 2019-10-08 전사 인자 프로파일링

Country Status (9)

Country Link
US (1) US20210272653A1 (ko)
EP (1) EP3815005A4 (ko)
JP (1) JP2022511243A (ko)
KR (1) KR20210073526A (ko)
CN (1) CN112740239A (ko)
AU (1) AU2019356497A1 (ko)
CA (1) CA3107948A1 (ko)
SG (1) SG11202100960RA (ko)
WO (1) WO2020076772A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023106768A1 (ko) * 2021-12-06 2023-06-15 주식회사 지씨지놈 혈중 무세포 dna 기반 유방암 치료 예후예측 방법

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019060716A1 (en) 2017-09-25 2019-03-28 Freenome Holdings, Inc. SAMPLE EXTRACTION METHODS AND SYSTEMS
WO2022061080A1 (en) * 2020-09-17 2022-03-24 The Regents Of The University Of Colorado, A Body Corporate Signatures in cell-free dna to detect disease, track treatment response, and inform treatment decisions
CN112216345B (zh) * 2020-09-27 2021-12-17 浙江工业大学 一种基于迭代搜索策略的蛋白质溶剂可及性预测方法
CN112786104B (zh) * 2021-02-03 2024-03-22 东北大学 基于机器学习的药物疗效影响因子挖掘方法
EP4347884A1 (en) * 2021-05-24 2024-04-10 University of Essex Enterprises Limited Method and system for identifying genomic regions with condition sensitive occupancy/positioning of nucleosomes and/or chromatin
CN114639441B (zh) * 2022-05-18 2022-08-05 山东建筑大学 一种基于带权多粒度扫描的转录因子结合位点预测方法
CN115691665B (zh) * 2022-12-30 2023-04-07 北京求臻医学检验实验室有限公司 基于转录因子的癌症早期筛查诊断方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG10202008532PA (en) * 2010-11-30 2020-10-29 Univ Hong Kong Chinese Detection of genetic or molecular aberrations associated with cancer
US20130116930A1 (en) * 2011-08-22 2013-05-09 The Board Of Trustees Of The Leland Stanford Junior University Method and System for Assessment of Regulatory Variants in a Genome
CN110872617A (zh) * 2012-09-04 2020-03-10 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
US20130309666A1 (en) * 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR102441391B1 (ko) * 2014-07-25 2022-09-07 유니버시티 오브 워싱톤 무세포 dna를 생성하는 조직 및/또는 세포 유형을 결정하는 방법 및 이를 사용하여 질환 또는 장애를 확인하는 방법
EP3567120B1 (en) * 2014-12-12 2020-08-19 Verinata Health, Inc. Using cell-free dna fragment size to determine copy number variations
CN114634985A (zh) * 2015-03-04 2022-06-17 威拉赛特公司 使用表达水平和序列变体信息评估疾病发生或复发风险的方法
US20180327825A1 (en) * 2015-11-09 2018-11-15 Progenity, Inc. Methods for determining the origin of dna molecules
ES2967443T3 (es) * 2016-07-06 2024-04-30 Guardant Health Inc Procedimientos de perfilado de fragmentoma de ácidos nucleicos sin células
WO2018081130A1 (en) * 2016-10-24 2018-05-03 The Chinese University Of Hong Kong Methods and systems for tumor detection
SG11202009696WA (en) * 2018-04-13 2020-10-29 Freenome Holdings Inc Machine learning implementation for multi-analyte assay of biological samples

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023106768A1 (ko) * 2021-12-06 2023-06-15 주식회사 지씨지놈 혈중 무세포 dna 기반 유방암 치료 예후예측 방법

Also Published As

Publication number Publication date
CN112740239A (zh) 2021-04-30
US20210272653A1 (en) 2021-09-02
EP3815005A1 (en) 2021-05-05
SG11202100960RA (en) 2021-02-25
CA3107948A1 (en) 2020-04-16
WO2020076772A1 (en) 2020-04-16
EP3815005A4 (en) 2022-03-30
AU2019356497A1 (en) 2021-03-18
JP2022511243A (ja) 2022-01-31

Similar Documents

Publication Publication Date Title
US20210272653A1 (en) Transcription factor profiling
Quazi Artificial intelligence and machine learning in precision and genomic medicine
Hao et al. DNA methylation markers for diagnosis and prognosis of common cancers
AU2019253118B2 (en) Machine learning implementation for multi-analyte assay of biological samples
Lee et al. Spatiotemporal genomic architecture informs precision oncology in glioblastoma
US20200232046A1 (en) Genomic sequencing classifier
KR102064004B1 (ko) 타겟 유전자 발현의 확률 모델링을 이용하는 세포 시그널링 경로 활성의 평가
Venet et al. Most random gene expression signatures are significantly associated with breast cancer outcome
JP2024016039A (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
US20190100790A1 (en) Determination of notch pathway activity using unique combination of target genes
US11776661B2 (en) Determination of MAPK-AP-1 pathway activity using unique combination of target genes
Wang et al. Identification and validation of a prognostic 9-genes expression signature for gastric cancer
KR20230017169A (ko) 핵산 메틸화 분석을 통한 결장직장암 검출을 위한 방법 및 시스템
US20230160019A1 (en) Rna markers and methods for identifying colon cell proliferative disorders
Su et al. Pan-cancer analysis of pathway-based gene expression pattern at the individual level reveals biomarkers of clinical prognosis
Zhang et al. The signature of pharmaceutical sensitivity based on ctDNA mutation in eleven cancers
Kim et al. Identifying diagnostic MicroRNAs and investigating their biological implications in rectal cancer
Sehgal et al. An integrative approach for mapping differentially expressed genes and network components using novel parameters to elucidate key regulatory genes in colorectal cancer
US20220213558A1 (en) Methods and systems for urine-based detection of urologic conditions
Hicks et al. Analysis of patterns of gene expression variation within and between ethnic populations in pediatric B-ALL
Bossé et al. Prognostic Implication of Methylation-Based Circulating Tumor DNA Detection Prior to Surgery in Stage I Non-Small Cell Lung Cancer
Kaddi et al. Developing robust predictive models for head and neck cancer across microarray and RNA-seq data
Toh et al. Chromosomal scale length variation of germline DNA can predict individual cancer risk
Li et al. cfTrack: Exome-wide mutation analysis of cell-free DNA to simultaneously monitor the full spectrum of cancer treatment outcomes: MRD, recurrence, and evolution
He et al. Predicting prostate cancer recurrence: Introducing PCRPS, an advanced online web server