KR20230070199A - 미생물 핵산으로 전이성 암 및 기원 조직의 존재 식별 - Google Patents

미생물 핵산으로 전이성 암 및 기원 조직의 존재 식별 Download PDF

Info

Publication number
KR20230070199A
KR20230070199A KR1020237005750A KR20237005750A KR20230070199A KR 20230070199 A KR20230070199 A KR 20230070199A KR 1020237005750 A KR1020237005750 A KR 1020237005750A KR 20237005750 A KR20237005750 A KR 20237005750A KR 20230070199 A KR20230070199 A KR 20230070199A
Authority
KR
South Korea
Prior art keywords
cancer
microbial
carcinoma
tumor
combination
Prior art date
Application number
KR1020237005750A
Other languages
English (en)
Inventor
그레고리 디. 푸어
Original Assignee
더 리젠츠 오브 더 유니버시티 오브 캘리포니아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 filed Critical 더 리젠츠 오브 더 유니버시티 오브 캘리포니아
Publication of KR20230070199A publication Critical patent/KR20230070199A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Bioethics (AREA)
  • Primary Health Care (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

조직 또는 혈액 내 비-인간, 미생물 핵산에 기초한 전이성 암의 검출 및 기원 조직의 결정 방법.

Description

미생물 핵산으로 전이성 암 및 기원 조직의 존재 식별
관련 출원에 대한 참조
본 출원은 각각 2020년 9월 21일 및 2020년 10월 26일에 출원된 미국 가출원 번호 63/081,075 및 63/105,624의 우선권을 주장하며, 이들 출원은 본원에 참조로 포함된다.
정부 후원
본 발명은 미국 국립 보건원이 수여한 보조금 번호 F30 CA243480 하에 정부 지원으로 이루어졌다. 정부는 본 발명에 대해 특정 권리를 갖는다.
기술 분야
본 발명은 조직 및 액체 생검에 존재하는 비-인간 미생물 핵산으로 전이성 암 및/또는 이의 기원 조직의 존재를 식별하는 것에 관한 것이다. 본 발명의 적어도 하나의 구현예에서, 기계 학습 (ML) 모델은 전이성 암의 유형 사이 및 유형 내에서 구별하기 위한 진단 모델로서 훈련된다.
증가하는 증거는 발암에서 박테리아, 바이러스, 진균, 고세균 및 파지 미생물의 핵심 역할을 나타낸다. 실제로, 전 세계적으로 발생하는 암 부담의 20%는 미생물에 의해 직접적으로 발생하는 것으로 추정되었다. 많은 연구자들은 잠재적인 메커니즘이 다른 메커니즘 중에서 대상체의 면역 세포의 능력을 조작할 뿐만 아니라 염증을 증가시키거나 약화시키는 능력을 가진 면역 체계에 대한 미생물의 영향을 통한 것이라고 믿고 있다.
하나 이상의 특정 박테리아가 서식하는 무균 마우스 모델을 사용한 연구 데이터에 따르면, 미생물군은 염증 조절, DNA 손상 유도, 발암 또는 종양 억제와 관련된 대사 산물 생성과 같은 다양한 메커니즘에 의해 암 감수성 및 진행을 변경할 수 있는 것으로 보인다. 발암 및 암 진행 외에도, 미생물군이 암 치료에 대해 반응을 예측하거나 "전통적인" 화학요법 (예를 들어 젬시타빈) 및 보다 "혁신적인" 면역요법 (예를 들어 PD-1 차단)을 포함하는 암 치료 개선을 위해 조작될 수 있다는 새로운 증거가 제시된다.
많은 문헌이 숙주 장내 마이크로바이옴의 구성 또는 기능과 암에 미치는 영향을 조사하는 데 초점을 맞추었지만, 문헌의 최근 사례는 원발성 종양 조직 내 또는 원발성 종양이 있는 환자의 혈액 내에서 암 관련 미생물군을 조사했다 (PMID: 32214244, 32467386, 29567829, 31578522). 원발성 종양 관련 미생물군은 종양 형성과의 잠재적인 인과 관계 때문에 그리고 여러 전이성 대응물과 비교하여 단일 원발성 종양에 접근하기 쉽기 때문에 종종 연구 관심 대상이었다.
그러나 암으로 인한 사망의 대부분은 원발성 종양이 아니라 전이에서 비롯되며 암 관련 미생물군과 전이성 암 사이의 관계에 대해서는 알려진 바가 거의 없다. 이 분야의 이러한 공백이 해결될 수 있다면 전이성 암의 존재 및/또는 기원 조직의 조기 발견을 통해 상당한 환자 이환율과 사망률을 예방하는 새로운 종류의 암 진단으로 이어질 수 있다. 또한, 전이성 암의 기원 조직의 정확한 식별은 환자에게 어떤 임상 치료를 제공해야 하는지를 안내하는 데 중요하다. 고안된 예로서, 환자의 뇌에서 발견된 전이성 폐암은 환자의 뇌에서 기원한 뇌암 (즉, 원발성 종양)과는 상이한 임상적 관리를 가질 것이다. 따라서, 전이성 암의 기원 조직 진단을 개선하는 방법은 또한 주어진 치료의 최적 유형 또는 투약량 및 환자의 예후에 영향을 미친다.
역사적으로, 전이성 암의 기원 조직을 식별하는 과정은 전이성 조직 생검으로부터 인간 분자 정보를 얻는 것에 의존해 왔다: 면역조직화학 (IHC) 단백질 염색, 인간 DNA 시퀀싱 (예를 들어, 특정 암과 관련된 것으로 알려진 돌연변이를 식별하기 위해), DNA의 시퀀싱 변형 (예를 들어, 후성유전체), 또는 인간 RNA 시퀀싱 (예를 들어, 특정 원발성 종양 유형과 관련된 유전자 발현 패턴을 확인하기 위해). 그러나, 전이성 종양의 기원 조직 위치를 알아내는 이러한 방법의 정확성은 제한적이었다. 예를 들어, Weiss et al. (PMID: 23287002)은 IHC 방법을 사용하여 69%의 정확도 수준을 보고했으며 동일한 샘플에서 92개 유전자 발현 서명을 사용할 때 79%만 보고했다. 이러한 결과는 환자의 전이성 암의 >20%에 대한 기원 조직을 식별할 때 실패율을 암시하며, 이는 모든 암 사망의 대다수가 전이로 인한 것이라는 점에서 놀랍다. 이러한 낮은 정확도는 얼마나 많은 전이성 종양이 원발성 종양 조직의 원래 세포 마커를 상실하는지를 반영하여, 인간 정보로 이들의 원천을 확실하고 신속하게 식별하기 어렵게 만들어, 환자의 원발성 종양에 대한 임상적으로 침습적이고 비용이 많이 들고 긴급한 조사를 촉발할 수 있다.
암 관련 미생물에 관한 최신 과학 기술에 대해 다음이 알려졌다: (i) 많은 암 관련 미생물은 원발성 종양 암 세포와 인접한 면역 세포 내부에 세포 내에 위치한다 (PMID: 32467386), (ii) 사실상 모든 원발성 종양에는 암 유형별 미생물군이 있다 (PMID: 32214244), 및 (iii) 세포 내 미생물은 결장암의 경우 원발성 종양에서 전이될 때 암세포 내에서 이동할 수 있다 (PMID: 29170280).
그러나 알려지지 않은 매우 중요한 것은 다음과 같다: (i) 전이의 미생물이 기원 조직을 충실히 반영하는지 여부 또는 전이의 새로운 신체 부위 (원발 종양과 비교하여)가 미생물 구성 또는 기능을 방해하는지 여부; (ii) 모든 암 유형, 특히 결장암을 제외한 암 유형이 원발성 종양과 전이 사이에 세포 내 (또는 세포 외) 미생물을 공유하는지 여부, 이는 미생물 정보에 의존하는 전이에 대한 범-암 진단 접근법의 실행 가능성에 영향을 미칠 것이다; (iii) 전이 미생물군이 혈액에서 검출될 수 있는지, 만약 그렇다면 그러한 정보가 암의 기원 조직에 대한 정보가 될 수 있는지 여부.
이전에, WO2020093040A1은 환자 조직 및 혈액에서 비-인간 미생물 핵산을 사용하여 원발성 종양에 대한 새로운 암 진단법을 개발하는 데 중점을 두었다. 추가로, US20180291463A1, WO2018200813A1, 및 WO2018031545A1은 원발성 종양 샘플 (NOT 전이 및 NOT 혈액 또는 기타 체액)에서 미리 선택된 ("편향된") 미생물 집단을 검출하기 위한 마이크로어레이 기반 기술을 설명한다. US20180223338은 두경부암을 식별하고 진단하는 데 원발성 종양 조직 마이크로바이옴 또는 타액 마이크로바이옴을 사용하는 것을 설명한다. US20180258495A1은 결장암, 결장암과 관련된 일부 종류의 돌연변이 및 해당 미생물을 수집하고 증폭하기 위한 키트를 검출하기 위해 원발성 종양 조직 마이크로바이옴 또는 배설물 마이크로바이옴을 사용하는 것을 설명한다.
본 발명의 개시내용은 적어도 하나의 구현예에 따라, 인간 조직 생검 또는 혈액 유래 샘플의 비-인간 기원의 전이성 핵산만을 사용하여 전이성 암의 존재 또는 부재, 그의 기원 조직, 및 특정 요법에 반응할 가능성을 정확하게 진단하거나 결정하는 방법을 제공한다.
구현예에서, 본 발명은 혈액 유래 조직을 사용하여 전이성 암의 존재 및/또는 유형과 관련된 미생물 존재 또는 존재비(abundance)('시그니처')의 패턴을 광범위하게 생성하는 방법을 제공한다. 그런 다음 이러한 시그니처는 인간의 전이성 암의 존재 및/또는 기원 조직을 진단하기 위해 배치될 수 있다.
구현예에서, 본 발명은 전이성 종양 조직을 사용하여 전이성 암의 기원 조직과 관련된 미생물 존재 또는 풍부의 패턴을 광범위하게 생성하는 방법을 제공한다. 그런 다음 이러한 시그니처는 인간의 전이성 암의 존재 및/또는 기원 조직을 진단하기 위해 배치될 수 있다.
구현예에서, 본 발명은 다음 단계를 포함하는, 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법을 제공한다: 암에 걸린 대상체의 생물학적 샘플에서 미생물 존재를 검출하는 단계; 미생물 존재로부터 오염된 미생물 특징을 제거함으로써, 오염 제거된 미생물 존재를 생성하는 단계; 오염 제거된 미생물 존재를 암에 걸린 하나 이상의 대상체로부터의 하나 이상의 생물학적 샘플의 미생물 존재와 비교함으로써, 미생물-암 비교 데이터세트를 생성하는 단계; 및 미생물 암 비교 데이터세트로부터 대상체의 전이성 암의 존재 또는 부재를 결정하는 단계.
구현예에서, 본 발명은 상기/하기에 기재된 바와 같은 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법을 제공하며, 여기서 미생물 암 비교 데이터세트로부터 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법은 전이성 암의 기원 조직을 확인하는 것을 포함한다.
구현예에서, 본 발명은 상기/하기에 기재된 바와 같은 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법을 제공하며, 여기서 미생물의 존재는 미생물의 존재비를 추가로 포함한다. 미생물의 존재 또는 존재비는 예를 들어 다음과 같은 비포유동물 생명 영역을 포함할 수 있다: 박테리아, 진균, 바이러스, 고세균, 원생동물, 박테리오파지 또는 이들의 임의의 조합.
구현예에서, 본 발명은 상기/하기에 기재된 바와 같은 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법을 제공하며, 여기서 미생물의 존재 또는 존재비는 생태학적 샷건 시퀀싱, 정량적 중합효소 연쇄 반응, 면역조직화학, 인시투 혼성화, 유세포 분석법, 숙주 전체 게놈 시퀀싱, 숙주 전사체 시퀀싱, 암 전체 게놈 시퀀싱, 암 전사체 시퀀싱, 또는 이들의 조합에 의해 측정된다.
구현예에서, 본 발명은 상기/하기에 기재된 바와 같은 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법을 제공하며, 여기서 미생물의 존재 또는 존재비는 미생물 기원의 다음 핵산 영역의 증폭에 의해 측정된다: 16S rRNA의 V1, V2, V3, V4, V5, V6, V7, V8, V9 가변 도메인 영역, 18S rRNA의 내부 전사 스페이서 (ITS) 영역, 또는 이들의 임의의 조합.
구현예에서, 본 발명은 상기/하기에 기재된 바와 같은 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법을 제공하며, 여기서 미생물의 존재 또는 존재비는 미생물 DNA, RNA, 또는 이들의 임의의 조합을 표적으로 하는 핵산 측정에 의해 검출되며, 여기서 미생물 DNA, RNA, 또는 이들의 임의의 조합을 표적으로 하는 핵산 측정은 대상체의 포유동물 DNA, RNA, 또는 이들의 조합의 측정과 동시에 발생한다.
구현예에서, 본 발명은 상기/하기에 기재된 바와 같은 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법을 제공하며, 여기서 전이성 암은 다음을 포함한다: 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경아교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 림프성 신생물 미만성 거대 B세포 림프종, 식도 암종, 다형 교모세포종, 두경부 편평 세포 암종, 신장 색소혐성, 신장 투명 세포 암종, 신장 유두 세포종 암종, 간세포 암종, 폐 선암종, 폐 편평 세포 암종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 갈색 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 갑상선 암종, 흉선종, 자궁 암육종, 자궁체 자궁내막 암종, 포도막 흑색종, 또는 이들의 조합.
구현예에서, 본 발명은 상기/하기에 기재된 바와 같은 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법을 제공하며, 여기서 전이성 암은 암 유형을 포함하고, 상기 암 유형은 다음을 포함한다: 폐암, 전립선암, 흑색종 암, 유방암, 갑상선암, 또는 이들의 조합.
구현예에서, 본 발명은 상기/하기에 기재된 바와 같은 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법을 제공하며, 오염된 미생물 특징은 미생물 존재의 분류학적 할당을 포함한다.
구현예에서, 본 발명은 상기/하기에 기재된 바와 같은 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법을 제공하며, 여기서 오염된 미생물 특징을 제거하는 것은 선택 사항이며 반드시 필요한 것은 아니다.
구현예에서, 본 발명은 상기/하기에 기재된 바와 같은 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법을 제공하며, 여기서 미생물-암 비교 데이터세트를 형성하는 데 사용된 생물학적 비교 샘플은 하나 이상의 원발성 종양, 전이성 종양 또는 이들의 조합을 가진 대상체로부터 유래한다.
구현예에서, 본 발명은 상기/하기에 기재된 바와 같은 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법을 제공하며, 여기서 미생물-암 비교 데이터세트는 포유동물 특징을 추가로 포함하고, 상기 포유동물 특징은 다음을 포함한다: 종양 조직의 면역조직화학 단백질 마커, 종양 조직 DNA, 종양 조직 RNA, 종양 조직 메틸화 패턴, 무세포 종양 DNA, 무세포 종양 RNA, 엑소좀 유래 종양 DNA, 엑소좀 유래 종양 RNA, 순환 종양 세포 유래 DNA, 순환 종양 세포 유래 RNA, 무세포 종양 DNA의 메틸화 패턴, 무세포 종양 RNA의 메틸화 패턴, 순환 종양 세포 유래 DNA의 메틸화 패턴, 순환 종양 세포 유래 RNA의 메틸화 패턴, 순환 종양 세포 유래 RNA의 메틸화 패턴, 또는 이들의 임의의 조합.
구현예에서, 본 발명은 상기/하기에 기재된 바와 같은 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법을 제공하며, 여기서 생물학적 샘플은 조직 샘플, 액체 생검, 전혈 생검 또는 이들의 임의의 조합을 포함한다. 생물학적 샘플은 혈장, 백혈구, 적혈구, 혈소판, 또는 이들의 조합을 포함하는 전혈의 하나 이상의 성분을 추가로 포함할 수 있다.
구현예에서, 본 발명은 미생물 존재를 기반으로 대상체의 전이성 암을 치료하기 위한 치료제를 투여하는 방법을 제공하며, 방법은 다음 단계를 포함한다: 암에 걸린 대상체의 생물학적 샘플에서 미생물 존재를 검출하는 단계; 미생물 존재의 오염된 미생물 특징을 제거함으로써 오염 제거된 미생물 존재를 생성하는 단계; 오염 제거된 미생물 존재와 개체에 존재하는 전이성 암 사이의 연관성을 생성하는 단계; 및 오염 제거된 미생물의 존재와 전이성 암 사이의 연관성에 의해 결정된 치료제를 대상체에게 투여하는 단계.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같은 미생물 존재를 기반으로 대상체의 전이성 암을 치료하기 위한 치료제를 투여하는 방법을 제공하며, 여기서 미생물 존재는 미생물 존재비를 추가로 포함하고, 상기 미생물 존재 또는 존재비는 다음 비-포유류 생명 영역을 포함한다: 박테리아, 진균, 바이러스, 고세균, 원생동물, 박테리오파지, 또는 이들의 조합.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같은 미생물 존재를 기반으로 대상체의 전이성 암을 치료하기 위한 치료제를 투여하는 방법을 제공하며, 여기서 오염된 미생물 특징은 미생물 존재의 분류학적 할당을 포함한다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같은 미생물 존재를 기반으로 대상체의 전이성 암을 치료하기 위한 치료제를 투여하는 방법을 제공하며, 여기서 미생물 존재의 오염된 미생물 특징을 제거하는 것은 선택적인 단계이고 연관은 검출된 미생물 존재 및 대상체에 존재하는 전이성 암 사이에 생성될 수 있다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같은 미생물 존재를 기반으로 대상체의 전이성 암을 치료하기 위한 치료제를 투여하는 방법을 제공하며, 여기서 생물학적 샘플은 조직 샘플, 액체 생검, 전혈 생검 또는 이들의 임의의 조합을 포함한다. 생물학적 샘플은 혈장, 백혈구, 적혈구, 혈소판, 또는 이들의 조합을 포함하는 전혈의 하나 이상의 성분을 추가로 포함할 수 있다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같은 미생물 존재를 기반으로 대상체의 전이성 암을 치료하기 위한 치료제를 투여하는 방법을 제공하며, 여기서 치료제는 오염 제거된 미생물 존재에 의해 대사되거나 불활성화되지 않는다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같은 미생물 존재를 기반으로 대상체의 전이성 암을 치료하기 위한 치료제를 투여하는 방법을 제공하며, 여기서 치료제는 다음을 포함한다: 소분자, 호르몬 요법, 생물학적 제제, 조작된 숙주 유래 세포 유형 또는 유형들, 프로바이오틱, 조작된 박테리아, 자연적이지만 선택적인 바이러스, 조작된 바이러스, 박테리오파지, 또는 이들의 조합.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같은 미생물 존재를 기반으로 대상체의 전이성 암을 치료하기 위한 치료제를 투여하는 방법을 제공하며, 여기서 전이성 암은 다음을 포함한다: 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경아교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 림프성 신생물 미만성 거대 B세포 림프종, 식도 암종, 다형 교모세포종, 두경부 편평 세포 암종, 신장 색소혐성, 신장 투명 세포 암종, 신장 유두 세포종 암종, 간세포 암종, 폐 선암종, 폐 편평 세포 암종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 갈색 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 갑상선 암종, 흉선종, 자궁 암육종, 자궁체 자궁내막 암종, 포도막 흑색종, 또는 이들의 조합.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같은 미생물 존재를 기반으로 대상체의 전이성 암을 치료하기 위한 치료제를 투여하는 방법을 제공하며, 여기서 치료제는 전이성 암에 대한 1차 치료제와 함께 제공된 보조제를 포함하여 1차 치료제의 효능을 개선한다. 보조제는 예를 들어, 항생제 또는 항미생물제일 수 있다
구현예에서, 본 발명은 상기/하기에 기술된 바와 같은 미생물 존재를 기반으로 대상체의 전이성 암을 치료하기 위한 치료제를 투여하는 방법을 제공하며, 여기서 치료제는 전이성 암 또는 전이성 암의 환경과 관련된 미생물 구성요소 또는 항원을 기반으로 한다. 치료제는 표적 미생물 항원으로의 입양 세포 전달, 미생물 항원에 대한 암 백신, 미생물 항원에 대한 단일클론 항체, 미생물 항원을 적어도 부분적으로 표적화하도록 설계된 항체-약물-접합체, 다가 항체, 항체 단편, 하나 이상의 미생물 항원을 적어도 부분적으로 표적화하도록 설계된 이의 항체 유도체, 또는 이의 임의의 조합을 포함할 수 있다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같은 미생물 존재를 기반으로 대상체의 전이성 암을 치료하기 위한 치료제를 투여하는 방법을 제공하며, 여기서 치료제는 미생물 존재의 기능적으로 또는 생물학적으로 유사한 미생물 부류에 대해 표적화된 항생제를 포함한다. 치료는 2개 이상의 치료 유형을 추가로 포함할 수 있고, 여기서 2개 이상의 치료 유형은 2개 이상의 치료 유형 중 적어도 하나의 유형이 전이성 암 또는 전이성 암 환경과 관련된 미생물의 존재 또는 존재비를 이용하도록 조합되어 치료 효능을 높인다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같은 미생물 존재를 기반으로 대상체의 전이성 암을 치료하기 위한 치료제를 투여하는 방법을 제공하며, 여기서 오염 제거된 미생물 존재와 전이성 암 사이의 연관은 전이성 암의 기원, 유형, 또는 이의 임의의 조합을 추가로 포함한다.
구현예에서, 본 발명은 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 다음을 포함하고: 하나 이상의 프로세서; 및 소프트웨어를 포함하는 비일시적 컴퓨터 판독 가능 저장 매체, 여기서 소프트웨어는 실행 결과로서, 컴퓨터 시스템의 하나 이상의 프로세서로 하여금 암에 걸린 대상체의 생물학적 샘플의 하나 이상의 핵산과 관련된 제1 데이터를 얻고; 생물학적 샘플의 하나 이상의 핵산과 관련된 제1 데이터의 비미생물 핵산으로부터 미생물 핵산을 분리하여 제2 데이터를 결정하고; 제2 데이터에 기초하여 미생물 핵산의 미생물 존재를 확인하고; 미생물 존재의 오염된 미생물 특징을 제2 데이터로부터 제거하여 오염 제거된 미생물 존재의 테이블을 생성하고; 오염 제거된 미생물 존재 테이블을 기계 학습 모델에 입력하고; 기계 학습 모델로부터 전이성 암의 존재 또는 부재를 나타내는 출력을 수신하도록 하는 실행 가능한 명령어를 포함한다. 구현예에서, 본 발명은 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 여기서 시스템은 Illumina NovaSeq 6000 기기를 포함한다. Illumina NovaSeq 6000 기기는 Illumina NovaSeq 6000 기기에서 생성된 데이터에 액세스하고 처리할 수 있는 하나 이상의 컴퓨터 시스템에 접근 가능한 네트워크 저장 위치에 통신 가능하게 (예를 들어, 네트워크 연결을 통해) 연결될 수 있다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같은 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 여기서 미생물의 존재는 미생물의 존재비를 추가로 포함하고, 상기 미생물의 존재 또는 존재비는 다음의 비-포유류 생명 영역을 포함한다: 박테리아, 진균, 바이러스, 고세균, 원생동물, 박테리오파지, 또는 이들의 조합.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같이 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 여기서 시스템은 전이성 암의 기원 조직을 추가로 결정한다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같이 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 여기서 오염 제거된 미생물 특징은 미생물 존재의 분류학적 할당을 포함한다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같이 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 여기서 오염된 미생물 특징을 제거하는 것은 선택적이다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같이 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 여기서 미생물 및 비-미생물 핵산은 하나 이상의 핵산 분자를 미생물 및 비미생물 게놈의 기준 데이터베이스에 대해 정렬함으로써 분리된다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같이 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 여기서 미생물 및 비-미생물 핵산은 기준 게놈 데이터베이스에 대해 하나 이상의 핵산 분자를 정렬하지 않고 분리된다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같이 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 상기 오염 제거된 미생물 존재의 테이블은 포유동물 특징을 추가로 포함하고, 상기 포유동물 특징은 다음을 포함한다: 종양 조직의 면역조직화학 단백질 마커, 종양 조직 DNA, 종양 조직 RNA, 종양 조직 메틸화 패턴, 무세포 종양 DNA, 무세포 종양 RNA, 엑소좀 유래 종양 DNA, 엑소좀 유래 종양 RNA, 순환 종양 세포 유래 DNA, 순환 종양 세포 유래 RNA, 무세포 종양 DNA의 메틸화 패턴, 무세포 종양 RNA의 메틸화 패턴, 순환 종양 세포 유래 DNA의 메틸화 패턴, 종양 세포 유래 RNA의 메틸화 패턴 순환, 순환 종양 세포 유래 RNA의 메틸화 패턴, 또는 이들의 임의의 조합.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같이 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 여기서 전이성 암은 다음을 포함한다: 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경아교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 림프성 신생물 미만성 거대 B세포 림프종, 식도 암종, 다형 교모세포종, 두경부 편평 세포 암종, 신장 색소혐성, 신장 투명 세포 암종, 신장 유두 세포종 암종, 간세포 암종, 폐 선암종, 폐 편평 세포 암종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 갈색 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 갑상선 암종, 흉선종, 자궁 암육종, 자궁체 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같이 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 상기 전이성 암은 암 유형을 포함하고, 상기 암 유형은 다음을 포함한다: 폐암, 전립선암, 흑색종 암, 유방암, 갑상선암, 또는 이들의 임의의 조합.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같이 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 여기서 생물학적 샘플은 조직 샘플, 액체 생검, 전혈 생검, 또는 이들의 임의의 조합을 포함한다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같이 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 여기서 생물학적 샘플은 다음을 포함하는 전혈의 성분을 포함한다: 혈장, 백혈구, 적혈구, 혈소판, 또는 이들의 임의의 조합.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같이 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 여기서 기계 학습 모델은 비전이성 및 전이성 암 조직 또는 혈액 샘플을 구별하도록 훈련된다.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같이 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 여기서 기계 학습 모델은 하나 이상의 암 유형을 구별하도록 훈련된다. 하나 이상의 암 유형은 다음을 포함할 수 있다: 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경아교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 림프성 신생물 미만성 거대 B세포 림프종, 식도 암종, 다형 교모세포종, 두경부 편평 세포 암종, 신장 색소혐성, 신장 투명 세포 암종, 신장 유두 세포종 암종, 간세포 암종, 폐 선암종, 폐 편평 세포 암종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 갈색 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 갑상선 암종, 흉선종, 자궁 암육종, 자궁체 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합.
구현예에서, 본 발명은 상기/하기에 기술된 바와 같이 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 시스템을 제공하며, 여기서 출력은 전이성 암의 유형, 기원 조직 또는 이들의 임의의 조합의 표시를 추가로 포함한다.
구현예에서, 본 발명은 다음 단계를 포함하는 대상체에서 전이성 암을 광범위하게 진단하는 방법을 제공한다: 대상체의 조직 또는 혈액 샘플에서 미생물의 존재 또는 존재비를 검출하는 단계; 검출된 미생물의 존재 또는 존재비가 전이가 없을 때 채취된 하나 이상의 정상 조직 샘플(들)로부터의 미생물의 존재 또는 존재비와 다른지 결정하는 단계; 및 검출된 미생물의 존재 또는 존재비를 전이성 암에 대한 알려진 미생물의 존재 또는 존재비와 연관시켜 전이성 암을 진단하는 단계.
구현예에서, 본 발명은 다음 단계를 포함하는 대상체에서 전이성 암의 기원 조직을 광범위하게 진단하는 방법을 제공한다: 전이성 암을 가진 대상체로부터의 조직 또는 혈액 샘플에서 미생물의 존재 또는 존재비를 검출하는 단계; 검출된 미생물의 존재 또는 존재비가 원발성 종양이 있는 이전에 연구된 대상체의 집단에서 미생물의 존재 또는 존재비와 유사하거나 상이하다는 것을 결정하는 단계; 및 검출된 전이성 암의 미생물 존재 또는 존재비를 가장 유사한 원발성 종양 유형과 연관시켜 전이성 암의 기원 조직을 진단하는 단계.
구현예에서, 본 발명은 다음 단계를 포함하는 대상체에서 전이성 암의 기원 조직을 진단하는 방법을 제공한다: 대상체로부터의 액체 생검에서 미생물의 존재 또는 존재비를 검출하는 단계; 검출된 미생물의 존재 또는 존재비가 건강한 대상체 및/또는 원발성 종양이 있는 대상체의 집단으로부터의 하나 이상의 액체 생검에서의 미생물 존재 또는 존재비와 유사하거나 상이하다는 것을 결정하는 단계; 및 검출된 미생물의 존재 또는 존재비를 이 코호트에서 가장 유사한 액체 생검과 연관시켜, 전이성 암의 존재 또는 부재를 진단하고, 존재하는 경우 이의 기원 조직을 진단하는 단계.
구현예에서, 본 발명은 전이성 암의 신체 위치를 진단하는 방법을 제공하며, 여기서 기원 위치는 뼈 (육종), 부신, 방광, 뇌, 유방, 자궁경부, 담낭, 결장, 식도, 목 (두경부 편평 세포 암종), 신장, 간, 폐, 림프절 (미만성 거대 B 세포 림프종), 피부, 난소, 전립선, 직장, 위, 갑상선, 및 자궁이며, 여기서 대상체는 인간이다.
구현예에서, 본 발명은 전이성 암을 진단하는 방법을 제공하며, 상기 암은 부신피질암, 방광암, 뇌암 (저등급 신경아교종; 교모세포종), 유방암, 자궁경부암, 담관암종, 결장암, 식도암, 두경부암, 신장암 (색소혐성; 신장 투명 세포 암종; 유두 세포 암종), 간암, 폐암 (선암종; 편평 세포 암종), 림프성 신생물 미만성 거대 B 세포 림프종, 흑색종 (피부 흑색종, 포도막 흑색종), 난소암, 전립선암, 직장암, 육종, 위암, 갑상선암 (갑상선 암종, 흉선종), 및 자궁암이며, 여기서 대상체는 인간이다.
구현예에서, 본 발명은 비-인간 특징을 사용하여 인간 전이성 암의 분자 특징을 예측하는 방법을 제공하며, 여기서 분자 특징은 인간 돌연변이이고, 여기서 비-인간 특징은 미생물의 존재 또는 존재비다.
구현예에서, 본 발명은 전이성 암에 대해 특정 치료에 반응하거나 반응하지 않을 대상체를 예측하는 방법을 제공하며, 여기서 대상체는 인간이고, 여기서 치료는 면역요법이고, 상기 면역요법은 PD-1 차단제 (예를 들어 니볼루맙, 펨브롤리주맙)이다.
구현예에서, 본 발명은 전이성 암을 진단하는 방법을 제공하며, 질환의 확인된 비-인간 특징 또는 전이성 암의 확인된 기원 조직에 기초하여 대상체에서 전이성 암을 치료하는 단계를 추가로 포함하며, 여기서 대상체는 인간이고, 여기서 비-인간 특징은 미생물의 존재 또는 존재비다.
구현예에서, 본 발명은 전이성 암을 진단하는 방법을 제공하며, 비-인간 특징에 기초하여 대상에서 전이성 암을 치료하기 위한 새로운 치료법을 설계하는 것을 추가로 포함하며, 여기서 비-인간 특징은 미생물이고, 상기 대상체는 인간이다.
구현예에서, 본 발명은 전이성 암을 진단하는 방법을 제공하며, 이를 비-인간 특징에 기초하여 대상체에서 암의 초기 단계와 추가로 구별하며, 여기서 비-인간 특징은 미생물이고, 상기 대상체는 인간이다.
구현예에서, 다음 양상 중 하나 이상을 사용하여 전이성 암과 관련된 비-인간 특징을 표적화하고 이용하도록 새로운 치료법을 설계할 수 있다: 소분자, 호르몬 요법, 생물학적 제제, 조작된 숙주 유래 세포 유형, 프로바이오틱스, 조작된 박테리아, 자연적이지만 선택적인 바이러스, 조작된 바이러스, 및 박테리오파지.
구현예에서, 본 발명은 전이성 암을 진단하는 방법을 제공하며, 원발성 종양이 전이되는 시기 및/또는 질환이 치료에 반응하는 시기를 나타내기 위해 그의 비-인간 특징의 종단적 모니터링을 추가로 포함하며, 상기 대상체는 인간이다.
구현예에서, 본 발명은 전이성 암 조직 또는 혈액 샘플에서 미생물의 존재 또는 존재비를 측정하여 전이성 암 및/또는 이의 기원 조직을 진단할 수 있는 키트를 제공한다.
구현예에서, 본 발명은 전이성 암 조직 또는 혈액 샘플에서 미생물의 존재 또는 존재비를 분석하고 이러한 미생물 존재 또는 존재비에서 기계 학습을 적용하여 전이성 암 및/또는 이의 기원 조직을 진단하는 컴퓨터 시스템을 제공한다.
구현예에서, 본 발명은 기계 학습 아키텍처에 기초한 진단 모델을 이용한다.
구현예에서, 본 발명은 정규화된 기계 학습 아키텍처에 기초한 진단 모델을 이용한다.
구현예에서, 본 발명은 기계 학습 아키텍처의 앙상블에 기초한 진단 모델을 이용한다.
구현예에서, 본 발명은 특정 비-인간 특징을 오염물 ("노이즈")로 식별하고 선택적으로 제거하는 한편, 다른 비-인간 특징을 비오염물 ("신호")로 선택적으로 유지하며, 여기서 비-인간 특징은 미생물이다.
구현예에서, 본 발명은 전이성 암을 진단하는 방법을 제공하며 여기서 미생물은 박테리아, 진균, 바이러스, 고세균, 원생동물, 및/또는 파지 기원, 또는 이들의 임의의 조합의 것이다.
구현예에서, 본 발명은 전이성 암을 진단하는 방법을 제공하며, 여기서 미생물 존재 또는 존재비 정보는 단지 미생물 존재 또는 존재비 정보 단독으로 갖는 것보다 더 큰 예측 성능을 갖는 진단 모델을 생성하기 위해 대상체 및/또는 대상체의 전이성 암에 대한 정보와 결합되며, 상기 대상체는 인간이다.
구현예에서, 진단 모델은 하기 출처 중 하나 이상으로부터의 미생물 존재 또는 존재비 정보와 함께 대상체 정보를 이용한다: 종양 조직의 면역조직화학 단백질 마커, 종양 조직 DNA, 종양 조직 RNA, 종양 조직 메틸화 패턴, 무세포 종양 DNA, 무세포 종양 RNA, 엑소좀 유래 종양 DNA, 엑소좀 유래 종양 RNA, 순환 종양 세포 유래 DNA, 순환 종양 세포 유래 RNA, 무세포 종양 DNA의 메틸화 패턴, 무세포 종양 RNA의 메틸화 패턴, 순환 종양 세포 유래 DNA의 메틸화 패턴, 또는 순환 종양 세포 유래 RNA의 메틸화 패턴, 순환 종양 세포 유래 RNA의 메틸화 패턴.
구현예에서, 미생물의 존재 또는 존재비는 생태학적 샷건 시퀀싱, 정량적 중합효소 연쇄 반응, 면역조직화학, 인시투 혼성화, 유세포 분석, 숙주 전체 게놈 시퀀싱, 숙주 전사체 시퀀싱, 암 전체 게놈 시퀀싱, 암 전사체 시퀀싱, 또는 이들의 임의의 조합에 의해 검출되고/되거나, 여기서 미생물의 존재 또는 존재비는 다음 미생물 기원의 핵산 영역 중 하나 이상의 증폭을 사용하여 검출되고/되거나: 16S rRNA의 V1, V2, V3, V4, V5, V6, V7, V8, 또는 V9 가변 도메인 영역; 또는 18S rRNA의 내부 전사된 스페이서 (ITS) 영역, 여기서 미생물의 존재 또는 존재비는 미생물 DNA, RNA, 또는 이들의 임의의 조합을 표적으로 하는 핵산 측정에 의해 검출되고, 여기서 미생물 DNA, RNA, 또는 이들의 임의의 조합을 표적으로 하는 측정은 숙주 DNA, RNA, 또는 이들의 임의의 조합의 측정과 동시에 발생한다.
구현예에서, 미생물의 존재 또는 부재의 공간적 분포는 하기 방법 중 하나 이상에 의해 숙주의 전이성 암 조직에서 측정된다: 종양 조직 및/또는 이의 미세환경의 멀티샘플링, 면역조직화학, 인시투 혼성화, 디지털 공간 유전체학, 디지털 공간 전사체학, 또는 이들의 임의의 조합.
구현예에서, 미생물 핵산은 숙주로부터의 핵산과 동시에 검출되고 후속으로 구별된다.
구현예에서, 대상체의 핵산은 선택적으로 고갈되고 미생물 핵산은 결합된 핵산 풀의 측정 (예를 들어, 시퀀싱) 전에 선택적으로 유지되며, 상기 대상체는 인간이다.
구현예에서, 미생물 핵산은 대상체와 결합된 핵산 풀의 측정 (예를 들어, 시퀀싱) 전에 선택적으로 존재하며, 상기 대상체는 인간이다.
구현예에서, 미생물 및 비-미생물 핵산은 미생물 및 비미생물 게놈의 참조 데이터베이스에 대해 핵산을 정렬함으로써 분리된다.
구현예에서, 미생물 및 비-미생물 핵산은 참조 게놈 데이터베이스에 대해 핵산을 정렬하지 않고 분리된다.
구현예에서, 본 발명은 생물학적 샘플이 혈액, 혈액의 성분 (예를 들어, 혈장) 또는 조직 생검이며, 여기서 전이성 조직 생검은 악성 또는 비악성, 또는 이들의 조합임을 제공한다.
구현예에서, 본 발명은 생물학적 샘플이 혈장, 소변, 타액 또는 눈물, 또는 이들의 조합을 포함하지만 이에 제한되지 않는 액체 생검임을 제공한다.
구현예에서, 전이성 암의 미생물 존재 또는 존재비는 마이크로바이옴의 다른 신체 위치에서 미생물 존재 또는 존재비를 측정함으로써 추론되며, 상기 대상체는 인간이다.
구현예에서, 대상체의 생물학적 샘플에서 미생물의 존재 또는 존재비는 동시에 전이성 암의 존재 및 기원 조직을 알려준다.
일부 구현예에서, 본 개시내용은 다음 단계를 포함하는, 대상체의 전이성 암을 치료하는 적어도 70% 치료 효능을 갖는 치료를 결정하는 방법을 기술한다: (a) 전이성 암에 걸린 대상체로부터의 생물학적 샘플에서 미생물 존재를 검출하는 단계; (b) 미생물 존재의 오염된 미생물 특징을 제거함으로써 오염 제거된 미생물 존재를 생성하는 단계; (c) 오염 제거된 미생물의 존재와 대상체의 전이성 암 사이의 연관성을 생성하는 단계; 및 (d) 오염 제거된 미생물의 존재와 전이성 암 사이의 연관성에 기초하여 대상체의 전이성 암을 치료하는 적어도 70% 치료 효능을 갖는 치료를 결정하는 단계. 일부 구현예에서, 치료는 적어도 80% 또는 적어도 90%의 치료 효능을 포함한다. 일부 구현예에서, 치료 반응은 양성 반응자, 비반응자, 불리한 반응자 또는 이들의 임의의 조합을 포함한다. 일부 구현예에서, 미생물의 존재는 미생물 존재비를 추가로 포함하고, 여기서 미생물의 존재 또는 존재비는 다음 비-포유동물 생명 영역을 포함한다: 박테리아, 진균, 바이러스, 고세균, 원생동물, 박테리오파지, 또는 이들의 임의의 조합. 일부 구현예에서, 오염된 미생물 특징은 미생물 존재의 분류학적 할당을 포함한다. 일부 구현예에서, 단계 (b)는 생략된다. 일부 구현예에서, 생물학적 샘플은 조직 샘플, 액체 생검, 전혈 생검, 또는 이들의 임의의 조합을 포함한다. 일부 구현예에서, 생물학적 샘플은 혈장, 백혈구, 적혈구, 혈소판, 또는 이들의 임의의 조합을 포함하는 전혈의 하나 이상의 성분을 포함한다. 일부 구현예에서, 치료는 오염 제거된 미생물의 존재에 의해 대사되지 않거나 불활성화되지 않는다. 일부 구현예에서, 치료제는 다음을 포함한다: 소분자, 호르몬 요법, 생물제제, 조작된 숙주 유래 세포 유형 또는 유형들, 프로바이오틱, 조작된 박테리아, 자연적이지만 선택적인 바이러스, 조작된 바이러스, 박테리오파지, 또는 이들의 임의의 조합. 일부 구현예에서, 전이성 암은 다음을 포함한다: 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경아교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 림프성 신생물 미만성 거대 B세포 림프종, 식도 암종, 다형 교모세포종, 두경부 편평 세포 암종, 신장 색소혐성, 신장 투명 세포 암종, 신장 유두 세포종 암종, 간세포 암종, 폐 선암종, 폐 편평 세포 암종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 갈색 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 갑상선 암종, 흉선종, 자궁 암육종, 자궁체 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합. 일부 구현예에서, 치료는 1차 치료제의 효능을 개선하기 위해 전이성 암에 대한 1차 치료제와 함께 제공된 보조제를 포함한다. 일부 구현예에서, 보조제는 항생제 또는 항균제이다. 일부 구현예에서, 치료제는 전이성 암 또는 전이성 암의 환경과 관련된 미생물 성분 또는 항원을 기반으로 한다. 일부 구현예에서, 치료제는 표적 미생물 항원에 대한 입양 세포 전달, 미생물 항원에 대한 암 백신, 미생물 항원에 대한 단일클론 항체, 적어도 부분적으로 미생물 항원을 표적화하도록 설계된 항체-약물-접합체, 다가 항체, 항체 단편, 하나 이상의 미생물 항원을 적어도 부분적으로 표적화하도록 설계된 이의 항체 유도체, 또는 이들의 임의의 조합을 포함한다. 일부 구현예에서, 치료는 미생물 존재의 기능적으로 또는 생물학적으로 유사한 미생물 부류에 대해 표적화된 항생제를 포함한다. 일부 구현예에서, 치료제는 2개 이상의 치료 유형을 포함하고, 여기서 2개 이상의 치료 유형은 2개 이상의 치료 유형 중 적어도 하나의 유형이 치료 효능을 향상시키기 위해 전이성 암 또는 전이성 암 환경과 관련된 미생물의 존재 또는 존재비를 이용하도록 조합된다. 일부 구현예에서, 오염 제거된 미생물 존재와 전이성 암 사이의 연관은 전이성 암의 기원, 유형 또는 이들의 임의의 조합을 추가로 포함한다.
일부 구현예에서, 본 개시내용은 다음 단계를 포함하는, 대상체의 전이성 암의 치료 반응을 예측하는 방법을 기술한다: (a) 전이성 암에 걸린 대상체로부터의 생물학적 샘플에서 미생물 존재를 검출하는 단계; (b) 미생물 존재의 오염된 미생물 특징을 제거함으로써 오염 제거된 미생물 존재를 생성하는 단계; (c) 오염 제거된 미생물의 존재와 대상체의 전이성 암 사이의 연관성을 생성하는 단계; 및 (d) 오염 제거된 미생물의 존재와 전이성 암 사이의 연관성에 기초하여 대상체의 전이성 암의 치료 반응을 예측하는 단계. 일부 구현예에서, 치료 반응은 양성 반응자, 비반응자, 불리한 반응자 또는 이들의 임의의 조합을 포함한다. 일부 구현예에서, 미생물의 존재는 미생물 존재비를 추가로 포함하고, 여기서 미생물의 존재 또는 존재비는 다음 비-포유동물 생명 영역을 포함한다: 박테리아, 진균, 바이러스, 고세균, 원생동물, 박테리오파지, 또는 이들의 임의의 조합. 일부 구현예에서, 오염된 미생물 특징은 미생물 존재의 분류학적 할당을 포함한다. 일부 구현예에서, 단계 (b)는 생략된다. 일부 구현예에서, 생물학적 샘플은 조직 샘플, 액체 생검, 전혈 생검, 또는 이들의 임의의 조합을 포함한다. 일부 구현예에서, 생물학적 샘플은 혈장, 백혈구, 적혈구, 혈소판, 또는 이들의 임의의 조합을 포함하는 전혈의 하나 이상의 성분을 포함한다. 일부 구현예에서, 치료제는 오염 제거된 미생물의 존재에 의해 대사되지 않거나 불활성화되지 않는다. 일부 구현예에서, 치료제는 다음을 포함한다: 소분자, 호르몬 요법, 생물제제, 조작된 숙주 유래 세포 유형 또는 유형들, 프로바이오틱, 조작된 박테리아, 자연적이지만 선택적인 바이러스, 조작된 바이러스, 박테리오파지, 또는 이들의 임의의 조합. 일부 구현예에서, 전이성 암은 다음을 포함한다: 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경아교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 림프성 신생물 미만성 거대 B세포 림프종, 식도 암종, 다형 교모세포종, 두경부 편평 세포 암종, 신장 색소혐성, 신장 투명 세포 암종, 신장 유두 세포종 암종, 간세포 암종, 폐 선암종, 폐 편평 세포 암종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 갈색 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 갑상선 암종, 흉선종, 자궁 암육종, 자궁체 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합. 일부 구현예에서, 치료제는 1차 치료제의 효능을 개선하기 위해 전이성 암에 대한 1차 치료제와 함께 제공된 보조제를 포함한다. 일부 구현예에서, 보조제는 항생제 또는 항균제이다. 일부 구현예에서, 치료제는 전이성 암 또는 전이성 암의 환경과 관련된 미생물 성분 또는 항원을 기반으로 한다. 일부 구현예에서, 치료제는 표적 미생물 항원에 대한 입양 세포 전달, 미생물 항원에 대한 암 백신, 미생물 항원에 대한 단일클론 항체, 적어도 부분적으로 미생물 항원을 표적화하도록 설계된 항체-약물-접합체, 다가 항체, 항체 단편, 하나 이상의 미생물 항원을 적어도 부분적으로 표적화하도록 설계된 이의 항체 유도체, 또는 이들의 임의의 조합을 포함한다. 일부 구현예에서, 치료제는 미생물 존재의 기능적으로 또는 생물학적으로 유사한 미생물 부류에 대해 표적화된 항생제를 포함한다. 일부 구현예에서, 치료제는 2개 이상의 치료 유형을 포함하고, 여기서 2개 이상의 치료 유형은 2개 이상의 치료 유형 중 적어도 하나의 유형이 치료 효능을 향상시키기 위해 전이성 암 또는 전이성 암 환경과 관련된 미생물의 존재 또는 존재비를 이용하도록 조합된다. 일부 구현예에서, 오염 제거된 미생물 존재와 전이성 암 사이의 연관은 전이성 암의 기원, 유형 또는 이들의 임의의 조합을 추가로 포함한다.
일부 구현예에서, 본 개시내용은 다음 단계를 포함하는, 대상체의 전이성 암의 치료 과정 동안 조치를 결정하는 방법을 기술한다: (a) 전이성 암에 걸린 대상체로부터의 생물학적 샘플에서 미생물 존재를 검출하는 단계; (b) 미생물 존재의 오염된 미생물 특징을 제거함으로써 오염 제거된 미생물 존재를 생성하는 단계; (c) 오염 제거된 미생물의 존재와 대상체의 전이성 암 사이의 연관성을 생성하는 단계; 및 (d) 오염 제거된 미생물의 존재와 전이성 암 사이의 연관성에 기초하여 대상체의 전이성 암의 치료 과정 동안 조치를 결정하는 단계. 일부 구현예에서, 조치는 대상체의 전이성 암의 치료를 중단, 시작 또는 중지하는 것을 포함한다. 일부 구현예에서, 미생물의 존재는 미생물 존재비를 추가로 포함하고, 여기서 미생물의 존재 또는 존재비는 다음 비-포유동물 생명 영역을 포함한다: 박테리아, 진균, 바이러스, 고세균, 원생동물, 박테리오파지, 또는 이들의 임의의 조합. 일부 구현예에서, 오염된 미생물 특징은 미생물 존재의 분류학적 할당을 포함한다. 일부 구현예에서, 단계 (b)는 생략된다. 일부 구현예에서, 생물학적 샘플은 조직 샘플, 액체 생검, 전혈 생검, 또는 이들의 임의의 조합을 포함한다. 일부 구현예에서, 생물학적 샘플은 혈장, 백혈구, 적혈구, 혈소판, 또는 이들의 임의의 조합을 포함하는 전혈의 하나 이상의 성분을 포함한다. 일부 구현예에서, 치료제는 오염 제거된 미생물의 존재에 의해 대사되지 않거나 불활성화되지 않는다. 일부 구현예에서, 치료제는 다음을 포함한다: 소분자, 호르몬 요법, 생물제제, 조작된 숙주 유래 세포 유형 또는 유형들, 프로바이오틱, 조작된 박테리아, 자연적이지만 선택적인 바이러스, 조작된 바이러스, 박테리오파지, 또는 이들의 임의의 조합. 일부 구현예에서, 전이성 암은 다음을 포함한다: 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경아교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 림프성 신생물 미만성 거대 B세포 림프종, 식도 암종, 다형 교모세포종, 두경부 편평 세포 암종, 신장 색소혐성, 신장 투명 세포 암종, 신장 유두 세포종 암종, 간세포 암종, 폐 선암종, 폐 편평 세포 암종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 갈색 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 갑상선 암종, 흉선종, 자궁 암육종, 자궁체 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합. 일부 구현예에서, 치료제는 1차 치료제의 효능을 개선하기 위해 전이성 암에 대한 1차 치료제와 함께 제공된 보조제를 포함한다. 일부 구현예에서, 보조제는 항생제 또는 항균제이다. 일부 구현예에서, 치료제는 전이성 암 또는 전이성 암의 환경과 관련된 미생물 성분 또는 항원을 기반으로 한다. 일부 구현예에서, 치료제는 표적 미생물 항원에 대한 입양 세포 전달, 미생물 항원에 대한 암 백신, 미생물 항원에 대한 단일클론 항체, 적어도 부분적으로 미생물 항원을 표적화하도록 설계된 항체-약물-접합체, 다가 항체, 항체 단편, 하나 이상의 미생물 항원을 적어도 부분적으로 표적화하도록 설계된 이의 항체 유도체, 또는 이들의 임의의 조합을 포함한다. 일부 구현예에서, 치료제는 미생물 존재의 기능적으로 또는 생물학적으로 유사한 미생물 부류에 대해 표적화된 항생제를 포함한다. 일부 구현예에서, 치료제는 2개 이상의 치료 유형을 포함하고, 여기서 2개 이상의 치료 유형은 2개 이상의 치료 유형 중 적어도 하나의 유형이 치료 효능을 향상시키기 위해 전이성 암 또는 전이성 암 환경과 관련된 미생물의 존재 또는 존재비를 이용하도록 조합된다. 일부 구현예에서, 오염 제거된 미생물 존재와 전이성 암 사이의 연관은 전이성 암의 기원, 유형 또는 이들의 임의의 조합을 추가로 포함한다.
일부 구현예에서, 본 개시내용은 다음 단계를 포함하는, 대상체의 전이성 암을 치료하기 위한 치료법을 생성하는 방법을 기술한다: (a) 전이성 암에 걸린 대상체로부터의 생물학적 샘플에서 미생물 존재를 검출하는 단계; (b) 미생물 존재의 오염된 미생물 특징을 제거함으로써 오염 제거된 미생물 존재를 생성하는 단계; (c) 오염 제거된 미생물의 존재와 대상체의 전이성 암 사이의 연관성을 생성하는 단계; 및 (d) 오염 제거된 미생물의 존재와 전이성 암 사이의 연관성에 기초하여 대상체의 전이성 암을 치료하기 위한 치료법을 생성하는 단계. 일부 구현예에서 미생물의 존재는 미생물 존재비를 추가로 포함하고, 여기서 미생물의 존재 또는 존재비는 다음 비-포유동물 생명 영역을 포함한다: 박테리아, 진균, 바이러스, 고세균, 원생동물, 박테리오파지, 또는 이들의 임의의 조합. 일부 구현예에서, 오염된 미생물 특징은 미생물 존재의 분류학적 할당을 포함한다. 일부 구현예에서, 단계 (b)는 생략된다. 일부 구현예에서, 생물학적 샘플은 조직 샘플, 액체 생검, 전혈 생검, 또는 이들의 임의의 조합을 포함한다. 일부 구현예에서, 생물학적 샘플은 혈장, 백혈구, 적혈구, 혈소판, 또는 이들의 임의의 조합을 포함하는 전혈의 하나 이상의 성분을 포함한다. 일부 구현예에서, 치료제는 오염 제거된 미생물의 존재에 의해 대사되지 않거나 불활성화되지 않는다. 일부 구현예에서, 치료제는 다음을 포함한다: 소분자, 호르몬 요법, 생물제제, 조작된 숙주 유래 세포 유형 또는 유형들, 프로바이오틱, 조작된 박테리아, 자연적이지만 선택적인 바이러스, 조작된 바이러스, 박테리오파지, 또는 이들의 임의의 조합. 일부 구현예에서, 전이성 암은 다음을 포함한다: 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경아교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 림프성 신생물 미만성 거대 B세포 림프종, 식도 암종, 다형 교모세포종, 두경부 편평 세포 암종, 신장 색소혐성, 신장 투명 세포 암종, 신장 유두 세포종 암종, 간세포 암종, 폐 선암종, 폐 편평 세포 암종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 갈색 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 갑상선 암종, 흉선종, 자궁 암육종, 자궁체 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합. 일부 구현예에서, 치료제는 1차 치료제의 효능을 개선하기 위해 전이성 암에 대한 1차 치료제와 함께 제공된 보조제를 포함한다. 일부 구현예에서, 보조제는 항생제 또는 항균제이다. 일부 구현예에서, 치료제는 전이성 암 또는 전이성 암의 환경과 관련된 미생물 성분 또는 항원을 기반으로 한다. 일부 구현예에서, 치료제는 표적 미생물 항원에 대한 입양 세포 전달, 미생물 항원에 대한 암 백신, 미생물 항원에 대한 단일클론 항체, 적어도 부분적으로 미생물 항원을 표적화하도록 설계된 항체-약물-접합체, 다가 항체, 항체 단편, 하나 이상의 미생물 항원을 적어도 부분적으로 표적화하도록 설계된 이의 항체 유도체, 또는 이들의 임의의 조합을 포함한다. 일부 구현예에서, 치료제는 미생물 존재의 기능적으로 또는 생물학적으로 유사한 미생물 부류에 대해 표적화된 항생제를 포함한다. 일부 구현예에서, 치료제는 2개 이상의 치료 유형을 포함하고, 여기서 2개 이상의 치료 유형은 2개 이상의 치료 유형 중 적어도 하나의 유형이 치료 효능을 향상시키기 위해 전이성 암 또는 전이성 암 환경과 관련된 미생물의 존재 또는 존재비를 이용하도록 조합된다. 일부 구현예에서, 오염 제거된 미생물 존재와 전이성 암 사이의 연관은 전이성 암의 기원, 유형 또는 이들의 임의의 조합을 추가로 포함한다.
도 1은 전이성 유방암과 전이성 갑상선암 조직 샘플을 구별하여 18명의 대상체에서 조직 마이크로바이옴으로 원발성 종양을 진단하는 리브-원-아웃-교차-검증 (LOOCV) 기계 학습 결과를 나타낸다 (전이성 암은 기원 조직에 의해 명명되기 때문에).
도 2는 559명의 대상체로부터 혈액 유래 미생물 DNA를 사용하여 전이성 암과 비-전이성 암을 예측하는 분석을 나타낸다.
도 3은 15명의 대상체의 혈액 기반 미생물 DNA를 사용하여 전이성 흑색종과 다른 전이성 암 유형을 구별하는 것을 나타낸다. 도 3에 묘사된 "기타 전이성 암 유형"으로 표시된 샘플에는 유방암 (2개 샘플), 전이성 갑상선암 (2개 샘플) 및 전이성 식도암 (1개 샘플)이 포함된다. 다양한 구현예에서, 이들 암 유형 및/또는 다른 조합은 시험하기에 충분한 수를 제공하기 위해 조합될 수 있다.
도 4a는 미생물 검출 파이프라인에 의해 식별된 총 시퀀싱 판독의 백분율, 및 Kraken이 설정한 TCGA 데이터 세트의 속 수준에서 해결된 판독의 백분율을 보여주는 롤리팝 플롯을 보여주는 롤리팝 플롯을 나타낸다. LAML, 급성 골수성 백혈병; PAAD, 췌장 선암종; GBM, 다형교모세포종; PRAD, 전립선 선암종; ESCA, 식도 암종; TCGT, 고환 생식 세포 종양; BRCA, 유방 침윤성 암종; THCA, 갑상선 암종; KICH, 신장 색소혐성; THYM, 흉선종; READ, 직장 선암종; SARC, 육종; UVM, 포도막 흑색종; CHOL, 담관암종; ACC, 부신피질 암종; UCEC, 자궁체 자궁내막 암종; LUSC, 폐 편평 세포 암종; PCPG, 갈색세포종 및 부신경절종; BLCA, 갈색세포종 및 부신경절종; UCS, 자궁 암육종; LGG, 뇌 저등급 신경아교종 (도 4a). 모든 암 유형에 포함된 총 샘플 수는 17,625개이다. 도 4b는 품질 관리 처리 및 남은 샘플 수를 보여주는 CONSORT-스타일 다이어그램을 나타낸다. FFPE, 고정 포르말린 파라핀 내장. 도 4c는 시퀀싱 센터별로 색상이 지정된 암 미생물 군집 샘플을 사용하여 Voom 정규화 데이터의 주성분 분석 (PCA)을 나타낸다. 도 4d는 Voom-SNM 데이터의 PCA를 나타낸다. 도 4e는 원시 분류학적 계수 데이터, Voom-정규화 데이터, 및 Voom-SNM 데이터의 주요 분산 성분 분석을 나타낸다. 도 4f-h는 TCGA 원발성 종양 사이 (도 4f), 종양과 정상 샘플 사이 (도 4g), 및 1기 및 4기 암 사이 (도 4h)를 구별하기 위한 회색조-빨간색 (높음)에서 회색조-파란색 (낮음)까지 분류기 성능 (AUROC (ROC) 및 AUPR (PR))의 히트맵을 나타낸다. "NA"는 모델 훈련을 위해 임의의 ML 클래스에서 사용할 수 있는 샘플이 충분하지 않음 (예를 들어, 20개 미만)을 나타낼 수 있다.
도 5a-g는 적어도 하나의 구현예에 따라 TCGA 암 마이크로바이옴 데이터 세트 내의 바이러스 및 박테리아 판독의 생태학적 검증을 예시한다. 도 5a는 HMP2 데이터 세트에서 훈련된 Source Tracker2를 사용하여 COAD (n = 70) 환자의 고형 조직 정상 샘플에 대한 평균 신체 부위 속성을 예시한다. 도 5b푸소박테륨 종과 관련된 일반적인 위장관 (GI) 암에 대한 푸소박테륨 속의 차등 존재비를 예시한다. BDN, 혈액 유래 정상; STN, 고형 조직 정상; PT, 원발성 종양. 도 5c는 그룹화된 GI 암 (n = 8: COAD, READ, CHOL, LIHC, PAAD, HNSC, ESCA, STAD; 약어는 도 8a 참조) 및 비-GI 암 (n = 24) 중에서 푸소박테륨의 차등 존재비를 예시한다 (방법 참조). 도 5d-e는 TCGA에서 임상적으로 표시된 바와 같이, CESC (도 5d) 또는 HNSC (도 5e)를 갖는 HPV 감염 환자에 대한 정규화된 HPV 존재비를 예시한다. ISH, 인시투 혼성화; IHC, 면역조직화학. 도 5f는 임상적으로 판단된 위험 인자가 있는 LIHC 환자의 정규화된 오르토헤파드나바이러스 존재비를 예시한다; EtOH, 과도한 알코올 소비; HepC, 이전 C형 간염 감염. 도 5g는 STAD 통합 분자 아형의 정규화된 EBV 존재비를 예시한다: CIN, 염색체 불안정성; GS, 게놈 안정; MSI, 마이크로위성 불안정; EBV, EBV-감염된 샘플. 모든 패널에서, 혈액 유래 정상 및/또는 고형 조직 정상 데이터는 비교 음성 대조군으로 표시된다; 양측 만-휘트니 U-테스트는 두 개 이상의 비교를 위해 여러 테스트 보정과 함께 사용되었다; 상자 도는 중앙값 (선), 25번째 및 75번째 백분위수 (상자), 및 1.5 Х 사분위수 범위 (IQR, 위스커)를 나타낸다. 회색조 파란색 숫자는 각 그룹의 샘플 크기를 나타낸다.
도 6a-d는 암 '액체' 생검을 위한 보완적 진단 접근법으로서 혈액에서 mbDNA를 사용하여 암 식별을 위한 분류기 성능을 나타낸다. 도 6a는 오른쪽에 TCGA 연구 ID가 있는 혈액 mbDNA를 사용하여 하나의 암 유형과 다른 모든 암 유형을 예측하기 위해 도 4f-h와 유사한 모델 성능 히트맵을 나타낸다 (도 8a); 자격을 갖추려면 각 ML 소수 클래스에 적어도 20개의 샘플이 필요했다. 도 6b는 Ia-IIc 기 암에 대한 혈액 mbDNA를 사용하여 하나의 암 유형과 다른 모든 유형을 예측하는 ML 모델 성능을 나타낸다. 도 6c-d Guardant360 (도 6c) 및 FoundationOne 액체 (도 6d) ctDNA 분석에 따라 검출 가능한 원발성 종양 게놈 변형이 없는 환자의 혈액 mbDNA를 사용한 ML 모델 성능을 나타낸다. FD, 전체 데이터; LCR, 시퀀싱 센터에 의해 제거된 가능성 있는 오염 물질; APCR, 시퀀싱 센터에서 제거된 모든 추정 오염 물질; PCCR, 플레이트 센터 오염 물질 제거; MSF, 시퀀싱 센터에 의한 가장 엄격한 필터링. 각 비교의 성능을 평가하기 위해 포함된 샘플 수는 cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser의 데이터 브라우저 혼동 행렬에서 찾을 수 있다.
도 7a-k는 혈장 유래, 무세포 mbDNA를 사용하여 암 유형과 건강한 대조군을 구별하기 위한 ML 모델의 성능을 예시한다. 도 7a, 검증 연구에서 분석된 샘플의 인구 통계. 모든 환자는 여러 하위 유형의 고등급 (III-IV 기) 암을 가지고 있었고 PC, LC, 및 SKCM 그룹으로 집계되었다. 도 7b는 그룹화된 암 샘플 (n = 100)과 암이 아닌 건강한 대조군 (n = 69)을 구별하기 위한 부트스트랩 성능 추정치를 나타낸다. 상이한 훈련-시험 분할 (70% 훈련-30% 시험)을 사용한 500회 반복의 ROC (상단) 및 PR (하단) 곡선 데이터의 래스터화된 밀도 플롯. 도 7c-h는 두 부류 간의 리브-원-아웃 (LOO) 반복 ML 성능을 나타낸다: 전립선암 (PC) 대 대조군 (Ctrl; 도 7c), 폐암 (LC) 대 대조군 (도 7d), 흑색종 (SKCM) 대 대조군 (도 7e), PC 대 LC (도 7f), LC 대 SKCM (도 7g), 및 PC 대 SKCM (도 7h). 도 7i-k는 암 유형 중 (도 7i) 및 암이 있는 혼합 환자와 건강한 대조군 개체 (각각 도 7j도 7k)을 구별하기 위한 다중 클래스 (n = 3 또는 4), LOO 반복 ML 성능을 예시한다. 전체 LOO ML 성능은 하나와 다른 모든 것을 비교할 때 성능의 평균으로 계산되었다 (혼동 행렬 아래에 표시됨).
도 8a-g는 TCGA 암 마이크로바이옴의 지속적인 개요를 나타낸다. 도 8a는 TCGA 연구 약어 표를 나타낸다. 도 8b는 Voom-정규화된 데이터의 PCA를 나타내고, 여기서 회색조 색상은 샘플의 시퀀싱 플랫폼을 나타내고 각 점은 암 마이크로바이옴 샘플을 나타낸다. 도 8c는 시퀀싱 플랫폼으로 표시된 연속적인 Voom-SNM 감독 정규화 후 데이터의 PCA를 나타낸다. 도 8d는 Voom-정규화된 데이터의 PCA를 나타내고, 여기서 회색조 색상은 샘플의 실험 전략을 나타내고 각 점은 암 마이크로바이옴 샘플을 나타낸다. 도 8e는 실험 전략으로 표시된 연속적인 Voom-SNM 감독 정규화 후 데이터의 PCA를 나타낸다. 도 8f-g는 논문에서 분석된 세 가지 주요 샘플 유형 (도 8f) 및 나머지 샘플 유형 (도 8g)을 포함하여 메타데이터 품질 관리 후 TCGA의 모든 유형의 암에 걸쳐 주어진 샘플 유형 내의 샘플 양으로 정규화된 미생물 판독 계수를 나타낸다 (도 4b). ANP, 추가, 신규 원발성; AM, 추가 전이성; MM, 전이성; RT, 재발성 종양. 원시 및 정규화된 데이터의 PCA의 경우, n = 17,625.
도 9a-h는 미생물 존재비를 사용하여 TCGA 유형의 암을 구별하는 성능 메트릭을 도시한다. 도 9a-f도 4f-h의 히트맵의 예를 나타낸다. 회색조 색상 구배 (상단)는 ROC 및 PR 곡선을 따라 임의의 지점에서 확률 임계값을 나타낸다. ROC 및 PR 곡선의 해당 지점에서 민감도, 특이성, 정밀도, 재현율, 양성 예측값, 음성 예측값 등을 계산하는 데 사용할 수 있는 50% 확률 임계값 컷오프를 사용하여 삽입된 혼동 행렬이 표시된다. 도 9g-h는 소수 부류의 함수로서 하나의 암 유형 대 모든 기타 방식으로 암 유형을 구별하기 위한 모델 성능의 선형 회귀, 특히 AUROC (도 9g) 및 AUPR (도 9h)를 나타낸다. 비교할 샘플 (n = 13,883)과 암 유형 (n = 32)이 가장 많은 원발성 종양에서 검출된 미생물을 사용하는 모델에 대한 성능이 표시된다. AUROC 및 AUPR는 [0,1]의 도메인이 있고 소수 부류 크기가 20 내지 1,238개 샘플로 다양하고, 후자는 로그10 척도로 회귀된다. 삽입 가설 테스트 및 관련 P 값은 종속 변수와 독립 변수 사이에 관계가 없다는 귀무 가설을 기반으로 한다 (기울기의 양측 가설 검정). 각 비교의 성능을 평가하기 위해 포함된 샘플 수는 cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser의 데이터 브라우저 혼동 행렬에서 찾을 수 있다.
도 10a-i는 ML 모델 파이프라인의 내부 검증을 나타낸다. 도 10a는 종양 미생물 DNA 및 RNA를 사용하여 하나의 암 유형 대 다른 모든 유형을 예측하기 위해 모델 훈련에 사용된 TCGA 원시 미생물 수 데이터의 두 개의 독립적인 절반을 나타내고; 그런 다음 각 모델을 나머지 절반의 정규화된 데이터에 적용했다. 이 히트맵은 전체 데이터 세트의 50-50% 분할에서 훈련 및 시험과 비교하여 이러한 모델의 성능을 비교한다 (분할 1: n = 8,814 샘플; 분할 2: n = 8,811 샘플; 전체 샘플: n = 17,625). 도 10b-c는 하나의 암 유형 대 다른 모든 유형을 예측하기 위해 여러 시퀀싱 센터에 걸쳐 원발성 종양 RNA 샘플 (n = 11,741)로 전체 Voom-SNM 데이터를 부분 집합화할 때 모델 성능 비교를 예시한다 (도 10b, AUROC; 도 10c, AUPR). 도 10d-e는 하나의 암 유형 대 다른 모든 유형을 예측하기 위해 여러 시퀀싱 센터에 걸쳐 원발성 종양 DNA 샘플 (n = 2,142)로 전체 Voom-SNM 데이터를 부분 집합화할 때 모델 성능 비교를 예시한다 (도 10d, AUROC; 도 10e, AUPR). 도 10f-g는 원발성 종양 RNA 샘플을 사용하여 하나의 암 유형 대 다른 모든 유형을 예측하기 위해 RNA-seq만 수행한, UNC로부터의 샘플 (n = 9,726)로 전체 Voom-SNM 데이터를 부분 집합화할 때 모델 성능 비교를 예시한다 (도 10f, AUROC; 도 10g, AUPR). 도 10h-i는 원발성 종양 DNA 샘플을 사용하여 하나의 암 유형 대 다른 모든 유형을 예측하기 위해 WGS만 수행한, HMS의 샘플 (n = 898)로 전체 Voom-SNM 데이터를 부분 집합화할 때 모델 성능 비교를 예시한다 (도 10h, AUROC; 도 10i, AUPR). 도 10b-i는 s.e.가 회색으로 표시되는 일반화된 선형 모델을 나타내고; 점선 대각선은 완벽한 선형 관계를 나타낸다; 샘플 크기 비교를 위해, 전체 Voom-SNM 데이터 세트에는 13,883 개의 원발성 종양 샘플이 포함되어 있다.
도 11a-t는 Kraken-유래 TCGA 암 마이크로바이옴 프로필 및 이들의 ML 성능의 직교 검증을 나타낸다. 도 11a-h는 4가지 TCGA 유형의 암 (CESC, n = 142 (DNA) 및 n = 309 (RNA); STAD, n = 322 (DNA) 및 n = 770 (RNA); LUAD, n = 351 (DNA) 및 n = 600 (RNA); 및 OV, n = 189 (DNA) 및 n = 850 (RNA))이 종양 미생물 DNA 및 RNA를 사용하여 직접 게놈 정렬 (BWA)을 통해 Kraken-기반 분류 할당 후 추가 필터링을 거치는 것을 예시한다. ML 성능은 원발성 종양 미생물을 사용한 하나의 암 유형 대 다른 모든 유형 (도 11a, AUROC; 도 11b, AUPR), 종양-대-정상 식별 (도 11c, AUROC; 도 11d, AUPR), 원발성 종양 미생물을 사용한 I기 대 IV기 종양 식별 (도 11e, AUROC; 도 11f, AUPR), 및 혈액 유래 미생물을 사용한 하나의 암 유형 대 다른 모든 유형 (도 11g, AUROC; 도 11h, AUPR)에 대해 정규화된, BWA 필터링된 데이터와 매칭되고, 독립적으로 정규화된 Kraken 데이터 사이에서 비교된다 (방법 참조). 도 11i는 BWA 필터링된 데이터 및 Kraken 전체 데이터 간의 분류군 수의 벤 다이어그램을 나타낸다. 도 11j-t는 SHOGUN이라는 직교 미생물 검출 파이프라인을 보여주고 별도의 데이터베이스는 TCGA 샘플의 하위 집합 (n = 총 13,517개 샘플)에서 실행되었으며, Voom-SNM을 통해 정규화되었으며, 그의 Kraken 대응물과 유사하며, 다운스트림 ML에 사용되었다. 도 11j, SHOGUN-유래 미생물 분류군 (S) 및 Kraken-유래 미생물 분류군 (K)의 벤 다이어그램. SHOGUN의 데이터베이스에는 바이러스가 포함되어 있지 않지만 Kraken 데이터베이스에는 포함되어 있음을 주의. 도 11k-l은 시퀀싱 센터에 의해 회색조로 착색된, Voom의 PCA (도 11k) 및 Voom-SNM (도 11l) 정규화된 SHOGUN 데이터를 예시한다. 도 11m-t는 원발성 종양 미생물을 사용한 하나의 암 유형 대 다른 모든 유형 (도 11m, AUROC; 도 11n, AUPR), 종양-대-정상 식별 (도 11o, AUROC; 도 11p, AUPR), 원발성 종양 미생물을 사용한 I기 대 IV기 종양 식별 (도 11q, AUROC; 도 11r, AUPR), 및 혈액 유래 미생물을 사용한 하나의 암 유형 대 다른 모든 유형 (도 11s, AUROC; 도 11t, AUPR)에 대해 동일한 70%-30% 분할을 사용하여 SHOGUN 데이터와 일치하는 Kraken 데이터에서 훈련 및 시험된 모델 간의 ML 성능 비교를 보여준다. 공정한 비교를 위해, 일치하는 Kraken 데이터는 원시 Kraken 수 데이터에서 모든 바이러스 할당을 제거하고 SHOGUN에서 분석한 동일한 13,517개 TCGA 샘플로 하위 집합을 지정하여 파생되었다; 그런 다음 이러한 일치하는 Kraken 데이터는 SHOGUN 데이터와 동일한 방식으로 Voom-SNM을 통해 독립적으로 정규화되고 (방법 참조) 다운스트림 ML 파이프라인에 공급되었다. 모든 ML 성능에 대해, 자격을 갖추려면 각 클래스에서 20개 이상의 샘플이 필요했다. 회귀 하위 수치의 경우, 점선 대각선은 완벽한 성능 일치를 나타낸다; s.e. 리본이 있는 일반화된 선형 모델이 표시된다.
도 12a-e는 TCGA 암 마이크로바이옴 프로파일링 및 ML 모델 검사를 위한 범-암 미생물 존재비 및 대화형 웹사이트를 나타낸다. 도 12a는 각 샘플 유형에 대한 암 유형에 따른 미생물 존재비에 대한 일원 ANOVA (Kruskal-Wallis) 테스트를 사용한 푸소박테륨의 범-암 정규화된 존재비를 나타낸다. 샘플 크기는 회색조-파란색으로 삽입되어 있으며 상자 도는 중앙값 (선), 25번째 및 75번째 백분위수 (상자), 및 1.5 Х IQR (위스커)을 나타내고; TCGA 연구 약어는 아래에 나열되어 있으며 도 8a에 정의되어 있다. 도 12b는 HMP2 데이터를 기반으로 TCGA-COAD 고형 조직 정상 샘플 (n = 70) 및 TCGASKCM 원발성 종양 샘플 (n = 122)에 대한 분변 기여도에 대한 SourceTracker2 결과를 나타낸다. TCGA-SKCM에 대해 단 하나의 고형 조직 정상 샘플만 사용할 수 있었기 때문에 (보충 표 4), 원발성 종양이 예상되는 피부 상재균에 대한 최상의 대리로 대신 사용되었다. 결장 샘플은 피부보다 분변 기여도가 높을 것으로 예상되므로, 일측 만-휘트니 U-테스트가 사용되었다. SourceTracker2는 각 싱크 (즉, COAD, SKCM 샘플)에 대해 각 소스 (즉, HMP2)의 평균 분수 기여도를 출력하므로, 각 막대 그래프의 중심 값은 이러한 값의 평균이고 오차 막대는 s.e.m.을 나타낸다. 샘플 크기는 회색조-파란색으로 아래에 표시된다. 도 12c는 각 샘플 유형에 대한 암 유형에 걸쳐 미생물 존재비에 대한 일원 ANOVA (Kruskal-Wallis) 테스트를 사용한 알파파필로마바이러스의 범-암 정규화된 존재비를 나타낸다. 샘플 크기는 회색조-파란색으로 삽입되어 있으며 상자 도는 중앙값 (선), 25번째 및 75번째 백분위수 (상자), 및 1.5 Х IQR (위스커)을 나타내고; TCGA 연구 약어는 아래에 나열되어 있으며 도 8a에 정의되어 있다. HPV 감염에 대해 임상적으로 시험한 환자를 음성 및 양성 그룹으로 나눈 TCGA 연구. 도 12d는 Kraken-유래 데이터를 사용하여 알파파필로마바이러스 정규화된 미생물 존재비의 플로팅을 보여주는 대화형 웹사이트의 스크린샷을 나타낸다. 웹사이트의 다른 탭(왼쪽)에서 SHOGUN-유래 정규화된 미생물 존재비를 사용한 플로팅이 이용 가능하다. 도 12e는 ML 모델 검사의 대화형 웹사이트 스크린샷을 나타낸다. 데이터 유형 (예를 들어, 제거되었을 가능성이 있는 모든 오염 물질), 암 유형 (예를 들어, 침윤성 유방암), 및 관심 대상 비교 (예를 들어, 종양 대 정상)를 선택하면 ROC 및 PR 곡선, 뿐만 아니라 혼동 행렬 (확률 컷오프 임계값 50% 사용) 및 순위가 매겨진 모델 기능 목록이 자동적으로 업데이트될 것이다. 웹사이트는 cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser에서 접근 가능하다.
도 13a-l은 암 마이크로바이옴 데이터에 대한 결과, 이점 및 제한 사항과 함께 오염 제거 접근법을 나타낸다. 도 13a는 오염원을 평가, 완화, 제거 및/또는 시뮬레이션하는 데 사용되는 다양한 접근 방식을 나타낸다. 도 13b는 다양한 수준의 오염 제거 후 TCGA에서 남은 분류군 또는 미생물 판독의 비율을 나타낸다. 시퀀싱 센터에 의한 오염 제거는 임의의 한 시퀀싱 센터에서 오염물로 확인된 모든 분류군을 제거했다 (n = 8 배치); 플레이트-센터 조합에 의한 오염 제거는 10개 초과의 TCGA 샘플이 있는 단일 시퀀싱 플레이트에서 오염물로 식별된 모든 분류군을 제거했다 (n = 351 배치). 도 13c-f는 가능성이 있는 오염 물질 제거 데이터 세트 (도 13c), 플레이트-센터 오염 제거 데이터 세트 (도 13d), 추정되는 모든 오염 물질 제거 데이터 세트 (도 13e), 및 가장 엄격한 필터링 데이터 세트 (도 13f)에 대한 신체 부위 속성 예측을 예시한다. 도 13g-l은 상기 기술된 4개의 오염 제거된 데이터 세트 (각각 위에 표시된 대로 다른 회색조 색상으로 표시됨)를 사용하여 재생성된 모델 및 수반되는 성능 값 (AUROC 및 AUPR)을 나타낸다. 오염 제거된 데이터 세트에서 훈련되고 시험된 모델에서 얻은 AUROC 및 AUPR 값은 전체 데이터 세트의 AUROC 또는 AUPR 값에 대해 플로팅된다 (도 4f-h). 점선 대각선은 완벽한 선형 관계를 나타낸다. 일반화 선형 모델은 해당 데이터 세트의 AUROC 및 AUPR 값에 맞춰졌다; 선형 맞춤의 s.e.는 연관된 음영 영역으로 표시된다. COAD (n = 총 1,006개 샘플) 모델 성능은 도면 전체에서 식별된다.
도 14a-c는 샘플 유형당 평균 판독 비율에 대한 오염 제거 효과를 나타낸다. 각 주요 샘플 유형 (원발성 종양 (도 14a), 고형 조직 정상 (도 14b), 혈액 유래 정상 (도 14c))의 총 판독 수 (DNA 및 RNA)를 합산하여 각 샘플 유형 내에서 총 샘플 수로 나누었다. 그런 다음 이 정규화된 판독 수 (샘플 유형당)를 각 암 유형에 대한 모든 샘플 유형에 걸쳐 합산된 정규화된 판독 수로 나누어, 암 유형별 샘플 유형당 평균 판독 비율의 추정치를 제공했다. 범례에 나타낸 바와 같이, 오염 제거가 특정 유형의 샘플 및/또는 암에 차별적으로 영향을 미치는지를 평가하기 위해 다섯 가지 데이터 세트 모두에 대해 반복했다; 표시된 백분율의 상대적 안정성은 차등 오염이 없음을 나타낸다. 이 서류에서 오염 제거 또는 ML에 의해 추가로 분석되지 않은 소수 샘플 유형 (예를 들어, 추가 전이성 병변; n = 4 샘플 유형; 도 8g)은 여기에 표시되지 않는다. 주어진 암 유형 (ACC, MESO, UCS의 원발성 종양)에 대해 하나의 샘플 유형만 존재하는 특별한 경우에, 모든 막대는 정규화된 판독값의 100%가 해당 샘플 유형에서 나온 것으로 표시됨을 주의한다. 조사된 총 암 샘플 수는 17,625개이다.
도 15a-e는 TCGA로부터의 환자에서 상업적으로 이용 가능한 숙주 기반 ctDNA 검정의 이론적 민감도 및 다운스트림 ML 모델에서 스파이크 유사-오염 기여도를 측정하는 것을 예시한다. 도 15a-b는 원발성 종양 미생물 DNA 또는 RNA (도 15a)를 사용하거나, 혈액-유래 mbDNA (도 15b)를 사용하여 4개의 오염 제거된 데이터 세트 모두에서 하나의 암 유형 대 다른 모든 유형을 구별하도록 훈련된 모델에 사용된 모든 분류군에 대해 계산된 특징 중요도 점수를 나타낸다 (도 13b). 이러한 오염 제거된 데이터 세트는 성능을 평가하기 위해 오염 제거 및 정규화 파이프라인 전에 의사 오염 물질로 스파이킹되었으며 (방법 참조), 표시된 모델의 테스트 세트 성능은 각각 도 13g-h도 6a에 제공된다. 모델에서 사용하는 스파이크된 의사 오염 물질(들)은 해당 모델의 모든 특징 중요도 점수의 합계로 나눈 특징 중요도 점수(들)를 가지고 있어 정확한 예측에 기여하는 백분율을 추정하고; 점수가 높을수록 (100점 만점), 모델의 생물학적 신뢰성이 떨어진다. 참고로, 0은 모델에 의한 예측을 위해 의사 오염 물질이 사용되지 않았음을 의미한다; 플레이트 중앙 오염 제거 데이터에서 생성된 모델 중 어느 것도 특성으로 의사 오염 물질을 포함하지 않았다. 각 비교의 성능을 평가하기 위해 포함된 샘플 수는 cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser의 데이터 브라우저 혼동 행렬에서 찾을 수 있다. 도 15c-d는 FoundationOne 액체 ctDNA 코딩 유전자 (도 15c) 또는 Guardant360 ctDNA 코딩 유전자 (도 15d)에서 하나 이상의 게놈 변형이 있는 환자의 TCGA 연구 간의 백분율 분포를 예시한다. 검사한 샘플 수와 원시 데이터는 cbioportal.org에서 확인할 수 있다. 도 15e는 FoundationOne 및 Guardant360 ctDNA 분석 및 검사된 변형에 대한 코딩 유전자 목록으로 구성된 표를 나타낸다 (출처는 방법에 나열됨).
도 16a-k는 건강한 개체와 여러 유형의 암 사이의 실제, 혈장 유래, 무세포 미생물 DNA 검정에 대한 분석을 예시한다. 도 16a는 실제 검증 연구를 경험적으로 강화하는 데 사용되는 TCGA의 차별적 시뮬레이션을 나타낸다 (도 7; 방법 참조). 각 계층화된 샘플 크기의 중심 값은 10회 반복에 걸친 성능의 평균이다; 오차 막대는 s.e.m.을 나타낸다. 도 16b는 Kraken 및 SHOGUN-유래 데이터를 사용한 양성 대조군 박테리아 (알리비브리오) 단일 배양, 음성 대조군 블랭크, 및 인간 샘플 유형 간의 알리비브리오 속 존재비 값 (원시 판독 수)의 평가를 보여준다. 도 16c는 박테리아 단일 배양 희석에 걸친 알리비브리오 속 존재비 (원시 판독 수)를 나타낸다. 도 16d는 암이 없는 건강한 대조군 개체 (Ctrl)와 폐암 (LC), 전립선암 (PC), 또는 흑색종 (SKCM) 이 있는 그룹화된 환자 간의 연령 분포를 나타낸다. 도 16e는 삽입 피어슨 χ2 테스트 (일측 임계 영역)가 있는 환자의 성별 분포를 나타낸다. 도 16f는 서로 다른 데이터베이스를 사용하는 Kraken과 SHOGUN 간의 분류군 할당의 벤 다이어그램을 나타낸다. 도 16g는 건강한 암이 없는 개체에서 Kraken (회색조-핑크) 또는 SHOGUN (회색조-아쿠아) 원시 미생물 수 데이터를 사용한 숙주 연령의 반복적인 LOO ML을 나타낸다. 모든 샘플에서 평가된 평균 절대 오차 (MAE)가 표시된다. 도 16h-j는 무세포 미생물을 사용하여 건강한 개인과 그룹화된 암 환자를 구별하기 위해 ML 성능에 대한 Voom-SNM 이전의 순열 연령 (도 16h), 성별 (도 16i), 및 연령 및 성별 (도 16j)의 효과를 나타낸다. 각 비교에 100개의 순열이 사용되었다 (방법 참조). 도 16k는 SKCM 코호트 크기 (n = 16개 샘플)와 일치시키기 위한 전립선암 (PC), 폐암 (LC), 흑색종 (SKCM), 및 대조군의 반복 서브샘플링에 이어, 하위 표본 건강한 대조군에 대한 각 하위 표본 암 유형의 리브-원-아웃 (LOO) 쌍별 ML을 나타낸다. 100개의 순열 반복을 사용하여 성능 분포 및 표준 오류를 추정했다 (방법 참조). 도 16b-c와 관련하여, 로그10 척도 및 0.5 의사-카운트 하한 (점선)을 주목한다. 도 16b-d, h-k와 관련하여, 가설 테스트는 두 개 이상의 비교를 테스트할 때 다중 테스트 수정이 있는 양측 만-휘트니 U-테스트이며; 상자 도는 중앙값 (선), 25번째 및 75번째 백분위수 (상자) 및 1.5 Х IQR (위스커)을 나타낸다. 모든 박스 플롯 및 막대 플롯의 경우 샘플 크기는 아래 회색조 파란색으로 표시된다.
도 17a-j는 무세포 미생물 DNA를 사용하여 암 유형과 건강하고 암이 없는 개체를 구별하기 위한 SHOGUN-유래 ML 성능을 예시한다. 도 17a는 그룹화된 암 환자 (n = 100)와 암이 없는 건강한 대조군 개체 (n = 69)를 구별하기 위한 부트스트랩 성능 추정치를 나타낸다. 상이한 훈련-시험 분할 (70% 훈련-30% 시험)을 사용한 500회 반복의 ROC 및 PR 곡선 데이터가 래스터화된 밀도 플롯에 표시된다; 평균값과 95% CI 추정치가 표시된다. 도 17b-g는 두 부류 사이의 LOO 반복 ML 성능을 예시한다: 전립선암 (PC) 대 대조군 (도 17b), 폐암 (LC) 대 대조군 (도 17c), 흑색종 (SKCM) 대 대조군 (도 17d), PC 대 LC (도 17e), LC 대 SKCM (도 17f), 및 PC 대 SKCM (도 17g). 도 17h-j는 암 유형, 뿐만 아니라 암 환자와 건강한 암이 없는 대조군 개체를 구별하기 위한 다중 클래스 (n = 3 또는 4), 리브-원-아웃 (LOO) 반복적인 ML 성능을 예시한다. 하나-대-다른 모든 AUROC 및 AUPR 값으로부터 계산된 평균 AUROC 및 AUPR은 혼동 행렬 아래에 표시된다. 도 17h는 연구 중인 세 가지 유형의 암 간의 LOO ML 성능을 나타낸다. 도 17i는 소수 클래스에 적어도 20개의 샘플이 있는 세 가지 샘플 유형 간의 LOO ML 성능을 나타낸다 (즉, TCGA 분석에 사용된 컷오프, 도 4f-h). 도 17j는 연구 중인 네 가지 샘플 유형 모두 간의 LOO ML 성능을 나타낸다. 혼동 행렬 플롯이 있는 모든 하위 도의 경우: 샘플 크기가 작기 때문에 단일 또는 부트스트랩 교육-테스트 분할 대신 LOO ML이 사용되었다; 이러한 혼동 행렬은 또한 각 비교에 사용된 샘플 수를 반영한다.
도 18은 본 개시내용의 하나 이상의 예시적인 실시예에 따라 임의의 하나 이상의 기술 (예를 들어, 방법)이 수행될 수 있는 컴퓨팅 장치 또는 컴퓨터 시스템의 예를 도시하는 블록도이다.
본 명세서에 언급된 모든 간행물, 특허 및 특허 출원은 각각의 개별 간행물, 특허 또는 특허 출원이 구체적이고 개별적으로 참고로 포함되는 것으로 표시된 것과 동일한 정도로 본 명세서에 참조로 포함된다.
달리 정의되지 않는 한, 여기에 사용된 모든 기술 및 과학 용어 및 두문자어는 본 발명의 분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 것과 동일한 의미를 갖는다. 본원에 기술된 것과 유사하거나 등가인 임의의 방법 및 물질이 본 발명의 실시에 사용될 수 있지만, 예시적인 방법, 장치 및 물질이 본원에 기술되어 있다.
다양한 구현예의 실시는 달리 나타내지 않는 한 당업계의 기술 내에 있는 분자 생물학 (진단 기술 포함), 미생물학, 세포 생물학, 생화학 및 면역학의 통상적인 기술을 사용할 것이다. 이러한 기술은 Molecular Cloning: A Laboratory Manual, 2nd ed. (Sambrook et al., 1989); Oligonucleotide Synthesis (M. J. Gait, ed., 1984); Animal Cell Culture (R. I. Freshney, ed., 1987); Methods in Enzymology (Academic Press, Inc.); Current Protocols in Molecular Biology (F. M. Ausubel et al., eds., 1987, and periodic updates); PCR: The Polymerase Chain Reaction (Mullis et al., eds., 1994); Remington, The Science and Practice of Pharmacy, 20th ed., (Lippincott, Williams & Wilkins 2003), 및 Remington, The Science and Practice of Pharmacy, 22th ed., (Pharmaceutical Press and Philadelphia College of Pharmacy at University of the Sciences 2012)와 같은 문헌에 완전히 설명되어 있다.
적어도 하나의 구현예는 전이성 암을 가진 대상체의 조직 또는 혈액에서 미생물군에 기초하여 전이 기원 조직의 검출 및 결정을 위한 방법을 제공한다. 구현예에서, 본 발명은 다음 단계를 포함하는 미생물 핵산을 사용하여 조직 또는 혈액의 미생물군에 기초하여 전이의 기원 조직을 결정하는 방법을 제공한다:
(a) 고형 조직 또는 혈액을 포함하여 환자 생검으로부터 전이성 암 조직 샘플을 얻는 단계;
(b) 예를 들어 ZymoBIOMICS DNA Miniprep 키트를 사용하여 암 조직 샘플에서 핵산을 추출하는 단계;
(c) KAPA HyperPlus 키트를 사용하는 것과 같이 추출된 핵산으로부터 핵산 시퀀싱 라이브러리를 준비하는 단계;
(d) Illumina NovaSeq 6000 기기에서와 같이 차세대 시퀀싱 (NGS)을 사용하여 핵산 라이브러리를 시퀀싱하는 단계;
(e) 샘플에 대한 미생물 존재비 표를 얻기 위해 알려진 미생물 게놈에 대해 출력된 핵산 시퀀싱 판독값을 정렬하는 단계; 예를 들어 SHOGUN 알고리즘 (PMID: 30443602)을 사용; 및
(f) 구배 부스팅 분류 트리를 사용하는 것과 같이, 전이성 암의 기원 조직의 결정 또는 예측을 얻기 위해 기계 학습 알고리즘에 미생물 존재비 표를 입력하는 단계.
적어도 하나의 구현예는 핵산이 DNA 또는 RNA일 수 있음을 제공한다. 구현예에서, 단계는 미생물 DNA 또는 RNA에 초점을 두고 사용될 수 있다. 다른 대안으로는 전이의 기원 조직을 보다 정확하게 진단하기 위해 미생물 DNA 및 RNA와 숙주 DNA 및 RNA의 조합이 있다.
적어도 하나의 구현예는 비-미생물 핵산이 공지된 미생물 게놈에 대한 핵산 시퀀싱 판독을 정렬하기 전에 제거되는 것을 제공한다.
적어도 하나의 구현예는 오염 미생물 핵산이 공지된 미생물 게놈에 대해 핵산 시퀀싱 판독을 정렬하기 전에 제거되는 것을 제공한다.
적어도 하나의 구현예는 오염 미생물 핵산이 공지된 미생물 게놈에 대해 핵산 시퀀싱 판독을 정렬한 후 그러나 미생물 존재비 표를 기계 학습 알고리즘에 입력하기 전에 제거되는 것을 제공한다.
적어도 하나의 구현예는 알려진 미생물 게놈에 대해 출력된 핵산 시퀀싱 판독을 정렬할 때 미생물 존재 또는 부재 정보를 생성하며, 상기 미생물 존재 또는 부재 정보는 나중에 기계 학습에 사용된다.
적어도 하나의 구현예는 핵산이 고형 조직, 종양, 혈액, 액체 생검, 또는 이들의 임의의 조합을 포함하는 대상체의 임의의 조직으로부터 추출될 수 있음을 제공한다. 따라서 핵산은 순환 혈액, 순환 혈액의 성분 (예를 들어, 혈장, 백혈구, 혈소판), 또는 이들의 임의의 조합에서 추출될 수 있다.
적어도 하나의 구현예는 전이성 암의 기원 조직의 결정에 기초하여 대상체를 예후, 절차 예방 및/또는 치료하는 방법을 추가로 제공하며, 전이에 대해 지시된 치료 조성물 또는 치료 프로토콜의 유효량을 대상체에게 투여하는 것을 포함한다.
정의
본 발명의 이해를 용이하게 하기 위해, 본원에서 사용되는 다수의 용어 및 약어는 다음과 같이 정의된다:
본원에 사용된 바와 같이, 용어 "포함하다," "포함하는," "포함하다," "포함하는," "갖다," "가지는," "함유하다", "함유하는," "특징으로 하는" 또는 이들의 임의의 다른 변형은 달리 명시적으로 표시된 임의의 제한이 적용되는, 언급된 구성 요소의 비배타적 포함을 포함하도록 의도되었다. 예를 들어, 융합 단백질, 약학 조성물, 및/또는 요소 (예를 들어, 구성요소, 특징 또는 단계)의 목록을 "포함하는" 방법은 반드시 해당 요소 (또는 구성요소 또는 단계)에만 제한되지는 않지만, 융합 단백질, 약학 조성물 및/또는 방법에 명시적으로 나열되지 않았거나 고유하지 않은 다른 요소 (또는 구성요소 또는 단계)를 포함할 수 있다.
본원에 사용된 바와 같이, 전환 문구 "로 이루어지다" 및 "로 이루어진"은 지정되지 않은 임의의 요소, 단계 또는 구성요소를 배제한다. 예를 들어, 청구범위에 사용된 "로 이루어지다" 및 "로 이루어진"은 일반적으로 이와 관련된 불순물 (즉, 주어진 구성요소 내의 불순물)을 제외하고 청구범위에서 구체적으로 인용된 구성요소, 재료 또는 단계로 청구범위를 제한한다. 문구 "로 이루어지다" 및 "로 이루어진"이 전문 바로 다음에 오는 것이 아니라 청구범위 본문의 절에 나타날 때, 문구 "로 이루어지다" 및 "로 이루어진"은 해당 조항에 제시된 요소 (또는 구성 요소 또는 단계)만을 제한하고; 다른 요소(또는 구성 요소)는 전체적으로 청구 범위에서 제외되지 않는다.
본원에 사용된 바와 같이, 전환 문구 "로 본질적으로 이루어지다" 및 "로 본질적으로 이루어진"은 이러한 추가 자료, 단계, 기능, 구성요소 또는 요소가 청구된 발명의 기본적이고 신규한 특성(들)에 실질적으로 영향을 미치지 않는 한, 융합 단백질, 약학 조성물, 및/또는 재료, 단계, 특징, 구성 요소 또는 요소를, 여기에 더하여 문자 그대로 공개된 것을 포함하는 방법을 정의하는 데 사용된다. 용어 "로 본질적으로 이루어진"은 "포함하는"과 "로 이루어진" 사이의 중간 지대를 차지한다.
본 발명의 요소 또는 이의 바람직한 구현예(들)를 소개할 때, 관사 "a", "an", "the" 및 "상기"는 하나 이상의 요소가 있음을 의미하는 것으로 의도된다. 용어 "포함하는", "포함하는" 및 "가지는"은 포괄적인 것으로, 나열된 요소 외에 추가적인 요소가 있을 수 있음을 의미한다.
둘 이상의 항목 목록에서 사용될 때 용어 "및/또는"은 나열된 항목 중 하나가 단독으로 또는 나열된 항목 중 하나 이상과 조합하여 사용될 수 있음을 의미한다. 예를 들어, 표현 "A 및/또는 B"는 A와 B 중 하나 또는 둘 다, 즉 A 단독, B 단독 또는 A 및 B의 조합을 의미하는 것으로 의도된다. 표현 "A, B 및/또는 C" A 단독, B 단독, C 단독, A 및 B의 조합, A 및 C의 조합, B 및 C의 조합 또는 A, B 및 C의 조합을 의미하는 것으로 의도된다.
본원에 기술된 본 발명의 양태 및 구현예는 양태 및 구현예로 "로 이루어지는" 및/또는 "로 본질적으로 이루어지는"을 포함하는 것으로 이해된다.
범위 형식의 설명은 단지 편의와 간결함을 위한 것이며 본 발명의 범위에 대한 융통성 없는 제한으로 해석되어서는 안 됨을 이해해야 한다. 따라서, 범위에 대한 설명은 가능한 모든 하위 범위와 그 범위 내의 개별 수치를 구체적으로 개시한 것으로 간주되어야 한다. 예를 들어, 1 내지 6과 같은 범위의 설명은 1 내지 3, 1 내지 4, 1 내지 5, 2 내지 4, 2 내지 6, 3 내지 6 등과 같이 구체적으로 공개된 하위 범위뿐만 아니라 해당 범위 내의 개별 숫자, 예를 들어, 1, 2, 3, 4, 5, 및 6을 갖는 것으로 간주되어야 한다. 이는 범위의 폭에 관계없이 적용된다. 값 또는 범위는 또한, 본원에서 "약," "약" 하나의 특정 값으로부터 및/또는 "약" 또 다른 특정 값까지로 표현될 수 있다. 그러한 값 또는 범위가 표현될 때, 개시된 다른 구현예는 하나의 특정 값으로부터 및/또는 다른 특정 값까지로 인용된 특정 값을 포함한다. 유사하게, 선행사 "약"을 사용하여 값이 근사치로 표현될 때, 특정 값이 다른 구현예를 형성한다는 것이 이해될 것이다. 거기에 개시된 다수의 값이 있고, 각각의 값이 값 자체에 더하여 특정 값 "대략"으로서 본원에서 또한 개시된다는 것이 추가로 이해될 것이다. 구현예에서, "약"은 예를 들어 인용된 값의 10% 이내, 인용된 값의 5% 이내 또는 인용된 값의 2% 이내를 의미하는 데 사용될 수 있다.
본원에 사용된 바와 같이, "환자" 또는 "대상체"는 진단 또는 치료될 인간 또는 동물 대상체를 의미한다.
본원에 사용된 바와 같이 용어 "약학 조성물"은 약학적으로 허용되는 조성물을 지칭하며, 여기서 조성물은 약학 활성제를 포함하고, 일부 구현예에서는 약학적으로 허용 가능한 담체를 추가로 포함한다. 일부 구현예에서, 약학 조성물은 약학 활성제 및 담체의 조합일 수 있다.
본원에 사용된 바와 같이 용어 "약학적으로 허용 가능한"은 연방 또는 주 정부의 규제 기관에 의해 승인되거나 미국 약전, 기타 일반적으로 인정되는 약전에 나열된 것 이외에 동물, 특히 인간 및/또는 인간이 아닌 포유류에 사용하기에 안전한 다른 제형을 의미한다.
본원에 사용된 바와 같이 용어 "약학적으로 허용 가능한 담체"는 탈메틸화 화합물(들)과 함께 투여되는 부형제, 희석제, 보존제, 가용화제, 유화제, 보조제 및/또는 비히클을 지칭한다. 이러한 담체는 물 및 석유, 동물성, 식물성 또는 합성 기원의 오일, 예를 들어 땅콩유, 대두유, 광유, 참기름 등과 같은 멸균 액체, 폴리에틸렌 글리콜, 글리세린, 프로필렌 글리콜 또는 다른 합성 용제일 수 있다. 벤질 알코올 또는 메틸 파라벤과 같은 항균제; 아스코르브산 또는 아황산수소나트륨과 같은 항산화제; 에틸렌디아민테트라아세트산과 같은 킬레이트제; 및 염화나트륨 또는 덱스트로스와 같은 장성 조정용 제제가 또한 담체일 수 있다. 담체와 함께 조성물을 제조하는 방법은 당업자에게 공지되어 있다. 일부 구현예에서, 언어 "약학적으로 허용 가능한 담체"는 약학적 투여에 적합한 임의의 및 모든 용매, 분산 매질, 코팅, 등장성 및 흡수 지연제 등을 포함하는 것으로 의도된다. 약학적 활성 물질에 대한 이러한 매질 및 제제의 사용은 당업계에 잘 알려졌다. 예를 들어, Remington, The Science and Practice of Pharmacy, 20th ed., (Lippincott, Williams & Wilkins 2003) 참조. 임의의 통상적인 매질 또는 제제가 활성 화합물과 양립할 수 없는 경우를 제외하고, 조성물에서의 이러한 사용이 고려된다.
본원에 사용된 바와 같이, "치료적 유효량"은 질환 및 의학적 병태와 관련된 증상을 치료 또는 개선하거나 어떤 방식으로 감소시키기에 충분한 약학적 활성 화합물(들)의 양을 지칭한다. 방법과 관련하여 사용되는 경우, 방법은 질환 또는 병태와 관련된 증상을 치료 또는 개선하거나 어떤 방식으로 감소시키기에 충분히 효과적이다. 예를 들어, 질환에 관한 유효량은 발병을 차단하거나 예방하기에; 또는 질병 병리가 시작된 경우, 질환의 완화, 개선, 안정화, 역전 또는 지연, 또는 질환의 병리학적 결과를 줄이기 위해 충분한 양이다. 어떠한 경우에도 유효량을 1회 또는 분할 투여할 수 있다.
본원에 사용된 바와 같이, 용어 "치료하다", "치료" 또는 "치료하는"은 환자의 질환과 관련된 증상의 적어도 완화를 포함하며, 여기서 완화는 매개변수, 예를 들어 치료 중인 질환 또는 병태와 관련된 증상의 크기에서 적어도 감소를 지칭하는데 광의로 사용된다. 이와 같이, "치료"는 또한 질환, 장애 또는 병리학적 상태, 또는 적어도 이와 관련된 증상이 환자가 병태, 또는 적어도 병태를 특징짓는 증상으로부터 더는 고통받지 않도록 완전히 억제 (예를 들어 발생 방지) 또는 중지 (예를 들어 종료)하는 상황을 포함한다.
본원에 사용된 바와 같이, 그리고 달리 명시되지 않는 한, 용어 "예방하다", "예방하는" 및 "예방"은 질환 또는 장애 또는 이의 하나 이상의 증상의 개시, 재발 또는 확산의 예방을 지칭한다. 특정 구현예에서, 용어는 증상의 개시 전에, 특히 질환 또는 본원에 제공된 장애의 위험이 있는 대상체에게 하나 이상의 추가 활성제(들)와 함께 또는 없이 본원에 제공된 화합물 또는 투여 형태로의 치료 또는 투여를 지칭한다. 이 용어는 특정 질환의 증상 억제 또는 감소를 포함한다. 특정 구현예에서, 질환의 가족력이 있는 대상체는 예방 요법에 대한 잠재적 후보이다. 특정 구현예에서, 재발 증상의 이력이 있는 대상체는 또한, 예방을 위한 잠재적 후보이다. 이와 관련하여, 용어 "예방"은 "예방적 치료"라는 용어와 혼용될 수 있다.
본원에 사용된 바와 같이, 그리고 달리 명시되지 않는 한, 조성물의 "예방적 유효량"은 질환 또는 장애를 예방하거나 이의 재발을 예방하기에 충분한 양이다. 조성물의 예방적 유효량은 질환의 예방에 예방적 이점을 제공하는 치료제 단독 또는 하나 이상의 다른 제제(들)와 조합된 치료제의 양을 의미한다. 용어 "예방적 유효량"은 전반적인 예방을 개선하거나 다른 예방제의 예방 효능을 향상시키는 양을 포함할 수 있다.
"증폭"은 표적 핵산 또는 이의 보체 또는 이의 단편의 다중 카피를 얻기 위한 임의의 알려진 절차를 지칭한다. 다중 카피는 앰플리콘 또는 증폭 산물이라고 할 수 있다. 단편의 맥락에서 증폭은 예를 들어, 표적 핵산의 내부 위치에 혼성화하고 그로부터 중합을 개시하는 증폭 올리고뉴클레오티드를 사용하여 생성되는 완전한 표적 핵산 또는 그 보체보다 적은 양을 포함하는 증폭된 핵산의 생성을 지칭한다. 공지된 증폭 방법에는 예를 들어, 레플리카제 매개 증폭, 중합효소 연쇄 반응 (PCR), 역전사 중합효소 연쇄 반응 (RT-PCR), 리가아제 연쇄 반응 (LCR), 가닥 변위 증폭 (SDA), 및 전사 매개 증폭 또는 전사 관련 증폭이 포함된다. 증폭은 출발 분자의 엄격한 복제에 국한되지 않는다. 예를 들어, 역전사 (RT)-PCR을 사용하여 샘플의 RNA에서 여러 cDNA 분자를 생성하는 것은 증폭의 한 형태이다. 또한, 전사 과정에서 단일 DNA 분자에서 여러 RNA 분자가 생성되는 것도 증폭의 한 형태이다. 증폭 동안 증폭된 산물은 예를 들어 표지된 프라이머를 사용하거나 표지된 뉴클레오티드를 통합하여 표지될 수 있다.
"앰플리콘" 또는 "증폭 산물"은 표적 핵산 또는 이의 영역에 대해 상보적이거나 상동인 증폭 절차 동안 생성된 핵산 분자를 지칭한다. 앰플리콘은 이중 가닥 또는 단일 가닥일 수 있으며 DNA, RNA 또는 둘 모두를 포함할 수 있다. 앰플리콘을 생성하는 방법은 당업자에게 공지되어 있다.
"코돈"은 함께 핵산에서 유전자 코드의 단위를 형성하는 3개의 뉴클레오티드 서열을 지칭한다.
"관심 코돈"은 진단적 또는 치료적 의미가 있는 표적 핵산 내의 특정 코돈 (예를 들어 바이러스 유전자형/아형 또는 약물 내성과 관련된 대립유전자)을 지칭한다.
"상보적인" 또는 "이의 보체"는 연속적인 핵산 염기 서열이 일련의 상보적인 염기 사이의 표준 염기쌍 (수소 결합)에 의해 또 다른 염기 서열에 혼성화할 수 있음을 의미한다. 상보적 서열은 표준 염기쌍 (예를 들어, G:C, A:T 또는 A:U 쌍)을 사용함으로써 그 표적 서열에 관하여 올리고머 서열의 각 위치에서 완전히 상보적 (즉 핵산 듀플렉스에 불일치가 없음)일 수 있거나 서열은 염기쌍 형성에 의해 상보적이지 않은 하나 이상의 위치를 포함할 수 있지만 (예를 들어, 핵산 듀플렉스에 적어도 하나의 불일치 또는 일치하지 않는 염기가 존재함), 이러한 서열은 전체 올리고머 서열이 적절한 혼성화 조건 (즉 부분적으로 상보적)에서 그의 표적 서열과 특이적으로 혼성화할 수 있기 때문에 충분히 상보적이다. 올리고머의 인접 염기는 의도된 표적 서열에 대해 일반적으로 적어도 80%, 바람직하게는 적어도 90%, 및 더욱 바람직하게는 완전히 상보적이다.
"하도록 구성된" 또는 "하도록 설계된"은 참조된 올리고뉴클레오티드의 핵산 서열 구성의 실제 배열을 나타낸다. 예를 들어, 즉 표적 핵산으로부터 특정 앰플리콘을 생성하도록 구성된 프라이머는 표적 핵산 또는 이의 영역에 혼성화하는 핵산 서열을 가지며 증폭 반응에 사용되어 앰플리콘을 생성할 수 있다. 또한, 예로서, 즉 표적 핵산 또는 이의 영역에 특이적으로 혼성화하도록 구성된 올리고뉴클레오티드는 엄격한 혼성화 조건하에서 참조 서열에 특이적으로 혼성화하는 핵산 서열을 갖는다.
"다운스트림"은 서열 전사 또는 판독 방향으로 핵산 서열을 따라 더 나아가는 것을 의미한다.
"업스트림"은 서열 전사 또는 판독 방향과 반대 방향으로 핵산 서열을 따라 더 나아가는 것을 의미한다.
"중합효소 연쇄 반응" (PCR)은 일반적으로 여러 주기의 핵산 변성, 반대 가닥에 대한 프라이머 쌍의 어닐링 (정방향 및 역방향) 및 표적 핵산 서열의 복제 수를 기하급수적으로 증가시키는 프라이머 확장을 사용하는 과정을 의미한다. RT-PCR이라는 변형에서, 역전사효소 (RT)는 mRNA로부터 상보적인 DNA (cDNA)를 만드는 데 사용되며, 그런 다음 cDNA는 PCR로 증폭되어 여러 개의 DNA 카피를 생성한다. 당업자에게 공지된 많은 PCR 순열이 있다.
"위치"는 핵산 서열에서 특정 아미노산 또는 아미노산들을 지칭한다.
"프라이머"는 일반적으로 표적 핵산의 상보적인 프라이머 특이적 부분과 역평행 방식으로 혼성화하도록 설계된 정의된 서열을 갖는 효소적으로 확장 가능한 올리고뉴클레오티드를 지칭한다. 프라이머는 적합한 핵산 합성 조건하에 놓일 때 주형 의존 방식으로 뉴클레오티드의 중합을 개시하여 표적 핵산에 상보적인 핵산을 생성할 수 있다 (예를 들어 표적에 어닐링된 프라이머는 적절한 온도와 pH에서 뉴클레오티드 및 DNA/RNA 중합효소의 존재하에 연장될 수 있음). 적합한 반응 조건 및 시약은 당업자에게 공지되어 있다. 프라이머는 일반적으로 증폭 효율을 최대화하기 위해 단일 가닥이지만 이중 가닥일 수도 있다. 이중 가닥인 경우 프라이머는 일반적으로 연장 제품을 준비하는 데 사용되기 전에 가닥을 분리하기 위해 먼저 처리된다. 프라이머는 일반적으로 유도제(예를 들어 중합효소)의 존재하에 연장 생성물의 합성을 프라이밍하기에 충분히 길다. 특정 길이와 서열은 필요한 DNA 또는 RNA 표적의 복잡성과 온도 및 이온 강도와 같은 프라이머 사용 조건에 따라 달라진다. 바람직하게는 프라이머는 약 5-100개의 뉴클레오티드이다. 따라서, 프라이머는 예를 들어, 5, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 또는 100개 뉴클레오티드 길이일 수 있다. 프라이머는 프라이머 신장이 발생하기 위해 주형과 100% 상보성을 가질 필요가 없다; 상보성이 100% 미만인 프라이머는 혼성화 및 중합효소 신장이 발생하기에 충분할 수 있다. 원하는 경우 프라이머에 표지를 붙일 수 있다. 프라이머에 사용되는 표지는 임의의 적합한 표지일 수 있으며, 예를 들어 분광, 광화학, 생화학, 면역화학, 화학 또는 기타 검출 수단에 의해 검출될 수 있다. 따라서 표지된 프라이머는 혼성화를 촉진하여 표적 서열의 선택적 검출을 가능하게 하는 조건하에서 핵산 또는 증폭된 핵산 내의 표적 서열에 특이적으로 혼성화하는 올리고머를 지칭한다.
프라이머 핵산은 원하는 경우 예를 들어 분광학, 광화학적, 생화학적, 면역화학적, 화학적 또는 기타 기술에 의해 검출 가능한 표지를 통합함으로써 표지화될 수 있다. 예를 들어, 유용한 표지에는 방사성 동위원소, 형광 염료, 전자 밀도 시약, 효소 (ELISA에서 일반적으로 사용됨), 비오틴 또는 합텐 및 항혈청 또는 단일클론 항체를 사용할 수 있는 단백질이 포함된다. 이들 및 기타 표지 중 다수는 본 명세서에 추가로 기재되어 있고/있거나 달리 당업계에 공지되어 있다. 당업자는 특정 구현예에서 프라이머 핵산이 또한 프로브 핵산으로 사용될 수 있음을 인지할 것이다.
"영역"은 상기 부분이 전체 핵산보다 작은 핵산의 일부를 지칭한다.
"관심 영역"은 증폭되고 검출될 유전자형 및/또는 하위유형과 관련된 적어도 하나의 단일 뉴클레오티드 치환 돌연변이를 갖는 모든 코돈 위치, 및 있는 경우 증폭되고 검출될 모든 마커 위치를 포함하는 표적 핵산의 특정 서열을 지칭한다.
"RNA-의존성 DNA 중합효소" 또는 "역전사효소" ("RT")는 RNA 주형으로부터 상보적인 DNA 카피를 합성하는 효소를 지칭한다. 알려진 모든 역전사 효소는 또한 DNA 주형에서 상보적인 DNA 카피를 만드는 능력이 있다; 따라서 그들은 모두 RNA 및 DNA 의존 DNA 중합 효소이다. RT는 또한 RNAse H 활성을 가질 수 있다. RNA 및 DNA 템플릿을 모두 사용하여 합성을 시작하려면 프라이머가 필요하다.
"DNA-의존성 DNA 중합효소"는 DNA 주형에서 상보적인 DNA 카피를 합성하는 효소이다. 예는 대장균의 DNA 중합효소 I, 박테리오파지 T7 DNA 중합효소 또는 박테리오파지 T4, Phi-29, M2 또는 T5의 DNA 중합효소이다. DNA-의존성 DNA 중합효소는 박테리아 또는 박테리오파지로부터 분리되거나 재조합 적으로 발현되는 자연 발생 효소일 수 있거나, 특정 바람직한 특성, 예를 들어, 열안정성, 또는 다양한 변형 주형의 DNA 가닥을 인식 또는 합성하는 능력을 갖도록 조작된 변형 또는 "진화" 형태일 수 있다. 알려진 모든 DNA-의존성 DNA 중합효소는 합성을 시작하기 위해 보완적인 프라이머가 필요하다. 적절한 조건하에서 DNA 의존성 DNA 중합효소는 RNA 주형으로부터 상보적인 DNA 카피를 합성할 수 있는 것으로 알려졌다. RNA 의존성 DNA 중합효소는 일반적으로 DNA 의존성 DNA 중합효소 활성도 가지고 있다.
"DNA-의존성 RNA 중합효소" 또는 "전사효소"는 일반적으로 이중 가닥인 프로모터 서열을 갖는 이중 가닥 또는 부분 이중 가닥 DNA 분자로부터 다수의 RNA 카피를 합성하는 효소이다. RNA 분자 ("전사체")는 프로모터 바로 아래의 특정 위치에서 시작하여 5'에서 -3' 방향으로 합성된다. 전사효소의 예는 대장균과 박테리오파지 T7, T3 및 SP6의 DNA 의존성 RNA 중합효소이다.
핵산의 "서열"은 은 핵산에 있는 뉴클레오티드의 순서와 정체성을 지칭한다. 서열은 일반적으로 5'에서 3' 방향으로 읽는다. 2개 이상의 핵산 또는 폴리펩티드 서열과 관련하여 용어 "동일한" 또는 퍼센트 "동일성"은 예를 들어, 당업자가 이용할 수 있는 서열 비교 알고리즘 중 하나를 사용하여 또는 육안 검사에 의해 측정될 때 최대 일치를 위해 비교 및 정렬될 때 동일하거나 동일한 아미노산 잔기 또는 뉴클레오티드의 특정 백분율을 갖는 2개 이상의 서열 또는 하위서열을 지칭한다. 퍼센트 서열 동일성 및 서열 유사성을 결정하는데 적합한 예시적인 알고리즘은 다음에 기술된 BLAST 프로그램, 예를 들어, Altschul et al. (1990) "Basic local alignment search tool" J. Mol. Biol. 215:403-410, Gish et al. (1993) "Identification of protein coding regions by database similarity search" Nature Genet. 3:266-272, Madden et al. (1996) "Applications of network BLAST server" Meth. Enzymol. 266:131-141, Altschul et al. (1997) ""Gapped BLAST and PSI-BLAST: a new generation of protein database search programs" Nucleic Acids Res. 25:3389-3402, 및 Zhang et al. (1997) "PowerBLAST: A new network BLAST application for interactive or automated sequence analysis and annotation" Genome Res. 7:649-656이고, 이들은 각각 참조로 포함된다. 다수의 다른 최적 정렬 알고리즘도 당업계에 공지되어 있고 선택적으로 퍼센트 서열 동일성을 결정하기 위해 이용된다.
"표지"는 분자에 부착된 (공유 또는 비공유) 또는 부착될 수 있는 부분을 지칭하고, 이러한 부분은 분자에 대한 정보 (예를 들어, 분자에 대한 설명, 식별 등의 정보) 또는 표지된 분자가 상호작용 (예를 들어, 혼성화 등)하는 다른 분자를 제공하거나 제공할 수 있다. 예시적인 표지는 형광 표지 (예를 들어, 소광제 또는 흡수제 포함), 약한 형광 표지, 비형광 표지, 비색 표지, 화학발광 표지, 생물발광 표지, 방사성 표지, 질량-변형 그룹, 항체, 항원, 비오틴, 합텐, 효소 (예를 들어, 퍼옥시다아제, 포스파타아제 등 포함) 등을 포함한다.
"링커"는 화합물 또는 치환체 그룹을 또 다른 부분, 예를 들어, 핵산, 올리고뉴클레오티드 프로브, 프라이머 핵산, 앰플리콘, 고체 지지체 등에 공유적으로 또는 비공유적으로 부착시키는 화학적 부분을 지칭한다. 예를 들어, 링커는 선택적으로 올리고뉴클레오티드 프로브를 고체 지지체 (예를 들어, 선형 또는 다른 논리 프로브 어레이)에 부착하는 데 사용된다. 추가 설명을 위해, 링커는 선택적으로 표지 (예를 들어, 형광 염료, 방사성동위원소 등)를 올리고뉴클레오티드 프로브, 프라이머 핵산 등에 부착한다. 링커는 전형적으로 적어도 2 관능성 화학적 모이어티이고 특정 구현예에서, 이들은 예를 들어, 열, 효소, 화학 작용제, 전자기 방사선 등에 의해 절단되어 예를 들어, 고체 지지체로부터 물질 또는 화합물을 방출할 수 있는 절단 가능한 부착물을 포함한다. 링커를 신중하게 선택하면 화합물 및 분석 방법의 안정성과 호환되는 적절한 조건에서 절단이 수행될 수 있다. 일반적으로 링커는 예를 들어 화학 종을 함께 연결하거나 그러한 종 사이의 일부 최소 거리 또는 다른 공간적 관계를 보존하는 것 이외의 특정 생물학적 활성을 갖지 않는다. 그러나 링커의 구성성분은 차원 형태, 알짜 전하, 소수성 등과 같은 연결된 화학 종의 일부 특성에 영향을 미치도록 선택될 수 있다. 예시적인 링커는 예를 들어, 올리고펩티드, 올리고뉴클레오티드, 올리고폴리아미드, 올리고에틸렌글리세롤, 올리고아크릴아미드, 알킬 사슬 등을 포함한다. 링커 분자에 대한 추가적인 설명은 예를 들어, Hermanson, Bioconjugate Techniques, Elsevier Science (1996), Lyttle et al. (1996) Nucleic Acids Res. 24(14):2793, Shchepino et al. (2001) Nucleosides, Nucleotides, & Nucleic Acids 20:369, Doronina et al (2001) Nucleosides, Nucleotides, & Nucleic Acids 20:1007, Trawick et al. (2001) Bioconjugate Chem. 12:900, Olejnik et al. (1998) Methods in Enzymology 291:135, 및 Pljevaljcic et al. (2003) J. Am. Chem. Soc. 125(12):3486에 제공되고, 이들 모두는 참조로 포함된다.
"단편"은 완전한 핵산보다 적은 수의 뉴클레오티드를 함유하는 인접한 핵산 조각을 지칭한다.
"혼성화", "어닐링", "선택적으로 결합하다" 또는 "선택적 결합"은 한 핵산과 다른 핵산 (일반적으로 역평행 핵산)의 염기 쌍 형성 상호 작용을 지칭하고 이는 듀플렉스 또는 고차원 구조 (즉 혼성화 복합체) 형성을 초래한다. 역평행 핵산 분자 사이의 주요 상호작용은 일반적으로 염기 특이적, 예를 들어, A/T 및 G/C이다. 혼성화를 달성하기 위해 2개의 핵산이 전체 길이에 걸쳐 100% 상보성을 가질 필요는 없다. 핵산은 수소 결합, 용매 배제, 염기 스태킹 등과 같은 잘 특성화된 다양한 물리화학적 힘으로 인해 혼성화된다. 핵산 혼성화에 대한 광범위한 가이드는 Tijssen (1993) Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes part I chapter 2, "Overview of principles of hybridization and the strategy of nucleic acid probe assays," (Elsevier, New York), 뿐만 아니라 Ausubel (Ed.) Current Protocols in Molecular Biology, Volumes I, II, 및 III, 1997에서 찾을 수 있고, 이는 참조로 포함된다.
실시예
본 연구는 11가지 암 유형의 500개 이상의 전이성 암 조직 샘플에 대한 예비 분석을 기반으로 한다. 도 1은 그의 조직 마이크로바이옴에 의해 전이성 유방암과 전이성 갑상선 암종을 구별하는 기계 학습 결과를 보여주며, 이는 원발성 종양이 미생물 특징에 의해 구별될 수 있음을 시사한다 (전이성 암은 이들의 기원 조직에 따라 명명되기 때문에). 적어도 하나의 구현예에서, 유방암 및 갑상선암 전이에 대한 Kraken Voom-SNM 변환 데이터는 더 큰 TCGA Voom-SNM-보정 데이터세트 (n=17,625)로부터 부분집합 (n=18)되었다. TCGA는 511개의 흑색종 전이, 유방암 (BRCA) 및 갑상선암 (THCA)에서 각각 9개, 그리고 8개의 다른 암 유형에서 1-2개의 샘플로 구성되었다. 여기서 BRCA 및 THCA는 균형 잡힌 클래스를 갖는 예시로 사용되었다.
적어도 하나의 구현예에서, 본원에 기술된 기계 학습 모델 또는 알고리즘은 미생물 존재비를 결정하는 데 필요하지 않으며; 오히려 해당 단계는 분류 할당 알고리즘을 사용하기 전에 수행된다. 그런 다음, 이러한 구현예에서 기계 학습 알고리즘은 어떤 샘플이 특정 암 유형에 속하는지 결정하기 위해 미생물의 중요도를 순위화한다. 다양한 구현예에서, Kraken은 분류 할당 알고리즘 (PMID: 24580807)이고, 기계 학습 알고리즘은 구배 부스팅이다 (Friedman, Jerome H. "Stochastic gradient boosting." Computational statistics & data analysis 38.4 (2002): 367-378.), 이들 각각은 전체적으로 본원에 참조로 포함된다. 
암 마이크로바이옴의 체계적 특성화는 주요 인간 질환의 진단에서 비-인간 미생물 유래 분자를 이용하는 기술을 개발할 수 있는 기회를 제공한다. 일부 유형의 암이 상당한 미생물 기여도를 보인다는 최근의 실증에 이어, 치료 경험이 없는 환자의 33가지 유형의 암에 대한 TCGA의 전체 게놈 및 전체 전사체 시퀀싱 연구가 (총 18,116개 샘플) 미생물 판독에 대해 재검토되었고, 주요 유형의 암 내 및 주요 유형 사이의 조직 및 혈액에서 고유한 미생물 시그니처가 본원에 설명된 기술을 사용하여 발견되었다. 이러한 TCGA 혈액 시그니처는 Ia-IIc 기 암 환자와 두 개의 상용 등급 무세포 종양 DNA 플랫폼에서 현재 측정된 게놈 변경이 없는 암 환자에게 적용했을 때, 전체 시퀀스 데이터의 최대 92.3%를 폐기한 매우 엄격한 오염 제거 분석을 사용했음에도 불구하고 예측 가능했다. 또한, 본원에 설명된 기술을 사용하여, 혈장 유래, 무세포 미생물 핵산을 단독으로 사용하여 건강하고 암이 없는 개인 (n=69)과 여러 유형의 암 (전립선, 폐, 및 흑색종; 총 100개 샘플)을 가진 환자의 샘플을 구별할 수 있다. 이 잠재적인 마이크로바이옴 기반 종양학 진단 도구는 추가 탐구를 보증한다.
암은 고전적으로 인간 게놈의 질환으로 간주된다. 그러나 최근 연구에 따르면 마이크로바이옴이 일부 유형의 암에 상당한 기여를 한다. 특히, 위장관 암에 대한 분변 마이크로바이옴의 기여. 그러나 다양한 유형의 암에 대한 미생물 기여의 정도와 진단적 의미는 아직 알려지지 않았다. 수집, 처리 및 시퀀싱 중 샘플 오염 가능성은 암 유전체학 프로젝트에서 절차적 제어가 거의 구현되지 않았기 때문에 이러한 조사를 제한한다. 미생물 시그니처에 대한 오염 물질의 기여를 최소화하기 위해 최근에 개발된 도구의 사용은 다양한 구현예에서, 마이크로바이옴 기반 진단법의 합리적인 개발을 가능하게 하는 데 활용될 수 있다.
암 관련 마이크로바이옴을 특성화하기 위해, 전체 게놈 시퀀싱 (WGS; n=4, 831) 및 전체 전사체 시퀀싱 (RNA-seq; n=13,285) 연구의 TCGA 개요로부터의 1만 명의 환자 및 33가지 유형의 암에 걸쳐 18,116개 샘플의 미생물 판독을 조사하였다. 다른 적합한 데이터세트가 사용될 수 있고 본 개시내용의 범위 내에서 고려된다. 미생물 판독은 이전에 임시 분석 (위 선암종의 EBV 및 자궁경부암의 HPV 포함)에서 확인되었으며 샘플의 작은 하위 집합에서 체계적으로 연구되었다 (예를 들어, 19가지 유형의 암에서 추출한 4,433개의 TCGA 샘플 바이롬 및 9가지 유형의 암에서 1,880개의 TCGA 샘플 박테리옴. 대부분의 TCGA 시퀀싱 데이터는 미생물에 대해 탐색되지 않은 상태로 남아 있다. 본원에 제시된 바와 같이, 포괄적인 암 마이크로바이옴 데이터 세트는 2개의 직교 미생물 검출 파이프라인을 사용하여 생성되어 기술적 변화와 오염을 체계적으로 측정하고 완화한다. 기계-학습 (ML) 기술을 사용하여 암의 유형 및/또는 단계를 구별하고, 그들의 성능을 비교하는 미생물 시그니처를 식별했다.
본원에 기술된 기계 학습 모델을 사용하여 식별할 수 있는 암 유형 및/또는 병기의 비제한적인 목록은 다음을 포함한다: 급성 골수성 백혈병 (LAML); 부신피질 암종 (ACC); 방광 요로상피 암종 (BLCA); 뇌 저등급 신경아교종 (LGG); 유방 침윤성 암종 (BRCA); 자궁경부 편평 세포 암종 및 자궁경부 내 선암종 (CESC); 담관암종 (CHOL); 결장 선암종 (COAD); 림프성 신생물 미만성 거대 B 세포 림프종 (DLBC); 식도 암종 (ESCA); 다형교모세포종 (GBM); 두경부 편평 세포 암종 (HNSC); 신장 색소혐성 (KICH); 신장 투명 세포 암종 (KIRC); 신장 유두 세포 암종 (KIRP); 간 간세포 암종 (LIHC); 폐 선암종 (LUAD); 폐 편평 세포 암종 (LUSC); 중피종 (MESO); 난소 장액성 낭선암종 (OV); 췌장 선암종 (PAAD); 갈색세포종 및 부신경절종 (PCPG); 전립선 선암종 (PRAD); 직장 선암종 (READ); 육종 (SARC); 피부 흑색종 (SKCM); 위 선암종 (STAD); 고환 생식 세포 종양 (TGCT); 갑상선 암종 (THCA); 흉선종 (THYM); 자궁 암육종 (UCEC); 자궁체 자궁내막 암종 (UCS); 포도막 흑색종 (UVM).
TCGA 처리는 미생물 오염을 통제하지 않고 건강한 개체를 배제했기 때문에, 금 표준 미생물학 프로토콜을 사용하여 우발적 미생물 오염을 포함할 가능성이 가장 큰 TCGA 샘플 유형인 혈액에 대해 추가 분석을 수행했다. 다양한 구현예는 임상적으로 이용 가능한 무세포 종양 DNA (ctDNA) 검정에 대해 혈장 유래 미생물 DNA로부터 상응하는 벤치마킹 시그니처에 초점을 맞추었다. 전립선암, 폐암 또는 피부암이 있는 개인 (총 n=100)과 건강한, 암 및 HIV가 없는 대조군 참가자 (n=69)의 혈장 샘플에 대한 심층 군유전체학 시퀀싱은 무세포 미생물 프로필을 사용하여 건강 대 암 및 암 대 암 식별을 달성할 수 있음을 시사했다. 이러한 발견은 암을 검출하고 모니터링하기 위한 기존 ctDNA 분석을 보완할 수 있는 새로운 종류의 마이크로바이옴 기반 암 진단 도구를 제안한다.
정규화된 데이터를 사용하여, 다양한 구현예에 따라 암의 유형과 병기를 구별하도록 확률적 구배 부스팅 ML 모델을 훈련했다. 이러한 모델의 성능은 (i) 하나의 암 유형 대 다른 모든 유형 (n=32종의 암) 및 (ii) 종양 대 정상 (n=15종의 암)을 구별하는 데 강력했다 (도 4f-g, 도 9a-f; cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser에서 찾을 수 있는 모든 성능 지표). 소수 클래스와 AUROC (수신기 작동 특성 곡선 아래 영역; P=0.0231) 값 (기울기의 양면 가설 검정; 도 9g-h) 사이 하나의 암 유형 대 다른 모든 유형 비교에서 유의미한 선형 관계가 있었기 때문에, 암 유형 간 민감도 및 특이성의 차이는 부분적으로 클래스 규모의 차이로 인한 것일 수 있다. 암 미생물의 이질성도 이러한 차별화된 성능에 기여할 수 있다. 조직 기반 미생물 모델은 결장 선암종 (COAD), STAD, 및 신장 투명 세포 암종 (KIRC)에 대해 1기 및 4기 종양 (n=8종의 암)을 구별하는 데 잘 수행되었지만, 시험된 다른 5가지 암에 대해서는 그렇지 않았고 (도 4h), 중간 단계 구별에 대해서도 그렇지 않았다 (데이터는 표시되지 않음). 이러한 결과는 미생물 군집 구조 역학이 모든 유형의 암에 대해 숙주 조직에 의해 정의된 암 단계와 상관관계가 없을 수 있음을 시사한다.
데이터 세트 전체에서 이러한 기술의 일반화 가능성을 평가하기 위해, 무작위로 원시 TCGA 미생물 수를 두 개의 배치로 분류하고, 각 배치에 대한 모든 절차를 독립적으로 반복했으며, 각 독립적으로 훈련된 모델을 데이터의 나머지 절반에서 테스트했으며 매우 유사한 성능이 발견되었다 (도 10a). 단일 방법론 (WGS 또는 RNA-seq) 또는 WGS 또는 RNA-seq를 수행하는 시퀀싱 센터를 검사하거나 게놈 정렬 필터링된 Kraken 데이터만 사용할 때 차별적인 미생물 시그니처를 보유한다.
추가 검증을 위해, Kraken-기반 분석에서 모든 분석 유형의 암 (n=32), 샘플 유형 (n=7), 시퀀싱 플랫폼 (n=6), 및 시퀀싱 센터 (n=8)에 걸쳐 13,517개 TCGA 샘플 (WGS, n=3,434; RNA-seq, n=10,083)에 대한 감소한 계통발생학적 기반의 박테리아 전용 데이터베이스를 사용하는 정렬 기반 미생물 분류학 파이프라인인 SHOGUN을 적용하였다. SHOGUN-유래 데이터는 더 작고 동일하지 않은 기본 데이터베이스를 사용했음에도 불구하고 Kraken-유래 데이터에서 확인된 배치 효과를 복제했다 (도 11j-l). 이 데이터와 Kraken-유래 데이터의 해당 하위 집합 (방법 참조)은 정규화 및 ML 파이프라인에 독립적으로 입력되었으며 데이터 세트 간의 차별적 성능에 큰 차이가 없음을 발견했다 (도 11m-t). 함께 결과는 미생물 군집이 각 암 유형에 고유하며 미생물 프로필만을 기반으로 암을 구별하기 위한 정규화 및 모델 훈련의 접근 방식이 더 광범위하게 적용될 수 있음을 암시한다.
미생물 프로필의 생물학적 관련성
미생물 시그니처의 강력한 차별성을 고려할 때, 생태학적으로 예상되거나 임상적으로 시험된 결과를 사용하여 생물학적 관련성에 대한 증거를 조사했다. 암 관련 미생물이 생태학적으로 예상되는지 (즉, '천연' 기관 특이적 공생 공동체의 일부)인지 평가하기 위해, 베이지안 미생물 공급원 추적 알고리즘이 COAD 코호트에서 70개의 고형 조직 정상 샘플과 122개의 피부 흑색종 (SKCM) 원발성 종양에서 신체 부위 기여도를 추정하기 위해 본원에 설명된 미생물 검출 및 정규화 파이프라인으로 처리된 인간 마이크로바이옴 프로젝트 2 (HMP2) 프로젝트의 8개 신체 부위에 걸쳐 217개 샘플의 데이터에 대해 훈련되었다 (방법 참조). 대변은 COAD 프로필에만 알려진 주요 신체 부위 기여자였지만 (평균 ± s.e.m. 분수 기여도, 20.17 ± 2.55%; 도 5a), SKCM 프로필에는 아니고 (일측 만-휘트니 U-테스트, P = 0.0014; 도 12b), 커뮤니티의 일부에 국지적 공급원이 있음을 시사한다.
푸소박테륨 종은 위장관 종양의 발달과 진행에 중요하며 푸소박테륨은 고형 조직 정상 샘플에 비해 원발성 종양 (모든 P ≤ 8.5 Х 10-3) 특히 혈액 유래 정상 샘플에서 과잉이었다 (모든 P ≤ 3.3 Х 10-11; 도 5b). 범-암 분석은 또한 원발성 종양 조직 (P < 2.2 Х 10-16) 및 인접 고형 조직 정상 샘플 모두에서 비-GI 암 (n = 24)에 대해 TCGA의 광범위하게 정의된 모든 위장관 (GI) 암 (n = 8)을 비교할 때 푸소박테륨의 과잉을 나타냈다 (P = 0.031; 도 5c, 도 12a). TCGA의 STAD에 대한 이전 조사와 유사하게, 헬리코박터 파일로리에서는 원발성 종양과 인접한 고형 조직 정상 샘플 사이에 차이가 발견되지 않았다 (P = 0.72, 데이터는 나타내지 않음; 모든 테스트는 양측 만-휘트니 U-테스트임).
두 가지 다른 생물정보학 파이프라인: (i) 새로운 메타게놈 어셈블리 방법 및 (ii) 판독 기반 방법 (PathSeq 알고리즘)을 사용하여 TCGA 바이러스체를 조사한 연구와 비교하여 임상적으로 주석이 달린 TCGA 바이러스 감염 및 미생물 검출 파이프라인이 확인되었다. CESC 및 두경부 편평 세포 암종 (HNSC) 샘플에서 HPV 감염에 대해 임상적으로 '양성' 또는 '음성'으로 시험된 개인의 원발성 종양 사이에 알파파필로마바이러스 속의 차등 존재비가 있었다 (모든 P ≤ 3 Х 10-9, 양측 만-휘트니 U-테스트; 도 5d-e). CESC 환자의 혈액-유래 정상 샘플을 음성 대조군으로 사용했으며 통계적으로 차이가 없었고 (P = 0.99, 양측 만-휘트니 U-테스트), 다른 모든 유형의 암 및 샘플 유형을 비교할 때 알파파필로마바이러스에 대해 선택적으로 과잉이었다 (도 12c). 간세포암종 (LIHC) 이 있고 B형 간염 병력이 있는 환자는 LIHC이 있고 알코올 섭취 및 C형 간염 (헤파시바이러스 속) 병력이 있는 환자에 비해 원발성 종양 및 인접 고형 조직 정상 샘플에서 HBV 속 (오르토헤파드나바이러스)이 선택적으로 과잉이었다 (도 5f; 원발성 종양 P ≤ 2.8 Х 10-7; 고형 조직 정상 P ≤ 0.011); 혈액-유래 정상 샘플을 음성 대조군으로 사용했으며 통계적으로 차이가 없었다 (P ≥ 0.44; 모든 테스트는 양측 만-휘트니 U-테스트임). 또한 이전 보고서와 일치하게, EBV (림프크립토바이러스) 속은 다른 STAD 분자 아형에 할당된 환자와 비교하여 EBV-감염된 원발성 종양에서 선택적으로 과잉이었다 (도 5g; P ≤ 2.2 Х 10-16). 고형 조직 정상 및 혈액-유래 정상 샘플을 음성 대조군으로 사용했으며 통계적으로 차이가 없었다 (혈액, P ≥ 0.52; 조직, P ≥ 0.096; 모든 테스트는 양측 만-휘트니 U-테스트임).
이러한 데이터는 단일 암 유형 대 모든 기타 구별에서 모델이 제공하는 특성 중요도에 대한 정보와 일치한다. 즉, 알려진 미생물 '드라이버' 또는 '공생'이 있는 암은 모델이 생태학적으로 관련이 있다는 초기 증거를 제공했다; 예를 들어, 알파파필로마바이러스 속은 CESC 종양을 식별하는 데 가장 중요한 특성이었고; COAD 종양의 경우, 피칼리박테리움 속; LIHC 종양의 경우, 오르토헤파드나바이러스 속이 두 번째로 중요한 특징이었다 (간독성 미크로시스티스 속 다음). 총체적으로, 이 발견은 바이러스 및 박테리아 데이터에 대한 생물정보학 및 정규화 접근법의 생태학적 검증을 제공하는 동시에 결과를 더 많은 샘플 및 미생물로 확장한다.
오염 측정 및 완화
다양한 구현예에서, 추정되는 암 관련 미생물을 가장 잘 특성화하기 위해 오염의 잠재적 영향을 측정하고 완화하는 것이 중요할 수 있다. 이전 연구에서는 암 유형 전반에 걸쳐 공통적으로 낮은 판독 농도를 기반으로 TCGA (스타필로코쿠스 에피더미디스, 프로피오니박테리움 아크네스, 랄스토니아 종, 마이코박테리아, 슈도모나스,아시네토박터)에서 단 6개의 오염 물질을 식별했지만, 최근 연구에서는 외부 오염 물질이 보다 일관되게 샘플 분석 물질 농도와 반비례 관계인 빈도를 갖고 강력한 통계 프레임워크를 사용하여 검출할 수 있는 것으로 나타났다.
후자의 접근 방식을 기반으로, TCGA 샘플 처리 (n = 17,625) 및 분류군 판독 분할 (n = 1,993) 동안 계산된 DNA 및 RNA 농도를 사용하여 추정 오염 물질을 식별하고, 또한 '음성 블랭크' 시약에서 전형적으로 발견되는 속을 제거하였다 (n = 94 속; 방법 참조). 도 13a는 외과적 절제에서 생물 정보 처리에 이르는 접근법을 개략적으로 나타낸다; 오염 제거, 감독 정규화 및 ML을 통해 추적하기 위해 5가지 유형의 의사 오염 물질이 원시 데이터 세트에 스파이크되었다. 알려진 기술 변형 (도 4c-e)을 고려할 때, 샘플을 시퀀싱 센터 (n = 8)에서 배치로 처리하고 모든 센터에서 오염 물질로 발견된 분류군을 제거했다. 이는 시약 '블랙리스트'의 19.1% (n = 18 속)를 포함하여 283개의 추정 오염 물질을 식별했다. 이 두 목록 (n = 377 속)을 결합한 후 문헌을 수동으로 검토하여 병원균 속 또는 혼합 증거 속 (병원체 및 공통 오염 물질 모두; 예를 들어, 마이코박테리움)을 다시 허용했다. 그 결과 두 개의 데이터 세트, 하나는 오염 가능성이 있는 오염 물질이 제거된 것이고 다른 하나는 추정되는 오염 물질이 모두 제거된 것이 생성되었다. 더 엄격한 필터링 스키마를 사용하여 전체 판독의 약 92%를 폐기한 세 번째 '가장 엄격한 필터링' 데이터 세트가 생성되었다 (방법 참조; 도 13b). 마지막으로 샘플을 각 센터에서 개별 시퀀싱 플레이트로 그룹화하고 앞서 언급한 시약 블랙리스트 (총 497개 속) 외에 하나의 '플레이트-센터' 배치 (n = 351; 방법 참조)에서 확인된 모든 추정 오염 물질을 제거했다. 오염 제거는 연구 중인 샘플 또는 암의 유형에 차등적으로 영향을 미치는 것으로 보이지 않았다 (도 14a-c).
적어도 일부 구현예에서, 인실리코 오염 제거 방법은 멸균 처리, 멸균 인증 시약, 처음부터 끝까지 처리된 시약의 음성 블랭크, 및 '양성' 대조군으로서 다중 샘플 풀링을 포함하여 암 샘플에 대한 표준 미생물학 관행을 구현하는 것을 대체하지 않는다. 여기에 설명된 인실리코 도구는 최신 기술을 반영하지만, 오염 물질 또는 교차 오염 물질의 풍부한 '스파이크'를 감지하도록 설계되지 않았다. 이러한 후자의 오염 물질은 여러 센터에서 수년에 걸쳐 수집된 암 유형 간에 균일한 차별 신호를 유도해서는 안 되지만, 제어되지 않는 경우 특히 소규모 연구에서 생물학적 결론을 제한할 수 있다.
적어도 일부 구현예에서, 엄격한 오염 제거의 위험은 공생 조직 특이적 미생물 군집 및 부수적인 암 예측 미생물 프로필을 반영하는 실제 신호가 폐기될 수 있다는 것이다. 이 문제를 평가하기 위해, COAD 고형 조직 정상 샘플 (n = 70)에 대해 신체 부위 속성 백분율을 다시 계산할 수 있으며, 연속적인 엄격한 오염 제거가 수반되는 조직이 인식할 수 없게 되기 전에 수반되는 조직의 인식을 개선한다는 것을 발견했다 (도 13c-f).
도 4f-h에 표시된 ML 모델을 다시 계산하여 각 오염 제거 접근 방식 전후의 성능을 비교했다 (도 13g-l). 대부분의 모델은 스파이크된 의사 오염물질에 의존하지 않았지만 (도 15a), 림프성 신생물 미만성 거대 B 세포 림프종 (DLBC) 및 중피종 (MESO) 모델 (사용 가능한 샘플이 거의 없음)은 예외인 것으로 나타나고 신뢰할 수 없을 수 있다. 예상대로, 조직 유형에 대한 정보가 유익한 비교 (예를 들어, COAD 대 다른 모든 암 유형)는 일반적으로 엄격한 오염 제거로 덜 잘 수행되었지만, 조직 내 비교 (예를 들어, 종양 대 정상)는 종종 동등하거나 더 잘 수행되었다. 이러한 결과는 특정 비교에서 엄격한 필터링이 바람직할 수 있지만 오염 제거에 대한 보편적인 접근 방식은 생물학적으로 유익한 결과를 배제할 수 있음을 시사한다.
혈액 내 미생물 DNA를 이용한 예측
혈액 기반 미생물 DNA (mbDNA)가 혈액 장벽 또는 림프관 장애를 특징으로 하는 암 (예를 들어, COAD)에서 임상적으로 유익할 수 있다는 증거가 증가하고 있지만, 이것이 현재 당업계에 얼마나 광범위하게 적용되는지는 불분명하다. TCGA 혈액 샘플의 WGS 데이터를 사용하여, ML 전략을 전체 데이터 세트와 4개의 오염 제거된 데이터 세트에 적용했으며 혈액 유래 mbDNA는 분류를 위해 사용된 미생물 분류 알고리즘 및 데이터베이스에 관계없이 또는 게놈 정렬 필터링된 Kraken 데이터만 사용하는 경우 (도 11g, 도 11h, 도 11s, 및 도 11t), 수많은 유형의 암을 구별할 수 있음을 발견했다 (도 6a). 후향적 분석에서는 예측을 위해 스파이크된 의사 오염 물질을 포함하는 모델이 거의 없음을 보여주었고 (도 15b); 한 모델 (CESC, KIRP, LIHC)은 덜 신뢰할 수 있다.
이러한 결과에 힘입어, ML 모델은 기존 ctDNA 분석법에 대해 벤치마킹되었으며, ctDNA 분석법이 실패하는 상황: Ia-IIc기 암 및 검출 가능한 게놈 변경이 없는 종양에 초점을 둔다. III 또는 IV기 암이 있는 환자로부터 모든 혈액 유래 정상 샘플을 제거한 후, 새로운 ML 모델이 구축되었고 혈액 mbDNA를 사용하여 암 유형을 잘 구별할 수 있음을 발견했다 (도 6b). Guardant360 및 FoundationOne 액체 분석의 유전자 목록을 추가로 사용하여 하나 이상의 표적 변형 (약 70%; 도 15c-e)이 있는 TCGA 환자를 걸러냈고 동일한 ML 접근 방식이 대부분의 나머지 암 유형에 대해 우수한 식별력을 나타냄을 발견했다 (도 6c-d).
이러한 분석은 ctDNA 분석이 전혈보다는 혈장을 사용하고 혈액 구획 중 mbDNA의 분포를 알 수 없다는 사실에 의해 제한된다. RNA 데이터를 사용할 수 없기 때문에 mbDNA 가 살아있는 미생물에서 왔는지 죽은 미생물에서 왔는지, 또는 TCGA 표준 운영 절차 (SOP)가 전혈 또는 버피 코트 추출을 허용하기 때문에 mbDNA 가 숙주 백혈구에서 세포가 없는지를 알 수 없다 (방법 참조). 또한, 특정 유형의 암이 예상치 못한 방식 (예를 들어, 백혈병의 장내 세균 번역)으로 mbDNA를 누출할 수 있기 때문에 1차 표본 및 아마도 일치하는 장 상피를 검사하지 않고 혈액 mbDNA의 기원을 아는 것은 불가능하다. 모델 성능에 대한 오염 제거 효과가 암 유형에 따라 다양하기 때문에 이상적인 오염 제거의 연속체가 있을 가능성이 크지만, 필터링은 (i) 1차 표본에 접근할 수 없음, (ii) 속 수준의 분류학적 해상도, 및 (iii) 어떤 비 TCGA 샘플이 동시에 처리되었는지 알 수 없음에 의해 제한되었다.
혈액 내 미생물 시그니처 검증
혈장 기반 ctDNA 분석에 대해 벤치마킹하는 동안 이러한 결과의 실제 유용성을 입증하기 위해, 낮은 바이오매스 연구를 위한 최적 표준 미생물학을 구현하는 동안 건강한 개인과 여러 유형의 암을 구별하기 위해 혈장 유래, 무세포 mbDNA 시그니처의 용도를 검증 연구에 사용했다. 혈장은 TCGA에서 연구되지 않은 전혈의 별개의 하위 집합을 나타내므로 직접적인 비교 가능성이 제한되지만, 보관 안정성 (예를 들어, 동결 가능성), 생물 저장소 가용성, 및 생물학적 해석 (즉, 무생물 물질)에서 주요 이점을 제공한다. 코호트에는 69명의 암 및 HIV가 없는 개인과 3가지 유형의 고등급 (III-IV기) 암 중 하나인 100명의 환자가 포함된다: 전립선암 (n = 59; PC); 폐암 (n = 25; LC), 및 흑색종 (n = 16; SKCM) (도 7a). 효과 크기를 추정하기 위한 사전 문헌 없이, 최소 샘플 크기를 추정하기 위해 The Broad Institute 및 HMS에서 일치하는 암 유형의 TCGA 혈액 샘플에 대한 독립적인 시뮬레이션 (도 16; 방법 참조). 무세포 DNA는 광범위한 대조군으로 이들 혈장 샘플로부터 추출되었고 (도 16b-c), 단일 라이브러리 준비 방법을 사용하여 단일 배치에서 하나의 딥 시퀀싱 실행으로 제한된 사용자 집합에 의해 전체 군유전체 시퀀싱을 위해 처리된다. 다양한 구현예에서, 기술은 인간 판독 제거, Kraken에 의한 나머지 판독의 분류, DNA 농도 및 음성 블랭크 모두를 사용하는 엄격한 오염 제거, 및 Voom-SNM을 수행하는 것을 포함한다. 인구통계학적 비교 및 순열 분석은 연령 및 성별에 대해 필요한 정규화를 제안했으며 (도 16d-e, h-j; 방법 참조), 직접 연령 회귀 성능은 장내 마이크로바이옴과 유사한 평균 절대 오차를 나타냈다 (도 16g). TCGA 분석에 사용된 동일한 ML 프로토콜의 '부트스트래핑'은 건강한 대조군 개인과 그룹화된 암 환자 사이에 강력하고 일반화 가능한 차별을 보여주었다 (도 7b; 방법 참조). 사용 중인 샘플 크기가 작기 때문에, 정규화된 데이터에 대해 리브-원-아웃 (LOO) 반복 ML을 수행했으며 가장 작은 SKCM 코호트를 제외하고 건강한 샘플과 암 유형 간의 쌍별 및 다중 클래스 비교에서 높은 차별적 성능을 발견했다 (도 7c-k). 따라서, 반복적으로 서브샘플링된 PC 및 LC 그룹을 SKCM 코호트 크기와 일치시키고 서브샘플링된 건강한 대조군에 대해 각 유형의 암의 쌍별 LOO 식별을 수행했다 (도 16k; 방법 참조). PC 및 LC 코호트는 SKCM과 동일한 코호트 크기에서 여전히 분리 가능했고 (평균 (95% 신뢰 구간 (CI)) AUROC = 0.891 (0.879-0.903); 평균 (95% CI) AUPR = 0.827 (0.815-0.839); 100 반복), SKCM 성능의 보편적 결함을 드러낸다. SKCM이 시험된 5개 데이터 세트 중 4개에 대해 TCGA 혈액 식별에서 두 번째로 나쁜 수행자였기 때문에 이 결함은 생물학적 근거를 가질 수 있지만 (도 6a), 추가 확인이 필요하다. Kraken에 의한 미생물 할당이 유효한지 확인하기 위해, SHOGUN의 박테리아 할당과 별도의 데이터베이스를 사용하는 모든 생물정보, 정규화 및 ML 단계가 반복되었으며, 이는 매우 일치하는 성능을 보여주었다 (도 17). 미생물 데이터베이스가 개선됨에 따라 cfDNA 시그니처에 대한 분류학적 할당의 개선이 고려된다. 검출된 혈장 미생물 존재비는 cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser에서 조사할 수 있다 (도 12d-e).
종합적으로, 이 데이터는 다양한 유형의 암과 특정 미생물 사이에 광범위한 연관성이 있음을 시사한다. 이러한 미생물 프로필은 낮은 등급의 종양 단계에서 혈액 기반 mbDNA를 사용하는 경우와 상업용 ctDNA 분석에서 감지할 수 있는 게놈 변경이 없는 환자를 포함하여 대부분의 유형의 암 내에서 그리고 암 사이에서 구별하는 것으로 보인다. 이러한 결과는 종종 전체 데이터의 90% 이상을 폐기하는 광범위한 내부 유효성 검사 및 오염 제거 후에도 유효하다. TCGA보다 더 광범위한 내부 및 외부 오염 제어를 채택하면서, 혈장 내 무세포 mbDNA만을 이용한 건강한 대조군 개인과 여러 유형의 암 환자 사이의 높은 차별적 성능은 광범위하게 사용 가능한 샘플을 사용하는 임상적으로 관련된 후향적 테스트가 실현 가능하고 일반화 가능하다는 것을 시사한다. 그럼에도, 결과는 새로운 종류의 미생물 기반 암 진단 도구가 환자에게 상당한 미래 가치를 제공할 수 있음을 시사한다.
69-79% 정확도 (PMID: 23287002)로 전이의 기원 조직을 진단하기 위해 인간 정보에 의존하는 선행 기술 방법과 비교하여, 본 발명은 미생물 정보를 기반으로 적어도 약 94% 정확도를 제공한다. 이 정확도는 미생물 정보와 숙주 정보를 결합함으로써 95%에서 100% 정확도로 더 높일 수 있을 것으로 예상된다. 정확도는 발명자가 이전에 발표한 데이터 세트 (PMID: 32214244)를 사용하여 결정되었으며, 여기에서 전이성 암 유형이 종양 내 또는 혈액 유래 미생물군에 기초하여 분리될 수 있는지가 조사되었다. 이 데이터 세트에는 미생물 DNA 및 RNA에 대해 수확된 몇 가지 알려진 전이성 암 유형 (예를 들어, 유방암, 갑상선암, 흑색종)의 샘플이 있었기 때문에, 기계 학습을 사용하여 미생물 DNA 및 RNA만을 사용하여 암 유형을 구별하는 성능을 특성화했다.
본원에 기술된 기계 학습 방법은 발명자를 위해 개발되었고 이전에 발명자에 의해 공개되었으며 (PMID: 32214244), PCT 출원 WO2020093040A1에 공개되었다 (각각 전체 내용이 참조로 본 명세서에 포함됨). 예로써, 유방암 전이는 종양 내 미생물 핵산만을 사용한 갑상선암 전이와 비교되었고 높은 차별적 성능을 보였다 (ROC 곡선 아래 면적=0.889, PR 곡선 아래 면적 =0.943, 정확도=94.4%). 효과적으로, 본 발명의 한 구현예는 미생물 정보를 사용하여 전이성 암에 대한 기원 조직의 진단을 제공한다. 다른 구현예에서, 본 발명은 원발성 종양을 갖는 숙주를 전이성 종양을 갖는 숙주로부터 구별하여 전이의 존재를 진단하는 분석을 제공한다.
방법
TCGA 데이터 접근
모든 TCGA 서열 데이터는 SevenBridges가 후원하는 암 유전체학 클라우드 (CGC)를 통해 접근하였다. TCGA의 SOP는 NCI 생물표본 연구 데이터베이스를 통해 접근하였다. 분자 하위 유형을 포함하여 일치하는 환자 메타데이터는 TCGA-돌연변이 R 패키지를 통해 SevenBridges 및 시스템 생물학 연구소 (ISB) 모두를 통해 CGC를 통해 접근하거나, 각 TCGA 간행물의 보충 데이터에서 직접 가져왔다. 모든 TCGA 환자에 대한 게놈 변경 상태를 쿼리하고 cBioPortal을 통해 다운로드했다. 상업용 ctDNA 분석을 위한 유전자 패널은 Guardant360 분석 및 FoundationOne 액체 분석에 대한 회사 백서에서 접근할 수 있다. TCGA 메타데이터 등록 및 계층적 형식에서 플랫 테이블로의 변환을 위해, SevenBridges의 메타데이터 온톨로지를 쿼리하고 가능한 경우 데이터를 구성했다; 해당 온톨로지에 저장되지 않은 정보의 경우, ISB CGC R 프로그래밍 언어 API를 사용하여 최신 메타데이터 릴리스에 접근했다.
생물정보학 도구는 CGC 플랫폼 (예를 들어, samtools, BWA)에서 직접 로드되거나 개별 Docker 컨테이너로 업로드 및 실행되어 맞춤형 워크플로우를 생성했다. 이러한 워크플로우는 샘플 BAM 파일을 입력으로 사용하고 각 샘플 내에서 어떤 DNA 또는 RNA 판독이 미생물인지 레이블을 지정한다.
알려진 인간 참조 게놈 (원시 BAM 파일의 매핑 정보를 기반으로 함)에 정렬되지 않은 시퀀스 판독은 Kraken 알고리즘을 사용하여 알려진 모든 박테리아, 고세균 및 바이러스 미생물 게놈에 대해 매핑되었다. 총 71,782개의 미생물 게놈이 RepoPhlan을 사용하여 다운로드되었으며, 그 중 5,503개는 바이러스, 66,279개는 박테리아 또는 고세균이었다. 선행 문헌을 기반으로, 박테리아 및 고세균 게놈을 품질 점수 0.8 이상으로 필터링하여, 후속 분석을 위해 54,471개 또는 총 59,974개의 미생물 게놈을 남겼다.
앞에서 설명한 것처럼, Kraken 알고리즘은 각 시퀀싱 판독을 k-mers (기본 31-mers, 예를 들어)로 나누고 알고리즘을 실행하기 전에 각 k-mer를 위에서 설명한 59,974개의 미생물 게놈에서 구축된 미생물 k-mers 데이터베이스와 정확히 일치시킨다. 주어진 판독에 대한 정확한 k-mer 일치 세트는, 차례로 해당 판독에 대해 가장 낮은 공통 조상의 추정 분류 할당을 제공하며, 여기에 제시된 데이터에 요약된 속 수준에 가장 정확하다. 일치 및 분류 작업은 직접 게놈 정렬을 수행하는 것보다 훨씬 빠르다. 위양성에 대한 안전장치로 파이프라인을 적절하게 벤치마킹하기 위해, 4가지 유형의 암 (STAD, CESC, OV 및 LUAD)을 선택하고 BWA를 사용하여 Kraken이 미생물로 분류한 59,974개의 미생물 게놈에 대해 판독을 정렬했고, 이는 계산상 더 비싸지만 더 높은 특이성과 분류학적 분해능 (즉, 종 및 변형 수준)으로 결과를 산출한다. 직접적으로 정렬된 4가지 유형의 암에는 추정 양성 바이러스 대조군으로서 (HPV의 경우) CESC, 추정 양성 세균 대조군 (H. 파이로이의 경우)으로서 STAD, 및 문헌 및/또는 이용 가능한 질량 분석 단백질 정보 (데이터는 나타내지 않음)의 미생물 시그니처에 기초한 두 가지 기타 (LUAD, OV)가 포함되었다. Kraken (다양한 연구 결과를 바탕으로 함)에 의해 속 수준 이하로 분류된 판독의 98.91%가 또한, 미생물 데이터 (박테리아, 고세균, 바이러스)에 대한 BWA와 일치하거나, 1.09%의 위양성률로 확인되었고, 속 수준의, Kraken-표지된, 범-암 미생물 판독이 향후 분석에 충분히 사용할 수 있음을 시사한다.
SHOGUN TCGA 생물 정보 처리
서로 다른 분류학적 식별 알고리즘을 사용하여 암 유형 식별의 견고성을 평가하기 위해, 이전에 발표된 얕은 샷건 분류학적 할당 접근법 및 TCGA 샘플에서 Web of Life (WoL; PMID: 31792218; n=10,575 박테리아 및 고세균 게놈)이라는 별도의 계통 발생 중심 데이터베이스를 활용했다. SHOGUN은 Kraken에서 사용하는 것과 같은 초고속 k-mer-기반 접근 방식이 아니라 분류 할당을 위해 계산 집약적인 직접 게놈 정렬을 활용한다. TCGA 샘플의 처리 시간을 줄이기 위해, Kraken에서 미생물 기원으로 분류한 판독을 SHOGUN 정렬 기능의 입력으로 사용했고, Bowtie2를 사용하여 WoL 데이터베이스에 대한 판독을 매핑하여 분류 프로필을 생성했다. 총 13,517개의 샘플 (WGS: n=3,434; RNA-seq: n=10,083)이 처리되었으며, SHOGUN에서 재분석한 Kraken 분석의 모든 샘플을 포함하는 21종의 TCGA 암 유형 (n=9,444 샘플)을 포함하여, Kraken 분석에서 연구 중인 모든 TCGA 유형의 암 (n=32), 샘플 유형 (n=7), 시퀀스 센터 (n=8) 및 시퀀싱 플랫폼 (n=6)을 포함한다. 그런 다음 프로필은 QIIME 2를 사용하여 속 수준으로 축소되었다. 약 5개월의 컴퓨팅 벽-시간 동안 1,024개의 Intel Ivy-bridge 컴퓨팅 코어, 뿐만 아니라 384개의 AMD 컴퓨팅 코어, 및 12 TB의 총 RAM으로 구성된 로컬 컴퓨팅 클러스터에서 실행되었다. 사용된 단일 암 유형에 대한 일반적인 작업 제출은 ~30개의 코어와 ~250 GB의 RAM이었다.
TCGA 기술 변이의 정량적 측정 및 정규화
TCGA 시퀀싱 센터 (n=8), 시퀀싱 플랫폼 (n=6), 실험 전략 (WGS 대 RNA-seq) 사이 기술 변이, 및 가능한 오염이 결과를 혼란스럽게 할 수 있는 방법을 인식하고, 파이프라인을 개발하여 생물학적 변수에 기인한 신호를 유지하거나 증가시키면서 배치 효과를 정량화하고 제거했다. 간단히 말해서, 메타데이터 품질이 좋지 않은 샘플은 필터링하고 (즉, 인종 또는 민족, ICD10 코드, DNA/RNA 분석물 양 또는 FFPE 상태 정보 누락); 데이터의 이분산성을 모델링하고 제거하는 Voom 알고리즘을 사용하여 개별 분류학적 카운트 데이터를 대략적으로 정규 분포된, 백만당 로그 수 (로그-cpm) 데이터로 변환하고; 마지막으로, 데이터에 대해 감독 정규화 (SNM)를 수행하여 생물학적 효과를 보존하면서 모든 중요한 배치 효과를 제거했다. Voom은 전통적으로 불연속 카운트 데이터의 차등 발현 (또는 존재비) 분석을 위해 limma와 조합하여 사용되지만, 후속 SNM을 허용하는 '마이크로어레이와 같은' 데이터로의 알고리즘 변환에 사용되었다. Voom 및 SNM 모델 매트릭스는 동일하며 신호가 SNM을 사용하여 보존되어야 하는 그들 간의 예상되는 생물학적 차이로 인해 표적 생물학적 변수 (n=7; 예를 들어, 원발성 종양 조직) 로 샘플 유형을 사용하여 구축되었다; 반대로, 다음은 SNM 동안 완화될 기술 공변량으로 모델링되었다: 시퀀싱 센터 (n=8), 시퀀싱 플랫폼 (n=6), 실험 전략 (n=2), 조직 공급원 부위 (n=191), 및 FFPE 상태 (n=2; 예 또는 아니오). 특정 유형의 암과 시퀀싱 센터 사이의 완전한 교란으로 인해 (즉, 일부 유형의 암은 하나의 TCGA 사이트에서만 시퀀싱됨) 표적 생물학적 변수로 질환 유형을 모델링하는 것은 불가능했다. Voom 변환 중에, edgeR 패키지의 M-값의 가중 절사 평균 (TMM) 정규화가 limma의 사용자 가이드에 표시된 대로 변하지 않는 특징 (filterByExpr() 함수; edgeR)을 삭제하는 동안 대부분의 데이터 ('전체 데이터세트', '가능성이 있는 오염 물질 제거' 데이터, '플레이트-센터 오염 제거' 데이터, 및 '모든 추정 오염 물질 제거' 데이터)에 대해 사용되었다. 다른 경우 ('가장 엄격하게 필터링된' 데이터, 'SHOGUN TCGA 데이터', 'SHOGUN TCGA 테이터와 일치하는 Kraken TCGA 데이터' 및 두 혈장 마이크로바이옴 데이터 세트), 이러한 데이터 세트는 이미 특징 수가 크게 줄었거나 적기 때문에 다운스트림 SNM 보정이 엄격하게 필터링된 TMM 정규화된, 특징-삭제 데이터와 호환되지 않기 때문에 분위수 정규화가 사용되었다. '가장 엄격하게 필터링된' 데이터를 제외하고, 모든 분위수-정규화 데이터 세트는 다른 분위수 정규화 데이터 세트와만 비교되었다. Voom 조정 데이터의 SNM 보정 전과 후에 주성분을 계산하고, 주 분산 성분 분석 (PVCA)은 원시 계수 데이터, Voom-조정 데이터 및 Voom-SNM 정규화된 데이터 간의 이러한 변화를 정량화했다. PVCA의 수학적 근거는 NIEHS에서 잘 설명하고 있으며 하나의 조정 가능한 매개변수는 60-90%의 권장 사항을 기반으로 80%로 설정되었다.
SourceTracker2를 검증 분석으로 사용하여 오염 문제 해결
총 217개의 샘플 중 8개의 신체 부위를 면밀히 조사한 NIH의 HMP2 프로젝트의 샷건 시퀀싱 데이터를 다운로드하여 분류 할당을 위한 동일한 미생물 데이터베이스 (n=59,974 박테리아, 고세균, 및 바이러스 메타게놈)를 포함하는 위에서 설명한 바와 같은 동일한 TCGA Kraken 미생물-검출 파이프라인에 대해 실행하였다. HMP2 데이터는 TCGA 암 마이크로바이옴 데이터에 따라 속 수준에서 요약된 다음, 베이지안 소스 추적 모델 (SourceTracker2)을 훈련하는 데 사용되었다. SourceTracker 용어를 사용하여, 이러한 HMP2 샘플은 '소스' 역할을 하는 반면 Voom-SNM-정규화 싱크' 역할을 하고, SourceTracker 알고리즘은 각 싱크에 기여할 수 있는 각 소스의 비율을 계산하는 데 사용되었다. 간단히 말해서, 베이지안 모델을 사용하여 각 Voom-SNM-정규화된 암 마이크로바이옴 샘플에 기인할 수 있는 HMP2 데이터의 신체 부위 비율을 추정했다. (i) 암 마이크로바이옴 데이터 세트의 속을 HMP2의 주제와 교차하고, (ii) 로그2(cpm)-정규화 값을 스케일링된 상대적 존재비 (100만 개의 총 판독값을 제공하기 위해 106으로 스케일링됨, HMP2 데이터는 917,450개의 판독값이 있음)로 변환한 후, (iii) 데이터를 BIOM 테이블 형식으로 변환하여, 모델을 TCGA COAD 코호트의 고형 조직 정상 샘플 (n=70) 및 원발성 종양 SKCM 샘플 (n=122)에 적용했다. SKCM에 대한 단지 하나의 인접 고형 조직 정상 샘플만 사용할 수 있었기 때문에, 피부 세균총의 최상의 프록시로 고형 조직 정상 샘플 대신 SKCM 원발성 종양 샘플을 선택했다. SourceTracker2 기본 설정은 두 실행 모두에 사용되었다. 출력은 각 싱크에 대한 각 소스의 평균 분수 기여도 측면에서 계산되었고; 이 값의 평균과 표준 오차는 후속적으로 계산되었다. COAD 및 SKCM 샘플에 대한 분변 기여도 사이의 통계적 차이 (도 12b)는 일측 만-휘트니 U-테스트를 사용하여 계산하였다. 상기 프로토콜은 도 13c-f를 생성하기 위해 4개의 오염 제거된 데이터 세트에 대해 반복되었다.
TCGA ML 벤치마킹 및 일반화 가능성
벤치마킹 및 일반화 가능성 평가로서, TCGA는 원시 Kraken-유래 속 수준 미생물 수 데이터의 2개의 계층화된 데이터 절반 (시퀀싱 센터, 샘플 유형, 및 질환 유형에 걸쳐)으로 분할되었고 (분할 #1: n=8,814; 분할 #2, n=8,811), Voom-SNM 프로토콜을 통해 두 가지를 개별적으로 실행하고, 정규화된 각 절반에 별도의 ML 모델을 구축한 다음, 서로의 정규화된 데이터에서 이러한 튜닝된 ML 모델을 테스트했다. 그런 다음 이러한 모델 성능을 전체 Voom-SNM-정규화된 데이터 세트 (n=17,635 샘플)에 구축되고 50-50% 훈련 및 시험 분할을 사용하는 세 번째 ML 모델과 비교했다. 각각의 50% 홀드아웃 테스트 세트 AUROC 및 AUPR을 사용하여 세 가지 접근 방식 모두에서 최종 성능을 비교했다. 추가 내부 검증을 위해, (i) RNA 샘플 또는 (ii) DNA 샘플, 뿐만 아니라 (iii) RNA-seq (UNC) 또는 (iv) DNA-seq (HMS)만 수행한 하나의 시퀀싱 센터의 샘플을 사용하여 하나의 암 유형 대 다른 모든 유형을 예측하기 위해 모델을 구축했다 (도 10)
TCGA 오염 제거 분석
대체로 차세대 시퀀싱 데이터에 영향을 미치는 가능한 오염에는 두 가지 클래스가 있다: 외부 오염 (예를 들어, 시약, 조사자 또는 대상체의 신체, 환경 기여) 및 내부 오염 (즉, 처리 또는 시퀀싱 중 샘플 간 교차 오염). 적어도 하나의 구현예에서, 전반적인 오염 제거 접근법은 (i) 예측 성능 및/또는 모델 비신뢰성에 대한 오염의 기여도를 추정하기 위해 오염을 시뮬레이션하고, (ii) 가능한 한 외부 오염을 완화하고, (iii) 분별 가능한 양성 및 음성 대조군을 사용하여 내부 오염 정도를 측정하려고 시도한다. 외부 오염 물질은 모든 TCGA 샘플 (n = 17,625)에 대한 샘플 분석 물질 농도를 사용하여 식별하고 제거했으며, 최근에 설명된 대로 TCGA에서 사용된 것과 유사한 시퀀싱 키트의 시약에서 식별된 미생물 블랙리스트를 사용했다. 내부 오염 물질은 1차 샘플에 대해 접근 권한이 없거나 다른 샘플 (특히 비-암 샘플) 이 동시에 실행되었는지 알지 못하면 식별하기가 특히 어렵다. 따라서, 명확한 교차 오염물질로 확인되고 제거된 유일한 내부 오염물질은 에볼라바이러스 속에 할당된 4개의 판독이었고 (The Broad Institute의 1개의 TCGA-LGG 샘플의 2개 판독 및 HMS의 1개의 TCGA-HNSC 샘플의 2개 판독), 거의 확실하게 TCGA 연구 수집 기간 (2006-2016) 동안 이러한 동일한 시퀀싱 센터에서 2014 서아프리카 발병에 대한 동시 연구, 및 마르부르크바이러스 속에 할당된 4개의 판독 (The Broad Institute의 2개의 TCGA-OV 샘플)은 또한 기원이 비슷하거나 위양성일 가능성이 있다 (즉, 에볼라바이러스와 마르부르크바이러스는 둘 다 필로바이러스과 계열임). 그렇게 하는 것은 당면한 생물학과 관련될 수 없는 미생물 할당을 제거하는 이전에 발표된 작업과 일치한다. 더욱이 이러한 교차 오염 물질, 특히 극히 적은 양의 교차 오염 물질이 여러 센터에서 수년에 걸쳐 수집된 암 유형 간에 균일한 차별적 신호를 유도할 가능성은 작다. 다른 가능한 교차 오염 물질의 경우, 식별 및 제거보다는 생태학적으로 예상되는 군집의 베이지안 분석 (위에서 설명)을 사용하여 기여도를 추정한다.
먼저, 오염 제거, SNM, 및 ML을 통해 이를 추적하기 위해 5개의 의사 오염 물질을 원시 데이터 세트 (도 13a, 오른쪽 상단)에 스파이크했다. 여기에는 다음이 포함된다: (1) HMS의 모든 샘플에서 1,000개의 판독; (2) HMS, 베일러의과대학, 워싱턴대학교 의과대학, 캐나다 마이클 스미스 게놈 과학 센터의 모든 샘플에서 1,000개의 판독; (3) 모든 시퀀싱 센터의 모든 샘플에서 1,000개의 판독; (4) HMS에서 무작위로 선택된 100개의 샘플에 걸쳐 스파이크된 106개의 판독; 및 (5) 모든 시퀀싱 센터에서 무작위로 선택된 1,000개의 샘플에 걸쳐 스파이크된 106개의 판독. 모든 샘플 및 분류군의 평균 원시 판독 수는 1,481.20이므로, 1,000개의 판독을 포함하는 의사 오염 물질은 '낮은 수준' 배경으로 간주될 수 있는 반면 106개의 판독이 있는 것은 '높은-존재비' 스파이크로 간주된다. 훈련 후 다운스트림 ML 모델에 의사 오염 물질이 있는 경우 세 가지 해석이 가능하다: 특징 중요도 점수를 통해 의사 오염 물질의 예측 기여도를 평가하고 무시할 수 있는지를 결정한다; 의사 오염 물질 아래에 있는 순위가 매겨진 모델 특징을 제거한다; 또는 가장 보수적으로 전체 모델을 신뢰할 수 없는 것으로 표시한다.
TCGA는 샘플 처리 중에 임의의 음성 블랭크 시약 튜브를 포함하지 않았기 때문에, 여기에 설명된 기술은 유사한 시약 및/또는 라이브러리 준비 키트를 사용하는 속 수준에서 미생물 블랙리스트를 페어링하려고 시도했다. TCGA SOP는 주로 조직에서 DNA 및 RNA (DNA/RNA AllPrep 키트) 및 혈액에서 DNA (QiaAmp Blood Midi 키트)를 추출하기 위해 QIAGEN 제품 (Qiagen, Valencia, CA)을 사용했다. Salter 와 동료는 4년간 '음성 블랭크' 시퀀싱 및 3개의 고처리량 시퀀싱 센터를 통해 얻은 TCGA 혈액 추출에 사용된 것과 동일한 실리카 막 기반 DNA 정제를 사용한 QiaAmp 키트를 포함하여, 군유전체 실험에서 DNA 추출 키트에 대한 이러한 목록 (n = 94 속)을 기술했다. 추가 추정 외부 오염은 일반적으로 오염 물질의 시퀀스가 샘플 분석 물질 농도와 반비례하는 빈도를 갖는다는 사실에 근거하여 확인되었다. 강력한 통계 프레임워크는 최근 이 원칙16을 검증하여 추정 오염 물질을 식별하는 수단으로 TCGA에 의해 기록된 샘플 DNA 또는 RNA 농도를 활용할 수 있는 기회를 제공한다. 이 프레임워크의 두 가지 주요 가정은 (i) 오염 물질이 샘플 전체에 균일한 양으로 추가된다; 및 (ii) 오염 DNA 또는 RNA의 양이 실제 샘플 DNA 또는 RNA (미생물 또는 숙주)에 비해 적다. 그런 다음 권장 하이퍼파라미터 임계값 (P* = 0.1) 및 더욱 엄격한 접근 방식 (P* = 0.5)을 사용하여 관련 decontam R 패키지 (s://github.com/benjjneb/decontam)를 사용하여 필터링을 수행했다. P* = 0.5는 오염 모델 또는 비오염 모델이 분포에 더 잘 맞는 경우 분류법이 '오염 물질' 또는 '아님'으로 분류됨을 의미한다. 시퀀싱 센터가 원시 카운트 데이터에 상당한 변화를 가져온 것으로 밝혀졌기 때문에, 데이터는 그에 해당하는 배치로 처리되었으며, 이로써 모든 센터에서 오염 물질로 식별된 분류군은 이후 모든 센터에서 폐기되었다 (즉, batch.combine = decontam의 "최소"). 그런 다음 오염 물질의 추정 목록 (P* = 0.1: n = 283 속; P* = 0.5: n = 1,818 속)을 미생물 블랙리스트 (n = 94 속)와 결합/교차하고 전체 데이터 세트에서 뺀다. 더 작은 결합 오염 물질 목록 (n = 377)에 대한 수동 문헌 검사는 잠재적인 병원균 또는 공생종인 89개의 속을 다시 허용했다. 그 결과 세 가지 새로운 데이터 세트: '가능성이 있는 오염 물질 제거', '모든 추정 오염 물질 제거', 및 '가장 엄격한 필터링'이 생성되었다. 더욱 보수적인 조치로, TCGA 샘플 바코드 (예를 들어, TCGA-02-0001-01C-01D-0182-01을 취했다; NCI의 문서 s://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/)에 표시되고 바코드의 마지막 정수 세트 두 세트로 명명된 (즉, 이 예에서 센터 01의 플레이트 0182, 또는 0182-01) 모든 시퀀싱 플레이트-시퀀싱 센터 조합을 추출했다. decontam은 특정 분류가 오염 물질로 분류되는지를 결정하기 위해 배치의 모든 샘플에 대해 분류 판독 분율과 분석물 농도 사이의 선형 회귀에 해당하는 것을 계산하므로 배치로 자격을 갖추려면 플레이트-센터 조합당 10개 이상의 샘플이 필요했고, 총 351개의 플레이트-센터 배치를 제공한다. P* = 0.1이 사용되었고 (기본값), 이전과 마찬가지로 분류군이 351개의 배치 중 하나에서 오염물질로 식별된 경우 (batch.combine = "최소"), 데이터 세트에서 제거되었다 (n = 421 분류군 제거됨). 미생물 블랙리스트와 교차한 후 총 497 속을 제거하였다. 이는 오염 제거된 네 번째 데이터 세트를 제공했으며 모든 데이터는 위에서 설명한 동일한 SNM 및 ML 파이프라인을 통해 처리되었다.
BWA, SHOGUN, 및 Kraken 데이터 간의 ML 성능 비교
Kraken-기반 할당을 생성하는 데 사용된 동일한 데이터베이스에 대해 BWA 필터링이 발생했다 (n = 59,974 미생물 게놈 (박테리아, 고세균 및 바이러스)). 그런 다음, 필터링된 BWA 미생물 수 데이터는 Voom-SNM을 통해 Kraken 데이터와 동일한 방식으로 일괄 수정되었지만, DNA 및 RNA 데이터는 실험 전략과 감소한 샘플 수의 시퀀싱 센터 사이의 교란으로 인해 별도로 정규화되었다. 그런 다음 원시 Kraken-유래 데이터의 샘플을 BWA에서 처리한 샘플과 비교하고 BWA 데이터와 동일한 방식으로 정규화했다. 그 결과 총 4개의 정규화된 데이터 세트가 생성되었다: DNA BWA 데이터, RNA BWA 데이터, DNA Kraken-하위 집합 데이터, 및 RNA Kraken-하위 집합 데이터. 그런 다음 4개의 정규화된 데이터 세트를 모두 ML에 입력하고 성능을 서로 비교했다 (도 11a-h).
SHOGUN 분류 할당에 사용된 'Web of Life' 데이터베이스에는 바이러스가 포함되어 있지 않았으며, SHOGUN은 Kraken이 평가한 모든 TCGA 샘플의 하위 집합을 처리했다 (13,517 대 17,625개 샘플). 따라서, 다운스트림 ML 성능을 공정하게 비교하기 위해, 식별된 모든 바이러스를 제거하고 SHOGUN에서 처리한 동일한 샘플과 일치하도록 원시 Kraken 수 데이터를 하위 집합으로 나누었다. 그런 다음 두 데이터 세트를 Voom (분위수 정규화 사용) 및 SNM 알고리즘 (위에서 설명한 주요 TCGA 분석에서와 동일한 생물학적 및 기술적 변수 사용)에 의해 동일하게 정규화한 후 암 유형 간 및 암 유형 내 식별을 위해 ML 파이프라인에 공급했다.
보완적 진단 분석
저등급 암에 대한 혈액 mbDNA의 적용 가능성을 평가할 때, 모든 Ia-c기 및 IIa-c기 분류 종양이 있는 모든 환자를 함께 그룹화하고 다른 모든 환자는 폐기했다. Guardant360 및 FoundationOne 액체 ctDNA 분석과의 비교를 위해, 코딩 유전자 패널에서 평가된 적어도 하나의 게놈 변형이 있는 모든 TCGA 환자를 필터링했다; 여기에는 돌연변이가 승객 또는 운전자로 간주하는지 여부가 포함된다. 나머지 환자는 위에서 설명한 대로 ML 분석에 사용되었다.
검증 연구에 필요한 샘플 크기를 추정하기 위한 TCGA 시뮬레이션
식별을 위한 전립선암, 폐암 및 피부암 (흑색종)에서 필요한 샘플 수를 추정하기 위해, TCGA 혈액 샘플에 대한 경험적 시뮬레이션을 한 유형의 플랫폼에서 모두 시퀀싱된 (Illumina HiSeq) 두 개의 서로 다른 시퀀싱 센터 (Broad, HMS)에서 수행했다. 우선, Kraken-유래 미생물 수 데이터를 사용한 후 SHOGUN-유래 미생물 수 데이터로 시뮬레이션을 반복했다. 이것은 검증 연구의 예상되는 실제 실험 조건을 가장 가깝게 모방했다.
먼저, Illumina HiSeq 기계에서 시퀀싱된 Broad 및 HMS의 모든 TCGA PRAD, LUAD, LUSC, 및 SKCM 혈액 샘플을 미생물 수의 원시 Kraken 데이터로부터 부분집합하였다 (Broad: n = 99; HMS: n = 288). 사용된 폐암 샘플은 혼합 기원이므로, LUAD 및 LUSC 혈액 샘플은 단일 비-소-세포 폐암 (NSCLC) 우산 질환 유형으로 결합하였다; 그러나 이것은 HMS의 모든 혈액 유래 폐암 샘플이 기원에서 LUAD였기 때문에 Broad 샘플에만 적용되었다. 이것은 다음과 같은 샘플 분석을 남겼다: HMS: 66 LUAD, 104 PRAD, 118 SKCM; Broad: 42 NSCLC (24 LUAD, 18 LUSC), 17 PRAD, 40 SKCM. 그런 다음, HMS 및 Broad에 대한 각 원시 계수 데이터 세트는 Voom (분위수 정규화 사용) 및 SNM 알고리즘을 통해 독립적으로 정규화되었으며, 질환 유형을 관심 생물학적 변수로 사용하고 조직 공급원 사이트를 기술 변수로 사용하여, 단일 시퀀싱 센터, 데이터 유형 및 플랫폼을 선택함으로써 다른 모든 기술적 요인을 배제했다.
시뮬레이션은 정규화된 데이터 세트에서 다음과 같이 수행되었다: (1) 무작위 계층화 샘플링은 세 클래스에서 동일한 수의 샘플을 선택한다; (2) 3개 클래스 하위 샘플 중 하나의 샘플이 제외된다; (3) 하위 샘플의 나머지 모든 샘플에 ML 모델을 구축하고 남은 샘플에 적용하여 특정 확률로 예측을 수행했다; (4) 모든 샘플이 반복될 때까지 단계 2-3을 반복했다; (5) 확률과 함께 관찰된 클래스 목록 및 예측 클래스 목록을 사용하여 다중 클래스 성능 메트릭을 추정했다; (6) 동일한 샘플 크기의 또 다른 계층화 무작위 샘플을 선택하고 단계 2-5를 9번 더 반복하여 (총 10번) 다중 클래스 성능 메트릭의 표준 오류를 추정한다; (7) 5개 샘플의 단계 크기로 5-40의 개별 클래스 샘플 크기에 대해 단계 1-6을 반복했다. 계층화된 표본 크기가 클래스의 샘플 수보다 큰 경우 해당 클래스의 모든 샘플이 사용되었다. 집합적으로, 이는 다중 암 식별을 잘 수행하는 데 필요한 샘플 수의 추정치를 제공했다 (도 16a). 경험적 성능 추정치 (평균 AUROC, 평균 AUPR)는 암 클래스당 최소 15개의 샘플을 갖는 것으로 충분해야 함을 시사한다. TCGA에 포함되지 않았기 때문에 건강한 대조군에 대한 이상적인 표본 크기를 추정하는 것은 불가능했다.
임상 코호트 선택 및 IRB 프로토콜 번호
이 연구의 일부로 169명의 환자의 바이오뱅크 냉동 혈장 샘플을 분석했으며, 모두 UC San Diego에서 왔다. 모든 연구는 UC San Diego의 기관 검토 위원회 (IRB)의 승인을 받았으며, 각각의 IRB 승인 프로토콜에 따라 환자는 샘플 기증 및 연구에 대한 서면 동의서를 제공했다. 모든 전립선암 혈장 샘플 (n = 59)은 IRB 프로토콜 131550을 따랐다. 모든 폐암 및 흑색종 혈장 샘플은 IRB 프로토콜 150348을 따랐다. 모든 암- 및 HIV가 없는 건강한 대조군 (n = 69)은 다음 IRB 프로토콜 번호: 130296, 091054, 172092, 151057, 및 182064를 따랐다.
혈장 유래, 무세포 미생물 DNA 샘플 처리, 및 시퀀싱
제조업체의 지침에 따라 QIAamp 순환 핵산 키트 (QIAGEN)를 사용하여 각 샘플의 250 μl 혈장 부피에서 총 순환 DNA를 추출하고, AMPure XP SPRI 상자성 비드 (Beckman Coulter)로 정제했다. 설명된 대로 표준 Illumina 색인 어댑터 (IDT)가 있는 KAPA HyperPlus 키트 (Kapa Biosystems)를 사용하여 정제된 cfDNA로부터 시퀀싱 라이브러리를 준비했다. 샘플 라이브러리는 Agilent 4200 TapeStation 시스템 (고감도 DNA 키트)을 사용하여 특성화하고 Illumina 용 NEBNext 라이브러리 Quant 키트 (New England Biolabs)를 사용하여 qPCR로 정량화했다. 쌍-말단 2 Х 150-bp 시퀀싱 (S4 유동 세포)을 NovaSeq 6000 기기 (Illumina)에서 수행했으며, 시퀀싱 중에 샘플을 4개 레인 모두에 걸쳐 풀링했다.
혈장 마이크로바이옴 시료를 위한 생물정보 처리
총 21,600,141,264개의 판독이 모든 샘플에 대한 단일 NovaSeq 6000 시퀀싱 실행에서 생성되었다. 이 중, 19,046,611,360개의 판독이 인간 샘플에 할당되었고 (즉, 음성 및 양성 대조군 제거됨), 총 판독의 2.186%는 비-인간으로 분류되었다. 원시 시퀀싱 데이터는 Atropos를 사용하여 역다중화 및 어댑터 트리밍되었다. Trimmomatic을 사용하여 다음 설정으로 추가 품질 필터링을 수행하였다―(ILLUMINACLIP:TruSeq3-PE-2.fa:2:30:7, MINLEN:50, TRAILING:20, AVGQUAL:20, SLIDINGWINDOW:20:20). 판독의 5' 말단에서 뒤따르는 G 스트레치를 제거하기 위해 표준 TruSeq3 어댑터에 G 문자열로만 구성된 추가 어댑터 시퀀스가 추가되었다. 빠른 로컬 매개변수 세트와 함께 Bowtie2를 사용하여 메이트 중 하나가 인간 게놈 (1000 Genomes Project의 주요 대립 유전자 SNP 참조)에 매핑된 경우 판독 쌍이 폐기되었다. 그런 다음 쌍-말단 판독은 다음 매개 변수와 함께 FLASH를 사용하여 병합되었다 - (최소 겹침: 20, 최대 겹침: 150, 불일치 비율: 0.01).
그런 다음 필터링되고 병합된 판독은 위에 자세히 설명된 것과 동일한 워크플로우 및 데이터베이스 (n = 59,974 미생물 게놈)를 사용하여 Kraken에서 처리하거나 여기에 자세히 설명된 SHOGUN을 사용하여 처리되었다. 샘플은 개별 혈장 마이크로바이옴 샘플에서 처리되었다 (즉, 샘플이 실행 중에 4개의 모든 시퀀싱 플로우 셀에 걸쳐 모였기 때문에 레인당 샘플당). Kraken 또는 SHOGUN에 의한 레인당 샘플별 분류법 할당 후, 계층적 클러스터링 절차가 유동 세포 레인이 아닌 샘플 ID 별로 일관된 그룹화를 보여준 후 레인 전체의 미생물 수를 각 샘플에 대해 집계했다. SHOGUN-유래 데이터의 경우, 성공적으로 병합된 판독과 병합되지 않은 판독이 모두 SHOGUN 정렬 함수의 입력으로 사용되었으며, Bowtie2를 사용하여 WoL 데이터베이스에 대한 판독을 매핑하여 분류 프로필을 생성한 다음 QIIME 2를 사용하여 속 수준으로 축소되었다. 그런 다음 각 샘플의 분류 프로필은 필터링하여 상대 존재비가 0.01% 미만인 모든 분류군을 제거했다.
혈장 마이크로바이옴 기술 검증 및 데이터 오염 제거
시퀀싱 실행 및 생물정보학적 미생물 검출 파이프라인의 성능을 평가하기 위해, 스파이크 웰 및 시퀀싱 플레이트에 포함된 알리비브리오 피셰리 (속: 알리비브리오)의 실험적 연속 희석액을 다른 샘플 유형에 대해 차등 존재비에 대해 검사하고 희석에 따른 존재비의 로그 배수 변화에 대해 분리하여 검사했다. 이러한 기술적 양성 대조군은 Kraken 및 SHOGUN-유래 부류 할당 모두에 대해 도 16b-c에 플로팅되어 있다.
3가지 종류의 음성 블랭크 대조군이 시퀀싱 플레이트에 포함되었다: (1) 시퀀싱을 통해 DNA 추출 단계에서 시약이 있는 DNA 추출 블랭크; (2) 시퀀싱을 통해 라이브러리 준비 단계에서 시약을 포함하는 DNA 라이브러리 제조 블랭크; 및 (3) 라이브러리 준비 중에 물과 시약이 추가되고 스플래쉬 및/또는 에어로졸화된 미생물 핵산을 포함하는 빈 대조군 웰. TCGA 분석에서와 같이, 모든 샘플에 대해 음성 블랭크 대조군 및 DNA 농도 (후자의 경우 빈 대조군 웰 제외) 모두에 접근할 수 있다는 점을 제외하고는, decontam을 사용하여 혈장 미생물 데이터를 오염 제거하였다. 보수적인 측정으로, P* = 0.5 하이퍼파라미터 값이 '유병률' (즉, 블랭크-기반) 및 '빈도' (즉, 농도-기반) 오염 제거 모드 모두에 대해 decontam을 위해 선택되었다; 이 하이퍼파라미터 값은 총 데이터의 >90%를 폐기하는 TCGA에서 가장 엄격한 오염 제거와 동일하다. 유병률 모드의 경우, P* = 0.5는 오염 물질로서 생물학적 것보다 음성 대조군에서 더 널리 퍼진 모든 분류군을 플래그를 지정할 것이고; 빈도 모드의 경우, P* = 0.5는 모델 (즉, 회귀 모델)이 판독 분획 및 DNA 농도를 사용하여 비-오염 분포보다 오염 분포에 더 잘 맞는 모든 분류군에 플래그를 지정할 것이다. Kraken 계수 데이터의 경우, 유병률 모드는 21개 분류군을 제거했고 빈도 모드는 1,261개 분류군 (원래 할당 1,753개 중)을 제거했다; SHOGUN 계수 데이터의 경우, 유병률 모드는 57개 분류군을 제거했고 빈도 모드는 244개의 분류군을 제거했다 (원래 할당 1,181개 중). Kraken 및 SHOGUN 모두에 대한 오염 제거 데이터가 다운스트림 정규화 및 ML 파이프라인에 공급되었다.
혈장 마이크로바이옴 데이터 정규화, 순열 시험, 및 ML
원시 미생물 수 데이터를 사용하여 연령을 예측하려는 시도는 GBM ML 모델 (TCGA에 대해 위에서 설명한 것과 동일한 아키텍처) 및 리브-원-아웃 (LOO) 반복 ML을 사용하여 수행되었다 (도 16g).
이 코호트에서 연령 및 성별에 대한 정규화의 중요성을 확인하기 위해 순열 분석을 각 요인에 대해 100회 반복한 다음 두 요인에 대해 동시에 수행했다 (도 16h-j). 간단히 말해서 다음 네 단계가 수행되었다: (1) 모든 샘플에서 연령 및/또는 성별 레이블을 무작위로 바꾼다; (2) 질환 유형을 관심 생물학적 변수로 사용하고 순열 연령 및/또는 성별을 기술적 요인으로 사용하여 원시 데이터에서 Voom-SNM을 실행한다; (3) ML 분석을 수행하여 2-클래스 성능 추정치 (AUROC, AUPR)를 얻기 위해 고정 난수 시드 및 내부 4중 교차 검증을 사용하는 70%-30% 훈련-시험 분할을 사용하여 건강한 대조군에서 그룹화된 암 샘플을 구별한다; (4) 단계 1-3을 총 100번 반복하여 무효 성능 분포를 만든다. 다음으로, 정확하고 고정된 연령 및/또는 성별 할당을 사용하여, 단계 3에서 난수 시드를 무작위로 선택하면서 단계 2-3을 총 100회 실행했다. 마지막으로, 이 성능 분포는 양측 만-휘트니 U-테스트를 사용하여 유의성에 대한 무효 분포와 직접 비교하였다. 이 모든 테스트가 매우 유의했기 때문에 (모든 P ≤ 1.5 Х 10-13), 연령과 성별이 Voom-SNM의 기술적 요인으로 통합되었으며 질환 유형을 관심 있는 생물학적 변수로 유지했다. 모든 폐암 샘플은 TCGA 암 시뮬레이션 (상기 기술됨)에서와 같이 병리학적 하위 유형에 관계없이 정규화 중에 통합된 질환 유형 레이블로 레이블이 지정되었음을 유의한다. 모든 음성 블랭크 및 양성 단일배양 대조군을 Voom-SNM 전에 제거하였다.
Voom-SNM 정규화된 혈장 마이크로바이옴 샘플에 대한 ML은 샘플 크기가 수십 배 더 작았기 때문에 샘플링 스키마를 제외하고 TCGA 샘플에 대해 이전에 설명한 것과 정확히 동일하게 수행되었다. 첫째, 건강한 암 대 그룹 암 식별의 일반화를 추정하기 위해, 500회 반복 훈련 동안 4중 교차 검증으로 70%-30% 훈련-시험 분할로 '부트스트래핑'한다. 모든 훈련-시험 분할 (즉, 모든 반복) 이 고유하다는 점에서 대체 샘플링이 허용되었다; 그러나 어떤 경우에도 샘플이 훈련 사례와 시험 사례가 될 수 없었다. 모든 500회 반복의 결과 성능 메트릭에 대한 요약 통계는 AUROC 및 AUPR 분포와 신뢰 구간 (Cis)을 추정했다 (도 7b, 도 17a). LOO ML을 사용하여 건강한 대조군과 개별 유형의 암 사이의 쌍별 및 다중 클래스 구별을 수행했다. 즉, 하나의 샘플을 반복적으로 제외하고, 나머지 샘플에 대해 하이퍼파라미터 튜닝을 위한 4중 교차 검증으로 모델을 반복 학습하고, 제외된 샘플에 대해 모델에서 주어진 확률로 반복적으로 예측을 수행했다. 모든 샘플에 대한 실제 클래스의 최종 목록은 PRROC R 패키지를 사용하여 이전에 설명한 대로 AUROC 및 AUPR 메트릭을 추정하기 위한 예측 클래스 및 해당 확률 목록과 비교되었다. 다중 클래스 성능은 캐럿 R 패키지의 multiClassSummary() 함수에 의해 보고된 모든 일대일 비교의 평균을 취하여 추정되었다.
흑색종 코호트 성능에 대한 더 작은 샘플 크기의 기여도를 평가하기 위한 반복 서브샘플링 (도 16k)을 다음과 같이 수행하였다: (1) 각각 16개 샘플의 단일 암 유형 및 건강한 대조군의 무작위 계층화 샘플링을 수행 (총 32개); (2) LOO 반복 ML을 수행하고 건강한 대조군 대 암 식별에 대한 32개 샘플에 대한 성능을 평가; (3) 단계 1-2를 100회 반복하여 성능 표준 오류를 추정; (4) 세 가지 유형의 암 각각에 대해 단계 1-3 반복. 샘플 크기 감소가 식별에 미치는 영향을 연구하기 위해 PC 및 LC 코호트의 반복적 서브샘플링에 대해서도 동일한 프로세스가 수행되었다. 코호트 크기를 다른 샘플 크기와 비교하는 것이 목표였기 때문에 각 계층화된 서브샘플링 동안 전체 흑색종 코호트가 사용되었음에 유의한다.
통계 분석
모든 통계 분석은 R 버전 3.4.3을 사용하여 수행되었다. ggpubr 패키지 (s://github.com/kassambara/ggpubr)는 그룹 간에 비모수 통계 테스트를 수행하고 필요한 경우 다중 가설 테스트 수정을 설명했다. 2.2 Х 10-16 미만의 P 값은 R로 정확하게 계산할 수 없으므로, 이보다 작은 P 값은 <2.2 Х 10-16으로 나열됨에 유의한다; 이는 P 값의 범위가 아니다. 샘플을 반복적으로 측정하는 것이 아니라 별개의 샘플에서 측정을 수행했다. 검증 연구를 위한 샘플 크기 추정치는 TCGA 혈액 샘플을 사용한 경험적 시뮬레이션에서 나왔으며 ML 및 다중 클래스 성능 추정을 수행하기 위해 GBM 패키지, Caret 패키지, 및 MLmetrics 패키지 (s://github.com/yanyachen/MLmetrics)에 의존했다. 다른 모든 다중 클래스 성능 추정치는 Caret 및 MLmetrics 패키지를 사용하여 계산되었다.
기계 학습 모델을 사용한 학습 및 추론
적어도 하나의 구현예에 따라 신경망과 같은 기계 학습 모델을 사용하여 훈련 및 추론 (예를 들어, 예측)하기 위해 다양한 기술이 사용될 수 있다. 적어도 하나의 구현예에서, 훈련되지 않은 신경망은 훈련 데이터세트를 사용하여 훈련된다. 훈련되지 않은 신경망의 초기 가중치 매개변수는 초기 미리 결정된 값, 난수 등으로 설정될 수 있다. 적어도 하나의 구현예에서, 훈련 프레임워크는 훈련 데이터 세트를 사용하여 신경망을 훈련하고 신경망의 하나 이상의 가중치를 업데이트하는 데 사용된다. 훈련 프레임워크는 PyTorch framework, TensorFlow, Boost, Caffe, Microsoft Cognitive Toolkit/CNTK, MXNet, Chainer, Keras, Deeplearning4j, 또는 기타 훈련 프레임워크와 같은 적합한 훈련 프레임워크일 수 있다. 적어도 하나의 구현예에서, 훈련 프레임워크는 훈련되지 않은 신경망을 훈련하고 훈련된 신경망을 생성하기 위해 여기에 설명된 프로세싱 리소스를 사용하여 훈련될 수 있게 한다. 적어도 하나의 구현예에서, 가중치는 무작위로 또는 깊은 신뢰 네트워크를 사용하여 사전 훈련에 의해 선택될 수 있다. 적어도 하나의 구현예에서, 훈련은 감독, 부분 감독 또는 비감독 방식으로 수행될 수 있다.
적어도 하나의 구현예에서, 훈련되지 않은 신경망은 감독 학습을 사용하여 훈련되며, 여기서 훈련 데이터세트는 입력 (예를 들어, 기원 조직 예측)에 대한 원하는 출력과 쌍을 이루는 입력 (예를 들어, 미생물 프로필)을 포함하거나, 훈련 데이터세트가 입력을 포함하는 경우 알려진 출력과 신경망 출력을 갖는 것은 수동으로 등급이 매겨진다. 적어도 하나의 구현예에서, 훈련되지 않은 신경망은 감독 방식으로 훈련되고 훈련 데이터세트로부터의 입력을 처리하고 결과 출력을 예상되거나 원하는 출력 세트와 비교한다. 적어도 하나의 구현예에서, 오류는 훈련되지 않은 신경망을 통해 다시 전파된다. 적어도 하나의 구현예에서, 훈련 프레임워크는 훈련 프로세스 동안 훈련되지 않은 신경망을 제어하는 가중치를 조정한다. 적어도 하나의 구현예에서, 훈련 프레임워크는 훈련되지 않은 신경망이 새로운 데이터세트와 같은 입력 데이터에 기초하여 결과와 같은 정답을 생성하기에 적합한 훈련된 신경망과 같은 모델을 향해 얼마나 잘 수렴하는지 모니터링하는 도구를 포함한다. 적어도 하나의 구현예에서, 훈련 프레임워크는 훈련되지 않은 신경망을 반복적으로 훈련시키면서 가중치를 조정하여 확률적 경사 하강법과 같은 손실 함수 및 조정 알고리즘을 사용하여 훈련되지 않은 신경망의 출력을 개선한다. 적어도 하나의 구현예에서, 훈련 프레임워크는 훈련되지 않은 신경망이 원하는 정확도를 달성할 때까지 훈련되지 않은 신경망을 훈련시킨다. 적어도 하나의 구현예에서, 훈련된 신경망은 임의의 수의 기계 학습 동작을 구현하기 위해 배치될 수 있다.
적어도 하나의 구현예에서, 훈련되지 않은 신경망은 감독되지 않은 학습을 사용하여 훈련되며, 훈련되지 않은 신경망은 레이블이 지정되지 않은 데이터를 사용하여 자체 훈련을 시도한다. 적어도 하나의 구현예에서, 감독되지 않은 학습 훈련 데이터 세트는 연관된 출력 데이터 또는 "실측 정보" 데이터가 없는 입력 데이터를 포함할 것이다. 적어도 하나의 구현예에서, 훈련되지 않은 신경망은 훈련 데이터세트 내의 그룹화를 학습할 수 있고 개별 입력이 훈련되지 않은 데이터세트와 어떻게 관련되는지 결정할 수 있다. 적어도 하나의 구현예에서 감독되지 않은 훈련은 새로운 데이터세트의 차원을 줄이는 데 유용한 작업을 수행할 수 있는 훈련된 신경망에서 자가 구성 맵을 생성하는 데 사용될 수 있다. 적어도 하나의 구현예에서, 감독되지 않은 훈련은 또한 이상 탐지를 수행하는 데 사용될 수 있으며, 이는 새로운 데이터 세트의 정상 패턴에서 벗어나는 새로운 데이터 세트의 데이터 포인트를 식별할 수 있게 한다.
적어도 하나의 구현예에서, 훈련 데이터세트에서 표지된 데이터와 표지되지 않은 데이터의 혼합을 포함하는 기술인 준감독 학습이 사용될 수 있다. 적어도 하나의 구현예에서, 훈련 프레임워크는 전이된 학습 기술과 같은 증분 학습을 수행하는 데 사용될 수 있다. 적어도 하나의 구현예에서, 증분 학습은 훈련된 신경망이 초기 훈련 중에 훈련된 신경망 내에 주입된 지식을 잊지 않고 새로운 데이터 세트에 적응할 수 있게 한다.
도 18은 본 개시내용의 하나 이상의 예시적인 실시예에 따라 임의의 하나 이상의 기술 (예를 들어, 방법)이 수행될 수 있는 컴퓨팅 장치 또는 컴퓨터 시스템(1800)의 예를 도시하는 블록도이다.
예를 들어, 도 18의 컴퓨팅 시스템(1800)은 하나 이상의 프로세서(1802-1806)를 포함할 수 있다. 프로세서(1802-1806)는 프로세서 버스(1812)와의 직접적인 상호 작용을 위해 캐시(미도시) 및 버스 컨트롤러(예를 들어, 버스 컨트롤러(1822)) 또는 버스 인터페이스(예를 들어, I/O 인터페이스(1820)) 유닛의 하나 이상의 내부 레벨을 포함할 수 있다.
호스트 버스 또는 전면 버스로도 알려진 프로세서 버스(1812)는 프로세서(1802-1806)를 시스템 인터페이스(1824)와 연결하는 데 사용될 수 있다. 시스템 인터페이스(1824)는 프로세서 버스(1812)에 연결되어 시스템의 다른 구성 요소를 인터페이스할 수 있다. 예를 들어, 시스템 인터페이스(1824)는 메인 메모리(1816)를 프로세서 버스(1812)와 인터페이싱하기 위한 메모리 컨트롤러(1818)를 포함할 수 있다. 메인 메모리(1816)는 일반적으로 하나 이상의 메모리 카드 및 제어 회로(미도시)를 포함한다. 시스템 인터페이스(1824)는 또한 하나 이상의 I/O 브리지(1825) 또는 I/O 장치(1830)를 프로세서 버스(1812)와 인터페이스하기 위한 입력/출력(I/O) 인터페이스(1820)를 포함할 수 있다. 하나 이상의 I/O 컨트롤러 및/또는 I/O 장치는 예시된 바와 같이 I/O 제어기(1828) 및 I/O 장치(1830)와 같은 I/O 버스(1826)와 연결될 수 있다.
I/O 장치(1830)는 또한 정보 및/또는 명령 선택을 프로세서(1802-1806)로 통신하기 위한 영숫자 및 기타 키를 포함하는 영숫자 입력 장치와 같은 입력 장치(미도시)를 포함할 수 있다. 다른 유형의 사용자 입력 장치는 방향 정보 및 명령 선택을 프로세서(1802-1806)에 통신하고 디스플레이 장치상의 커서 이동을 제어하기 위한 마우스, 트랙볼 또는 커서 방향 키와 같은 커서 제어를 포함한다.
시스템(1800)은 메인 메모리(1816)라고 하는 동적 저장 장치, 또는 임의 접근 메모리 (RAM) 또는 프로세서(1802-1806)에 의해 실행될 정보 및 명령을 저장하기 위해 프로세서 버스(1812)에 연결된 다른 컴퓨터 판독 가능 장치를 포함할 수 있다. 메인 메모리(1816)는 또한 프로세서(1802-1806)에 의한 명령어 실행 동안 임시 변수 또는 다른 중간 정보를 저장하기 위해 사용될 수 있다. 시스템(1800)은 읽기 전용 메모리 (ROM) 및/또는 프로세서(1802-1806)에 대한 정적 정보 및 명령어를 저장하기 위해 프로세서 버스(1812)에 연결된 다른 정적 저장 장치를 포함할 수 있다. 도 18 개략적으로 설명된 시스템은 본 발명의 양태에 따라 채용되거나 구성될 수 있는 컴퓨터 시스템의 하나의 가능한 예이다.
한 구현예에 따르면, 위의 기술은 메인 메모리(1816)에 포함된 하나 이상의 명령어의 하나 이상의 시퀀스를 실행하는 프로세서(1804)에 응답하여 컴퓨터 시스템(1800)에 의해 수행될 수 있다. 이러한 명령어는 저장 장치와 같은 다른 기계 판독 가능 매체로부터 메인 메모리(1816)로 판독될 수 있다. 메인 메모리(1816)에 포함된 명령어 시퀀스의 실행은 프로세서(1802-1806)가 본 명세서에 기술된 프로세스 단계를 수행하게 할 수 있다. 대안적인 구현예에서, 회로는 소프트웨어 명령 대신에 또는 소프트웨어 명령과 조합하여 사용될 수 있다. 따라서, 본 발명의 구현예는 하드웨어 및 소프트웨어 구성요소를 모두 포함할 수 있다.
한 구현예에 따르면, 프로세서(1802-1806)는 텐서 처리 장치(TPU) 및/또는 신경망 및 기타 기계 학습 기술을 허용할 수 있는 다른 인공 지능 가속기 주문형 집적 회로(ASIC)를 포함할 수 있다. 적어도 하나의 구현예에서, 기계 학습 모듈(1832)은 훈련 및/또는 추론 단계를 포함할 수 있는 본 명세서에 기술된 기계 학습 기술을 수행하는 소프트웨어 및/또는 하드웨어를 지칭한다. 예를 들어, 기계 학습 모듈(1832)은 전이성 암의 상이한 유형 및/또는 단계를 구별하도록 훈련될 수 있다.
다양한 구현예는 소프트웨어 및/또는 펌웨어에서 완전히 또는 부분적으로 구현될 수 있다. 이 소프트웨어 및/또는 펌웨어는 비일시적 컴퓨터 판독 가능 저장 매체에 포함된 명령의 형태를 취할 수 있다. 그런 다음 이러한 명령은 여기에 설명된 동작의 수행을 가능하게 하기 위해 하나 이상의 프로세서에 의해 판독 및 실행될 수 있다. 명령어는 소스 코드, 컴파일된 코드, 해석된 코드, 실행 가능한 코드, 정적 코드, 동적 코드 등과 같은 (그러나 이에 제한되지 않음) 임의의 적합한 형태일 수 있다. 이러한 컴퓨터 판독 가능 매체는 읽기 전용 메모리 (ROM); 임의 접근 메모리 (RAM); 자기 디스크 저장 매체; 광학 저장 매체; 플래시 메모리 등에 제한되지 않는 하나 이상의 컴퓨터에 의해 판독 가능한 형태로 정보를 저장하기 위한 임의의 유형의 비일시적 매체를 포함할 수 있다.
기계 판독 가능 매체는 기계 (예를 들어, 컴퓨터)가 읽을 수 있는 형식 (예를 들어, 소프트웨어, 처리 응용 프로그램)으로 정보를 저장하거나 전송하기 위한 모든 메커니즘을 포함한다. 이러한 매체는 비휘발성 매체 및 휘발성 매체의 형태를 취할 수 있지만 이에 제한되지 않으며 동식 데이터 저장 매체, 비분리식 데이터 저장 매체, 및/또는 하나 이상의 데이터베이스 관리 제품, 웹 서버 제품, 응용 프로그램 서버 제품 및/또는 기타 추가 소프트웨어 구성 요소를 포함하는 그러한 컴퓨터 프로그램 제품의 유선 또는 무선 네트워크를 통해 사용할 수 있는 외부 저장 장치를 포함할 수 있다. 이동식 데이터 저장 매체의 예에는 컴팩트 디스크 읽기 전용 메모리 (CD-ROM), 디지털 다목적 디스크 읽기 전용 메모리 (DVD-ROM), 광자기 디스크, 플래시 드라이브 등이 포함된다. 고정식 데이터 저장 매체의 예에는 내부 자기 하드 디스크, 솔리드 스테이트 장치 (SSD) 등이 포함된다. 하나 이상의 메모리 장치 (미도시)는 휘발성 메모리 (예를 들어, 동적 임의 접근 메모리 (DRAM), 정적 임의 접근 메모리 (SRAM) 등) 및/또는 비휘발성 메모리 (예를 들어, 판독 전용 메모리 (ROM), 플래시 메모리 등)를 포함할 수 있다.
현재 설명된 기술에 따라 시스템 및 방법을 실행하기 위한 메커니즘을 포함하는 컴퓨터 프로그램 제품은 기계 판독 가능 매체라고 할 수 있는 메인 메모리(1816)에 상주할 수 있다. 기계 판독 가능 매체는 즉 기계에 의한 실행을 위해 본 발명의 임의의 하나 이상의 동작을 수행하기 위한 명령어를 저장하거나 인코딩할 수 있거나 데이터 구조를 저장하거나 인코딩할 수 있는 임의의 유형의 비일시적 매체 및/또는 이러한 명령어에 의해 사용되거나 이와 관련된 모듈을 포함할 수 있는 것으로 이해될 것이다. 기계 판독 가능 매체는 하나 이상의 실행 가능 명령 또는 데이터 구조를 저장하는 단일 매체 또는 다중 매체 (예를 들어 중앙 집중식 또는 분산 데이터베이스, 및/또는 관련 캐시 및 서버)를 포함할 수 있다.
다음 참고문헌은 본원에 참조로 포함된다:
Bullman, S. et al. Analysis of Fusobacterium persistence and antibiotic response in colorectal cancer. Science 358, 1443-1448 (2017).
Dejea, C. M. et al. Patients with familial adenomatous polyposis harbor colonic biofilms containing tumorigenic bacteria. Science 359, 592-597 (2018).
Geller, L. T. et al. Potential role of intratumor bacteria in mediating tumor resistance to the chemotherapeutic drug gemcitabine. Science 357, 1156-1160 (2017).
Gopalakrishnan, V. et al. Gut microbiome modulates response to anti-PD-1 immunotherapy in melanoma patients. Science 359, 97-103 (2018).
Jin, C. et al. Commensal microbiota promote lung cancer development via γδ T cells. Cell 176, 998-1013.e16 (2019).
Ma, C. et al. Gut microbiome-mediated bile acid metabolism regulates liver cancer via NKT cells. Science 360, eaan5931 (2018).
Matson, V. et al. The commensal microbiome is associated with anti-PD-1 efficacy in metastatic melanoma patients. Science 359, 104-108 (2018).
Meisel, M. et al. Microbial signals drive pre-leukaemic myeloproliferation in a Tet2-deficient host. Nature 557, 580-584 (2018).
Routy, B. et al. Gut microbiome influences efficacy of PD-1-based immunotherapy against epithelial tumors. Science 359, 91-97 (2018).
Ye, H. et al. Subversion of systemic glucose metabolism as a mechanism to support the growth of leukemia cells. Cancer Cell 34, 659-673.e6 (2018).
The Cancer Genome Atlas Research Network et al. The Cancer Genome Atlas Pan-Cancer analysis project. Nat. Genet. 45, 1113-1120 (2013).
Hanahan, D. & Weinberg, R. A. The hallmarks of cancer. Cell 100, 57-70 (2000).
Hanahan, D. & Weinberg, R. A. Hallmarks of cancer: the next generation. Cell 144, 646-674 (2011).
Salter, S. J. et al. Reagent and laboratory contamination can critically impact sequence-based microbiome analyses. BMC Biol. 12, 87 (2014).
Glassing, A., Dowd, S. E., Galandiuk, S., Davis, B. & Chiodini, R. J. Inherent bacterial DNA contamination of extraction and sequencing reagents may affect interpretation of microbiota in low bacterial biomass samples. Gut Pathog. 8, 24 (2016).
Davis, N. M., Proctor, D. M., Holmes, S. P., Relman, D. A. & Callahan, B. J. Simple statistical identification and removal of contaminant sequences in marker-gene and metagenomics data. Microbiome 6, 226 (2018).
Robinson, K. M., Crabtree, J., Mattick, J. S. A., Anderson, K. E. & Dunning Hotopp, J. C. Distinguishing potential bacteria-tumor associations from contamination in a secondary data analysis of public cancer genome sequence data. Microbiome 5, 9 (2017).
Eisenhofer, R. et al. Contamination in low microbial biomass microbiome studies: issues and recommendations. Trends Microbiol. 27, 105-117 (2019).
The Cancer Genome Atlas Research Network. Comprehensive molecular characterization of gastric adenocarcinoma. Nature 513, 202-209 (2014).
The Cancer Genome Atlas Research Network. Integrated genomic and molecular characterization of cervical cancer. Nature 543, 378-384 (2017).
Tang, K.-W., Alaei-Mahabadi, B., Samuelsson, T., Lindh, M. & Larsson, E. The landscape of viral expression and host gene fusion and adaptation in human cancer. Nat. Commun. 4, 2513 (2013).
Minich, J. J. et al. KatharoSeq enables high-throughput microbiome analysis from low biomass samples. mSystems 3, e00218-17 (2018).
Wood, D. E. & Salzberg, S. L. Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome Biol. 15, R46 (2014).
Zhang, H. et al. Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell 166, 755-765 (2016).
Choi, J.-H., Hong, S.-E. & Woo, H. G. Pan-cancer analysis of systematic batch effects on somatic sequence variations. BMC Bioinformatics 18, 211 (2017).
Lauss, M. et al. Monitoring of technical variation in quantitative high-throughput datasets. Cancer Inform. 12, 193-201 (2013).
Law, C. W., Chen, Y., Shi, W. & Smyth, G. K. voom: precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biol. 15, R29 (2014).
Mecham, B. H., Nelson, P. S. & Storey, J. D. Supervised normalization of microarrays. Bioinformatics 26, 1308-1315 (2010).
Boedigheimer, M. J. et al. Sources of variation in baseline gene expression levels from toxicogenomics study control animals across multiple laboratories. BMC Genomics 9, 285 (2008).
Scherer, A. Batch Effects and Noise in Microarray Experiments: Sources and Solutions (Wiley, 2009).
Hillmann, B. et al. Evaluating the information content of shallow shotgun metagenomics. mSystems 3, e00069-18 (2018).
Knights, D. et al. Bayesian community-wide culture-independent microbial source tracking. Nat. Methods 8, 761-763 (2011).
Integrative HMP (iHMP) Research Network Consortium. The Integrative Human Microbiome Project: dynamic analysis of microbiome-host omics profiles during periods of human health and disease. Cell Host Microbe 16, 276-289 (2014).
Yamamura, K. et al. Human microbiome Fusobacterium nucleatum in esophageal cancer tissue is associated with prognosis. Clin. Cancer Res. 22, 5574-5581 (2016).
Hsieh, Y.-Y. et al. Increased abundance of Clostridium and Fusobacterium in gastric microbiota of patients with gastric cancer in Taiwan. Sci. Rep. 8, 158 (2018).
Kostic, A. D. et al. PathSeq: software to identify or discover microbes by deep sequencing of human tissue. Nat. Biotechnol. 29, 393-396 (2011).
Svircev, Z. et al. Molecular aspects of microcystin-induced hepatotoxicity and hepatocarcinogenesis. J. Environ. Sci. Health C Environ. Carcinog. Ecotoxicol. Rev. 28, 39-59 (2010).
Jervis-Bardy, J. et al. Deriving accurate microbiota profiles from human samples with low bacterial content through post-sequencing processing of Illumina MiSeq data. Microbiome 3, 19 (2015).
Kwong, T. N. Y. et al. Association between bacteremia from specific microbes and subsequent diagnosis of colorectal cancer. Gastroenterology 155, 383-390.e8 (2018).
Blauwkamp, T. A. et al. Analytical and clinical validation of a microbial cell-free DNA sequencing test for infectious disease. Nat. Microbiol. 4, 663-674 (2019).
Hong, D. K. et al. Liquid biopsy for infectious diseases: sequencing of cell-free plasma to detect pathogen DNA in patients with invasive fungal disease. Diagn. Microbiol. Infect. Dis. 92, 210-213 (2018).
Burnham, P. et al. Urinary cell-free DNA is a versatile analyte for monitoring infections of the urinary tract. Nat. Commun. 9, 2412 (2018).
De Vlaminck, I. et al. Temporal response of the human virome to immunosuppression and antiviral therapy. Cell 155, 1178-1187 (2013).
Huang, Y.-F. et al. Analysis of microbial sequences in plasma cell-free DNA for early-onset breast cancer patients and healthy females. BMC Med. Genomics 11 (Suppl. 1), 16 (2018).
Bettegowda, C. et al. Detection of circulating tumor DNA in early- and late-stage human malignancies. Sci. Transl. Med. 6, 224ra24 (2014).
Clark, T. A. et al. Analytical validation of a hybrid capture-based next-generation sequencing clinical assay for genomic profiling of cell-free circulating tumor DNA. J. Mol. Diagn. 20, 686-702 (2018).
Sanders, J. G. et al. Optimizing sequencing protocols for leaderboard metagenomics by combining long and short reads. Genome Biol. 20, 226 (2019).
Huang S. et al. Human skin, oral, and gut microbiomes predict chronological age. mSystems 5, e00630-19 (2020).
Zhu, Q. et al. Phylogenomics of 10,575 genomes reveals evolutionary proximity between domains Bacteria and Archaea. Nat. Commun. 10, 5477 (2019).
Chiu, K.-P. & Yu, A. L. Application of cell-free DNA sequencing in characterization of bloodborne microbes and the study of microbe-disease interactions. PeerJ 7, e7426 (2019).
Lau, J. W. et al. The Cancer Genomics Cloud: collaborative, reproducible, and democratized―a new paradigm in large-scale computational research. Cancer Res. 77, e3-e6 (2017).
Hoadley, K. A. et al. Cell-of-origin patterns dominate the molecular classification of 10,000 tumors from 33 types of cancer. Cell 173, 291-304.e6 (2018).
Reynolds, S. M. et al. The ISB Cancer Genomics Cloud: a flexible cloud-based platform for cancer genomics research. Cancer Res. 77, e7-e10 (2017).
Ellrott, K. et al. Scalable open science approach for mutation calling of tumor exomes using multiple genomic pipelines. Cell Syst. 6, 271-281.e7 (2018).
The Cancer Genome Atlas Network. Comprehensive molecular portraits of human breast tumors. Nature 490, 61-70 (2012).
Cerami, E. et al. The cBio cancer genomics portal: an open platform for exploring multidimensional cancer genomics data. Cancer Discov. 2, 401-404 (2012).
Gao, J. et al. Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortal. Sci. Signal. 6, pl1 (2013).
Land, M. L. et al. Quality scores for 32,000 genomes. Stand. Genomic Sci. 9, 20 (2014).
Li, H. & Durbin, R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25, 1754-1760 (2009).
Greathouse, K. L. et al. Interaction between the microbiome and TP53 in human lung cancer. Genome Biol. 19, 123 (2018).
Shanmughapriya, S. et al. Viral and bacterial aetiologies of epithelial ovarian cancer. Eur. J. Clin. Microbiol. Infect. Dis. 31, 2311-2317 (2012).
Banerjee, S. et al. The ovarian cancer oncobiome. Oncotarget 8, 36225-36245 (2017).
Langmead, B. & Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nat. Methods 9, 357-359 (2012).
Bolyen, E. et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nat. Biotechnol. 37, 852-857 (2019).
Ritchie, M. E. et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43, e47 (2015).
Robinson, M. D., McCarthy, D. J. & Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139-140 (2010).
McDonald, D. et al. The Biological Observation Matrix (BIOM) format or: how I learned to stop worrying and love the ome-ome. 1, 2047-217X-1-7 (2012).
Friedman, J. H. Stochastic gradient boosting. Comput. Stat. Data Anal. 38, 367-378 (2002).
Friedman, J. H. Greedy function approximation: a gradient boosting machine. Ann. Stat. 29, 1189-1232 (2001).
Kuhn, M. Building predictive models in R using the caret package. J. Stat. Softw. 28, 1-26 (2008).
Grau, J., Grosse, I. & Keilwagen, J. PRROC: computing and visualizing precision-recall and receiver operating characteristic curves in R. Bioinformatics 31, 2595-2597 (2015).
Gire, S. K. et al. Genomic surveillance elucidates Ebola virus origin and transmission during the 2014 outbreak. Science 345, 1369-1372 (2014).
Matranga, C. B. et al. Enhanced methods for unbiased deep sequencing of Lassa and
Ebola RNA viruses from clinical and biological samples. Genome Biol. 15, 519 (2014).
Gonzalez, A. et al. Avoiding pandemic fears in the subway and conquering the platypus. mSystems 1, e00050-16 (2016).
Didion, J. P., Martin, M. & Collins, F. S. Atropos: specific, sensitive, and speedy trimming of sequencing reads. PeerJ 5, e3720 (2017).
Bolger, A. M., Lohse, M. & Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics 30, 2114-2120 (2014).
The 1000 Genomes Project Consortium. A global reference for human genetic variation. Nature 526, 68-74 (2015).
Magoc, T. & Salzberg, S. L. FLASH: fast length adjustment of short reads to improve genome assemblies. Bioinformatics 27, 2957-2963 (2011).
Gonzalez, A. et al. Qiita: rapid, web-enabled microbiome meta-analysis. Nat. Methods 15, 796-798 (2018).

Claims (47)

  1. 하기 단계를 포함하는, 대상체의 전이성 암의 존재 또는 부재를 결정하는 방법:
    (a) 암 환자의 생물학적 샘플에서 미생물의 존재를 검출하는 단계;
    (b) 미생물 존재로부터 오염된 미생물 특징을 제거함으로써, 오염 제거된 미생물 존재를 생성하는 단계;
    (c) 오염 제거된 미생물 존재를 암에 걸린 하나 이상의 대상체로부터의 하나 이상의 생물학적 샘플의 미생물 존재와 비교함으로써, 미생물-암 비교 데이터세트를 생성하는 단계; 및
    (d) 미생물 암 비교 데이터세트로부터 대상체의 전이성 암의 존재 또는 부재를 결정하는 단계.
  2. 제1항에 있어서, 상기 결정 단계가 전이성 암의 기원 조직을 확인하는 것을 추가로 포함하는 것인 방법.
  3. 제1항에 있어서, 상기 단계 (c)의 암을 갖는 하나 이상의 대상체가 원발성 종양, 전이성 종양 또는 이들의 임의의 조합을 포함하는 것인 방법.
  4. 제1항에 있어서, 상기 미생물 존재가 미생물 존재비(abundance)를 추가로 포함하는 것인 방법.
  5. 제4항에 있어서, 상기 미생물 존재 또는 존재비가 박테리아, 진균, 바이러스, 고세균, 원생동물, 박테리오파지 또는 이들의 임의의 조합과 같은 비-포유류 생명 영역을 포함하는 것인 방법.
  6. 제4항에 있어서, 상기 미생물 존재 또는 존재비가 생태 샷건 시퀀싱, 정량적 중합효소 연쇄 반응, 면역조직화학, 인시투 혼성화, 유동 세포측정법, 숙주 전체 게놈 시퀀싱, 숙주 전사체 시퀀싱, 암 전체 게놈 시퀀싱, 암 전사체 시퀀싱, 또는 이들의 임의의 조합에 의해 측정되는 것인 방법.
  7. 제4항에 있어서, 상기 미생물 존재 또는 존재비가 하기 미생물 기원의 핵산 영역의 증폭에 의해 측정되는 것인 방법: 16S rRNA의 V1, V2, V3, V4, V5, V6, V7, V8, V9 가변 도메인 영역, 18S rRNA의 내부 전사된 스페이서 (ITS) 영역, 또는 이들의 임의의 조합.
  8. 제4항에 있어서, 상기 미생물 존재 또는 존재비가 미생물 DNA, RNA, 또는 이들의 임의의 조합을 표적으로 하는 핵산 측정에 의해 검출되고, 여기서 미생물 DNA, RNA, 또는 이들의 임의의 조합을 표적으로 하는 핵산 측정이 대상체의 포유류 DNA, RNA, 또는 이들의 임의의 조합의 측정과 동시에 발생하는 것인 방법.
  9. 제1항에 있어서, 상기 전이성 암은 다음을 포함하는 방법: 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경아교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 림프성 신생물 미만성 거대 B세포 림프종, 식도 암종, 다형 교모세포종, 두경부 편평 세포 암종, 신장 색소혐성, 신장 투명 세포 암종, 신장 유두 세포종 암종, 간세포 암종, 폐 선암종, 폐 편평 세포 암종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 갈색 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 갑상선 암종, 흉선종, 자궁 암육종, 자궁체 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합.
  10. 제1항에 있어서, 상기 전이성 암은 암 유형을 포함하고, 여기서 암 유형이 폐암, 전립선암, 흑색종 암, 유방암, 갑상선암, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  11. 제1항에 있어서, 상기 오염된 미생물 특징이 미생물 존재의 분류학적 할당을 포함하는 것인 방법.
  12. 제1항에 있어서, 상기 단계 (b)는 전이성 암의 기원 조직 결정의 정확성을 향상시키는 것인 방법.
  13. 제1항에 있어서, 상기 단계 (b)는 생략되는 방법.
  14. 제1항에 있어서, 상기 미생물-암 비교 데이터세트가 포유동물 특징을 추가로 포함하고, 여기서 포유동물 특징이 다음을 포함하는 것인 방법: 종양 조직의 면역조직화학 단백질 마커, 종양 조직 DNA, 종양 조직 RNA, 종양 조직 메틸화 패턴, 무세포 종양 DNA, 무세포 종양 RNA, 엑소좀 유래 종양 DNA, 엑소좀 유래 종양 RNA, 순환 종양 세포 유래 DNA, 순환 종양 세포 유래 RNA, 무세포 종양 DNA의 메틸화 패턴, 무세포 종양 RNA의 메틸화 패턴, 순환 종양 세포 유래 DNA의 메틸화 패턴, 순환 종양 세포 유래 RNA의 메틸화 패턴, 순환 종양 세포 유래 RNA의 메틸화 패턴, 또는 이들의 임의의 조합.
  15. 제1항에 있어서, 상기 생물학적 샘플이 조직 샘플, 액체 생검, 전혈 생검, 또는 이들의 임의의 조합을 포함하는 방법.
  16. 제15항에 있어서, 상기 생물학적 샘플이 혈장, 백혈구, 적혈구, 혈소판 또는 이들의 임의의 조합을 포함하는 전혈의 하나 이상의 성분을 포함하는 방법.
  17. 미생물 존재를 기반으로 대상체의 전이성 암을 치료하기 위한 치료제를 투여하는 방법으로서, 다음 단계를 포함하는 방법:
    (a) 전이성 암에 걸린 대상체로부터의 생물학적 샘플에서 미생물 존재를 검출하는 단계;
    (b) 미생물 존재의 오염된 미생물 특징을 제거함으로써 오염 제거된 미생물 존재를 생성하는 단계;
    (c) 오염 제거된 미생물 존재와 대상체의 전이성 암 사이의 연관성을 생성하는 단계; 및
    (d) 오염 제거된 미생물 존재와 전이성 암 사이의 연관성에 의해 결정된 치료제를 대상체에게 투여하는 단계.
  18. 제17항에 있어서, 상기 미생물 존재가 미생물의 존재비를 추가로 포함하고, 여기서 미생물의 존재 또는 존재비가 박테리아, 진균, 바이러스, 고세균, 원생동물, 박테리오파지, 또는 이들의 임의의 조합의 비-포유류 생명 영역을 포함하는 방법.
  19. 제17항에 있어서, 상기 오염된 미생물 특징이 미생물 존재의 분류학적 할당을 포함하는 방법.
  20. 제17항에 있어서, 상기 단계 (b)가 생략되는 방법.
  21. 제17항에 있어서, 상기 생물학적 샘플이 조직 샘플, 액체 생검, 전혈 생검, 또는 이들의 임의의 조합을 포함하는 방법.
  22. 제21항에 있어서, 상기 생물학적 샘플이 혈장, 백혈구, 적혈구, 혈소판, 또는 이들의 임의의 조합을 포함하는 전혈의 하나 이상의 성분을 포함하는 방법.
  23. 제17항에 있어서, 상기 치료제가 오염 제거된 미생물 존재에 의해 대사되거나 불활성화되지 않는 방법.
  24. 제17항에 있어서, 상기 치료제는 다음을 포함하는 방법: 소분자, 호르몬 요법, 생물학적 제제, 조작된 숙주 유래 세포 유형 또는 유형들, 프로바이오틱, 조작된 박테리아, 자연적이지만 선택적인 바이러스, 조작된 바이러스, 박테리오파지, 또는 이들의 임의의 조합.
  25. 제17항에 있어서, 상기 전이성 암은 다음을 포함하는 방법: 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경아교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 림프성 신생물 미만성 거대 B세포 림프종, 식도 암종, 다형 교모세포종, 두경부 편평 세포 암종, 신장 색소혐성, 신장 투명 세포 암종, 신장 유두 세포종 암종, 간세포 암종, 폐 선암종, 폐 편평 세포 암종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 갈색 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 갑상선 암종, 흉선종, 자궁 암육종, 자궁체 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합.
  26. 제17항에 있어서, 상기 치료제는 1차 치료제의 효능을 개선하기 위해 전이성 암에 대한 1차 치료제와 함께 제공된 보조제를 포함하는 방법.
  27. 제26항에 있어서, 상기 보조제는 항생제 또는 항균제인 방법.
  28. 제17항에 있어서, 상기 치료제가 전이성 암 또는 전이성 암의 환경과 관련된 미생물 성분 또는 항원을 기반으로 하는 방법.
  29. 제28항에 있어서, 상기 치료제가 표적 미생물 항원으로의 입양 세포 전달, 미생물 항원에 대한 암 백신, 미생물 항원에 대한 단일클론 항체, 미생물 항원을 적어도 부분적으로 표적화하도록 설계된 항체-약물-접합체, 다가 항체, 항체 단편, 하나 이상의 미생물 항원을 적어도 부분적으로 표적화하도록 설계된 이의 항체 유도체, 또는 이들의 임의의 조합을 포함하는 방법.
  30. 제17항에 있어서, 상기 치료제가 미생물 존재의 기능적으로 또는 생물학적으로 유사한 미생물 부류에 대해 표적화된 항생제를 포함하는 방법.
  31. 제28항에 있어서, 상기 치료제가 2개 이상의 치료 유형을 포함하고, 여기서 2개 이상의 치료 유형이 조합되어 2개 이상의 치료 유형 중 적어도 하나의 유형이 치료 효능을 높이기 위해 전이성 암 또는 전이성 암 환경과 연관된 미생물 존재 또는 존재비를 활용하는 방법.
  32. 제17항에 있어서, 상기 오염 제거된 미생물 존재와 전이성 암 사이의 연관성이 전이성 암의 기원, 유형 또는 이들의 임의의 조합을 추가로 포함하는 방법.
  33. 대상체의 전이성 암의 존재 또는 부재를 결정하도록 구성된 컴퓨터 시스템으로서,
    하나 이상의 프로세서; 및
    소프트웨어를 포함하는 비-일시적 컴퓨터 판독 가능 저장 매체
    를 포함하고, 상기 소프트웨어는 실행 결과로서 컴퓨터 시스템의 하나 이상의 프로세서가 다음 단계를 야기하는 실행 가능한 명령어를 포함하는 컴퓨터 시스템:
    (a) 암에 걸린 대상체로부터 생물학적 샘플의 하나 이상의 핵산 분자를 얻는 단계;
    (b) 생물학적 샘플의 하나 이상의 핵산의 비-미생물 핵산으로부터 미생물 핵산을 분리하는 단계;
    (c) 미생물 핵산의 미생물 존재를 확인하는 단계;
    (d) 미생물 존재의 오염된 미생물 특징을 제거함으로써, 오염 제거된 미생물 존재 표를 생성하는 단계;
    (f) 오염 제거된 미생물 존재 표를 기계 학습 모델에 입력하는 단계; 및
    (g) 기계 학습 모델로부터 전이성 암의 존재 또는 부재를 나타내는 출력을 수신하는 단계.
  34. 제33항에 있어서, 상기 미생물 존재는 미생물의 존재비를 추가로 포함하고 상기 미생물의 존재 또는 존재비는 박테리아, 진균, 바이러스, 고세균, 원생동물, 박테리오파지, 또는 이들의 임의의 조합의 비-포유동물 생명 영역을 포함하는 컴퓨터 시스템.
  35. 제33항에 있어서, 상기 오염 제거된 미생물 특징은 미생물 존재의 분류학적 할당을 포함하는 컴퓨터 시스템.
  36. 제33항에 있어서, 상기 단계 (d)는 생략되는 컴퓨터 시스템.
  37. 제33항에 있어서, 상기 미생물 및 비-미생물 핵산은 미생물 및 비-미생물 게놈의 참조 데이터베이스에 대해 하나 이상의 핵산 분자를 정렬함으로써 분리되는 컴퓨터 시스템.
  38. 제33항에 있어서, 상기 미생물 및 비-미생물 핵산은 참조 게놈 데이터베이스에 대해 하나 이상의 핵산 분자를 정렬하지 않고 분리되는 컴퓨터 시스템.
  39. 제33항에 있어서, 상기 오염 제거된 미생물 존재 표는 포유동물 특징을 추가로 포함하고, 여기서 포유동물 특징은 다음을 포함하는 컴퓨터 시스템: 종양 조직의 면역조직화학 단백질 마커, 종양 조직 DNA, 종양 조직 RNA, 종양 조직 메틸화 패턴, 무세포 종양 DNA, 무세포 종양 RNA, 엑소좀 유래 종양 DNA, 엑소좀 유래 종양 RNA, 순환 종양 세포 유래 DNA, 순환 종양 세포 유래 RNA, 무세포 종양 DNA의 메틸화 패턴, 무세포 종양 RNA의 메틸화 패턴, 순환 종양 세포 유래 DNA의 메틸화 패턴, 순환 종양 세포 유래 RNA의 메틸화 패턴, 순환 종양 세포 유래 RNA의 메틸화 패턴, 또는 이들의 임의의 조합.
  40. 제33항에 있어서, 상기 전이성 암은 다음을 포함하는 컴퓨터 시스템: 급성 골수성 백혈병, 부신피질 암종, 방광 요로상피 암종, 뇌 저등급 신경아교종, 유방 침윤성 암종, 자궁경부 편평 세포 암종 및 자궁경내 선암종, 담관암종, 결장 선암종, 림프성 신생물 미만성 거대 B세포 림프종, 식도 암종, 다형 교모세포종, 두경부 편평 세포 암종, 신장 색소혐성, 신장 투명 세포 암종, 신장 유두 세포종 암종, 간세포 암종, 폐 선암종, 폐 편평 세포 암종, 중피종, 난소 장액성 낭선암종, 췌장 선암종, 갈색 세포종 및 부신경절종, 전립선 선암종, 직장 선암종, 육종, 피부 흑색종, 위 선암종, 고환 생식 세포 종양, 갑상선 암종, 흉선종, 자궁 암육종, 자궁체 자궁내막 암종, 포도막 흑색종, 또는 이들의 임의의 조합.
  41. 제33항에 있어서, 상기 전이성 암은 암 유형을 포함하고, 암 유형은 폐암, 전립선암, 흑색종암, 유방암, 갑상선암, 또는 이들의 임의의 조합을 포함하는 컴퓨터 시스템.
  42. 제33항에 있어서, 상기 생물학적 샘플은 조직 샘플, 액체 생검, 전혈 생검, 또는 이들의 임의의 조합을 포함하는 컴퓨터 시스템.
  43. 제33항에 있어서, 상기 생물학적 샘플은 혈장, 백혈구, 적혈구, 혈소판, 또는 이들의 임의의 조합을 포함하는 전혈의 성분을 포함하는 컴퓨터 시스템.
  44. 제33항에 있어서, 상기 기계 학습 모델이 비전이성 및 전이성 암 조직 또는 혈액 샘플을 구별하도록 훈련되는 컴퓨터 시스템.
  45. 제33항에 있어서, 상기 기계 학습 모델이 하나 이상의 암 유형을 구별하도록 훈련되는 컴퓨터 시스템.
  46. 제45항에 있어서, 상기 하나 이상의 암 유형이 폐암, 전립선암, 흑색종암, 유방암, 갑상선암, 또는 이들의 임의의 조합을 포함하는 컴퓨터 시스템.
  47. 제33항에 있어서, 상기 출력은 전이성 암의 유형, 기원 조직, 또는 이들의 임의의 조합의 표시를 추가로 포함하는 컴퓨터 시스템.
KR1020237005750A 2020-09-21 2021-09-21 미생물 핵산으로 전이성 암 및 기원 조직의 존재 식별 KR20230070199A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063081075P 2020-09-21 2020-09-21
US63/081,075 2020-09-21
US202063105624P 2020-10-26 2020-10-26
US63/105,624 2020-10-26
PCT/US2021/051261 WO2022061281A2 (en) 2020-09-21 2021-09-21 Identifying the presence of metastatic cancer and tissue of origin with microbial nucleic acids

Publications (1)

Publication Number Publication Date
KR20230070199A true KR20230070199A (ko) 2023-05-22

Family

ID=80776429

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237005750A KR20230070199A (ko) 2020-09-21 2021-09-21 미생물 핵산으로 전이성 암 및 기원 조직의 존재 식별

Country Status (8)

Country Link
US (1) US20230332249A1 (ko)
EP (1) EP4214336A2 (ko)
JP (1) JP2023544479A (ko)
KR (1) KR20230070199A (ko)
CN (1) CN115989322A (ko)
AU (1) AU2021344583A1 (ko)
CA (1) CA3188555A1 (ko)
WO (1) WO2022061281A2 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140271557A1 (en) * 2013-02-19 2014-09-18 Delphine J. Lee Methods of diagnosing and treating cancer by detecting and manipulating microbes in tumors
US20210355546A1 (en) * 2018-11-02 2021-11-18 The Regents Of The University Of California Methods to Diagnose and Treat Cancer Using Non-Human Nucleic Acids

Also Published As

Publication number Publication date
JP2023544479A (ja) 2023-10-24
CA3188555A1 (en) 2022-03-24
CN115989322A (zh) 2023-04-18
WO2022061281A3 (en) 2022-04-28
US20230332249A1 (en) 2023-10-19
WO2022061281A2 (en) 2022-03-24
AU2021344583A1 (en) 2023-03-16
EP4214336A2 (en) 2023-07-26

Similar Documents

Publication Publication Date Title
Poore et al. Microbiome analyses of blood and tissues suggest cancer diagnostic approach
Robertson et al. Comprehensive molecular characterization of muscle-invasive bladder cancer
Ozawa et al. A microRNA signature associated with metastasis of T1 colorectal cancers to lymph nodes
AU2015213486B2 (en) Biomarker signature method, and apparatus and kits therefor
JP6161607B2 (ja) サンプルにおける異なる異数性の有無を決定する方法
JP2022521791A (ja) 病原体検出のための配列決定データを使用するためのシステムおよび方法
JP2024028828A (ja) 尿および他のサンプルにおける無細胞dnaの分析
Hyams et al. Identification of risk in cutaneous melanoma patients: Prognostic and predictive markers
US11814687B2 (en) Methods for characterizing bladder cancer
EP3874068A1 (en) Methods to diagnose and treat cancer using non-human nucleic acids
US20220136062A1 (en) Method for predicting cancer risk value based on multi-omics and multidimensional plasma features and artificial intelligence
US20230197269A1 (en) Systems and methods for detecting viral dna from sequencing
Zozaya-Valdés et al. Detection of cell-free microbial DNA using a contaminant-controlled analysis framework
AU2024203201A1 (en) Multimodal analysis of circulating tumor nucleic acid molecules
Riester et al. Hypoxia‐related microRNA‐210 is a diagnostic marker for discriminating osteoblastoma and osteosarcoma
WO2019064063A1 (en) BIOMARKERS FOR DETECTION OF COLORECTAL CANCER
Robinson et al. CSI-Microbes: Identifying cell-type specific intracellular microbes from single-cell RNA-seq data
US20230332249A1 (en) Identifying the presence of metastatic cancer and tissue of origin with microbial nucleic acids
Bergamaschi et al. Pilot study demonstrating changes in DNA hydroxymethylation enable detection of multiple cancers in plasma cell-free DNA
Parasramka et al. Validation of gene expression signatures to identify low-risk clear-cell renal cell carcinoma patients at higher risk for disease-related death
Thway et al. The comparative utility of fluorescence in situ hybridization and reverse transcription-polymerase chain reaction in the diagnosis of alveolar rhabdomyosarcoma
Tawk et al. Tumor DNA‐methylome derived epigenetic fingerprint identifies HPV‐negative head and neck patients at risk for locoregional recurrence after postoperative radiochemotherapy
Schnabel et al. Gene expression-based diagnostics for molecular cancer classification of difficult to diagnose tumors
Bae et al. Identification of tissue of origin in cancer of unknown primary using a targeted bisulfite sequencing panel
Borchmann An atlas of bacterial and viral associations in cancer