KR20210149052A - 바이러스 관련 암의 위험의 계층화 - Google Patents

바이러스 관련 암의 위험의 계층화 Download PDF

Info

Publication number
KR20210149052A
KR20210149052A KR1020217031588A KR20217031588A KR20210149052A KR 20210149052 A KR20210149052 A KR 20210149052A KR 1020217031588 A KR1020217031588 A KR 1020217031588A KR 20217031588 A KR20217031588 A KR 20217031588A KR 20210149052 A KR20210149052 A KR 20210149052A
Authority
KR
South Korea
Prior art keywords
pathogen
subject
nucleic acid
npc
cell
Prior art date
Application number
KR1020217031588A
Other languages
English (en)
Inventor
육-밍 데니스 로
로자 와이 쿤 치우
콴치 찬
페이용 지앙
와이 케이 람
루 지
Original Assignee
그레일, 인코포레이티드.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 그레일, 인코포레이티드. filed Critical 그레일, 인코포레이티드.
Publication of KR20210149052A publication Critical patent/KR20210149052A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • C12Q1/701Specific hybridization probes
    • C12Q1/705Specific hybridization probes for herpetoviridae, e.g. herpes simplex, varicella zoster
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • C12Q1/701Specific hybridization probes
    • C12Q1/708Specific hybridization probes for papilloma
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/52Predicting or monitoring the response to treatment, e.g. for selection of therapy based on assay results in personalised medicine; Prognosis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Virology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

대상체의 생물학적 샘플로부터의 세포 비함유 핵산 분자의 분석에 기초하여 대상체가 병원체-관련 장애를 발생시킬 위험을 계층화하기 위한 방법 및 시스템이 본원에 제공된다. 다양한 예에서, 스크리닝 빈도는 위험 분석에 기초하여 결정된다. 또한 세포 비함유 핵산 분자에서 병원체 게놈의 변이체 패턴을 분석하기 위한 방법 및 시스템이 본원에 제공된다.

Description

바이러스 관련 암의 위험의 계층화
교차-참조
본 출원은 2020년 1월 15일에 출원된 미국 가출원 번호 62/961,517 및 2019년 4월 2일에 출원된 미국 가출원 번호 62/828,224의 이익을 주장하며, 이들 각각은 그 전체가 본원에 참조로 포함된다.
배경
많은 질병 및 질환이 바이러스와 같은 병원체의 감염과 관련될 수 있다. 비인두암(NPC)은 중국 남부와 동남아시아에서 가장 널리 퍼진 암 중 하나이며 NPC의 병인은 엡스타인-바 바이러스(EBV) 감염과 밀접한 관련이 있을 수 있다. NPC에 대한 높은 발병률 지역에서, 거의 모든 NPC 종양은 EBV 게놈을 보유할 것이다. EBV와 NPC 사이의 밀접한 관계에 기초하여, 혈장 EBV DNA는 NPC의 바이오마커로 개발되었다. 실시간 중합효소 연쇄 반응(PCR) 분석을 사용하여, 혈장 EBV DNA의 검출은 NPC 검출에 대해 95%의 민감도 및 93%의 특이성을 갖는 것으로 나타났다(Lo et al. Cancer Res. 1999;59:1188-91). 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 분석에 기초하여 이러한 병원체-관련 장애에 대한 위험을 계층화하기 위한 비침습적 또는 최소 침습적 진단 검정을 개발하는데 상당한 임상적 이익이 있을 수 있다.
개요
일부 양태에서, 대상체에서 병원체-관련 장애를 스크리닝하는 방법이 본원에 제공되며, 상기 방법은 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 특징을 결정하는 것을 포함하는 제1 시점에 수행된 제1 검정으로부터 데이터를 수신하는 단계로서, 상기 병원체로부터의 세포 비함유 핵산 분자의 특징이 생물학적 샘플에서 대상체로부터의 세포 비함유 핵산 분자와 비교하여 양, 메틸화 상태, 변이체 패턴, 단편 크기 또는 상대적 풍부도를 포함하고, 상기 특징이 대상체가 병원체-관련 장애를 발생시킬 위험을 나타내는, 단계; 및 상기 특징에 기초하여, 대상체에서 병원체-관련 장애를 스크리닝하기 위해 제2 검정이 수행되는 제2 시점을 결정하는 단계로서, 제1 시점과 제2 시점 사이의 간격이 위험과 반비례하는, 단계를 포함한다.
일부 양태에서, 대상체에서 병원체-관련 장애의 예후를 제공하는 방법이 본원에 제공되며, 상기 방법은 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 특징을 결정하는 것을 포함하는 제1 검정으로부터 데이터를 수신하는 단계로서, 상기 병원체로부터의 세포 비함유 핵산 분자의 특징이 생물학적 샘플에서 대상체로부터의 세포 비함유 핵산 분자와 비교하여 양, 메틸화 상태, 변이체 패턴, 단편 크기 또는 상대적 풍부도를 포함하는, 단계; 및 상기 병원체로부터의 세포 비함유 핵산 분자의 특징, 및 대상체의 연령, 대상체의 흡연 습관, 대상체의 병원체-관련 장애의 가족력, 대상체의 유전형 인자, 대상체의 민족성 또는 대상체의 식이 이력 중 하나 이상의 인자에 기초하여 대상체가 병원체-관련 장애를 발생시킬 위험을 나타내는 보고서를 생성하는 단계를 포함한다.
일부 경우에, 제1 검정의 결과는 병원체-관련 장애에 대한 대상체의 의학적 치료를 초래하지 않는다. 일부 경우에, 의학적 치료는 치료제, 방사선요법 또는 외과적 치료를 포함한다. 일부 경우에, 대상체는 1% 미만의 위양성률을 갖는 임상 진단 검사에 의해 제2 시점을 결정하기 전에 병원체-관련 장애가 없는 것으로 진단된다. 일부 경우에, 임상 진단 검사는 신체 검사, 침습적 생검, 내시경, 자기 공명 영상, 양성 방출 단층촬영, 컴퓨터 단층촬영 또는 x-선 영상을 포함한다. 일부 경우에, 임상 진단 검사는 조직학적 분석, 세포학적 분석 또는 세포 핵산 분석을 포함하는 침습적 생검을 포함한다. 일부 경우에, 간격은 적어도 약 2개월, 4개월, 6개월, 8개월, 10개월 또는 12개월이다. 일부 경우에, 간격은 적어도 약 12개월이다.
일부 경우에, 상기 방법은 제1 검정을 수행하는 것을 추가로 포함한다. 일부 경우에, 제1 검정을 수행하는 것은 (i) 대상체로부터 제1 생물학적 샘플을 수득하는 단계; 및 (ii) 제1 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 제1 양을 측정하는 단계를 포함한다. 일부 경우에, 제1 양을 측정하는 단계는 제1 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 카피 수를 측정하는 것을 포함한다. 일부 경우에, 측정은 중합효소 연쇄 반응(PCR)을 포함한다. 일부 경우에, 측정은 정량적 PCR(qPCR)을 포함한다. 일부 경우에, 제1 양은 제1 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 제1 백분율을 측정하는 것을 포함한다. 일부 경우에, 제1 검정은 (iii) 제1 양이 임계 값을 초과하는 경우, 대상체로부터 제2 생물학적 샘플을 수득하고, 제2 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 제2 양을 측정하는 것을 추가로 포함한다. 일부 경우에, 제2 생물학적 샘플은 제1 생물학적 샘플의 약 4주 후에 수득된다. 일부 경우에, 제1 시점과 제2 시점 사이의 간격은 제1 양 및 제2 카피 수 둘 모두가 임계 값보다 높으면 제2 양이 임계 값 미만인 경우의 간격에 비해 더 짧다. 일부 경우에, 제1 시점과 제2 시점 사이의 간격은 제1 양이 임계 값보다 낮으면 제1 양이 임계 값을 초과하는 경우의 간격에 비해 더 길다. 일부 경우에, 제1 시점과 제2 시점 사이의 간격은 제1 양 및 제2 양 둘 모두가 임계 값을 초과하는 경우 약 1년이다. 일부 경우에, 제2 양이 임계 값 미만이면 제1 시점과 제2 시점 사이의 간격은 약 2년이다. 일부 경우에, 제1 양이 임계 값 미만이면 제1 시점과 제2 시점 사이의 간격은 약 4년이다. 일부 경우에, 제1 검정은 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 메틸화 상태를 결정하는 것을 포함한다. 일부 경우에, 메틸화 상태를 결정하는 것은 생물학적 샘플에서 세포 비함유 핵산 분자를 메틸화-민감성 제한 효소 또는 바이설파이트로 처리하는 것을 포함한다. 일부 경우에, 메틸화 상태를 결정하는 것은 대상체의 생물학적 샘플에서 세포 비함유 핵산의 메틸화-인식 시퀀싱을 수행하는 것을 포함한다. 일부 경우에, 메틸화-인식 시퀀싱은 메틸화되지 않은 시토신의 우라실로의 바이설파이트 전환을 포함한다. 일부 경우에, 메틸화-인식 시퀀싱은 메틸화-민감성 제한 효소에 의한 처리를 포함한다. 일부 경우에, 제1 검정은 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 단편 크기 분포를 결정하는 것을 포함한다. 일부 경우에, 단편 크기 분포를 결정하는 것은 생물학적 샘플에서 세포 비함유 핵산 분자에 대해 시퀀싱을 수행하고, 병원체의 참조 게놈에 맵핑된 서열 판독에 기초하여 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 단편 크기를 결정하는 것을 포함한다.
일부 경우에, 제1 검정은 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴을 결정하는 것을 포함한다. 일부 경우에, 변이체 패턴을 결정하는 것은 생물학적 샘플에서 세포 비함유 핵산 분자에 대해 시퀀싱을 수행하고, 병원체의 참조 게놈에 맵핑된 서열 판독에 기초하여 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴을 결정하는 것을 포함한다. 일부 경우에, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴은 단일 뉴클레오티드 변이를 포함한다. 일부 경우에, 변이체 패턴을 확인하는 것은 병원체의 참조 게놈에 맵핑된 서열 판독 및 병원체의 장애-관련 참조 게놈 사이의 유사성 수준을 결정하는 것을 포함한다. 일부 경우에, 병원체의 장애-관련 참조 게놈은 병든 조직에서 확인된 병원체의 게놈을 포함한다. 일부 경우에, 유사성 수준을 결정하는 것은 병원체의 참조 게놈을 복수의 빈(bins)으로 분리하는 단계; 및 병원체의 장애-관련 참조 게놈에 대한 복수의 빈 각각에 대한 유사성 지수를 결정하는 단계를 포함하고, 상기 유사성 지수는 병원체의 참조 게놈에 맵핑된 서열 판독 중 적어도 하나가 병원체의 장애-관련 참조 게놈과 동일한 뉴클레오티드 변이체를 갖는 각각의 빈 내의 변이체 부위의 비율과 상관된다. 일부 경우에, 병원체의 장애-관련 참조 게놈은 병원체의 복수의 장애-관련 참조 게놈을 포함하고, 여기서 유사성 수준을 결정하는 것은 병원체의 복수의 장애-관련 참조 게놈 각각에 대한 복수의 빈 각각에 대한 각각의 유사성 지수를 결정하는 단계; 및 각각의 빈 내의 각각의 유사성 지수가 컷오프 값을 초과하는 복수의 장애-관련 참조 게놈의 비율에 기초하여 복수의 빈 각각에 대한 빈 스코어를 결정하는 단계를 포함한다. 일부 경우에, 복수의 빈 각각은 약 100, 200, 300, 400, 500, 600, 700, 800, 900 또는 1000 bp의 길이를 갖는다. 일부 경우에, 제1 검정은 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 메틸화 상태, 단편 크기 분포 또는 변이체 패턴을 결정하는 것을 포함한다.
일부 경우에, 상기 방법은 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 특징을 포함하는 데이터 입력에 적용된 분류기를 사용하여 대상체가 병원체-관련 장애를 발생시킬 위험 점수를 계산하는 단계를 추가로 포함하며, 상기 분류기는 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 특징을 포함하는 데이터 입력에 대한 함수를 적용하여 대상체가 장애를 발생시킬 위험을 평가하는 위험 점수를 포함하는 출력을 생성하도록 구성된다. 일부 경우에, 분류기는 라벨링된 데이터세트로 훈련된다.
일부 경우에, 상기 방법은 제2 시점에 제2 검정을 수행하는 것을 추가로 포함한다. 일부 경우에, 제2 검정은 제1 검정과 동일하다. 일부 경우에, 제2 검정은 대상체로부터의 세포 비함유 핵산 분자의 검정, 대상체의 침습적 생검, 대상체의 내시경 검사, 또는 대상체의 자기 공명 영상 검사를 포함한다.
일부 양태에서, 대상체의 생물학적 샘플로부터의 핵산 분자를 분석하는 방법이 본원에 제공되며, 상기 방법은 컴퓨터 시스템에서, 대상체의 생물학적 샘플로부터의 세포 비함유 핵산 분자의 서열 판독을 수득하는 단계로서, 상기 생물학적 샘플이 대상체 및 잠재적으로 병원체로부터의 세포 비함유 핵산 분자를 포함하는, 단계; 컴퓨터 시스템에서, 세포 비함유 핵산 분자의 서열 판독을 병원체의 참조 게놈에 정렬하는 단계; 및 컴퓨터 시스템에서, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴을 확인하는 단계로서, 상기 변이체 패턴이 병원체의 참조 게놈 상의 복수의 변이체 부위 각각에서 병원체의 참조 게놈에 맵핑된 서열 판독의 뉴클레오티드 변이체를 특성화하고, 상기 복수의 변이체 부위가 병원체의 참조 게놈에 걸쳐 적어도 30개의 부위를 포함하고, 상기 변이체 패턴이 대상체에서 병원체-관련 장애의 상태 또는 위험을 나타내는, 단계를 포함한다.
일부 경우에, 복수의 변이체 부위는 병원체의 참조 게놈에 걸쳐 적어도 40개, 적어도 50개, 적어도 60개, 적어도 70개, 적어도 80개, 적어도 90개, 적어도 100개, 적어도 200개, 적어도 300개, 적어도 400개, 적어도 500개, 적어도 600개, 적어도 700개, 적어도 800개, 적어도 900개, 적어도 1000개, 적어도 1100개 또는 적어도 1200개의 부위를 포함한다. 일부 경우에, 복수의 변이체 부위는 병원체의 참조 게놈에 걸쳐 적어도 600개의 부위를 포함한다. 일부 경우에, 복수의 변이체 부위는 병원체의 참조 게놈에 걸쳐 약 660개의 부위를 포함한다. 일부 경우에, 복수의 변이체 부위는 병원체의 참조 게놈에 걸쳐 적어도 1000개의 부위를 포함한다. 일부 경우에, 복수의 변이체 부위는 병원체의 참조 게놈에 걸쳐 약 1100개의 부위를 포함한다. 일부 경우에, 복수의 변이체 부위는 병원체의 참조 게놈에 맵핑된 서열 판독이 병원체의 참조 게놈과 상이한 뉴클레오티드 변이체를 갖는 모든 부위로 구성된다. 일부 경우에, 서열 판독의 정렬은 병원체의 참조 게놈에 맵핑된 서열 판독과 병원체의 참조 게놈 사이에 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1개 염기의 최대 불일치를 허용하도록 구성된다. 일부 경우에, 서열 판독의 정렬은 병원체의 참조 게놈에 맵핑된 서열 판독과 병원체의 참조 게놈 사이에 2개 염기의 최대 불일치를 허용하도록 구성된다. 일부 경우에, 상기 방법은 병원체의 참조 게놈에 맵핑된 서열 판독의 변이체 패턴에 기초하여 대상체에서 병원체-관련 장애를 진단, 예후 제공 또는 모니터링하는 것을 추가로 포함한다. 일부 경우에, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴은 단일 뉴클레오티드 변이를 포함한다. 일부 경우에, 변이체 패턴을 확인하는 것은 병원체의 참조 게놈에 맵핑된 서열 판독 및 병원체의 장애-관련 참조 게놈 사이의 유사성 수준을 결정하는 것을 포함한다. 일부 경우에, 병원체의 장애-관련 참조 게놈은 병든 조직에서 확인된 병원체의 게놈을 포함한다. 일부 경우에, 유사성 수준을 결정하는 것은 병원체의 참조 게놈을 복수의 빈으로 분리하는 단계; 및 병원체의 장애-관련 참조 게놈에 대한 복수의 빈 각각에 대한 유사성 지수를 결정하는 단계를 포함하고, 상기 유사성 지수는 병원체의 참조 게놈에 맵핑된 서열 판독 중 적어도 하나가 병원체의 장애-관련 참조 게놈과 동일한 뉴클레오티드 변이체를 갖는 각각의 빈 내의 변이체 부위의 비율과 상관된다. 일부 경우에, 병원체의 장애-관련 참조 게놈은 병원체의 복수의 장애-관련 참조 게놈을 포함하고, 여기서 유사성 수준을 결정하는 것은 병원체의 복수의 장애-관련 참조 게놈 각각에 대한 복수의 빈 각각에 대한 각각의 유사성 지수를 결정하는 단계; 및 각각의 빈 내의 각각의 유사성 지수가 컷오프 값을 초과하는 복수의 장애-관련 참조 게놈의 비율에 기초하여 복수의 빈 각각에 대한 빈 스코어를 결정하는 단계를 포함한다. 일부 경우에, 컷오프 값은 약 0.9이다. 일부 경우에, 복수의 빈 각각은 약 100, 200, 300, 400, 500, 600, 700, 800, 900 또는 1000 bp의 길이를 갖는다. 일부 경우에, 상기 방법은 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴을 포함하는 데이터 입력에 적용된 분류기를 사용하여 대상체가 병원체-관련 장애를 발생시킬 위험 점수를 계산하는 단계를 추가로 포함하며, 상기 분류기는 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴을 포함하는 데이터 입력에 대한 함수를 적용하여 대상체가 장애를 발생시킬 위험을 평가하는 위험 점수를 포함하는 출력을 생성하도록 구성된다. 일부 경우에, 분류기는 라벨링된 데이터세트로 훈련된다. 일부 경우에, 분류기는 나이브 베이즈(Naive Bayes) 모델, 로지스틱 회귀, 랜덤 포레스트, 의사 결정 트리, 그래디언트 부스팅 트리, 신경망, 딥 러닝, 선형/커널 지원 벡터 머신(SVM), 선형/비선형 회귀 또는 선형 판별 분석을 사용하는 수학적 모델을 포함한다.
일부 경우에, 병원체는 바이러스이다. 일부 경우에, 바이러스는 엡스타인-바 바이러스(EBV)이다. 일부 경우에, 병원체-관련 장애는 비인두암, NK 세포 림프종, 버킷 림프종, 이식 후 림프증식성 장애 또는 호지킨 림프종을 포함한다. 일부 경우에, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴은 EBV 참조 게놈(AJ507799.2)과 관련하여 표 6에 제시된 게놈 부위로부터 선택되는 적어도 30, 40, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550 또는 600개의 부위를 포함하는 복수의 변이체 부위 각각에서 병원체의 참조된 게놈에 맵핑된 서열 판독의 뉴클레오티드 변이체를 특성화한다. 일부 경우에, 복수의 변이체 부위는 EBV 참조 게놈(AJ507799.2)과 관련하여 표 6에 제시된 게놈 부위를 포함한다. 일부 경우에, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴은 EBV 참조 게놈(AJ507799.2)과 관련하여 표 6에 제시된 게놈 부위로부터 무작위로 선택되는 복수의 변이체 부위 각각에서 병원체의 참조된 게놈에 맵핑된 서열 판독의 뉴클레오티드 변이체를 특성화한다. 일부 경우에, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴은 EBV 참조 게놈(AJ507799.2)과 관련하여 표 6에 제시된 게놈 부위로부터 무작위로 선택되는 적어도 30, 40, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550 또는 600개의 부위를 포함하는 복수의 변이체 부위 각각에서 병원체의 참조된 게놈에 맵핑된 서열 판독의 뉴클레오티드 변이체를 특성화한다.
일부 경우에, 바이러스는 인간 파필로마바이러스(HPV)이다. 일부 경우에, 병원체-관련 장애는 자궁경부암, 구인두암 또는 두경부암을 포함한다. 일부 경우에, 바이러스는 B형 간염 바이러스(HBV)이다. 일부 경우에, 병원체-관련 장애는 경화증 또는 간세포 암종(HCC)을 포함한다. 일부 경우에, 변이체 패턴은 대상체에서 병원체-관련 장애의 상태를 나타내며, 병원체-관련 장애의 상태는 대상체에서 병원체-관련 장애의 존재, 대상체에서 종양 조직의 양, 대상체에서 종양 조직의 크기, 대상체에서 종양의 병기, 대상체에서 종양 부하, 또는 대상체에서 종양 전이의 존재를 포함한다. 일부 경우에, 생물학적 샘플은 전혈, 혈장, 혈청, 소변, 뇌척수액, 백혈구연층, 질액, 질 세척액, 타액, 구강 세정액, 비강 세척액, 비강 브러시 샘플 및 이들의 조합으로 구성된 군으로부터 선택된다.
일부 양태에서, 하나 이상의 컴퓨터 프로세서에 의해 실행될 때 상기 방법 중 임의의 것을 구현하는 기계 실행 가능한 코드를 포함하는 비일시적 컴퓨터 판독 가능한 매체가 본원에 제공된다.
일부 양태에서, 상기 방법 중 임의의 것의 동작을 수행하기 위해 컴퓨터 시스템을 제어하기 위한 복수의 명령을 저장하는 비일시적 컴퓨터 판독 가능한 매체를 포함하는 컴퓨터 제품이 본원에 제공된다.
일부 양태에서, 본원에 기재된 바와 같은 컴퓨터 제품; 및 컴퓨터 판독 가능한 매체에 저장된 명령을 실행하기 위한 하나 이상의 프로세서를 포함하는 시스템이 본원에 제공된다.
일부 양태에서, 상기 방법 중 임의의 것을 수행하기 위한 수단을 포함하는 시스템이 본원에 제공된다.
일부 양태에서, 상기 방법 중 임의의 것을 수행하도록 구성된 시스템이 본원에 제공된다.
일부 양태에서, 상기 방법 중 임의의 것의 단계를 각각 수행하는 모듈을 포함하는 시스템이 본원에 제공된다.
참조에 의한 포함
본 명세서에 언급된 모든 간행물, 특허 및 특허 출원은 각각의 개별적 간행물, 특허 또는 특허 출원이 특별히 및 개별적으로 참조로서 포함된다고 지시된 것과 동일한 정도로 본원에 참조로 포함된다.
도면의 간단한 설명
본원에 기재된 신규한 특징은 첨부된 청구범위에서 상세하게 기재되어 있다. 본원에 기재된 특징 및 이점에 대한 더 나은 이해는 본원에 기재된 원리가 이용되는 예시적인 구체예를 설명하는 하기 상세한 설명 및 첨부된 도면을 참조하여 얻어질 것이다:
도 1은 20,000명이 넘는 대상체의 코호트에 대한 NPC 스크리닝 연구의 설계 다이어그램이다.
도 2는 본 개시에 따른 NPC 스크리닝 요법의 예시적인 개략도를 보여준다.
도 3은 NPC 환자 및 비-NPC 대상체로부터의 샘플의 EBV 변이체 프로파일에 기초한 계통수 분석을 요약한다.
도 4는 29개의 보고된 변이체를 제외한 NPC 환자 및 비-NPC 대상체로부터의 샘플의 EBV 변이체 프로파일에 기초한 계통수 분석을 요약한다.
도 5는 NPC 환자, 비-NPC 대상체 및 NPC-전 대상체로부터의 샘플의 EBV 변이체 프로파일에 기초한 계통수 분석을 요약한다.
도 6은 29개의 보고된 변이체를 제외한 NPC 환자, 비-NPC 대상체 및 NPC-전 대상체로부터의 샘플의 EBV 변이체 프로파일에 기초한 계통수 분석을 요약한다.
도 7은 블록-기반 변이체 패턴 분석의 원리를 예시한다.
도 8은 13개의 NPC, 16개의 비-NPC 및 4개의 NPC-전 샘플의 EBV DNA 변이체 패턴의 블록-기반 분석을 요약한다.
도 9는 29개의 보고된 변이체를 제외한 13개의 NPC, 16개의 비-NPC 및 4개의 NPC-전 샘플의 EBV DNA 변이체 패턴의 블록-기반 분석을 요약한다.
도 10A는 블록-기반 변이체 분석을 사용하여 모든 EBV 변이체의 분석에 기초하여 훈련된 분류기를 사용하여 계산된 NPC 위험 점수를 보여준다. 도 10B는 29개의 보고된 EBV 변이체의 분석에 기초하여 훈련된 분류기를 사용하여 계산된 NPC 위험 점수를 보여준다. 도 10C는 블록-기반 변이체 분석을 사용하지만 29개의 보고된 변이체를 제외한 모든 EBV 변이체의 분석에 기초하여 훈련된 분류기를 사용하여 계산된 NPC 위험 점수를 보여준다.
도 11은 NPC 환자 및 일시적으로 양성인 EBV DNA 또는 지속적으로 양성인 EBV DNA를 갖는 비-NPC 대상체의 메틸화 수준을 요약한다.
도 12는 메틸화-민감성 효소 분해에 의해 유도된 양성 혈장 EBV DNA를 갖는 비암 대상체의 혈장 DNA의 크기 변화를 예시하는 개략도이다. 채워진 롤리팝 및 채워지지 않은 롤리팝은 각각 메틸화된 및 비메틸화된 CpG 부위를 나타낸다. 노란색 가로 막대는 혈장 EBV DNA 분자를 나타낸다. 효소 분해가 있으면, 크기 분포가 좌측으로 이동한다.
도 13은 메틸화-민감성 효소 분해에 의해 유도된 양성 EBV DNA를 갖는 NPC 환자의 혈장 DNA의 크기 변화를 예시하는 개략도이다. 채워진 롤리팝 및 채워지지 않은 롤리팝은 각각 메틸화된 및 비메틸화된 CpG 부위를 나타낸다. 노란색 가로 막대는 혈장 EBV DNA 분자를 나타낸다. 효소 분해가 있으면, 크기 분포가 좌측으로 이동한다.
도 14는 메틸화-민감성 제한 효소 HpaII에 의한 인-실리코 분해가 있거나 없는 혈장 EBV DNA의 크기 프로파일을 보여준다.
도 15는 NPC 환자 및 NPC가 없는 대상체에 대한 메틸화-민감성 제한 효소 분해가 있거나 없는 혈장 EBV DNA의 누적 크기 프로파일을 보여준다.
도 16A는 NPC와 관련된 EBV 게놈에 걸쳐 661개의 SNV 부위의 훈련 세트에서 3개의 가상 부위 A, B 및 C를 보여주는 개략도이다. 시험 샘플의 NPC 위험 점수는 혈장 EBV DNA 판독(예를 들어, 이용 가능한 유전형 정보와 함께)에 의해 포함된 이들 661개의 SNV 부위의 서브세트에 대한 유전형 패턴에 의해 결정되도록 공식화되었다. 시험 샘플의 혈장 시퀀싱 데이터로부터, 유전형 정보는 부위 A 및 C에 대해서만 이용 가능하고 부위 B에 대해서는 이용 가능하지 않았는데 그 이유는 부위 B가 임의의 시퀀싱된 EBV DNA 판독에 의해 포함되지 않았기 때문이다. 도 16B는 훈련 세트에서 모든 63개의 NPC 샘플 및 88개의 비-NPC 샘플에 대해 부위 A 및 C에 대한 유전형을 분석함으로써 이들 2개 부위에서 유전형의 가중치를 입증하는 개략도이다. 로지스틱 회귀 모델은 부위 A 및 C에서 고위험 유전형의 가중치를 알리기 위해 구축되었다. 도 16C는 훈련 모델로부터 추론된 상응하는 계수에 의해 가중된, 부위 A 및 C에서의 유전형에 기초하여 시험 샘플의 NPC 위험 점수가 도출되는 과정을 보여주는 개략도이다. 도 16D는 훈련 세트의 NPC 및 비-NPC 샘플로부터의 EBV 게놈에 걸친 5678개의 SNV의 분포를 보여준다(EBV 게놈에 걸친 1000개의 뉴클레오티드의 슬라이딩 윈도우에서 변이체의 총 수가 도시됨).
도 17A17B는 리브 원-아웃 접근법(leave one-out approach)을 사용하여 훈련 세트에서 NPC 위험 점수를 요약한 그래프이다. 도 17A는 훈련 세트에서 NPC 및 비-NPC 혈장 샘플의 NPC 위험 점수를 보여준다. 도 17B는 NPC 위험 점수 분석에 의한 NPC 및 비-NPC 샘플의 구별을 위한 ROC 곡선 분석을 보여준다.
도 18A18B는 시험 세트에서 NPC 위험 점수를 요약한 그래프이다. 도 18A는 시험 세트에서 NPC 및 비-NPC 혈장 샘플의 NPC 위험 점수를 보여준다. 도 18B는 NPC 위험 점수 분석에 의한 NPC 및 비-NPC 샘플의 구별을 위한 ROC 곡선 분석을 보여준다.
도 19A19B는 EBER 영역에 대한 유전형 패턴을 분석함으로써 NPC 위험 분석을 요약한 그래프이다. 도 19A는 EBER 영역에 대한 유전형 패턴을 분석함으로써 시험 세트에서 NPC 및 비-NPC 혈장 샘플의 NPC 위험 점수를 보여준다. 도 19B는 EBER 영역에 대한 NPC 위험 점수 분석에 기초한 NPC 및 비-NPC 샘플의 구별을 위한 ROC 곡선 분석을 보여준다.
도 20A20B는 BALF2 영역에 대한 유전형 패턴을 분석함으로써 NPC 위험을 요약한 그래프이다. 도 20A는 BALF2 영역에 대한 유전형 패턴을 분석함으로써 시험 세트에서 NPC 및 비-NPC 혈장 샘플의 NPC 위험 점수를 보여준다. 도 20B는 BALF2 영역에 대한 NPC 위험 점수 분석에 기초한 NPC 및 비-NPC 샘플의 구별을 위한 ROC 곡선 분석을 보여준다.
도 21은 본원에서 제공된 방법을 구현하도록 프로그래밍되거나 달리 구성될 수 있는 컴퓨터 제어 시스템을 도시한다.
도 22는 본원에 개시된 방법 및 시스템의 다이어그램을 보여준다.
상세한 설명
개요
양태에서, 대상체에서 병원체-관련 장애를 스크리닝하기 위한 방법 및 시스템이 본원에 제공된다. 방법 및 시스템은 대상체로부터의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 특징에 기초하여 대상체가 병원체-관련 장애를 발생시킬 위험의 평가를 제공할 수 있다. 무엇보다도, 위험 예측은 적절한 스크리닝 빈도의 결정을 가능하게 할 수 있다. 적절하고 시기적절한 후속 스크리닝은 대상체의 비용을 절감할뿐만 아니라 장애의 조기 발견도 가능하게 할 수 있다. 예를 들어, EBV-NPC의 초기 단계로의 병기 분포의 이동은 NPC 환자의 무진행 생존을 상당히 개선시킬 수 있다.
대상체가 병원체-관련 장애를 발생시킬 위험은 대상체가 병원체-관련 장애를 발생시키는 경향을 가질 가능성을 지칭할 수 있다. 일부 경우에, 본원에 기재된 바와 같은 위험은 병원체-관련 장애가 미래 시점에 임상적으로 검출될 수 있는 상태("임상적으로 검출 가능한 장애")로 발달할 가능성을 지칭한다. 일부 경우에, 대상체는 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자를 시험하는 스크리닝 검정에 의해 제1 시점에 스크리닝되고, 대상체가 제1 시점에 임상적으로 검출 가능한 병원체-관련 장애를 갖지 않는 것으로 진단되는 동안, 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 특징은 대상체가 미래 시점에 임상적으로 검출 가능한 장애를 가질 위험을 나타낼 수 있다.
임상적으로 검출 가능한 장애는 하나 이상의 잘 확립된 임상 진단 검사를 통해 검출될 수 있는 병리학적 증상을 나타내는 장애를 지칭할 수 있다. 일부 경우에, 잘 확립된 임상 진단 검사는 병원체-관련 장애의 낮은 위양성 검출율, 예를 들어, 30%, 20%, 10%, 8%, 7%, 6%, 5%, 4%, 3%, 2.5%, 2%, 1%, 0.8%, 0.5%, 0.25%, 0.15%, 0.1%, 0.08%, 0.05%, 0.02%, 0.01%, 0.005%, 0.002%, 0.001% 또는 심지어 더 낮은 값 미만의 위양성 검출율을 갖는 의학적 시험/검정을 포함한다. 잘 확립된 임상 진단 검사는 병원체-관련 장애를 검출하는 높은 민감도, 예를 들어, 적어도 30%, 40%, 50%, 60%, 70%, 80%, 85%, 90%, 92%, 94%, 95%, 96%, 97%, 98%, 99% 또는 99.5% 또는 100%의 민감도를 또한 가질 수 있는 의학적 시험/검정을 포함한다. 일부 경우에, 병원체-관련 장애는 암과 같은 병원체-관련 증식성 장애이고, 암은 하나 이상의 침습적 생검에 이어 생검 조직의 조직학적 또는 다른 검사(예를 들어, 조직 분석, 세포 DNA와 같은 세포 검사 또는 단백질 분석), 영상 검사, 예를 들어, X-선, 자기 공명 영상(MRI), 양전자 방출 단층촬영(PET) 또는 컴퓨터 단층촬영(CT)) 또는 PET-CT, 실험실 검사(예를 들어, 혈액 또는 소변 검사) 또는 신체 검사 중 하나 이상에 의해 높은 신뢰도 및 낮은 위양성률로 임상적으로 진단될 수 있다. 병원체-관련 장애의 진단은 상기 언급되거나 다른 잘 확립된 임상 검사의 결과에 기초하여 인증된 의사에 의해 제공될 수 있다. 일부 경우에, 대상체가 잘 확립된 임상 진단 검사에 의해 장애가 없는 것으로 진단될 때, 제1 스크리닝 검정의 결과는 병원체-관련 장애에 대해 대상체의 의학적 치료를 초래하지 않는다.
평가된 위험에 기초하여, 일부 경우에, 상기 방법은 대상체에서 병원체-관련 장애에 대한 스크리닝 검정의 빈도를 결정하는 것을 포함한다. 스크리닝 검정의 빈도는 위험과 상관될 수 있고, 2개의 스크리닝 검정, 예를 들어, 본원에 기재된 스크리닝 검정과 및 차후의 후속 스크리닝 검정 사이의 간격은 위험과 반비례할 수 있다. 일부 경우에, 상기 방법은 제1 시점에 수행되는 제1 스크리닝 검정으로부터 데이터를 수신하는 것을 포함한다. 제1 스크리닝 검정은 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 특징을 결정하는 것을 포함할 수 있다. 예를 들어, 제1 스크리닝 검정은 대상체로부터 생물학적 샘플을 수득하는 것을 포함하고, 생물학적 샘플은 대상체 및 잠재적으로 병원체로부터의 세포 비함유 핵산 분자, 예를 들어, 세포 비함유 DNA를 포함한다. 제1 스크리닝 검정은 또한 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 특징을 결정하는 것을 포함할 수 있다. 본원에 제공된 방법 및 시스템에서 사용될 수 있는 병원체로부터의 세포 비함유 핵산 분자의 비제한적인 특징은 생물학적 샘플에서 대상체로부터의 세포 비함유 핵산 분자와 비교하여 양(예를 들어, 카피 수 또는 백분율), 메틸화 상태, 단편 크기, 변이체 패턴 및 상대적 풍부도를 포함한다. 본원에 기재된 바와 같이, 대상체 또는 대상체로부터의 생물학적 샘플에 대해 수행된 검사 또는 검정에 관한 시점은 실제 검정이 생물학적 샘플에 대해 수행되는 시점이라기보다는 오히려 대상체가 검사를 받는 시점 또는 대상체로부터 생물학적 샘플이 수득되는 시점을 지칭할 수 있다.
일부 경우에, 본원에 제공된 방법은 (a) 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 특징을 결정하는 것을 포함하는 제1 시점에 수행된 제1 검정으로부터 데이터를 수신하는 단계로서, 상기 병원체로부터의 세포 비함유 핵산 분자의 특징이 생물학적 샘플에서 대상체로부터의 세포 비함유 핵산 분자와 비교하여 양(예를 들어, 카피 수 또는 백분율), 메틸화 상태, 변이체 패턴, 단편 크기 또는 상대적 풍부도를 포함하고, 상기 특징이 대상체가 병원체-관련 장애를 발생시킬 위험을 나타내는, 단계; 및 (b) 상기 특징에 기초하여, 대상체에서 병원체-관련 장애를 스크리닝하기 위해 제2 검정이 수행되는 제2 시점을 결정하는 단계로서, 제1 시점과 제2 시점 사이의 간격이 위험과 반비례하는, 단계를 포함한다.
본원에 기재된 바와 같은 대상체의 생물학적 샘플에서 세포 비함유 핵산 분자의 하나 이상의 특징은, 일부 경우에, 대상체에서 병원체-관련 장애(예를 들어, 암)의 상태 또는 대상체가 향후 병원체-관련 장애를 발생시킬 위험을 평가하기 위한 비침습적 접근법을 가능하게 한다. 특정 이론에 얽매이지 않길 바라며, 방법 및 시스템에서 사용될 수 있는 세포 비함유 핵산 분자의 하나 이상의 특징과 대상체가 병원체-관련 장애를 발생시킬 위험 사이의 연관성의 기저를 이루는 적어도 2개의 가능한 시나리오가 있을 수 있다. 하나의 가능한 시나리오에서, 병원체-관련 장애, 예를 들어, 병원체-관련 종양으로 고통받는 병든 조직은 초기 스크리닝(예를 들어, 제1 스크리닝 검정)시에 이미 존재할 수 있다. 그러나, 병든 조직, 예를 들어, 종양의 크기는 다른 고전적인 의학적 검사 접근법, 예를 들어, 병원체-관련 장애를 검출하는 10%, 5%, 2%, 1%, 0.5%, 0.1%, 또는 0.05% 미만의 위양성률을 갖는 접근법, 예를 들어, 내시경 및 자기 공명 영상(MRI)에 의해 선택되기에 지나치게 작을 수 있다. 장애의 발달과 함께, 예를 들어, 병든 조직, 예를 들어, 종양의 크기 성장, 예를 들어, 더 진행된 병든 조직, 예를 들어, 커진 조직(예를 들어, 커진 종양)은 차후의 스크리닝(제2 스크리닝 검정)에서 검출될 수 있다. 또 다른 가능한 시나리오는 다음과 같을 수 있다: 병원체의 핵산 분자, 예를 들어, EBV DNA는 예비 질병 상태에 있는 세포, 예를 들어, 전-악성 세포에 의해 방출될 수 있으며, 그러한 세포는 나중에 잠재적으로 암 세포와 같은 병든 세포로 발달할 수 있다. 연관성의 기저를 이루는 정확한 시나리오에 관계 없이, 본원에 설명된 요지는 이후에 임상적으로 검출 가능한 NPC를 가질 위험에 대해 대상체를 계층화하는데 사용될 수 있다.
일부 경우에, 본원에 기재된 바와 같은 특정 스크리닝 프로그램에 사용되는 실제 시간 간격은 건강 경제적 고려 사항(예를 들어, 스크리닝 비용), 대상체 선호도(예를 들어, 더 빈번한 스크리닝 간격은 특정 대상체의 라이프스타일에 더 방해가 될 수 있음) 및 다른 임상적 파라미터(예를 들어, 개체의 유전형(예를 들어, HLA 상태(Bei et al. Nat Genet. 2010;42:599-603; Hildesheim et al. J Natl Cancer Inst. 2002;94:1780-9.), NPC의 가족력, 식이 이력, 민족적 기원(예를 들어, 광둥민족))에 따라 조정된다.
일부 경우에, 본원에서 제공된 방법은 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 특징을 결정하는 것을 포함하는 제1 검정으로부터 데이터를 수신하는 단계로서, 상기 병원체로부터의 세포 비함유 핵산 분자의 특징이 생물학적 샘플에서 대상체로부터의 세포 비함유 핵산 분자와 비교하여 양(예를 들어, 카피 수 또는 백분율), 메틸화 상태, 변이체 패턴, 단편 크기, 단편 말단의 좌표, 단편 말단의 서열 모티프 또는 상대적 풍부도를 포함하는, 단계; 및 상기 병원체로부터의 세포 비함유 핵산 분자의 특징, 및 대상체의 연령, 대상체의 흡연 습관, 대상체의 병원체-관련 장애의 가족력, 대상체의 유전형 인자, 또는 대상체의 식이 이력 중 하나 이상의 인자에 기초하여 대상체가 병원체-관련 장애를 발생시킬 위험을 나타내는 보고서를 생성하는 단계를 포함한다.
양태에서, 대상체로부터의 생물학적 샘플에서 핵산 분자를 분석하기 위한 방법 및 시스템이 본원에 제공된다. 방법 및 시스템의 예는 생물학적 샘플 중 병원체로부터의 핵산 분자의 변이체 패턴 분석을 포함할 수 있다. 일부 경우에, 생물학적 샘플 중 병원체로부터의 핵산 분자는 세포 비함유 핵산 분자를 포함한다. 변이체 패턴 분석은 병원체로부터 유래된 것으로 확인된 생물학적 샘플 중 핵산 분자의 서열을 병원체의 하나 이상의 참조 게놈과 비교하고 생물학적 샘플 중 병원체로부터의 핵산 분자에서 뉴클레오티드 변이체 패턴을 후속 결정하는 것을 포함할 수 있다.
일부 경우에, 본원에서 제공된 방법 및 시스템은 생물학적 샘플 중 병원체로부터의 핵산 분자의 변이체 패턴에 기초하여 대상체에서 병원체-관련 장애의 상태 또는 위험의 결정을 포함한다. 예를 들어, 혈장에서 검출된 EBV 게놈의 유전적 변이는 향후 NPC 발생의 위험을 예측하는데 사용될 수 있다. EBV-관련 종양 및 대조군 샘플(Palser et al. J Virol 2015;89:5222-37)에 존재하는 EBV의 균주가 상이할 수 있다는 것이 이전에 보고되었지만, 이 연구에서 종양 및 대조군 샘플은 상이한 지리적 위치에서 수집되었다. 따라서, EBV 변이체의 지리적 변화를 고려할 때, 종양 샘플에서 확인된 변이체가 지리적으로 관련되어 있는지 또는 질병과 관련되어 있는지 여부를 결론짓기는 어렵다.
일부 경우에, 본원에 기재된 바와 같은 변이체 패턴 분석은 생물학적 샘플 중 병원체로부터의 핵산 분자와 병원체의 하나 이상의 참조 게놈 사이의 게놈 전체(genomewide) 비교를 포함한다. 게놈 전체 비교는 병원체의 전체 게놈에 걸친 서열 정렬 및 뉴클레오티드 변이 패턴의 후속 클러스터링 분석을 포함할 수 있다. 일부 경우에, 게놈 전체 비교는 병원체의 참조 게놈에 걸쳐 많은 수의 부위에서 뉴클레오티드 변이체의 분석을 포함한다. 이들 부위는 병원체의 전체 게놈에 걸친 모든 부위를 포함할 수 있다. 대안적으로, 병원체의 참조 게놈에 걸친 이들 부위 또는 변이체 부위는 뉴클레오티드 변이가 전형적으로 발견될 수 있는 적어도 30개, 적어도 40개, 적어도 50개, 적어도 60개, 적어도 70개, 적어도 80개, 적어도 90개, 적어도 100개, 적어도 200개, 적어도 300개, 적어도 400개, 적어도 500개, 적어도 600개, 적어도 700개, 적어도 800개, 적어도 900개, 적어도 1000개, 적어도 1100개, 적어도 1200개, 적어도 1300개, 적어도 1400개, 적어도 1500개, 적어도 1600개, 적어도 1700개, 적어도 1800개, 적어도 1900개, 적어도 2000개, 적어도 3000개, 적어도 4000개 또는 적어도 5000개의 부위를 포함할 수 있다. 본원에 기재된 바와 같은 뉴클레오티드 변이체는 단일 뉴클레오티드 변이체(SNV)를 포함할 수 있다. 본원에 제공된 변이체 패턴 분석에 사용되는 변이체 부위는 병원체의 게놈에서 확인된 전형적인 SNV를 포함할 수 있다. 일부 경우에, 변이체 부위는 삽입, 결실 및 융합을 포함할 수 있다.
본원에 제공된 게놈 전체 변이체 패턴 분석은 개별 단일 뉴클레오티드 다형성(SNP)의 분석보다 우수할 수 있다. 예시적인 경우에, 고정된 수의 부위에 있는 SNP는 대상체에서 병리로 이어질 수 있는 병원체의 특정 균주(들) 또는 서브타입(들)과 연관될 수 있지만, 이러한 개별 SNP의 분석에 기초한 위험 평가는 병원체의 특정 균주(들) 또는 서브타입(들)으로 제한될 수 있고 병원체의 다른 질병-렌더링 균주(들) 또는 서브타입(들)이 존재하는 경우 위험의 정확한 평가를 제공하는데 부족할 수 있다. 또 다른 예시적인 경우에, 본원에 제공된 게놈 전체 변이체 패턴 분석은, 예를 들어, 혈장과 같은 생물학적 샘플에서 세포 비함유 핵산 분자가 분석되는 경우, 생물학적 샘플에서 병원체 핵산 분자가 부족할 때 유리할 수 있다. 생물학적 샘플에서 이용 가능한 병원체 핵산 분자는 병원체 게놈의 적용범위 중 상당량을 갖지 않을 수 있다. 결과적으로, 병원체의 전체 게놈에 걸쳐 많은 수의 변이체 부위를 포함하는 게놈 전체 변이체 패턴 분석은 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 유전형 특징에 대한 비교적 더 포괄적인 판독을 제공할 수 있는 반면, 고정된 수의 개별 다형성을 포함하는 분석은 비교적 작은 영역 또는 게놈의 다수의 작은 영역으로 제한되며, 따라서 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 유전형 특징에 대한 비교적 제한된 판독을 제공할 수 있다.
일부 경우에, 본원에 제공된 변이체 패턴 분석은 병원체의 참조 게놈을 복수의 빈으로 분리하고 복수의 빈 각각에 대해 서열 판독을 분석하는 것을 포함하는 블록-기반 패턴 분석을 포함한다. 일부 경우에, 상기 방법은 병원체의 장애-관련 참조 게놈에 대한 복수의 빈 각각에 대한 유사성 지수를 결정하는 것을 포함한다. 유사성 지수는 병원체의 참조 게놈에 맵핑된 서열 판독 중 적어도 하나가 병원체의 장애-관련 참조 게놈과 동일한 뉴클레오티드 변이체를 갖는 각각의 빈 내의 변이체 부위의 비율과 상관될 수 있다. 일부 경우에, 병원체의 장애-관련 참조 게놈은 병원체의 복수의 장애-관련 참조 게놈을 포함하고, 상기 방법은 병원체의 복수의 장애-관련 참조 게놈 각각에 대한 복수의 빈 각각에 대한 각각의 유사성 지수를 결정하는 단계; 및 각각의 빈 내의 각각의 유사성 지수가 컷오프 값을 초과하는 복수의 장애-관련 참조 게놈의 비율에 기초하여 복수의 빈 각각에 대한 빈 스코어를 결정하는 단계를 포함한다.
세포 비함유 핵산 분자의 검정
대상체의 생물학적 샘플로부터의 세포 비함유 핵산 분자의 스크리닝 검정은 임의의 적절한 핵산 검정일 수 있다. 예를 들어, 시퀀싱 방법은 세포 비함유 핵산 분자의 양(예를 들어, 카피 수 또는 백분율), 메틸화 상태, 단편 크기 또는 상대적 풍부도를 분석하기 위해 사용될 수 있다. 대안적으로 또는 추가적으로, 다양한 중합효소 연쇄 반응(PCR) 방법 또는 마이크로어레이 기반 접근법과 같은 증폭 또는 하이브리드화 기반 방법이 또한 사용될 수 있다. 일부 경우에, 예를 들어, 핵산 분자의 메틸화 상태를 분석하기 위해 면역침전 방법이 사용된다.
본 개시의 일부 예에서, 세포 비함유 병원체 핵산 분자, 예를 들어, 세포 비함유 EBV DNA를 검출하기 위한 스크리닝 검정은 상이한 시점에 수행된 하나 초과의 시험을 포함하고, 다중 시험에 대한 세포 비함유 병원체 핵산 분자의 검출 가능성은 대상체가 병원체-관련 장애를 발생시킬 위험을 나타낼 수 있다. 예를 들어, 검정은 2단계 검정, 또는 3, 4, 5, 6, 7, 8, 9, 10개 또는 심지어 그 이상의 시험을 포함하는 검정 요법을 포함할 수 있다. 일부 시험은 동일한 시점에 수행될 수 있는 반면, 다른 일부는 상이한 시점(들)에 수행될 수 있으며, 대안적으로 모든 시험은 상이한 시점에 수행될 수 있다.
상이한 스크리닝 검정의 타이밍 또는 스크리닝 빈도는 본원에 제공된 방법 및 시스템에 의해 결정될 수 있다. 제1 스크리닝 검정과 제2 스크리닝 검정 사이의 간격은 적어도 약 2개월, 4개월, 6개월, 8개월, 10개월 또는 12개월일 수 있다. 일부 경우에, 간격은 적어도 약 12개월이다. 제1 스크리닝 검정과 제2 스크리닝 검정 사이의 간격은 약 1년, 1.5년, 2년, 2.5년, 3년, 3.5년, 4년, 4.5년, 5년, 6년, 7년, 8년, 9년, 10년 이상일 수 있다. 제1 스크리닝 검정이 병원체-관련 장애의 존재를 나타내는 양성 결과를 제공할 수 있지만, 대상체가 잘 확립된 임상적 진단 방법에 의해 병원체-관련 장애가 없는 것으로 정상적으로 진단되면(예를 들어, 임상적으로 검출 가능한 병원체-관련 장애 없음) 간격은 길 수 있다. 본원에 제공된 방법 및 시스템은 대상체가 향후에, 예를 들어, 6개월, 12개월, 2년, 3년, 5년 또는 10년 이내에 병원체-관련 장애를 발생시킬 위험을 예측할 수 있다. 평가된 위험을 기반으로, 적절한 후속 시점을 결정할 수 있다.
샘플을 획득하고 검정을 수행하는 사이의 시간은 검정 또는 방법의 민감도 및/또는 특이성을 개선하기 위해 최적화될 수 있다. 일부 구체예에서, 샘플은 검정을 수행하기 직전에 획득될 수 있다(예를 들어, 제1 샘플은 제1 검정을 수행하기 전에 획득되고, 제2 샘플은 제1 검정을 수행한 후 그러나 제2 검정을 수행하기 전에 획득된다). 일부 구체예에서, 샘플은 획득되고 검정을 수행하기 전 일정 기간(예를 들어, 몇 시간, 며칠 또는 몇 주) 동안 저장될 수 있다. 일부 구체예에서, 검정은 대상체로부터 샘플을 수득한 후 1일, 2일, 3일, 4일, 5일, 6일, 1주, 2주, 3주, 4주, 5주, 6주, 7주, 8주, 3개월, 4개월, 5개월, 6개월, 1년 또는 1년 초과 이내에 샘플에 대해 수행될 수 있다.
검정(예를 들어, 제1 검정 또는 제2 검정)을 수행하고 샘플이 장애, 예를 들어, 종양을 나타내는 마커 또는 마커 세트를 포함하는지 여부를 결정하는 사이의 시간은 다양할 수 있다. 일부 예에서, 시간은 검정 또는 방법의 민감도 및/또는 특이성을 개선하기 위해 최적화될 수 있다. 일부 구체예에서, 샘플이 종양을 나타내는 마커 또는 마커 세트를 포함하는지 여부를 결정하는 것은 검정 수행의 최대 0.1시간, 0.5시간, 1시간, 2시간, 4시간, 8시간, 12시간, 24시간, 2일, 3일, 4일, 5일, 6일, 1주, 2주, 3주 또는 1개월 이내에 발생할 수 있다.
본원에 기재된 생물학적 샘플의 시퀀싱 분석은 병원체로부터의 세포 비함유 핵산 분자의 하나 이상의 특징의 분석을 위해 수행될 수 있다. 본원에 제공된 방법은 생물학적 샘플로부터 핵산 분자, 예를 들어, 세포 비함유 핵산 분자, 세포 핵산 분자 또는 둘 모두를 시퀀싱하는 것을 포함할 수 있다. 일부 예에서, 본원에 제공된 방법은 생물학적 샘플의 핵산 분자로부터의 시퀀싱 결과, 예를 들어, 시퀀싱 판독을 분석하는 것을 포함한다. 본원에 제공된 방법 및 시스템은 시퀀싱의 활성 단계를 포함하거나 포함하지 않을 수 있다. 방법 및 시스템은 시퀀서로부터 시퀀싱 데이터를 수신하고 처리하기 위한 수단을 포함하거나 제공할 수 있다. 방법 및 시스템은 또한 시퀀싱 프로세스의 파라미터(들)를 조정하기 위해 시퀀서에 명령을 제공하기 위한 수단, 예를 들어, 시퀀싱 결과의 분석에 기초한 명령을 포함하거나 제공할 수 있다.
Illumina 시퀀싱 플랫폼 및 454/Roche 플랫폼과 같은 상업적으로 이용 가능한 시퀀싱 장비가 본 개시에 제공된 방법에 사용될 수 있다. 핵산의 시퀀싱은 당 분야에 공지된 임의의 방법을 사용하여 수행될 수 있다. 예를 들어, 시퀀싱은 차세대 시퀀싱이 포함할 수 있다. 일부 예에서, 핵산의 시퀀싱은 연쇄 종결 시퀀싱, 하이브리드화 시퀀싱, Illumina 시퀀싱(예를 들어, 가역적 종결자 염료 사용), 이온 토렌트 반도체 시퀀싱, 질량 분광 광도법 시퀀싱, 대량 병렬 시그니처 시퀀싱(MPSS), Maxam-Gilbert 시퀀싱, 나노포어 시퀀싱, 폴로니 시퀀싱, 파이로시퀀싱, 샷건 시퀀싱, 단일 분자 실시간(SMRT) 시퀀싱, SOLiD 시퀀싱(4개의 형광 표지된 이염기 프로브를 사용한 하이브리드화), 범용 시퀀싱 또는 이들의 임의의 조합을 사용하여 수행될 수 있다.
본원에 제공된 방법에 사용될 수 있는 하나의 시퀀싱 방법은, 예를 들어, Illumina "페어드 엔드 모듈(Paired End Module)"을 이의 게놈 분석기와 함께 사용하는 페어드 말단 시퀀싱을 포함할 수 있다. 이 모듈을 사용하여, 게놈 분석기가 제1 시퀀싱 판독을 완료한 후, 페어드-엔드 모듈이 원래 주형의 재합성 및 클러스터 생성의 제2 라운드를 지시할 수 있다. 본원에 제공된 방법에서 페어드 엔드 판독을 사용함으로써, 핵산 분자의 양 말단으로부터 서열 정보를 얻고 양 말단을 참조 게놈, 예를 들어, 병원체의 게놈 또는 숙주 유기체의 게놈에 맵핑할 수 있다. 양 말단을 맵핑한 후, 본원에 제공된 방법의 일부 구체예에 따라 병원체 통합 프로파일을 결정할 수 있다.
페어드-엔드 시퀀싱 동안, 핵산 분자의 제1 말단으로부터의 서열 판독은 적어도 20개, 적어도 25개, 적어도 30개, 적어도 35개, 적어도 40개, 적어도 45개, 적어도 50개, 적어도 55개, 적어도 60개, 적어도 65개, 적어도 70개, 적어도 75개, 적어도 80개, 적어도 85개, 적어도 90개, 적어도 95개, 적어도 100개, 적어도 105개, 적어도 110개, 적어도 105개, 적어도 120개, 적어도 125개, 적어도 130개, 적어도 135개, 적어도 140개, 적어도 145개, 적어도 150개, 적어도 155개, 적어도 160개, 적어도 165개, 적어도 170개, 적어도 175개 또는 적어도 180개의 연속 뉴클레오티드를 포함할 수 있다. 핵산 분자의 제1 말단으로부터의 서열 판독은 최대 24개, 최대 28개, 최대 32개, 최대 38개, 최대 42개, 최대 48개, 최대 52개, 최대 58개, 최대 62개, 최대 68개, 최대 72개, 최대 78개, 최대 82개, 최대 88개, 최대 92개, 최대 98개, 최대 102개, 최대 108개, 최대 122개, 최대 128개, 최대 132개, 최대 138개, 최대 142개, 최대 148개, 최대 152개, 최대 158개, 최대 162개, 최대 168개, 최대 172개 또는 최대 180개의 연속 뉴클레오티드를 포함할 수 있다. 핵산 분자의 제1 말단으로부터의 서열 판독은 약 20개, 약 25개, 약 30개, 약 35개, 약 40개, 약 45개, 약 50개, 약 55개, 약 60개, 약 65개, 약 70개, 약 75개, 약 80개, 약 85개, 약 90개, 약 95개, 약 100개, 약 105개, 약 110개, 약 105개, 약 120개, 약 125개, 약 130개, 약 135개, 약 140개, 약 145개, 약 150개, 약 155개, 약 160개, 약 165개, 약 170개, 약 175개 또는 약 180개의 연속 뉴클레오티드를 포함할 수 있다. 핵산 분자의 제2 말단으로부터의 서열 판독은 적어도 20개, 적어도 25개, 적어도 30개, 적어도 35개, 적어도 40개, 적어도 45개, 적어도 50개, 적어도 55개, 적어도 60개, 적어도 65개, 적어도 70개, 적어도 75개, 적어도 80개, 적어도 85개, 적어도 90개, 적어도 95개, 적어도 100개, 적어도 105개, 적어도 110개, 적어도 105개, 적어도 120개, 적어도 125개, 적어도 130개, 적어도 135개, 적어도 140개, 적어도 145개, 적어도 150개, 적어도 155개, 적어도 160개, 적어도 165개, 적어도 170개, 적어도 175개 또는 적어도 180개의 연속 뉴클레오티드를 포함할 수 있다. 핵산 분자의 제2 말단으로부터의 서열 판독은 최대 24개, 최대 28개, 최대 32개, 최대 38개, 최대 42개, 최대 48개, 최대 52개, 최대 58개, 최대 62개, 최대 68개, 최대 72개, 최대 78개, 최대 82개, 최대 88개, 최대 92개, 최대 98개, 최대 102개, 최대 108개, 최대 122개, 최대 128개, 최대 132개, 최대 138개, 최대 142개, 최대 148개, 최대 152개, 최대 158개, 최대 162개, 최대 168개, 최대 172개 또는 최대 180개의 연속 뉴클레오티드를 포함할 수 있다. 핵산 분자의 제2 말단으로부터의 서열 판독은 약 20개, 약 25개, 약 30개, 약 35개, 약 40개, 약 45개, 약 50개, 약 55개, 약 60개, 약 65개, 약 70개, 약 75개, 약 80개, 약 85개, 약 90개, 약 95개, 약 100개, 약 105개, 약 110개, 약 105개, 약 120개, 약 125개, 약 130개, 약 135개, 약 140개, 약 145개, 약 150개, 약 155개, 약 160개, 약 165개, 약 170개, 약 175개 또는 약 180개의 연속 뉴클레오티드를 포함할 수 있다. 일부 경우에, 핵산 분자의 제1 말단으로부터의 서열 판독은 적어도 75개의 연속 뉴클레오티드를 포함할 수 있다. 일부 경우에, 핵산 분자의 제2 말단으로부터의 서열 판독은 적어도 75개의 연속 뉴클레오티드를 포함할 수 있다. 핵산 분자의 제1 말단 및 제2 말단으로부터의 서열 판독은 동일한 길이 또는 상이한 길이일 수 있다. 생물학적 샘플의 복수의 핵산 분자로부터의 서열 판독은 동일한 길이 또는 상이한 길이일 수 있다.
본원에 제공된 방법에서의 시퀀싱은 다양한 시퀀싱 깊이에서 수행될 수 있다. 시퀀싱 깊이는 유전자좌에 정렬된 서열 판독에 의해 유전자좌가 포함되는 횟수를 지칭할 수 있다. 유전자좌는 뉴클레오티드만큼 작거나, 염색체 아암만큼 크거나, 전체 게놈만큼 클 수 있다. 본원에 제공된 방법에서 시퀀싱 깊이는 50x, 100x 등일 수 있으며, 여기서 "x" 앞의 숫자는 유전자좌가 서열 판독에 의해 포함되는 횟수를 지칭한다. 시퀀싱 깊이는 또한 다중 유전자좌, 또는 전체 게놈에 적용될 수 있으며, 이 경우에 x는 유전자좌 또는 반수체 게놈, 또는 전체 게놈이 각각 시퀀싱되는 평균 횟수를 지칭할 수 있다. 일부 경우에, 적어도 100x 시퀀싱 깊이에서 수행되는 것을 지칭할 수 있는 울트라-딥(ultra-deep) 시퀀싱이 본원에 기재된 방법에서 수행된다.
시퀀싱 과정 동안 핵산 내의 특정 뉴클레오티드가 판독되는 횟수 또는 평균 횟수(예를 들어, 시퀀싱 깊이)는 시퀀싱되는 핵산의 길이보다 수배 더 클 수 있다. 일부 예에서, 시퀀싱 깊이가 핵산의 길이보다 충분히 큰 경우(예를 들어, 적어도 5배만큼), 시퀀싱은 '딥 시퀀싱'으로 지칭될 수 있다. 일부 예에서, 시퀀싱 깊이는 시퀀싱되는 핵산의 길이보다 평균 적어도 약 5배 초과, 적어도 약 10배 초과, 적어도 약 20배 초과, 적어도 약 30배 초과, 적어도 약 40배 초과, 적어도 약 50배 초과, 적어도 약 60배 초과, 적어도 약 70배 초과, 적어도 약 80배 초과, 적어도 약 90배 초과, 적어도 약 100배 초과일 수 있다. 일부 경우에, 샘플은 특정 분석물(예를 들어, 핵산 단편 또는 암-특이적 핵산 단편)에 대해 농축될 수 있다.
본원에 제공된 방법에서 생성된 서열 판독(또는 시퀀싱 판독)은 핵산 분자의 임의의 부분 또는 전부로부터 시퀀싱된 뉴클레오티드의 스트링을 지칭할 수 있다. 예를 들어, 서열 판독은 핵산 단편에 상보적인 뉴클레오티드의 짧은 스트링(예를 들어, 20-150), 핵산 단편의 말단에 상보적인 뉴클레오티드의 스트링, 또는 생물학적 샘플에 존재하는 전체 핵산 단편에 상보적인 뉴클레오티드의 스트링일 수 있다. 서열 판독은, 예를 들어, 시퀀싱 기술을 사용하여 다양한 방법으로 수득될 수 있다.
양/검출 가능성
방법 및 시스템에서 사용될 수 있는 세포 비함유 핵산 분자의 특징 중 하나는 병원체로부터의 세포 비함유 핵산 분자의 양(예를 들어, 카피 수 또는 백분율)이다. 본 개시의 일부 양태는 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 양(예를 들어, 카피 수 또는 백분율)의 평가에 기초하여 대상체가 병원체-관련 장애를 발생시킬 위험의 계층화에 관한 것이다.
생물학적 샘플에서 핵산 분자의 카피 수는 핵산 분자의 검출 가능성과 관련될 수 있다. 특정 검정 방법이 주어지면, 핵산 주형의 검출 가능성은 주형 분자의 카피 수와 관련될 수 있으며, 예를 들어, 검정 방법의 검출 하한 미만의 카피 수는 검출 불가능할 수 있는 반면, 검정 방법의 검출 하한 이상의 카피 수는 "검출 가능"으로 지칭될 수 있다. 예를 들어, 정량적 중합효소 연쇄 반응(qPCR) 방법은 일반적으로 검출 한계를 가질 수 있으며, 그 한계 밑에서 주형 분자의 신호는 배경 잡음과 구별될 수 없다. 따라서, 일부 경우에, 본원에 제공된 방법 및 시스템은 생물학적 샘플에서 세포 비함유 핵산 분자의 검출 가능성에 직접적으로 의존하며, 이는 생물학적 샘플에서 이들의 카피 수와 상관될 수 있다. 일부 경우에, 생물학적 샘플에서 세포 비함유 핵산 분자의 카피 수는 직접 측정된다. 다른 경우에, 카피 수는 세포 비함유 핵산 분자 자체의 검출을 통해 암묵적으로 측정되거나 유추된다.
중합효소 연쇄 반응(PCR) 또는 정량적 PCR(qPCR)과 같은 검출 검정은 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 존재 또는 부재 또는 카피 수를 평가하기 위해 수행될 수 있다. 프로브는 병원체-특이적 게놈 영역, 예를 들어, EBV-특이적 게놈 DNA 서열, 인간 파필로마바이러스(HPV)-특이적 게놈 DNA 서열, 또는 B형 간염 바이러스(HBV)-특이적 게놈 DNA 서열을 표적화하도록 설계될 수 있다.
실시예 및 구체예가 본원에 제공되었지만, 예를 들어, 카피 수 및 NPC와 관련된 추가 기술 및 구체예는 2011년 11월 30일에 출원된 PCT AU/2011/001562에서 찾을 수 있으며, 이는 그 전체가 본원에 참조로 포함된다. NPC는 EBV 감염과 밀접하게 관련될 수 있다. 중국 남부에서, EBV 게놈은 거의 모든 NPC 환자의 종양 조직에서 발견될 수 있다. NPC 조직으로부터 유래된 혈장 EBV DNA는 NPC에 대한 종양 마커로 개발되었다(Lo et al. Cancer Res 1999; 59: 1188-1191). 특히, 실시간 qPCR 검정이 EBV 게놈의 BamHI-W 단편을 표적화하는 혈장 EBV DNA 분석에 사용될 수 있다. 각각의 EBV 게놈 5에 약 6 내지 12개의 반복되는 BamHI-W 단편이 있을 수 있고, 각 NPC 종양 세포에 대략 50개의 EBV 게놈이 있을 수 있다(Longnecker et al. Fields Virology, 5th Edition, Chapter 61 "Epstein-Barr virus"; Tierney et al. J Virol. 2011; 85: 12362-12375). 다시 말해서, 각각의 NPC 종양 세포에는 PCR 표적의 약 300-600개(예를 들어, 약 500개)의 카피가 있을 수 있다. 종양 세포 당 이렇게 높은 수의 표적은 혈장 EBV DNA가 초기 NPC의 검출에서 매우 민감한 마커인 이유를 설명할 수 있다. NPC 세포는 EBV DNA의 단편을 대상체의 혈류에 침착시킬 수 있다. 이 종양 마커는 NPC의 모니터링(Lo et al. Cancer Res 1999; 59: 5452-5455) 및 예후 제공(Lo et al. Cancer Res 2000; 60: 6878-6881)에 유용할 수 있다.
qPCR 검정은 또한 샘플에서 HPV, HBV 또는 임의의 다른 바이러스 DNA의 양을 측정하기 위해 EBV에 대해 본원에 기재된 것과 유사한 방식으로 사용될 수 있다. 그러한 분석은 특히 자궁경부암(CC), 두경부 편평 세포 암종(HNSCC), 간경화증 또는 간세포 암종(HCC)의 스크리닝에 유용할 수 있다. 한 예에서, qPCR 검정은 HPV 게놈의 다형성 L1 영역 내의 영역(예를 들어, 200개 뉴클레오티드)을 표적화한다. 보다 구체적으로, L1 영역에서 하나 이상의 과가변 표면 루프를 인코딩하는 서열에 선택적으로 하이브리드화하는 qPCR 프라이머의 사용이 본원에서 고려된다.
대안적으로, 병원체로부터의 세포 비함유 핵산 분자는 시퀀싱 기술을 사용하여 검출 및 정량화될 수 있다. 예를 들어, cfDNA 단편은 시퀀싱되고 HPV 참조 게놈에 정렬되고 정량화될 수 있다. 또는 다른 예에서, cfDNA 단편의 서열 판독은 EBV 또는 HBV의 참조 게놈에 정렬되고 정량화된다.
본원에 제공된 검정에 의해 측정된 바와 같이 병원체로부터의 세포 비함유 핵산 분자의 검출 가능성 또는 카피 수는 대상체가 병원체-관련 장애를 발생시킬 위험을 나타낼 수 있다. 일부 예에서, 병원체로부터의 세포 비함유 핵산 분자의 카피 수가 높을수록, 대상체가 병원체-관련 장애를 발생시킬 위험의 경향이 더 높다. 일부 경우에, 하나의 특정 시점 또는 다수의 시점에 걸쳐 하나 이상의 검정 동안 병원체로부터의 세포 비함유 핵산 분자의 검출 가능성은 대상체가 병원체-관련 장애를 발생시킬 위험을 나타낸다. 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자가 검출 가능한 경우, 본원에 제공된 검정에 의해 그 분자가 검출될 수 없는 경우와 비교하여 대상체는 병원체-관련 장애에 대한 위험의 경향이 더 높을 수 있다. 다단계 검출 검정은 상기 논의된 바와 같은 타이밍에 수행될 수 있다.
본 개시의 일부 예에서, 생물학적 샘플에서 세포 비함유 병원체 핵산 분자를 검출하기 위해 2단계 검정이 수행된다. 일부 경우에, 2단계 검정의 제1 시험이 수행되고, 나중에 제1 시점에서의 검정 결과에 따라 2단계 검정의 제2 시험이 수행되거나 수행되지 않는다. 예를 들어, 제1 시험이 양성 결과를 제공하는 경우, 예를 들어, 제1 생물학적 샘플에서 세포 비함유 병원체 핵산 분자가 검출되는 경우, 2단계 검출 검정의 제2 시험이 수행될 수 있다; 제1 시험에서 음성 결과가 나온 경우, 제2 시험은 수행되지 않을 수 있다. 다른 경우에, 제1 시험과 관계 없이 제2 시험이 수행된다. 일부 예에서, 2단계 검출 검정의 둘 모두의 시험이 양성 결과를 갖는 경우는 영구적 양성으로 지칭되는 반면, 제1 또는 제2 시험만이 양성 결과를 갖는 경우는 일시적 양성으로 지칭된다. 한 예시적인 예에서, "양성" 검정 결과는 "음성" 검정 결과와 비교하여 대상체가 병원체-관련 장애, 예를 들어 EBV-관련 NPC를 발생시킬 위험이 더 높음을 나타내는 반면, "영구적 양성" 검정 결과는 "일시적 양성" 검정 결과와 비교하여 더 높은 위험을 나타낸다. 일부 예시적인 예에서, 제1 시점에 수행된 2단계 검출 검정 중에 영구적 양성 결과를 얻은 경우 일시적 양성 결과를 얻은 경우와 비교하여 제1 시점과 제2 시점 사이에 더 긴 간격이 설정될 수 있다. 예를 들어, EBV-관련 NPC 스크리닝에서, 제1 2단계 검출 검정으로부터 영구적 양성 결과가 얻어지면, 후속 제2 스크리닝 검정은 제1 검출 검정의 약 1년 이내에 수행되도록 권장될 수 있다. 대조적으로, 일시적 양성 결과가 제1 2단계 검출 검정으로부터 얻어지면, 후속 제2 스크리닝 검정은 제1 검출 검정의 약 2년 이내에 수행될 수 있다. 음성 결과가 나올 경우 후속 스크리닝 검정을 위해 4년 또는 심지어 더 긴 간격을 둘 수 있다. 일부 경우에, 더 높은 위험을 나타내는 선행 양성 결과는 더 낮은 위험을 나타내는 후속 결과에 의해 처리될 간격 선택을 무시할 수 있다. 예를 들어, 1년차에 영구적 양성 결과를 얻으면, 대상체는 다음 4년 동안 수행된 후속 검정으로부터 얻은 결과에 관계 없이 다음 4년 동안 매년 추적될 것이다. 예시적인 예가 도 2에 제공되며 실시예 2에 더 상세하게 설명된다. 검출 검정과 유사하게, 병원체로부터의 세포 비함유 핵산 분자의 다른 특징에 기초한 위험 평가는 또한 이러한 예시적이거나 유사한 스크리닝 요법을 따를 수 있다.
검정의 제2 시험은 제1 검정의 몇 시간, 며칠 또는 몇 주 후에 수행될 수 있다. 한 예에서, 제2 검정은 제1 검정 직후에 수행될 수 있다. 다른 경우에, 제2 검정은 제1 검정 후 1일, 2일, 3일, 4일, 5일, 6일, 1주, 2주, 3주, 4주, 5주, 6주, 7주, 8주, 3개월, 4개월, 5개월, 6개월, 1년 또는 1년 초과 이내에 수행될 수 있다. 특정 예에서, 제2 검정은 제1 샘플의 2주 이내에 수행될 수 있다. 일반적으로, 검정의 제2 시험은 병원체-관련 장애, 예를 들어, 종양이 환자에서 검출될 수 있는 특이성을 개선시키기 위해 사용될 수 있다. 제1 시험과 제2 시험이 수행되는 사이의 시간은 실험적으로 결정될 수 있다. 일부 구체예에서, 상기 방법은 2개 이상의 시험을 포함할 수 있고, 두 시험 모두는 동일한 샘플을 사용한다(예를 들어, 단일 샘플은 제1 검정을 수행하기 전에 대상체, 예를 들어, 환자로부터 수득되고, 제2 검정을 수행할 때까지 일정 기간 동안 보존된다). 예를 들어, 대상체로부터 동시에 2개의 혈액 튜브를 얻을 수 있다. 제1 시험에 제1 튜브를 사용할 수 있다. 대상체의 제1 시험 결과가 양성인 경우에만 제2 튜브를 사용할 수 있다. 샘플은 당업자에게 공지된 임의의 방법을 사용하여(예를 들어, 극저온으로) 보존될 수 있다. 이러한 보존은 특정 상황에서, 예를 들어, 대상체가 양성 시험 결과를 받을 수 있고(예를 들어, 제1 검정이 암을 나타냄), 환자가 제2 검정을 수행할 때까지 기다릴 수 없고 오히려 두 번째 의견을 구하는 것을 선택할 때 유리할 수 있다.
메틸화 상태
본 개시의 일부 양태는 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 메틸화 상태의 평가에 기초하여 대상체가 병원체-관련 장애를 발생시킬 위험의 계층화에 관한 것이다.
세포 비함유 병원체 핵산 분자의 메틸화는 병원체-관련 장애(예를 들어, EBV-관련 NPC 또는 HPV-관련 자궁경부암)를 갖는 환자 및 장애가 없는 대상체(예를 들어, 비-NPC 대상체)로부터의 샘플을 구별할 수 있다. 예를 들어, NPC와 관련된 혈장 EBV DNA의 메틸화 상태는 그 전체가 본원에 참조로 포함되는 미국 특허 출원 16/046,795에 제시된 바와 같이 비-NPC 대상체에서 검출된 혈장 EBV DNA의 메틸화 상태와 상이할 수 있다. 바이설파이트 시퀀싱에 의해 분석될 때 NPC 환자와 검출 가능한 EBV DNA를 갖는 비-NPC 대상체로부터의 혈장 DNA 사이에 상이한 메틸화를 갖는 영역이 있을 수 있다. 결과적으로, 이러한 차별적으로 메틸화된 영역에서의 메틸화 상태의 분석은 NPC 및 비-NPC 대상체를 구별할 수 있다. 본원에 기재된 바와 같이, NPC-관련 EBV DNA 메틸화 상태는 또한 NPC 발생의 위험을 예측할 수 있고 NPC 스크리닝의 간격을 조정하는데 사용될 수 있다. 예를 들어, NPC-관련 EBV DNA 메틸화 패턴을 갖는 대상체는 NPC-관련 EBV DNA 메틸화 패턴을 갖지 않는 대상체에 비해 더 자주 스크리닝될 수 있다. 일부 경우에, 바이설파이트 시퀀싱 대신에, 예를 들어, Pacific Biosciences로부터의 것과 같은 단일 분자 시퀀싱 시스템(Kelleher et al. Methods Mol Biol. 2018;1681:127-137; Powers et al. BMC Genomics. 2013;14:675) 및 Oxford 나노포어(Simpson et al. Nat Methods. 2017;14:407-10) 뿐만 아니라 시퀀싱 전에 메틸화-민감성 제한 효소 처리의 사용을 이용하여, 다른 유형의 메틸화-인식 시퀀싱이 수행될 수 있다. 또 다른 경우에, 메틸화를 인식하고 시퀀싱을 기반으로 하지 않는 분자 접근법, 예를 들어, 메틸화-특이적 PCR(Herman et al. Proc Natl Acad Sci U S A. 1996;93:9821-6), 메틸화-민감성 효소(예를 들어, 제한 효소) 및 바이설파이트 전환에 이어 질량 분석법(van den Boom et al. Methods Mol Biol. 2009;507:207-27; Nygren et al. Clin Chem. 2010;56:1627-35)에 기반한 검출 시스템, 및 메틸화 상태에 기반한 DNA 분자의 차등 침전에 기반한 접근법(예를 들어, 항-메틸화 시토신 항체(Shen et al. Nature. 2018;563:579-83; Zhou et al. PLoS One. 2018;13:e0201586) 또는 메틸화-결합 단백질(Zhang et al. Nat Commun. 2013; 4: 1517) 사용)을 이용할 수 있다.
일부 경우에, 세포 비함유 병원체 핵산 분자, 예를 들어, 혈장 EBV DNA의 메틸화 패턴은 병원체-관련 장애, 예를 들어, NPC와 같은 병원체-관련 암의 검출, 또는 임상적으로 검출 가능한 장애를 가질 미래 위험을 예측하는데 사용될 수 있다. 전술한 바와 같이, 한 가지 접근법은 바이설파이트를 사용하여 메틸화되지 않은 시토신의 우라실로의 전환을 위해 핵산 분자를 처리하는 것이다. 메틸화된 시토신은 바이설파이트에 의해 변경되지 않고 시토신으로 남는다. 생물학적 샘플에서 핵산 분자의 메틸화 상태를 검출하기 위해 시퀀싱과 같은 바이설파이트-처리된 핵산 분자의 후속 검사를 사용할 수 있다.
한 예에서, 혈장 EBV DNA의 메틸화 수준의 차이는 메틸화-민감성 제한 효소 분석을 사용하여 결정된다. 메틸화-민감성 제한 효소의 하나의 비제한적인 예는 메틸화되지 않은 "CCGG" 모티프를 운반하는 분자를 절단할 수 있지만 "CCGG"가 없거나 메틸화된 "CCGG"를 갖는 분자를 변경하지 않은 상태로 두는 HpaII이다. 대안적으로 또는 추가적으로, 다른 메틸화-민감성 제한 효소가 사용될 수 있다. 한 예에서, 비암 대상체에서 혈장 EBV DNA의 낮은 메틸화 수준으로 인해, 비암 대상체에서 혈장 EBV DNA는 메틸화-민감성 제한 효소에 의한 절단에 더 민감할 수 있다. 효소 분해의 민감성은, 예를 들어, 비제한적으로 대량 병렬 시퀀싱, 겔 전기영동, 모세관 전기영동, 중합효소 연쇄 반응(PCR) 및 실시간 PCR에 의해 결정될 수 있다.
대량 병렬 시퀀싱과 같은 시퀀싱이 메틸화-민감성 제한 효소에 의한 분해 정도를 분석하는데 사용되는 경우, 효소 분해가 있거나 없는 병원체 세포 비함유 핵산 분자, 예를 들어, 혈장 EBV DNA의 크기 분포는 분해 정도를 반영하는데 사용될 수 있다. 도 1213에 도시된 바와 같이, 크기 분포 곡선의 왼쪽으로의 이동은 혈장 EBV DNA의 크기 분포의 축소를 나타낼 수 있다. 곡선이 왼쪽으로 더 많이 이동할수록 더 높은 효소 분해 정도를 반영하고 더 낮은 DNA의 메틸화 수준을 의미할 수 있다.
본원에 기재된 바와 같은 세포 비함유 병원체 핵산 분자의 메틸화 상태는 개별 메틸화 부위에 대한 메틸화 밀도, 병원체의 게놈 상의 인접 영역에 걸친 메틸화/비메틸화 부위의 분포, 병원체의 게놈 상의 하나 이상의 특정 영역 내 또는 병원체의 전체 게놈에 걸친 개별 메틸화 부위 각각에 대한 메틸화의 패턴 또는 수준, 및 비-CpG 메틸화를 포함할 수 있다. 일부 경우에, 메틸화 상태는, 예를 들어, 병원체-관련 장애(예를 들어, EBV-관련 NPC 또는 HPV-관련 자궁경부암)를 갖는 환자 및 장애가 없는 대상체(예를 들어, 비-NPC 대상체)로부터의 샘플 사이에서 확인될 수 있는 개별 분화된 메틸화 부위에 대한 메틸화 수준(또는 메틸화 밀도)을 포함한다. 메틸화 밀도는 주어진 메틸화 부위에 대해, 그러한 메틸화 부위를 함유하는 관심 핵산 분자의 총 수에 대해 주어진 메틸화 부위에서의 메틸화된 핵산 분자의 분획을 지칭할 수 있다. 예를 들어, 간 조직에서 제1 메틸화 부위의 메틸화 밀도는 전체 간 DNA 분자에 대한 제1 부위에서의 메틸화된 간 DNA 분자의 분획을 지칭할 수 있다. 일부 경우에, 메틸화 상태는 개별 메틸화 부위 사이의 메틸화/비메틸화 상태의 일관성(예를 들어, 패턴 또는 일배체형)을 포함한다.
일부 경우에, 본원에 기재된 바와 같은 스크리닝 검정(예를 들어, 제1 검정 또는 제2 검정)은 이용 가능한 임의의 기술, 예를 들어, 비제한적으로 메틸화-인식 시퀀싱, 메틸화-민감성 증폭 또는 메틸화-민감성 침전을 수행함에 의해 세포 비함유 핵산 분자의 메틸화 상태를 결정하는 것을 포함할 수 있다. 실시예 및 구체예가 본원에 제공되었지만, 예를 들어, 메틸화 상태의 결정과 관련된 추가 기술 및 구체예는 2013년 9월 20일에 출원된 PCT AU/2013/001088에서 찾을 수 있으며, 이는 그 전체가 본원에 참조로 포함된다.
단편 크기
본 개시의 일부 양태는 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 단편 크기의 평가에 기초하여 대상체가 병원체-관련 장애를 발생시킬 위험의 계층화에 관한 것이다.
세포 비함유 병원체 핵산 분자의 단편 크기 분포 및/또는 상대적 풍부도는 병원체-관련 장애(예를 들어, EBV-관련 NPC 또는 HPV-관련 자궁경부암)를 갖는 환자 및 장애가 없는 대상체(예를 들어, 비-NPC 대상체)로부터의 샘플을 구별할 수 있다. 예를 들어, 혈장 EBV DNA 분자의 크기 분포 및 EBV 게놈 및 인간 게놈에 대한 순환 DNA 분자 맵핑의 비율은 문헌[Lam et al. Proc Natl Acad Sci U S A. 2018;115:E5115-E5124, 그 전체가 본원에 참조로 포함됨]에서 대량 병렬 시퀀싱을 사용하여 입증된 바와 같이 검출 가능한 혈장 EBV DNA를 갖는 비-NPC 대상체로부터 NPC 환자를 구별하는데 유용할 수 있다. 본 개시의 일부 예에 따르면, NPC-관련 크기 분포 및 EBV 및 인간 게놈에 대한 순환 DNA 맵핑의 상대적 풍부도는 또한 향후 임상적으로 검출 가능한 NPC를 발생시킬 위험의 예측에 유용할 수 있다. 한 구체예에서, 혈장 DNA 시퀀싱에서 이러한 NPC-관련 특징을 갖지만 검출 가능한 NPC가 없는 대상체는 검출 가능한 혈장 EBV DNA를 갖지만 이러한 NPC-관련 특징이 없는 대상체보다 더 자주 추적될 수 있다. 상기 논의된 바와 같이 2단계 검정을 사용하는 것에 비해 NPC의 위험을 계층화하기 위해 이 시퀀싱-기반 분석을 사용하는 한 가지 잠재적인 실질적인 이점은 환자로부터의 다른 혈액 샘플의 수집이 생략될 수 있다는 것이다.
일부 경우에, 검정(예를 들어, 제1 검정 또는 제2 검정)은 핵산 단편 크기, 예를 들어, 혈장 EBV DNA의 단편 크기를 분석하기 위해 검정, 예를 들어, 차세대 시퀀싱 검정을 수행하는 것을 포함할 수 있다. 일부 경우에, 샘플에서 세포 비함유 바이러스 핵산의 크기를 평가하기 위해 시퀀싱이 사용된다. 예를 들어, 각각의 시퀀싱된 혈장 DNA 분자의 크기는 서열의 시작 및 끝 좌표로부터 유래될 수 있으며, 여기서 좌표는 서열 판독을 바이러스 게놈에 맵핑(정렬)함으로써 결정될 수 있다. 다양한 예에서, DNA 분자의 시작 및 끝 좌표는 단일 분자 시퀀싱에서 달성될 수 있는 바와 같이 2개의 페어드-엔드 판독 또는 양 말단을 포함하는 단일 판독으로부터 결정될 수 있다. 일부 경우에, 증폭 또는 하이브리드화 기반 방법이 또한 단편 크기 분석에 사용될 수 있다. 예를 들어, 프로브는 다양한 길이의 게놈 영역을 표적화하도록 설계될 수 있으며, 증폭(예를 들어, PCR 또는 qPCR) 또는 하이브리드화 신호는 길이가 표적 영역과 같거나 더 큰 표적 게놈 영역에서 세포 비함유 핵산 단편의 수를 나타낼 수 있다. 따라서 단편 크기 분포가 추론될 수 있다. 단편 크기 검정 및 분석을 위한 방법은 그 전체가 본원에 참조로 포함되는 미국 특허 공개 번호 US20180208999A1에 기재된 방법을 포함할 수 있다.
단편 크기 분포는 수평 축에 핵산 단편의 크기를 갖는 히스토그램으로 표시될 수 있다. 각각의 크기(예를 들어, 1 bp 분해능 내)에서 핵산 단편의 수가 결정될 수 있고, 예를 들어, 원시 수 또는 빈도 백분율로서 수직 축 상에 플롯팅될 수 있다. 크기의 분해능은 1 bp 초과일 수 있다(예를 들어, 2, 3, 4 또는 5 bp 분해능). 다음의 크기 분포 분석(크기 프로파일로도 지칭됨)은 NPC 대상체로부터의 세포 비함유 혼합물에서 바이러스 DNA 단편이 관찰 가능한 병리가 없는 대상체에서보다 통계적으로 더 길다는 것을 보여준다. 한 예시적인 예에서, 혈장 EBV DNA 분석으로부터 수득된 단편 크기 분포 곡선에서, NPC 환자의 혈장 EBV DNA 크기 프로파일에 특징적인 166-bp 피크(뉴클레오솜 패턴)가 있을 수 있는 반면, 비암 대상체로부터의 혈장 EBV DNA는 전형적인 뉴클레오솜 패턴을 나타내지 않는다.
일부 경우에, 대상체로부터의 세포 비함유 핵산 분자와 비교하여 병원체로부터의 세포 비함유 핵산 분자의 상대적 풍부도가 위험을 평가하기 위해 계산된다. 일부 경우에, 상대적 풍부도는 크기 비율로 분석된다. 다양한 예에서, 병원체 단편 대 대상체로부터의 세포 비함유 단편의 크기 비율은 병원체로부터의 세포 비함유 핵산 단편과 대상체로부터의 세포 비함유 핵산 단편 사이의 양 비율을 지칭한다. 예를 들어, 80 내지 110개 염기쌍 사이의 EBV DNA 단편의 크기 비율은 다음과 같을 수 있다:
Figure pct00001
다양한 경우에, 평가를 위해 컷오프 값 또는 임계 값이 설정된다. 예를 들어, 병원체 단편과 대상체 상염색체 단편 사이의 크기 비율을 결정하기 위한 크기 임계 값이 있을 수 있다. 또는 일부 경우에, 임계 값 미만 또는 초과의 크기를 갖는 다수의 단편이 대상체가 병원체-관련 장애를 발생시킬 위험을 나타내는 것으로 간주되도록 크기 임계 값이 설정된다. 크기 임계 값은 임의의 값일 수 있음이 이해되어야 한다. 크기 임계 값은 적어도 약 10 bp, 20 bp, 25 bp, 30 bp, 35 bp, 40 bp, 45 bp, 50 bp, 55 bp, 60 bp, 65 bp, 70 bp, 75 bp, 80 bp, 85 bp, 90 bp, 95 bp, 100 bp, 105 bp, 110 bp, 115 bp, 120 bp, 125 bp, 130 bp, 135 bp, 140 bp, 145 bp, 150 bp, 155 bp, 160 bp, 165 bp, 170 bp, 175 bp, 180 bp, 185 bp, 190 bp, 195 bp, 200 bp, 210 bp, 220 bp, 230 bp, 240 bp, 250 bp, 또는 250 bp 초과일 수 있다. 예를 들어, 크기 임계 값은 150 bp일 수 있다. 다른 예에서, 크기 임계 값은 180 bp일 수 있다. 일부 구체예에서, 상한 및 하한 크기 임계 값(예를 들어, 값의 범위)이 사용될 수 있다. 일부 구체예에서, 상한 및 하한 크기 임계 값은 상한 및 하한 컷오프 값 사이의 길이를 갖는 핵산 단편을 선택하는데 사용될 수 있다. 일부 구체예에서, 상한 및 하한 컷오프는 상한 컷오프 값보다 크고 하한 크기 임계 값보다 작은 길이를 갖는 핵산 단편을 선택하는데 사용될 수 있다. 일부 경우에, 크기 비율에 대한 컷오프 값은 대상체가 병원체-관련 장애, 예를 들어, NPC를 발생시킬 위험을 갖는지 또는 위험이 얼마나 되는지를 결정하기 위해 사용된다. 예를 들어, NPC를 갖는 대상체는 위양성 혈장 EBV DNA 결과를 갖는 대상체보다 80 내지 110 bp의 크기 범위 내에서 더 낮은 크기 비율을 갖는다. 일부 경우에, 크기 비율에 대한 컷오프 값은 약 0.1, 약 0.5, 약 1, 약 2, 약 3, 약 4, 약 5, 약 6, 약 7, 약 8, 약 9, 약 10, 약 11, 약 12, 약 13, 약 14, 약 15, 약 16, 약 17, 약 18, 약 19, 약 20, 약 25, 약 50, 약 100, 또는 약 100 초과일 수 있다. 일부 경우에, 크기 지수에 대한 컷오프 값은 약 또는 최소 10, 약 또는 최소 2, 약 또는 최소 1, 약 또는 최소 0.5, 약 또는 최소 0.333, 약 또는 최소 0.25, 약 또는 최소 0.2, 약 또는 최소 0.167, 약 또는 최소 0.143, 약 또는 최소 0.125, 약 또는 최소 0.111, 약 또는 최소 0.1, 약 또는 최소 0.091, 약 또는 최소 0.083, 약 또는 최소 0.077, 약 또는 최소 0.071, 약 또는 최소 0.067, 약 또는 최소 0.063, 약 또는 최소 0.059, 약 또는 최소 0.056, 약 또는 최소 0.053, 약 또는 최소 0.05, 약 또는 최소 0.04, 약 또는 최소 0.02, 약 또는 최소 0.001, 또는 약 0.001 미만일 수 있다.
핵산 단편의 크기 분포에 대한 다양한 통계 값이 결정될 수 있다. 예를 들어, 크기 분포의 평균, 모드, 중앙값 또는 평균이 사용될 수 있다. 다른 통계적 값, 예를 들어, 주어진 크기에 대한 누적 빈도 또는 상이한 크기의 핵산 단편의 양의 다양한 비율이 사용될 수 있다. 누적 빈도는 주어진 크기 또는 주어진 크기보다 더 작거나 큰 DNA 단편의 비율(예를 들어, 백분율)에 상응할 수 있다. 통계적 값은 병원체로부터 기인한 병리 수준을 결정하기 위해 하나 이상의 컷오프와 비교하기 위한 핵산 단편의 크기 분포에 대한 정보를 제공한다. 컷오프는 건강한 대상체, 하나 이상의 병리를 갖는 것으로 알려진 대상체, 병원체와 관련된 병리에 대해 위양성인 대상체, 및 본원에 언급된 다른 대상체의 코호트를 사용하여 결정될 수 있다. 당업자는 본원의 설명에 기초하여 이러한 컷오프를 결정하는 방법을 알 것이다.
일부 예에서, 병원체 단편의 크기의 제1 통계 값은 인간 게놈으로부터의 크기의 참조 통계 값과 비교될 수 있다. 예를 들어, 분리 값(예를 들어, 차이 또는 비율)은 제1 통계 값과 참조 통계 값 사이에서 결정될 수 있으며, 예를 들어, 병원체 참조 게놈의 다른 영역으로부터 결정되거나 인간 핵산으로부터 결정될 수 있다. 분리 값은 다른 값에서도 결정될 수 있다. 예를 들어, 참조 값은 여러 영역의 통계 값으로부터 결정될 수 있다. 분리 값은 크기 분류를 얻기 위해 크기 임계 값과 비교될 수 있다(예를 들어, DNA 단편이 정상 영역보다 더 짧거나, 더 길거나, 동일한지 여부).
일부 예는 파라미터(분리 값)를 계산할 수 있으며, 이는 다음 방정식을 사용하여 참조 병원체 게놈과 참조 인간 게놈 사이의 짧은 DNA 단편의 비율의 차이로 정의될 수 있다:
Figure pct00002
여기서
Figure pct00003
은 크기가 ≤ 150 bp인 시험된 영역으로부터 유래된 시퀀싱된 단편의 비율을 나타내고,
Figure pct00004
은 크기가 ≤ 150bp인 참조 영역으로부터 유래된 시퀀싱된 단편의 비율을 나타낸다. 다른 구체예에서, 예를 들어, 비제한적으로 100 bp, 110 bp, 120 bp, 130 bp, 140 bp, 160 bp 및 166 bp의 다른 크기 임계 값이 사용될 수 있다. 다른 구체예에서, 크기 임계 값은 염기, 뉴클레오티드 또는 다른 단위로 표현될 수 있다.
크기 기반 z-점수는 대조군 대상체의 평균 및 SD 값을 사용하여 계산될 수 있다.
Figure pct00005
일부 구체예에서, 3 초과의 크기 기반 z-점수는 병원체에 대한 짧은 단편의 증가된 비율을 나타내는 반면, -3 미만의 크기 기반 z-점수는 병원체에 대한 짧은 단편의 감소된 비율을 나타낸다. 다른 크기 임계 값이 사용될 수 있다. 크기 기반 접근법의 추가 세부사항은 미국 특허 번호 8,620,593 및 8,741,811 및 미국 특허 공개 2013/0237431에서 찾을 수 있으며, 이들 각각은 그 전체가 참조로 포함된다.
핵산 단편의 크기를 결정하기 위해, 본 개시의 적어도 일부 예는 염색체 기원 및 분자의 길이가 분석될 수 있는 임의의 단일 분자 분석 플랫폼, 예를 들어, 전기영동, 광학적 방법(예를 들어, 광학적 맵핑 및 그 변형, en.wikipedia.org/wiki/Optical_mapping#cite_note-Nanocoding-3, and Jo et al. Proc Natl Acad Sci USA. 2007; 104: 2673-2678), 형광-기반 방법, 프로브-기반 방법, 디지털 PCR(마이크로플루이딕스-기반 또는 에멀젼-기반, 예를 들어, BEAMing(Dressman et al. Proc Natl Acad Sci USA. 2003; 100: 8817-8822), RainDance(www.raindancetech.com/technology/pcr-genomics-research.asp)), 롤링 서클 증폭, 질량 분석법, 용융 분석(또는 용융 곡선 분석), 분자 체질 등과 함께 작동할 수 있다. 질량 분석법의 예로서, 더 긴 분자일수록 더 큰 질량을 가질 것이다(크기 값의 예).
한 예에서, 핵산 분자는 페어드-엔드 시퀀싱 프로토콜을 사용하여 무작위로 시퀀싱될 수 있다. 양 말단에서 2개의 판독은 참조 게놈에 맵핑(정렬)될 수 있으며, 이는 반복 차폐될 수 있다(예를 들어, 인간 게놈에 정렬될 때). DNA 분자의 크기는 2개의 판독이 맵핑된 게놈 위치 사이의 거리로부터 결정될 수 있다.
변이체 패턴 분석
본 개시의 일부 양태는 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴의 평가에 기초하여 대상체가 병원체-관련 장애를 발생시킬 위험의 계층화에 관한 것이다. 생물학적 샘플에서 검출된 병원체 게놈의 유전적 변이는 향후 병원체-관련 장애의 발생 위험을 예측하는데 사용될 수 있다.
병원체 핵산 분자의 변이체 패턴은 병원체-관련 장애가 없는 대상체로부터의 샘플과 비교하여 병원체-관련 장애(예를 들어, 병원체-관련 악성 종양)를 갖는 환자로부터의 병든 조직에서 상이할 수 있다. EBV-관련 종양 및 대조군 샘플(Palser et al. J Virol. 2015;89:5222-37)에 존재하는 EBV의 균주는 상이할 수 있는 것으로 보고되었다. 그러나, 그 이전 연구에서, 종양 및 대조군 샘플은 상이한 지리적 위치에서 수집되었다. EBV 변이체의 잠재적인 지리적 변화를 고려할 때, 종양 샘플에서 확인된 변이체가 지리적으로 관련이 있는지 또는 질병과 관련되어 있는지 여부를 결론짓기는 어렵다. NPC 종양 샘플의 분석을 통해 NPC-관련 EBV 변이체를 확인하려는 이전의 시도가 있었다. 동일한 지리적 영역에서 NPC 종양 및 EBV-관련 질병이 없는 개체의 타액 샘플을 분석한 하나의 게놈 전체 연관성 연구(GWAS)(Hui et al. Int J Cancer 2019, doi.org/10.1002/ijc.32049)에서, 조정된 P가 0.05인 거짓 발견률 아래에서 29개의 다형성(단일 뉴클레오티드 다형성(SNP) 또는 인델(indels))이 확인되었다. 이러한 29개의 NPC-관련 EBV 변이체는 NPC 사례의 90% 이상에 존재하지만 대조군 사례의 40-50%에 불과한 것으로 나타났다.
NPC를 발생시키는 개별 EBV 다형성의 분석과 대조적으로(Hui et al. Int J Cancer 2019, doi.org/10.1002/ijc.32049; Feng et al. Chin J Cancer 2015; 34: 61), 본 개시의 양태는 게놈 전체 방식으로 변이체 패턴에 대한 병원체 핵산 분자의 분석을 위한 방법 및 시스템을 제공한다. 또한, 종양 및 세포주 샘플의 분석을 통한 질병-관련 EBV 변이체의 확인보다는(Palser et al. J Virol. 2015;89:5222-37, Correia et al. J Virol. 2018;92:e01132-18, Hui et al. Int J Cancer 2019, doi.org/10.1002/ijc.32049), 본 개시의 양태는 혈액(예를 들어, 혈장 또는 혈청), 비강 세척액, 비강 브러시 샘플, 또는 종양의 침습적 생검과 비교하여 비침습적 또는 최소 침습적 절차를 통해 수득된 다른 체액에서와 같은 세포 비함유 병원체 핵산 분자를 분석함으로써 병원체 변이체 패턴의 분석을 위한 방법 및 시스템을 제공한다. 한 예시적인 예에서, 혈액 내 EBV DNA 분자의 낮은 풍부도 및 또한 단편화된 특성은 분석에 기술적 과제를 제기할 수 있다. 세포 비함유 바이러스 DNA 분자의 변이체 패턴을 비침습적 방식으로 분석하면 스크리닝, 예측 의학, 위험 계층화, 감시 및 예후 제공을 포함하는 임상적 적용을 향상시킬 수 있다. 한 예에서, 분석은 상이한 바이러스-관련 상태를 갖는 대상체, 예를 들어, NPC 환자와 스크리닝 맥락에서 검출 가능한 혈장 EBV DNA를 갖는 비-NPC 대상체를 구별하기 위해 사용될 수 있다. 다른 예에서, 이는 질병 또는 암 위험 예측에 사용될 수 있다.
변이체 패턴을 얻기 위해 다른 접근법이 사용될 수 있다. 비제한적인 검정 방법은 대량 병렬 시퀀싱(MPS), Sanger 시퀀싱(예를 들어, 문헌[Lorenzetti et al. J Clin Microbiol. 2012;50:609-18]에서 사용됨), 및 마이크로어레이-기반 SNP 분석(예를 들어, 문헌[Wang et al. PNAS 2002;99:15687-92]에 설명됨), 하이브리드화 분석 및 질량 분광 분석을 포함할 수 있다. 한 예시적인 예에서, 포획 농축을 통한 표적화 시퀀싱, MPS 또는 Sanger 시퀀싱과 같은 시퀀싱 방법이 사용되며, 서열 판독은 뉴클레오티드 기준으로 병원체의 참조 게놈(예를 들어, EBV 참조 게놈)을 참조하여 분석된다. 상기 방법은 대상체의 생물학적 샘플로부터 세포 비함유 핵산 분자의 서열 판독을 얻는 것을 포함할 수 있다. 상기 방법은 서열 판독을 병원체의 참조 게놈에 정렬하는 것을 추가로 포함할 수 있다. 상기 방법은 병원체의 참조 게놈과 병원체의 참조 게놈에 맵핑된 서열 판독 사이의 뉴클레오티드 변이를 분석함으로써 병원체의 참조 게놈에 걸친 뉴클레오티드 변이체 패턴을 분석하는 것을 추가로 포함할 수 있다. 본원에 제공된 바와 같은 변이체 패턴은 병원체의 참조 게놈 상의 복수의 변이체 부위 각각에서 병원체의 참조 게놈에 맵핑된 서열 판독의 뉴클레오티드 변이체를 특성화할 수 있다. 복수의 변이체 부위는 병원체의 참조 게놈에 걸쳐 적어도 30, 적어도 40, 적어도 50, 적어도 60, 적어도 70, 적어도 80, 적어도 90,적어도 100, 적어도 200, 적어도 300, 적어도 400, 적어도 500, 적어도 600, 적어도 700, 적어도 800, 적어도 900, 적어도 1000, 적어도 1100 또는 적어도 1200개의 부위를 포함할 수 있다. 일부 경우에, 복수의 변이체 부위는 병원체의 참조 게놈에 걸쳐 적어도 1000개의 부위를 포함한다. 일부 경우에, 복수의 변이체 부위는 병원체의 참조 게놈에 걸쳐 약 1100개의 부위를 포함한다. 일부 경우에, 복수의 변이체 부위는 병원체의 참조 게놈에 걸쳐 적어도 600개의 부위를 포함한다. 일부 경우에, 복수의 변이체 부위는 병원체의 참조 게놈에 걸쳐 약 660개의 부위를 포함한다. 일부 경우에, 복수의 변이체 부위는 EBV 참조 게놈(AJ507799.2)과 관련하여 표 6에 제시된 게놈 부위로부터 선택되는 적어도 30, 40, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550 또는 600개의 부위를 포함한다. 일부 경우에, 복수의 변이체 부위는 EBV 참조 게놈(AJ507799.2)과 관련하여 표 6에 제시된 게놈 부위를 포함한다.
일부 경우에, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴은 EBV 참조 게놈(AJ507799.2)과 관련하여 표 6에 제시된 게놈 부위로부터 무작위로 선택되는 복수의 변이체 부위 각각에서 병원체의 참조된 게놈에 맵핑된 서열 판독의 뉴클레오티드 변이체를 특성화한다. 일부 경우에, 본원에 제공된 방법은 EBV 참조 게놈(AJ507799.2)과 관련하여 표 6에 제시된 게놈 부위로부터 복수의 변이체 부위를 무작위로 선택하는 단계를 포함한다. 상기 방법은 병원체의 참조 게놈과 병원체의 참조 게놈에 맵핑된 서열 판독 사이의 뉴클레오티드 변이를 분석함으로써 무작위로 선택된 복수의 변이체 부위에 대한 뉴클레오티드 변이체 패턴을 분석하는 것을 추가로 포함할 수 있다.
일부 경우에, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴은 EBV 참조 게놈(AJ507799.2)과 관련하여 표 6에 제시된 게놈 부위로부터 무작위로 선택되는 적어도 30, 40, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550 또는 600개의 부위를 포함하는 복수의 변이체 부위 각각에서 병원체의 참조된 게놈에 맵핑된 서열 판독의 뉴클레오티드 변이체를 특성화한다.
일부 경우에, 복수의 변이체 부위는 병원체의 참조 게놈에 맵핑된 서열 판독이 병원체의 참조 게놈과 상이한 뉴클레오티드 변이체를 갖는 모든 부위로 구성된다.
일부 경우에, 야생형 병원체 게놈이 참조 게놈으로 사용된다. 예를 들어, 야생형 EBV 게놈(GenBank: AJ507799.2)이 참조 EBV 게놈으로 사용될 수 있다. 다른 경우에, 다른 병원체 게놈이 참조 게놈으로 사용된다. 또 다른 예에서, 다중 병원체 게놈(예를 들어, EBV 게놈)이 참조로서 사용된다. 또 다른 예에서, 컨센서스 서열이 참조로서 사용된다. 컨센서스는 상이한 병원체 게놈 서열의 변이체, 예를 들어, 문헌[Jesus et al. J Gen Virol. 2003;84:1443-50]에 기재된 바와 같은 EBV 게놈의 컨센서스 서열을 조합함으로써 구축될 수 있다.
예를 들어, 카피 수, 메틸화 상태, 단편 크기, 상대적 풍부도 또는 변이체 패턴의 분석을 위해 본원에 제공된 방법 및 시스템에서 사용되는 서열 정렬은 임의의 적절한 생물정보학 알고리즘, 프로그램, 툴킷 또는 패키지에 의해 수행될 수 있다. 예를 들어, 본원에 제공된 방법 및 시스템의 적용을 위한 정렬 도구로서 짧은 올리고뉴클레오티드 분석 패키지(SOAP)를 사용할 수 있다. 본원에 제공된 방법 및 시스템에서 사용될 수 있는 짧은 서열 판독 분석 도구의 예는 Arioc, BarraCUDA, BBMap, BFAST, BigBWA, BLASTN, BLAT, Bowtie, Bowtie2, BWA, BWA-PSSM, CASHX, Cloudburst, CUDA-EC, CUSHAW, CUSHAW2, CUSHAW2-GPU, CUSHAW3, drFAST, ELAND, ERNE, GASSST, GEM, Genalice MAP, Geneious Assembler, GensearchNGS, GMAP 및 GSNAP, GNUMAP, HIVE-헥사곤, Isaac, LAST, MAQ, mrFAST, mrsFAST, MOM, MOSAIK, MPscan, Novoalign & NovoalignCS, NextGENe, NextGenMap, Omixon Variant 툴킷, PALMapper, Partek Flow, PASS, PerM, PRIMEX, QPalma, RazerS, REAL, cREAL, RMAP, rNA, RTG Investigator, Segemehl, SeqMap, Shrec, SHRiMP, SLIDER, SOAP, SOAP2, SOAP3, SOAP3-dp, SOCS, SparkBWA, SSAHA, SSAHA2, Stampy, SToRM, Subread, Subjunc, Taipan, UGENE, VelociMapper, XpressAlign 및 ZOOM을 포함한다.
참조 게놈에 정렬시켜 정렬에 관한 호출을 하기 위해 서열 판독에서 다수의 연속 뉴클레오티드("서열 스트레치")가 사용될 수 있다. 예를 들어, 정렬은 적어도 4, 적어도 6, 적어도 8, 적어도 10, 적어도 12, 적어도 14, 적어도 16, 적어도 18, 적어도 20, 적어도 22, 적어도 24, 적어도 25, 적어도 26, 적어도 28, 적어도 30, 적어도 32, 적어도 34, 적어도 35, 적어도 36, 적어도 38, 적어도 40, 적어도 42, 적어도 44, 적어도 45, 적어도 46, 적어도 48, 적어도 50, 적어도 52, 적어도 54, 적어도 55, 적어도 56, 적어도 58, 적어도 60, 적어도 62, 적어도 64, 적어도 65, 적어도 66, 적어도 67, 적어도 68, 적어도 69, 적어도 70, 적어도 71, 적어도 72, 적어도 73, 적어도 74, 적어도 75, 적어도 76, 적어도 78, 적어도 80, 적어도 82, 적어도 84, 적어도 85, 적어도 86, 적어도 88, 적어도 90, 적어도 92, 적어도 94, 적어도 95, 적어도 96, 적어도 98, 적어도 100, 적어도 102, 적어도 104, 적어도 106, 적어도 108, 적어도 110, 적어도 112, 적어도 114, 적어도 116, 적어도 118, 적어도 120, 적어도 122, 적어도 124, 적어도 126, 적어도 128, 적어도 130, 적어도 132, 적어도 134, 적어도 136, 적어도 138, 적어도 140, 적어도 142, 적어도 145, 적어도 146, 적어도 148 또는 적어도 150개의 서열 판독의 연속 뉴클레오티드를 참조 게놈, 예를 들어, 병원체의 참조 게놈, 또는 숙주 유기체의 참조 게놈에 정렬하는 것을 포함할 수 있다. 일부 경우에, 본원에 언급된 바와 같은 정렬은 최대 5, 최대 7, 최대 9, 최대 11, 최대 13, 최대 15, 최대 17, 최대 19, 최대 21, 최대 23, 최대 25, 최대 27, 최대 29, 최대 31, 최대 33, 최대 35, 최대 37, 최대 39, 최대 41, 최대 43, 최대 45, 최대 47, 최대 49, 최대 51, 최대 53, 최대 55, 최대 57, 최대 59, 최대 61, 최대 63, 최대 65, 최대 67, 최대 68, 최대 69, 최대 70, 최대 71, 최대 72, 최대 73, 최대 74, 최대 75, 최대 76, 최대 78, 최대 80, 최대 81, 최대 83, 최대 85, 최대 87, 최대 89, 최대 91, 최대 93, 최대 95, 최대 97, 최대 99, 최대 101, 최대 103, 최대 105, 최대 107, 최대 109, 최대 111, 최대 113, 최대 115, 최대 117, 최대 119, 최대 121, 최대 123, 최대 125, 최대 127, 최대 129, 최대 131, 최대 133, 최대 135, 최대 137, 최대 139, 최대 141, 최대 143, 최대 145, 최대 147, 최대 149 또는 최대 151개의 서열 판독의 연속 뉴클레오티드를 참조 게놈, 예를 들어, 병원체의 참조 게놈, 또는 숙주 유기체의 참조 게놈에 정렬하는 것을 포함할 수 있다. 일부 경우에, 본원에 언급된 바와 같은 정렬은 약 20, 약 22, 약 24, 약 25, 약 26, 약 28, 약 30, 약 32, 약 34, 약 35, 약 36, 약 38, 약 40, 약 42, 약 44, 약 45, 약 46, 약 48, 약 50, 약 52, 약 54, 약 55, 약 56, 약 58, 약 60, 약 62, 약 64, 약 65, 약 66, 약 67, 약 68, 약 69, 약 70, 약 71, 약 72, 약 73, 약 74, 약 75, 약 76, 약 78, 약 80, 약 82, 약 84, 약 85, 약 86, 약 88, 약 90, 약 92, 약 94, 약 95, 약 96, 약 98, 약 100, 약 102, 약 104, 약 106, 약 108, 약 110, 약 112, 약 114, 약 116, 약 118, 약 120, 약 122, 약 124, 약 126, 약 128, 약 130, 약 132, 약 134, 약 136, 약 138, 약 140, 약 142, 약 145, 약 146, 약 148, 약 150, 약 152, 약 154, 약 155, 약 156, 약 158, 약 160, 약 162, 약 164, 약 165, 약 166, 약 168, 약 170, 약 172, 약 174, 약 175, 약 176, 약 178, 약 180, 약 185, 약 190, 약 195 또는 약 200개의 서열 판독의 연속 뉴클레오티드를 참조 게놈, 예를 들어, 병원체의 참조 게놈, 또는 숙주 유기체의 참조 게놈에 정렬하는 것을 포함한다.
일부 경우에, 서열 스트레치가 전체 서열 판독에 대해 참조 게놈, 예를 들어, 인간 참조 게놈의 특정 영역에 대해 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 98%, 적어도 99%, 또는 100% 서열 동일성 또는 상보성을 가질 때 정렬 호출이 이루어진다. 일부 경우에, 서열 스트레치가 전체 서열 판독에 대해 참조 게놈, 예를 들어, 인간 참조 게놈의 특정 영역에 대해 적어도 80% 서열 동일성 또는 상보성을 가질 때 정렬 호출이 이루어진다. 일부 경우에, 서열 스트레치가 참조 게놈, 예를 들어, 인간 참조 게놈의 특정 영역과 동일하거나 상보적이고, 불일치가 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1개 염기 이하이거나, 불일치가 제로일 때 정렬 호출이 이루어진다. 일부 경우에, 서열 스트레치가 참조 게놈, 예를 들어, 인간 참조 게놈의 특정 영역과 동일하거나 상보적이고, 불일치가 2개 염기 이하일 때 정렬 호출이 이루어진다. 최대 불일치 수 또는 백분율, 또는 최소 유사성 수 또는 백분율은 본원에 제공된 방법 및 시스템의 적용 목적 및 맥락에 따라 선택 기준으로서 달라질 수 있다.
일부 경우에, 병원체의 참조 게놈에 대한 서열 판독의 정렬은 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1개 염기 이하의 최대 불일치를 허용한다. 맵핑된 서열 판독과 병원체의 참조 게놈 사이의 불일치는 생물학적 샘플에 존재하는 병원체 게놈 서열의 뉴클레오티드 변이를 나타낼 수 있으며, 다른 경우에, 시퀀싱 오류도 나타낼 수 있다. 특정 이론에 얽매이길 원하지 않으며, 하나의 생물학적 샘플의 주어진 게놈 부위에서 하나 초과의 뉴클레오티드 변이체가 확인되는 것은 세포 비함유 병원체 핵산 분자가 유래하는 병든 세포의 이질성 또는 시퀀싱 오류 때문일 수 있다. 일부 경우에, 주어진 생물학적 샘플에서 1, 2 또는 3개 초과의 뉴클레오티드 변이체가 확인되는 경우 게놈 부위의 뉴클레오티드 변이체가 분석에서 제외된다.
예시적인 예에서, NPC 대상체 및 검출 가능한 혈장 EBV DNA를 갖는 비-NPC 대상체의 순환에서 세포 비함유 바이러스 DNA 분자를 분석하기 위해 포획 농축을 이용한 표적화 시퀀싱이 사용된다. 포획 프로브는 전체 EBV 게놈을 포함하도록 설계될 수 있다. 다른 경우에, EBV 게놈의 일부만이 분석될 수 있으며, 포획 프로브는 EBV 게놈의 일부만을 포함하도록 설계되었다. 동일한 분석에서, 포획 프로브는 또한 인간 게놈에서 관심 게놈 영역을 표적화하기 위해 포함될 수 있다. 예를 들어, 인간 공통 단일 뉴클레오티드 다형성(SNP) 부위 및 인간 백혈구 항원(HLA) SNP를 표적화하는 프로브가 포함될 수 있다. 한 구체예에서, 다른 바이러스 게놈 서열, 예를 들어, HPV 또는 HBV 게놈에 하이브리화하도록 더 많은 프로브가 설계될 수 있다.
일부 경우에, 병원체 게놈의 변이체 패턴은 참조 게놈에 맵핑된 서열 판독과 참조 게놈 사이의 직접 비교를 통해 분석된다. 비교 결과는, 예를 들어, 클러스터링 분석 또는 계통수 분석을 위해 임의의 적절한 방식으로 추가로 처리될 수 있다. 이러한 분석에 이용 가능한 생물정보학 도구는 MEGA4, MEGA5, CLUSTALW, Phylip, RAxML, BEAST, PhyML, TreeView, MAFFT, MrBayes, BIONJ, MLTreeMap, Newick Utilities, Phylo.io, Phylogeny.fr, REALPHY, SuperTree 및 The PhylOgenetic Web Repeater(POWER)를 포함할 수 있다. 클러스터 분석 또는 계통수 분석은 병원체 참조 게놈에 맵핑된 서열 판독을 병든 조직 또는 건강한 대상체로부터 얻거나, 병원체-관련 장애를 유발할 수 있거나 유발할 수 없는 것으로 표시되거나, 병원체-관련 장애를 유발하는데 효과적이거나 비효과적인 것으로 표시된 하나 이상의 병원체 게놈과 비교한다.
예시적인 예에서, 본원에 제공된 방법 및 시스템은 블록-기반 변이체 패턴 분석을 포함한다. 블록-기반 변이체 패턴 분석은 병원체의 참조 게놈을 복수의 빈("블록")으로 분리하는 것을 포함할 수 있다. 병원체 참조 게놈에 맵핑된 서열 판독은 각각의 복수의 빈 내의 장애-관련 병원체 게놈과 비교된다. 일부 경우에, 장애-관련 병원체 게놈, 및 선택적으로 병원체-관련 장애를 유발할 수 없거나 유발에 비효과적인 것으로 알려지거나 표시된 병원체 게놈을 포함하여, 블록-기반 분석을 위해 비교할 다수, 예를 들어, 적어도 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 40, 50, 60, 70, 80, 90, 100, 120, 140, 160, 180, 200, 300, 400, 500, 600, 700, 800, 900 또는 1000개의 상이한 다른 병원체 게놈이 있다. 블록-기반 분석에서, 각각의 복수의 빈 내에서, 유사성 지수는 병원체 참조 게놈에 맵핑된 서열 판독과 장애-관련 병원체 게놈 또는 장애-비관련 병원체 게놈 각각 사이의 공유된 뉴클레오티드 변이체에 기초하여 계산된다. 유사성 지수는 병원체 참조 게놈에 맵핑된 서열 판독 중 적어도 하나가 장애-관련 또는 장애-비관련 병원체 게놈과 동일한 뉴클레오티드 변이체를 갖는 변이체 부위의 비율에 의존할 수 있다. 서열 판독을 비교하는 각각의 병원체 게놈에 대한 유사성 지수에 기초하여, 빈 스코어는, 예를 들어, 유사성 지수에 의해 반영된 유사성 수준에 기초하여 계산될 수 있다. 한 예에서, 빈 스코어는 미리 결정된 컷오프를 초과하는 유사성 지수의 비율에 의존할 수 있다. 예를 들어, 약 0.6, 0.7, 0.75, 0.8, 0.85, 0.9 또는 0.95의 유사성 지수에 대한 컷오프 세트가 있을 수 있다. 컷오프 초과의 유사성 지수는 서열 판독이 비교되는 병원체 게놈과 "유사"함을 나타낼 수 있다. 상기 기재된 분석에 기초하여, 패턴 분석은 계산된 유사성 지수 또는 빈 스코어를 사용하여 병원체 게놈 또는 병원체 게놈의 일부에 걸쳐 더 큰 규모로 수행될 수 있다. 상기 기재된 것과 유사한 클러스터링 분석 또는 계통발생 분석은 EBV-관련 NPC와 같은 병원체-관련 장애의 발생 위험을 예측하기 위한 블록-기반 분석을 따를 수 있다.
위험 점수
본 개시의 일부 양태는 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 하나 이상의 특징의 조합적 고려에 기초하여 대상체가 병원체-관련 장애를 발생시킬 위험의 계층화에 관한 것이다. 일부 경우에, 대상체가 병원체-관련 장애, 예를 들어, EBV-관련 비인두암을 발생시킬 위험을 나타내는 위험 점수가 생성된다.
일부 경우에, 본 개시는 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 하나 이상의 특징의 조합적 고려, 및 대상체의 연령, 대상체의 흡연 습관, 대상체의 NPC의 가족력, 대상체의 유전형 인자, 대상체의 식이 이력 또는 대상체의 민족성 중 하나 이상의 인자에 기초하여 대상체가 병원체-관련 장애를 발생시킬 위험의 계층화에 관한 것이다. 임상적으로 검출 가능한 NPC가 없는 대상체에서 혈장 EBV DNA의 검출에 대한 양성 비율과 대상체의 연령 사이에 양의 상관 관계가 있을 수 있다. 대상체의 흡연 습관은 대상체가 NPC를 발생시킬 위험을 높일 수 있다. NPC의 가족력이 있는 대상체는 NPC 자체를 발생시킬 위험이 더 높을 수 있다. HLA 상태와 같은 유전형 인자는 문헌[Bei et al. Nat Genet. 2010;42:599-603, and Hildesheim et al. J Natl Cancer Inst. 2002;94:1780-9, 이들 각각은 그 전체가 본원체 참조로 포함됨]에서 입증된 바와 같이, 또한 NPC에 대한 위험과 상관될 수 있다. 또한, 식이 이력은 NPC에 대한 위험과 상관될 수 있으며, 예를 들어, 소금에 절인 생선을 많이 소비하는 대상체는 NPC에 대해 상대적으로 높은 위험을 가질 수 있다. 광동민족과 같은 특정 민족도 NPC 발생에 대한 높은 위험과 관련될 수 있다.
일부 경우에, 방법 및 시스템은 대상체가 병원체-관련 장애를 발생시킬 위험을 나타내는 보고서를 생성하는 것을 추가로 포함한다. 그러한 보고서는 수치 위험 점수 값 또는 범주형 위험 평가를 가질 수 있다. 일부 경우에, 보고서는 후속 스크리닝 검정을 위한 스크리닝 빈도 또는 미래 시점에 대한 권고를 포함한다. 보고서는 대상체, 의료 기관 또는 대상체를 담당하는 의료 전문가, 또는 의료 보험 회사와 같은 임의의 관련 제3자에게 제공될 수 있다. 보고서는 보고서의 공개 전후에 인증된 의사에 의해 검토, 평가 또는 편집될 수 있다. 일부 경우에, 인증된 의사가 위험 평가에 대한 추가 의견을 제공하거나 자신의 의학적 의견 또는 독립적인 검사를 기반으로 최종 위험 평가에 기여한다.
일부 경우에, 본 개시는 분류기를 사용하여 병원체-관련 장애, 예를 들어, EBV-관련 NPC와 같은 병원체-관련 증식성 장애를 발생시킬 위험을 계층화하는 방법을 제공한다. 그러한 분류기는 본원에 기재된 하나 이상의 인자를 데이터 입력으로 취하고, 대상체가 병원체-관련 장애를 발생시킬 위험을 나타낼 수 있는 위험 점수를 포함하는 출력을 제공할 수 있다. 분류기에 공급될 수 있는 하나 이상의 인자는 세포 비함유 병원체 핵산 분자의 하나 이상의 특징, 대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 하나 이상의 특징, 및 대상체의 연령, 대상체의 흡연 습관, 대상체의 NPC의 가족력, 대상체의 유전형 인자, 대상체의 식이 이력 및 대상체의 민족성 중 하나 이상의 인자를 포함할 수 있다. 분류기의 출력으로서의 위험 점수는 대상체가 현재 병원체-관련 장애로 고통받을 위험 또는 미래에 발생시킬 위험을 나타낼 수 있다. 일부 경우에, 위험 점수는 대상체가 현재 병원체-관련 장애로 고통받고 있을 가능성을 나타낸다. 일부 경우에, 위험 점수는 대상체가 미래 기간 내에, 예를 들어, 비제한적으로 1년, 2년, 3년, 4년, 5년, 10년 또는 15년 이내에 병원체-관련 장애를 발생시킬 가능성을 나타낸다. 일부 경우에, 분류기는 후속 스크리닝 검정을 위한 권장 스크리닝 빈도 또는 미래 시점을 포함하는 출력을 제공한다. 그러한 출력은 임상 권고의 형태이거나, 상기 논의된 바와 같이 보고서로 대상체, 의료 기관 또는 의료 전문가, 또는 의료 보험 회사와 같은 임의의 제3자에게 제공될 수 있다.
본원에 기재된 바와 같이, 분류기는 분류를 구현하는 임의의 알고리즘을 지칭할 수 있다. 본 개시에서, 분류기는 향후 병원체-관련 장애의 발생에 대한 위험을 예측하기 위한 임의의 적절한 알고리즘에 구축된 분류 모델일 수 있다. 적절한 알고리즘은 기계 학습 알고리즘 및 다른 수학/통계 모델, 예를 들어, 비제한적으로 지원 벡터 머신(SVM), 나이브 베이즈, 로지스틱 회귀, 랜덤 포레스트, 의사 결정 트리, 그래디언트 부스팅 트리, 신경망, 딥 러닝, 선형/커널 SVM, 선형/비선형 회귀, 선형 판별 분석 등을 포함할 수 있다. 일부 경우에, 분류기는 복수의 입력-출력 쌍을 포함하는 라벨링된 데이터세트로 훈련된다. 예를 들어, NPC가 없거나 NPC가 있는 것으로 진단된 다수의 대상체로부터의 샘플 분석 결과로부터 데이터세트가 생성되었다. 이러한 예에서, 데이터세트는 이들 대상체로부터의 혈장 EBV DNA의 특징(예를 들어, 변이체 패턴, 메틸화 상태, 검출 가능성/카피 수 또는 단편 크기) 중 하나 이상의 인자, 연령, 가족력, 흡연 습관, 민족성 또는 식이 이력을 갖는 입력뿐만 아니라 해당 대상체가 NPC를 가지고 있는지 여부를 나타내는 상응하는 출력을 포함할 수 있다. 예시적인 예에서, 분류기는 적어도 10, 20, 50, 100, 200, 500, 1000, 2000, 5000, 10000 또는 20000개 쌍과 같은 많은 수의 입력-출력 쌍을 포함하는 라벨링된 데이터세트로 훈련될 수 있다.
한 예에서, 변이체 패턴의 분석을 사용하여 검출 가능한 혈장 EBV DNA를 갖는 대상체에 대한 향후 NPC 발생의 위험을 예측하기 위한 분류 모델이 제공된다. 분류 모델은 지원 벡터 머신(SVM) 알고리즘을 사용하여 다음과 같이 구성된 분류기일 수 있다:
n개의 샘플을 포함하는 훈련 데이터세트를 가정할 때:
(M1, Y1), …, (Mn, Yn)
여기서 Yi는 샘플 i의 NPC 상태를 나타낸다. Yi는 NPC 환자의 샘플의 경우 1이거나 NPC가 없는 대상체의 샘플의 경우 -1이고; Mi는 샘플 i에 대한 바이러스 변이체 패턴을 포함하는 p-차원 벡터이다. 예를 들어, Mi는 일련의 변이체 부위(예를 들어, NPC와 관련된 29개의 변이체 부위 또는 표 6에 제시된 바와 같이 NPC와 관련된 661개의 변이체 부위)일 수 있다. 대안적으로, Mi는 NPC를 갖는 것으로 알려진 대상체에 존재하는 참조 EBV 변이체에 대한 일련의 블록-기반 변이체 유사성 점수(예를 들어, 500 bp의 중첩되지 않는 윈도우)일 수 있다.
다음을 만족하는 계수 세트(p-차원 벡터를 갖는 W)를 찾아서, 훈련 데이터세트에서 가능한 한 정확하게 비-NPC 및 NPC 그룹을 분리하는 "초평면"을 식별할 수 있다:
기준 1:
W·Mi-b ≥ 1 (NPC 그룹의 모든 대상체에 대해)
기준 2
W·Mi-b ≤ -1 (비-NPC 그룹의 모든 대상체에 대해)
여기서 W는 초평면을 결정하는 계수의 p-차원 벡터이고; M은 p개의 변이체(또는 블록-기반 유사성 점수) 및 n개의 샘플을 갖는 행렬(p x n 차원)이고; b는 절편이다.
두 가지 기준(즉, 기준 1 및 2)은 다음과 같이 작성할 수도 있다:
Yi (W*Mi-b) ≥ 1 (기준 3)
여기서 Yi는 -1(비 NPC) 또는 1(NPC)이다.
기준 1과 2 사이의 마진 거리(D)는
Figure pct00006
이고,
여기서
Figure pct00007
은 점에서 평면까지의 거리 방정식을 사용하여 계산된다.
D는 기준 3에 따라
Figure pct00008
대상을 최소화함으로써 최대화되어야 한다.
이 원리에 따라, 분류기의 파라미터(W 및 b)를 결정할 수 있다. 따라서 훈련된 파라미터(W 및 b)로 구현된 훈련된 분류기를 사용하여 시험 샘플에 대한 NPC 위험 점수를 계산할 수 있다.
한 예시적인 예에서, NPC 위험 점수는 바이러스 게놈에 걸쳐 고정된 세트의 SNV 부위에서 EBV 유전형의 가중 합산으로서 계산된다(이원 로지스틱 회귀 모델에서 설명 변수로서). 이 예에서, NPC-관련 SNV의 세트는 훈련 세트의 NPC 및 비-NPC 샘플로부터의 EBV SNV 프로파일의 차이를 분석함으로써 확인된다. EBV 게놈에 걸친 각 변이체와 NPC 사례의 연관성은, 예를 들어, Fisher의 정확 시험을 사용하여 분석될 수 있다. 이후, 예를 들어, 5%로 제어되는 거짓 발견률로 유의한 SNV의 고정된 세트를 얻을 수 있다. 시험 샘플의 NPC 위험 점수는 알려진 NPC 및 비-NPC 대상체의 혈장 DNA 샘플로부터의 시퀀싱 데이터를 포함하는 훈련 세트로부터 확인된 이 유의한 SNV 부위의 특정 세트에 대한 EBV 유전형에 의해 결정될 수 있다. 일부 경우에, 혈장 EBV DNA 분자가 낮은 농도를 가질 수 있으므로, 시퀀싱된 EBV DNA 판독에 의한 전체 EBV 게놈의 적용범위가 불완전할 수 있다. 점수는 혈장 EBV DNA 판독(예를 들어, 이용 가능한 유전형 정보와 함께)에 의해 포함되는 SNV 부위에 대한 유전형 패턴에 의해 결정되도록 공식화될 수 있다. NPC 위험 점수를 도출하기 위해, 샘플에서 혈장 EBV DNA 판독에 의해 포함되는 유의한 SNV 부위의 서브세트를 먼저 확인할 수 있으며, 그 다음 각 부위에서 유전형의 가중치(효과 크기)를 유의한 SNV 부위의 서브세트 내에서 결정할 수 있다. NPC의 각 SNV 부위에서 위험 유전형의 효과 크기를 알리기 위해 다음과 같은 로지스틱 회귀 모델을 구성할 수 있다:
Figure pct00009
이는 다음과 같이 다시 작성될 수 있다:
Figure pct00010
여기서 n은 유의한 SNV 부위의 수이고; β0 및 βk는 최대 우도 추정기에 의해 결정될 수 있는 계수이고; P는 NPC를 갖는 EBV-양성 환자의 확률이고; 변수 Xk는 게놈 위치 k에서 SNV 부위를 나타낸다. Xk는 EBV 참조 게놈과 동일한 샘플에 변이체가 존재하는 경우 -1로 코딩될 수 있다. Xk는 샘플에 대안적인 변이체가 있는 경우, 1로 코딩될 수 있다. Xk는 분석된 변이체 부위가 샘플에 포함되지 않은 경우, 0으로 코딩될 수 있다. 따라서 계수 β0 및 βk는, 예를 들어, python에서 'LogisticRegression' 함수를 사용하여 추정될 수 있다. 이는 훈련 데이터세트의 NPC 및 비-NPC 샘플 중 각 부위의 유전형 패턴을 분석함으로써 달성될 수 있다. 따라서 시험 샘플의 NPC 위험 점수는 훈련 모델로부터 추론된 상응하는 계수 β0 및 βk에 의해 가중치가 부여된 SNV 부위에서 자체 유전형을 기반으로 도출될 수 있다.
생물학적 샘플
본원에 제공된 방법에 사용되는 생물학적 샘플은 살아 있거나 죽은 대상체로부터 유래된 임의의 조직 또는 물질을 포함할 수 있다. 생물학적 샘플은 세포 비함유 샘플일 수 있다. 생물학적 샘플은 핵산(예를 들어, DNA 또는 RNA) 또는 이의 단편을 포함할 수 있다. 샘플의 핵산은 세포 비함유 핵산일 수 있다. 샘플은 액체 샘플 또는 고체 샘플(예를 들어, 세포 또는 조직 샘플)일 수 있다. 생물학적 샘플은 혈액, 혈장, 혈청, 소변, 구강 세정액, 비강 세척액, 비강 브러시 샘플, 질액, 음낭수종(예를 들어, 고환)으로부터의 유체, 질 세척액, 흉막액, 복수액, 뇌척수액, 타액, 땀, 눈물, 객담, 기관지 폐포 세척액, 유두로부터의 분비액, 신체의 다른 부분(예를 들어, 갑상선, 유방)으로부터의 흡인액 등과 같은 체액일 수 있다. 대변 샘플도 사용될 수 있다. 다양한 예에서, 세포 비함유 DNA(예를 들어, 원심분리 프로토콜을 통해 수득된 혈장 샘플)가 풍부한 생물학적 샘플 중의 대부분의 DNA는 세포 비함유일 수 있다(예를 들어, DNA의 50%, 60%, 70%, 80%, 90%, 95% 또는 99% 초과가 세포 비함유일 수 있음). 생물학적 샘플은 조직 또는 세포 구조를 물리적으로 파괴하도록 처리될 수 있으며(예를 들어, 원심분리 및/또는 세포 용해), 이에 따라 분석을 위한 샘플을 제조하는데 사용되는 효소, 완충액, 염, 세제 등을 추가로 함유할 수 있는 용액으로 세포내 성분을 방출할 수 있다.
본원에 제공된 방법 및 시스템을 사용하여 생물학적 샘플에서 핵산 분자를 분석할 수 있다. 핵산 분자는 세포 핵산 분자, 세포 비함유 핵산 분자 또는 둘 모두일 수 있다. 본원에 제공된 방법에 의해 사용되는 세포 비함유 핵산은 생물학적 샘플에서 세포 외부의 핵산 분자일 수 있다. 세포 비함유 핵산 분자는 다양한 체액, 예를 들어, 혈액, 타액, 정액 및 소변에 존재할 수 있다. 세포 비함유 DNA 분자는 건강 상태 및/또는 질병, 예를 들어, 바이러스 감염 및 종양 성장에 의해 야기될 수 있는 다양한 조직에서의 세포 사멸로 인해 생성될 수 있다. 세포 비함유 핵산 분자는 병원체 통합 사건의 결과로 생성된 서열을 포함할 수 있다.
본원에 제공된 방법에 사용되는 세포 비함유 핵산 분자, 예를 들어, 세포 비함유 DNA는 혈장, 소변, 타액 또는 혈청에 존재할 수 있다. 세포 비함유 DNA는 자연적으로 짧은 단편의 형태로 발생할 수 있다. 세포 비함유 DNA 단편화는 세포 비함유 DNA 분자가 생성되거나 방출될 때 고 분자량 DNA(예를 들어, 세포 핵의 DNA)가 짧은 단편으로 절단되거나, 파쇄되거나, 분해되는 과정을 지칭할 수 있다. 본원에 제공된 방법 및 시스템은 세포 핵산 분자, 일부 경우에, 예를 들어, 종양 조직으로부터의 세포 DNA, 또는 환자가 백혈병, 림프종 또는 골수종을 갖는 경우 백혈구로부터의 세포 DNA를 분석하는데 사용될 수 있다. 종양 조직으로부터 취한 샘플은 본 개시의 일부 예에 따라 검정 및 분석될 수 있다.
대상체
본원에 제공된 방법 및 시스템은 대상체, 예를 들어, 유기체, 예를 들어, 숙주 유기체로부터의 샘플을 분석하는데 사용될 수 있다. 대상체는 암 환자, 암 위험이 있는 환자, 또는 가족 또는 개인의 암 병력이 있는 환자와 같은 임의의 인간 환자일 수 있다. 일부 경우에, 대상체는 암 치료의 특정 단계에 있다. 일부 경우에, 대상체는 암에 걸렸거나 걸린 것으로 의심될 수 있다. 일부 경우에, 대상체가 암에 걸렸는지 여부는 알 수 없다.
일부 경우에, 본원에 제공된 스크리닝 검정의 결과에 따라, 대상체는 병원체-관련 장애의 의학적 치료를 받거나 받지 않는다. 한 예에서, 제1 스크리닝 검정이 대상체가 병원체-관련 장애를 발생시킬 높은 위험을 나타내는 양성 결과를 나타내지만, 대상체는 후속 진단 검사에 의해 병원체-관련 장애(예를 들어, EBV-관련 NPC)를 갖지 않는 것으로 진단된다. 이 경우, 대상체는 의학적 치료, 예를 들어, 비제한적으로 치료제(예를 들어, 화학요법), 방사선 요법, 수술 또는 이들의 임의의 조합을 사용한 치료를 받지 않는다. 또 다른 예에서, 대상체는 병원체-관련 장애(예를 들어, HPV-관련 자궁경부암)의 발생 위험이 높은 것으로 스크리닝되고 장애를 갖는 것으로 추가로 진단된다. 결과적으로, 대상체는 장애의 의학적 치료, 예를 들어, 비제한적으로 수술, 화학요법, 방사선요법, 표적 요법, 면역요법 또는 이들의 임의의 조합을 받을 수 있다.
본원에 제공된 방법 및 시스템이 적용될 수 있는 병원체-관련 장애는, 예를 들어, 암과 같은 증식성 장애를 포함할 수 있다. 장애는 바이러스, 박테리아 또는 진균과 같은 병원체와 관련되거나 이에 의해 유발될 수 있다. 본원에 기재된 장애와 관련될 수 있는 바이러스는 EBV, 카포시 육종-관련 헤르페스바이러스(KSHV), HPV(예를 들어, 비제한적으로 HPV 16, 18, 31, 33, 34, 35, 39, 45, 51, 52, 56, 58, 59, 66, 68 및 70)(Burd et al. Clin Microbiol Rev 2003:16:1-17), 메르켈 세포 폴리오마바이러스(MCPV), HBV, HCV 및 인간 T-림프구친화성 바이러스-1(HTLV1)을 포함할 수 있다. 적용 가능한 병원체-관련 암은 EBV와 관련될 수 있는 버킷 림프종, 호지킨 림프종, 면역억제-관련 림프종, T 및 NK 세포 림프종; 비인두 또는 위 암종을 포함할 수 있다. 적용 가능한 병원체-관련 암은 KSHV와 관련될 수 있는 원발성 삼출 림프종 또는 카포시 육종을 포함할 수 있다. 적용 가능한 병원체-관련 암은 HPV와 관련될 수 있는 자궁경부암, 두경부암 또는 항문관 암종을 포함할 수 있다. 적용 가능한 병원체-관련 암은 MCPV와 관련된 메르켈 세포 암종을 포함할 수 있다. 적용 가능한 병원체-관련 암은 HBV 또는 C형 간염 바이러스(HCV)와 관련될 수 있는 HCC를 포함할 수 있다. 적용 가능한 병원체-관련 암은 HTLV1과 관련될 수 있는 성인 T-세포 백혈병/림프종을 포함할 수 있다.
대상체는 임의의 유형의 암 또는 종양을 가질 수 있거나 임의의 유형의 암 또는 종양이 발생할 위험을 가질 수 있다. 한 예에서, 대상체는 비인두암 또는 비강의 암을 가질 수 있다. 또 다른 예에서, 대상체는 구인두암 또는 구강의 암을 가질 수 있다. 암의 비제한적인 예는 부신암, 항문암, 기저 세포 암종, 담관암, 방광암, 혈액암, 골암, 뇌종양, 유방암, 기관지암, 심혈관계 암, 자궁경부암, 결장암, 결장직장암, 소화기계 암, 내분비암, 자궁내막암, 식도암, 안암, 담낭암, 위장 종양, 간세포 암종, 신장암, 조혈 악성종양, 후두암, 백혈병, 간암, 폐암, 림프종, 흑색종, 중피종, 근육계 암, 골수이형성 증후군(MDS), 골수종, 비강암, 비인두암, 신경계 암, 림프계 암, 구강암, 구인두암, 골육종, 난소암, 췌장암, 음경암, 뇌하수체 종양, 전립선암, 직장암, 신장 골반암, 생식계 암, 호흡기계 암, 육종, 타액선 암, 골격계 암, 피부암, 소장암, 위암, 고환암, 인후암, 흉선암, 갑상선암, 종양, 비뇨기계 암, 자궁암, 질암 또는 외음부암을 포함할 수 있으나 이에 제한되지 않는다. 림프종은 B-세포 림프종(예를 들어, 미만성 거대 B-세포 림프종, 소포 림프종, 소림프구성 림프종, 외투 세포 림프종, 변연부 B-세포 림프종, 버킷 림프종, 림프형질세포성 림프종, 모세포 백혈병 또는 원발성 중추신경계 림프종) 또는 T-세포 림프종(예를 들어, 전구체 T-림프모구성 림프종 또는 말초 T-세포 림프종)을 포함하는 임의의 유형의 림프종일 수 있다. 백혈병은 급성 백혈병 또는 만성 백혈병을 포함하는 임의의 유형의 백혈병일 수 있다. 백혈병의 유형은 급성 골수성 백혈병, 만성 골수성 백혈병, 급성 림프구성 백혈병, 급성 미분화 백혈병 또는 만성 림프구성 백혈병을 포함한다. 일부 경우에, 암 환자는 특정 유형의 암을 갖지 않는다. 예를 들어, 일부 예에서, 환자는 유방암이 아닌 암을 가질 수 있다.
암의 예는 고형 종양을 유발하지 않는 암뿐만 아니라 고형 종양을 유발하는 암을 포함한다. 또한, 본원에 언급된 임의의 암은 원발성 암(예를 들어, 처음 성장하기 시작한 신체 부위의 이름을 따서 명명된 암) 또는 이차 또는 전이성 암(예를 들어, 다른 신체 일부로부터 유래된 암)일 수 있다.
본원에 기재된 임의의 방법에 의해 진단되는 대상체는 임의의 연령일 수 있고 성인, 유아 또는 아동일 수 있다. 일부 경우에, 대상체는 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98 또는 99세, 또는 그 안의 범위(예를 들어, 2세 내지 20세, 20세 내지 40세 또는 40세 내지 90세)이다. 이익을 얻을 수 있는 특정 부류의 환자는 40세 이상의 환자일 수 있다. 이익을 얻을 수 있는 또 다른 특정 부류의 환자는 소아 환자일 수 있다. 또한, 본원에 기재된 임의의 방법 또는 조성물에 의해 진단되는 대상체는 남성 또는 여성일 수 있다.
일부 구체예에서, 본 개시의 방법은 대상체에서 종양 또는 암을 검출할 수 있고, 여기서 종양 또는 암은 질병의 지리적 패턴을 갖는다. 한 예에서, 대상체는 중국 남부(예를 들어, 홍콩 SAR)에서 만연한 EBV-관련 암(예를 들어, 비인두암)을 가질 수 있다. 또 다른 예에서, 대상체는 미국 및 서유럽에서 만연할 수 있는 HPV-관련 암(예를 들어, 구인두암)을 가질 수 있다. 또 다른 예에서, 대상체는 HTLV-1 관련 암(예를 들어, 성인 T-세포 백혈병/림프종)을 가질 수 있으며, 이는 일본 남부, 카리브해, 중부 아프리카, 남미 일부 및 미국 남동부의 일부 이민자 그룹에서 만연할 수 있다.
본원에 기재된 임의의 방법은 또한 실험실 또는 농장 동물과 같은 비인간 대상체 또는 본원에 개시된 유기체로부터 유래된 세포 샘플에 대해 수행될 수 있다. 비인간 대상체의 비제한적인 예는 개, 염소, 기니피그, 햄스터, 마우스, 돼지, 비인간 영장류(예를 들어, 고릴라, 유인원, 오랑우탄, 여우 원숭이 또는 개코 원숭이), 쥐, 양, 소 또는 제브라 피시를 포함한다.
컴퓨터 시스템
본원에 기재된 임의의 방법은 하나 이상의 컴퓨터 시스템에 의해 수행 및/또는 제어될 수 있다. 일부 예에서, 본원에 기재된 방법의 임의의 단계는 하나 이상의 컴퓨터 시스템에 의해 전체적으로, 개별적으로 또는 순차적으로 수행 및/또는 제어될 수 있다. 본원에 언급된 임의의 컴퓨터 시스템은 임의의 적합한 수의 서브시스템을 활용할 수 있다. 일부 구체예에서, 컴퓨터 시스템은 단일 컴퓨터 장치를 포함하며, 여기서 서브시스템은 컴퓨터 장치의 구성 요소일 수 있다. 다른 구체예에서, 컴퓨터 시스템은 각각이 내부 구성 요소를 갖는 서브시스템인 다수의 컴퓨터 장치를 포함할 수 있다. 컴퓨터 시스템은 데스크탑 및 랩톱 컴퓨터, 태블릿, 휴대폰 및 다른 모바일 장치를 포함할 수 있다.
서브시스템은 시스템 버스를 통해 상호연결될 수 있다. 추가 서브시스템은 디스플레이 어댑터에 연결된 프린터, 키보드, 저장 장치(들) 및 모니터를 포함한다. 입력/출력(I/O) 컨트롤러에 연결되는 주변기기 및 I/O 장치는 입력/출력(I/O) 포트와 같은 당 분야에 공지된 임의의 수의 연결에 의해 컴퓨터 시스템에 연결될 수 있다(예를 들어, USB, FireWire®). 예를 들어, I/O 포트 또는 외부 인터페이스(예를 들어, 이더넷, Wi-Fi 등)를 사용하여 컴퓨터 시스템을 인터넷과 같은 광역 네트워크, 마우스 입력 장치 또는 스캐너에 연결할 수 있다. 시스템 버스를 통한 상호연결은 중앙 프로세서가 각 서브시스템과 통신하고 시스템 메모리 또는 저장 장치(들)(예를 들어, 하드 드라이브와 같은 고정 디스크 또는 광학 디스크)로부터의 복수의 명령의 실행을 제어할 뿐만 아니라 서브시스템 간의 정보를 교환하는 것을 허용한다. 시스템 메모리 및/또는 저장 장치(들)는 컴퓨터 판독 가능한 매체를 구현할 수 있다. 다른 서브시스템은 카메라, 마이크, 가속도계 등과 같은 데이터 수집 장치이다. 본원에 언급된 임의의 데이터는 하나의 구성 요소에서 다른 구성 요소로 출력될 수 있고 사용자에게 출력될 수 있다.
컴퓨터 시스템은, 예를 들어, 외부 인터페이스 또는 내부 인터페이스에 의해 함께 연결된 복수의 동일한 구성 요소 또는 서브시스템을 포함할 수 있다. 일부 구체예에서, 컴퓨터 시스템, 서브시스템 또는 장치는 네트워크를 통해 통신할 수 있다. 그러한 경우, 한 컴퓨터는 클라이언트로 간주되고 다른 컴퓨터는 서버로 간주될 수 있으며, 여기서 각각은 동일한 컴퓨터 시스템의 일부일 수 있다. 클라이언트와 서버는 각각 여러 시스템, 서브시스템 또는 구성 요소를 포함할 수 있다.
본 개시는 병원체-관련 장애에 대한 위험을 계층화하기 위해 본 개시의 방법을 구현하도록 프로그래밍된 컴퓨터 제어 시스템을 제공한다. 도 21은 세포 비함유 핵산 분자 또는 이의 서열 판독을 분석하거나, 장애의 위험과 관련된 다른 인자를 분석하거나, 위험을 평가하거나, 본원에 개시된 위험을 나타내는 보고서를 생성하도록 프로그래밍되거나 달리 구성된 컴퓨터 시스템(1101)을 보여준다. 컴퓨터 시스템(1101)은, 예를 들어, 생물학적 샘플로부터 핵산 분자의 시퀀싱을 제어하고, 본원에 기재된 시퀀싱 데이터의 생물정보학 분석의 다양한 단계를 수행하고, 데이터 수집, 분석 및 결과 보고를 통합하고, 데이터를 관리하는 것과 같은 본 개시에 제공된 방법의 다양한 양태를 구현 및/또는 조절할 수 있다. 컴퓨터 시스템(1101)은 사용자의 전자 장치 또는 전자 장치에 대해 원격 위치에 있는 컴퓨터 시스템일 수 있다. 전자 장치는 모바일 전자 장치일 수 있다.
컴퓨터 시스템(1101)은 단일 코어 또는 다중 코어 프로세서, 또는 병렬 처리를 위한 복수의 프로세서일 수 있는 중앙 처리 유닛(CPU, 또한 본원에서 "프로세서" 및 "컴퓨터 프로세서")(1105)를 포함한다. 컴퓨터 시스템(1101)은 또한 메모리 또는 메모리 위치(1110)(예를 들어, 랜덤 액세스 메모리, 읽기 전용 메모리, 플래시 메모리), 전자 저장 유닛(1115)(예를 들어, 하드 디스크), 하나 이상의 다른 시스템과의 통신을 위한 통신 인터페이스(1120)(예를 들어, 네트워크 어댑터), 및 캐시, 다른 메모리, 데이터 저장 및/또는 전자 디스플레이 어댑터와 같은 주변 장치(1125)를 포함한다. 메모리(1110), 저장 유닛(1115), 인터페이스(1120) 및 주변 장치(1125)는 마더보드와 같은 통신 버스(실선)를 통해 CPU(1105)와 통신한다. 저장 유닛(1115)은 데이터를 저장하기 위한 데이터 저장 유닛(또는 데이터 저장소)일 수 있다. 컴퓨터 시스템(1101)은 통신 인터페이스(1120)의 도움으로 컴퓨터 네트워크("네트워크")(1130)에 동작 가능하게 연결될 수 있다. 네트워크(1130)는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷으로 통신하는 인트라넷 및/또는 엑스트라넷일 수 있다. 네트워크(1130)는 일부 경우에 전기통신 및/또는 데이터 네트워크이다. 네트워크(1130)는 클라우드 컴퓨팅과 같은 분산 컴퓨팅을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 네트워크(1130)는 일부 경우에 컴퓨터 시스템(1101)의 도움으로 피어-투-피어 네트워크를 구현할 수 있으며, 이는 컴퓨터 시스템(1101)에 연결된 장치가 클라이언트 또는 서버로서 동작할 수 있게 한다.
CPU(1105)는 프로그램 또는 소프트웨어로 구현될 수 있는 일련의 기계 판독 가능한 명령을 실행할 수 있다. 명령은 메모리(1110)와 같은 메모리 위치에 저장될 수 있다. 명령은 CPU(1105)에 전달될 수 있으며, 이는 CPU(1105)를 후속적으로 프로그래밍하거나 달리 구성하여 본 개시의 방법을 구현할 수 있다. CPU(1105)에 의해 수행되는 동작의 예는 페치(fetch), 디코딩, 실행 및 라이트백(writeback)을 포함할 수 있다.
CPU(1105)는 집적 회로와 같은 회로의 일부일 수 있다. 시스템(1101)의 하나 이상의 다른 구성 요소가 회로에 포함될 수 있다. 일부 경우에, 회로는 주문형 집적 회로(ASIC)이다.
저장 유닛(1115)은 드라이버, 라이브러리 및 저장된 프로그램과 같은 파일을 저장할 수 있다. 저장 유닛(1115)은 사용자 데이터, 예를 들어, 사용자 선호도 및 사용자 프로그램을 저장할 수 있다. 일부 경우에 컴퓨터 시스템(1101)은 인트라넷 또는 인터넷을 통해 컴퓨터 시스템(1101)과 통신하는 원격 서버에 위치하는 것과 같은 컴퓨터 시스템(1101)의 외부에 있는 하나 이상의 추가 데이터 저장 유닛을 포함할 수 있다.
컴퓨터 시스템(1101)은 네트워크(1130)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들어, 컴퓨터 시스템(1101)은 사용자의 원격 컴퓨터 시스템(예를 들어, 컴퓨터 시스템(1101)으로부터 전송된 샘플 분석의 결과를 수신하고 디스플레이하는 애플리케이션이 설치된 스마트폰)과 통신할 수 있다. 원격 컴퓨터 시스템의 예는 개인용 컴퓨터(예를 들어, 휴대용 PC), 슬레이트 또는 태블릿 PC(예를 들어, Apple® iPad, Samsung® Galaxy Tab), 전화기, 스마트폰(예를 들어, Apple® iPhone, 안드로이드-지원 장치, Blackberry®) 또는 개인 정보 단말기를 포함한다. 사용자는 네트워크(1130)를 통해 컴퓨터 시스템(1101)에 액세스할 수 있다.
본원에 기재된 방법은, 예를 들어, 메모리(1110) 또는 전자 저장 유닛(1115)과 같은 컴퓨터 시스템(1101)의 전자 저장 위치에 저장된 기계(예를 들어, 컴퓨터 프로세서) 실행 가능한 코드에 의해 구현될 수 있다. 기계 실행 가능하거나 기계 판독 가능한 코드는 소프트웨어의 형태로 제공될 수 있다. 사용 중에, 코드는 프로세서(1105)에 의해 실행될 수 있다. 일부 경우에, 코드는 저장 유닛(1115)으로부터 검색되고 프로세서(1105)에 의한 준비된 액세스를 위해 메모리(1110)에 저장될 수 있다. 일부 상황에서, 전자 저장 유닛(1115)은 배제될 수 있고, 기계 실행 가능한 명령은 메모리(1110)에 저장된다.
코드는 코드를 실행하도록 적합화된 프로세서를 갖는 기계와 함께 사용하기 위해 미리 컴파일되고 구성될 수 있거나, 런타임 동안 컴파일될 수 있다. 코드는 사전 컴파일되거나 컴파일된 방식으로 코드를 실행할 수 있도록 선택될 수 있는 프로그래밍 언어로 제공될 수 있다.
컴퓨터 시스템(1101)과 같은 본원에 제공된 시스템 및 방법의 양태는 프로그래밍으로 구현될 수 있다. 기술의 다양한 양태는 전형적으로 기계(또는 프로세서) 실행 가능한 코드 및/또는 기계 판독 가능한 매체의 유형으로 전달되거나 구현되는 관련 데이터의 형태인 "제품" 또는 "제조 물품"으로 생각될 수 있다. 기계 실행 가능한 코드는 메모리(예를 들어, 읽기 전용 메모리, 랜덤 액세스 메모리, 플래시 메모리) 또는 하드 디스크와 같은 전자 저장 유닛에 저장될 수 있다. "저장" 유형 매체는 소프트웨어 프로그래밍을 위해 언제든지 비일시적 저장을 제공할 수 있는 다양한 반도체 메모리, 테이프 드라이브, 디스크 드라이브 등과 같은 컴퓨터, 프로세서 등의 유형 메모리 또는 이의 관련 모듈의 일부 또는 전부를 포함할 수 있다. 소프트웨어의 전부 또는 일부는 때때로 인터넷 또는 다양한 다른 전기통신 네트워크를 통해 통신될 수 있다. 예를 들어, 그러한 통신은 하나의 컴퓨터 또는 프로세서로부터 다른 것으로, 예를 들어, 관리 서버 또는 호스트 컴퓨터로부터 애플리케이션 서버의 컴퓨터 플랫폼으로의 소프트웨어의 로딩을 가능하게 할 수 있다. 따라서, 소프트웨어 요소를 보유할 수 있는 또 다른 유형의 매체는, 유선 및 광 유선 네트워크를 통해 그리고 다양한 에어-링크를 통해, 로컬 장치 사이의 물리적 인터페이스를 통해 사용되는 것과 같은 광, 전기 및 전자기파를 포함한다. 유선 또는 무선 링크, 광 링크 등과 같은 그러한 파동을 전달하는 물리적 요소는 또한 소프트웨어를 포함하는 매체로 간주될 수 있다. 본원에서 사용되는 바와 같이, 비일시적 유형 "저장" 매체로 제한되지 않는 한, 컴퓨터 또는 기계 "판독 가능한 매체"와 같은 용어는 실행을 위해 프로세서에 명령을 제공하는데 참여하는 임의의 매체를 지칭한다.
따라서, 컴퓨터 실행 가능한 코드와 같은 기계 판독 가능한 매체는 유형 저장 매체, 반송파 매체 또는 물리적 전송 매체를 포함하나 이에 제한되지 않는 많은 형태를 취할 수 있다. 비휘발성 저장 매체는, 예를 들어, 도면에 도시된 데이터베이스 등을 구현하는데 사용될 수 있는 임의의 컴퓨터(들) 등의 임의의 저장 장치와 같은, 예를 들어, 광학 또는 자기 디스크를 포함한다. 휘발성 저장 매체는 그러한 컴퓨터 플랫폼의 주 메모리와 같은 동적 메모리를 포함한다. 유형 전송 매체는 동축 케이블; 컴퓨터 시스템 내의 버스를 포함하는 와이어를 포함하는 구리 와이어 및 광섬유를 포함한다. 반송파 전송 매체는 전기 또는 전자기 신호, 또는 무선 주파수(RF) 및 적외선(IR) 데이터 통신 동안 생성되는 것과 같은 음향 또는 광파의 형태를 취할 수 있다. 따라서, 일반적인 형태의 컴퓨터 판독 가능한 매체는, 예를 들어, 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 펀치 카드 페이퍼 테이프, 구멍 패턴을 갖는 임의의 다른 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 데이터 또는 명령을 전송하는 반송파, 그러한 반송파를 전송하는 케이블 또는 링크, 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 읽을 수 있는 임의의 다른 매체를 포함한다. 이러한 형태의 컴퓨터 판독 가능한 매체 중 다수는 실행을 위해 하나 이상의 명령의 하나 이상의 시퀀스를 프로세서에 운반하는데 관련될 수 있다.
컴퓨터 시스템(1101)은, 예를 들어, 비제한적으로 병원체 통합 프로파일의 그래픽 표시, 병원체 통합 중단점의 게놈 위치, 병리의 분류(예를 들어, 질병 또는 암의 유형 및 암의 수준), 및 병리의 분류에 기초한 예방 단계의 치료 제안 또는 권고와 같은 샘플 분석의 결과를 제공하기 위한 사용자 인터페이스(UI)(1140)를 포함하는 전자 디스플레이(1135)를 포함하거나 이와 통신할 수 있다. UI의 예는 그래픽 사용자 인터페이스(GUI) 및 웹 기반 사용자 인터페이스를 포함하나 이에 제한되지 않는다.
본 개시의 방법 및 시스템은 하나 이상의 알고리즘에 의해 구현될 수 있다. 알고리즘은 중앙 처리 유닛(1105)에 의해 실행될 때 소프트웨어에 의해 구현될 수 있다. 알고리즘은, 예를 들어, 샘플로부터 핵산 분자의 시퀀싱을 제어하거나, 시퀀싱 데이터의 수집을 지시하거나, 시퀀싱 데이터를 분석하거나, 블록-기반 변이체 패턴 분석을 수행하거나, 위험을 평가하거나, 위험을 나타내는 보고서를 생성할 수 있다.
일부 경우에, 도 22에 도시된 바와 같이, 샘플(1202)은 인간 대상체와 같은 대상체(1201)로부터 수득될 수 있다. 샘플(1202)은 검정을 수행하는 것과 같은 본원에 기재된 바와 같은 하나 이상의 방법을 거칠 수 있다. 일부 경우에, 검정은 하이브리드화, 증폭, 시퀀싱, 라벨링, 염기의 후성적 변형 또는 이들의 임의의 조합을 포함할 수 있다. 방법으로부터의 하나 이상의 결과가 프로세서(1204)에 입력될 수 있다. 샘플 식별, 대상체 식별, 샘플 유형, 참조 또는 다른 정보와 같은 하나 이상의 입력 파라미터가 프로세서(1204)에 입력될 수 있다. 검정으로부터의 하나 이상의 메트릭스가 프로세서(1204)에 입력되어, 프로세서가 병리의 분류(예를 들어, 진단) 또는 치료를 위한 권고와 같은 결과를 생성할 수 있게 한다. 프로세서는 결과, 입력 파라미터, 메트릭, 참조 또는 이들의 임의의 조합을 시각적 디스플레이 또는 그래픽 사용자 인터페이스와 같은 디스플레이(1205)에 전송할 수 있다. 프로세서(1204)는 (i) 결과, 입력 파라미터, 메트릭 또는 이들의 임의의 조합을 서버(1207)로 전송할 수 있거나, (ii) 서버(1207)로부터 결과, 입력 파라미터, 메트릭 또는 이들의 임의의 조합을 수신할 수 있거나, (iii) 이들의 조합일 수 있다.
본 개시의 양태는 하드웨어(예를 들어, 주문형 집적 회로 또는 필드 프로그래밍 가능한 게이트 어레이)를 사용하고/하거나 모듈식 또는 통합된 방식으로 일반적으로 프로그래밍 가능한 프로세서와 함께 컴퓨터 소프트웨어를 사용하는 제어 로직의 형태로 구현될 수 있다. 본원에서 사용되는 바와 같이, 프로세서는 단일 코어 프로세서, 동일한 통합 칩 상의 다중 코어 프로세서, 또는 단일 회로 기판 상에 있거나 네트워크로 연결된 다중 처리 유닛을 포함한다. 본원에서 제공된 개시 및 교시에 기초하여, 당업자는 하드웨어 및 하드웨어와 소프트웨어의 조합을 사용하여 본원에 기재된 구체예를 구현하는 다른 방식 및/또는 방법을 알고 인식할 것이다.
이 애플리케이션에 설명된 임의의 소프트웨어 구성 요소 또는 기능은, 예를 들어, Java, C, C++, C#, Objective-C, Swift, 또는 예를 들어, 기존 또는 객체 지향 기술을 사용하는 Perl 또는 Python과 같은 스크립팅 언어와 같은 임의의 적합한 컴퓨터 언어를 사용하여 프로세서에 의해 실행되는 소프트웨어 코드로 구현될 수 있다. 소프트웨어 코드는 저장 및/또는 전송을 위해 컴퓨터 판독 가능한 매체에 일련의 지시 또는 명령으로서 저장될 수 있다. 적합한 비일시적 컴퓨터 판독 가능한 매체는 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 하드 드라이브 또는 플로피 디스크와 같은 자기 매체, 또는 컴팩트 디스크(CD) 또는 DVD(디지털 다기능 디스크)와 같은 광학 매체, 플래시 메모리 등을 포함할 수 있다. 컴퓨터 판독 가능한 매체는 그러한 저장 또는 전송 장치의 임의의 조합일 수 있다.
그러한 프로그램은 또한 인터넷을 포함하는 다양한 프로토콜을 따르는 유선, 광학 및/또는 무선 네트워크를 통한 전송에 적합화된 반송파 신호를 사용하여 인코딩되고 전송될 수 있다. 이와 같이, 컴퓨터 판독 가능한 매체는 그러한 프로그램으로 인코딩된 데이터 신호를 사용하여 생성될 수 있다. 프로그램 코드로 인코딩된 컴퓨터 판독 가능한 매체는 호환 가능한 장치와 함께 패키징되거나 다른 장치와 별도로 제공될 수 있다(예를 들어, 인터넷 다운로드를 통해). 그러한 임의의 컴퓨터 판독 가능한 매체는 단일 컴퓨터 제품(예를 들어, 하드 드라이브, CD 또는 전체 컴퓨터 시스템) 상에 또는 내에 존재할 수 있고, 시스템 또는 네트워크 내의 상이한 컴퓨터 제품 상에 또는 내에 존재할 수 있다. 컴퓨터 시스템은 모니터, 프린터, 또는 본원에서 언급된 임의의 결과를 사용자에게 제공하기 위한 다른 적합한 디스플레이를 포함할 수 있다.
본원에 기재된 임의의 방법은 단계를 수행하도록 구성될 수 있는 하나 이상의 프로세서를 포함하는 컴퓨터 시스템으로 전체적으로 또는 부분적으로 수행될 수 있다. 따라서, 구체예는 본원에 기재된 임의의 방법의 단계를 수행하도록 구성된 컴퓨터 시스템에 관한 것일 수 있으며, 상이한 구성 요소는 각각의 단계 또는 각각의 단계 그룹을 수행한다. 넘버링된 단계로 제시되었지만, 본원의 방법의 단계는 동시에 또는 상이한 순서로 수행될 수 있다. 추가로, 이들 단계의 일부는 다른 방법으로부터의 다른 단계의 일부와 함께 사용될 수 있다. 또한, 단계의 전부 또는 일부는 선택 사항일 수 있다. 추가로, 임의의 방법의 임의의 단계는 모듈, 유닛, 회로 또는 이들 단계를 수행하기 위한 다른 접근법으로 수행될 수 있다.
기타 구체예
본원에서 사용되는 섹션 제목은 단지 구성적 목적을 위한 것이며, 기재된 요지를 제한하는 것으로 해석되어서는 안된다.
본원에 기재된 방법은 본원에 기재된 특정 방법론, 프로토콜, 대상체 및 시퀀싱 기술에 제한되지 않고 그 자체로 다양할 수 있음이 이해되어야 한다. 본원에서 사용된 용어는 단지 특정 구체예를 기재하기 위한 것이며, 첨부된 청구범위에 의해서만 제한될 본원에 기재된 방법 및 조성물의 범위를 제한하고자 하는 것이 아님이 또한 이해되어야 한다. 본 개시의 일부 구체예가 본원에 제시되고 기재되었으나, 그러한 구체예는 단지 예로서 제공되는 것임이 당업자에게 명백할 것이다. 본 개시로부터 벗어나지 않으며 이제 당업자에게 다수의 변경, 변화 및 대체가 발생할 수 있다. 본원에 기재된 개시의 구체예에 대한 다양한 대안이 본 개시를 실시하는데 사용될 수 있음이 이해되어야 한다. 다음의 청구 범위는 본 개시의 범위를 정의하고, 이들 청구 범위 및 이들의 등가물의 범위 내의 방법 및 구조가 이에 의해 포함되는 것으로 의도된다.
예시를 위한 실시예 적용을 참조하여 여러 양태가 설명된다. 달리 지시되지 않는 한, 임의의 구체예는 임의의 다른 구체예와 조합될 수 있다. 본원에 기술된 특징의 완전한 이해를 제공하기 위해 다수의 특정 세부 사항, 관계 및 방법이 제시되는 것을 이해하여야 한다. 그러나, 당업자는 본원에 기재된 특징이 하나 이상의 특정 세부 사항 없이 또는 다른 방법으로 실시될 수 있음을 쉽게 인식할 것이다. 본원에 기재된 특징은 일부 행위가 상이한 순서로 및/또는 다른 행위 또는 사건과 동시에 발생할 수 있기 때문에, 행위 또는 사건의 예시된 순서에 의해 제한되지 않는다. 또한, 본원에 설명된 특징에 따라 방법론을 구현하기 위해 예시된 모든 행위 또는 사건이 필요한 것은 아니다.
실시예
다음 실시예는 본 개시의 일부 구체예를 추가로 예시하기 위해 제공되지만, 본 개시의 범위를 제한하려는 것이 아니다; 당업자에게 공지된 다른 절차, 방법론 또는 기술이 대안적으로 사용될 수 있다는 것이 이들의 예시적인 특성에 의해 이해될 것이다.
실시예 1. 20,000명 이상의 대상체 코호트에 대한 4년 이상의 NPC 스크리닝
본 실시예는 약 4년 동안 20,000명 이상의 대상체 코호트에서 수행된 대규모 스크리닝 연구를 설명한다. 도 1은 이 연구의 설계 다이어그램을 보여준다. 스크리닝의 초기 라운드에서, 40세에서 62세 사이의 20,000명 이상의 남성이 혈장 EBV DNA 분석을 사용하여 NPC에 대해 스크리닝되었다. 검출 가능한 혈장 EBV DNA를 갖는 대상체는 제2 세트의 혈액 샘플로 4주의 중앙값 후에 재검사되었다. 이 배열은 NPC 환자를 NPC는 없지만 검출 가능한 혈장 EBV DNA를 갖는 환자와 구별하기 위한 것이었다. 이전 연구에서, NPC가 없는 대상체에서 혈장 EBV DNA의 존재는 전형적으로 일시적인 현상인 것으로 나타났다. 이들 개체의 3분의 2에서, 혈장 EBV DNA는 2주 후의 중앙값에서 검출될 수 없을 것이다. 지속적으로 양성인 혈장 EBV DNA 결과를 갖는 대상체는 NPC의 존재를 확인하거나 배제하기 위해 비강 내시경 및 비인두의 자기 공명 영상(MRI)으로 추가로 조사되었다. 이 배열에 기초하여, 34개의 NPC 사례가 확인되었다.
나중에, 코호트에 대한 NPC 스크리닝의 또 다른 라운드(2차 라운드)가 초기 스크리닝 라운드 후 4년의 중앙값에서 수행되었다. NPC 스크리닝의 2차 라운드에서, 다시 양성 시험 결과를 갖는 대상체는 1차 스크리닝 라운드에서와 같이 대략 4주 후에 재시험될 것이다. 4주에 걸친 2회 연속 시험에서 양성 결과를 갖는 대상체는 비강 내시경 및 MRI로 추가 조사될 것이다. 2차 스크리닝 라운드는 2017년에 시작되었다. 총 8335명의 대상체가 2018년 9월 15일까지 2차 스크리닝 라운드를 완료하였다. 784명(9.4%)의 대상체는 혈장 EBV DNA에 대해 양성이었다. 4주에서의 재검사에서, 230명(2.7%)의 대상체는 여전히 검출 가능한 혈장 EBV DNA를 가졌다. 표 1은 NPC 스크리닝의 두 라운드에서의 시험 결과를 요약한다.
표 1. NPC 스크리닝의 1차 및 2차 라운드에서 혈장 EBV DNA의 상태
Figure pct00011
표 1에 나타낸 바와 같이, 2차 NPC 스크리닝 라운드에서 검출 가능한 혈장 EBV DNA를 가질 확률은 1차 스크리닝 라운드에서 혈장 EBV DNA의 상태와 상관 관계가 있었다. 1차 스크리닝 라운드에서 음성, 일시적 양성 및 지속적 양성인 혈장 EBV DNA를 갖는 대상체는 2차 스크리닝 라운드의 초기 분석에서 검출 가능한 혈장 EBV DNA를 가질 확률이 8%, 21% 및 57%였다. 더욱이, 4주 후에 지속적으로 양성인 혈장 EBV DNA를 가질 가능성은 3개 그룹에 걸쳐 2%에서 25%로 점진적으로 증가하였다.
본원에 기재된 스크리닝에 의해 확인된 NPC 환자는 NPC 스크리닝을 받지 않은 역사적 코호트의 환자보다 훨씬 더 초기 병기 분포를 가졌다. 초기 단계 질병(1기 및 II기)의 백분율은 각각 70% 및 20%였다. 병기 분포의 이러한 변화는 0.1의 위험 비율을 갖는 환자의 무진행 생존을 현저하게 개선시켰다. 표 2에 요약된 것은 1차 및 2차 스크리닝 라운드 모두에서 NPC 사례의 병기 분포이다. 2차 라운드에서 8335명의 대상체를 스크리닝한 후, 13개의 새로운 NPC 사례가 확인되었다. 1차 및 2차 스크리닝 라운드에서 초기 단계 질병을 갖는 환자의 백분율은 각각 71% 및 69%였다. 초기 단계 질병 환자의 백분율에는 유의한 차이가 없었다(P = 0.93, 카이-제곱 시험).
표 2. 2개의 스크리닝 라운드에서 확인된 NPC 사례의 병기 분포
Figure pct00012
표 3에 요약된 바와 같이, 1차 스크리닝 라운드에서 일시적이거나 지속적으로 검출 가능한 혈장 EBV DNA를 갖는 대상체는 1차 라운드에서 검출 불가능한 혈장 EBV DNA를 갖는 대상체에 비해 1차 라운드 4년 후에 수행된 2차 스크리닝 라운드에서 NPC가 검출될 위험이 더 높았다. 이들 두 그룹의 상대적 위험 값은 각각 7.2 및 19.7이다.
표 3. 1차 라운드에서 혈장 EBV DNA 상태에 따라 분류된 2차 라운드 스크리닝에서 확인된 NPC 사례의 수
Figure pct00013
이러한 결과는 혈장 EBV DNA 분석이 NPC를 갖는 현재 상태의 스크리닝뿐만 아니라 향후 임상적으로 관찰 가능한 NPC를 가질 위험을 예측하는 데에도 유용함을 시사한다. 이 발견의 하나의 실제 적용은 초기 예에서 스크리닝된 대상체의 혈장 EBV DNA 상태에 기초하여 스크리닝을 반복하기 위한 간격을 맞춤화하기 위한 것일 수 있다. 예를 들어, 기준선에서 검출 가능한 혈장 EBV DNA를 갖지만 확인 가능한 NPC는 없는 대상체는 검출 불가능한 혈장 EBV DNA를 갖는 대상체에 비해 더 짧은 간격 후에 재스크리닝될 수 있다. 또한, 예시로서, 스크리닝을 반복하는 간격은 검출 불가능하고, 일시적으로 검출 가능하고, 지속적으로 검출 가능한 혈장 EBV DNA를 갖는 대상체에 대해 각각 4년, 2년 및 1년일 수 있다.
실시예 2. 혈장 EBV DNA의 검출 가능성에 기초한 NPC 스크리닝
본 실시예는 대상체의 혈장에서 EBV DNA의 검출 가능성에 기초하여 대상체에 대해 설계된 NPC 스크리닝 요법을 설명한다. 도 2는 본원에 기재된 바와 같은 요법의 개략도를 보여준다.
요법에 따르면, 스크리닝의 초기 예에서 검출 불가능한 혈장 EBV DNA를 갖는 대상체는 향후 4년 내에 검출 불가능한 EBV DNA를 갖는 대상체에 대한 NPC의 위험이 상대적으로 낮을 것이기 때문에 4년 후에 재스크리닝된다. 후속 스크리닝이 혈장 EBV DNA에 대해 음성인 경우, 후속 스크리닝에 대한 간격은 4년이다. 그러나, 대상체가 한 번의 스크리닝 기회에서 검출 가능한 EBV DNA를 가지고 있지만 NPC가 검출되지 않은 경우, 다음 스크리닝은 1년 후에 배열된다. 스크리닝 간격은 혈장 EBV DNA가 4년 동안 여전히 음성인 경우 다시 4년으로 되돌아간다. 특정 스크리닝 프로그램에 사용되는 실제 시간 간격은 또한 건강 경제적 고려 사항(예를 들어, 스크리닝 비용), 대상체 선호도(예를 들어, 더 빈번한 스크리닝 간격은 특정 대상체의 라이프스타일에 더 방해가 될 수 있음) 및 다른 임상적 파라미터(예를 들어, 개체의 유전형, NPC의 가족력, 식이 이력, 민족적 기원(예를 들어, 광둥민족))에 따라 조정된다.
실시예 3. 세포 비함유 EBV DNA 분자의 변이체 패턴 분석
본 실시예에서, NPC 대상체, 검출 가능한 혈장 EBV DNA를 갖는 비-NPC 대상체, 및 NPC-전 대상체(이후 섹션에서 상세하게 설명됨)의 순환에서 세포 비함유 바이러스 DNA 분자를 분석하기 위해 포획 농축을 이용한 표적화 시퀀싱이 사용되었다. 포획 프로브는 전체 EBV 게놈을 포함하도록 설계되었다. 동일한 분석에서, 약 3000개의 인간 공통 단일 뉴클레오티드 다형성(SNP) 부위 및 인간 백혈구 항원(HLA) SNP를 표적화하는 프로브도 포함되었다.
본 실시예에서, 13명의 NPC 환자 및 검출 가능한 혈장 EBV DNA를 갖는 16명의 비-NPC 대상체의 혈장 EBV DNA를 분석하였다. 13명의 NPC 환자가 증상을 나타내었고 이들은 프린스 오브 웨일즈 병원의 임상 종양학과 또는 이비인후과에서 모집되었다. 16명의 비-NPC 대상체는 실시예 1에 기술된 바와 같이 20,000명 이상의 대상체 NPC 스크리닝 코호트로부터 왔다.
이 분석에서, 특별히 설계된 포획 프로브에 의한 포획 농축을 통한 표적화 시퀀싱이 사용되었다. 분석된 각 혈장 샘플에 대해, QIAamp 순환 핵산 키트를 사용하여 4 mL 혈장으로부터 DNA를 추출하였다. 각각의 경우, 추출된 모든 DNA는 TruSeq Nano DNA 라이브러리 제조 키트(Illumina)를 사용하여 시퀀싱 라이브러리의 제조에 사용되었다. 고유 분자 식별자(UMI) 서열(xGen Dual Index UMI Adapters, Integrated DNA Technologies)과 통합된 이중-인덱싱 시스템을 사용하여 바코딩을 수행하였다. 8회 사이클의 PCR 증폭이 TruSeq Nano 키트(Illumina)를 사용하여 어댑터-라이게이션된 샘플에서 수행되었다. 이후 상기 언급된 바이러스 및 인간 게놈 영역을 덮는 맞춤 설계된 프로브를 사용하여 증폭 생성물을 myBait 맞춤형 포획 패널 시스템(Arbor Biosciences)으로 포획하였다. 표적 포획 후, 포획된 생성물은 14회 사이클의 PCR에 의해 풍부화되어 DNA 라이브러리를 생성하였다. DNA 라이브러리는 NextSeq 플랫폼(Illumina)에서 시퀀싱되었다. 각각의 시퀀싱 실행에 대해, 페어드-엔드 모드를 사용하여 고유 샘플 바코드를 갖는 10개의 샘플을 시퀀싱하였다. 각각의 DNA 단편은 2개의 말단 각각으로부터 시퀀싱된 71개 뉴클레오티드일 것이다. 시퀀싱 후, 서열 판독은 전체 인간 게놈(hg19), 전체 EBV 게놈(GenBank: AJ507799.2), 전체 HBV 게놈 및 전체 HPV 게놈으로 구성된 인위적으로 조합된 참조 서열에 맵핑될 것이다. 정렬은 SOAP2(Bioinformatics 2009;25:1966-7)를 사용하여 수행되었으며, 이는 각 판독에 대해 삽입 크기가 600 bp 이하인 올바른 배향으로 최대 2개의 불일치를 허용하였다. 조합된 게놈 서열에서 고유한 위치에 맵핑된 시퀀싱된 판독은 다운스트림 분석에 사용될 것이다. 동일한 고유 분자 식별자를 갖는 모든 복제된 단편이 여과될 것이다.
정렬 결과에 기초하여, 비제한적으로 단일 뉴클레오티드 변이체(SNV)를 포함하는, 시퀀싱된 판독과 EBV 참조 게놈(GenBank: AJ507799.2) 사이의 뉴클레오티드 차이가 확인되었다. 13명의 NPC 대상체, 검출 가능한 혈장 EBV DNA를 갖는 16명의 비-NPC 대상체 및 4명의 NPC-전 대상체로부터의 44개의 샘플 중 1116개의 SNV(사분위 범위(IQR): 902-1216)의 중앙값이 확인되었다. 이들 혈장 샘플에서, EBV 게놈의 일부 뉴클레오티드 위치에서 2개의 상이한 대립유전자가 관찰되었다. 이 관찰은 시퀀싱 오류 또는 종양 이질성의 존재로 인한 것일 수 있다. 단지 26개 위치의 중앙값(IQR: 20-35)이 혈장 EBV DNA에서 하나 초과의 대립유전자를 가졌다.
도 3에 도시된 바와 같은 계통수 분석에서, NPC 대상체는 함께 클러스터링되었고 비-NPC 대상체로부터 분리되었다. 이러한 결과는 NPC와 비-NPC 대상체 사이에 상이한 EBV 변이체 프로파일이 있었음을 시사하였다. 따라서, 혈장 EBV DNA의 EBV 변이체 프로파일 분석은 스크리닝 맥락에서 NPC 및 비-NPC 대상체를 구별하는데 사용될 수 있다. 3명의 비-NPC 대상체(AC106, AP080 및 FF159)는 4주 간격으로 수집된 분석되는 2개의 연속 수집된 샘플을 가졌다. 동일한 개체로부터의 2개 샘플을 함께 클러스터링하였고 이는 매우 유사한 변이체를 공유함을 나타낸다.
계통수 분석은 또한 EBV 변이체를 기초로 수행되었지만 13명의 NPC 환자 및 검출 가능한 혈장 EBV DNA를 갖는 16명의 비-NPC 대상체의 동일한 그룹에 대한 Hui 등(Hui et al. Int J Cancer 2019, doi.org/10.1002/ijc.32049)에 의한 연구에서 보고된 29개의 변이체를 제외시켰다. 도 4에 도시된 바와 같이, NPC 대상체는 또한 함께 클러스터링되었고 비-NPC 대상체로부터 분리되었다.
1차 스크리닝 라운드(실시예 1에 기재된 바와 같음)에서 혈장 EBV DNA에 대해 지속적으로 양성이었지만 내시경 및 MRI에서 검출 가능한 NPC가 없는 4명의 대상체는 이후 NPC를 갖는 것으로 진단되었다. 이들 모두(BB096, DN054, FK015 및 HB121)는 1차 스크리닝 라운드 3년 후에 NPC를 갖는 것으로 진단되었다. 이들 모두는 이비인후과 클리닉에서 추적 관찰하는 동안 1차 스크리닝 라운드 1년 후에 하나의 추가 혈장 샘플을 수집하였다. 이들 4명의 대상체 각각에 대해, 1차 스크리닝 라운드 및 1년 후에 수집된 2개의 샘플을 EBV 변이체에 대해 분석하였다. 도 5에 도시된 바와 같이, NPC-전 대상체로부터의 샘플을 NPC 샘플과 클러스터링하였고, 이는 NPC와 관련된 EBV 변이체가 실제 암 발생 전에 존재함을 나타낸다. 이는 NPC 관련 EBV 변이체를 갖는 개체가 향후 NPC를 발생시킬 위험이 더 높음을 시사한다. 계통수 분석은 또한 EBV 변이체를 기초로 수행되었지만 NPC, 비-NPC 및 NPC-전 대상체의 동일한 그룹에 대한 Hui 등(Hui et al. Int J Cancer 2019, doi.org/10.1002/ijc.32049)에 의한 연구에서 보고된 29개의 변이체를 제외시켰다. 도 6에 도시된 바와 같이, NPC-전 대상체로부터의 샘플은 여전히 NPC 샘플과 클러스터링되었으며, 이는 EBV 변이체의 분석이 향후 NPC의 위험을 예측할 수 있음을 추가로 시사한다.
실시예 4. 블록-기반 변이체 패턴 분석
본 실시예는 예시적인 블록-기반 변이체 패턴 분석 접근법의 작동 원리 및 실시예 3에 기재된 바와 같이 샘플에서 EBV 변이체 패턴의 분석에 대한 이의 적용을 설명한다.
도 7은 블록-기반 변이체 패턴 분석의 원리를 예시한다. 블록-기반 분석은 상이한 샘플의 혈장 EBV DNA 시퀀싱으로부터 유래된 EBV DNA 변이체 패턴과 참조 게놈의 유사성을 평가하는데 사용되며 여기서 공개 데이터베이스에서 이용 가능한 NPC 시퀀싱 데이터(Kwok et al. J Virol 2014;88:10662-72, Li et al. Nat Comm 2017;8:14121)가 참조로 사용된다. 블록-기반 분석에서, EBV 게놈은 크기가 500 bp인 빈(총 344개 빈)으로 분할되고, 각 빈의 변이체 패턴과 참조 세트의 24개 NPC 샘플의 유사성이 비교되었다. 예를 들어, 하나의 특정 빈 내에 8개의 변이체 부위가 있는 경우, 시험 샘플의 이러한 빈 내에 있는 이들 부위의 대립유전자를 분석하고 24개의 참조 샘플의 동일한 부위에 있는 대립유전자와 비교한다. 유사성 지수는 참조 샘플과 정확히 동일한 대립유전자를 갖는 비율을 기반으로 도출된다. 예를 들어, 시험 샘플이 하나의 참조 샘플과 8개의 변이체 부위 중 7개에서 정확히 동일한 대립유전자를 갖는 경우, 그 빈의 해당 참조 샘플과의 유사성 지수는 7/8이 될 것이다. 그리고 24개의 참조 샘플과 비교하여 시험 샘플의 그 빈에 대한 24개의 유사성 지수가 있을 것이다. 그 빈의 24개의 유사성 지수에 기초하여, 참조 샘플과의 변이체 패턴의 전체적인 유사성을 나타내는 빈 스코어가 계산된다. 예를 들어, 유사성 지수의 컷오프가 0.9로 설정된 경우, 빈 스코어는 컷오프보다 높은 지수를 갖는 빈의 비율을 계산한다. 따라서, 24개 중 2개만이 0.9보다 높은 유사성 지수를 갖는 경우, 빈 스코어는 2/24이다. 빈 스코어가 높을수록, 시험 샘플의 변이체 패턴이 참조 샘플 세트와 더욱 유사하다.
도 8은 13개의 NPC, 16개의 비-NPC 및 4개의 NPC-전 샘플의 EBV DNA 변이체 패턴의 블록-기반 분석을 보여준다. 4명의 NPC-전 대상체 각각에 대해, 2개의 시점으로부터의 샘플을 분석하여 총 8명의 대상체를 제공하였다. EBV 게놈의 344개 빈의 빈 스코어가 이들 샘플에 대해 도출되었다. 이러한 샘플의 빈 스코어를 기반으로, 감독되지 않은 클러스터링 분석이 수행되었다. NPC 샘플(검은색)을 함께 클러스터링하고 비-NPC 샘플(점으로 표시됨)을 함께 클러스터링하였다. NPC-전 대상체의 EBV 변이체 프로파일은 NPC 대상체의 프로파일과 함께 클러스터링되었다. 특히, 이들 4명의 NPC-전 대상체의 변이체 프로파일은 NPC 발생 몇 년 전에 수집된 기준선 샘플의 분석을 통해 획득되었다.
도 9는 Hui 등(Hui et al. Int J Cancer 2019, doi.org/10.1002/ijc.32049)에 의해 13명 NPC, 16명 비-NPC 및 4명 NPC-전 대상체의 동일한 그룹의 연구에서 보고된 29개의 변이체를 제외한 EBV 변이체에 기반한 EBV DNA 변이체의 블록-기반 분석을 보여준다. 유사하게, NPC 샘플의 클러스터링(검은색)이 관찰되었다. 또한, NPC-전 대상체의 EBV 변이체 프로파일은 NPC 대상체의 프로파일과 함께 클러스터링되었다. NPC-전 및 NPC 샘플의 클러스터링은 변이체 분석이 향후 NPC의 발생을 예측할 수 있음을 나타낸다. 요약하면, 실시예 3 및 실시예 4의 데이터는 모집시 NPC를 갖지 않았지만 나중에 암이 발생한 대상체가 다른 NPC 환자로부터의 것과 유사한 기준선 혈액 샘플에서의 EBV 변이체 패턴을 가졌음을 나타낸다.
실시예 5. 수학적 모델을 사용한 NPC에 대한 위험 예측
본 실시예는 변이체 패턴의 분석을 사용하여 검출 가능한 혈장 EBV DNA를 갖는 대상체에 대한 향후 NPC 발생의 위험을 예측하기 위한 분류 모델의 구성 및 분류 모델을 사용한 시험 결과를 설명한다.
지원 벡터 머신(SVM) 알고리즘을 사용하여 실시예 4에 기재된 바와 같이 NPC가 없는 18명의 대상체 및 8명의 NPC 환자를 포함하는 훈련 데이터세트를 사용하여 분류기를 구성하였다. 시험 데이터세트는 실시예 4에 기재된 대로 5명의 NPC 환자, 5명의 NPC가 없는 대상체 및 샘플 수집 시점에 내시경 및 MRI에 의해 검출 가능한 NPC를 갖지 않았지만 이후에 NPC로 진단외 4명의 대상체(NPC-전으로 라벨링됨)로부터 수집된 8개 샘플로 구성되었다.
SVM 분석 방법은 다음과 같이 설명된다:
n개의 샘플을 포함하는 훈련 데이터세트를 가정할 때:
(M1, Y1), …, (Mn, Yn)
여기서 Yi는 샘플 i의 NPC 상태를 나타낸다. Yi는 NPC 환자의 샘플의 경우 1이거나 NPC가 없는 대상체의 샘플의 경우 -1이고; Mi는 샘플 i에 대한 바이러스 변이체 패턴을 포함하는 p-차원 벡터이다. 예를 들어, Mi는 NPC와 관련된 29개의 변이체와 같은 일련의 변이체 부위일 수 있다. 대안적으로, Mi는 NPC를 갖는 것으로 알려진 대상체에 존재하는 참조 EBV 변이체에 대한 일련의 블록-기반 변이체 유사성 점수(예를 들어, 500 bp의 중첩되지 않는 윈도우)일 수 있다.
다음을 만족하는 계수 세트(p-차원 벡터를 갖는 W)를 찾아서, 훈련 데이터세트에서 가능한 한 정확하게 비-NPC 및 NPC 그룹을 분리하는 "초평면"을 식별하여야 한다:
기준 1:
W·Mi-b ≥ 1 (NPC 그룹의 모든 대상체에 대해)
기준 2
W·Mi-b ≤ -1 (비-NPC 그룹의 모든 대상체에 대해)
여기서 W는 초평면을 결정하는 계수의 p-차원 벡터이고; M은 p개의 변이체(또는 블록-기반 유사성 점수) 및 n개의 샘플을 갖는 행렬(p x n 차원)이고; b는 절편이다.
두 가지 기준(즉, 기준 1 및 2)은 다음과 같이 작성할 수도 있다:
Yi (W*Mi-b) ≥ 1 (기준 3)
여기서 Yi는 -1(비 NPC) 또는 1(NPC)이다.
기준 1과 2 사이의 마진 거리(D)는
Figure pct00014
이고,
여기서
Figure pct00015
은 점에서 평면까지의 거리 방정식을 사용하여 계산된다.
D는 기준 3에 따라
Figure pct00016
대상을 최소화함으로써 최대화되어야 한다.
이 원리에 따라, 분류기의 파라미터(W 및 b)를 결정하였다. 이후 훈련된 파라미터(W 및 b)를 사용하여 각 시험 샘플에 대한 NPC 위험 점수를 계산하였다.
도 10A는 블록-기반 변이체 분석을 사용하여 모든 EBV 변이체의 분석을 기초로 훈련된 분류기를 사용하여 계산된 NPC 위험 점수를 보여준다. 이 분석을 위해, EBV 게놈은 실시예 4에 기재된 바와 같이 빈 스코어의 계산을 위해 500 bp의 344개 블록으로 분할되었다. 빈 스코어는 기계 학습의 기능으로 간주되었다. NPC 샘플의 NPC 위험 점수는 비-NPC 대상체로부터 수집된 샘플의 것보다 유의하게 높았다(평균 NPC 위험 점수: 0.15 vs 0.53, p-값 < 0.01, 스튜던트 t-시험). 유사하게, NPC 위험 점수는 NPC가 없는 대상체와 비교하여 NPC-전 대상체로부터 수집된 샘플에 대해 유의하게 더 높았다(평균 위험 점수: 0.58 vs 0.15, p-값 < 0.01, 스튜던트 t-시험). 0.32의 컷오프를 사용하여, NPC 환자 및 NPC-전 대상체로부터의 샘플은 100% 민감도 및 100% 특이성으로 NPC가 없는 샘플과 구별될 수 있다.
도 10B는 Hui 등(Hui et al. Int J Cancer 2019, doi.org/10.1002/ijc.32049)의 연구에서 보고된 29개의 EBV 변이체의 분석에 기초하여 훈련된 분류기를 사용하여 계산된 NPC 위험 점수를 보여준다. NPC 샘플의 NPC 위험 점수는 비-NPC 대상체로부터 수집된 샘플의 것보다 유의하게 높았다(평균 NPC 위험 점수: 0.89 vs 0.18, p-값 < 0.01, 스튜던트 t-시험). 유사하게, NPC 위험 점수는 NPC가 없는 대상체와 비교하여 NPC-전 대상체로부터 수집된 샘플에 대해 유의하게 더 높았다(평균 위험 점수: 0.57 vs 0.18, p-값 = 0.02, 스튜던트 t-시험). 0.6의 컷오프를 사용하여, NPC 환자 및 NPC-전 대상체로부터의 샘플은 74% 민감도 및 100% 특이성으로 NPC가 없는 샘플과 구별될 수 있다.
도 10C는 이전에 Hui 등(Hui et al. Int J Cancer 2019. doi: 10.1002/ijc.32049)에 의해 NPC와 관련되었다고 보고된 29개의 변이체를 제외한 모든 EBV 변이체의 블록-기반 변이체 분석을 사용한 분석에 기초하여 훈련된 분류기를 사용하여 계산된 NPC 위험 점수를 보여준다. NPC 샘플의 NPC 위험 점수는 비-NPC 대상체로부터 수집된 샘플의 것보다 유의하게 높았다(평균 NPC 위험 점수: 0.58 vs 0.15, p-값 < 0.01, 스튜던트 t-시험). 유사하게, NPC 위험 점수는 NPC가 없는 대상체와 비교하여 NPC-전 대상체로부터 수집된 샘플에 대해 유의하게 더 높았다(평균 위험 점수: 0.53 vs 0.15, p-값 < 0.01, 스튜던트 t-시험). 0.31의 컷오프를 사용하여, NPC 환자 및 이후에 NPC를 발생시킨 환자로부터의 샘플은 100% 민감도 및 100% 특이성으로 NPC가 없는 샘플과 구별될 수 있다. 이러한 결과는 분석으로부터 이전에 보고된 29개의 EBV 변이체의 제외가 이 분석의 정확성에 악영향을 미치지 않을 것임을 나타낸다.
실시예 6. 바이설파이트 시퀀싱을 통한 혈장 EBV DNA의 메틸화 상태 분석
본 실시예는 혈장 EBV DNA의 메틸화 상태에 기초하여 NPC 환자 및 검출 가능한 혈장 EBV DNA를 갖는 비-NPC 대상체를 구별하기 위한 바이설파이트 시퀀싱의 사용을 예시한다.
NPC 환자 및 NPC가 없는 대상체의 혈장에서 EBV DNA의 메틸화 수준은 바이설파이트 시퀀싱을 사용하여 결정되었다. 바이설파이트 전환은 메틸화되지 않은 시토신을 우라실로 변경할 수 있다. 메틸화된 시토신은 바이설파이트에 의해 변경될 수 없으며 시토신으로 남을 수 있다. 시퀀싱 동안, 우라실은 티민으로 결정될 수 있다. 시퀀싱 후, 임의의 CpG 디뉴클레오티드 맥락에서 시토신의 메틸화 상태는 시토신이 티민으로 변경되었는지 확인함으로써 결정될 수 있다.
혈장 EBV DNA의 메틸화 수준은 10명의 NPC 환자 및 암은 없지만 혈장에 검출 가능한 EBV DNA를 갖는 40명의 대상체(비-NPC 대상체)에서 결정되었다. 40명의 비-NPC 대상체에 대해, 4주 후에 이들 각각으로부터 또 다른 혈액 샘플을 수집하였다. 이들 중 20명은 혈장 EBV DNA에 대해 음성이 되었고, 이들은 일시적으로 양성인 혈장 EBV DNA를 갖는 것으로 라벨링되었다. 이들 중 20명은 혈장 EBV DNA에 대해 양성으로 남아 있으며, 이들은 지속적으로 양성인 혈장 EBV DNA를 갖는 것으로 라벨링되었다.
도 11에 도시된 바와 같이, EBV DNA 메틸화 수준은 일시적으로 양성인 혈장 EBV DNA를 갖는 비암 대상체(P < 0.01, 스튜던트 t-시험) 및 지속적으로 양성인 혈장 EBV DNA를 갖는 비암 대상체(P < 0.01, 스튜던트 t-시험)에 비해 NPC 환자에서 유의하게 더 높았다. 이러한 결과는 혈장 EBV DNA의 메틸화 분석이 NPC 환자 및 NPC는 없지만 검출 가능한 혈장 EBV DNA를 갖는 대상체를 구별하는데 유용할 수 있음을 시사한다.
실시예 7. 메틸화-민감성 제한 효소를 사용한 혈장 EBV DNA의 메틸화 상태 분석
본 실시예는 NPC 환자 및 NPC는 없지만 검출 가능한 혈장 EBV DNA를 갖는 대상체를 구별하기 위한 혈장 EBV DNA의 메틸화-민감성 제한 효소 분석의 사용을 입증하는 인-실리코 시뮬레이션 실험을 설명한다.
비-NPC 대상체 및 NPC 환자로부터의 샘플로 혈장 DNA의 바이설파이트 시퀀싱을 수행하였다. 두 대상체의 혈장 DNA에서 각각 347,516개 및 6,271,012개의 EBV DNA 단편이 수득되었다. 이들의 혈장 EBV DNA의 메틸화 수준은 각각 48.9% 및 86.3%였다. 혈장 EBV DNA 분자의 약 절반이 적어도 하나의 "CCGG" 모티프를 함유하는 것으로 확인되었다.
혈장 EBV DNA에 대한 제한 효소 분해를 시뮬레이션하기 위해, 바이설파이트 시퀀싱 결과로부터 추론된 "CCGG" 서열 맥락에서 이들의 메틸화 상태에 따라 혈장 EBV DNA 분자의 인-실리코 분해를 수행하였다. 따라서, 도 14에 도시된 바와 같이, 메틸화-민감성 제한 효소 HpaII를 사용한 인-실리코 분해가 있거나 없는 혈장 EBV DNA의 시뮬레이션된 크기 프로파일이 수득되었다. 효소 분해 없이, 비-NPC 대상체의 혈장 EBV DNA의 크기 분포는 NPC 대상체의 좌측에 있었고, 이는 크기 분포가 비-NPC 대상체에 대해 더 짧았음을 나타낸다. 단편 크기의 이러한 차이는 효소 분해가 없는 것과 비교하여 효소 분해가 있는 비-NPC 대상체에서 50bp 미만의 짧은 DNA의 풍부도가 유의하게 증가했다는 점에서, 효소 분해를 갖는 크기 분포 프로파일에서도 관찰되었다. NPC 환자의 경우, < 50 bp의 DNA 분자의 비율은 효소 분해가 있거나 없는 샘플에 대해 각각 5.87% 및 0.84%였다. 그러나, 비-NPC 대상체의 경우, < 50 bp의 DNA 분자의 비율은 효소 분해가 있거나 없는 샘플에 대해 각각 22.24% 및 4.99%였다. 효소 분해에 대한 <50 bp의 DNA 비율의 증가는 NPC 환자 및 비-NPC 대상체에서 각각 17.2% 및 5.0%였다. 도 15는 NPC 환자 및 비-NPC 대상체에 대한 메틸화-민감성 제한 효소 분해가 있거나 없는 혈장 EBV DNA의 누적 크기 프로파일을 예시한다. 효소 분해 정도의 차이는 크기에 대한 누적 빈도 곡선을 사용하여 더 쉽게 인식될 수 있다. 효소 분해가 있거나 없는 두 곡선 사이의 간격은 분해 정도를 반영한다. 갭이 클수록, 혈장 EBV DNA에 대한 효소 분해 정도가 더 커져서, 혈장 EBV DNA에서 더 낮은 수준의 메틸화를 나타낸다. 도면에 나타난 바와 같이, NPC 환자와 비교하여 비-NPC 대상체에 대해 갭이 더 컸다. NPC 환자 및 비-NPC 대상체에 대해 효소 분해가 없는 곡선과 효소 분해가 있는 곡선 사이의 최대 거리는 각각 8.1 및 18.3이었다; NPC 환자와 비-NPC 대상체에 대한 두 곡선 사이의 면적은 각각 2395 및 942.9였다.
실시예 8. 세포 비함유 EBV DNA 분자의 SNV 프로파일 분석
두 그룹 사이의 EBV SNV 프로파일의 차이는 63명의 NPC 및 88명의 비-NPC 대상체의 혈장 DNA 시퀀싱 데이터를 포함하는 훈련 데이터세트에서 분석되었다. EBV 게놈에 걸쳐 분화 SNV가 확인되었다. NPC 위험 점수는 이들 SNV 부위에 대한 유전형 패턴으로부터 도출되는 것으로 제안되었으며, 이후에 31개의 NPC 및 40개의 비-NPC 샘플의 시험 세트에서 분석되었다. 본 실시예에서, EBV 게놈에 걸쳐 총 661개의 유의한 SNV가 훈련 세트로부터 확인되었다(도 16D). 시험 세트에서, NPC 혈장 샘플은 높은 NPC 위험 점수를 갖는 것으로 나타났다; NPC-관련 EBV SNV 프로파일이 있을 수 있다. 비-NPC 샘플 중, 광범위한 NPC 위험 점수가 있었다. 비-NPC 대상체는 다양한 EBV SNV 프로파일을 가질 수 있다.
물질 및 방법.
연구 참가자 및 설계.
연구는 이전에 문헌[Lam et al. Proc Natl Acad Sci U S A. 2018;115:E5115-E5124]에서 보고된 NPC 및 비-NPC 혈장 샘플(훈련 세트로서) 및 또한 NPC 및 비-NPC 대상체 둘 모두로부터의 새롭게 시퀀싱된 혈장 DNA 샘플(시험 세트로서)의 시퀀싱 데이터세트의 서브세트 분석을 포함하였다.
훈련 데이터세트는 문헌[Lam et al. Proc Natl Acad Sci U S A. 2018;115:E5115-E5124]에 설명된 이전의 유망한 NPC 스크리닝 연구에서 스크리닝-검출된 NPC 환자 및 비-NPC 대상체 둘 모두의 혈장 샘플을 포함하였다. 이러한 비-NPC 대상체는 실시간 PCR-기반 검정에 의해 검출 가능한 수준의 혈장 EBV DNA를 보유하였다. 이 데이터세트는 또한 독립적인 코호트로부터의 증상이 있는 NPC 환자의 샘플을 포함하였다. NPC 위험 점수 예측을 위한 훈련 모델을 구축하기 위해 모든 샘플의 EBV 분리물로부터의 EBV 유전형 정보를 연구하였다. 이 연구에서, 다른 31명의 증상이 있는 NPC 환자 및 40명의 비-NPC 대상체의 혈장 샘플은 시험 세트로 사용하기 위해 표적 포획 시퀀싱을 거쳤다. 이들 31명의 증상이 있는 NPC 환자는 홍콩 프린스 오브 웨일즈 병원의 임상 종양학과에서 모집되었다. 비-NPC 대상체는 또한 앞서 언급한 NPC 스크리닝 코호트(20,000명 이상의 대상체 포함)에서 왔으며 이로부터 무작위로 선택되었다. 이들 NPC 및 비-NPC 샘플로부터의 EBV 유전형 변이를 분석하고, 이들의 NPC 위험 점수를 훈련 모델을 기반으로 도출하였다. 훈련 및 시험 세트의 모든 NPC 및 비-NPC 샘플은 중복되지 않았다.
표적 포획 시퀀싱.
포획-프로브 시스템(myBaits Custom Capture Panel, Arbor Biosciences)을 통한 혈장 DNA 라이브러리로부터 EBV DNA 분자의 풍부화로 혈장 샘플의 표적 포획 시퀀싱을 수행하였다. EBV 포획 프로브는 전체 바이러스 게놈을 포함하도록 설계되었다. 3,000개의 인간 단일 뉴클레오티드 다형성(SNP) 부위를 표적화하는 프로브도 참조를 위해 포함되었다. 100:1의 비율로 EBV 프로브 대 상염색체 DNA 프로브의 몰비를 함유하는 프로브 혼합물을 각 포획 반응에 사용하였다. 10개의 혈장 샘플로부터의 DNA 라이브러리가 하나의 포획 반응으로 다중화되었으며, 각각의 샘플로부터의 동일한 양의 DNA 라이브러리가 사용되었다. 현재 훈련 세트로 사용된 이전에 보고된 사례를 포함하여, 모든 사례에 대한 시퀀싱 통계는 표 4A4B에 명시되어 있다.
표 4A. 훈련 세트의 모든 NPC 및 비-NPC 사례의 시퀀싱 통계
Figure pct00017
Figure pct00018
Figure pct00019
Figure pct00020
Figure pct00021
Figure pct00022
**: 그룹 0 = 비-NPC 대상체, 그룹 1 = NPC 대상체 (스크리닝 코호트), 그룹 2 = NPC (외부 코호트).
표 4B. 시험 세트의 모든 NPC 및 비-NPC 사례의 시퀀싱 통계
Figure pct00023
Figure pct00024
Figure pct00025
##: 그룹 0 = 비-NPC 대상체, 그룹 1 = NPC 대상체
EBV 변이체 호출.
시퀀싱된 판독은 문헌[Li H et al. Bioinformatics. 2010;26:589-95, 이는 그 전체가 본원에 참조로 포함됨]에 기재된 BWA 정렬기를 사용하여 인간(hg19) 및 EBV 참조 게놈(AJ507799.2)에 정렬되었다. EBV 단일 뉴클레오티드 변이체(SNV)는, EBV 게놈 부위에 대해 참조 바이러스 게놈과 상이한 대안적인 대립유전자가 검출되었을 때, 문헌[Li H et al. Bioinformatics. 2009;25:2078-9, 이는 그 전체가 본원에 참조로 포함됨]에 설명된 대로, Samtools로 확인되었다. 하나 초과의 유형의 대립유전자가 검출된 SNV 부위(5%로 설정된 마이너 대립유전자 빈도)를 후속 NPC 위험 점수 분석을 위해 필터링하였다.
NPC 위험 점수.
본 실시예에서, NPC 위험 점수는 바이러스 게놈에 걸쳐 SNV 부위의 고정된 세트에서 EBV 유전형의 가중 합산으로서 계산되었다(이원 로지스틱 회귀 모델에서 설명 변수로서). NPC-관련 SNV의 세트가 먼저 훈련 세트의 NPC 및 비-NPC 샘플로부터의 EBV SNV 프로파일의 차이를 분석함으로써 확인되었다. EBV 게놈에 걸친 각 변이체와 NPC 사례의 연관성은, 예를 들어, Fisher의 정확 시험을 사용하여 분석되었다. 이후 거짓 발견률(FDR)이 5%로 제어된 유의한 SNV의 고정된 세트를 얻었다.
시험 샘플의 NPC 위험 점수는 훈련 세트로부터 확인된 이 유의한 SNV 부위의 특정 세트에 대한 EBV 유전형에 의해 결정될 수 있다. 언급한 바와 같이, 혈장 EBV DNA 분자의 낮은 농도로 인해, 시퀀싱된 EBV DNA 판독에 의한 전체 EBV 게놈의 적용범위가 불완전할 수 있다. 따라서, 점수는 혈장 EBV DNA 판독(예를 들어, 이용 가능한 유전형 정보와 함께)에 의해 포함된 SNV 부위에 대한 유전형 패턴에 의해 결정되도록 공식화되었다(도 16A, 16B16C). NPC 위험 점수를 도출하기 위해, 시험 샘플에서 혈장 EBV DNA 판독에 의해 포함된 유의한 SNV 부위의 서브세트를 먼저 확인하였다. 이후, 각 부위에서 유전형의 가중치(효과 크기)를 유의한 SNV 부위의 서브세트 내에서 결정하였다. 이는 훈련 데이터세트에서 NPC 및 비-NPC 샘플 중에서 각 부위의 유전형 패턴을 분석함으로써 수행되었다(도 16B). 이를 기반으로, NPC의 각 SNV 부위에서 위험 유전형의 효과 크기를 알리기 위해 로지스틱 회귀 모델을 구성하였다. 로지스틱 모델은 다음과 같이 작성되었다:
Figure pct00026
이는 다음과 같이 다시 작성될 수 있다:
Figure pct00027
여기서 n은 유의한 SNV 부위의 수이고; β0 및 βk는 최대 우도 추정기에 의해 결정될 수 있는 계수이고; P는 NPC를 갖는 EBV-양성 환자의 확률이고; 변수 Xk는 게놈 위치 k에서 SNV 부위를 나타낸다. Xk는 EBV 참조 게놈과 동일한 샘플에 변이체가 존재하는 경우 -1로 코딩될 수 있다. Xk는 샘플에 대안적인 변이체가 있는 경우, 1로 코딩될 수 있다. Xk는 분석된 변이체 부위가 샘플에 포함되지 않은 경우, 0으로 코딩될 수 있다. 계수 β0 및 βk를 추정하기 위해, python에서 'LogisticRegression' 함수(페널티 = 'l2', C = 1, solver = 'saga', max_iter = 5000 및 random_state = 0)가 사용되었다. 이는 훈련 데이터세트의 NPC 및 비-NPC 샘플 중에서 각 부위의 유전형 패턴을 분석함으로써 수행되었다. 행렬 (c+d)×n이 python에 입력되었고, 여기서 c는 NPC 샘플의 수이고, d는 훈련 세트의 비-NPC 샘플의 수이고, n은 유전형 변이체의 수였다. 각 행은 샘플(NPC가 없는 환자의 경우 0; NPC가 있는 환자의 경우 1)을 나타내고, 각 열은 변이체를 나타낸다. 이후 계수(β0 및 βk)를 추론할 수 있다. 이후 시험 샘플의 NPC 위험 점수는 훈련 모델로부터 추론된 상응하는 계수 β0 및 βk에 의해 가중치가 부여된 SNV 부위에서 자체 유전형을 기반으로 도출되었다(도 16C).
결과
NPC 위험 점수 훈련 모델 구축.
전술한 바와 같이, NPC 및 비-NPC 샘플의 이전에 보고된 혈장 EBV DNA 시퀀싱 데이터가 NPC 위험 점수 훈련 모델 개발에 사용되었다. 혈장 샘플에서 EBV DNA를 풍부하게 하기 위해 표적 포획 시퀀싱이 수행되었다. NPC 및 비-NPC 샘플로부터의 EBV 분리물의 바이러스 SNV 프로파일을 여기서 연구하였다. 이 데이터세트로부터, 시퀀싱된 EBV DNA 판독에 의해 EBV 게놈에 대한 적어도 30%의 적용범위를 갖는 NPC 및 비-NPC 사례가 선택되었다. 이 컷오프는 훈련 데이터세트에서 NPC 샘플의 95% 초과가 컷오프보다 더 큰 바이러스 게놈 적용범위를 갖기 때문에 선택되었다(표 4A4B). 연령 및 성별을 포함하는 이러한 선택된 NPC 및 비-NPC 대상체의 인구 통계 및 NPC 환자의 암 병기 정보(8th AJCC 에디션)가 표 5에 상세히 설명되어 있다. 이러한 선택된 NPC 및 비-NPC 샘플의 시퀀싱 통계는 (표 4A4B)에 명시되어 있다.
표 5. 훈련 세트의 모든 NPC 및 비-NPC 사례의 대상체 특징
Figure pct00028
이들 63개의 NPC 및 88개의 비-NPC 샘플의 EBV SNV 프로파일을 분석하였다. 모든 샘플에 대한 EBV 게놈에 대한 중앙 시퀀싱 깊이는 2x(사분위 범위(IQR), 1.0x-9.2x)였다. NPC 샘플에서 확인된 EBV SNV의 평균 수는 800(IQR, 662-958)이었고, 비-NPC 샘플 중 SNV의 평균 수는 539(범위, 363-656)였다. 총 5678개의 상이한 SNV가 모든 샘플에 대해 확인되었다. EBV 게놈에 걸친 이러한 SNV의 분포는 도 16D에 예시되어 있다.
훈련 세트에서 각 바이러스 SNV와 NPC 샘플의 연관성은 또한 Fisher의 정확 시험으로 연구되었다. 거짓 발견률(FDR)을 0.05로 제어함으로써 조정된 p-값으로 NPC와 관련된 총 661개의 유의한 SNV가 확인되었다. 이들 661개 SNV의 게놈 위치는 표 6에 나열되어 있다. 이어서, NPC 및 비-NPC 대상체의 혈장 샘플의 시험 세트의 NPC 위험 점수는 이들 661개 SNV 부위에 대한 유전형 패턴에 기초하여 도출되었다.
표 6. 661개의 예시적인 SNV의 EBV 게놈 위치(AJ507799.2에 상대적)
Figure pct00029
Figure pct00030
NPC 위험 점수 훈련 모델 평가.
리브 원-아웃 접근법(leave one-out approach)을 사용하여 훈련 세트 내 샘플의 NPC 위험 점수를 분석하기 위해 훈련 모델을 평가하였다. 리브 원-아웃 접근법에서, 훈련 모델을 구축하고 NPC 위험 점수를 도출하는 원리는 방법에 설명된 것과 동일하였다. 훈련 세트에서 하나의 샘플을 제외한 전부가 훈련 모델을 구축하는데 사용되었으며, 누락된 샘플은 NPC 위험 점수에 대해 분석될 수 있다. 리브 원-아웃 분석에서, NPC 그룹의 중앙 NPC 위험 점수는 0.99(IQR, 0.98-1.0)였고 비-NPC 그룹의 경우 0.01(IQR, 0.00-0.89)이었다(도 17A). 수신기 작동 특성(ROC) 곡선 분석은 NPC 위험 점수에 의한 NPC 및 비-NPC 샘플의 구별을 평가하기 위해 사용되었다. 곡선 아래 면적 값은 0.91이었다(도 17B).
시험 세트의 NPC 위험 점수 분석.
표적 포획 시퀀싱은 다른 31명의 NPC 환자 및 45명의 비-NPC 대상체의 혈장 샘플에 대해 수행되었다. 이들 중 31개의 NPC 샘플과 40개의 비-NPC 샘플 모두가 시퀀싱된 EBV DNA 판독에 의해 EBV 게놈의 적어도 30% 이상의 적용범위를 가졌다. 이들 NPC 및 비-NPC 대상체의 임상적 특징은 표 7에 요약되어 있다. 이 시험 세트의 샘플의 시퀀싱 통계가 또한 표 4A4B에 명시되어 있다.
표 7. 시험 세트의 모든 NPC 및 비-NPC 사례의 대상체 특징
Figure pct00031
개발된 훈련 모델에 기초하여 31개의 NPC 샘플 및 40개의 비-NPC 샘플의 시험 세트의 NPC 위험 점수를 분석하였다. 샘플의 NPC 위험 점수는 훈련 세트로부터 확인된 661개의 유의한 SNV 위치에 대한 변이체 패턴에 의해 결정될 수 있다. EBV 게놈의 불완전한 적용범위가 있을 수 있기 때문에, 시퀀싱된 EBV DNA에 의해 포함되고 상응하는 대립유전자 정보를 갖는 SNV 부위만이 NPC 위험 점수 분석에 포함될 수 있다(도 16A, 16B16C).
NPC 그룹의 중앙 NPC 위험 점수는 0.999(IQR, 0.996-0.999)였고 비-NPC 그룹의 경우 0.557(IQR, 0.000-0.996)이었다(도 18A). 마찬가지로, 이들 31개의 NPC 샘플에서 높은 NPC 위험 점수가 기록되었다. 시험 세트의 NPC 샘플은 훈련 세트의 NPC 샘플과 유사한 EBV SNV 프로파일을 공유할 수 있다. NPC 위험 점수에 의한 NPC 및 비-NPC 샘플의 구별도 ROC 곡선 분석에 의해 평가되었다. 곡선 아래 면적 값은 0.83이었다(도 18B).
시험 세트에서 고위험 변이체 부위에 대한 유전형 패턴 분석.
EBER(EBV-인코딩된 소형 RNA) 영역에는 고위험 NPC-관련 EBV 변이체가 존재한다. EBER 영역에서, 23개의 유의한 SNV가 Hui 등에 의해 보고되었다. NPC 위험 예측의 유사한 접근법이 31개의 NPC 및 40개의 비-NPC 샘플의 시험 세트에서 채택되었지만 EBER 영역에서 보고된 23개의 SNV의 유전형 패턴만을 기반으로 분석되었다.
시험 세트에서, 71개의 NPC 및 비-NPC 샘플 중 31개(44%)는 23개의 SNV 부위를 모두 포함하는 EBV DNA 판독을 가졌다. 표 8에 나타낸 바와 같이, 이들 23개의 SNV 부위 각각에 대해, 샘플의 일부만이 SNV 부위를 포함하는 판독을 갖는 이용 가능한 유전형 정보를 가졌다(즉, 샘플에서 모든 23개의 SNV 부위가 혈장 EBV DNA 판독으로 덮이는 것은 아님). NPC 샘플 중 23개의 SNV 부위 각각에서 고위험 유전형의 백분율은 86% 내지 97% 범위이다. 비-NPC 샘플 중 고위험 유전형의 백분율은 35% 내지 52% 범위이다. 분석된 NPC 및 비-NPC 샘플의 수는 이용 가능한 유전형 정보(예를 들어, SNV 부위를 포함하는 EBV DNA 판독을 가짐)를 갖는 샘플을 지칭한다. 시험 세트(31개의 NPC 샘플 및 40개의 비-NPC 샘플)의 샘플의 일부만이 SNV 부위를 포함하는 판독 및 상응하는 부위에 대한 이용 가능한 유전형 정보를 가졌다. NPC 및 비-NPC 샘플의 구별은 또한 ROC 곡선 분석에 의해 EBER 영역에서 23개의 SNV의 유전형 패턴만을 분석함으로써 평가되었다. 곡선 아래 면적 값은 0.72였다(도 19A19B). 이 값은 전체 EBV 게놈에 대한 유전형 패턴의 분석에서 도출된 값보다 낮았다(0.83).
전체 EBV 게놈에 대한 유전형 패턴의 분석은 고정된 바이러스 게놈 영역에 대한 것보다 양호한 NPC 및 비-NPC 샘플의 구별을 달성할 수 있다.
표 8. EBER 유전자의 23개 SNV 부위에서의 시험 세트에서 NPC 및 비-NPC 사례의 유전형 패턴
Figure pct00032
Figure pct00033
유사하게, BALF2(BamHI A 좌측 프레임-2) 유전자에 대한 3개의 고위험 SNV도 보고되었다(Xu et al. Nat Genet. 2019;51:1131-6). 시험 세트에는 71개 샘플 중 3개의 SNV를 모두 포함하는 EBV DNA 판독을 갖는 55개(78%) 샘플이 있었다. 이들 3개의 SNV 부위 각각에 대해, 시험 세트의 샘플 중 일부만이 이용 가능한 유전형 정보를 갖는 SNV 부위를 포함하는 판독을 가졌다(표 9). NPC 샘플 중 3개의 SNV 부위 각각에서 고위험 유전형의 백분율은 86% 내지 93% 범위이다. 비-NPC 샘플 중 고위험 유전형의 백분율은 47% 내지 65% 범위이다. BALF2 유전자에 대해 보고된 임의의 3개의 SNV를 포함하는 EBV DNA 판독을 갖지 않는 4개의 사례(1개의 NPC 및 3개의 비-NPC 샘플)가 있었고 이러한 사례는 분석될 수 없었다. NPC 위험 예측의 유사한 접근법이 시험 세트의 나머지 30개의 NPC 및 37개의 비-NPC 샘플에서 채택되었고 BALF2 영역에서 보고된 3개의 SNV의 유전형 패턴만을 분석하였다. NPC 및 비-NPC 샘플의 구별은 또한 ROC 곡선 분석에 의해 평가되었다. 곡선 아래 면적 값은 0.77이었다(도 20A 20B). 이 값은 전체 EBV 게놈에 대한 유전형 패턴의 분석에서 도출된 값보다 낮았다(0.83). 전체 EBV 게놈에 대한 유전형 패턴의 분석은 고정된 바이러스 게놈 영역에 대한 것보다 양호한 NPC 및 비-NPC 샘플의 구별을 달성할 수 있다.
표 9. BALF2 유전자의 3개 SNV 부위에서의 시험 세트에서 NPC 및 비-NPC 사례의 유전형 패턴
Figure pct00034
본 실시예에 설명된 NPC 위험 점수 분석은 EBV 게놈에 대한 661개의 유의한 SNV 세트 내에서 무작위로 선택된 SNV의 부동 수에 대한 유전형 패턴에 기초한 NPC 위험 예측을 허용한다(표 6). NPC 위험 점수 분석에 사용되는 SNV 부위의 부동 수는 SNV 부위가 시퀀싱된 EBV DNA 판독에 의해 포함되고 상응하는 대립유전자 정보를 가졌는지 여부에 의해 결정될 수 있다. 661개의 유의한 SNV 세트의 다운-샘플링이 수행되었고 샘플의 NPC 예측 성능은 다운-샘플링된 SNV 세트 내에서 SNV의 부동 수를 이용한 동일한 접근법을 사용하여 시험 세트에서 분석되었다. 다운-샘플링 분석을 위해, 특정 수(예를 들어, 23, 25, 100, 200 또는 500개)의 SNV가 661개의 유의한 SNV로부터 무작위로 선택되었다. 이후, 시험 샘플의 경우, EBV DNA 서열 판독에 의해 포함된, 다운-샘플링된 SNV 세트 내의 SNV 부위가 확인되었다. 이후 포함된 다운-샘플링된 SNV 부위에 대한 훈련 세트에서 NPC 및 비-NPC 샘플의 유전형 패턴을 갖는 모델을 훈련함으로써 NPC 위험 점수 훈련 모델을 얻었다. 훈련을 통해, 훈련 모델에 대한 각 부위의 유전형 가중치를 결정하였다. 시험 샘플의 NPC 위험 점수는 이러한 포함된, 다운-샘플링된 SNV 부위에 대한 고유의 유전형 패턴을 동일한 다운-샘플링된 SNV 부위에 대해 가중치가 부여된 NPC 위험 점수 훈련 모델에 적용함으로써 도출되었다. 다양한 수의 SNV 부위를 갖는 NPC 위험 점수 훈련 모델의 예측 성능은 표 10에 요약되어 있다. 주어진 수의 SNV 부위에 대해, SNV를 무작위로 선택하는 다운-샘플링을 10회 수행하였고, 표 10의 곡선 아래 면적 값은 10회의 무작위 다운-샘플링 중 평균 결과였다. 전체 EBV 게놈에 걸친 SNV 세트는 EBER 영역에서 보고된 SNV의 수와 동일한 23개로 다운-샘플링되었다. NPC 및 비-NPC 샘플의 구별은 ROC 곡선 분석에 의해 평가되었다. 곡선 아래 면적 값은 0.78이었다. 이 값은 EBER 영역에 걸쳐 보고된 23개의 SNV의 유전형 패턴을 분석한 경우보다 높다(0.72).
표 10. 다양한 수의 SNV를 기반으로 한 NPC 예측 성능
Figure pct00035
이 연구는 혈장 DNA 시퀀싱을 통한 EBV 유전형 정보의 분석을 보고한다. 페어드-엔드 시퀀싱을 통해, NPC와 혈장 EBV DNA를 보유한 비-NPC 대상체 사이에서 수 및 크기를 포함하는 혈장 EBV DNA 분자의 구별되는 분자 특징이 확인되었다. 혈장 EBV DNA의 그러한 수 및 크기 기반 분석을 통합하면 현재 PCR 기반 프로토콜의 양성 예측 값을 거의 두 배로 늘릴 수 있으며 이는 2세대 시퀀싱-기반 스크리닝 시험의 기초를 형성할 수 있다. NPC 및 비-NPC 대상체로부터의 혈장 샘플의 시퀀싱은 추가로 EBV 유전형 정보를 생성할 수 있고 잠재적인 임상적 유용성을 향상시킬 수 있다.
NPC 위험 점수는 단일 유전자 마커 대신 바이러스 게놈 전체 마커에 의한 결정에 사용될 수 있다. 여기서 위험 점수는 EBV 게놈에 걸쳐 분화하는 SNV 부위에 대한 변이체 패턴을 기반으로 도출되었다. EBV 유전형 정보에 대한 혈장 시퀀싱은 낮은 농도의 EBV DNA 분자를 갖는 혈장 샘플을 시퀀싱하는 것을 포함할 수 있으므로 EBV 게놈의 불완전한 적용범위를 초래할 수 있다. 일부 경우에, 유익한 SNV 부위가 임의의 EBV DNA 판독에 의해 포함되지 않을 수 있으며, 일부 경우에는 개체가 고위험 EBV 균주 유형을 보유하고 있는지 여부를 알 수 없다. 이는, EBER 유전자에서 보고된 23개의 SNV 부위 각각에 대해, 시험 세트에서 71개의 분석된 샘플 중 일부만이 상기 부위를 포함하는 판독을 가졌다는 결과에 의해 뒷받침된다. 시험 세트의 NPC 샘플은 높은 NPC 위험 점수를 갖는 것으로 나타났으며, 이는 NPC-관련 EBV SNV 프로파일의 존재를 나타낼 수 있다. 여기서 포획 프로브 방법은 혈장 샘플에서 EBV DNA 분자의 풍부화를 위해 채택되었다. 앰플리콘 시퀀싱 접근법은 또한 유전형 정보에 대해 고위험 변이체 영역을 표적화할 수 있는 EBV DNA 단편을 풍부하게 하기 위해 사용될 수 있다.
EBER 유전자 및 BALF2 유전자에 대한 최근 보고된 고위험 변이체 부위에 대한 시험 세트에서 NPC 및 비-NPC 샘플의 유전형 패턴이 여기서 분석되었다. NPC 및 비-NPC 샘플에서 고위험 유전형의 분포는 세포 샘플, 즉, NPC 종양 조직 및 정상 대조군 대상체의 타액 샘플을 분석한 두 연구의 결과와 일치한다. 현재 연구를 포함하여 세 연구는 모두 중국 남부의 동일하거나 인접한 지역에서 수행되었기 때문에, 정상 대조군 대상체 사이에서 EBV 유전형의 분포는 유사할 수 있다. 이는 혈장 샘플의 시퀀싱을 통한 EBV 유전형 분석의 타당성에 대한 증거를 제공한다.
스크리닝의 맥락에서 혈장 샘플로부터 EBV SNV를 프로파일링하는데 임상적 유용성이 있을 수 있다. 언급한 바와 같이, 스크리닝 집단의 약 5%는 혈장에 EBV DNA를 보유할 수 있지만 NPC를 갖지 않는다(위양성 그룹). 여기의 데이터는 이들 비-NPC 대상체가 다양한 EBV SNV 프로파일을 포함할 수 있는 가변 NPC 위험 점수를 가졌음을 나타내었다. 향후 NPC를 발생시킬 위험이 상이한 이질적인 개체 그룹이 존재할 수 있다. 고위험 EBV 균주를 보유한 이들 중 일부는 향후 NPC에 대한 더 높은 위험을 가질 수 있다. NPC 위험 점수는 바이러스 게놈 전체 SNV 프로파일에 기초하여 이러한 비-NPC 대상체를 상이한 위험 그룹으로 계층화하는데 사용될 수 있다. 한 예에서, 높은 NPC 위험 점수를 갖는 사람들에 대해 더 빈번한 스크리닝이 보장될 수 있다.
NPC 환자 및 비-NPC 대상체로부터의 EBV 유전형 정보는 혈장 샘플의 시퀀싱 분석을 통해 분석되었다. 이전 연구는 집단 수준에서 NPC와 관련된 고위험 변이체를 확인하는데 중점을 두었지만, 이 연구는 바이러스 유전형 분석의 임상적 적용에 대한 통찰력을 제공한다. 그러한 분석은 이들이 보유하고 있는 EBV 유전형을 특성화함으로써 개체에 근거하여 암 위험을 알리는데 사용될 수 있다.
본 개시의 바람직한 구체예가 본원에 제시되고 기재되었으나, 그러한 구체예는 단지 예로서 제공되는 것임이 당업자에게 명백할 것이다. 본 개시로부터 벗어나지 않으며 이제 당업자에게 다수의 변경, 변화 및 대체가 발생할 수 있다. 본원에 기재된 개시의 구체예에 대한 다양한 대안이 본 개시를 실시하는데 사용될 수 있음이 이해되어야 한다. 다음의 청구 범위는 본 개시의 범위를 정의하고, 이들 청구 범위 및 이들의 등가물의 범위 내의 방법 및 구조가 이에 의해 포함되는 것으로 의도된다.

Claims (79)

  1. 대상체에서 병원체-관련 장애를 스크리닝하는 방법으로서,
    대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 특징을 결정하는 것을 포함하는 제1 시점에 수행된 제1 검정으로부터 데이터를 수신하는 단계로서, 상기 병원체로부터의 세포 비함유 핵산 분자의 특징이 생물학적 샘플에서 대상체로부터의 세포 비함유 핵산 분자와 비교하여 양, 메틸화 상태, 변이체 패턴, 단편 크기 또는 상대적 풍부도를 포함하고, 상기 특징이 대상체가 병원체-관련 장애를 발생시킬 위험을 나타내는, 단계; 및
    상기 특징에 기초하여, 대상체에서 병원체-관련 장애를 스크리닝하기 위해 제2 검정이 수행되는 제2 시점을 결정하는 단계로서, 제1 시점과 제2시점 사이의 간격이 위험과 반비례하는 단계를 포함하는, 방법.
  2. 대상체에서 병원체-관련 장애의 예후를 제공하는 방법으로서,
    대상체의 생물학적 샘플 중 병원체로부터의 세포 비함유 핵산 분자의 특징을 결정하는 것을 포함하는 제1 검정으로부터 데이터를 수신하는 단계로서, 상기 병원체로부터의 세포 비함유 핵산 분자의 특징이 생물학적 샘플에서 대상체로부터의 세포 비함유 핵산 분자와 비교하여 양, 메틸화 상태, 변이체 패턴, 단편 크기 또는 상대적 풍부도를 포함하는, 단계; 및
    상기 병원체로부터의 세포 비함유 핵산 분자의 특징, 및 대상체의 연령, 대상체의 흡연 습관, 대상체의 병원체-관련 장애의 가족력, 대상체의 유전형 인자, 대상체의 민족성 또는 대상체의 식이 이력 중 하나 이상의 인자에 기초하여 대상체가 병원체-관련 장애를 발생시킬 위험을 나타내는 보고서를 생성하는 단계를 포함하는, 방법.
  3. 제1항에 있어서, 제1 검정의 결과가 병원체-관련 장애에 대한 대상체의 의학적 치료를 초래하지 않는 방법.
  4. 제3항에 있어서, 의학적 치료가 치료제, 방사선 요법 또는 외과적 치료에 의한 치료를 포함하는 방법.
  5. 제1항, 제3항 또는 제4항에 있어서, 대상체가 1% 미만의 위양성률을 갖는 임상 진단 검사에 의해 제2 시점을 결정하기 전에 병원체-관련 장애가 없는 것으로 진단되는 방법.
  6. 제5항에 있어서, 임상 진단 검사가 신체 검사, 침습적 생검, 내시경, 자기 공명 영상, 양성 방출 단층촬영, 컴퓨터 단층촬영 또는 X-선 영상을 포함하는 방법.
  7. 제5항에 있어서, 임상 진단 검사가 조직학적 분석, 세포학적 분석 또는 세포 핵산 분석을 포함하는 침습적 생검을 포함하는 방법.
  8. 제1항 또는 제3항 내지 제7항 중 어느 한 항에 있어서, 간격이 적어도 약 2개월, 4개월, 6개월, 8개월, 10개월 또는 12개월인 방법.
  9. 제8항에 있어서, 간격이 적어도 약 12개월인 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 제1 검정을 수행하는 단계를 추가로 포함하는 방법.
  11. 제10항에 있어서, 제1 검정을 수행하는 단계가,
    (i) 대상체로부터 제1 생물학적 샘플을 수득하는 단계; 및
    (ii) 제1 생물학적 샘플에서 병원체로부터 세포 비함유 핵산 분자의 제1 양을 측정하는 단계를 포함하는 방법.
  12. 제11항에 있어서, 제1 양을 측정하는 단계가 제1 생물학적 샘플에서 병원체로부터의 세포 비함유 핵산 분자의 카피 수를 측정하는 것을 포함하는 방법.
  13. 제11항 또는 제12항에 있어서, 측정이 중합효소 연쇄 반응(PCR)을 포함하는 방법.
  14. 제11항 또는 제12항에 있어서, 측정이 정량적 PCR(qPCR)을 포함하는 방법.
  15. 제11항에 있어서, 제1 양이 제1 생물학적 샘플에서 병원체로부터의 세포 비함유 핵산 분자의 제1 백분율을 측정하는 것을 포함하는 방법.
  16. 제11항 내지 제15항 중 어느 한 항에 있어서, 제1 검정이,
    (iii) 제1 양이 임계 값을 초과하는 경우, 대상체로부터 제2 생물학적 샘플을 수득하고, 제2 생물학적 샘플에서 병원체로부터 세포 비함유 핵산 분자의 제2 양을 측정하는 단계를 추가로 포함하는 방법.
  17. 제16항에 있어서, 제2 생물학적 샘플이 제1 생물학적 샘플 이후 약 4주 후에 수득되는 방법.
  18. 제16항 또는 제17항에 있어서, 제1 양 및 제2 카피 수 둘 모두가 임계 값보다 높으면 제1 시점과 제2 시점 사이의 간격이 제2 양이 임계 값 미만인 경우의 간격에 비해 더 짧은 방법.
  19. 제16항 내지 제18항 중 어느 한 항에 있어서, 제1 양이 임계 값보다 낮으면 제1 시점과 제2 시점 사이의 간격이 제1 양이 임계 값을 초과하는 경우의 간격에 비해 더 긴 방법.
  20. 제16항 내지 제19항 중 어느 한 항에 있어서, 제1 시점과 제2 시점 사이의 간격이 제1 양 및 제2 양 둘 모두가 임계 값을 초과하는 경우 약 1년인 방법.
  21. 제16항 내지 제20항 중 어느 한 항에 있어서, 제1 시점과 제2 시점 사이의 간격이 제2 양이 임계 값 미만인 경우 약 2년인 방법.
  22. 제16항 내지 제21항 중 어느 한 항에 있어서, 제1 시점과 제2 시점 사이의 간격이 제1 양이 임계 값 미만인 경우 약 4년인 방법.
  23. 제10항에 있어서, 제1 검정이 생물학적 샘플에서 병원체로부터의 세포 비함유 핵산 분자의 메틸화 상태를 결정하는 단계를 포함하는 방법.
  24. 제23항에 있어서, 메틸화 상태를 결정하는 단계가 생물학적 샘플의 세포 비함유 핵산 분자를 메틸화-민감성 제한 효소 또는 바이설파이트로 처리하는 것을 포함하는 방법.
  25. 제23항에 있어서, 메틸화 상태를 결정하는 단계가 대상체의 생물학적 샘플에서 세포 비함유 핵산의 메틸화-인식 시퀀싱을 수행하는 것을 포함하는 방법.
  26. 제25항에 있어서, 메틸화-인식 시퀀싱이 메틸화되지 않은 시토신의 우라실로의 바이설파이트 전환을 포함하는 방법.
  27. 제25항에 있어서, 메틸화-인식 시퀀싱이 메틸화-민감성 제한 효소로의 처리를 포함하는 방법.
  28. 제10항에 있어서, 제1 검정이 생물학적 샘플에서 병원체로부터의 세포 비함유 핵산 분자의 단편 크기 분포를 결정하는 단계를 포함하는 방법.
  29. 제28항에 있어서, 단편 크기 분포를 결정하는 단계가 생물학적 샘플에서 세포 비함유 핵산 분자에 대해 시퀀싱을 수행하고, 병원체의 참조 게놈에 맵핑된 서열 판독에 기초하여 생물학적 샘플에서 병원체로부터의 세포 비함유 핵산 분자의 단편 크기를 결정하는 것을 포함하는 방법.
  30. 제10항에 있어서, 제1 검정이 생물학적 샘플에서 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴을 결정하는 단계를 포함하는 방법.
  31. 제30항에 있어서, 변이체 패턴을 결정하는 단계가 생물학적 샘플에서 세포 비함유 핵산 분자에 대해 시퀀싱을 수행하고, 병원체의 참조 게놈에 맵핑된 서열 판독에 기초하여 생물학적 샘플에서 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴을 결정하는 것을 포함하는 방법.
  32. 제30항 또는 제31항에 있어서, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴이 단일 뉴클레오티드 변이를 포함하는 방법.
  33. 제32항에 있어서, 변이체 패턴을 식별하는 단계가 병원체의 참조 게놈에 맵핑된 서열 판독 및 병원체의 장애-관련 참조 게놈 사이의 유사성 수준을 결정하는 것을 포함하는 방법.
  34. 제33항에 있어서, 병원체의 장애-관련 참조 게놈이 병든 조직에서 확인된 병원체의 게놈을 포함하는 방법.
  35. 제33항 또는 제34항에 있어서, 유사성 수준을 결정하는 단계가,
    병원체의 참조 게놈을 복수의 빈으로 분리하는 단계; 및
    병원체의 장애-관련 참조 게놈에 대한 복수의 빈 각각에 대한 유사성 지수를 결정하는 단계로서, 상기 유사성 지수가 병원체의 참조 게놈에 맵핑된 서열 판독 중 적어도 하나가 병원체의 장애-관련 참조 게놈과 동일한 뉴클레오티드 변이체를 갖는 각각의 빈 내의 변이체 부위의 비율과 상관되는, 단계를 포함하는 방법.
  36. 제35항에 있어서, 병원체의 장애-관련 참조 게놈이 병원체의 복수의 장애-관련 참조 게놈을 포함하고, 상기 유사성 수준을 결정하는 단계가,
    병원체의 복수의 장애-관련 참조 게놈 각각에 대한 복수의 빈 각각에 대한 각각의 유사성 지수를 결정하는 단계; 및
    각각의 빈 내의 각각의 유사성 지수가 컷오프 값을 초과하는 복수의 장애-관련 참조 게놈의 비율에 기초하여 복수의 빈 각각에 대한 빈 스코어를 결정하는 단계를 포함하는 방법.
  37. 제35항 또는 제36항에 있어서, 복수의 빈 각각이 약 100, 200, 300, 400, 500, 600, 700, 800, 900 또는 1000 bp의 길이를 갖는 방법.
  38. 제10항 내지 제37항 중 어느 한 항에 있어서, 제1 검정이 생물학적 샘플에서 병원체로부터의 세포 비함유 핵산 분자의 메틸화 상태, 단편 크기 분포 또는 변이체 패턴을 결정하는 단계를 포함하는 방법.
  39. 제1항 내지 제38항 중 어느 한 항에 있어서, 생물학적 샘플에서 병원체로부터의 세포 비함유 핵산 분자의 특징을 포함하는 데이터 입력에 적용된 분류기를 사용하여 대상체가 병원체-관련 장애를 발생시킬 위험 점수를 계산하는 단계를 추가로 포함하며, 상기 분류기가 생물학적 샘플에서 병원체로부터의 세포 비함유 핵산 분자의 특징을 포함하는 데이터 입력에 대한 함수를 적용하여 대상체가 장애를 발생시킬 위험을 평가하는 위험 점수를 포함하는 출력을 생성하도록 구성되는 방법.
  40. 제39항에 있어서, 분류기가 라벨링된 데이터세트로 훈련되는 방법.
  41. 제1항에 있어서, 제2 시점에 제2 검정을 수행하는 단계를 추가로 포함하는 방법.
  42. 제41항에 있어서, 제2 검정이 제1 검정과 동일한 방법.
  43. 제41항에 있어서, 제2 검정이 대상체로부터의 세포 비함유 핵산 분자의 검정, 대상체의 침습적 생검, 대상체의 내시경 검사, 또는 대상체의 자기 공명 영상 검사를 포함하는 방법.
  44. 대상체의 생물학적 샘플로부터 핵산 분자를 분석하는 방법으로서,
    컴퓨터 시스템에서, 대상체의 생물학적 샘플로부터의 세포 비함유 핵산 분자의 서열 판독을 수득하는 단계로서, 상기 생물학적 샘플이 대상체 및 잠재적으로 병원체로부터의 세포 비함유 핵산 분자를 포함하는, 단계;
    컴퓨터 시스템에서, 세포 비함유 핵산 분자의 서열 판독을 병원체의 참조 게놈에 정렬하는 단계; 및
    컴퓨터 시스템에서, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴을 확인하는 단계로서, 상기 변이체 패턴이 병원체의 참조 게놈 상의 복수의 변이체 부위 각각에서 병원체의 참조 게놈에 맵핑된 서열 판독의 뉴클레오티드 변이체를 특성화하고, 상기 복수의 변이체 부위가 병원체의 참조 게놈에 걸쳐 적어도 30개의 부위를 포함하고, 상기 변이체 패턴이 대상체에서 병원체-관련 장애의 상태 또는 위험을 나타내는 단계를 포함하는, 방법.
  45. 제44항에 있어서, 복수의 변이체 부위가 병원체의 참조 게놈에 걸쳐 적어도 40, 적어도 50, 적어도 60, 적어도 70, 적어도 80, 적어도 90, 적어도 100, 적어도 200, 적어도 300, 적어도 400, 적어도 500, 적어도 600, 적어도 700, 적어도 800, 적어도 900, 적어도 1000, 적어도 1100 또는 적어도 1200개의 부위를 포함하는 방법.
  46. 제44항에 있어서, 복수의 변이체 부위가 병원체의 참조 게놈에 걸쳐 적어도 600개의 부위를 포함하는 방법.
  47. 제44항에 있어서, 복수의 변이체 부위가 병원체의 참조 게놈에 걸쳐 약 660개의 부위를 포함하는 방법.
  48. 제44항에 있어서, 복수의 변이체 부위가 병원체의 참조 게놈에 걸쳐 적어도 1000개의 부위를 포함하는 방법.
  49. 제44항에 있어서, 복수의 변이체 부위가 병원체의 참조 게놈에 걸쳐 약 1100개의 부위를 포함하는 방법.
  50. 제44항에 있어서, 복수의 변이체 부위가 병원체의 참조 게놈에 맵핑된 서열 판독이 병원체의 참조 게놈과 상이한 뉴클레오티드 변이체를 갖는 모든 부위로 구성되는 방법.
  51. 제44항 내지 제50항 중 어느 한 항에 있어서, 서열 판독의 정렬이 병원체의 참조 게놈에 맵핑된 서열 판독과 병원체의 참조 게놈 사이에 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1개 염기의 최대 불일치를 허용하도록 구성되는 방법.
  52. 제44항 내지 제50항 중 어느 한 항에 있어서, 서열 판독의 정렬이 병원체의 참조 게놈에 맵핑된 서열 판독과 병원체의 참조 게놈 사이에 2개 염기의 최대 불일치를 허용하도록 구성되는 방법.
  53. 제44항 내지 제52항 중 어느 한 항에 있어서,
    병원체의 참조 게놈에 맵핑된 서열 판독의 변이체 패턴에 기초하여 대상체에서 병원체-관련 장애를 진단, 예후 제공 또는 모니터링하는 단계를 추가로 포함하는 방법.
  54. 제44항 내지 제53항 중 어느 한 항에 있어서, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴이 단일 뉴클레오티드 변이를 포함하는 방법.
  55. 제44항 내지 제54항 중 어느 한 항에 있어서, 변이체 패턴을 식별하는 단계가 병원체의 참조 게놈에 맵핑된 서열 판독 및 병원체의 장애-관련 참조 게놈 사이의 유사성 수준을 결정하는 것을 포함하는 방법.
  56. 제55항에 있어서, 병원체의 장애-관련 참조 게놈이 병든 조직에서 확인된 병원체의 게놈을 포함하는 방법.
  57. 제55항 또는 제56항에 있어서, 유사성 수준을 결정하는 단계가,
    병원체의 참조 게놈을 복수의 빈으로 분리하는 단계; 및
    병원체의 장애-관련 참조 게놈에 대한 복수의 빈 각각에 대한 유사성 지수를 결정하는 단계로서, 상기 유사성 지수가 병원체의 참조 게놈에 맵핑된 서열 판독 중 적어도 하나가 병원체의 장애-관련 참조 게놈과 동일한 뉴클레오티드 변이체를 갖는 각각의 빈 내의 변이체 부위의 비율과 상관되는, 단계를 포함하는 방법.
  58. 제57항에 있어서, 병원체의 장애-관련 참조 게놈이 병원체의 복수의 장애-관련 참조 게놈을 포함하고, 상기 유사성 수준을 결정하는 단계가,
    병원체의 복수의 장애-관련 참조 게놈 각각에 대한 복수의 빈 각각에 대한 각각의 유사성 지수를 결정하는 단계; 및
    각각의 빈 내의 각각의 유사성 지수가 컷오프 값을 초과하는 복수의 장애-관련 참조 게놈의 비율에 기초하여 복수의 빈 각각에 대한 빈 스코어를 결정하는 단계를 포함하는 방법.
  59. 제58항에 있어서, 컷오프 값이 약 0.9인 방법.
  60. 제57항 내지 제59항 중 어느 한 항에 있어서, 복수의 빈 각각이 약 100, 200, 300, 400, 500, 600, 700, 800, 900 또는 1000 bp의 길이를 갖는 방법.
  61. 제44항 내지 제60항 중 어느 한 항에 있어서, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴을 포함하는 데이터 입력에 적용된 분류기를 사용하여 대상체가 병원체-관련 장애를 발생시킬 위험 점수를 계산하는 단계를 추가로 포함하며, 상기 분류기가 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴을 포함하는 데이터 입력에 대한 함수를 적용하여 대상체가 장애를 발생시킬 위험을 평가하는 위험 점수를 포함하는 출력을 생성하도록 구성되는 방법.
  62. 제61항에 있어서, 분류기가 라벨링된 데이터세트로 훈련되는 방법.
  63. 제61항 또는 제62항에 있어서, 분류기가 나이브 베이즈(Naive Bayes) 모델, 로지스틱 회귀, 랜덤 포레스트, 의사 결정 트리, 그래디언트 부스팅 트리, 신경망, 딥 러닝, 선형/커널 지원 벡터 머신(SVM), 선형/비선형 회귀 또는 선형 판별 분석을 사용하는 수학적 모델을 포함하는 방법.
  64. 제44항 내지 제63항 중 어느 한 항에 있어서, 병원체가 바이러스인 방법.
  65. 제64항에 있어서, 바이러스가 엡스타인-바 바이러스(EBV)인 방법.
  66. 제65항에 있어서, 병원체-관련 장애가 비인두암, NK 세포 림프종, 버킷 림프종, 이식 후 림프증식성 장애 또는 호지킨 림프종을 포함하는 방법.
  67. 제65항 또는 제66항에 있어서, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴이 EBV 참조 게놈(AJ507799.2)과 관련하여 표 6에 제시된 게놈 부위로부터 선택되는 적어도 30, 40, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550 또는 600개의 부위를 포함하는 복수의 변이체 부위 각각에서 병원체의 참조된 게놈에 맵핑된 서열 판독의 뉴클레오티드 변이체를 특성화하는 방법.
  68. 제67항에 있어서, 복수의 변이체 부위가 EBV 참조 게놈(AJ507799.2)과 관련하여 표 6에 제시된 게놈 부위를 포함하는 방법.
  69. 제65항 또는 제66항에 있어서, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴이 EBV 참조 게놈(AJ507799.2)과 관련하여 표 6에 제시된 게놈 부위로부터 무작위로 선택되는 복수의 변이체 부위 각각에서 병원체의 참조된 게놈에 맵핑된 서열 판독의 뉴클레오티드 변이체를 특성화하는 방법.
  70. 제65항 또는 제66항에 있어서, 병원체로부터의 세포 비함유 핵산 분자의 변이체 패턴이 EBV 참조 게놈(AJ507799.2)과 관련하여 표 6에 제시된 게놈 부위로부터 무작위로 선택되는 적어도 30, 40, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550 또는 600개의 부위를 포함하는 복수의 변이체 부위 각각에서 병원체의 참조된 게놈에 맵핑된 서열 판독의 뉴클레오티드 변이체를 특성화하는 방법.
  71. 제64항에 있어서, 바이러스가 인간 파필로마바이러스(HPV)인 방법.
  72. 제71항에 있어서, 병원체-관련 장애가 자궁경부암, 구인두암 또는 두경부암을 포함하는 방법.
  73. 제64항에 있어서, 바이러스가 B형 간염 바이러스(HBV)인 방법.
  74. 제73항에 있어서, 병원체-관련 장애가 경화증 또는 간세포 암종(HCC)을 포함하는 방법.
  75. 제44항 내지 제74항 중 어느 한 항에 있어서, 변이체 패턴이 대상체에서 병원체-관련 장애의 상태를 나타내며, 병원체-관련 장애의 상태가 대상체에서 병원체-관련 장애의 존재, 대상체에서 종양 조직의 양, 대상체에서 종양 조직의 크기, 대상체에서 종양의 병기, 대상체에서 종양 부하, 또는 대상체에서 종양 전이의 존재를 포함하는 방법.
  76. 제44항 내지 제75항 중 어느 한 항에 있어서, 생물학적 샘플이 전혈, 혈장, 혈청, 소변, 뇌척수액, 백혈구연층, 질액, 질 세척액, 타액, 구강 세정액, 비강 세척액, 비강 브러시 샘플 및 이들의 조합으로 구성된 군으로부터 선택되는 방법.
  77. 하나 이상의 컴퓨터 프로세서에 의해 실행될 때, 제1항 내지 제76항 중 어느 한 항의 방법을 구현하는 기계 실행 가능한 코드를 포함하는 비일시적 컴퓨터 판독 가능한 매체.
  78. 제1항 내지 제76항 중 어느 한 항의 방법의 동작을 수행하기 위해 컴퓨터 시스템을 제어하기 위한 복수의 명령을 저장하는 비일시적 컴퓨터 판독 가능한 매체를 포함하는 컴퓨터 제품.
  79. 제78항의 컴퓨터 제품; 및 컴퓨터 판독 가능한 매체에 저장된 명령을 실행하기 위한 하나 이상의 프로세서를 포함하는 시스템.
KR1020217031588A 2019-04-02 2020-04-01 바이러스 관련 암의 위험의 계층화 KR20210149052A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962828224P 2019-04-02 2019-04-02
US62/828,224 2019-04-02
US202062961517P 2020-01-15 2020-01-15
US62/961,517 2020-01-15
PCT/US2020/026269 WO2020206041A1 (en) 2019-04-02 2020-04-01 Stratification of risk of virus associated cancers

Publications (1)

Publication Number Publication Date
KR20210149052A true KR20210149052A (ko) 2021-12-08

Family

ID=72663748

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217031588A KR20210149052A (ko) 2019-04-02 2020-04-01 바이러스 관련 암의 위험의 계층화

Country Status (11)

Country Link
US (1) US20200318190A1 (ko)
EP (1) EP3947742A4 (ko)
JP (1) JP2022527316A (ko)
KR (1) KR20210149052A (ko)
CN (1) CN113710818A (ko)
AU (1) AU2020254695A1 (ko)
CA (1) CA3128379A1 (ko)
IL (1) IL285312A (ko)
SG (1) SG11202108621RA (ko)
TW (1) TW202102688A (ko)
WO (1) WO2020206041A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024010081A1 (ja) * 2022-07-08 2024-01-11 国立大学法人熊本大学 多項目同時測定データを活用した高精度診断システム、高精度診断方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014014498A1 (en) * 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a fetal genome
AU2017347790A1 (en) * 2016-10-24 2019-05-23 Grail, Inc. Methods and systems for tumor detection
SG11201906397UA (en) * 2017-01-25 2019-08-27 Univ Hong Kong Chinese Diagnostic applications using nucleic acid fragments
EP3658684B1 (en) * 2017-07-26 2023-08-30 The Chinese University Of Hong Kong Enhancement of cancer screening using cell-free viral nucleic acids

Also Published As

Publication number Publication date
CN113710818A (zh) 2021-11-26
AU2020254695A1 (en) 2021-08-19
IL285312A (en) 2021-09-30
CA3128379A1 (en) 2020-10-08
US20200318190A1 (en) 2020-10-08
EP3947742A4 (en) 2022-12-28
JP2022527316A (ja) 2022-06-01
EP3947742A1 (en) 2022-02-09
WO2020206041A1 (en) 2020-10-08
TW202102688A (zh) 2021-01-16
SG11202108621RA (en) 2021-10-28

Similar Documents

Publication Publication Date Title
US20230132951A1 (en) Methods and systems for tumor detection
JP7168247B2 (ja) 癌スクリーニング及び胎児分析のための変異検出
US10731224B2 (en) Enhancement of cancer screening using cell-free viral nucleic acids
CN115287348A (zh) Dna混合物中组织的单倍型的甲基化模式分析
JP2023540257A (ja) がんを分類するためのサンプルの検証
US20200318190A1 (en) Stratification of risk of virus associated cancers
US20220301654A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
US20230103637A1 (en) Sequencing of viral dna for predicting disease relapse
CN115667544A (zh) 鉴定染色体外dna特征的方法

Legal Events

Date Code Title Description
N231 Notification of change of applicant