KR20210022622A - 생물학적 샘플의 핑거프린팅 방법 - Google Patents

생물학적 샘플의 핑거프린팅 방법 Download PDF

Info

Publication number
KR20210022622A
KR20210022622A KR1020217000329A KR20217000329A KR20210022622A KR 20210022622 A KR20210022622 A KR 20210022622A KR 1020217000329 A KR1020217000329 A KR 1020217000329A KR 20217000329 A KR20217000329 A KR 20217000329A KR 20210022622 A KR20210022622 A KR 20210022622A
Authority
KR
South Korea
Prior art keywords
nucleic acid
sample
acid molecules
loci
fingerprint
Prior art date
Application number
KR1020217000329A
Other languages
English (en)
Inventor
알렉산더 데 종 로버트슨
로히스 칸나판 스리바스
티모티 조셉 윌슨
네일 피터먼
니콜 재신다 램버트
할룩 테즈칸
Original Assignee
렉센트 바이오, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 렉센트 바이오, 인크. filed Critical 렉센트 바이오, 인크.
Publication of KR20210022622A publication Critical patent/KR20210022622A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본 개시내용은 대상체의 생물학적 샘플의 핑거프린팅 방법을 제공한다. 일 측면에서, 본 개시내용은 하기를 포함하는 것인, 샘플 미스매치의 확인 방법을 제공한다: 대상체로부터 제1 복수의 핵산 분자를 포함하는 제1 생물학적 샘플을 수득하는 단계; 제1 복수를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 대상체로부터 제2 복수의 핵산 분자를 포함하는 제2 생물학적 샘플을 수득하는 단계; 제2 복수를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 차이가 사전결정된 기준을 충족하는 경우, 샘플 미스매치를 확인하는 단계.

Description

생물학적 샘플의 핑거프린팅 방법
[상호-참조]
본 출원은 발명의 명칭이 METHODS FOR FINGERPRINTING OF BIOLOGICAL SAMPLES인 2018년 6월 6일자 U.S. 특허 가출원 제62/681,642호를 우선권 주장하며, 이는 전체적으로 본원에 참조로 포함된다.
대상체로부터 수득되는 생물학적 샘플의 수집 및 검정은 종종 임상 및 실험실 과정 전체에 걸친 샘플 정체성의 신뢰성 있는 유지와 관련한 과제에 직면할 수 있다. 예를 들면, 생물학적 샘플은 종종 실험실 또는 임상 환경에서 부주의하게 바뀔 수 있으며, 그에 따라 감지되어 바로잡지 않고 유지될 경우 잠재적으로 올바르지 않은 임상 결과를 초래할 수 있다.
[발명의 개요]
유전자 좌위 패널을 사용한 생물학적 샘플의 핑거프린팅 방법은 원하는 민감도, 특이도 또는 정확도로 유전자 정보를 수득하기에 충분하게 깊은 커버리지(coverage)를 필요로 할 수 있다. 예를 들면, 깊은 커버리지는 서로 다른 샘플로부터 생성된 핑거프린트 사이를 구별하기에 충분하게 높은 신호-대-노이즈 비 (SNR)를 위하여 필요할 수 있다. 그와 같은 샘플은 (예를 들면 서로 다른 두 시점에 동일한 대상체로부터 수득되는) 종적 샘플일 수 있다. 로우-패스(low-pass) 서열분석을 사용하여 처리되는 종적 샘플은 (1) 서로 다른 시점으로부터의 샘플을 보정하여 서로 매치시키는 것 및 (2) 임의의 일 위치에서의 상대적으로 낮은 판독 커버리지에도 불구하고 샘플 핑거프린팅에 적합한 유전자 좌위 패널을 확인하는 것과 관련하여 과제에 직면할 수 있다.
생물학적 샘플의 핑거프린트를 생성시키고 비교하기 위한 방법 및 시스템이 제공된다. 샘플 핑거프린트는 하나 이상의 시점 각각에 대상체로부터 수득되는 생물학적 샘플로부터의 하나 이상의 핵산 분자 세트를 서열분석하는 것에 의해 생성될 수 있다. 샘플 핑거프린트의 쌍별 비교가 수행됨으로써, 샘플 핑거프린트가 생성된 2개의 생물학적 샘플 사이에 샘플 미스매치 (예컨대 2개의 샘플이 서로 다른 대상체로부터 수득된 것임)가 존재하는지 또는 샘플 매치 (예컨대 2개의 샘플이 동일한 대상체로부터 수득된 것임)가 존재하는지 여부를 결정할 수 있다.
일 측면에서, 본 개시내용은 하기를 포함하는 것인, 샘플 미스매치의 확인 방법을 제공한다: 대상체로부터 제1 복수의 핵산 분자를 포함하는 제1 생물학적 샘플을 수득하는 단계; 컴퓨터에 의해 제1 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성(single nucleotide polymorphism) (SNP)을 포함하는 것인 단계; 대상체로부터 제2 복수의 핵산 분자를 포함하는 제2 생물학적 샘플을 수득하는 단계; 컴퓨터에 의해 제2 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계. 추가로, 이와 같은 측면에서, 제1 복수의 핵산 분자의 정량적 측정치는 12개 이하의 독립적인 제1 복수의 핵산 분자의 측정치를 포함한다.
또 다른 측면에서, 본 개시내용은 하기를 포함하는 것인, 샘플 미스매치의 확인 방법을 제공한다: 대상체로부터 제1 복수의 핵산 분자를 포함하는 제1 생물학적 샘플을 수득하는 단계; 컴퓨터에 의해 제1 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 대상체로부터 제2 복수의 핵산 분자를 포함하는 제2 생물학적 샘플을 수득하는 단계; 컴퓨터에 의해 제2 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계. 추가로, 이와 같은 측면에서, 상염색체 단일 뉴클레오티드 다형성은 단순 단일 뉴클레오티드 다형성을 포함한다.
또 다른 측면에서, 본 개시내용은 하기를 포함하는 것인, 샘플 미스매치의 확인 방법을 제공한다: 대상체로부터 제1 복수의 핵산 분자를 포함하는 제1 생물학적 샘플을 수득하는 단계; 컴퓨터에 의해 제1 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 대상체로부터 제2 복수의 핵산 분자를 포함하는 제2 생물학적 샘플을 수득하는 단계; 컴퓨터에 의해 제2 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계. 추가로, 이와 같은 측면에서, 상염색체 단일 뉴클레오티드 다형성은 사전결정된 임계치를 초과하는 부차 대립유전자 분율(minor allele fraction)을 가진다. 상염색체 단일 뉴클레오티드 다형성이 특정 임계치를 초과하는 부차 대립유전자 분율을 가지는 일부 실시양태에서, 상염색체 단일 뉴클레오티드 다형성은 약 7.5 %를 초과하는 부차 대립유전자 분율을 가진다.
일부 실시양태에서, 제1 복수의 핵산 분자 및 제2 복수의 핵산 분자는 무-세포 DNA (cfDNA)를 포함한다. 일부 실시양태에서, 제1 복수의 핵산 분자 및 제2 복수의 핵산 분자는 백혈구 연층 DNA를 포함한다. 일부 실시양태에서, 제1 복수의 핵산 분자 및 제2 복수의 핵산 분자는 고형 종양 DNA를 포함한다.
일부 실시양태에서, 제2 생물학적 샘플은 제1 생물학적 샘플을 수득한 후의 나중 시점에 대상체로부터 수득된다. 일부 실시양태에서, 제1 복수의 핵산 분자를 처리하는 단계는 제1 복수의 핵산 분자를 서열분석하여 제1 복수의 서열분석 판독물을 생성시키는 단계를 포함하며, 제2 복수의 핵산 분자를 처리하는 단계는 제2 복수의 핵산 분자를 서열분석하여 제2 복수의 서열분석 판독물을 생성시키는 단계를 포함한다.
일부 실시양태에서, 서열분석은 전게놈 서열분석 (WGS)을 포함한다. 일부 실시양태에서, 서열분석은 약 10X 이하의 심도로 수행된다. 일부 실시양태에서, 서열분석은 약 8X 이하의 심도로 수행된다. 일부 실시양태에서, 서열분석은 약 6X 이하의 심도로 수행된다. 일부 실시양태에서, 제1 복수의 핵산 분자의 정량적 측정치는 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 커버리지를 포함하며, 제2 복수의 핵산 분자의 정량적 측정치는 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 커버리지를 포함한다.
일부 실시양태에서, 제1 복수의 핵산 분자를 처리하는 단계는 제1 복수의 핵산 분자의 결합 측정을 수행하는 단계를 포함하며, 제2 복수의 핵산 분자를 처리하는 단계는 제2 복수의 핵산 분자의 결합 측정을 수행하는 단계를 포함한다. 일부 실시양태에서, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치는 유전자 좌위를 함유하는 제1 복수의 핵산 분자의 수를 포함하며, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치는 유전자 좌위를 함유하는 제2 복수의 핵산 분자의 수를 포함한다.
일부 실시양태에서, 방법은 복수의 유전자 좌위 중 적어도 일부에 대하여 제1 복수의 핵산 분자 및/또는 제2 복수의 핵산 분자를 풍부화하는 단계를 추가로 포함한다. 일부 실시양태에서, 풍부화는 제1 복수의 핵산 분자 및/또는 제2 복수의 핵산 분자 중 적어도 일부를 증폭시키는 것을 포함한다. 일부 실시양태에서, 증폭은 선택적 증폭을 포함한다. 일부 실시양태에서, 증폭은 범용 증폭을 포함한다. 일부 실시양태에서, 풍부화는 제1 복수의 핵산 분자 및/또는 제2 복수의 핵산 분자 중 적어도 일부를 선택적으로 단리하는 것을 포함한다.
일부 실시양태에서, 복수의 유전자 좌위는 적어도 약 50개의 구별되는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함한다. 일부 실시양태에서, 복수의 유전자 좌위는 적어도 약 100개의 구별되는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함한다.
일부 실시양태에서, 제1 샘플 핑거프린트를 생성시키는 단계는 추가로 대상체로부터 제3 복수의 핵산 분자를 포함하는 제3 생물학적 샘플을 수득하는 단계, 및 제3 복수의 핵산 분자를 처리하여, 제2 복수의 유전자 좌위 각각에서의 제3 복수의 핵산 분자의 정량적 측정치를 수득하는 단계이며, 여기서 제2 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계를 포함하며; 제2 샘플 핑거프린트를 생성시키는 단계는 추가로 대상체로부터 제4 복수의 핵산 분자를 포함하는 제4 생물학적 샘플을 수득하는 단계, 및 제4 복수의 핵산 분자를 처리하여, 제2 복수의 유전자 좌위 각각에서의 제4 복수의 핵산 분자의 정량적 측정치를 수득하는 단계를 포함한다.
일부 실시양태에서, 제3 복수의 핵산 분자 및 제4 복수의 핵산 분자는 무-세포 DNA (cfDNA)를 포함한다. 일부 실시양태에서, 제3 복수의 핵산 분자 및 제4 복수의 핵산 분자는 백혈구 연층 DNA를 포함한다. 일부 실시양태에서, 제3 복수의 핵산 분자 및 제4 복수의 핵산 분자는 고형 종양 DNA를 포함한다. 일부 실시양태에서, 제1 샘플 핑거프린트를 생성시키는 단계는 추가로 대상체로부터 제5 복수의 핵산 분자를 포함하는 제5 생물학적 샘플을 수득하는 단계, 및 제5 복수의 핵산 분자를 처리하여, 제3 복수의 유전자 좌위 각각에서의 제5 복수의 핵산 분자의 정량적 측정치를 수득하는 단계이며, 여기서 제3 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계를 포함하며; 제2 샘플 핑거프린트를 생성시키는 단계는 추가로 대상체로부터 제6 복수의 핵산 분자를 포함하는 제6 생물학적 샘플을 수득하는 단계, 및 제6 복수의 핵산 분자를 처리하여, 제3 복수의 유전자 좌위 각각에서의 제6 복수의 핵산 분자의 정량적 측정치를 수득하는 단계를 포함한다.
일부 실시양태에서, 제3 복수의 핵산 분자 및 제4 복수의 핵산 분자는 무-세포 DNA (cfDNA)를 포함한다. 일부 실시양태에서, 제3 복수의 핵산 분자 및 제4 복수의 핵산 분자는 백혈구 연층 DNA를 포함한다. 일부 실시양태에서, 제3 복수의 핵산 분자 및 제4 복수의 핵산 분자는 고형 종양 DNA를 포함한다.
일부 실시양태에서, 방법은 적어도 약 90 %의 민감도로 샘플 미스매치를 확인하는 것을 포함한다. 일부 실시양태에서, 샘플 미스매치를 확인하는 단계는 적어도 약 95 %의 민감도로 수행된다. 일부 실시양태에서, 방법은 적어도 약 99 %의 민감도로 샘플 미스매치를 확인하는 것을 포함한다.
일부 실시양태에서, 방법은 적어도 약 90 %의 특이도로 샘플 미스매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 95 %의 특이도로 샘플 미스매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 99 %의 특이도로 샘플 미스매치를 확인하는 것을 포함한다.
일부 실시양태에서, 방법은 적어도 약 90 %의 양성 예측 값(positive predictive value) (PPV)으로 샘플 미스매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 95 %의 양성 예측 값 (PPV)으로 샘플 미스매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 99 %의 양성 예측 값 (PPV)으로 샘플 미스매치를 확인하는 것을 포함한다.
일부 실시양태에서, 방법은 적어도 약 90 %의 음성 예측 값(negative predictive value) (NPV)으로 샘플 미스매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 95 %의 음성 예측 값 (NPV)으로 샘플 미스매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 99 %의 음성 예측 값 (NPV)으로 샘플 미스매치를 확인하는 것을 포함한다.
일부 실시양태에서, 방법은 적어도 약 0.90의 곡선하 면적 (AUC)으로 샘플 미스매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 0.95의 곡선하 면적 (AUC)으로 샘플 미스매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 0.99의 곡선하 면적 (AUC)으로 샘플 미스매치를 확인하는 것을 포함한다.
일부 실시양태에서, 사전결정된 기준은 차이가 사전결정된 임계치를 초과하는 유전자형 유사도의 차이를 포함하는 것이다. 일부 실시양태에서, 사전결정된 임계치는 약 0.8이다.
일부 실시양태에서, 방법은 확인된 샘플 미스매치에 기초하여 제2 생물학적 샘플을 추가적인 검정으로부터 배제하는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 기준을 충족하지 않는 경우 샘플 매치를 확인하는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 적어도 약 90 %의 민감도로 샘플 매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 95 %의 민감도로 샘플 매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 99 %의 민감도로 샘플 매치를 확인하는 것을 포함한다.
일부 실시양태에서, 방법은 적어도 약 90 %의 특이도로 샘플 매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 95 %의 특이도로 샘플 매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 99 %의 특이도로 샘플 매치를 확인하는 것을 포함한다.
일부 실시양태에서, 방법은 적어도 약 90 %의 양성 예측 값 (PPV)으로 샘플 매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 95 %의 양성 예측 값 (PPV)으로 샘플 매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 99 %의 양성 예측 값 (PPV)으로 샘플 매치를 확인하는 것을 포함한다.
일부 실시양태에서, 방법은 적어도 약 90 %의 음성 예측 값 (NPV)으로 샘플 매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 95 %의 음성 예측 값 (NPV)으로 샘플 매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 99 %의 음성 예측 값 (NPV)으로 샘플 매치를 확인하는 것을 포함한다.
일부 실시양태에서, 방법은 적어도 약 0.90의 곡선하 면적 (AUC)으로 샘플 매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 0.95의 곡선하 면적 (AUC)으로 샘플 매치를 확인하는 것을 포함한다. 일부 실시양태에서, 방법은 적어도 약 0.99의 곡선하 면적 (AUC)으로 샘플 매치를 확인하는 것을 포함한다.
일부 실시양태에서, 방법은 확인된 샘플 매치에 기초하여 제2 생물학적 샘플을 추가적인 검정에 적용하는 단계를 추가로 포함한다. 일부 실시양태에서, 방법은 확인된 샘플 매치에 기초하여, 제2 샘플 핑거프린트를 데이터베이스에 저장하는 단계, 및 임의적으로 제1 샘플 핑거프린트를 데이터베이스에 저장하는 단계를 추가로 포함한다.
또 다른 측면에서, 본 개시내용은 하나 이상의 컴퓨터 프로세서에 의한 실행시 하기를 포함하는 샘플 미스매치 확인 방법을 실행하는 기계-실행가능 코드를 포함하는 비-일시적 컴퓨터-판독가능 매체를 제공한다: 복수의 유전자 좌위 각각에서의 제1 생물학적 샘플 중 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트의 정보를 수신하는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하고, 제1 복수의 핵산 분자의 정량적 측정치는 12개 이하의 독립적인 복수의 핵산 분자의 측정치를 포함하는 것인 단계; 복수의 유전자 좌위 각각에서의 제2 생물학적 샘플 중 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트의 정보를 수신하는 단계이며, 여기서 상기 제2 생물학적 샘플은 대상체로부터 수득되는 것인 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 기준을 충족하는 경우, 샘플 미스매치를 확인하는 단계.
또 다른 측면에서, 본 개시내용은 하기를 포함하는, 컴퓨터-실행 샘플 미스매치 확인 방법을 제공한다: 제1 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제1 생물학적 샘플로부터의 것)를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 제2 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제2 생물학적 샘플로부터의 것)를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계; 여기서 제1 복수의 핵산 분자의 정량적 측정치는 12개 이하의 독립적인 제1 복수의 핵산 분자의 측정치를 포함함.
또 다른 측면에서, 본 개시내용은 하기를 포함하는, 컴퓨터-실행 샘플 미스매치 확인 방법을 제공한다: 제1 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제1 생물학적 샘플로부터의 것)를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 제2 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제2 생물학적 샘플로부터의 것)를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계; 여기서 상기 상염색체 단일 뉴클레오티드 다형성은 단순 단일 뉴클레오티드 다형성을 포함함.
또 다른 측면에서, 본 개시내용은 하기를 포함하는, 컴퓨터-실행 샘플 미스매치 확인 방법을 제공한다: 제1 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제1 생물학적 샘플로부터의 것)를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 제2 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제2 생물학적 샘플로부터의 것)를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계; 여기서 상기 상염색체 단일 뉴클레오티드 다형성은 사전결정된 임계치를 초과하는 부차 대립유전자 분율을 가짐.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행될 경우 적어도 하기를 수행하는 비-일시적 컴퓨터-실행가능 명령을 포함하는 컴퓨터 판독가능 매체를 포함하거나 그에 접속할 수 있는 컨트롤러를 포함하는 시스템을 제공한다: 제1 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제1 생물학적 샘플로부터의 것)를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 제2 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제2 생물학적 샘플로부터의 것)를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계; 여기서 제1 복수의 핵산 분자의 정량적 측정치는 12개 이하의 독립적인 제1 복수의 핵산 분자의 측정치를 포함함.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행될 경우 적어도 하기를 수행하는 비-일시적 컴퓨터-실행가능 명령을 포함하는 컴퓨터 판독가능 매체를 포함하거나 그에 접속할 수 있는 컨트롤러를 포함하는 시스템을 제공한다: 제1 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제1 생물학적 샘플로부터의 것)를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 제2 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제2 생물학적 샘플로부터의 것)를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계; 여기서 상기 상염색체 단일 뉴클레오티드 다형성은 단순 단일 뉴클레오티드 다형성을 포함함.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행될 경우 적어도 하기를 수행하는 비-일시적 컴퓨터-실행가능 명령을 포함하는 컴퓨터 판독가능 매체를 포함하거나 그에 접속할 수 있는 컨트롤러를 포함하는 시스템을 제공한다: 제1 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제1 생물학적 샘플로부터의 것)를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 제2 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제2 생물학적 샘플로부터의 것)를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계; 여기서 상기 상염색체 단일 뉴클레오티드 다형성은 사전결정된 임계치를 초과하는 부차 대립유전자 분율을 가짐.
또 다른 측면에서, 본 개시내용은 하기를 포함하는, 컴퓨터-실행 샘플 미스매치 확인 방법을 제공한다: 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제1 생물학적 샘플로부터의 것)의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 수득하는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제2 생물학적 샘플로부터의 것)의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 수득하는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계; 여기서 제1 복수의 핵산 분자의 정량적 측정치는 12개 이하의 독립적인 제1 복수의 핵산 분자의 측정치를 포함함.
또 다른 측면에서, 본 개시내용은 하기를 포함하는, 컴퓨터-실행 샘플 미스매치 확인 방법을 제공한다: 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제1 생물학적 샘플로부터의 것)의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 수득하는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제2 생물학적 샘플로부터의 것)의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 수득하는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계; 여기서 상기 상염색체 단일 뉴클레오티드 다형성은 단순 단일 뉴클레오티드 다형성을 포함함.
또 다른 측면에서, 본 개시내용은 하기를 포함하는, 컴퓨터-실행 샘플 미스매치 확인 방법을 제공한다: 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제1 생물학적 샘플로부터의 것)의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 수득하는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제2 생물학적 샘플로부터의 것)의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 수득하는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계; 여기서 상기 상염색체 단일 뉴클레오티드 다형성은 사전결정된 임계치를 초과하는 부차 대립유전자 분율을 가짐.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행될 경우 적어도 하기를 수행하는 비-일시적 컴퓨터-실행가능 명령을 포함하는 컴퓨터 판독가능 매체를 포함하거나 그에 접속할 수 있는 컨트롤러를 포함하는 시스템을 제공한다: 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제1 생물학적 샘플로부터의 것)의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 수득하는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제2 생물학적 샘플로부터의 것)의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 수득하는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계; 여기서 제1 복수의 핵산 분자의 정량적 측정치는 12개 이하의 독립적인 제1 복수의 핵산 분자의 측정치를 포함함.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행될 경우 적어도 하기를 수행하는 비-일시적 컴퓨터-실행가능 명령을 포함하는 컴퓨터 판독가능 매체를 포함하거나 그에 접속할 수 있는 컨트롤러를 포함하는 시스템을 제공한다: 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제1 생물학적 샘플로부터의 것)의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 수득하는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제2 생물학적 샘플로부터의 것)의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 수득하는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계; 여기서 상기 상염색체 단일 뉴클레오티드 다형성은 단순 단일 뉴클레오티드 다형성을 포함함.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행될 경우 적어도 하기를 수행하는 비-일시적 컴퓨터-실행가능 명령을 포함하는 컴퓨터 판독가능 매체를 포함하거나 그에 접속할 수 있는 컨트롤러를 포함하는 시스템을 제공한다: 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제1 생물학적 샘플로부터의 것)의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 수득하는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자 (예컨대 대상체로부터 수득되는 제2 생물학적 샘플로부터의 것)의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 수득하는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계; 여기서 상기 상염색체 단일 뉴클레오티드 다형성은 사전결정된 임계치를 초과하는 부차 대립유전자 분율을 가짐.
본 개시내용의 추가적인 측면 및 장점은 본 개시내용의 예시적인 실시양태만을 나타내어 기술한 하기 상세한 설명에서 바로 관련 기술분야 통상의 기술자에게 드러나게 될 것이다. 알고 있을 바와 같이, 본 개시내용은 다른 상이한 실시양태가 가능하며, 그의 몇 가지 세부사항은 모두 개시내용에서 벗어나지 않고도 여러 자명한 사항에서 변형의 여지가 있다. 따라서, 도면 및 상세한 설명은 제한으로서가 아니라 특성상 예시적인 것으로 간주되어야 한다.
[참조 개재]
본 명세서에서 언급되는 모든 공개, 특허 및 특허 출원은 각 개별 공개, 특허 또는 특허 출원이 구체적이고도 개별적으로 참조로 포함되는 것으로 표시되는 경우와 동일한 정도로 본원에 참조로 포함된다. 참조로 포함되는 공개 및 특허 또는 특허 출원이 본 명세서에 포함되어 있는 개시내용을 부정하는 경우라면, 본 명세서가 임의의 그와 같은 부정적인 자료를 대신하고/거나 그보다 우선하는 것으로 하고자 한다.
본 발명의 일부 신규한 특징은 첨부된 청구범위에 상세하게 제시되어 있다. 본 발명의 원리를 이용하는 예시적 실시양태를 제시하는 하기의 상세한 설명, 및 첨부 도면 (본원에서는 또한 "도면" 및 "도")을 참조하면, 본 발명의 특징 및 장점을 더 잘 이해하게 될 것이며, 그 중:
도 1은 일부 실시양태에 따른 생물학적 샘플 핑거프린팅 방법의 예를 도시한다.
도 2는 일부 실시양태에 따라 제1 생물학적 샘플 및 제2 생물학적 샘플을 핑거프린팅하는 것에 기초한 샘플 미스매치 확인 방법의 예를 도시한다.
도 3은 복수의 검정되는 생물학적 샘플로부터 생성된 샘플 핑거프린트의 전체적인 비교 가시화를 도시한다. 사선을 따르는 매우 짙은 선은 바뀌지 않은 모든 샘플 (예컨대 샘플 매치)을 나타낸다. 사선을 벗어나는(off-diagonal) 요소는 서로 다른 대상체로부터 수득된 것으로 예상되는 (예컨대 잠재적인 샘플 미스매치) 샘플과 너무 유사한 샘플을 나타낸다.
도 4는 서로 다른 두 대상체로부터 수득된 복수의 생물학적 샘플에서 수행된 검정을 비교 가시화한 분명한 내부 샘플 미스매치 (예컨대 샘플 바뀜)의 예를 도시한다. 사선상의 "깨진(broken)" 사각형에 인접한 사선 밖의 막대는 해당하는 2개의 샘플 (BLIB00366 및 BLIB00367)이 바뀌었음을 표시한다.
도 5는 해결될 수 없는 분명한 샘플 미스매치 (예컨대 샘플 바뀜)의 이미지 및 샘플 차이의 예를 도시한다. 제1 환자 (ID #4181) 및 제2 환자 (ID #4175)로부터 수득된 조직 샘플은 바뀌었다. 제3 환자 (ID #4161)의 cfDNA 샘플 중 하나는 제3 환자 (ID #4161)로부터의 것으로 예상되는 다른 샘플을 포함한 어떠한 다른 샘플과도 매치되지 않는다. 따라서, 이와 같은 샘플은 추가적인 검정 및 처리로부터 배제되었다.
도 6은 동일하거나 서로 다른 대상체 (예컨대 환자 또는 사람)로부터의 샘플 쌍 사이에서의 예상 유전자형 유사도를 보여주는 플롯을 도시한다. 이와 같은 플롯은 동일한 사람으로부터 수득되는 샘플 대 서로 다른 사람으로부터 수득되는 샘플 사이를 구별하거나 분간하기 위하여 어떻게 적합한 임계치가 확인되는지를 도시한다. 바뀐 것으로 예상되는 샘플 및 (낮은 유전자형 비교 수로 이어지는) 낮은 커버리지를 가지는 샘플을 배제하는 것에 의해 잠재적인 샘플 미스매치가 기록된 후에는, 분포가 완전히 분리된다. 예컨대, 임계치설정(thresholding)은 0.8의 유전자형 유사도에서 수행될 수 있다.
도 7은 복수의 검정되는 DNA 샘플에 대한 성별 호출(call)의 비교를 도시한다. X 판독물은 X 축에 나타내었으며, Y 판독물은 Y 축에 나타내었다. 청색의 샘플은 남성 대상체로부터 수득된 것으로 예상되며, 적색의 샘플은 여성 대상체로부터 수득된 것으로 예상되고, 회색의 샘플은 그와 같은 정보가 이용가능하지 않다. 임계치 선 상당히 위에 위치하는 제1 데이터 점 세트는 남성으로 호출되며, 임계치 선 상당히 아래에 위치하는 제2 데이터 점 세트는 여성으로 호출된다. 플롯은 임계치 선 아래에 위치하는 몇 개의 청색 데이터 점 및 임계치 위에 위치하는 몇 개의 적색 데이터 점을 보여주는데, 이들은 샘플 미스매치로 확인되는 (예를 들면 바뀐 것으로 확인되는) 샘플에 해당한다. 임계치 선상에 안착되는 데이터 점은 염색체 X의 많은 부분이 중복되어 있는 암 환자로부터 수득되었다.
도 8은 본원에서 제공되는 방법을 실행하도록 프로그래밍되거나 달리 구성되는 컴퓨터 시스템을 도시한다.
본원에서 사용될 때, "핵산" 또는 "폴리뉴클레오티드"라는 용어는 일반적으로 하나 이상의 핵산 서브유닛 또는 뉴클레오티드를 포함하는 분자를 지칭한다. 핵산은 아데노신 (A), 시토신 (C), 구아닌 (G), 티민 (T) 및 우라실 (U), 또는 그의 변이에서 선택되는 1종 이상의 뉴클레오티드를 포함할 수 있다. 뉴클레오티드는 일반적으로 뉴클레오시드 및 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개, 또는 그 초과의 포스페이트 (P03) 기를 포함한다. 뉴클레오티드는 뉴클레오염기, 5-탄당 (리보스 또는 데옥시리보스 중 어느 하나), 그리고 개별적으로 또는 조합으로서의 하나 이상의 포스페이트 기를 포함할 수 있다.
리보뉴클레오티드는 당이 리보스인 뉴클레오티드이다. 데옥시리보뉴클레오티드는 당이 데옥시리보스인 뉴클레오티드이다. 뉴클레오티드는 뉴클레오시드 모노포스페이트 또는 뉴클레오시드 폴리포스페이트일 수 있다. 뉴클레오티드는 예를 들면 검출가능한 태그, 예컨대 발광 태그 또는 마커 (예컨대 형광단)를 포함하는 데옥시아데노신 트리포스페이트 (dATP), 데옥시시티딘 트리포스페이트 (dCTP), 데옥시구아노신 트리포스페이트 (dGTP), 우리딘 트리포스페이트 (dUTP) 및 데옥시티미딘 트리포스페이트 (dTTP) dNTP에서 선택될 수 있는 데옥시리보뉴클레오시드 트리포스페이트 (dNTP)와 같은 데옥시리보뉴클레오시드 폴리포스페이트일 수 있다. 뉴클레오티드는 성장하는 핵산 가닥에 도입될 수 있는 임의의 서브유닛을 포함할 수 있다. 그와 같은 서브유닛은 A, C, G, T 또는 U, 또는 하나 이상의 상보성인 A, C, G, T 또는 U에 대하여 특이적이거나, 또는 퓨린 (즉 A 또는 G, 또는 그의 변이) 또는 피리미딘 (즉 C, T 또는 U, 또는 그의 변이)에 대하여 상보성인 임의의 다른 서브유닛일 수 있다. 일부 예에서, 핵산은 데옥시리보핵산 (DNA), 리보핵산 (RNA), 또는 이들의 유도체 또는 변이이다. 핵산은 단일-가닥 또는 이중 가닥일 수 있다. 핵산 분자는 선형, 곡선형 또는 원형, 또는 이들의 임의의 조합일 수 있다.
본원에서 사용될 때, "핵산 분자", "핵산 서열", "핵산 단편", "올리고뉴클레오티드" 및 "폴리뉴클레오티드"라는 용어는 일반적으로 다양한 길이를 가질 수 있는 폴리뉴클레오티드, 예컨대 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 (RNA) 중 어느 하나, 또는 이들의 유사체를 지칭한다. 핵산 분자는 적어도 약 5개 염기, 10개 염기, 20개 염기, 30개 염기, 40개 염기, 50개 염기, 60개 염기, 70개 염기, 80개 염기, 90개, 100개 염기, 110개 염기, 120개 염기, 130개 염기, 140개 염기, 150개 염기, 160개 염기, 170개 염기, 180개 염기, 190개 염기, 200개 염기, 300개 염기, 400개 염기, 500개 염기, 1 킬로베이스 (kb), 2 kb, 3, kb, 4 kb, 5 kb, 10 kb 또는 50 kb의 길이를 가질 수 있거나, 또는 상기언급된 값 중 임의의 2개 사이인 임의의 수의 염기를 그것이 포함할 수 있다. 올리고뉴클레오티드는 통상적으로 하기 4종 뉴클레오티드 염기의 특정 서열로 구성된다: 아데닌 (A); 시토신 (C); 구아닌 (G); 및 티민 (T) (폴리뉴클레오티드가 RNA인 경우, 티민 (T) 대신 우라실 (U)). 이에 따라, "핵산 분자", "핵산 서열", "핵산 단편", "올리고뉴클레오티드" 및 "폴리뉴클레오티드"라는 용어는 적어도 부분적으로는 폴리뉴클레오티드 분자를 알파벳으로 표시하고자 하는 것이다. 대안적으로, 상기 용어는 폴리뉴클레오티드 분자 자체에 적용될 수 있다. 이와 같은 알파벳 표시는 중앙 처리 장치를 포함하는 컴퓨터의 데이터베이스에 입력될 수 있고/거나, 기능성 유전체학 및 상동성 탐색과 같은 생물정보공학 적용분자에 사용될 수 있다. 올리고뉴클레오티드는 하나 이상의 비표준 뉴클레오티드(들), 뉴클레오티드 유사체(들) 및/또는 변형된 뉴클레오티드를 포함할 수 있다.
본원에서 사용될 때, "샘플"이라는 용어는 일반적으로 생물학적 샘플을 지칭한다. 생물학적 샘플의 예로는 핵산 분자, 아미노산, 폴리펩티드, 단백질, 탄수화물, 지방 또는 바이러스가 포함된다. 일 예에서, 생물학적 샘플은 1종 이상의 핵산 분자를 포함하는 핵산 샘플이다. 핵산 분자는 무-세포이거나, 또는 무-세포 핵산 분자, 예컨대 무-세포 DNA (cfDNA) 또는 무-세포 RNA (cfRNA)일 수 있다. 핵산 분자는 백혈구 연층 핵산 분자, 예컨대 백혈구 연층 DNA일 수 있다. 핵산 분자는 인간, 포유동물, 비-인간 포유동물, 유인원, 원숭이, 침팬지, 파충류, 양서류 또는 조류 공급원을 포함한 다양한 공급원으로부터 유래할 수 있다. 또한, 비제한적으로 혈액, 혈청, 혈장, 유리체, 가래, 소변, 눈물, 땀, 타액, 정액, 점막 분비물, 점액, 척수액, 양수, 림프액 등을 포함하여, 무세포 서열을 함유하는 다양한 동물 유체로부터 샘플이 추출될 수 있다. 무-세포 폴리뉴클레오티드 (예컨대 cfDNA)는 기원이 태아일 수 있거나 (임신한 대상체로부터 취득된 유체를 통함), 또는 대상체 자체의 조직으로부터 유래할 수 있다.
본원에서 사용될 때, "대상체"라는 용어는 일반적으로 처리 또는 분석을 받고 있는 생물학적 샘플을 보유하는 개체를 지칭한다. 대상체는 동물 또는 식물일 수 있다. 대상체는 포유동물 예컨대 인간, 개, 고양이, 말, 돼지 또는 설치류일 수 있다. 대상체는 예를 들면 1종 이상의 암, 1종 이상의 감염 질환, 1종 이상의 유전적 장애 또는 1종 이상의 종양, 또는 이들의 임의의 조합과 같은 질환을 가지고 있거나 가지고 있는 것으로 의심되는 환자일 수 있다. 1종 이상의 종양을 가지고 있거나 가지고 있는 것으로 의심되는 대상체의 경우, 종양은 1종 이상 유형의 것일 수 있다.
본원에서 사용될 때, "전혈(whole blood)"이라는 용어는 일반적으로 (예컨대 원심분리에 의해) 하위-구성요소로 분리되지 않은 혈액 샘플을 지칭한다. 혈액 샘플 중 전혈은 cfDNA 및/또는 생식계열 DNA를 함유할 수 있다. 전혈 DNA (cfDNA 및/또는 생식계열 DNA를 함유할 수 있음)는 혈액 샘플로부터 추출될 수 있다. 전혈 DNA 서열분석 판독물 (cfDNA 서열분석 판독물 및/또는 생식계열 DNA 서열분석 판독물을 포함할 수 있음)은 전혈 DNA로부터 추출될 수 있다.
대상체로부터 수득되는 생물학적 샘플의 수집 및 검정은 종종 임상 및 실험실 과정 전체에 걸친 샘플 정체성의 신뢰성 있는 유지와 관련한 과제에 직면할 수 있다. 예를 들면, 생물학적 샘플은 종종 실험실 또는 임상 환경에서 부주의하게 바뀔 수 있으며, 그에 따라 감지되어 바로잡지 않고 유지될 경우 잠재적으로 올바르지 않은 임상 결과를 초래할 수 있다.
유전자 좌위 패널을 사용한 생물학적 샘플의 핑거프린팅 방법은 원하는 민감도, 특이도 또는 정확도로 유전자 정보를 수득하기에 충분하게 깊은 커버리지를 필요로 할 수 있다. 예를 들면, 깊은 커버리지는 서로 다른 샘플로부터 생성된 핑거프린트 사이를 구별하기에 충분한 신호-대-노이즈 (SNR) 비를 위하여 필요할 수 있다. 그와 같은 샘플은 예를 들면 서로 다른 두 시점에 동일한 대상체로부터 수득되는 종적 샘플일 수 있다. 로우-패스 서열분석을 사용하여 처리되는 종적 샘플은 (1) 서로 다른 시점으로부터의 샘플을 보정하여 서로 매치시키는 것 및 (2) 임의의 일 위치에서의 상대적으로 낮은 판독 커버리지에도 불구하고 샘플 핑거프린팅에 적합한 유전자 좌위 패널을 확인하는 것과 관련하여 과제에 직면할 수 있다.
생물학적 샘플의 핑거프린트를 생성시키고 비교하기 위한 방법 및 시스템이 제공된다. 샘플 핑거프린트는 하나 이상의 시점 각각에 대상체로부터 수득되는 생물학적 샘플로부터의 하나 이상의 핵산 분자 세트를 서열분석하는 것에 의해 생성될 수 있다. 샘플 핑거프린트의 쌍별 비교가 수행됨으로써, 샘플 핑거프린트가 생성된 2개의 생물학적 샘플 사이에 샘플 미스매치 (예컨대 2개의 샘플이 서로 다른 대상체로부터 수득된 것임)가 존재하는지 또는 샘플 매치 (예컨대 2개의 샘플이 동일한 대상체로부터 수득된 것임)가 존재하는지 여부를 결정할 수 있다.
일 측면에서, 본 개시내용은 하기를 포함하는, 샘플 핑거프린트의 생성 방법을 제공한다: 대상체로부터 복수의 핵산 분자를 포함하는 생물학적 샘플을 수득하는 단계; 및 상기 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 복수의 핵산 분자의 정량적 측정치를 포함하는 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계. 생성된 샘플 핑거프린트는 데이터베이스에 저장될 수 있다.
또 다른 측면에서, 본 개시내용은 하기를 포함하는 것인, 샘플 미스매치의 확인 방법을 제공한다: 대상체로부터 제1 복수의 핵산 분자를 포함하는 제1 생물학적 샘플을 수득하는 단계; 제1 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계; 대상체로부터 제2 복수의 핵산 분자를 포함하는 제2 생물학적 샘플을 수득하는 단계; 상기 제2 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계; 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 기준을 충족하는 경우, 샘플 미스매치를 확인하는 단계.
도 1은 일부 실시양태에 따른 생물학적 샘플의 샘플 핑거프린트 생성 방법의 예를 도시한다. 샘플 핑거프린트 생성 방법은 대상체로부터 복수의 핵산 분자를 포함하는 생물학적 샘플을 수득하는 단계를 포함할 수 있다. 일부 실시양태에서, 복수의 핵산 분자는 복수의 무-세포 DNA (cfDNA) 분자, 복수의 백혈구 연층 DNA 분자, 복수의 고형 종양 DNA 분자 또는 이들의 조합 (공정 (105)에서와 같음)을 포함할 수 있다.
샘플 핑거프린트 생성 방법은 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 복수의 핵산 분자의 정량적 측정치를 포함하는 샘플 핑거프린트를 생성시키는 단계를 포함할 수 있다. 일부 실시양태에서, 복수의 핵산 분자를 처리하는 단계는 복수의 핵산 분자를 서열분석하여 복수의 유전자 좌위 각각에서의 서열분석 판독물을 생성시키는 단계를 포함한다 (공정 (110)에서와 같음).
일부 실시양태에서, 복수의 유전자 좌위는 복수의 구별되는 상염색체 SNP를 포함할 수 있다. 일부 예에서, 분석되는 복수의 유전자 좌위는 약 100개를 초과하는 유전자 좌위를 포함할 수 있다. 일부 예에서, 분석되는 복수의 유전자 좌위는 약 200개를 초과하는 유전자 좌위, 약 300개를 초과하는 유전자 좌위, 약 500개를 초과하는 유전자 좌위, 약 1,000개를 초과하는 유전자 좌위, 약 1,500개를 초과하는 유전자 좌위, 약 2,000개를 초과하는 유전자 좌위, 약 2,500개를 초과하는 유전자 좌위, 약 3,000개를 초과하는 유전자 좌위, 약 3,500개를 초과하는 유전자 좌위, 약 4,000개를 초과하는 유전자 좌위, 약 4,500개를 초과하는 유전자 좌위, 약 5,000개를 초과하는 유전자 좌위, 또는 약 5,500개를 초과하는 유전자 좌위를 포함할 수 있다. 일부 예에서, 구별되는 상염색체 SNP를 포함하는 유전자 좌위에는 dbSNP와 같은 공공 데이터베이스에 포함되어 있는 염색체 1상에 위치하는 주석달린 SNP인 rs2839가 포함될 수 있다. 일부 예에서, 샘플 핑거프린트 프로파일의 일부로서 사용하기에 적합한 rs2839와 같은 구별되는 상염색체 SNP는 예를 들면 질적 기준에 기초하여 공지 SNP 데이터베이스를 필터링하는 것, 또는 대형 인간 참여자 세트로부터의 게놈 데이터의 대형 데이터 세트를 분석하여 질적 표준 및 신뢰성 표준을 충족하는 SNP를 호출하는 것에 의해 확인될 수 있다.
일부 실시양태에서, SNP는 개인 게놈을 고유하게 확인할 수 있는 SNP와 같은 특정 기준으로 필터링될 수 있다. 그와 같은 SNP 세트는 집합적으로 두 개체가 (예컨대 샘플 핑거프린트에서) 동일한 게놈 프로파일을 보유할 극히 작은 가능성을 제공할 수 있다. 예를 들면, 5개 주요 대륙 군집에 걸쳐 대립유전자 빈도가 보고되어 있는 SNP (예컨대 1000 게놈 프로젝트 또는 ExAC 컨소시움으로부터의 것)가 샘플 핑거프린트 프로파일에의 포함용으로 추가 분석될 후보 SNP로 사용될 수 있다. 또 다른 예로는, 대상체의 ABO 혈액형을 예측하는 데에 사용될 수 있는 SNP가 사용될 수 있다. 또 다른 예로는, 대상체의 성별을 예측하는 데에 사용될 수 있는 SNP가 사용될 수 있다. SNP를 선택하는 방법은 예를 들면 각각 그 전체가 의거 참조로 포함되는 문헌 [Du et al. ("A SNP panel and online tool for checking genotype concordance through comparing QR codes", PLOS One, 2017)] 및 [Hu et al. ("Evaluating information content of SNPs for sample-tagging in re-sequencing projects", Scientific Reports, 2015)]에 기술되어 있는 바와 같을 수 있다.
일부 예에서, SNP는 상염색체 SNP를 선택하도록 필터링될 수 있다. 일부 예에서, SNP는 단순 SNP를 선택하도록 필터링될 수 있다. 단순 SNP는 삽입 또는 결실이 없는 2종의 대립유전자만을 포함하는 SNP를 포함할 수 있다. 단순 SNP는 단일 염기 변화만을 포함할 수 있다. 일부 예에서, SNP는 낮은 참조 SNP ID (rs 번호)로 dbSNP에 주석달릴 수 있다. 이러한 rs 번호는 데이터베이스에의 제출시에 순차적으로 할당된다. 일부 경우에서, 더 낮은 rs 번호를 가지는 더 이른 제출은 더 적은 기술적 부작용(artifact)을 가질 수 있다. 일부 예에서, SNP는 특정 임계치를 초과하는 부차 대립유전자 분율을 가지도록 필터링될 수 있다. 일부 예에서, SNP는 약 1 % 초과, 약 1.5 % 초과, 약 2 % 초과, 약 2.5 % 초과, 약 3 % 초과, 약 3.5 % 초과, 약 4 % 초과, 약 4.5 % 초과, 약 5 % 초과, 약 5.5 % 초과, 약 6 % 초과, 약 6.5 % 초과, 약 7 % 초과, 약 7.5 % 초과, 약 8 % 초과, 8.5 % 초과, 약 9 % 초과, 약 9.5 % 초과, 또는 약 10 % 초과의 부차 대립유전자 분율을 가지도록 필터링될 수 있다.
일부 실시양태에서, 샘플 핑거프린트 생성 방법은 생성된 샘플 핑거프린트를 데이터베이스에 저장하는 것을 추가로 포함할 수 있다 (공정 (115)에서와 같음).
예를 들면, 서열분석 판독물은 임의의 적합한 서열분석 방법을 사용하여 핵산 분자로부터 생성될 수 있다. 서열분석 방법은 막삼-길버트(Maxam-Gilbert) 또는 생거(Sanger) 서열분석법과 같은 1-세대 서열분석법, 또는 고-처리량 서열분석법 (예컨대 차-세대 서열분석법 또는 NGS법)일 수 있다. 고-처리량 서열분석 방법은 동시에 (또는 실질적으로 동시에) 적어도 약 10,000, 100,000, 1백만, 1천만, 1억, 10억개 또는 그 초과의 폴리뉴클레오티드 분자를 서열분석할 수 있다. 서열분석 방법에는 하기가 포함될 수 있으나, 이에 제한되는 것은 아니다: 파이로서열분석(pyrosequencing), 합성에 의한 서열분석, 단일-분자 서열분석, 나노세공 서열분석, 반도체 서열분석, 결찰에 의한 서열분석, 혼성화에 의한 서열분석, 디지털 진 익스프레션(Digital Gene Expression) (헬리코스(Helicos)), 고도 병렬 서열분석, 예컨대 헬리코스, 클로날 단일 분자 어레이 (솔렉사/일루미나(Solexa/Illumina)), 파크바이오(PacBio), 솔리드(SOLiD), 이온 토렌트(Ion Torrent) 또는 나노세공 플랫폼을 사용한 서열분석.
일부 실시양태에서, 서열분석은 전게놈 서열분석 (WGS)을 포함한다. 서열분석은 대상체로부터 수득된 생물학적 샘플로부터 샘플 핑거프린트를 생성시키기에, 또는 원하는 성취도 (예컨대 정확도, 민감도, 특이도, 양성 예측 값 (PPV), 음성 예측 값 (NPV), 또는 수신자 조작 특징(receiver operator characteristic) (ROC)의 곡선하 면적 (AUC))로 2개의 샘플 핑거프린트 사이의 차이에 기초한 샘플 미스매치 또는 샘플 매치를 확인하기에 충분한 심도로 수행될 수 있다. 일부 실시양태에서, 서열분석은 예를 들면 약 12X 이하, 약 11X 이하, 약 10X 이하, 약 9X 이하, 약 8X 이하, 약 7X 이하, 약 6X 이하, 약 5X 이하, 약 4X 이하, 약 3X 이하, 약 2X 이하 또는 약 1X 이하의 심도에서 "로우-패스" 방식으로 수행된다.
일부 실시양태에서, 대상체로부터 수득되는 생물학적 샘플로부터 샘플 핑거프린트를 생성시키는 단계는 참조 게놈에 대하여 서열분석 판독물을 정렬하는 단계를 포함할 수 있다. 상기 참조 게놈은 게놈 (예컨대 인간 게놈)의 적어도 일부를 포함할 수 있다. 참조 게놈은 전체 게놈 (예컨대 전체 인간 게놈)을 포함할 수도 있다. 참조 게놈은 게놈 중 코딩 및/또는 비-코딩 게놈 영역에 상응하는 복수의 게놈 영역을 포함하는 데이터베이스로 구성될 수도 있다. 상기 데이터베이스는 게놈 중 코딩 및/또는 비-코딩 게놈 영역에 상응하는 복수의 게놈 영역, 예컨대 단일 뉴클레오티드 다형성 (SNP), 단일 뉴클레오티드 변이 (SNV), 복제본 수 변이 (CNV), 삽입 또는 결실 (인델(indel)), 융합 유전자 및 반복 요소를 포함할 수 있다. 상기 정렬은 부로우-휠러(Burrows-Wheeler) 알고리즘 또는 다른 정렬 알고리즘을 사용하여 수행될 수 있다.
일부 실시양태에서, 대상체로부터 수득되는 생물학적 샘플로부터 샘플 핑거프린트를 생성시키는 단계는 복수의 유전자 좌위 각각에 대하여 서열분석 판독물의 정량적 측정치를 생성시키는 단계를 포함할 수 있다. 서열분석 판독물의 정량적 측정치는 예컨대 주어진 유전자 좌위와 정렬되는 서열분석 판독물의 계수로서 생성될 수 있다.
일부 실시양태에서, 대상체로부터 수득되는 생물학적 샘플로부터 샘플 핑거프린트를 생성시키는 방법은 1종 이상의 DNA 샘플 (예컨대 cfDNA, 백혈구 연층 DNA 및/또는 고형 종양 DNA) 각각에 대하여 복수의 SNP 각각에서 기본 호출(base call) (예컨대 일부 염기에 대한 불명확한 호출 포함)을 생성시키는 단계를 포함할 수 있다. 기본 호출은 예를 들면 GATK 또는 다른 SNP 호출 패키지를 사용하여 생성될 수 있다.
일부 실시양태에서, 대상체로부터 수득되는 생물학적 샘플로부터 생성된 샘플 핑거프린트는 데이터베이스에 저장되어 대상체로부터 수득되는 1종 이상 생물학적 샘플 세트 역할을 할 수 있다. 상기 생물학적 샘플 세트는 하나 이상의 시점에 수집된 1종 이상 유형의 DNA 샘플 (예컨대 cfDNA, 백혈구 연층 DNA 및/또는 고형 종양 DNA) 역할을 할 수 있다. 데이터베이스에 저장되는 샘플 핑거프린트는 약 1 기가바이트 (GB) 이하, 약 500 메가바이트 (MB) 이하, 약 100 MB 이하, 약 50 MB 이하, 약 10 MB 이하, 약 5 MB 이하, 약 1 MB 이하, 약 500 킬로바이트 (KB) 이하, 약 250 KB 이하, 또는 약 100 KB 이하의 데이터 크기를 가질 수 있다.
일부 실시양태에서, 복수의 SNP는 게놈 전체에 걸쳐 분포하는 잘 정돈된 SNP의 매우 대형인 세트일 수 있다. SNP 각각은 매우 높지는 않을 수 있는 일부 정보 내용을 제공할 수 있다. 복수의 SNP는 상염색체 SNP일 수 있다. 복수의 SNP는 텔로미어에 매우 근접하여서는 위치하지 않을 수 있다. 복수의 SNP는 특정 일자 전의 생성을 나타내는 ID로 dbSNP에 주석달릴 수 있다. 복수의 SNP는 2종의 대립유전자만으로 약 1 %를 초과하는 부차 대립유전자 분율 (MAF)을 가질 수 있다. 일부 실시양태에서, 복수의 SNP는 2종의 대립유전자만으로 약 1 % 초과, 1.5 %, 2 %, 2.5 %, 3 %, 3.5 %, 4 %, 4.5 %, 5 %, 5.5 %, 6 %, 6.5 %, 7 %, 7.5 %, 8 %, 8.5 %, 9 %, 9.5 %, 10 %, 10.5 %, 11 %, 11.5 %, 12 %, 12.5 %, 13 %, 13.5 %, 14 %, 14.5 %, 15 %, 15.5 %, 16 %, 16.5 %, 17 %, 17.5 %, 18 %, 18.5 %, 19 %, 19.5 %, 20 %, 20.5 %, 21 %, 21.5 %, 22 %, 22.5 %, 23 %, 23.5 %, 24 %, 24.5 %, 25 %, 25.5 %, 26 %, 26.5 %, 27 %, 27.5 %, 28 %, 28.5 %, 29 %, 29.5 %, 30 %, 30.5 %, 31 %, 31.5 %, 32 %, 32.5 %, 33 %, 33.5 %, 34 %, 34.5 %, 35 %, 35.5 %, 36 %, 36.5 %, 37 %, 37.5 %, 38 %, 38.5 %, 39 %, 39.5 %, 40 %, 40.5 %, 41 %, 41.5 %, 42 %, 42.5 %, 43 %, 43.5 %, 44 %, 44.5 %, 45 %, 또는 45 % 초과의 부차 대립유전자 분율 (MAF)을 가질 수 있다.
도 2는 일부 실시양태에서 따라 제1 생물학적 샘플 및 제2 생물학적 샘플을 핑거프린팅하는 것에 기초한 샘플 미스매치 확인 방법의 예를 도시한다.
일부 실시양태에서, 대상체로부터 수득되는 생물학적 샘플로부터 샘플 핑거프린트를 생성시키는 방법은 기준선 시점 및 하나 이상의 차후 시점에 무-세포 DNA (cfDNA) 샘플, 백혈구 연층 DNA 샘플 및/또는 고형 종양 DNA 샘플을 수집하는 단계를 포함할 수 있다. 동일한 기준선 시점 또는 그 부근에 대상체로부터 수득되는 각 DNA 샘플 세트는 기준선 시점에 해당하는 대상체의 기준선 샘플 핑거프린트를 생성시키기 위하여 처리될 수 있다. 동일한 차후 시점 또는 그 부근에 대상체로부터 수득되는 각 DNA 샘플 세트는 차후 시점에 해당하는 대상체의 차후 샘플 핑거프린트를 생성시키기 위하여 처리될 수 있다.
예를 들면, 제1 복수의 핵산 분자를 포함하는 제1 생물학적 샘플이 대상체로부터 수득될 수 있다 (공정 (205)에서와 같음). 상기 제1 복수의 핵산 분자는 복수의 유전자 좌위 각각에서의 제1 복수의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키기 위하여 처리될 수 있다 (공정 (210)에서와 같음). 일부 실시양태에서, 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함한다. 다음에, 제2 복수의 핵산 분자를 포함하는 제2 생물학적 샘플이 대상체로부터 수득될 수 있다 (공정 (215)에서와 같음). 상기 제2 복수의 핵산 분자는 복수의 유전자 좌위 각각에서의 제2 복수의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키기 위하여 처리될 수 있다 (공정 (220)에서와 같음). 다음에, 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 결정될 수 있다 (공정 (225)에서와 같음). 다음에, 상기 차이가 사전결정된 기준을 충족하는 경우, 샘플 미스매치가 확인될 수 있다 (공정 (230)에서와 같음).
일부 실시양태에서, 대상체로부터 수득되는 생물학적 샘플로부터 복수의 샘플 핑거프린트가 생성된 후, 샘플 핑거프린트는 샘플 핑거프린트의 쌍별 서열 데이터 비교를 수행하기 위하여 처리될 수 있다. 샘플 핑거프린트의 쌍별 서열 데이터 비교는 (a) 동일한 대상체 (사람)로부터의 것으로 가정되는 모든 샘플 쌍이 실제로 동일한 대상체 (사람)로부터의 것이라는 것, (b) 상이한 대상체 (사람)로부터의 것으로 가정되는 모든 샘플 쌍이 실제로 상이한 대상체 (사람)로부터의 것이라는 것, 및 (c) 모든 샘플이 샘플이 수득된 대상체의 성별로부터의 예상에 부합하는 X 및 Y 염색체 판독물을 가진다는 것을 확증하기 위하여 수행될 수 있다. 예를 들면, 2개의 샘플 사이의 쌍별 비교는 제1 샘플의 핑거프린트를 (cfDNA, 백혈구 연층 DNA 및/또는 고형 종양 DNA를 검정함으로써 수득되는 정량적 측정치를 사용) 제2 샘플의 핑거프린트와 (제1 샘플 핑거프린트에서 이용가능한 것과 동일한 유형의 DNA를 검정함으로써 수득되는 정량적 측정치를 사용) 비교하는 것에 의해 수행될 수 있다. 예를 들면, 그와 같은 정량적 측정치는 핵산 분자를 서열분석하는 것에 의해, 또는 핵산 분자의 결합 측정을 수행하는 것에 의해 생성될 수 있다.
샘플 핑거프린트의 쌍별 서열 데이터 비교를 수행하는 단계는 호출의 정확도에 있어서의 원하는 신뢰도를 성취하기 위하여 충분한 수의 두 샘플 판독물이 존재하는 SNP 호출 각각을 비교하는 것에 의해 유전자형 유사도의 정량적 측정치를 생성시키는 것을 포함할 수 있다. 주어진 SNP에서 사전결정된 임계치를 초과하는 경우, 주어진 SNP에 대하여 판독물 수가 충분한 것으로 판단될 수 있다. 그와 같은 사전결정된 임계치는 환자 데이터 (예컨대 알려져 있는 SNP 상태를 가지는 환자의 것)의 분석에 기초하여 각 SNP에 대하여 확인될 수 있다. 예를 들면, 각 SNP에 대하여 사전결정된 임계치는 동종접합 호출보다는 이종접합 호출에 대하여 신뢰성 있는 호출을 하는 데에 필요한 더 적은 수의 판독물을 고려하여 결정될 수 있다.
샘플 핑거프린트의 쌍별 서열 데이터 비교를 수행하는 단계는 적어도 부분적으로는 2개의 샘플 핑거프린트 사이에서 동일한 유전자형 호출의 분율에 기초하여, 2개의 샘플을 동일한 대상체 (사람)로부터의 것으로 (예컨대 샘플 매치), 또는 동일한 대상체 (사람)로부터의 것이 아닌 것으로 (예컨대 샘플 미스매치) 확인하는 것을 포함할 수 있다. 예를 들면, 2개의 샘플 핑거프린트 사이에서 동일한 유전자형 호출의 분율은 샘플 미스매치 또는 샘플 매치를 확인하도록 사전결정된 임계치와 비교될 수 있다. 사전결정된 임계치는 복수의 대상체로부터 생성된 많은 수의 샘플 핑거프린트로부터 종합된 다량의 데이터를 분석하고, 원하는 성취도 (예컨대 정확도, 민감도, 특이도, 양성 예측 값 (PPV), 음성 예측 값 (NPV), 또는 수신자 조작 특징 (ROC)의 곡선하 면적 (AUC))를 최적화하는 사전결정된 임계치를 선택하는 것에 의해 생성될 수 있다.
샘플 핑거프린트의 쌍별 서열 데이터 비교를 수행하는 단계는 대상체 (사람)에 의해 그룹화된 모든 샘플 쌍에 대하여 유전자형 유사도의 히트맵(heatmap)을 생성시키는 단계를 포함할 수 있다. 이러한 가시화에서, 내부 샘플 바뀜 (예컨대 사용자의 실험실 환경에서 발생하는 샘플 미스매치)은 사선 가장자리상의 밝은 사각형과 연계된 사선 밖의 짙은 사각형으로 나타날 수 있다. 외부 샘플 바뀜 (예컨대 임상 또는 다른 샘플 수집 장소에서 발생하는 샘플 미스매치)은 사선-상 사각형에서의 밝은 "갭(gap)"으로 나타날 수 있다. 이와 같은 가시화를 돕기 위하여, 히드맵 생성은 바뀐 것으로 의심되는 샘플 세트로 제한될 수 있다.
샘플 핑거프린트의 쌍별 서열 데이터 비교를 수행하는 단계는 X 및 Y 염색체 판독물의 비교를 포함할 수 있다. 예를 들면, X 및 Y 염색체 판독물의 비교는 상이한 성별을 가지는 샘플 사이에서의 샘플 바뀜 (샘플 미스매치)를 검출하기 위하여 수행될 수 있다. Y 판독물 (예컨대 Y 성 염색체로의 서열 판독물 맵핑) 대 X 판독물 (예컨대 X 성 염색체로의 서열 판독물 맵핑)의 비가 결정될 수 있다. Y 판독물 대 X 판독물의 비 (Y/X 판독물 비)는 남성 대상체 및 여성 대상체에 존재하는 공지의 Y/X 비 분포와 비교될 수 있다. 각 샘플은 생성된 Y/X 판독물 비에 기초하여 남성 또는 여성 또는 불분명으로 분류될 수 있다.
샘플의 성별 분류는 성별 분류의 성취도 측정기준 (예컨대 민감도, 특이도, 양성 예측 값, 음성 예측 값, 또는 곡선-하-면적)을 결정하기 위하여 대상체의 알려져 있는 성별과 비교될 수 있다. 예를 들면, 불분명한 분류는 종양이 남성에서 염색체 X의 증폭된 부분을 보유함으로써 영향을 받지 않은 남성 군집에서의 것에 비해 훨씬 더 낮은 Y/X 판독물 비를 초래하는 경우의 샘플을 분석하는 것으로부터 야기될 수 있다. 샘플의 성별 분류가 대상체 (환자)의 알려져 있는 성별과 매치되지 않는 경우라면, 샘플은 구체적으로 바뀐 것으로 의심된다. 그와 같은 결과는 샘플 성별 분류 방법으로 공급되어 그것을 명확히 함으로써, 어디에서 바뀜이 발생하였는지에 대한 표시 (예컨대 실험실 환경 또는 임상 환경)를 제공할 수 있다.
바뀐 샘플의 확인 정보 (예컨대 샘플 미스매치 또는 샘플 매치), 그리고 X 및 Y 염색체를 분석하는 것에 기초한 성별 미스매치의 확인 정보는 검출되는 샘플 바뀜이 발생한 정확한 상황을 밝히기 위하여 근접 샘플 (예컨대 샘플 처리의 특정 단계에서 서로 이웃하였던 샘플)의 기록을 포함하는 데이터베이스와 비교될 수 있다. 많은 경우에서, 이와 같은 비교는 해당하는 올바른 대상체로 샘플 확인 정보를 재할당하는 것에 의해 확인된 샘플 미스매치의 보정을 가능하게 한다. 일부 경우에서, 예를 들어 샘플 핑거프린트가 검정된 어떠한 다른 샘플과도 매치되지 않는 경우와 같이, 확인된 샘플 미스매치의 보정은 가능하지 않을 수 있다. 그와 같은 경우는 외부 상대자로부터 잘못된 샘플이 보내지는 것, 또는 아직 검정되지 않은 샘플과의 샘플 바뀜에 의해 야기될 수 있다. 그와 같은 경우에서, 그와 같은 불확실한 샘플은 데이터베이스에 표시되어 추가 분석으로부터 배제될 수 있다.
일부 실시양태에서, 제1 복수의 핵산 분자를 처리하는 단계는 제1 복수의 핵산 분자의 결합 측정을 수행하는 단계를 포함하며, 제2 복수의 핵산 분자를 처리하는 단계는 제2 복수의 핵산 분자의 결합 측정을 수행하는 단계를 포함한다. 일부 실시양태에서, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치는 유전자 좌위를 함유하는 제1 복수의 핵산 분자의 수를 포함하며, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치는 유전자 좌위를 함유하는 제2 복수의 핵산 분자의 수를 포함한다. 예를 들면, 상기 결합 측정치는 복수의 핵산 분자에서의 복수의 SNP 중 적어도 일부에 대하여 선택적인 프로브를 사용하여 복수의 핵산 분자를 검정하는 것에 의해 수득될 수 있다. 일부 실시양태에서, 프로브는 복수의 SNP의 핵산 서열과 서열 상보성을 가지는 핵산 분자이다. 일부 실시양태에서, 프로브는 프라이머 또는 풍부화 서열인 핵산 분자이다. 일부 실시양태에서, 검정은 어레이 혼성화 또는 폴리머라제 연쇄 반응 (PCR), 또는 핵산 서열분석의 사용을 포함한다.
일부 실시양태에서, 방법은 복수의 SNP 중 적어도 일부에 대하여 복수의 핵산 분자를 풍부화하는 단계를 추가로 포함한다. 일부 실시양태에서, 풍부화는 복수의 핵산 분자를 증폭하는 것을 포함한다. 예를 들면, 복수의 핵산 분자는 선택적 증폭에 의해 증폭될 수 있다 (예컨대 복수의 SNP의 핵산 서열과 서열 상보성을 가지는 핵산 분자를 포함하는 프라이머 또는 프로브 세트를 사용하는 것에 의함). 대안적으로 또는 조합으로서, 복수의 핵산 분자는 범용 증폭에 의해 증폭될 수 있다 (예컨대 범용 프라이머를 사용하는 것에 의함). 일부 실시양태에서, 풍부화는 복수의 핵산 분자 중 적어도 일부를 선택적으로 단리하는 것을 포함한다.
상기 복수의 유전자 좌위는 적어도 약 10개의 구별되는 상염색체 단일 뉴클레오티드 다형성 (SNP), 적어도 약 50개의 구별되는 상염색체 SNP, 적어도 약 100개의 구별되는 상염색체 SNP, 적어도 약 500개의 구별되는 상염색체 SNP, 적어도 약 1천개의 구별되는 상염색체 SNP, 적어도 약 5천개의 구별되는 상염색체 SNP, 적어도 약 1만개의 구별되는 상염색체 SNP, 적어도 약 5만개의 구별되는 상염색체 SNP, 적어도 약 10만개의 구별되는 상염색체 SNP, 적어도 약 50만개의 구별되는 상염색체 SNP, 적어도 약 1백만개의 구별되는 상염색체 SNP, 적어도 약 2백만개의 구별되는 상염색체 SNP, 적어도 약 3백만개의 구별되는 상염색체 SNP, 적어도 약 4백만개의 구별되는 상염색체 SNP, 적어도 약 5백만개의 구별되는 상염색체 SNP, 적어도 약 1천만개의 구별되는 상염색체 SNP, 또는 약 1천만개 초과의 구별되는 상염색체 SNP를 포함할 수 있다.
일부 실시양태에서, 샘플 미스매치를 확인하는 단계는 적어도 약 10 %, 적어도 약 20 %, 적어도 약 30 %, 적어도 약 40 %, 적어도 약 50 %, 적어도 약 60 %, 적어도 약 70 %, 적어도 약 80 %, 적어도 약 90 %, 적어도 약 95 %, 적어도 약 96 %, 적어도 약 97 %, 적어도 약 98 %, 적어도 약 99 %, 적어도 약 99.5 %, 적어도 약 99.6 %, 적어도 약 99.7 %, 적어도 약 99.8 %, 적어도 약 99.9 %, 적어도 약 99.99 % 또는 적어도 약 99.999 %의 민감도로 수행된다. 샘플 미스매치를 확인하는 단계의 민감도는 본 개시내용의 방법을 사용하여 확인될 것으로 예상되는 샘플 미스매치의 백분율로 측정 또는 추정될 수 있다. 민감도는 특정 수의 구별되는 유전자 좌위 (예컨대 상염색체 SNP) 전체에 걸친 충분한 커버리지를 수득하며 샘플 품질 문제 (예컨대 샘플 혼합과 같은 부분적 오염)는 없다는 가정하에 측정 또는 추정될 수 있다.
일부 실시양태에서, 샘플 미스매치를 확인하는 단계는 적어도 약 10 %, 적어도 약 20 %, 적어도 약 30 %, 적어도 약 40 %, 적어도 약 50 %, 적어도 약 60 %, 적어도 약 70 %, 적어도 약 80 %, 적어도 약 90 %, 적어도 약 95 %, 적어도 약 96 %, 적어도 약 97 %, 적어도 약 98 %, 적어도 약 99 %, 적어도 약 99.5 %, 적어도 약 99.6 %, 적어도 약 99.7 %, 적어도 약 99.8 %, 적어도 약 99.9 %, 적어도 약 99.99 % 또는 적어도 약 99.999 %의 특이도로 수행된다. 샘플 미스매치를 확인하는 단계의 특이도는 본 개시내용의 방법을 사용하여 확인될 것으로 예상되는 미스매치가 아닌 (예컨대 샘플 매치) 샘플의 백분율로 측정 또는 추정될 수 있다. 특이도는 특정 수의 구별되는 유전자 좌위 (예컨대 상염색체 SNP) 전체에 걸친 충분한 커버리지를 수득하며 샘플 품질 문제 (예컨대 샘플 혼합과 같은 부분적 오염)는 없다는 가정하에 측정 또는 추정될 수 있다.
일부 실시양태에서, 샘플 미스매치를 확인하는 단계는 적어도 약 10 %, 적어도 약 20 %, 적어도 약 30 %, 적어도 약 40 %, 적어도 약 50 %, 적어도 약 60 %, 적어도 약 70 %, 적어도 약 80 %, 적어도 약 90 %, 적어도 약 95 %, 적어도 약 96 %, 적어도 약 97 %, 적어도 약 98 %, 적어도 약 99 %, 적어도 약 99.5 %, 적어도 약 99.6 %, 적어도 약 99.7 %, 적어도 약 99.8 %, 적어도 약 99.9 %, 적어도 약 99.99 % 또는 적어도 약 99.999 %의 양성 예측 값 (PPV)으로 수행된다. 샘플 미스매치를 확인하는 단계의 PPV는 본 개시내용의 방법을 사용하여 확인되는 샘플 미스매치가 진양성일 (예컨대 방법이 샘플 쌍을 미스매치인 것으로 확인하였다는 전제하에서 샘플 쌍이 서로 진성으로 미스매치일) 가능성으로 측정 또는 추정될 수 있다. PPV는 특정 수의 구별되는 유전자 좌위 (예컨대 상염색체 SNP) 전체에 걸친 충분한 커버리지를 수득하며 샘플 품질 문제 (예컨대 샘플 혼합과 같은 부분적 오염)는 없다는 가정하에 측정 또는 추정될 수 있다.
일부 실시양태에서, 샘플 미스매치를 확인하는 단계는 적어도 약 10 %, 적어도 약 20 %, 적어도 약 30 %, 적어도 약 40 %, 적어도 약 50 %, 적어도 약 60 %, 적어도 약 70 %, 적어도 약 80 %, 적어도 약 90 %, 적어도 약 95 %, 적어도 약 96 %, 적어도 약 97 %, 적어도 약 98 %, 적어도 약 99 %, 적어도 약 99.5 %, 적어도 약 99.6 %, 적어도 약 99.7 %, 적어도 약 99.8 %, 적어도 약 99.9 %, 적어도 약 99.99 % 또는 적어도 약 99.999 %의 음성 예측 값 (NPV)으로 수행된다. 샘플 미스매치를 확인하는 단계의 NPV는 본 개시내용의 방법을 사용하여 미스매치가 아닌 (예컨대 샘플 매치인) 것으로 확인되는 샘플이 진음성일 (예컨대 방법이 샘플 쌍을 미스매치가 아닌 것으로 확인하였다는 전제하에서 샘플 쌍이 서로 진성으로 미스매치가 아닐) 가능성으로 측정 또는 추정될 수 있다. NPV는 특정 수의 구별되는 유전자 좌위 (예컨대 상염색체 SNP) 전체에 걸친 충분한 커버리지를 수득하며 샘플 품질 문제 (예컨대 샘플 혼합과 같은 부분적 오염)는 없다는 가정하에 측정 또는 추정될 수 있다.
일부 실시양태에서, 샘플 미스매치를 확인하는 단계는 적어도 약 0.5, 적어도 약 0.6, 적어도 약 0.7, 적어도 약 0.75, 적어도 약 0.8, 적어도 약 0.85, 적어도 약 0.9, 적어도 약 0.95, 적어도 약 0.96, 적어도 약 0.97, 적어도 약 0.98, 적어도 약 0.99, 적어도 약 0.995, 적어도 약 0.996, 적어도 약 0.997, 적어도 약 0.998, 적어도 약 0.999, 적어도 약 0.9999 또는 적어도 약 0.99999인 수신자 조작 특징 (ROC)의 곡선하 면적 (AUC)으로 수행된다.
일부 실시양태에서, 방법은 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 기준을 충족하지 않는 경우, 샘플 매치를 확인하는 단계를 추가로 포함한다.
일부 실시양태에서, 샘플 매치를 확인하는 것은 적어도 약 10 %, 적어도 약 20 %, 적어도 약 30 %, 적어도 약 40 %, 적어도 약 50 %, 적어도 약 60 %, 적어도 약 70 %, 적어도 약 80 %, 적어도 약 90 %, 적어도 약 95 %, 적어도 약 96 %, 적어도 약 97 %, 적어도 약 98 %, 적어도 약 99 %, 적어도 약 99.5 %, 적어도 약 99.6 %, 적어도 약 99.7 %, 적어도 약 99.8 %, 적어도 약 99.9 %, 적어도 약 99.99 % 또는 적어도 약 99.999 %의 민감도로 수행된다. 샘플 매치를 확인하는 것의 민감도는 본 개시내용의 방법을 사용하여 확인될 것으로 예상되는 샘플 매치의 백분율로 측정 또는 추정될 수 있다. 민감도는 특정 수의 구별되는 유전자 좌위 (예컨대 상염색체 SNP) 전체에 걸친 충분한 커버리지를 수득하며 샘플 품질 문제 (예컨대 샘플 혼합과 같은 부분적 오염)는 없다는 가정하에 측정 또는 추정될 수 있다.
일부 실시양태에서, 샘플 매치를 확인하는 것은 적어도 약 10 %, 적어도 약 20 %, 적어도 약 30 %, 적어도 약 40 %, 적어도 약 50 %, 적어도 약 60 %, 적어도 약 70 %, 적어도 약 80 %, 적어도 약 90 %, 적어도 약 95 %, 적어도 약 96 %, 적어도 약 97 %, 적어도 약 98 %, 적어도 약 99 %, 적어도 약 99.5 %, 적어도 약 99.6 %, 적어도 약 99.7 %, 적어도 약 99.8 %, 적어도 약 99.9 %, 적어도 약 99.99 % 또는 적어도 약 99.999 %의 특이도로 수행된다. 샘플 매치를 확인하는 것의 특이도는 본 개시내용의 방법을 사용하여 확인될 것으로 예상되는 매치가 아닌 (예컨대 샘플 미스매치) 샘플의 백분율로 측정 또는 추정될 수 있다. 특이도는 특정 수의 구별되는 유전자 좌위 (예컨대 상염색체 SNP) 전체에 걸친 충분한 커버리지를 수득하며 샘플 품질 문제 (예컨대 샘플 혼합과 같은 부분적 오염)는 없다는 가정하에 측정 또는 추정될 수 있다.
일부 실시양태에서, 샘플 매치를 확인하는 것은 적어도 약 10 %, 적어도 약 20 %, 적어도 약 30 %, 적어도 약 40 %, 적어도 약 50 %, 적어도 약 60 %, 적어도 약 70 %, 적어도 약 80 %, 적어도 약 90 %, 적어도 약 95 %, 적어도 약 96 %, 적어도 약 97 %, 적어도 약 98 %, 적어도 약 99 %, 적어도 약 99.5 %, 적어도 약 99.6 %, 적어도 약 99.7 %, 적어도 약 99.8 %, 적어도 약 99.9 %, 적어도 약 99.99 % 또는 적어도 약 99.999 %의 양성 예측 값 (PPV)으로 수행된다. 샘플 매치를 확인하는 것의 PPV는 본 개시내용의 방법을 사용하여 확인되는 샘플 매치가 진양성일 (예컨대 방법이 샘플 쌍을 매치인 것으로 확인하였다는 전제하에서 샘플 쌍이 서로 진성으로 매치일) 가능성으로 측정 또는 추정될 수 있다. PPV는 특정 수의 구별되는 유전자 좌위 (예컨대 상염색체 SNP) 전체에 걸친 충분한 커버리지를 수득하며 샘플 품질 문제 (예컨대 샘플 혼합과 같은 부분적 오염)는 없다는 가정하에 측정 또는 추정될 수 있다.
일부 실시양태에서, 샘플 매치를 확인하는 것은 적어도 약 10 %, 적어도 약 20 %, 적어도 약 30 %, 적어도 약 40 %, 적어도 약 50 %, 적어도 약 60 %, 적어도 약 70 %, 적어도 약 80 %, 적어도 약 90 %, 적어도 약 95 %, 적어도 약 96 %, 적어도 약 97 %, 적어도 약 98 %, 적어도 약 99 %, 적어도 약 99.5 %, 적어도 약 99.6 %, 적어도 약 99.7 %, 적어도 약 99.8 %, 적어도 약 99.9 %, 적어도 약 99.99 % 또는 적어도 약 99.999 %의 음성 예측 값 (NPV)으로 수행된다. 샘플 매치를 확인하는 것의 NPV는 본 개시내용의 방법을 사용하여 매치가 아닌 (예컨대 샘플 미스매치인) 것으로 확인되는 샘플이 진음성일 (예컨대 방법이 샘플 쌍을 매치가 아닌 것으로 확인하였다는 전제하에서 샘플 쌍이 서로 진성으로 매치가 아닐) 가능성으로 측정 또는 추정될 수 있다. NPV는 특정 수의 구별되는 유전자 좌위 (예컨대 상염색체 SNP) 전체에 걸친 충분한 커버리지를 수득하며 샘플 품질 문제 (예컨대 샘플 혼합과 같은 부분적 오염)는 없다는 가정하에 측정 또는 추정될 수 있다.
일부 실시양태에서, 샘플 매치를 확인하는 것은 적어도 약 0.5, 적어도 약 0.6, 적어도 약 0.7, 적어도 약 0.75, 적어도 약 0.8, 적어도 약 0.85, 적어도 약 0.9, 적어도 약 0.95, 적어도 약 0.96, 적어도 약 0.97, 적어도 약 0.98, 적어도 약 0.99, 적어도 약 0.995, 적어도 약 0.996, 적어도 약 0.997, 적어도 약 0.998, 적어도 약 0.999, 적어도 약 0.9999 또는 적어도 약 0.99999인 수신자 조작 특징 (ROC)의 곡선하 면적 (AUC)으로 수행된다.
일부 실시양태에서, 샘플 미스매치를 확인하는 방법은 추가로 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 기준을 충족하는지 여부를 확인하는 단계를 포함한다. 사전결정된 임계치는 하나 이상의 대조 대상체로부터의 하나 이상의 샘플로부터 샘플 핑거프린트를 생성시키고, (동일한 대상체 내에서의, 그리고 서로 다른 대상체 (예컨대 서로 다른 성별의 것)에 걸친) 대조 샘플의 가변성에 기초하여 적합한 사전결정 임계치를 확인하는 것에 의해 생성될 수 있다.
사전결정된 임계치는 샘플 미스매치 및/또는 샘플 매치를 확인하는 것에 있어서의 원하는 민감도, 특이도, 양성 예측 값 (PPV), 음성 예측 값 (NPV) 또는 정확도에 기초하여 조정될 수 있다. 예를 들어, 높은 샘플 미스매치 확인 민감도가 요구되는 경우, 사전결정된 임계치는 더 낮게 되도록 조정될 수 있다. 대안적으로, 높은 샘플 미스매치 확인 특이도가 요구되는 경우, 사전결정된 임계치는 더 높게 되도록 조정될 수 있다. 사전결정된 임계치는 대조 대상체로부터 수득되는 대조 샘플의 수신자 조작 특징 (ROC)의 곡선하 면적 (AUC)을 최대화하도록 조정될 수 있다. 사전결정된 임계치는 샘플 미스매치 및/또는 샘플 매치를 확인하는 데에 있어서 가양성 (FP) 및 가음성 (FN) 사이의 원하는 균형을 달성하도록 조정될 수 있다.
도 3은 복수의 검정되는 생물학적 샘플로부터 생성된 샘플 핑거프린트의 전체적인 비교 가시화를 도시한다. 사선을 따르는 매우 짙은 선은 바뀌지 않은 모든 샘플 (예컨대 샘플 매치)을 나타낸다. 예를 들면, 그와 같은 샘플 매치는 매치되는 환자 식별 정보 (예컨대 ID 번호, 출생일, 성별 등)가 진정으로 동일한 환자에 속하는 것으로 확인되는 샘플 쌍에 해당할 수 있다. 사선을 벗어나는(off-diagonal) 요소는 서로 다른 대상체로부터 수득된 것으로 예상되는 샘플과 너무 유사한 샘플을 나타낸다. 예를 들면, 그와 같은 샘플 미스매치는 매치되는 환자 식별 정보 (예컨대 ID 번호, 출생일, 성별 등)가 서로 다른 환자로부터 수득되었을 가능성이 있는 것으로 확인되는 (예컨대 잠재적인 샘플 바뀜) 샘플 쌍에 해당할 수 있다. 확인된 샘플 미스매치의 경우, 미스매치된 샘플 핑거프린트는 샘플 미스매치를 확인하여 보정하기 위한 시도로서, 미스매치 환자 식별 정보 (예컨대 ID 번호, 출생일, 성별 등)를 포함하는 데이터베이스에 저장되어 있는 (다른 환자에 속하는 것으로 알려져 있는) 다른 샘플 핑거프린트와 비교될 수 있다. 데이터베이스에서 발견될 경우, 샘플 미스매치는 샘플 핑거프린트와 연관되어 있는 환자 식별 정보를 바꾸거나 업데이트하여 그의 올바른 정체를 매치시키는 것에 의해 보정될 수 있다. 미스매치된 샘플의 올바른 정체가 결정될 수 없는 경우 (예컨대 데이터베이스에서 발견되지 않는 경우), 미스매치된 샘플은 추가적인 검정 및 처리로부터 배제되도록 표시될 수 있다.
도 4는 서로 다른 두 대상체로부터 수득된 복수의 생물학적 샘플에서 수행된 검정을 비교 가시화한 분명한 내부 샘플 미스매치 (예컨대 샘플 바뀜)의 예를 도시한다. 사선상의 "깨진" 사각형에 인접한 사선 밖의 막대는 해당하는 2개의 샘플 (BLIB00366 및 BLIB00367)이 바뀌었음을 표시한다. 데이터베이스에서 그것이 발견되었으므로, 샘플 미스매치는 샘플 핑거프린트 쌍과 연관되어 있는 환자 식별 정보를 바꾸거나 업데이트하여 그의 올바른 정체를 매치시키는 것에 의해 보정될 수 있다.
도 5는 해결될 수 없는 분명한 샘플 미스매치 (예컨대 샘플 바뀜)의 이미지 및 샘플 차이의 예를 도시한다. 제1 환자 (ID #4181) 및 제2 환자 (ID #4175)로부터 수득된 조직 샘플은 바뀌었다. 제3 환자 (ID #4161)의 cfDNA 샘플 중 하나는 제3 환자 (ID #4161)로부터의 것으로 예상되는 다른 샘플을 포함한 어떠한 다른 샘플과도 매치되지 않는다. 미스매치된 제3 환자 (ID #4161) 샘플 (샘플 차이를 나타낸 것)의 올바른 정체성이 결정될 수 없으므로 (예컨대 데이터베이스에서 발견되지 않았음), 미스매치된 샘플은 추가적인 검정 및 처리로부터 배제되도록 표시될 수 있다.
도 6은 동일하거나 서로 다른 대상체 (예컨대 환자 또는 사람)로부터의 샘플 쌍 사이에서의 예상 유전자형 유사도를 보여주는 플롯을 도시한다. 이와 같은 플롯은 동일한 사람으로부터 수득되는 샘플 대 서로 다른 사람으로부터 수득되는 샘플 사이를 구별하거나 분간하기 위하여 어떻게 적합한 임계치가 확인되는지를 도시한다. 바뀐 것으로 예상되는 샘플 및 (낮은 유전자형 비교 수로 이어지는) 낮은 커버리지를 가지는 샘플을 배제하는 것에 의해 잠재적인 샘플 미스매치가 기록된 후에는, 분포가 완전히 분리된다.
예를 들면, 바뀐 것으로 예상되는 샘플을 배제하는 것에 의해, 동일한 사람으로부터의 샘플 쌍 사이의 예상 유전자형 유사도의 분포는 (제1 컬럼으로부터 제3 컬럼으로) 상향 이동한다. 낮은 커버리지 (낮은 유전자형 비교 수로 이어지는 것)를 가지는 샘플을 추가로 배제하는 것에 의해, 동일한 사람으로부터의 샘플 쌍 사이의 예상 유전자형 유사도의 분포는 (제3 컬럼으로부터 제5 컬럼으로) 추가 상향 이동한다. 유사하게, 바뀐 것으로 예상되는 샘플을 배제하는 것에 의해, 서로 다른 사람으로부터의 샘플 쌍 사이의 예상 유전자형 유사도의 분포는 (제2 컬럼으로부터 제4 컬럼으로) 하향 이동한다. 낮은 커버리지 (낮은 유전자형 비교 수로 이어지는 것)를 가지는 샘플을 추가로 배제하는 것에 의해, 서로 다른 사람으로부터의 샘플 쌍 사이의 예상 유전자형 유사도의 분포는 (제4 컬럼으로부터 제6 컬럼으로) 추가 하향 이동한다. 예컨대, 이와 같은 예에서, 동일한 사람으로부터의 샘플 사례 (바뀐 것 및 낮은 커버리지의 것 배제) (제5 컬럼) 및 서로 다른 사람으로부터의 샘플 사례 (바뀐 것 및 낮은 커버리지의 것 배제) (제6 컬럼) 사이에서의 임계치설정은 0.8의 유전자형 유사도에서 정확하게 수행될 수 있다. 서로 다른 대상체로부터 수득되는 샘플 핑거프린트와 비교하였을 때의 동일한 대상체로부터 수득되는 샘플 핑거프린트의 유사도 측정기준 사이에 우수한 분리가 존재하기 때문에, 유전자형 유사도에 대한 가능한 컷오프(cutoff) 값 (사전결정된 기준)의 범위가 샘플 매치 및/또는 샘플 미스매치를 정확하게 결정하는 데에 사용될 수 있다. 예를 들면 서로 다르지만 관련이 있는 대상체로부터 수득되는 샘플을 분석할 때의 가양성 매치 호출의 가능성을 회피하거나 최소화하기 위하여, 사전결정된 기준은 상대적으로 높은 값에서의 세트일 수 있다.
샘플 미스매치를 결정하기 위하여 사전결정된 기준은 2개의 샘플 핑거프린트 사이의 유전자형 유사도 차이가 사전결정된 임계치에 비해 더 크다는 것일 수 있다. 그와 같이 사전결정된 임계치는 예를 들면 적어도 약 0.05, 적어도 약 0.1, 적어도 약 0.15, 적어도 약 0.2, 적어도 약 0.25, 적어도 약 0.3, 적어도 약 0.35, 적어도 약 0.4, 적어도 약 0.45, 적어도 약 0.5, 적어도 약 0.55, 적어도 약 0.6, 적어도 약 0.65, 적어도 약 0.7, 적어도 약 0.75, 적어도 0.8, 적어도 약 0.85 또는 적어도 약 0.9인 유전자형 유사도의 차이일 수 있다.
유사하게, 샘플 매치를 결정하기 위하여 사전결정된 기준은 2개의 샘플 핑거프린트 사이의 유전자형 유사도 차이가 사전결정된 임계치 이하라는 것일 수 있다. 그와 같이 사전결정된 임계치는 예를 들면 약 0.05 이하, 약 0.1 이하, 약 0.15 이하, 약 0.2 이하, 약 0.25 이하, 약 0.3 이하, 약 0.35 이하, 약 0.4 이하, 약 0.45 이하, 약 0.5 이하, 약 0.55 이하, 약 0.6 이하, 약 0.65 이하, 약 0.7 이하, 약 0.75 이하, 0.8 이하, 약 0.85 이하 또는 약 0.9 이하인 유전자형 유사도의 차이일 수 있다.
도 7은 복수의 검정되는 DNA 샘플에 대한 성별 호출의 비교를 도시한다. X 판독물은 X 축에 나타내었으며, Y 판독물은 Y 축에 나타내었다. 청색의 샘플은 남성 대상체로부터 수득된 것으로 예상되며, 적색의 샘플은 여성 대상체로부터 수득된 것으로 예상되고, 회색의 샘플은 그와 같은 정보가 이용가능하지 않다. 임계치 선 상당히 위에 위치하는 제1 데이터 점 세트는 남성으로 호출되며, 임계치 선 상당히 아래에 위치하는 제2 데이터 점 세트는 여성으로 호출된다. 플롯은 임계치 선 아래에 위치하는 몇 개의 청색 데이터 점 및 임계치 위에 위치하는 몇 개의 적색 데이터 점을 보여주는데, 이들은 샘플 미스매치로 확인되는 (예를 들면 바뀐 것으로 확인되는) 샘플에 해당한다. 임계치 선상에 안착되는 데이터 점은 염색체 X의 많은 부분이 중복되어 있는 암 환자로부터 수득되었다.
컴퓨터 시스템
본 개시내용은 본 개시내용의 방법을 실행하도록 프로그래밍되는 컴퓨터 시스템을 제공한다. 도 8은 예를 들면 핵산 분자를 처리하여 복수의 유전자 좌위 각각에서의 핵산 분자의 정량적 측정치를 포함하는 샘플 핑거프린트를 생성시키고, 2개의 샘플 핑거프린트 사이의 차이를 결정하며, 2개의 샘플 핑거프린트 사이의 차이가 사전결정된 기준을 충족하는 경우, 샘플 미스매치를 확인하도록 프로그래밍되거나 달리 구성되는 컴퓨터 시스템 (801)을 나타낸다. 상기 컴퓨터 시스템 (801)은 예를 들면 핵산 분자를 처리하여 복수의 유전자 좌위 각각에서의 핵산 분자의 정량적 측정치를 포함하는 샘플 핑거프린트를 생성시키는 단계, 2개의 샘플 핑거프린트 사이의 차이를 결정하는 단계, 및 2개의 샘플 핑거프린트 사이의 차이가 사전결정된 기준을 충족하는 경우, 샘플 미스매치를 확인하는 단계와 같은 본 개시내용의 분석, 계산 및 생성의 다양한 측면을 조절할 수 있다. 컴퓨터 시스템 (801)은 사용자의 전자 장치, 또는 전자 장치와 관련하여 원격으로 위치하는 컴퓨터 시스템일 수 있다. 상기 전자 장치는 모바일 전자 장치일 수 있다.
컴퓨터 시스템 (801)은 단일 코어 또는 멀티 코어 프로세서, 또는 병렬 처리를 위한 복수의 프로세서일 수 있는 중앙 처리 장치 (CPU, 본원에서는 또한 "프로세서" 및 "컴퓨터 프로세서") (805)를 포함한다. 컴퓨터 시스템 (801)은 또한 메모리 또는 메모리 위치 (810) (예컨대 랜덤-억세스 메모리, 리드-온리 메모리, 플래시 메모리), 전자 저장 장치 (815) (예컨대 하드 디스크), 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스 (820) (예컨대 네트워크 어댑터), 및 말단 장치 (825), 예컨대 캐시, 다른 메모리, 데이터 저장 및/또는 전자 디스플레이 어댑터를 포함한다. 상기 메모리 (810), 저장 장치 (815), 인터페이스 (820) 및 말단 장치 (825)는 통신 버스(bus) (짙은 선), 예컨대 마더보드를 통하여 CPU (805)와 통해 있다. 저장 장치 (815)는 데이터를 저장하기 위한 데이터 저장 장치 (또는 데이터 저장소)일 수 있다. 컴퓨터 시스템 (801)은 통신 인터페이스 (820)의 도움으로 컴퓨터 네트워크 ("네트워크") (830)와 작용가능하게 연결될 수 있다. 상기 네트워크 (830)는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷과 통해 있는 인트라넷 및/또는 엑스트라넷일 수 있다. 일부 경우에서, 네트워크 (830)는 원격통신 및/또는 데이터 네트워크이다. 네트워크 (830)는 클라우드 컴퓨팅(cloud computing)과 같은 분산 컴퓨팅(distributed computing)을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 예를 들면, 하나 이상의 컴퓨터 서버가 네트워크 (830) ("클라우드")상에서의 클라우드 컴퓨팅을 가능하게 함으로써, 예를 들면 핵산 분자를 처리하여 복수의 유전자 좌위 각각에서의 핵산 분자의 정량적 측정치를 포함하는 샘플 핑거프린트를 생성시키는 것, 2개의 샘플 핑거프린트 사이의 차이를 결정하는 것, 및 2개의 샘플 핑거프린트 사이의 차이가 사전결정된 기준을 충족하는 경우, 샘플 미스매치를 확인하는 단계와 같은 본 개시내용의 분석, 계산 및 생성의 다양한 측면을 수행할 수 있다. 그와 같은 클라우드 컴퓨팅은 예를 들면 아마존 웹 서비시스(Amazon Web Services) (AWS), 마이크로소프트 아주레(Microsoft Azure), 구글 클라우드 플랫폼(Google Cloud Platform) 및 IBM 클라우드와 같은 클라우드 컴퓨팅 플랫폼에 의해 제공될 수 있다. 일부 경우에서, 네트워크 (830)는 컴퓨터 시스템 (801)의 도움으로 장치가 컴퓨터 시스템 (801)에 연결되어 클라이언트 또는 서버로 작용하는 것을 가능하게 할 수 있는 동료-대-동료(peer-to-peer) 네트워크를 실행할 수 있다.
CPU (805)는 프로그램 또는 소프트웨어로 구현될 수 있는 기계-판독가능 명령의 시퀀스(sequence)를 실행할 수 있다. 상기 명령은 메모리 (810)와 같은 메모리 위치에 저장될 수 있다. 명령은 CPU (805)에 관할 것일 수 있으며, 이어서 본 개시내용의 방법을 실행하도록 CPU (805)를 프로그래밍하거나 달리 구성할 수 있다. CPU (805)에 의해 수행되는 공정의 예에는 가져오기(fetch), 디코드(decode), 실행 및 답장하기(writeback)가 포함될 수 있다.
CPU (805)는 집적 회로와 같은 회로의 일부일 수 있다. 시스템 (801)의 하나 이상의 다른 부품이 회로에 포함될 수 있다. 일부 경우에서, 회로는 어플리케이션 전용 집적 회로(application specific integrated circuit) (ASIC)이다.
저장 장치 (815)는 드라이버, 라이브러리 및 저장 프로그램과 같은 파일을 저장할 수 있다. 저장 장치 (815)는 사용자 데이터, 예컨대 사용자 선호사항 및 사용자 프로그램을 저장할 수 있다. 일부 경우에서, 컴퓨터 시스템 (801)은 인트라넷 또는 인터넷을 통하여 컴퓨터 시스템 (801)과 통해 있는 원격 서버상에 위치되는 것과 같이 컴퓨터 시스템 (801) 외부에 존재하는 하나 이상의 추가적인 데이터 저장 장치를 포함할 수 있다.
컴퓨터 시스템 (801)은 네트워크 (830)를 통하여 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들어, 컴퓨터 시스템 (801)은 사용자 (예컨대 의사, 간호사, 간병인, 환자 또는 대상체)의 원격 컴퓨터 시스템과 통신할 수 있다. 원격 컴퓨터 시스템의 예로는 개인용 컴퓨터 (예컨대 휴대용 PC), 슬레이트(slate) 또는 태블릿 PC (예컨대 애플(Apple)® 아이패드(iPad), 삼성(Samsung)® 갤럭시 탭(Galaxy Tab), 전화, 스마트폰 (예컨대 애플(Apple)® 아이폰(iPhone), 안드로이드-사용가능 장치, 블랙베리(Blackberry)®) 또는 개인용 디지털 보조기기가 포함된다. 사용자는 네트워크 (830)를 통하여 컴퓨터 시스템 (801)에 접속할 수 있다.
본원에서 기술되는 바와 같은 방법은 예를 들면 메모리 (810) 또는 전자 저장 장치 (815)상에서와 같은 컴퓨터 시스템 (801)의 전자 저장 위치상에 저장되어 있는 기계 (예컨대 컴퓨터 프로세서) 실행가능 코드에 의해 실행될 수 있다. 상기 기계 실행가능 또는 기계 판독가능 코드는 소프트웨어의 형태로 제공될 수 있다. 사용시, 코드는 프로세서 (805)에 의해 실행될 수 있다. 일부 경우에서, 코드는 저장 장치 (815)로부터 검색된 후, 프로세서 (805)에 의한 즉석 접속을 위하여 메모리 (810)상에 저장될 수 있다. 일부 상황에서, 전자 저장 장치 (815)는 배제될 수 있으며, 기계-실행가능 명령은 메모리 (810)상에 저장된다.
코드는 코드를 실행하도록 적합화된 프로세서를 포함하는 기계와의 사용을 위하여 사전-컴파일링 및 구성될 수 있거나, 또는 실행 시간 동안 컴파일링될 수 있다. 코드는 사전-컴파일링되거나 애즈-컴파일링되는 방식으로 코드를 실행하는 것을 가능하게 하도록 선택될 수 있는 프로그래밍 언어로 공급될 수 있다.
본원에서 제공되는 시스템 및 방법의 측면, 예컨대 컴퓨터 시스템 (801)은 프로그래밍에서 구현될 수 있다. 다양한 기술 측면이 통상적으로 기계 판독가능 매체의 유형으로 진행되거나 구현되는 기계 (또는 프로세서) 실행가능 코드 및/또는 관련 데이터의 형태인 "생성물(product)" 또는 "제조 물품(article of manufacture)"으로 여겨질 수 있다. 기계-실행가능 코드는 메모리 (예컨대 리드-온리 메모리, 랜덤-억세스 메모리, 플래시 메모리) 또는 하드 디스크와 같은 전자 저장 장치상에 저장될 수 있다. "저장" 유형의 매체에는 컴퓨터, 프로세서 등, 또는 이들의 관련 모듈의 임의의 또는 모든 유형 메모리, 예컨대 소프트웨어 프로그래밍을 위하여 언제라도 비-일시적 저장을 제공할 수 있는 다양한 반도체 메모리, 테이프 드라이브, 디스크 드라이브 등이 포함될 수 있다. 모든 소프트웨어 또는 그의 일부는 때로는 인터넷 또는 다양한 다른 원격통신 네트워크를 통하여 통신될 수 있다. 그와 같은 통신은 예를 들면 하나의 컴퓨터 또는 프로세서로부터 또 다른 것으로, 예를 들면 관리 서버 또는 호스트(host) 컴퓨터로부터 어플리케이션 서버의 컴퓨터 플랫폼으로의 소프트웨어의 적재를 가능하게 할 수 있다. 따라서, 소프트웨어 요소를 보유할 수 있는 또 다른 유형의 매체에는 유선 및 광학 통신선 네트워크 및 오버 배리오스 에어-링크(over various air-link)를 통하여 국지적 장치 사이의 물리적 인터페이스를 가로질러 사용되는 것과 같은 광학, 전기 및 전자기 파가 포함된다. 그와 같은 파를 보유하는 물리적 요소, 예컨대 유선 또는 무선 링크, 광학 링크 등 역시 소프트웨어를 보유하는 매체로 간주될 수 있다. 본원에서 사용될 때, 비-일시적인 것으로 제한되지 않는 한, 유형 "저장" 매체, 컴퓨터 또는 기계 "판독가능 매체"와 같은 용어는 실행을 위하여 프로세서에 명령을 제공하는 데에 참여하는 모든 매체를 지칭한다.
따라서, 컴퓨터-실행가능 코드와 같은 기계 판독가능 매체는 비제한적으로 유형 저장 매체, 캐리어 파 매체 또는 물리적 전파 매체를 포함한 많은 형태를 취할 수 있다. 비-휘발성 저장 매체로는 예를 들면 도면에 나타낸 데이터베이스 등을 실행하는 데에 사용될 수 있는 것과 같은 광학 또는 자기 디스크, 예컨대 임의의 컴퓨터(들) 중 임의의 저장 장치 등이 포함된다. 휘발성 저장 매체로는 동적 메모리, 예컨대 그와 같은 컴퓨터 플랫폼의 주 메모리가 포함된다. 유형 전파 매체에는 컴퓨터 시스템 내에서 버스를 포함하는 와이어를 포함한 공축 케이블, 구리 와이어 및 광섬유가 포함된다. 캐리어-파 전파 매체는 전기 또는 전자기 신호, 또는 음향 또는 광 파, 예컨대 고주파 (RF) 및 적외선 (IR) 데이터 통신 동안 생성된 것의 형태를 취할 수 있다. 이에 따라, 통상적인 형태의 컴퓨터-판독가능 매체에는 예를 들면 하기가 포함된다: 플로피 디스크, 유연성 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 펀치 카드 종이 테이프, 구멍의 패턴을 가지는 임의의 다른 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 데이터 또는 명령을 전송하는 캐리어 파, 그와 같은 캐리어 파를 전송하는 케이블 또는 링크, 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 임의의 다른 매체. 이러한 컴퓨터 판독가능 매체 형태 중 많은 것이 하나 이상의 명령의 하나 이상의 시퀀스를 실행을 위하여 프로세서로 전달하는 것과 연관될 수 있다.
컴퓨터 시스템 (801)은 예를 들면 복수의 유전자 좌위 각각에서의 핵산 분자의 정량적 측정치를 포함하는 생성된 샘플 핑거프린트, 2개의 샘플 핑거프린트 사이의 결정된 차이, 및 확인된 샘플 미스매치를 제공하기 위한 사용자 인터페이스 (UI) (840)를 포함하는 전자 디스플레이 (835)를 포함하거나 그와 통해 있을 수 있다. UI의 예로는 비제한적으로 그래픽 사용자 인터페이스 (GUI) 및 웹-기반 사용자 인터페이스가 포함된다.
본 개시내용의 방법 및 시스템은 하나 이상의 알고리즘에 의해 실행될 수 있다. 알고리즘은 중앙 처리 장치 (805)에 의한 실행시 소프트웨어에 의해 실행될 수 있다. 알고리즘은 예를 들면 핵산 분자를 처리하여 복수의 유전자 좌위 각각에서의 핵산 분자의 정량적 측정치를 포함하는 샘플 핑거프린트를 생성시키고, 2개의 샘플 핑거프린트 사이의 차이를 결정하며, 2개의 샘플 핑거프린트 사이의 차이가 사전결정된 기준을 충족하는 경우, 샘플 미스매치를 확인할 수 있다.
본 발명의 바람직한 실시양태를 본원에 나타내어 기술하기는 하였지만, 그와 같은 실시양태가 단지 예로서 제공된다는 것은 관련 기술분야 통상의 기술자에게 자명할 것이다. 명세서 내에서 제공된 구체적인 예로서 본 발명을 제한하고자 하는 것은 아니다. 상기언급된 명세서를 참조하여 본 발명을 기술하기는 하였지만, 본원 실시양태의 기술 및 예시가 제한적인 의미로 해석되어야 함을 의미하는 것은 아니다. 이제는 본 발명에서 벗어나지 않고도 수많은 변이, 변화 및 대체물이 관련 기술분야 통상의 기술자에게 떠오르게 될 것이다. 또한, 본 발명의 모든 측면은 다양한 조건 및 변수에 따라 달라지는 본원에서 제시된 특정 묘사, 구성 또는 상대적 비율로 제한되는 것이 아니라는 것이 이해되어야 한다. 본 발명의 실시에서는 본원에서 기술된 본 발명의 실시양태에 대한 다양한 대안이 사용될 수 있다는 것이 이해되어야 한다. 이에 따라, 본 발명은 모든 그와 같은 대안, 변형, 변이 또는 등가물도 포괄하게 될 것으로 생각된다. 하기의 청구범위로서 본 발명의 영역을 한정하고, 해당 청구범위 및 그 등가물의 영역 내의 방법 및 구조를 그에 포괄하고자 한다.

Claims (48)

  1. 대상체로부터 제1 복수의 핵산 분자를 포함하는 제1 생물학적 샘플을 수득하는 단계;
    컴퓨터에 의해 제1 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계;
    대상체로부터 제2 복수의 핵산 분자를 포함하는 제2 생물학적 샘플을 수득하는 단계;
    컴퓨터에 의해 제2 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계;
    제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및
    제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계
    를 포함하며, 여기서 제1 복수의 핵산 분자의 정량적 측정치는 12개 이하의 독립적인 제1 복수의 핵산 분자의 측정치를 포함하는 것인, 샘플 미스매치의 확인 방법.
  2. 대상체로부터 제1 복수의 핵산 분자를 포함하는 제1 생물학적 샘플을 수득하는 단계;
    컴퓨터에 의해 제1 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계;
    대상체로부터 제2 복수의 핵산 분자를 포함하는 제2 생물학적 샘플을 수득하는 단계;
    컴퓨터에 의해 제2 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계;
    제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및
    제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계
    를 포함하며, 여기서 상염색체 단일 뉴클레오티드 다형성은 단순 단일 뉴클레오티드 다형성을 포함하는 것인, 샘플 미스매치의 확인 방법.
  3. 대상체로부터 제1 복수의 핵산 분자를 포함하는 제1 생물학적 샘플을 수득하는 단계;
    컴퓨터에 의해 제1 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트를 생성시키는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계;
    대상체로부터 제2 복수의 핵산 분자를 포함하는 제2 생물학적 샘플을 수득하는 단계;
    컴퓨터에 의해 제2 복수의 핵산 분자를 처리하여, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트를 생성시키는 단계;
    제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및
    제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 임계치를 초과하는 경우, 샘플 미스매치를 확인하는 단계
    를 포함하며, 여기서 상염색체 단일 뉴클레오티드 다형성은 사전결정된 임계치를 초과하는 부차 대립유전자 분율을 가지는 것인, 샘플 미스매치의 확인 방법.
  4. 제3항에 있어서, 상염색체 단일 뉴클레오티드 다형성이 약 7.5 %를 초과하는 부차 대립유전자 분율을 가지는 것인 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 제1 복수의 핵산 분자 및 제2 복수의 핵산 분자가 무-세포 DNA (cfDNA)를 포함하는 것인 방법.
  6. 제1항 내지 제4항 중 어느 한 항에 있어서, 제1 복수의 핵산 분자 및 제2 복수의 핵산 분자가 백혈구 연층 DNA를 포함하는 것인 방법.
  7. 제1항 내지 제4항 중 어느 한 항에 있어서, 제1 복수의 핵산 분자 및 제2 복수의 핵산 분자가 고형 종양 DNA를 포함하는 것인 방법.
  8. 제1항 내지 제4항 중 어느 한 항에 있어서, 제2 생물학적 샘플이 제1 생물학적 샘플을 수득한 후의 나중 시점에 대상체로부터 수득되는 것인 방법.
  9. 제1항 내지 제4항 중 어느 한 항에 있어서, 제1 복수의 핵산 분자를 처리하는 단계가 제1 복수의 핵산 분자를 서열분석하여 제1 복수의 서열분석 판독물을 생성시키는 단계를 포함하며, 제2 복수의 핵산 분자를 처리하는 단계가 제2 복수의 핵산 분자를 서열분석하여 제2 복수의 서열분석 판독물을 생성시키는 단계를 포함하는 방법.
  10. 제9항에 있어서, 서열분석이 전게놈 서열분석 (WGS)을 포함하는 것인 방법.
  11. 제10항에 있어서, 서열분석이 약 10X 이하의 심도로 수행되는 것인 방법.
  12. 제10항에 있어서, 서열분석이 약 8X 이하의 심도로 수행되는 것인 방법.
  13. 제10항에 있어서, 서열분석이 약 6X 이하의 심도로 수행되는 것인 방법.
  14. 제9항에 있어서, 제1 복수의 핵산 분자의 정량적 측정치가 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 커버리지를 포함하며, 제2 복수의 핵산 분자의 정량적 측정치가 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 커버리지를 포함하는 것인 방법.
  15. 제1항 내지 제4항 중 어느 한 항에 있어서, 제1 복수의 핵산 분자를 처리하는 단계가 제1 복수의 핵산 분자의 결합 측정을 수행하는 단계를 포함하며, 제2 복수의 핵산 분자를 처리하는 단계가 제2 복수의 핵산 분자의 결합 측정을 수행하는 단계를 포함하는 것인 방법.
  16. 제15항에 있어서, 복수의 유전자 좌위 각각에서의 제1 복수의 핵산 분자의 정량적 측정치가 유전자 좌위를 함유하는 제1 복수의 핵산 분자의 수를 포함하며, 복수의 유전자 좌위 각각에서의 제2 복수의 핵산 분자의 정량적 측정치가 유전자 좌위를 함유하는 제2 복수의 핵산 분자의 수를 포함하는 것인 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서, 복수의 유전자 좌위 중 적어도 일부에 대하여 제1 복수의 핵산 분자 및/또는 제2 복수의 핵산 분자를 풍부화하는 단계를 추가로 포함하는 방법.
  18. 제17항에 있어서, 풍부화가 제1 복수의 핵산 분자 및/또는 제2 복수의 핵산 분자 중 적어도 일부를 증폭시키는 것을 포함하는 것인 방법.
  19. 제18항에 있어서, 증폭이 선택적 증폭을 포함하는 것인 방법.
  20. 제18항에 있어서, 증폭이 범용 증폭을 포함하는 것인 방법.
  21. 제17항에 있어서, 풍부화가 제1 복수의 핵산 분자 및/또는 제2 복수의 핵산 분자 중 적어도 일부를 선택적으로 단리하는 것을 포함하는 것인 방법.
  22. 제1항 내지 제4항 중 어느 한 항에 있어서, 복수의 유전자 좌위가 적어도 약 50개의 구별되는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 방법.
  23. 제1항 내지 제4항 중 어느 한 항에 있어서, 복수의 유전자 좌위가 적어도 약 100개의 구별되는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 방법.
  24. 제1항 내지 제4항 중 어느 한 항에 있어서, 제1 샘플 핑거프린트를 생성시키는 단계가 추가로 대상체로부터 제3 복수의 핵산 분자를 포함하는 제3 생물학적 샘플을 수득하는 단계, 및 제3 복수의 핵산 분자를 처리하여, 제2 복수의 유전자 좌위 각각에서의 제3 복수의 핵산 분자의 정량적 측정치를 수득하는 단계이며, 여기서 제2 복수의 유전자 좌위가 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계를 포함하며; 제2 샘플 핑거프린트를 생성시키는 단계가 추가로 대상체로부터 제4 복수의 핵산 분자를 포함하는 제4 생물학적 샘플을 수득하는 단계, 및 제4 복수의 핵산 분자를 처리하여, 제2 복수의 유전자 좌위 각각에서의 제4 복수의 핵산 분자의 정량적 측정치를 수득하는 단계를 포함하는 것인 방법.
  25. 제24항에 있어서, 제3 복수의 핵산 분자 및 제4 복수의 핵산 분자가 무-세포 DNA (cfDNA)를 포함하는 것인 방법.
  26. 제24항에 있어서, 제3 복수의 핵산 분자 및 제4 복수의 핵산 분자가 백혈구 연층 DNA를 포함하는 것인 방법.
  27. 제24항에 있어서, 제3 복수의 핵산 분자 및 제4 복수의 핵산 분자가 고형 종양 DNA를 포함하는 것인 방법.
  28. 제24항에 있어서, 제1 샘플 핑거프린트를 생성시키는 단계가 추가로 대상체로부터 제5 복수의 핵산 분자를 포함하는 제5 생물학적 샘플을 수득하는 단계, 및 제5 복수의 핵산 분자를 처리하여, 제3 복수의 유전자 좌위 각각에서의 제5 복수의 핵산 분자의 정량적 측정치를 수득하는 단계이며, 여기서 제3 복수의 유전자 좌위가 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 단계를 포함하며; 제2 샘플 핑거프린트를 생성시키는 단계가 추가로 대상체로부터 제6 복수의 핵산 분자를 포함하는 제6 생물학적 샘플을 수득하는 단계, 및 제6 복수의 핵산 분자를 처리하여, 제3 복수의 유전자 좌위 각각에서의 제6 복수의 핵산 분자의 정량적 측정치를 수득하는 단계를 포함하는 것인 방법.
  29. 제28항에 있어서, 제3 복수의 핵산 분자 및 제4 복수의 핵산 분자가 무-세포 DNA (cfDNA)를 포함하는 것인 방법.
  30. 제28항에 있어서, 제3 복수의 핵산 분자 및 제4 복수의 핵산 분자가 백혈구 연층 DNA를 포함하는 것인 방법.
  31. 제28항에 있어서, 제3 복수의 핵산 분자 및 제4 복수의 핵산 분자가 고형 종양 DNA를 포함하는 것인 방법.
  32. 제1항 내지 제31항 중 어느 한 항에 있어서, 적어도 약 90 %의 민감도로 샘플 미스매치를 확인하는 것을 포함하는 방법.
  33. 제1항 내지 제31항 중 어느 한 항에 있어서, 적어도 약 90 %의 특이도로 샘플 미스매치를 확인하는 것을 포함하는 방법.
  34. 제1항 내지 제31항 중 어느 한 항에 있어서, 적어도 약 90 %의 양성 예측 값 (PPV)으로 샘플 미스매치를 확인하는 것을 포함하는 방법.
  35. 제1항 내지 제31항 중 어느 한 항에 있어서, 적어도 약 90 %의 음성 예측 값 (NPV)으로 샘플 미스매치를 확인하는 것을 포함하는 방법.
  36. 제1항 내지 제31항 중 어느 한 항에 있어서, 적어도 약 0.90의 곡선하 면적 (AUC)으로 샘플 미스매치를 확인하는 것을 포함하는 방법.
  37. 제1항 내지 제31항 중 어느 한 항에 있어서, 사전결정된 기준이 차이가 사전결정된 임계치를 초과하는 유전자형 유사도의 차이를 포함하는 것인 방법.
  38. 제37항에 있어서, 사전결정된 임계치가 약 0.8인 방법.
  39. 제1항 내지 제38항 중 어느 한 항에 있어서, 확인된 샘플 미스매치에 기초하여 제2 생물학적 샘플을 추가적인 검정으로부터 배제하는 단계를 추가로 포함하는 방법.
  40. 제1항 내지 제4항 중 어느 한 항에 있어서, 제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 기준을 충족하지 않는 경우 샘플 매치를 확인하는 단계를 추가로 포함하는 방법.
  41. 제40항에 있어서, 적어도 약 90 %의 민감도로 샘플 매치를 확인하는 것을 포함하는 방법.
  42. 제40항에 있어서, 적어도 약 90 %의 특이도로 샘플 매치를 확인하는 것을 포함하는 방법.
  43. 제40항에 있어서, 적어도 약 90 %의 양성 예측 값 (PPV)으로 샘플 매치를 확인하는 것을 포함하는 방법.
  44. 제40항에 있어서, 적어도 약 90 %의 음성 예측 값 (NPV)으로 샘플 매치를 확인하는 것을 포함하는 방법.
  45. 제40항에 있어서, 적어도 약 0.90의 곡선하 면적 (AUC)으로 샘플 매치를 확인하는 것을 포함하는 방법.
  46. 제40항 내지 제45항 중 어느 한 항에 있어서, 확인된 샘플 매치에 기초하여 제2 생물학적 샘플을 추가적인 검정에 적용하는 단계를 추가로 포함하는 방법.
  47. 제40항 내지 제45항 중 어느 한 항에 있어서, 확인된 샘플 매치에 기초하여, 제2 샘플 핑거프린트를 데이터베이스에 저장하는 단계, 및 임의적으로 제1 샘플 핑거프린트를 데이터베이스에 저장하는 단계를 추가로 포함하는 방법.
  48. 하나 이상의 컴퓨터 프로세서에 의한 실행시 하기를 포함하는 샘플 미스매치 확인 방법을 실행하는 기계-실행가능 코드를 포함하는 비-일시적 컴퓨터-판독가능 매체:
    복수의 유전자 좌위 각각에서의 제1 생물학적 샘플 중 제1 복수의 핵산 분자의 정량적 측정치를 포함하는 제1 샘플 핑거프린트의 정보를 수신하는 단계이며, 여기서 복수의 유전자 좌위는 상염색체 단일 뉴클레오티드 다형성 (SNP)을 포함하고, 제1 복수의 핵산 분자의 정량적 측정치는 12개 이하의 독립적인 복수의 핵산 분자의 측정치를 포함하는 것인 단계;
    복수의 유전자 좌위 각각에서의 제2 생물학적 샘플 중 제2 복수의 핵산 분자의 정량적 측정치를 포함하는 제2 샘플 핑거프린트의 정보를 수신하는 단계이며, 여기서 제2 생물학적 샘플은 대상체로부터 수득되는 것인 단계;
    제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이를 결정하는 단계; 및
    제1 샘플 핑거프린트와 제2 샘플 핑거프린트 사이의 차이가 사전결정된 기준을 충족하는 경우, 샘플 미스매치를 확인하는 단계.
KR1020217000329A 2018-06-06 2019-06-06 생물학적 샘플의 핑거프린팅 방법 KR20210022622A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862681642P 2018-06-06 2018-06-06
US62/681,642 2018-06-06
PCT/US2019/035871 WO2019236906A1 (en) 2018-06-06 2019-06-06 Methods for fingerprinting of biological samples

Publications (1)

Publication Number Publication Date
KR20210022622A true KR20210022622A (ko) 2021-03-03

Family

ID=68770618

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217000329A KR20210022622A (ko) 2018-06-06 2019-06-06 생물학적 샘플의 핑거프린팅 방법

Country Status (11)

Country Link
US (1) US20210151126A1 (ko)
EP (1) EP3791012A4 (ko)
JP (2) JP2021526857A (ko)
KR (1) KR20210022622A (ko)
CN (1) CN112384982A (ko)
AU (1) AU2019280867A1 (ko)
BR (1) BR112020024646A2 (ko)
CA (1) CA3101527A1 (ko)
IL (1) IL279184A (ko)
SG (1) SG11202011652QA (ko)
WO (1) WO2019236906A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112349348B (zh) * 2020-11-05 2023-10-13 北京市农林科学院 分子标记指纹数据的比对方法、非暂存态存储介质和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020086289A1 (en) * 1999-06-15 2002-07-04 Don Straus Genomic profiling: a rapid method for testing a complex biological sample for the presence of many types of organisms
EP2513341B1 (en) * 2010-01-19 2017-04-12 Verinata Health, Inc Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing
CN103534591B (zh) * 2010-10-26 2016-04-06 利兰·斯坦福青年大学托管委员会 通过测序分析进行的非侵入性胎儿遗传筛选
RU2670148C2 (ru) * 2013-02-14 2018-10-18 Дзе Риджентс Оф Дзе Юниверсити Оф Колорадо Способы прогнозирования риска интерстициальной пневмонии
EP3140429B1 (en) * 2014-05-05 2020-02-19 Medtronic Inc. Methods for scd, crt, crt-d, or sca therapy identification and/or selection

Also Published As

Publication number Publication date
BR112020024646A2 (pt) 2021-03-02
JP2024056939A (ja) 2024-04-23
CA3101527A1 (en) 2019-12-12
EP3791012A4 (en) 2022-03-09
IL279184A (en) 2021-01-31
EP3791012A1 (en) 2021-03-17
US20210151126A1 (en) 2021-05-20
WO2019236906A1 (en) 2019-12-12
SG11202011652QA (en) 2020-12-30
JP2021526857A (ja) 2021-10-11
AU2019280867A1 (en) 2021-01-07
CN112384982A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
US11242569B2 (en) Methods to determine tumor gene copy number by analysis of cell-free DNA
US11972841B2 (en) Machine learning system and method for somatic mutation discovery
US11193175B2 (en) Normalizing tumor mutation burden
US20230360727A1 (en) Computational modeling of loss of function based on allelic frequency
JP2024056939A (ja) 生体試料のフィンガープリンティングのための方法
CA3097992A1 (en) Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition
US20210358569A1 (en) Methods and systems for assessing microsatellite instability
US11718873B2 (en) Correcting for deamination-induced sequence errors
CN115428087A (zh) 克隆水平缺乏靶变体的显著性建模
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
US11746385B2 (en) Methods of detecting tumor progression via analysis of cell-free nucleic acids
US20220068433A1 (en) Computational detection of copy number variation at a locus in the absence of direct measurement of the locus
CA3187387A1 (en) Methods and systems for efficient sample pooling for diagnostic testing