KR20220011630A - 미소부수체 분석을 위한 방법 및 시스템 - Google Patents

미소부수체 분석을 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20220011630A
KR20220011630A KR1020217037385A KR20217037385A KR20220011630A KR 20220011630 A KR20220011630 A KR 20220011630A KR 1020217037385 A KR1020217037385 A KR 1020217037385A KR 20217037385 A KR20217037385 A KR 20217037385A KR 20220011630 A KR20220011630 A KR 20220011630A
Authority
KR
South Korea
Prior art keywords
subject
condition
microsatellite
sample
microsatellites
Prior art date
Application number
KR1020217037385A
Other languages
English (en)
Inventor
해럴드 가너
Original Assignee
오르빗 제노믹스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오르빗 제노믹스, 인크. filed Critical 오르빗 제노믹스, 인크.
Publication of KR20220011630A publication Critical patent/KR20220011630A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Zoology (AREA)
  • Pathology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Microbiology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Physiology (AREA)

Abstract

본 개시내용은 샘플에서 미소부수체 및 소수 대립유전자를 분류하기 위한 방법 및 시스템을 제공한다. 또한, 본 개시내용은 미소부수체 좌위에 기반하여 병태에 대한 분류자를 생성하고 범-암 분석을 수행하기 위한 방법 및 시스템을 제공한다. 본 방법 및 시스템은 대상체로부터의 핵산 샘플을 차세대 시퀀싱하고 샘플 중의 미소부수체 좌위를 유전자형 검사하는 것을 포함할 수 있다.

Description

미소부수체 분석을 위한 방법 및 시스템
상호참조
본 출원은 2019년 4월 22일자로 출원된 미국 가특허출원 제62/837,109호의 우선권 혜택을 주장하며, 이는 그 전체가 본원에 참조로 통합된다.
미소부수체(microsatellite: MS) 및 이의 변경 및 불안정성은 암, 신경계 질환 또는 심혈관 질환을 포함하는 다수의 복잡한 다유전자 건강 상태의 배후의 유전적 추진력일 수 있다. 현재, 미소부수체를 통해 이들 건강 상태를 예측, 검출, 진단 및 특성규명하는 것은 환자의 미소부수체 프로파일을 이들 건강 상태와 연관된 미소부수체 데이터베이스와 매치(match)시키는 것을 포함할 수 있다. 이러한 접근법은 건강 상태 진행의 후기 단계에서만 적용할 수 있어 검출, 예후, 진단, 치료 선택 및 치료 결과를 신뢰할 수 없게 되고 어려움을 야기할 수 있다. 따라서, 미소부수체 좌위의 분석을 통해 초기 및 후기 단계 둘 다에서 이들 건강 상태를 예측, 검출 및 특성규명하는 개선된 방법에 대한 요구가 남아 있다.
한 측면에서, 본 개시내용은 병태에 대한 최적화된 분류자(classifier)를 구성하기 위한 컴퓨터 구현 방법으로서, 복수의 최적화 사이클에서 병태에 대한 분류자로서 복수의 미소부수체의 서브세트들을 순위화하는 단계를 포함하고, 여기서 상기 복수의 미소부수체의 서브세트들은 상기 병태와 상관관계가 있는 초기 미소부수체 집단 내의 미소부수체를 포함하고, 이에 의해 복수의 미소부수체의 서브세트들 중 최적화된 서브세트를 병태에 대한 최적화된 분류자로서 식별하는 방법을 제공한다. 일부 측면에서, 컴퓨터 구현 방법은 병태를 갖는 대상체로부터의 제1 샘플 세트 내의 미소부수체와 병태를 갖지 않는 대상체로부터의 제2 샘플 세트 내의 미소부수체를 비교하고 이에 의해 초기 미소부수체 집단을 식별하는 단계를 추가로 포함한다.
순위화는 병태를 갖는 대상체로부터의 제1 샘플 세트 내의 미소부수체와 병태를 갖지 않는 대상체로부터의 제2 샘플 세트 내의 미소부수체를 비교하고 이에 의해 초기 미소부수체 집단을 식별하는 것을 포함할 수 있다. 컴퓨터 구현 방법은 초기화를 포함할 수 있으며, 여기서 초기화는 복수의 최적화 사이클 중 한 최적화 사이클에서의 순위화에 사용하기 위해 초기 미소부수체 집단으로부터 초기 미소부수체 서브세트의 집단을 무작위로 선택하는 것을 포함한다. 초기 미소부수체 집단의 적어도 약 100개 서브세트의 집단이 복수의 최적화 사이클에서 사용될 수 있다. 미소부수체의 서브세트들 중 한 서브세트 내의 미소부수체의 최소 수는 8개일 수 있다. 미소부수체의 서브세트들 중 한 서브세트 내의 미소부수체의 최대 수는 64개일 수 있다. 일부 경우에, 미소부수체의 서브세트들 중 한 서브세트 내에서 중복 미소부수체는 허용되지 않는다. 순위화는 (i) 미소부수체의 서브세트들, (ii) 병태를 갖는 대상체로부터의 샘플 중의 미소부수체 및 (iii) 병태를 갖지 않는 대상체로부터의 샘플 중의 미소부수체를 사용하여 수신기 작동 특성(receiver operating characteristic: ROC) 분석을 수행하는 것을 포함할 수 있다. 복수의 최적화 사이클 중 한 최적화 사이클에서의 순위화는 병태에 대한 분류자로서 서브세트들 중 각 서브세트에서 미소부수체의 민감도와 특이도의 합을 결정하는 것을 포함할 수 있다. 복수의 최적화 사이클 중 한 최적화 사이클은 초기 미소부수체 집단의 10개의 새로운 서브세트를 복수의 최적화 사이클 중 이전 최적화 사이클로부터의 서브세트에 추가하는 것을 포함할 수 있다. 10개의 새로운 서브세트 중 7개는 이전 최적화 사이클로부터 무작위로 선택된 2개의 서브세트를 무작위로 분할 및 재결합함으로써 생성될 수 있으며, 10개의 새로운 서브세트 중 3개는 초기 미소부수체 집단으로부터 미소부수체를 무작위로 선택함으로써 생성될 수 있다. 방법은 최적화 사이클에서 최저 순위를 갖는 것에 적어도 부분적으로 기초하여, 최적화 사이클에서 서브세트들 중 10개의 서브세트를 폐기하는 단계를 추가로 포함할 수 있다. 일부 경우에, 병태는 대상체에서의 건강 상태의 존재 또는 부재일 수 있다. 병태는 대상체에서 건강 상태가 발생할 가능성의 증가 또는 감소일 수 있다. 병태는 대상체가 건강 상태의 치료로부터 혜택을 받을 가능성의 증가 또는 감소일 수 있다. 일부 경우에, 병태는 대상체에서 건강 상태의 치료로 인한 이상반응(adverse effect)의 위험이 증가할 가능성의 증가 또는 감소일 수 있다. 병태는 건강 상태의 치료에 대한 대상체의 반응성일 수 있다. 일부 경우에, 병태는 대상체의 건강 상태의 예후일 수 있다. 일부 경우에, 건강 상태는 암일 수 있다. 암은 폐암일 수 있다. 다른 경우에, 건강 상태는 신경계 질환 또는 심혈관 질환일 수 있다.
다른 측면에서, 본 개시내용은 복수의 파라미터를 사용하여 대상체의 샘플로부터 병태에 대한 분류자의 값을 결정하는 단계를 포함하는 컴퓨터 구현 방법으로서, 상기 복수의 파라미터 중 각각의 파라미터는 병태를 갖는 대상체의 샘플 및/또는 병태를 갖지 않는 대상체의 샘플로부터의 복수의 미소부수체 각각의 상관관계의 통계적 척도인 방법을 제공한다.
복수의 가중치는 복수의 최적 가중치를 포함할 수 있다. 일부 측면에서, 컴퓨터 구현 방법은 복수의 최적 가중치를 결정하는 단계를 포함할 수 있다. 복수의 최적 가중치를 결정하는 단계는 복수의 가중치에 표준 회귀 분석을 적용하는 것을 포함할 수 있다. 복수의 최적 가중치를 결정하는 단계는 유전자 알고리즘의 사용을 포함할 수 있다. 분류자를 결정하는 단계는 소수 대립유전자 빈도(minor allele frequency) 데이터를 사용하는 것을 포함할 수 있다. 복수의 미소부수체는 적어도 10개의 미소부수체를 포함할 수 있다. 일부 사례에서, 복수의 미소부수체 각각은 병태의 존재와 상관관계가 있다. 분류자의 값은 분류자를 임계값과 비교하는 것을 추가로 포함할 수 있다. 일부 측면에서, 병태는 대상체에서의 건강 상태의 존재 또는 부재, 대상체에서 건강 상태가 발생할 가능성의 증가 또는 감소, 대상체가 건강 상태의 치료로부터 혜택을 받을 가능성의 증가 또는 감소, 대상체에서 건강 상태의 치료로 인한 이상반응의 위험이 증가할 가능성의 증가 또는 감소, 건강 상태의 치료에 대한 대상체의 반응성 또는 이들의 조합일 수 있다. 일부 경우에, 건강 상태는 암, 심혈관 질환 또는 신경계 질환이다. 건강 상태가 암인 경우, 암은 폐암일 수 있다.
다른 측면에서, 본 개시내용은 대상체의 게놈 연령을 결정하는 컴퓨터 구현 방법으로서, 대상체로부터의 제1 샘플에서 미소부수체 소수 대립유전자 특성을 결정하는 단계; 미소부수체 소수 대립유전자 특성을 참조(reference)로 처리(processing)하는 단계; 및 처리에 기초하여, 대상체의 게놈 연령을 결정하는 단계를 포함한다.
일부 경우에, 처리는 미소부수체 소수 대립유전자 특성을 참조와 비교하는 것을 포함한다. 소수 대립유전자 특성은 유전자좌에 있는 소수 대립유전자의 수일 수 있다. 소수 대립유전자의 수는 적어도 3개의 차세대 시퀀싱 서열 리드(sequence read)에 의해 지원될 수 있다. 소수 대립유전자 특성은 유전자좌에 있는 1차 대립유전자의 총 리드 수에 대해 정규화된 소수 대립유전자의 총 리드 수일 수 있다. 방법은 대상체의 미소부수체의 서열 리드를 생성하기 위해 대상체로부터의 제1 샘플의 차세대 시퀀싱을 수행하는 단계를 추가로 포함할 수 있다. 제1 샘플은 혈액, 타액 또는 종양을 포함할 수 있다. 방법은 제1 게놈 연령을 결정한 후, 대상체로부터의 제2 샘플에서 소수 대립유전자 특성을 결정하는 단계를 추가로 포함할 수 있다. 방법은 대상체로부터의 제1 샘플에서의 소수 대립유전자 특성 및 대상체로부터의 제2 샘플에서의 소수 대립유전자 특성을 평가하는 단계, 및 평가에 기초하여 대상체의 게놈 노화 속도를 결정하는 단계를 포함할 수 있다.
또 다른 측면에서, 본 개시내용은 대상체로부터의 샘플 중의 미소부수체를 사용하여 대상체로부터의 샘플에 대한 복수의 분류자를 결정하는 단계; 상기 복수의 분류자를 복수의 병태에 대한 복수의 참조 분류자로 처리하는 단계; 및 처리에 기초하여, 복수의 병태 중에서 대상체에 대한 적어도 하나의 병태를 결정하는 단계를 포함하는 컴퓨터 구현 방법을 제공한다.
처리는 복수의 분류자를 복수의 병태에 대한 복수의 참조 분류자와 비교하는 것을 포함할 수 있다. 일부 경우에, 복수의 병태 중 적어도 하나의 병태는 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태의 존재 또는 부재를 포함한다. 일부 경우에, 복수의 병태 중 적어도 하나의 병태는 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태가 발생할 가능성의 증가 또는 감소를 포함한다. 복수의 병태 중 적어도 하나의 병태는 대상체가 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태의 치료로부터 혜택을 얻을 가능성의 증가 또는 감소를 포함할 수 있다. 복수의 병태 중 적어도 하나의 병태는 대상체에서 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태의 치료로 인한 이상반응의 위험이 증가할 가능성의 증가 또는 감소를 포함할 수 있다. 복수의 병태 중 적어도 하나의 병태는 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태의 치료에 대한 대상체의 반응성을 포함할 수 있다. 복수의 건강 상태는 복수의 암을 포함할 수 있고, 여기서 복수의 암은 난소암, 유방암, 저등급 신경교종, 교모세포종, 폐암, 전립선암 또는 흑색종을 포함한다. 일부 경우에, 복수의 건강 상태는 복수의 신경계 질환 또는 복수의 심혈관 질환을 포함할 수 있다.
한 측면에서, 본 개시내용은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 병태에 대해 최적화된 분류자를 구성하기 위한 방법을 수행하도록 하는 실행가능 명령어를 포함하는 비일시적 컴퓨터 판독가능 매체를 제공하며, 상기 방법은 복수의 최적화 사이클에서 병태에 대한 분류자로서 복수의 미소부수체의 서브세트들을 순위화하는 단계를 포함하고, 여기서 복수의 미소부수체의 서브세트들은 병태와 상관관계가 있는 초기 미소부수체 집단 내의 미소부수체를 포함하고, 이에 의해 복수의 미소부수체의 서브세트들 중 최적화된 서브세트를 병태에 대한 최적화된 분류자로서 식별한다. 컴퓨터 구현 방법은 병태를 갖는 대상체의 제1 샘플 세트로부터의 미소부수체와 병태를 갖지 않는 대상체의 제2 샘플 세트로부터의 미소부수체를 비교하고, 이에 의해 초기 미소부수체 집단을 식별하는 단계를 추가로 포함할 수 있다.
순위화는 병태를 갖는 대상체로부터의 제1 샘플 세트 내의 미소부수체와 병태를 갖지 않는 대상체로부터의 제2 샘플 세트 내의 미소부수체를 비교하고, 이에 의해 초기 미소부수체 집단을 식별하는 것을 포함할 수 있다. 컴퓨터 구현 방법은 초기화를 포함할 수 있으며, 여기서 초기화는 복수의 최적화 사이클 중 한 최적화 사이클에서의 순위화에 사용하기 위해 초기 미소부수체 집단으로부터 초기 미소부수체 서브세트의 집단을 무작위로 선택하는 것을 포함한다. 초기 미소부수체 집단의 적어도 약 100개 서브세트의 집단이 복수의 최적화 사이클에서 사용될 수 있다. 미소부수체의 서브세트들 중 한 서브세트 내의 미소부수체의 최소 수는 8개일 수 있다. 미소부수체의 서브세트들 중 한 서브세트 내의 미소부수체의 최대 수는 64개일 수 있다. 일부 실시양태에서, 미소부수체의 서브세트들 중 한 서브세트 내에서 중복 미소부수체는 허용되지 않는다. 순위화는 (i) 미소부수체의 서브세트들, (ii) 병태를 갖는 대상체로부터의 샘플 중의 미소부수체 및 (iii) 병태를 갖지 않는 대상체로부터의 샘플 중의 미소부수체를 사용하여 수신기 작동 특성(ROC) 분석을 수행하는 것을 포함할 수 있다. 복수의 최적화 사이클 중 한 최적화 사이클에서의 순위화는 병태에 대한 분류자로서 서브세트의 각각의 서브세트에서 미소부수체의 민감도와 특이도의 합을 결정하는 것을 포함할 수 있다. 복수의 최적화 사이클 중 한 최적화 사이클은 초기 미소부수체 집단의 10개의 새로운 서브세트를 복수의 최적화 사이클의 이전 최적화 사이클로부터의 서브세트에 추가하는 것을 포함할 수 있다. 10개의 새로운 서브세트 중 7개는 이전 최적화 사이클로부터 무작위로 선택된 2개의 서브세트를 무작위로 분할 및 재결합함으로써 생성될 수 있으며, 10개의 새로운 서브세트 중 3개는 초기 미소부수체 집단으로부터 미소부수체를 무작위로 선택함으로써 생성될 수 있다. 방법은 최적화 사이클에서 최저 순위를 갖는 것에 적어도 부분적으로 기초하여, 최적화 사이클에서 서브세트들 중 10개의 서브세트를 폐기하는 단계를 추가로 포함할 수 있다. 병태는 대상체에서의 건강 상태의 존재 또는 부재일 수 있다. 병태는 대상체에서 건강 상태가 발생할 가능성의 증가 또는 감소일 수 있다. 병태는 대상체가 건강 상태의 치료로부터 혜택을 받을 가능성의 증가 또는 감소일 수 있다. 병태는 대상체에서 건강 상태의 치료로 인한 이상반응의 위험이 증가할 가능성의 증가 또는 감소일 수 있다. 병태는 건강 상태의 치료에 대한 대상체의 반응성일 수 있다. 병태는 대상체의 건강 상태에서의 예후일 수 있다. 건강 상태는 암일 수 있다. 암은 폐암일 수 있다. 건강 상태는 신경계 질환 또는 심혈관 질환일 수 있다.
또 다른 측면에서, 본 개시내용은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 복수의 파라미터를 사용하여 대상체로부터의 샘플로부터 병태에 대한 분류자의 값을 결정하는 단계를 포함하는 방법을 수행하도록 하는 실행가능 명령어를 포함하는 비일시적 컴퓨터 판독가능 매체를 제공하며, 여기서 상기 복수의 파라미터 중 각각의 파라미터는 병태를 갖는 대상체의 샘플 및/또는 병태를 갖지 않는 대상체의 샘플로부터의 복수의 미소부수체 각각의 상관관계의 통계적 척도이다.
복수의 가중치는 복수의 최적 가중치를 포함할 수 있다. 컴퓨터 구현 방법은 복수의 최적 가중치를 결정하는 단계를 포함할 수 있다. 복수의 최적 가중치를 결정하는 단계는 복수의 가중치에 표준 회귀 분석을 적용하는 것을 포함할 수 있다. 복수의 최적 가중치를 결정하는 단계는 유전자 알고리즘의 사용을 포함할 수 있다. 분류자를 결정하는 것은 소수 대립유전자 빈도 데이터를 사용하는 것을 포함할 수 있다. 복수의 미소부수체는 적어도 10개의 미소부수체를 포함할 수 있다. 복수의 미소부수체 각각은 병태의 존재와 상관관계가 있을 수 있다. 분류자의 값은 분류자를 임계값과 비교하는 것을 추가로 포함할 수 있다. 병태는 대상체에서의 건강 상태의 존재 또는 부재, 대상체에서 건강 상태가 발생할 가능성의 증가 또는 감소, 대상체가 건강 상태의 치료로부터 혜택을 받을 가능성의 증가 또는 감소, 대상체에서 건강 상태의 치료로 인한 이상반응의 위험이 증가할 가능성의 증가 또는 감소, 건강 상태의 치료에 대한 대상체의 반응성 또는 이들의 조합일 수 있다. 건강 상태는 암, 심혈관 질환 또는 신경계 질환일 수 있다. 암은 폐암일 수 있다.
또 다른 측면에서, 본 개시내용은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 대상체의 게놈 연령을 결정하는 방법을 수행하도록 하는 실행가능 명령어를 포함하는 비일시적 컴퓨터 판독가능 매체를 제공하고, 상기 방법은 대상체로부터의 제1 샘플에서 미소부수체 소수 대립유전자 특성을 결정하는 단계; 미소부수체 소수 대립유전자 특성을 참조로 처리하는 단계; 및 처리에 기초하여, 대상체의 게놈 연령을 결정하는 단계를 포함한다.
처리는 미소부수체 소수 대립유전자 특성을 참조와 비교하는 것을 포함한다. 소수 대립유전자 특성은 유전자좌에 있는 소수 대립유전자의 수일 수 있다. 소수 대립유전자의 수는 적어도 3개의 차세대 시퀀싱 서열 리드에 의해 지원될 수 있다. 소수 대립유전자 특성은 유전자좌에 있는 1차 대립유전자의 총 리드 수에 대해 정규화된 소수 대립유전자의 총 리드 수일 수 있다. 방법은 대상체의 미소부수체의 서열 리드를 생성하기 위해 대상체로부터의 제1 샘플의 차세대 시퀀싱을 수행하는 단계를 추가로 포함할 수 있다. 제1 샘플은 혈액, 타액 또는 종양을 포함할 수 있다. 방법은 제1 게놈 연령을 결정한 후, 대상체로부터의 제2 샘플에서 소수 대립유전자 특성을 결정하는 단계를 추가로 포함할 수 있다. 방법은 대상체로부터의 제1 샘플에서의 소수 대립유전자 특성 및 대상체로부터의 제2 샘플에서의 소수 대립유전자 특성을 평가하는 단계, 및 평가에 기초하여 대상체의 게놈 노화 속도를 결정하는 단계를 포함할 수 있다.
또 다른 측면에서, 본 개시내용은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금, 대상체로부터의 샘플에서 미소부수체를 사용하여 대상체로부터의 샘플에 대한 복수의 분류자를 결정하는 단계; 복수의 분류자를 복수의 병태에 대한 복수의 참조 분류자로 처리하는 단계; 및 처리에 기초하여, 복수의 병태 중에서 대상체에 대한 적어도 하나의 병태를 결정하는 단계를 포함하는 방법을 수행하도록 하는 실행가능 명령어를 포함하는 비일시적 컴퓨터 판독가능 매체를 제공한다.
처리는 복수의 분류자를 복수의 병태에 대한 복수의 참조 분류자와 비교하는 것을 포함할 수 있다. 복수의 병태 중 적어도 하나의 병태는 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태의 존재 또는 부재를 포함할 수 있다. 복수의 병태 중 적어도 하나의 병태는 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태가 발생할 가능성의 증가 또는 감소를 포함할 수 있다. 복수의 병태 중 적어도 하나의 병태는 대상체가 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태의 치료로부터 혜택을 얻을 가능성의 증가 또는 감소를 포함할 수 있다. 복수의 병태 중 적어도 하나의 병태는 대상체에서 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태의 치료로 인한 이상반응의 위험이 증가할 가능성의 증가 또는 감소를 포함할 수 있다. 복수의 병태 중 적어도 하나의 병태는 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태의 치료에 대한 대상체의 반응성을 포함할 수 있다. 복수의 건강 상태는 복수의 암을 포함할 수 있고, 여기서 복수의 암은 난소암, 유방암, 저등급 신경교종, 교모세포종, 폐암, 전립선암 또는 흑색종을 포함할 수 있다. 복수의 건강 상태는 복수의 신경계 질환 또는 복수의 심혈관 질환을 포함할 수 있다.
본 개시내용의 또 다른 측면은, 하나 이상의 컴퓨터 프로세서에 의해 실행 시에, 상기 또는 본원의 다른 곳의 방법들 중 어느 하나를 구현하는 기계 실행가능 코드를 포함하는 비일시적 컴퓨터 판독가능 매체를 제공한다.
본 개시내용의 또 다른 측면은 하나 이상의 컴퓨터 프로세서 및 이에 연결된 컴퓨터 메모리를 포함하는 시스템을 제공한다. 컴퓨터 메모리는 하나 이상의 컴퓨터 프로세서에 의해 실행 시에, 상기 또는 본원의 다른 곳의 방법들 중 어느 하나를 구현하는 기계 실행가능 코드를 포함한다.
본 개시내용의 추가적 측면 및 이점은 본 개시내용의 예시적인 실시양태만이 제시되고 설명되는 다음의 상세한 설명으로부터 당업자에게 용이하게 명백해질 것이다. 인식할 수 있는 바와 같이, 본 개시내용은 다른 실시양태 및 상이한 실시양태가 가능하고, 이의 여러 세부사항은 모두 본 개시내용으로부터 벗어남이 없이 다양한 명백한 측면에서 수정될 수 있다. 따라서, 도면 및 설명은 사실상 예시적인 것으로 간주되어야 하며 제한적인 것으로 간주되어서는 안된다.
참조에 의한 통합
본 명세서에 언급된 모든 간행물, 특허 및 특허 출원은 마치 각각의 개별 간행물, 특허 또는 특허 출원이 참조로 통합되는 것으로 구체적이고 개별적으로 표시된 것과 동일한 정도로 본원에 참조로 통합된다. 참고로 통합된 간행물 및 특허 또는 특허 출원이 본 명세서에 포함된 개시내용과 모순되는 정도에 따라, 본 명세서는 이러한 모순되는 자료를 대체 및/또는 우선하고자 한다.
본 발명의 신규한 특징은 첨부된 청구범위에 구체적으로 기재되어 있다. 본 발명의 원리가 이용되는 예시적인 실시양태를 기재하는 다음의 상세한 설명 및 첨부된 도면을 참조함으로써 본 발명의 특징 및 이점에 대한 더 나은 이해가 얻어질 것이다.
도 1은 미소부수체 분류자를 생성하기 위한 컴퓨터 구현 방법의 작업 흐름의 예를 예시한다.
도 2는 정보제공성 미소부수체 좌위를 식별하고 병태에 대한 분류자를 생성하기 위한 컴퓨터 구현 방법을 사용하는 개발 프로세스의 예를 예시한다.
도 3은 폐암 분석을 위한 검증 프로세스의 예를 예시한다.
도 4는 범(pan)-암 분석을 검증하는 예를 예시한다.
도 5는 환자 샘플의 분석을 위한 작업 흐름의 예를 예시한다.
도 6은 수모세포종(MB) 연관 MS의 식별 및 검증에 사용되는 접근법의 개략도를 예시한다. 상기 접근법은 3단계로 구성된다: 훈련 세트를 사용한 정보제공성 MS 좌위의 컴퓨터적 식별, 독립적 검증 코호트에서 미소부수체 마커의 검증, 및 해당 MS와 연관된 유전자의 다운스트림 분석. 제1 단계는 연령, 인종 및 시퀀싱 기술에 따라 달라지는 MS를 제거하는 필터를 포함한다.
도 7a 내지 도 7d는 검증 및 훈련 데이터의 예를 도시한다. 도 7a는 훈련 코호트에서 메트릭 점수의 분포를 예시한다. 도 7c는 검증 코호트에서 메트릭 점수의 분포를 예시한다. ROC 분석은 훈련(120명의 MB 대상체 및 425명의 대조군 대상체)(도 7b) 및 검증(102명의 MB 대상체 및 428명의 대조군 대상체) 코호트(도 7d)에서 수행되었다.
도 8a는 MB에 대한 139개의 MS 정보제공성 좌위의 게놈상 위치를 표시하는 파이 차트를 예시한다. 도 8b는 정보제공성 수모세포종 MS 좌위의 유전자 온톨로지 분석을 예시한다. 도 8c는 정보제공성 MS 좌위와 연관된 124개 유전자의 단백질-단백질 상호작용(PPI) 네트워크를 예시한다. PPI는 129개의 노드와 49개의 엣지를 포함하여 강화 p-값이 0.0007인 네트워크를 생성한다.
도 9는 본원에 설명된 연구에서 사용된 유전자형 분포 및 분할표(contingency table)의 예를 예시한다. 염색체 1, 염기쌍 153645035 상의 미소부수체 마커 242626에 대한 유전자형 분포. 이러한 예의 p-값은 3.5e-4이다. 우측 표는 동일한 미소부수체 마커에 대한 분할표이다.
도 10은 연령에 민감한 MS를 식별하는 데 사용된 작업 흐름의 요약을 예시한다.
도 11은 시퀀싱 기술에 민감한 MS를 식별하는 데 사용된 작업 흐름의 요약을 예시한다.
도 12는 인종에 민감한 MS를 식별하기 위해 사용된 작업 흐름의 요약을 예시한다.
도 13은 샘플에 점수를 할당하는데 사용된 메트릭의 예를 도시한다. 상기 마커에 대해 각각 유전자형 22|22, 12|12 및 13|13을 갖는 가상적 샘플을 고려한다. 샘플에 메트릭을 적용하기 위해, MB 군과 건강한 군에서 각 유전자형의 빈도 차이를 합산한다: 결과는 0.95의 점수이다. 즉, 각 유전자형에 대해, MB 군의 빈도에서 정상 군의 빈도를 공제한다; 그 다음, 차이를 합산한다. 결과적으로, 건강한 대조군 개체는 주로 음수의 점수를 갖는 반면, 영향을 받은 개체는 양수의 점수를 갖는다.
도 14는 MB 샘플과 건강한 샘플을 구별하기 위한 기준을 결정하기 위한 유덴(Youden) 지수를 예시한다. 유덴 지수는 훈련 세트에서 ROC 곡선의 컷오프를 결정하는 데 사용되었다. 43개의 마커 목록에 대한 최적의 기준은 0.155이다. 동일한 기준을 사용하여 검증 코호트의 특이도 및 민감도를 계산하였다.
도 15는 MB에 대한 43개의 정보제공성 좌위의 염색체상 위치를 나타내는 써코스 플롯(circos plot)을 예시한다.
도 16은 미소부수체 마커 166663(RAI 유전자에 위치한 엑손 미소부수체) 및 164048(BLC6B 유전자에 위치한 엑손 미소부수체)에 대한 유전자형 분포를 예시한다. 하나의 CAG 트리플렛(triplet)의 첨가는 단백질 구조를 변화시켜, 미스센스 돌연변이와 유사하게 이의 기능을 손상시킬 수 있다.
도 17은 대상체의 암 발생 위험을 평가하는 컴퓨터 구현 방법에 의한 미소부수체 분석 결과를 보고하는 출력물의 예를 예시한다.
도 18은 본원에 제공된 방법을 구현하도록 프로그래밍된 또는 달리 구성된 컴퓨터 시스템을 예시한다.
도 19a 내지 19g는 MB와 연관된 139개의 정보제공성 생식계열 MS의 목록을 예시한다.
도 20a 및 20b는 MB 시그니처(signature) 세트의 43개의 미소부수체 좌위의 목록을 예시한다.
도 21은 정보제공성 MB MS 좌위의 인제뉴이티 경로 분석(Ingenuity Pathway analysis)을 예시한다.
도 22는 cBioportal MB 코호트에서 정보제공성 MB MS 좌위 연관 유전자에서의 돌연변이를 예시한다.
도 23a 내지 23c는 135개 유전자 쌍의 돌연변이가 MB 암 위험 분류자 내에서 유의하게 동시발생하는 경향이 있음을 밝혀낸, cBioportal MB 암 연구의 분석을 예시한다.
도 24는 1 표준 편차 신뢰 구간을 갖는 임계값을 예시한다. 구간의 밖에 있는 분류자는 병태를 갖는(0.5 이상) 또는 병태를 갖지 않는(0.1 미만) 대상체를 나타낸다. 임계값에서 더 멀리 떨어진 분류자의 값은 더 강력한 표시를 가지고 있다.
I. 개요
본 개시내용은 예를 들어 미소부수체를 사용하여, 병태에 대한 분류자를 생성하는 컴퓨터 구현 방법을 제공한다. 도 1은 분류자를 생성하기 위해 컴퓨터 구현 방법이 어떻게 수행되는지에 대한 작업 흐름의 예를 예시한다. 데옥시리보핵산(DNA) 서열은 병태를 갖는 대상체의 샘플로부터의 서열 정보(101) 및 병태를 갖지 않는 참조 대상체의 서열 정보(102)의 데이터베이스로부터 수득된다. 병태와만 연관되거나 상관관계가 있는 미소부수체 집단(103)을 밝히기 위해 (101)과 (102)로부터의 미소부수체 좌위를 식별하고(유전자형 검사하고) 서로 비교한다. 그 다음, 분류자의 최적화(105)를 위해 미소부수체 좌위의 초기 세트에 도달하도록 미소부수체 좌위의 집단을 추가로 분석하고 가중화한다(104). 최적화는 미소부수체가 어떻게 병태와 연관되거나 상관관계가 있는지를 반복적으로 순위화한다. 추가 최적화 사이클을 위해 추가 미소부수체 세트를 사용하여 최적화가 반복될 수 있다. 일부 경우에, 미소부수체 세트를 무작위로 분할하고 재결합하여 추가의 최적화 사이클을 위한 미소부수체의 새로운 초기 세트(106)를 생성한다. 최적화가 완료되면, 컴퓨터 구현 방법은 분류자를 생성하는 데 가장 유익한 정보제공성 미소부수체의 세트(107)를 식별한다. 병태의 존재 또는 부재가 알려진 대상체의 추가 샘플(예를 들어, 데이터베이스로부터)을 분석하여 추가의 검증 또는 최적화 단계(108)를 수행할 수 있다. (108) 후에, 컴퓨터 구현 방법을 사용하여 최종 분류자를 생성할 수 있다(109).
일 측면에서, 본 개시내용은 병태에 대한 마커(분류자)로서 미소부수체 세트를 식별하기 위한 개선된 컴퓨터 구현 방법을 제공한다. 상기 방법은 병태를 갖는 대상체로부터의 제1 샘플 세트로부터의 미소부수체 좌위와 병태를 갖지 않는 대상체로부터의 제2 샘플 세트로부터의 미소부수체 좌위를 비교하고, 이에 의해 미소부수체 좌위(정보제공성 좌위)의 초기 집단을 식별하는 단계를 추가로 포함할 수 있다.
일부 경우에, 정보제공성 좌위는 분류자로서 직접 사용될 수 있다. 일부 경우에, 정보제공성 좌위를 포함하는 분류자는 대상체에서 병태의 존재 또는 부재를 나타내는 지표일 수 있다. 일부 경우에, 정보제공성 좌위를 포함하는 분류자는 대상체에서 병태가 발생할 가능성의 증가 또는 감소를 나타낼 수 있다. 일부 경우에, 정보제공성 좌위를 포함하는 분류자는 대상체가 치료로부터 혜택을 받을 가능성의 증가 또는 감소, 또는 치료의 결과로서 대상체에서 이상반응의 위험이 증가할 가능성의 증가 또는 감소를 나타낼 수 있다. 일부 경우에, 정보제공성 좌위를 포함하는 분류자는 대상체의 병태를 위한 치료에 대한 반응성을 나타낼 수 있다. 일부 사례에*, 정보제공성 좌위의 분류자는 대상체에서 병태의 예후를 나타낼 수 있다.
일부 측면에서, 미소부수체 좌위(정보제공성 좌위)의 초기 집단은 컴퓨터 구현 방법에 의해 수행되는 유전자 알고리즘에서 사용하기 위한 것이다. 상기 방법은 병태를 갖는 대상체로부터의 샘플 중의 미소부수체 서브세트와 병태를 갖지 않는 대상체로부터의 샘플의 미소부수체 서브세트를 비교함으로써 초기 미소부수체 집단의 서브세트들을 반복적으로 순위화하는 단계를 포함할 수 있다. 상기 방법은 서브세트들 중 초기 서브세트가 미소부수체 좌위의 초기 집단으로부터 무작위로 선택되는 초기화를 포함할 수 있다. 일부 사례에서, 미소부수체 좌위의 초기 집단의 약 100개 서브세트가 유전자 알고리즘(최적화 사이클) 전반에 걸쳐 사용되며, 여기서 서브세트들 중 한 서브세트 내의 미소부수체의 최소 수는 8개이고 서브세트들 중 한 세브세트 내의 미소부수체의 최대 수는 64개이다. 일부 사례에서, 반복적 순위화는 복수의 최적화 사이클을 포함하며, 여기서 복수의 최적화 사이클은 이전 최적화 사이클로부터의 서브세트에 초기 미소부수체 집단의 10개의 새로운 서브세트를 추가하는 것을 포함한다. 10개의 새로운 서브세트 중 7개는 이전 최적화 사이클로부터 무작위로 선택된 2개의 서브세트를 무작위로 분할 및 재결합함으로써 생성될 수 있으며 10개의 새로운 서브세트 중 3개는 초기 미소부수체 집단으로부터 미소부수체를 무작위로 선택함으로써 생성된다. 일부 경우에 구현 방법은 최적화 사이클에서 서브세트를 순위화하는 단계를 포함하며, 여기서 최적화 사이클에서 최저 순위를 갖는 서브세트 중 10개는 폐기되고, 따라서 최적화 사이클 전반에 걸쳐 미소부수체 집단의 100개의 서브세트가 유지된다. 유전자 알고리즘은 가장 유익한 정보제공성 미소부수체 좌위를 식별하기 위해 미소부수체들의 모든 조합의 반복적 순위화를 수행하는 것을 포함할 수 있다. 유전자 알고리즘은 덜 정보제공성인 미소부수체 좌위를 제거하고 보다 유익한 정보제공성 미소부수체 좌위를 선택하거나 가중치를 줌으로써 민감도 및 특이도를 향상시킬 수 있다. 일부 경우에, 사이클에 의해 최적화된 미소부수체 좌위에 의해 식별된 병태는 대상체에서의 건강 상태의 존재 또는 부재, 대상체에서 건강 상태가 발생할 가능성의 증가 또는 감소, 대상체가 건강 상태의 치료로부터 혜택을 받을 가능성의 증가 또는 감소, 건강 상태의 치료의 결과로서 대상체에서 이상반응의 위험이 증가할 가능성의 증가 또는 감소, 건강 상태의 치료에 대한 대상체의 반응성, 대상체의 건강상태의 예후 또는 이들의 조합을 나타낼 수 있다.
또 다른 측면에서, 본 개시내용은 복수의 파라미터를 사용하여 대상체로부터의 샘플로부터 병태에 대한 분류자의 값을 결정하는 단계를 포함하는 컴퓨터 구현 방법으로서, 상기 복수의 파라미터 중 각각의 파라미터는 병태를 갖는 대상체의 샘플 및/또는 병태를 갖지 않는 대상체의 샘플로부터의 복수의 미소부수체 각각의 상관관계의 통계적 척도인 구현 방법을 제공한다. 일부 경우에, 복수의 파라미터는 표준 회귀 분석 및 유전자 알고리즘의 사용에 의해 결정된 것과 같은 최적의 가중치를 포함한다. 일부 경우에, 분류자는 소수 대립유전자 빈도 데이터를 사용하여 결정된다. 일부 경우에, 병태는 대상체에서의 건강 상태의 존재 또는 부재, 대상체에서 건강 상태가 발생할 가능성의 증가 또는 감소, 대상체가 건강 상태의 치료로부터 혜택을 받을 가능성의 증가 또는 감소, 건강 상태의 치료의 결과로서 대상체에서 이상반응의 위험이 증가할 가능성의 증가 또는 감소, 건강 상태의 치료에 대한 대상체의 반응성, 대상체의 건강 상태의 예후 또는 이들의 조합을 나타낼 수 있다. 일부 경우에, 건강 상태는 암, 신경계 질환 또는 심혈관 질환이다.
또 다른 측면에서, 본 개시내용은 대상체로부터의 제1 샘플에서 미소부수체 소수 대립유전자 특성을 결정하고 소수 대립유전자 특성을 참조와 비교하고 비교에 기초하여 대상체의 게놈 연령을 결정하기 위한 컴퓨터 시스템의 사용 방법을 제공한다. 소수 대립유전자 특성은 좌위에 있는 소수 대립유전자의 수일 수 있으며, 여기서 대립유전자의 수는 적어도 1개, 적어도 2개, 적어도 3개 또는 3개 초과의 차세대 시퀀싱 서열 리드에 의해 지원될 수 있다. 일부 경우에, 소수 대립유전자 특성은 좌위에 있는 1차 대립유전자의 총 리드 수에 대해 정규화된 소수 대립유전자의 총 리드 수이다. 대상체의 제1 샘플로부터의 소수 대립유전자 특성을 동일한 대상체의 제2 샘플 중의 제2 소수 대립유전자 특성과 비교하여 게놈 노화 속도를 결정할 수 있다.
본 개시내용은 미소부수체 좌위 및 임의로 소수 대립유전자 정보를 사용하여 생성된 분류자에 기초한 범-병태 분석을 제공한다. 일부 경우에, 범-병태 분석은 범-암 분석이다.
용어 "약" 또는 "대략"은 당업계의 숙련자에 의해 결정된 특정 값에 대해 허용 가능한 오차 범위 내를 의미할 수 있으며, 이는 값이 측정되거나 결정되는 방식, 예를 들어 측정 시스템의 한계에 부분적으로 의존할 것이다. 예를 들어, "약"은 소정의 값의 관행에 따라 1 이내 또는 1 초과의 표준 편차를 의미할 수 있다. 약은 값의 +/-10%, +/-5%, +/-2% 또는 +/-1%를 의미할 수 있다. 본 명세서 및 청구범위에서 사용되는 바와 같이, 단수형("a", "an", 및 "the")은 문맥상 명백하게 달리 지시하지 않는 한 복수의 지시대상을 포함한다. 예를 들어, 용어 "핵산"은 그 혼합물을 포함하는 복수의 핵산을 포함한다.
Ⅱ. 병태의 미소부수체 분류자를 결정하는 방법
본 개시내용은 병태에 대한 미소부수체 분류자를 식별하기 위한 방법, 예를 들어 컴퓨터 구현 방법(예를 들어, 도 2 참조) 및 시스템을 제공한다. 병태는 대상체에서의 건강 상태의 존재 또는 부재, 대상체에서 건강 상태가 발생할 가능성의 증가 또는 감소, 대상체가 건강 상태의 치료로부터 혜택을 받을 가능성의 증가 또는 감소, 건강 상태의 치료의 결과로서 대상체에서 이상반응의 위험이 증가할 가능성의 증가 또는 감소, 건강 상태의 치료에 대한 대상체의 반응성, 대상체의 건강 상태의 예후 또는 이들의 조합일 수 있다. 방법은 병태를 갖거나 갖지 않는 대상체로부터의 샘플에서 미소부수체 좌위를 식별(유전자형 검사)하는 단계를 포함할 수 있다. 방법은 병태에 대한 통계적으로 정보제공성인 미소부수체 좌위를 식별하는 단계를 포함할 수 있다. 방법은 병태에 대한 분류 시그니처를 개발하기 위해 통계적으로 정보제공성인 미소부수체 좌위를 사용하는 단계를 포함할 수 있다. 분류 시그니처를 검증하고 사용하여 대상체로부터의 샘플을 시험할 수 있다.
A. 미소부수체 좌위의 유전자형 검사
미소부수체 분류자를 식별하는 방법은 병태를 갖는 대상체로부터의 샘플 및 병태를 갖지 않는 대상체로부터의 샘플에서 미소부수체 좌위를 유전자형 검사하는 단계를 포함할 수 있다. 일부 경우에, 유전자형 검사는 데이터베이스에서 서열 정보를 분석하는 것을 포함한다. 일부 경우에, 유전자형 검사는 샘플을 수득하고 샘플 중의 핵산 분자를 예를 들어 차세대 시퀀싱에 의해 분석하는 것을 포함한다.
1. 서열 정보의 데이터베이스
일부 경우에, 미소부수체 좌위를 식별(예를 들어, 유전자형 검사)하는 방법은 하나 이상의 데이터베이스로부터 서열 정보를 분석하는 것을 포함할 수 있다. 하나 이상의 데이터베이스는 병태를 갖는 대상체, 예를 들어 암을 갖는 대상체 또는 암 세포주로부터의 핵산 샘플의 서열 정보(예를 들어, 서열 리드)를 포함할 수 있다. 하나 이상의 데이터베이스는 참조 서열(예를 들어, 인간 게놈 또는 이의 일부분)을 포함할 수 있다. 하나 이상의 데이터베이스는 대상체 집단 또는 집단들의 변이 또는 다형(polymorphism)의 서열을 포함할 수 있다.
하나 이상의 데이터베이스는 고처리량 또는 차세대 시퀀싱에 의해 생성된 서열 정보를 포함할 수 있다. 하나 이상의 데이터베이스는 대상체로부터의 샘플의 전체 엑솜 시퀀싱(WES), 전체 게놈 시퀀싱(WGS) 또는 이들의 조합에 의해 생성된 서열 데이터(예를 들어, 서열 리드 데이터)를 포함할 수 있다. 소정 사례에서, 하나 이상의 데이터베이스는 표적화 시퀀싱으로부터 생성된 서열 정보(예를 들어, 서열 리드 정보)를 포함한다. 표적화 시퀀싱은 대상체로부터의 샘플의 표적 서열의 강화(enrichment)를 포함할 수 있다.
데이터베이스는 더 캔서 게놈 아틀라스(The Cancer Genome Atlas: TCGA)로부터의 서열 정보, 예를 들어 엑솜 데이터, 예를 들어 폐암 엑솜 데이터를 포함할 수 있다. 데이터베이스는 1000 게놈 프로젝트(1000 Genomes Project)로부터의 것일 수 있다.
2. 샘플
샘플은 하나 이상의 대상체로부터 수득되거나 유래된 생물학적 샘플일 수 있다. 샘플은 다른 샘플, 예를 들어 다른 생물학적 샘플을 생성하기 위해 가공처리되거나 분별될 수 있다. 본 개시내용에 설명된 샘플은 핵산 분자를 수득할 수 있는 임의의 물질을 포함할 수 있다.
샘플은 병태를 갖는 대상체로부터 수득될 수 있다. 샘플은 병태의 증상을 갖는 대상체로부터 수득될 수 있다. 샘플은 병태를 갖는 대상체로부터 수득될 수 있지만, 대상체는 병태의 증상을 갖지 않는다. 샘플은 병태를 갖지 않는 대상체로부터 수득될 수 있다. 샘플은 암을 갖는 대상체, 암을 갖는 것으로 의심되는 대상체, 또는 암을 갖지 않거나 암을 갖는 것으로 의심되지 않는 대상체로부터 수득될 수 있다.
샘플은 인간 대상체로부터 수득되거나 유래될 수 있다. 샘플은 가공처리 전에 다양한 저장 조건, 예컨대 상이한 온도(예를 들어, 실온에서, 냉장 또는 동결기 조건 하에, 25℃, 4℃, -18℃, -20℃ 또는 -80℃에서) 또는 상이한 현탁액(예를 들어, EDTA 수집 튜브 또는 세포 유리형(cell-free) DNA 또는 RNA 수집 튜브)에서 저장될 수 있다.
샘플은 암을 갖는 대상체를 치료하기 전 및/또는 후에 채취될 수 있다. 샘플은 치료 또는 치료 요법(treatment regime) 동안 대상체로부터 수득될 수 있다. 시간 경과에 따른 치료의 효과를 모니터링하기 위해 대상체로부터 다수의 샘플이 수득될 수 있다. 샘플은 임상 시험을 통해 확정적인 양성 또는 음성 진단이 불가능한 암을 갖는 것으로 알려졌거나 의심되는 대상체로부터 채취될 수 있다. 샘플은 암을 갖는 것으로 의심되는 대상체로부터 채취될 수 있다. 샘플은 피로, 오심, 체중 감소, 아픔 및 통증, 쇠약 또는 출혈과 같은 설명되지 않은 증상을 경험하는 대상체로부터 채취될 수 있다. 샘플은 설명되는 증상을 갖는 대상체로부터 채취될 수 있다. 샘플은 가족력, 연령, 고혈압 또는 전고혈압, 당뇨병 또는 전당뇨병, 과체중 또는 비만, 환경 노출, 생활습관 위험 요소(예를 들어, 흡연 , 알코올 소비 또는 약물 사용) 또는 기타 위험 요소의 존재로 인해 암이 발생할 위험이 있는 대상체로부터 채취될 수 있다.
샘플은 대상체로부터의 생물학적 샘플일 수 있다. 샘플은 전혈, 말초혈, 혈장, 혈청, 타액, 점액, 소변, 정액, 림프액, 양수, 대변 추출물, 구강 면봉, 세포 또는 기타 체액, 또는 외과적 생검 또는 외과적 절제를 통해 수득된 조직을 포함하는 조직일 수 있다. 일부 경우에, 샘플은 1차 대상체(예를 들어, 환자) 유래의 세포주 또는 보관소에 등록된 대상체(예를 들어, 환자) 샘플, 예를 들어 보존된 샘플, 예를 들어, 포르말린 고정된 파라핀 포매된(FFPE) 샘플 또는 새로 동결된 샘플일 수 있다. 샘플, 예를 들어 생물학적 샘플은 에틸렌디아민테트라아세트산(EDTA) 수집 튜브, DNA 또는 RNA 수집 튜브, 또는 세포 유리형 DNA 또는 세포 유리형 RNA 수집 튜브를 사용하여 대상체로부터 수득되거나 유래될 수 있다. 샘플, 예를 들어 생물학적 샘플은 분별에 의해 전혈 샘플로부터 유래될 수 있다. 샘플, 예를 들어 생물학적 샘플 또는 이의 유도체는 세포를 포함할 수 있다. 샘플, 예를 들어 생물학적 샘플은 혈액 샘플 또는 이의 유도체(예를 들어, 수집 튜브 또는 혈액 방울로부터 수집된 혈액)일 수 있다.
샘플은 분석될 수 있는 하나 이상의 분석물을 함유할 수 있다. 샘플은 하나 이상의 핵산 분자를 포함할 수 있다. 하나 이상의 핵산 분자(또는 프라이머 및 프로브를 포함하는 본원에 개시된 임의의 핵산 분자)는 임의의 길이의 중합체 형태 뉴클레오티드, 예를 들어 데옥시리보뉴클레오티드(dNTP) 또는 리보뉴클레오티드(rNTP) 또는 이들의 유사체일 수 있다. 유사체는 비-천연 발생 염기, 천연 발생 포스포디에스테르 결합 이외의 다른 뉴클레오티드와의 연결에 관여하거나 포스포디에스테르 결합 이외의 연결을 통해 부착된 염기를 포함하는 뉴클레오티드를 포함할 수 있다. 뉴클레오티드 유사체는 예를 들어 포스포로티오에이트, 포스포로디티오에이트, 포스포로트리에스테르, 포스포라미데이트, 보라노포스페이트, 메틸포스포네이트, 키랄-메틸 포스포네이트, 2-O-메틸 리보뉴클레오티드, 펩티드-핵산(PNA) 등을 포함한다. 핵산 분자는 데옥시리보핵산(DNA)일 수 있다. DNA는 게놈 DNA, 바이러스 DNA, 미토콘드리아 DNA, 플라스미드 DNA, 증폭된 DNA, 원형 DNA, 순환 DNA, 세포 유리형 DNA 또는 엑소좀 DNA일 수 있다. 일부 사례에서, DNA는 단일 가닥 DNA(ssDNA), 이중 가닥 DNA, 변성된 이중 가닥 DNA, 합성 DNA 및 이들의 조합이다. 원형 DNA는 절단되거나 단편화될 수 있다. DNA는 관심대상의 유전자 또는 유전자 단편의 코딩 또는 비-코딩 영역, 연결 분석으로부터 정의된 좌위들(좌위), 엑손 또는 인트론을 포함할 수 있다. DNA는 상보적 DNA(cDNA)일 수 있다. 핵산 분자는 재조합 핵산, 분지형 핵산, 플라스미드, 벡터 또는 단리된 DNA일 수 있다. 핵산 분자는 하나 이상의 변형된 뉴클레오티드, 예를 들어 메틸화된 뉴클레오티드 또는 뉴클레오티드 유사체를 포함할 수 있다. 뉴클레오티드 구조의 변형은 핵산 분자의 조립 전 또는 후에 이루어질 수 있다. 핵산 분자의 뉴클레오티드 서열은 비-뉴클레오티드 성분에 의해 중단될 수 있다. 핵산 분자는 중합 후에, 예컨대 리포터 제제와의 접합 또는 결합에 의해 추가로 변형될 수 있다.
핵산 분자는 게놈 또는 염색체에서의 이의 위치에 의해 식별될 수 있는 좌위, 유전자좌 또는 게놈 영역을 포함할 수 있다. 일부 예에서, 좌위는 유전자 명칭으로 언급될 수 있고 핵산의 물리적 영역과 연관된 코딩 및 비-코딩 영역을 포함할 수 있다. 유전자는 코딩 영역(엑손), 비-코딩 영역(인트론), 전사 제어 또는 기타 조절 영역, 및 프로모터를 포함할 수 있다. 다른 예에서, 게놈 영역은 명명된 유전자 내에 인트론 또는 엑손 또는 인트론/엑손 경계를 포함할 수 있다.
일부 경우에, 핵산 분자는 리보핵산(RNA)을 포함한다. RNA는 단편화된 RNA일 수 있다. RNA는 분해된 RNA일 수 있다. RNA는 마이크로RNA 또는 이의 일부분일 수 있다. RNA는 마이크로RNA(miRNA), 프리(pre)-miRNA, 프리(pri)-miRNA, 메신저 RNA(mRNA), 프리(pre)-mRNA, 짧은 간섭 RNA(siRNA), 짧은-헤어핀 RNA(shRNA), 바이러스 RNA, 비로이드 RNA, 바이러소이드 RNA, 원형 RNA(circRNA), 리보솜 RNA(rRNA), 전달 RNA(tRNA), 프리-tRNA, 긴 비-코딩 RNA(lncRNA), 소형 핵 RNA(snRNA), 순환 RNA, 세포 유리형 RNA, 엑소좀 RNA, 벡터 발현된 RNA, RNA 전사체, 합성 RNA, 리보자임, 세포 유리형 RNA 및 이들의 조합으로부터 선택된 RNA 분자 또는 단편화된 RNA 분자(RNA 단편)일 수 있다.
일부 경우에, 샘플은 세포 유리형 핵산 분자를 포함한다. 세포 유리형 핵산 분자는 예를 들어 대상체의 체액으로부터 공급된 모든 비캡슐화 핵산 분자를 포함할 수 있다. 세포 유리형 핵산(cfNA) 분자는 세포에 함유되지 않은 생물학적 샘플 중의 핵산(예를 들어, 세포 유리형 RNA(cfRNA) 분자 또는 세포 유리형 DNA(cfDNA) 분자)일 수 있다. cfDNA 분자는 혈류와 같은 체액에서 자유롭게 순환할 수 있다. 세포 유리형 DNA 분자는 순환하는 종양 DNA, 예를 들어 종양으로부터 기인하는 cfDNA일 수 있다.
샘플은 무세포 샘플일 수 있다. 무세포 샘플은 온전한 세포가 실질적으로 없는 생물학적 샘플일 수 있다. 무세포 샘플은 그 자체에 세포가 실질적으로 없는 생물학적 샘플일 수 있거나 세포가 제거된 샘플로부터 유래될 수 있다. 무세포 샘플의 예로는 혈액, 예컨대 혈청 또는 혈장으로부터 유래된 샘플; 소변; 또는 기타 공급원, 예컨대 정액, 가래, 대변, 관 삼출물, 림프 또는 회수된 세척액으로부터 유래된 샘플이 포함된다.
샘플은 생식계열 핵산 분자(예를 들어, 질환이 없는 세포 또는 조직, 예를 들어 종양으로부터의 핵산)를 포함할 수 있다. 샘플은 종양으로부터의 핵산 분자를 포함할 수 있다. 일부 경우에, 샘플은 생식계열 핵산 분자(예를 들어, 질환이 없는 조직으로부터의) 및 질환이 걸린 조직(예를 들어, 종양)으로부터의 핵산 분자를 포함할 수 있다.
샘플은 표적 핵산 분자를 포함할 수 있다. 표적 핵산 분자는 그 존재, 양 및/또는 서열, 또는 이들 중 하나 이상의 변화가 결정되는 것이 요망되는 뉴클레오티드 서열을 갖는 핵산 분자일 수 있다.
핵산 분자(예를 들어, RNA 또는 DNA)는 예를 들어 Qiagen QIAmp DNA Blood Mini 키트, MP Biomedicals의 FastDNA 키트 프로토콜 또는 Norgen Biotek의 세포 유리형 생물학적 DNA 단리 키트 프로토콜을 사용하여 샘플로부터 추출될 수 있다. 추출 방법은 샘플로부터 모든 RNA 또는 DNA 분자를 추출할 수 있다. 추출 방법은 샘플로부터 RNA 또는 DNA 분자의 일부분을 선택적으로 추출할 수 있다. 샘플로부터 추출된 RNA 분자는 역전사(RT)에 의해 DNA 분자로 전환될 수 있다. 역전사는 역전사효소의 작용을 통해 리보핵산(RNA) 주형으로부터 데옥시리보핵산(DNA)을 생성하는 것일 수 있다.
추출된 핵산의 품질은 예를 들어 BIOANALYZER 또는 NANODROP 시스템을 사용하여 분석될 수 있다.
대상체는 사람 또는 개체일 수 있다. 대상체는 환자일 수 있다. 대상체는 암을 갖거나 암을 갖는 것으로 의심되는 사람일 수 있다. 대상체는 건강 또는 생리학적 상태 또는 병태를 시사하는 증상을 나타낼 수 있다. 대상체는 건강 또는 생리학적 상태 또는 병태와 관련하여 무증상일 수 있다. 본원에 설명된 바와 같은 대상체는 포유동물 부류의 임의의 구성원: 인간, 인간이 아닌 영장류, 예컨대 침팬지 및 기타 유인원 및 원숭이 종; 농장 동물, 예컨대 소, 말, 양, 염소, 돼지; 가축, 예컨대 토끼, 개 및 고양이; 설치류, 예를 들어 래트, 마우스 및 기니피그 등을 포함하는 실험 동물을 포함하는 포유동물을 포함할 수 있다. 일 측면에서, 포유동물은 인간이다.
대상체로부터 수득된 샘플의 가공처리는 샘플을 복수의 핵산 분자를 분리, 강화 또는 추출하기에 충분한 조건에 적용하고 복수의 핵산 분자를 분석하여 데이터세트를 생성하는 것을 포함할 수 있다.
대상체의 샘플은 하나 이상의 미소부수체의 유전자형을 검사하기 위해 분석될 수 있다. 본원에 설명된 바와 같은 미소부수체, 미소부수체 좌위 또는 미소부수체 영역은 뉴클레오티드 서열 내의 1 내지 6개의 뉴클레오티드의 연쇄 반복부를 지칭할 수 있다. 일부 경우에, 미소부수체는 6개 초과의 뉴클레오티드의 연쇄 반복부를 포함한다. 하나 이상의 미소부수체는 엑손의 상류, 엑손의 하류, 엑손, 유전자간 서열 내, 인트론 내, 엑손과 인트론에 걸쳐 있는 영역 내, 3' 비번역 영역(UTR) 내 또는 5' UTR 또는 게놈의 임의의 다른 영역 내에서 발견될 수 있다. 일부 사례에*, 샘플의 미소부수체 패턴은 참조의 미소부수체 패턴과 상이하다. 미소부수체 패턴의 차이는 단일 뉴클레오티드 다형(SNP), SNP의 백분율, 인델(indel)(삽입, 결실, 삽입과 결실의 비 및 이들의 조합), 또는 인델 대 SNP의 비를 포함할 수 있다. 일부 사례에서, 미소부수체에서 차이의 패턴은 일배체형 검사, 예를 들어 소정의 좌위에서의 동형접합, 이형접합 또는 소수 대립유전자의 백분율을 포함한다. 미소부수체에서 차이의 패턴이 엑손 영역에 위치하는 경우, 차이는 비동의(non-synonymous) SNP, 동의(synonymous) SNP, 프레임시프트 인델, 비-프레임시프트 인델, 스탑게인(stopgain) 및 스탑로스(stoploss)를 포함할 수 있다. 샘플은 예를 들어 연령, 성별 또는 인종(예를 들어, 백인, 아프리카계 미국인, 히스패닉계 미국인)에 대해 매치될 수 있다. 일부 경우에, 샘플은 매치되지 않는다. 일부 경우에, 샘플에는 예를 들어 건강 상태, 암, 심장 또는 신경학적 상태, 요법 상태 또는 반응, 질환 병기를 포함하는 추가의 임상 메타데이터가 동반될 수 있다. 임상 메타데이터는 미소부수체가 임상 메타데이터와 관련하여 정보제공성인지 여부를 결정하기 위해 미소부수체와 상관될 수 있다.
하나 이상의 미소부수체의 정체(예를 들어, 유전자형)는 차세대 시퀀싱, 고처리량 시퀀싱, 합성에 의한 시퀀싱, 파이로시퀀싱, 고전적인 생거(Sanger) 시퀀싱 방법, 라이게이션에 의한 시퀀싱, 합성에 의한 시퀀싱, 혼성화에 의한 시퀀싱, RNA-Seq(Illumina), ILLUMINA 시퀀싱(가역적으로 종결되는 뉴클레오티드 사용), 페어드 엔드(paired-end) 시퀀싱, 디지털 유전자 발현(Helicos), 단일 분자 시퀀싱, 예를 들어 합성에 의한 단일 분자 시퀀싱(SMSS)(Helicos), Ion Torrent(반도체) 시퀀싱(Life Technologies/Thermo-Fisher), 대규모 병렬 시퀀싱, 클론 단일 분자 어레이(Solexa), 나노포어 시퀀싱, Pacific Biosciences SMRT 시퀀싱, 샷건 시퀀싱, 맥심-길버트(Maxim-Gilbert) 시퀀싱, 프라이머 워킹(primer walking) 및 기타 임의의 시퀀싱 방법을 포함하는 임의의 이용 가능한 방법 또는 기술을 통해 수득될 수 있다.
차세대 시퀀싱은 샘플 다중화(multiplexing)를 포함할 수 있다. 샘플 다중화는 적어도 또는 최대 또는 약 12개 샘플, 24개 샘플, 48개 샘플, 96개 샘플, 192개 샘플, 384개 샘플, 768개 샘플 또는 1536개 샘플일 수 있다. 시퀀싱 깊이(sequencing depth)는 약 1x 내지 약 10x, 약 10x 내지 약 100x, 약 100x 내지 약 500x, 또는 약 500x 내지 약 1000x일 수 있다.
시퀀싱 깊이는 적어도, 최대 또는 약 1x, 5x, 10x, 50x, 100x, 200x, 250x, 300x, 400x, 또는 500x일 수 있다. 염기 호출 컨센서스 정확도(base calling consensus accuracy)는 적어도 95%, 96%, 97%, 98%, 99% 또는 약 99% 초과일 수 있다. 품질 점수는 적어도 Q10(예를 들어, 1:10 오류율 미만, 90% 초과의 추론된 염기 호출 정확도), Q20 초과(예를 들어, 1:100 미만의 오류율, 99% 초과의 추론된 염기 호출 정확도), Q30 초과(예를 들어, 1:1000 오류율 미만, 99.9% 초과의 추론된 염기 호출 정확도), Q40 초과(예를 들어, 1:10,000 오류율 미만, 99.99% 초과의 추론된 염기 호출 정확도), 또는 Q50 초과(예를 들어, 1:100,000 오류율 미만, 99.999% 초과의 추론된 염기 호출 정확도)일 수 있다. 조립 방법은 차세대 시퀀싱 데이터 세트에서 미소부수체 유전자형을 호출하기 위해 적어도 95%, 96%, 97%, 98% 또는 99% 정확도를 산출할 수 있다.
핵산 분자의 시퀀싱 후, 적절한 생물정보학 프로세스가 서열 리드에서 수행될 수 있다. 예를 들어, 서열 리드는 하나 이상의 참조 게놈(예를 들어, 인간 게놈과 같은 하나 이상의 종의 게놈)에 대해 정렬될 수 있다. 정렬된 서열 리드는 하나 이상의 좌위(예를 들어, 하나 이상의 미소부수체 좌위)에서 정량화될 수 있다.
일부 측면에서, 하나 이상의 미소부수체의 식별(예를 들어, 유전자형 검사)은 예를 들어 프라이머, 예를 들어 하나 이상의 미소부수체 좌위의 측면에 위치한 특이적 프라이머를 사용하는 폴리머라제 연쇄 반응(PCR)을 수행함으로써 하나 이상의 미소부수체 좌위의 뉴클레오티드 서열을 증폭시키고, 예를 들어 증폭된 단편을 예를 들어 모세관 전기영동 또는 시퀀싱에 의해 평가하는 것을 포함한다. PCR은 정량적 PCR(qPCR), 디지털 PCR 또는 역전사효소 PCR일 수 있다. 증폭시키는 것 또는 증폭은 핵산 분자의 크기 또는 양을 증가시킬 수 있다. 증폭되는 핵산 분자는 단일 가닥 또는 이중 가닥일 수 있다. 증폭은 핵산 분자의 하나 이상의 카피 또는 증폭된 산물을 생성하는 것을 포함할 수 있다. 증폭은 예를 들어 연장(예를 들어, 프라이머 연장) 또는 라이게이션에 의해 수행될 수 있다. 증폭은 프라이머 연장 반응을 수행하여 단일 가닥 핵산 분자에 상보적인 가닥을 생성하고, 일부 경우에 가닥 및/또는 단일 가닥 핵산 분자의 하나 이상의 카피를 생성하는 것을 포함할 수 있다.
핵산 분자, 예를 들어, 하나 이상의 미소부수체 좌위를 포함하는 핵산 분자의 증폭은 임의의 핵산 증폭 방법, 예를 들어 루프 매개 등온 증폭(LAMP), 핵산 서열 기반 증폭(NASBA), 자가-지속 서열 복제(3SR), 롤링 서클 증폭(RCA), 재조합효소 폴리머라제 증폭(RPA), 다중 치환 증폭(MDA), 헬리카제 의존성 증폭(HDA), 가닥 치환 증폭(SDA), 닉킹 효소 증폭 반응 (NEAR), 지수적 증폭 반응(exponential amplification reaction: EXPAR), 폴리머라제 나선 반응(PSR), 등온 다중 치환 증폭(IMDA), 세분화 증폭 방법(ramification amplification method: RAM), 단일 프라이머 등온 증폭(SPIA), RNA 기술의 신호 매개 증폭(SMART), 비콘 보조 검출 증폭(BADAMP), 핵산의 힌지-개시 프라이머 의존성 증폭(HIP), 스마트 증폭 프로세스(SmartAmp), 혼성화 연쇄 반응(HCR), 한가지 유형의 발판 매개 가닥 치환(toehold-mediated strand displacement: TMSD), 리가제 연쇄 반응, 디지털 PCR(dPCR), 액적 디지털 PCR(droplet digital PCR: ddPCR) 또는 전사 매개 증폭으로 수행될 수 있다. 증폭은 예를 들어 AMPLISEQ를 사용하는 다중화 증폭(multiplex amplification)을 포함할 수 있다. 일부 경우에, RNA는 증폭 전에 역전사에 의해 cDNA로 변환된다. 분석 판독값은 정량적 PCR(qPCR) 값, 디지털 PCR(dPCR) 값, 디지털 액적 PCR(ddPCR) 값, 형광 값 등 또는 이들의 정규화된 값을 포함할 수 있다. 본원에 제공된 방법에 사용될 수 있는 기타 분석은 면역분석, 전기화학적 분석, 표면-증강 라만 분광법(SERS), 양자점(QD) 기반 분석, 분자 역전 프로브, CRISPR/Cas 기반 검출(예를 들어, CRISPR-타이핑 PCR(ctPCR), 특이적 고감도 효소 리포터 추적 해제(specific high-sensitivity enzymatic reporter un-locking: SHERLOCK), DNA 엔도뉴클레아제 표적화 CRISPR 트랜스 리포터(DNA endonuclease targeted CRISPR trans reporter: DETECTR), CRISPR 매개 아날로그 다중-이벤트 기록 장치(CRISPR-mediated analog multi-event recording apparatus: CAMERA) 및 레이저 투과 분광법(LTS)을 포함한다.
다중화 증폭은 약 10개 내지 약 50개의 표적, 약 50개 내지 약 100개의 표적, 약 100개 내지 약 500개의 표적 또는 약 500개 내지 약 1000개의 표적을 증폭시키는 것을 포함할 수 있다. 어댑터, 예를 들어 범용 어댑터를 핵산 분자에 첨가(예를 들어, 라이게이션)하여, 예를 들어 ILLUMINA 시퀀싱 플랫폼에서의 증폭 및/또는 시퀀싱을 용이하게 할 수 있다. 범용 프라이머는 증폭을 위해 범용 어댑터에 결합할 수 있다.
다수의 샘플이 분석될 수 있고, 각각의 다중화된 샘플이 바코드화될 수 있다. 샘플로부터 단리되거나 추출된 RNA 또는 DNA 분자는, 예를 들어, 식별 가능한 태그가 태깅되어 복수의 샘플이 다중화되도록 할 수 있다. 임의의 수의 RNA 또는 DNA 샘플이 다중화될 수 있다. 예를 들어, 다중화된 반응은 적어도 약 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 또는 100개 초과의 초기 샘플로부터의 RNA 또는 DNA를 함유할 수 있다. 예를 들어, 복수의 샘플은 DNA 분자가 유래된 샘플(및 대상체)로 각각의 DNA 분자가 역추적될 수 있도록 샘플 바코드가 태깅될 수 있다. 이러한 태그는 라이게이션에 의해 또는 프라이머를 사용한 PCR 증폭에 의해 RNA 또는 DNA 분자에 부착될 수 있다.
일부 경우에, 미끼(bait) 세트(예를 들어, 혼성화 프로브, 예를 들어, SURESELECT 또는 SEQCAP)가 표적, 예를 들어 표적 핵산 분자를 획득하기 위해 사용된다. 표적은 RNA 및/또는 DNA를 포함할 수 있다. 혼성화 프로브는 길이가 적어도 15, 25, 50, 75, 100, 120, 또는 150개 염기일 수 있다. 혼성화 프로브는 길이가 15 내지 50개 염기, 50 내지 100개 염기 또는 100 내지 150개 염기일 수 있다. 프로브는 하나 이상의 좌위(예를 들어, 하나 이상의 미소부수체)의 핵산 서열(예를 들어, RNA 또는 DNA)과 서열 상보성을 갖는 핵산 분자(예를 들어, RNA 또는 DNA)일 수 있다. 하나 이상의 좌위(예를 들어, 하나 이상의 미소부수체)에 대해 선택적인 프로브를 사용하여 샘플을 분석하는 것은 어레이 하이브리드화(예를 들어, 마이크로어레이 기반), 폴리머라제 연쇄 반응(PCR) 또는 핵산 시퀀싱(예를 들어, RNA 시퀀싱 또는 DNA 시퀀싱)의 사용을 포함할 수 있다.
일부 측면에서, 핵산 분자의 분석은 차세대 시퀀싱을 수행하는 것을 포함한다. 일부 경우에, 미소부수체의 시퀀싱은, 예를 들어 증폭을 수행하지 않고, 직접 수행될 수 있다. 차세대 시퀀싱 방법은 전체 게놈, 전체 엑솜 및 부분 게놈 또는 엑솜을 포함할 수 있다. 차세대 시퀀싱 방법은 표적화된 서열, 강화된 서열 또는 이들의 조합에서 사용될 수 있다.
일부 경우에, 시퀀싱 및 다운스트림 분석 전에 강화 키트를 사용하여 강화를 수행한다. 일부 경우에, 강화 키트를 사용하여 강화를 수행하여 미소부수체 좌위를 강화시키고 이를 유전자 알고리즘의 검증을 받도록 한다. 강화 키트의 사용은 리드에서 호출 가능한 대립유전자 또는 유전자형의 수를 증가시킬 수 있고, 소정의 샘플에 대해 더 큰 비율의 정보제공성 좌위를 분석하는 능력을 증가시킬 수 있다. 강화 키트는 미소부수체의 표적 서열과 미소부수체의 한쪽 또는 양쪽의 측면에 위치한 서열에 혼성화하는 강화 어레이 또는 프로브를 포함할 수 있다. 일부 경우에, 강화의 사용은 호출 가능한 유전자형의 수를, 강화 키트를 사용하지 않고 수득될 수 있는 호출 가능한 유전자형의 수와 비교하여 적어도 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100% 또는 그 이상 증가시킨다. 일부 사례에서, 강화 키트의 사용은 호출 가능한 유전자형의 수를 강화 키트를 사용하지 않고 수득될 수 있는 호출 가능한 유전자형의 수와 비교하여 적어도 2배, 3배, 4배, 5배, 6배, 7배, 8배, 9배, 10배 또는 그 이상만큼 증가시킨다. 일부 측면에서, 본원에 개시된 강화 키트는 본원에 설명된 방법을 수행하는 데 사용될 수 있는 조성물을 포함한다.
3. 유전자형 검사를 위한 알고리즘
미소부수체는 알고리즘을 사용하여 유전자형을 검사할 수 있다. 알고리즘은 예를 들어 경험적으로 도출된 오류 모델에 의해 안내된 베이지안(Bayesian) 모델 선택 또는 이산화된 가우스 혼합(Discretized Gaussian Mixture)(예를 들어, GenoTan)을 사용할 수 있다. 알고리즘은 예를 들어 Repeatseq일 수 있다. 동적 프로그래밍 기반 접근법 또는 발견적 방법을 사용하여 미소부수체의 유전자형을 검사할 수 있다. 미소부수체의 유전자형 검사를 위한 다른 도구는 PHOBOS, MISA, Tandem Repeats Finder, FullSSR 또는 bMSISEA를 포함한다.
B. 정보제공성 미소부수체의 식별
정보제공성 미소부수체의 식별은 병태를 갖는 대상체의 샘플로부터의 미소부수체 좌위의 제1 세트 및 병태를 갖지 않는 대상체의 샘플로부터의 미소부수체 좌위의 제2 세트를 식별하는 것을 포함할 수 있다. 일부 경우에, 미소부수체 좌위의 제2 세트는 참조 염기서열 데이터베이스로부터 수득될 수 있다.
1. 통계
미소부수체 좌위의 제1 세트와 제2 세트 사이의 차이는 t-검정, Z-검정, ANOVA, 회귀 분석, 만-위트니-윌콕슨(Mann-Whitney-Wilcoxon), 카이-제곱 검정, 상관관계, 피셔 정확 검정(Fisher's exact test), 본페로니 보정(Bonferroni correction) 및 벤자민 호치버그 검정(Benjamini-Hochberg test)과 같은 하나 이상의 통계적 검정을 사용하여 통계적으로 검출 및 비교될 수 있다. 일부 경우에, 통계적 차이는 일반화된 피셔 정확 검정을 사용하여 정량화된다. 일부 경우에, 벤자민 호치버그 다중 검정 보정이 위발견율(false discovery rate)을 제어하기 위해 적용된다.
2. 미소부수체 필터링
병태를 갖는 대상체로부터의 샘플 및 병태를 갖지 않는 대상체로부터의 샘플이 임의의 수의 요인, 예를 들어 연령, 인종, 성별, 시퀀싱 프로토콜(예를 들어, WSG, WES 또는 표적 시퀀싱)으로 인해 매치되지 않는다면, 미소부수체는 이러한 요인을 제어하기 위해 필터링될 수 있다. 잠재적 편향을 갖는 미소부수체는 후속 분석에서 배제될 수 있다. 미소부수체를 필터링하기 위한 추가 필터는 미소부수체 반복 모티프의 길이, 미소부수체의 총 길이(예를 들어, 모티프의 카피 수), 모티프의 서열(예를 들어, GC 함량이 높은 것들만 사용), 및 예를 들어 모티프의 완벽한 카피 세트를 방해할 수 있는 임의의 염기가 있는 경우에는 미소부수체의 순도를 포함할 수 있다. 일부 사례에서, 미소부수체는 게놈 내의 이의 위치, 예를 들어 엑솜, 인트론, 유전자간 영역 또는 비번역 영역에 의해 필터링될 수 있다. 필터링은 미소부수체에 근접한 유전자 또는 기능적 요소에 의한 필터링을 포함할 수 있다.
3. 샘플의 채점
통계적 검정은 수신기 작동 특성(ROC) 곡선을 산출할 수 있으며, 여기서 ROC 곡선하 면적은 곡선하 면적(AUC)으로 지칭된다. AUC는 미소부수체 좌위 세트의 비교 정확도를 평가하기 위해 결정될 수 있다. 더 큰 AUC는 미소부수체 좌위의 제1 세트와 제2 세트 사이의 차이와 병태의 연관성 또는 상관관계의 더 높은 정확도를 나타낼 수 있다. ROC 곡선은 미소부수체 좌위의 제1 세트와 제2 세트 사이의 차이와 병태의 연관성 또는 상관관계에 대한 민감도(예를 들어, 진양성) 및 특이도(예를 들어, 진음성)의 비율을 결정할 수 있다. 진양성율, 리콜(recall) 또는 검출 확률로도 지칭되는 민감도는 병태의 존재 또는 부재에 대해 올바르게 식별된 실제 양성의 비율을 측정할 수 있다. 민감도는 진양성의 수를 진양성의 수와 가음성의 수의 합으로 나눈 값을 계산하여 가음성의 회피를 정량화할 수 있다. 진음성율로도 지칭되는 특이도는 병태의 존재 또는 부재에 대해 올바르게 식별된 실제 음성의 비율을 측정할 수 있다. 특이도는 진음성의 수를 진음성의 수와 가양성의 수의 합으로 나눈 값을 계산하여 가양성의 회피를 정량화할 수 있다.
일부 사례에서, 미소부수체 좌위의 제2 세트와 상이한 미소부수체 좌위의 제1 세트와 병태의 통계적으로 유의한 연관성 또는 상관관계는 적어도 70%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99%의 통계적 정확도를 갖는다. 일부 경우에, 미소부수체 좌위의 제2 세트와 상이한 미소부수체 좌위의 제1 세트와 병태의 통계적으로 유의한 연관성 또는 상관관계는 적어도 0.70, 0.80, 0.85, 0.90, 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98 또는 0.99의 통계적 특이도 및 적어도 0.70, 0.80, 0.85, 0.90, 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98 또는 0.99의 통계적 민감도를 갖는다.
일부 사례에서, 정보제공성 미소부수체의 식별은 더 캔서 게놈 아틀라스(TCGA)으로부터 한 가지 유형의 암의 서열과 같은 병태를 갖는 대상체로부터 수득된 핵산 서열을 포함하는 데이터베이스로부터 미소부수체 좌위의 제1 세트를 식별하는 것을 포함하고, 참조 데이터베이스(예를 들어, hg19 또는 1000 게놈 프로젝트)로부터 미소부수체 좌위의 제2 세트를 식별하는 것을 포함한다. 유방암과 같은 암의 유형은 예를 들어 병기, 형태특징, 조직학, 유전자 발현, 수용체 프로파일, 돌연변이 프로파일, 공격성, 예후, 악성 특성 등에 기초한 하위유형일 수 있다. 유형 또는 암 및 하위유형 또는 암은 예를 들어 돌연변이 프로파일 또는 유전자 발현에 따라 정의된 암의 하나의 조직학적 유형 또는 암의 하위유형을 구별하기 위해, 더 미세한 수준에서 적용될 수 있다. 암 병기는 질환 진행과 관련된 조직학적 및 병리학적 특성에 기반한 암 유형의 분류를 지칭할 수 있다. 일부 사례에서, 미소부수체 좌위의 세트는 뉴클레오티드 변이체 또는 다형을 포함하는 핵산 서열을 포함하는 데이터베이스로부터 수득된다. 일부 경우에, 미소부수체 좌위의 제1 세트는 병태를 갖는 샘플로부터 수득되고 데이터베이스로부터 수득된 미소부수체 좌위의 제2 세트와 비교된다.
4. 병태
일부 경우에, 미소부수체 좌위 세트의 차이와 연관되거나 상관관계가 있는 병태는 대상체에서의 건강 상태의 존재 또는 부재, 대상체에서 건강 상태가 발생할 가능성의 증가 또는 감소, 대상체가 건강 상태의 치료로부터 혜택을 받을 가능성의 증가 또는 감소, 건강 상태의 치료의 결과로서 대상체에서 이상반응의 위험이 증가할 가능성의 증가 또는 감소, 건강 상태의 치료에 대한 대상체의 반응성, 대상체의 건강 상태의 예후 또는 이들의 조합을 나타낼 수 있다. 일부 경우에, 건강 상태는 암이다. 일부 경우에, 암은 고형 또는 혈액 악성 종양이다. 소정 경우에, 암은 전이성, 재발성 또는 불응성이다. 미소부수체 좌위 세트의 차이와 연관되거나 상관관계가 있을 수 있는 암은 급성 골수성 백혈병(LAML 또는 AML), 급성 림프모구 백혈병(ALL), 부신피질 암종(ACC), 방광 요로상피세포암(BLCA), 뇌간 신경교종, 뇌 저등급 신경교종(LGG), 뇌 종양, 유방암(BRCA), 기관지 종양, 버킷 림프종, 원발성 부위 불명의 암, 카르시노이드 종양, 원발성 부위 불명의 암종, 중추신경계 비정형 기형/횡문근 종양, 중추신경계 배아 종양, 자궁경부 편평세포 암종, 자궁경관내 선암종(endocervical adenocarcinoma: CESC) 암, 소아암, 담관암종(CHOL), 척색종, 만성 림프구성 백혈병, 만성 골수성 백혈병, 만성 골수증식성 장애, 결장(선암종) 암(COAD), 결장직장암 , 두개인두종, 피부 T-세포 림프종, 내분비 췌도세포 종양, 자궁내막암, 뇌실막모세포종, 뇌실막종, 식도암(ESCA), 감각신경모세포종, 유잉 육종, 두개외 생식세포 종양, 생식선외 생식세포 종양, 간외 담관암, 담낭암, 위암(gastric(stomach) cancer), 위장관 카르시노이드 종양, 위장관 기질 세포 종양, 위장관 기질 종양(GIST), 임신성 융모 종양, 다형성 교아세포종 신경교종(GBM), 털세포 백혈병, 두경부암(HNSD), 심장암, 호지킨 림프종, 하인두암, 안내 흑색종, 섬세포 종양, 카포시 육종, 신장암, 랑게르한스 세포 조직구증, 후두암, 구순암, 간암, 림프성 신생물 미만성 거대 B 세포 림프종(DLBCL), 악성 섬유 조직구종 골암, 수아세포종, 수질상피종, 흑색종, 메르켈 세포 암종, 메르켈 세포 피부 암종, 중피종(MESO), 잠재성 원발성을 동반한 전이성 편평 경부암, 입암, 다발성 내분비 신생물 증후군, 다발성 골수종, 다발성 골수종/형질 세포 종양, 균상 식육종, 골수형성이상 증후군, 골수증식성 종양, 비강암, 비인두암, 신경아세포종, 비호지킨 림프종, 비흑색종 피부암, 비소세포 폐암, 구강암, 구강의 암, 구인두암, 골육종, 기타 뇌 및 척수 종양, 난소암, 난소 상피암, 난소 생식 세포 종양, 난소 저악성 잠재성 종양, 췌장암, 유두종증, 부비강암, 부갑상선암, 골반암, 음경암, 인두암, 갈색세포종 및 부신경교종(PCPG), 중간 분화의 송과체 실질 종양, 송과체아세포종, 뇌하수체 종양, 형질 세포 종양/다발성 골수종, 흉막폐아세포종, 원발성 중추 신경계(CNS) 림프종, 원발성 간세포 간암, 전립선암, 예컨대 전립선 선암종(PRAD), 직장암, 신장암, 신세포(신장)암, 신세포암, 호흡기암, 망막아세포종, 횡문근육종, 침샘암, 육종(SARC), 시자리 증후군, 피부 피부성 흑색종(SKCM), 소세포 폐암, 소장암, 연조직 육종, 편평세포 암종, 편평 경부암, 위장(위)암, 천막위 원시 신경외배엽성 종양, T 세포 림프종, 고환암 고환 생식 세포 종양(TGCT), 인후암, 흉선 암종, 흉선종(THYM), 갑상선암(THCA), 이행 세포암, 신우 및 요관의 이행 세포암, 영양막 종양, 요관암, 요도암, 자궁암, 자궁암, 포도막 흑색종(UVM), 질암, 외음부암, 발텐스트롬 마크로글로불린혈증, 또는 빌름스 종양을 포함한다. 일부 측면에서, 암 유형은 급성 림프모구 백혈병, 급성 골수성 백혈병, 방광암, 유방암, 뇌암, 자궁경부암, 담관암종, 결장암, 결장직장암, 자궁내막암, 식도암, 위장암, 신경교종, 교아세포종, 두경부암, 신장암, 간암, 폐암, 림프양 신생물, 흑색종, 골수양 신생물, 난소암, 췌장암, 갈색세포종 및 부신경절종, 전립선암, 직장암, 편평 세포 암종, 고환암, 위암 또는 갑상선 암을 포함한다.
일부 경우에, 건강 상태는 폐암 또는 폐암의 하위유형이다. 미소부수체 좌위 세트들의 차이와 연관되거나 상관관계가 있을 수 있는 폐암은 비소세포 폐암(NSCLC)(예를 들어, 폐 선암종(LUAD), 폐 편평 세포 암종(LUSC) 및 대세포 암종), 소세포 폐암(SCLC) 및 폐 카르시노이드 종양을 포함한다.
일부 경우에, 건강 상태는 신경계 질환이다. 미소부수체 좌위 세트들의 차이와 연관되거나 상관관계가 있을 수 있는 신경계 질환의 예로는 근긴장성 이영양증, 취약 X 관련 진전/운동실조 증후군, 척수소뇌 운동실조증, 케네디병, 헌팅턴병, 척수구근 위축증, 1형 진행성 근간대성 간질(운베리히트-룬드보그병(Unverricht-Lundborg disease)), 취약 X 증후군, 취약 X E 증후군, 치상핵적핵-담창구시상하부 위축증, 프리드라이히 운동실조증, 안구인두근 위축증, 취약 X 관련 조기 난소 부전증, 헌팅턴병-유사 2(Huntington's Disease-Like 2), C9ORF72 관련 전두측두 치매 및 근위축측삭 경화증이 포함된다. 건강 상태는 자폐증일 수 있다.
일부 경우에, 건강 상태는 위장관의 위장 장애를 포함할 수 있는 염증성 장 질환(IBD)이다. IBD의 비제한적인 예로는 크론병(CD), 궤양성 대장염(UC), 불확정 대장염(IC), 현미경적 대장염, 전환 대장염, 베체트병 및 기타 결정적이지 않은 형태의 IBD가 포함된다. 일부 사례에서, IBD는 섬유증, 섬유협착증, 협착성 및/또는 침투성 질환, 폐쇄성 질환, 또는 불응성인 질환(예를 들어, mrUC, 불응성 CD), 항문주위 CD, 또는 기타 복잡한 형태의 IBD를 포함한다.
일부 사례에서, 건강 상태는 관상동맥 심장 질환(CAD), 류마티스성 심장 질환, 선천성 심장 질환, 심근병증, 심장 종양, 혈관 종양, 심장 판막 질환, 심장 내막의 장애, 뇌졸중, 대동맥류, 말초 동맥 질환, 심부 정맥 혈전증(DVT) 또는 폐 색전증을 포함할 수 있는 심혈관 질환이다.
일부 경우에, 건강 상태는 산-염기 불균형, 대사성 뇌 질환, 칼슘 대사의 장애, DNA 수복-결핍 장애, 글루코스 대사 장애, 고락테이트혈증, 철 대사 장애, 지질 대사 장애, 흡수 장애 증후군, 대사 증후군 X, 선천성 대사 이상, 미토콘드리아 질환, 인 대사 장애, 포르피린증, 단백질항상성 결핍증, 대사성 피부 질환, 소모성 증후군 또는 수분-전해질 불균형이다.
일부 경우에, 건강 상태는 이완불능증, 에디슨병, 성인형 스틸병, 무감마글로불린혈증, 원형탈모증, 아밀로이드증, 강직성 척추염, 항-GBM/항-TBM 신장염, 항인지질 증후군, 자가면역 혈관부종, 자가면역 자율신경기능이상, 자가면역 뇌척수염, 자가면역 간염, 자가면역 내이 질환(AIED), 자가면역 심근염, 자가면역 난소염, 자가면역 고환염, 자가면역 췌장염, 자가면역 망막병증, 자가면역 두드러기, 축삭 및 뉴런 신경병증(AMAN), 발로병, 베체트병, 양성 점막 유사천포창, 물집유사천포창, 캐슬맨병(CD), 복강 질환, 샤가스병, 만성 염증성 탈수초 다발신경병증(CIDP), 만성 재발성 다발성 골수염(CRMO), 척-스트라우스 증후군(CSS) 또는 호산구 육아종증(EGPA), 흉터 유사천포창, 코간 증후군, 저온 응집병, 선천성 심장 차단, 콕사키 심근염, 크레스트 증후군, 크론병, 헤르페스형 피부염, 피부근육염, 데빅병(시신경 척수염), 원반모양 루푸스, 드레슬러 증후군, 자궁내막증, 호산구성 식도염(EoE), 호산구성 근막염, 결절성 홍반, 원발성 혼합 한랭글로불린증, 에반스 증후군, 섬유근육통, 섬유화 폐포염, 거대 세포 동맥염(측두 동맥염), 거대 세포 심근염, 사구체신염, 굿파스처 증후군, 육아종증 다발혈관염, 그레이브스병, 길랑-바레 증후군, 하시모토 갑상선염, 용혈성 빈혈, 헤노흐-쇤라인 자색반(HSP), 임신 헤르페스 또는 임신 유사천포창(PG), 화농성 한선염(HS)(전위 여드름), 저감마글로불린혈증, IgA 신증, IgG4-관련 경화 질환, 면역성 저혈소판 자반(ITP), 봉입체 근염(IBM), 간질성 방광염(IC), 소아 관절염, 소아 당뇨병(1형 당뇨병), 소아 근염(JM), 가와사키병, 램버트-이튼 증후군, 백혈구파괴 혈관염, 편평 태선, 경화 태선, 목질 결막염, 선상 IgA 질환(LAD), 루푸스, 라임병, 메니에르병, 미세 다발혈관염(MPA), 혼합 결합 조직 질환(MCTD), 무렌 각막궤양, 무차-하버만병, 다초점성 운동 신경병증(MMN) 또는 MMNCB, 다발성 경화증, 중증 근무력증, 근염, 기면증, 신생아 루푸스, 시신경 척수염, 중성구감소증, 눈 흉터 유사천포창, 시신경염, 재발 류마티즘(PR), PANDAS, 부신생물 소뇌 퇴행증(PCD), 발작성 야간 헤모글로빈뇨증(PNH), 패리 롬버그 증후군, 평면부염(말초 포도막염), 파르소니지-터너 증후군, 천포창, 말초 신경병증, 정맥주변 뇌척수염, 악성 빈혈(PA), POEMS 증후군, 결절 다발동맥염, 다선 증후군 I형, 다선 증후군 II형, 다선 증후군 III형, 류마티스성 다발근육통, 다발근육염, 심근경색증후 증후군, 심낭막절개술후 증후군, 원발성 담즙성 간경변증, 원발성 경화 담관염, 프로게스테론 피부염, 건선, 건선성 관절염, 순수 적혈구 무형성(PRCA), 괴저화농피부증, 레이노 현상, 반응성 관절염, 반사성 교감신경 이영양증, 재발성 다발연골염, 하지 불안 증후군(RLS), 후복막 섬유증, 류마티스 열, 류마티스 관절염, 사르코이드증, 슈미트 증후군, 공막염, 피부경화증, 쇼그렌 증후군, 정자 및 고환 자가면역, 강직 사람 증후군(SPS), 아급성 세균성 심내막염(SBE), 수삭 증후군, 교감 눈염증(SO), 타카야수 동맥염, 측두 동맥염/거대 세포 동맥염, 혈소판감소 자색반(TTP), 톨로사-헌트 증후군(THS), 횡단 척수염, 제1형 당뇨병, 궤양성 대장염(UC), 미분화 연결 조직 질환(UCTD), 포도막염, 혈관염, 백반증 또는 보그트-고야나기-하라다병을 포함할 수 있는 자가면역 질환 또는 장애이다.
C. 분류 시그니처의 개발
본 개시내용은 대상체의 샘플로부터 병태에 대한 분류자를 생성하기 위한 컴퓨터 구현 방법을 제공한다(예를 들어, 도 2도 3 참조). 정보제공성 미소부수체 좌위 목록의 목록은 병태를 갖는 대상체의 제1 군으로부터 수득되거나 유래된 샘플 및/또는 병태(예를 들어, 폐암과 같은 암)를 갖지 않는 대상체의 제2 군으로부터 수득되거나 유래된 샘플을 통계적으로 분석하여 생성할 수 있다. 두 샘플 군 모두로부터의 DNA는 다중화 플랫폼에서 시퀀싱할 수 있다. 일부 경우에, 표적화 시퀀싱은 소정 표적에 대한 강화를 이용하여 수행한다. 그 다음, 시퀀싱 결과를 품질에 대해 분석하고 맵핑하여 암 샘플과 대조군 또는 참조 간의 차이를 밝힐 수 있다. 그 다음, 이러한 차이를 컴퓨터 구현 방법을 사용하여 분석하여 분류자를 생성할 수 있다. 분류자는 병태를 갖는 대상체로부터 수득되거나 유래된 추가 샘플 및/또는 병태를 갖지 않는 대상체로부터 수득되거나 유래된 샘플를 이용하여 추가로 최적화하고 검증할 수 있다. 일부 측면에서, 미소부수체 이외의 정보제공성 유전자 마커의 목록은 분류 시그니처를 개발하기 위한 이러한 방법에 의해 생성할 수 있다.
병태는 대상체에서의 건강 상태의 존재 또는 부재를 나타낼 수 있다. 일부 경우에, 병태는 대상체에서 건강 상태가 발생할 가능성의 증가 또는 감소를 나타낸다. 일부 사례에서, 병태는 대상체가 치료로부터 혜택을 받을 가능성의 증가 또는 감소 또는 치료의 결과로서 대상체에서 이상반응의 위험이 증가할 가능성의 증가 또는 감소를 나타낼 수 있다(병태에 대한 분류자는 치료제의 동반 진단 역할을 한다). 일부 경우에, 병태는 대상체의 건강 상태의 치료에 대한 반응성을 나타낼 수 있다. 일부 경우에, 병태는 대상체에서 건강 상태의 예후를 나타낸다. 일부 경우에, 분류자는 값, 예를 들어 숫자일 수 있다. 예를 들어, 값은 가능성 증가 또는 감소(예를 들어, 0과 1 사이의 확률 값)를 나타낼 수 있다. 값, 예를 들어 분류자의 수는 임계값, 예를 들어 숫자와 비교될 수 있다. 일부 경우에, 임계값으로부터 분류자 값의 거리는 병태를 갖거나 갖지 않는 것이 참인지의 여부에 대한 신뢰도 또는 확률의 증가를 나타낼 수 있다. 일부 경우에, 분류자 값이 임계값으로부터 약 0.5, 1, 1.5, 2, 2.5, 3 또는 3 초과의 표준 편차일 때 호출된다(도 24).
분류자를 생성하기 위한 컴퓨터 구현 방법은 처리, 결합, 통계적 평가 또는 결과의 추가 분석, 또는 이들의 임의의 조합을 수행할 수 있다. 컴퓨터 구현 방법은 서포트 벡터 머신(support vector machine: SVM), 신경망, 랜덤 포레스트(random forest), 클러스터링 알고리즘(또는 소프트웨어 모듈), 그래디언트 부스팅(gradient boosting), 선형 회귀, 로지스틱 회귀 및/또는 의사결정 트리(decision tree)를 포함하는 지도 학습(supervised learning) 또는 비지도 학습(unsupervised learning) 방법을 포함할 수 있다. 지도 학습 알고리즘은 입력 데이터와 출력 데이터 간의 관계를 추론하기 위해 라벨링된, 쌍을 이룬 훈련 데이터 예시 세트의 사용에 의존하는 알고리즘일 수 있다. 비지도 학습 알고리즘은 훈련 데이터 세트로부터 출력 데이터로 추론을 이끌어내는 데 사용되는 알고리즘일 수 있다. 비지도 학습 알고리즘은 프로세스 데이터에서 숨겨진 패턴 또는 그룹화를 찾기 위한 탐색적 데이터 분석에 사용될 수 있는 클러스터 분석을 포함할 수 있다. 비지도 학습 방법의 예는 주성분 분석이다. 주성분 분석은 하나 이상의 변수 세트의 차원수를 감소시키는 것을 포함할 수 있다. 소정의 변수 세트의 차원수는 적어도 1, 5, 10, 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200 1300, 1400, 1500, 1600, 1700, 1800, 또는 1800 초과일 수 있다. 소정의 변수 세트의 차원수는 최대 1800, 1600, 1500, 1400, 1300, 1200, 1100, 1000, 900, 800, 700, 600, 500, 400, 300, 200, 100, 50, 10, 또는 10 미만일 수 있다.
컴퓨터 구현 방법은 통계적 기술을 수행하는 단계를 포함할 수 있다. 일부 사례에서, 통계적 기술은 선형 회귀, 분류, 리샘플링(resampling) 방법, 서브세트 선택, 축소, 차원 감소, 비선형 모델, 트리 기반 방법, 서포트 벡터 머신, 비지도 학습 또는 이들의 임의의 조합을 포함할 수 있다.
선형 회귀는 종속 변수와 독립 변수 간의 최상의 선형 관계를 적합(fitting)시킴으로써 목표 변수를 예측하는 방법일 수 있다. 최상의 적합은 각 점에서 모양과 실제 관찰 사이의 모든 거리의 합이 최소화되도록 하는 최소 제곱 접근법에 상응할 수 있다. 선형 회귀는 단순 선형 회귀 및 다중 선형 회귀를 포함할 수 있다. 단순 선형 회귀는 단일 독립 변수를 사용하여 종속 변수를 예측할 수 있다. 다중 선형 회귀는 하나 초과의 독립 변수를 사용하여 최상의 선형 관계를 적합시킴으로써 종속 변수를 예측할 수 있다.
분류는 정확한 예측 및 분석을 달성하기 위해 데이터 컬렉션에 카테고리를 할당하는 데이터 마이닝(data mining) 기술일 수 있다. 분류 기술은 로지스틱 회귀 및 판별 분석을 포함할 수 있다. 로지스틱 회귀는 종속 변수가 이분적(2진수)일 때 사용될 수 있다. 로지스틱 회귀는 하나의 종속 2진 변수와 하나 이상의 명목, 순위형, 등간 또는 비율-수준 독립 변수 간의 관계를 발견하고 설명하는 데 사용될 수 있다. 리샘플링은 원래 데이터 샘플로부터 반복된 샘플을 추출하는 것을 포함하는 방법일 수 있다. 일부 경우에, 리샘플링은 대략적인 확률 값을 산출하기 위해 포괄적 분포 표의 사용을 수반하지 않을 수 있다. 리샘플링은 실제 데이터에 기반하여 고유한 샘플링 분포를 생성할 수 있다. 일부 경우에, 리샘플링은 분석 방법이 아닌 실험 방법을 사용하여 고유한 샘플링 분포를 생성할 수 있다. 리샘플링 기술은 부트스트랩핑(bootstrapping) 및 교차 검증을 포함할 수 있다. 부트스트랩핑은 원래 데이터를 대체하여 샘플링함으로써 수행할 수 있으며 "선택되지 않은" 데이터 포인트를 시험 사례로서 사용할 수 있다. 교차 검증은 훈련 데이터를 복수의 부분으로 분할하여 수행할 수 있다.
서브세트 선택은 반응과 관련된 예측변수의 서브세트를 식별할 수 있다. 서브세트 선택은 최적의 서브세트 선택, 전진 단계적 선택, 후진 단계적 선택, 하이브리드 방법 또는 이들의 임의의 조합을 포함할 수 있다. 일부 사례에서, 축소는 모든 예측변수를 포함하는 모델에 적합하지만, 추정된 계수는 최소 제곱 추정치에 비례하여 0으로 축소된다. 이러한 축소는 편차를 감소시킬 수 있다. 축소는 능선 회귀 및 라쏘(lasso)를 포함할 수 있다. 차원 감소는 n + 1 계수를 추정하는 문제를 m + 1 계수의 더 간단한 문제로 감소시킬 수 있으며, 여기서 m < n이다. n개의 상이한 선형 조합 또는 변수의 사영(projection)을 산출하여 달성할 수 있다. 그 다음, 이러한 n개의 사영은 선형 회귀 모델을 예를 들어 최소 제곱에 의해 적합시키기 위한 예측변수로서 사용될 수 있다. 차원 감소는 주성분 회귀 및 부분 최소 제곱을 포함할 수 있다. 주성분 회귀는 큰 변수 세트로부터 저차원의 기능 세트를 도출하는 데 사용될 수 있다. 주성분 회귀에 사용되는 주성분은 후속 직교 방향으로 데이터의 선형 조합을 사용하여 데이터에서 최대의 분산을 포획할 수 있다. 부분 최소 제곱은 새로운 기능을 식별하기 위해 반응 변수를 사용할 수 있기 때문에, 부분 최소 제곱은 주성분 회귀에 대한 지도 대안으로서 사용될 수 있다.
비선형 회귀는 모델 파라미터의 비선형 조합이고 하나 이상의 독립 변수에 의존하는 함수에 의해 관찰 데이터가 모델링되는 회귀 분석의 한 형태일 수 있다. 비선형 회귀는 단계 함수, 구간별 함수(piecewise function), 스플라인(spline), 일반화된 가산 모델 또는 이들의 조합을 포함할 수 있다.
트리 기반 방법은 회귀 문제와 분류 문제 둘 다에 사용될 수 있다. 회귀 문제 및 분류 문제는 예측변수 공간을 다수의 단순 영역으로 계층화하거나 분할하는 것을 포함할 수 있다. 트리 기반 방법은 배깅(bagging), 부스팅(boosting), 랜덤 포레스트 또는 이들의 조합을 포함할 수 있다. 배깅은 원래 데이터와 동일한 순서/크기의 다단계를 생성하기 위해 반복 조합을 사용하여 원래 데이터세트로부터 훈련을 위한 추가 데이터를 생성함으로써 예측의 분산을 감소시킬 수 있다. 부스팅은 몇가지 상이한 모델을 사용하여 출력을 계산한 다음, 가중 평균 접근법을 사용하여 결과를 평균화할 수 있다. 랜덤 포레스트 알고리즘은 훈련 세트의 랜덤 부트스트랩 샘플을 도출할 수 있다. 서포트 벡터 머신은 분류 기술을 위해 사용될 수 있다. 서포트 벡터 머신은 최대 마진으로 두 부류의 점을 가장 잘 분리하는 초평면을 찾는 것을 포함할 수 있다. 서포트 벡터 머신은 데이터를 완벽하게 분류하는 제약에 따라 마진이 최대화되도록 최적화 문제를 제약할 수 있다.
비지도 방법은 라벨링된 반응 없이 입력 데이터를 포함하는 데이터세트로부터 추론을 이끌어내는 방법일 수 있다. 비지도 방법은 클러스터링, 주성분 분석, k-평균 클러스터링, 계층적 클러스터링 또는 이들의 조합을 포함할 수 있다.
1. 유전자 알고리즘
일부 측면에서, 분류자를 생성하기 위한 컴퓨터 구현 방법은 유전자 알고리즘의 사용을 포함한다. 상기 방법은 병태를 갖지 않는 샘플로부터의 미소부수체 좌위와 상이한 병태를 갖는 샘플로부터의 미소부수체 좌위를 식별함으로써 병태와 연관되거나 상관관계가 있는 미소부수체 좌위(정보제공성 좌위)의 서브세트의 초기 집단을 생성하는 단계를 포함할 수 있다. 유전자 알고리즘은 정보제공성 좌위에 기반하여 분류 시그니처를 결정하는 데 사용될 수 있다. 유전자 알고리즘은 최종 분류자에 포함할 가장 유익한 정보제공성 미소부수체 좌위의 서브세트를 선택할 수 있다. 유전자 알고리즘은 각 서브세트에 가중치를 할당할 수 있다. 가중화는 다른 가중화 방식, 예를 들어 각 미소부수체 좌위의 상대적 위험에 대한 비례와 조합될 수 있다. 미소부수체의 각 서브세트는 서브세트와 병태의 연관성 또는 상관관계에 따라 반복적으로 순위화될 수 있다. 그 다음, 미소부수체 좌위의 초기 집단의 서브세트는 초기 집단을 병태를 갖는 대상체 및/또는 병태를 갖지 않는 대상체로부터 수득되거나 유래된 추가 샘플과 비교함으로써 최적화될 수 있다. 일부 경우에, 약 100개 서브세트의 초기 집단이 최적화에서 사용된다. 일부 경우에, 적어도 100, 200, 300, 400 또는 500개 서브세트의 초기 집단이 최적화에서 사용된다. 일부 사례에*, 최적화는 약 100개의 서브세트를 추가 샘플과 비교하는 적어도 하나의 사이클을 포함한다. 일부 사례에서, 최적화는 약 100개의 서브세트를 추가 샘플과 비교하는 복수의 사이클을 포함한다. 각각의 서브세트는 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 60, 70, 80, 90, 또는 100개의 미소부수체를 포함할 수 있다.
각 사이클이 완료되면, 반복적 순위화가 수행될 수 있다. 일부 경우에, 반복적 순위화는 추가 샘플에서 병태의 존재 또는 부재를 결정할 때 정확도, 민감도 및 특이도에 대한 수신기 작동 특성(ROC) 분석을 위해 서브세트의 통계 분석을 수행하는 것을 포함한다. 병태의 존재 또는 부재를 나타내는 데 있어 미리 결정된 수(예를 들어, 10)의 최악의 수행 또는 최저 순위의 서브세트가 식별되고 폐기될 수 있다. 각 최적화 사이클을 개시하기 전에 일정한 수의 서브세트를 유지하기 위해, 새로운 서브세트가 서브세트의 집단에 추가될 수 있다. 일부 경우에, 이전의 최적화 사이클로부터 무작위로 선택된 2개의 서브세트를 무작위로 분할 및 재결합함으로써 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 또는 10개 초과의 새로운 서브세트가 생성된다. 일부 사례에서, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 또는 10개 초과의 새로운 서브세트가 이전의 최적화 사이클로부터 무작위로 선택된다. 10개의 새로운 서브세트가 추가되는 일부 사례에서, 이전 최적화 사이클로부터 무작위로 선택된 2개의 서브세트를 무작위로 분할 및 재결합함으로써 3개가 생성되고, 이전의 최적화 사이클의 서브세트로부터 무작위로 7개가 선택된다. 10개의 새로운 서브세트가 추가되는 일부 사례에*, 이전의 최적화 사이클로부터 무작위로 선택된 2개의 서브세트를 무작위로 분할 및 재결합함으로써 4개가 생성되고 이전의 최적화 사이클의 서브세트로부터 무작위로 6개가 선택된다. 10개의 새로운 서브세트가 추가되는 일부 사례에서, 이전 최적화 사이클로부터 무작위로 선택된 2개의 서브세트를 무작위로 분할 및 재결합함으로써 5개가 생성되고 이전의 최적화 사이클의 서브세트로부터 무작위로 5개가 선택된다. 10개의 새로운 서브세트가 추가되는 일부 사례에서, 이전 최적화 사이클로부터 무작위로 선택된 2개의 서브세트를 무작위로 분할 및 재결합함으로써 6개가 생성되고 이전의 최적화 사이클의 서브세트로부터 4개가 무작위로 선택된다. 10개의 새로운 서브세트가 추가되는 일부 사례에서, 이전 최적화 사이클로부터 무작위로 선택된 2개의 서브세트를 무작위로 분할 및 재결합함으로써 6개가 생성되고, 이전 최적화 사이클의 서브세트로부터 무작위로 4개가 선택된다. 10개의 새로운 서브세트가 추가되는 일부 사례에서, 이전 최적화 사이클로부터 무작위로 선택된 2개의 서브세트를 무작위로 분할 및 재결합함으로써 7개가 생성되고, 이전 최적화 사이클의 서브세트로부터 무작위로 3개가 선택된다. 최적화 사이클에 새로운 서브세트의 중복이 포함될 수 있다. 일부 경우에, 새로운 서브세트의 중복은 최적화 사이클에 포함되지 않는다.
일부 경우에, 각 최적화 사이클의 종결시에 폐기되는 서브세트의 수는 각 최적화 사이클 전에 서브세트에 추가되는 서브세트 수와 동일하다. 일부 경우에, 각 최적화 사이클의 종결시에 5개의 최저 순위의 서브세트가 폐기되는 한편, 각 최적화 사이클 전에 5개의 새로운 서브세트가 추가된다. 일부 경우에, 각 최적화 사이클의 종결시에 10개의 최저 순위의 서브세트가 폐기되는 한편, 각 최적화 사이클 전에 10개의 새로운 서브세트가 추가된다. 일부 경우에, 각 최적화 사이클의 종결시에 20개의 최저 순위의 서브세트가 폐기되는 한편, 각 최적화 사이클 전에 20개의 새로운 서브세트가 추가된다. 일부 경우에, 각 최적화 사이클의 종결시에 50개의 최저 순위의 서브세트가 폐기되는 한편, 각 최적화 사이클 전에 50개의 새로운 서브세트가 추가된다.
일부 측면에서, 분류자를 생성하기 위한 컴퓨터 구현 방법은 통계적으로 가중화되지 않은 미소부수체 서브세트를 결정하는 단계를 포함한다. 일부 측면에서, 분류자를 생성하기 위한 컴퓨터 구현 방법은 통계적으로 가중된 미소부수체 서브세트를 결정하는 단계를 포함한다. 일부 경우에, 가중치 서브세트는 상대적 위험, 위험비 또는 승산비에 따라 가중화된다. 분류자는 가중화되지 않거나 가중될 수 있다. 일부 경우에, 상기 언급한 컴퓨터 구현 방법에 의해 생성된 분류자는 미소부수체 이외의 유전적 마커에 기반할 수 있다. 일부 경우에, 분류자는 다른 게놈 정보, 예를 들어 단일 뉴클레오티드 다형(SNP) 또는 유전적 이상, 예를 들어 카피 수 이상, 인델 등에 기반할 수 있다. 일부 경우에, 분류자는 미소부수체가 위치하는 유전자의 정체에 기반할 수 있다.
최적화 사이클이 완료되면, 컴퓨터 구현 방법은 최적화된 정확도, 민감도 및 특이도를 갖는, 병태와 연관되거나 상관관계가 있는 미소부수체를 결정하는 단계를 포함할 수 있다. 일부 측면에서, 컴퓨터 구현 방법은 병태를 갖는 샘플, 병태를 갖지 않는 샘플 또는 이들의 조합을 포함하는 추가 샘플 세트를 이용하여 검증될 수 있다(예를 들어, 도 3 참조). 검증은 병태, 예를 들어 암을 갖는 대상체로부터의 적어도 10, 20, 30, 50, 100 또는 1000개의 샘플(샘플은 비-종양(생식계열) 샘플 또는 종양 샘플일 수 있다) 및 병태, 예를 들어 암, 예를 들어 폐암을 갖지 않는 대상체로부터의 적어도 10, 20, 30, 50, 100 또는 1000개의 샘플을 사용하는 것을 포함할 수 있다.
최적화되고 검증된 컴퓨터 구현 방법은 대상체로부터의 샘플을 분석할 때 병태에 대한 분류자를 생성할 수 있다. 병태는 대상체에서의 건강 상태의 존재 또는 부재를 나타낼 수 있다. 일부 경우에, 병태는 대상체에서 건강 상태가 발생할 가능성의 증가 또는 감소를 나타낼 수 있다. 일부 사례에서, 병태는 대상체가 치료로부터 혜택을 받을 가능성의 증가 또는 감소 또는 치료의 결과로서 대상체에서 이상반응의 위험이 증가할 가능성의 증가 또는 감소를 나타낼 수 있다. 일부 경우에, 병태는 대상체의 건강 상태의 치료에 대한 반응성 나타낼 수 있다. 일부 사례에서, 병태는 대상체에서 건강 상태의 예후를 나타낼 수 있다.
병태는 암의 존재 또는 부재를 나타낼 수 있다. 일부 경우에, 병태는 암이 발생할 가능성의 증가 또는 감소를 나타낸다. 일부 사례에서, 병태는 대상체가 치료로부터 혜택을 받을 가능성의 증가 또는 감소, 또는 치료의 결과로서 대상체에서 이상반응의 위험이 증가할 가능성의 증가 또는 감소를 나타낸다(분류자는 암 치료에 대한 동반 진단일 수 있다). 일부 경우에, 병태는 암 치료에 대한 반응성을 나타낼 수 있다. 치료는 수술, 화학요법, 방사선, 약물(예를 들어, 아파티닙, 제피닙, 베바시주맙, 크리조티닙 또는 세리티닙)을 이용한 표적화 치료 또는 면역요법(예를 들어, 단클론 항체, 체크포인트 억제제, 치료용 백신 또는 입양 T-세포 전달을 이용한 치료)일 수 있다. 일부 사례에서, 병태는 암의 예후를 나타낸다. 일부 경우에, 암은 비소세포 폐암(예를 들어, 폐 선암종(LUAD), 폐 편평 세포 암종(LUSC) 및 대세포 암종), 소세포 폐암(SCLC) 및 폐 카르시노이드 종양을 포함하는 폐암이다.
분류자는 임의의 염색체, 예를 들어 1번, 2번, 3번, 4번, 5번, 6번, 7번, 8번, 9번, 10번, 11번, 12번, 13번, 14번, 15번, 16번, 17번, 18번, 19번, 20번, 21번, 22번 염색체, X 또는 Y 염색체의 미소부수체 좌위를 포함할 수 있다. 일부 경우에, 분류자는 X 염색체 및/또는 Y 염색체의 미소부수체 좌위를 함유하지 않는다.
III. 병태에 대한 가중화된 분류자의 생성
본 개시내용은 병태와 연관되거나 상관관계가 있는 것으로 식별된 미소부수체 좌위를 가중화하는 방법을 제공한다. 또한, 본 개시내용은 병태와 연관되거나 상관관계가 있는 것으로 확인된 미소부수체 좌위 이외의 유전자 마커를 가중화하는 방법을 제공한다. 가중치 또는 가중화는 병태와의 연관성 또는 상관관계에 통계적으로 기여하는 각각의 개별 미소부수체 좌위의 상대적 중요성 또는 출현율을 지칭할 수 있다. 예를 들어, 병태를 갖는 대상체로부터 수득된 샘플에만 출현하고 더 높은 빈도로 출현하는 미소부수체 좌위에 높은 가중치가 할당될 수 있다. 일부 경우에, 가중치는 위험비, 승산비 또는 상대적 위험에 기반하여 할당된다. 가중치 결정의 일부분인 수치 성분의 예로는 민감도, 특이도, 음성 예측 값, 양성 예측 값, 승산비, 위험비 또는 이들의 조합이 포함된다. 일부 경우에, 가중치를 계산하는 데 사용되는 수치 성분에 컷오프(예를 들어, 임계값)가 적용된다. 컷오프 미만으로 하락한 수치 분류자를 갖는 샘플은 가중치 계산에서 배제될 수 있다. 가중치는 계산의 선형, 비선형, 대수, 삼각, 통계 학습, 베이지안, 회귀 또는 상관적 수단의 조합에 기반하여 계산될 수 있다. 미소부수체 또는 미소부수체 세트와 연관된 값(예를 들어, 상대적 위험) 또는 회귀 접근법을 사용하는 가중화 방식을 사용하여 분류자를 생성할 수 있다. 가중화된 분류자는 가중화가 분류자 민감도 또는 특이도를 향상시키는지 여부를 결정하기 위해 평가될 수 있다. 민감도 및 특이도(예를 들어, 민감도와 특이도의 합)를 최대화하기 위해 각 좌위에 대한 최적의 가중치를 산출하는 데 회귀 분석(예를 들어, 표준 회귀 분석)이 사용될 수 있다.
일부 경우에, 각 미소부수체에 할당된 가중치는 미리 결정된 값이고, 여기서 미리 결정된 값은 샘플 크기, 또는 병태와 미소부수체 좌위 사이의 연관성 또는 상관관계의 강도를 나타낸다. 소정 사례에서, 각 미소부수체에 할당된 가중치는 상대적 위험, 위험비 또는 승산비를 포함한다. 일부 사례에서, 가중치의 미리 결정된 값은 민감도, 특이도 또는 이들의 조합(예를 들어, 합계)의 수치 범위를 결정한다. 일부 사례에서, 가중치의 계산 및 할당은 서포트 벡터 머신, 의사결정 트리, 랜덤 포레스트, 신경망 또는 딥 러닝 신경망(예를 들어, 인공 신경망, 순환 신경망, 합성곱 신경망(Convolutional Neural Network), 지각, 피드 포워드(Feed Forward), 방사형 기저 네트워크, 딥 피드 포워드(Deep Feed Forward), 순환 신경망, 장기/단기 기억, 게이트 순환 유닛(Gated Recurrent Unit), 자동 인코더(AE), 변형 AE, 노이즈 제거 AE(Denoising AE), 희소 AE(Denoising AE), 마르코프 체인(Markov Chain), 홉필드 네트워크(Hopfield Network), 볼츠만 머신(Boltzmann Machine), 제한된 BM, 딥 빌리프 네트워크(Deep Belief Network), 심층 합성곱 네트워크(Deep Convolutional Network), 디콘볼루션 네트워크(Deconvolutional Network), 심층 합성곱 역 그래픽 네트워크(Deep Convolutional Inverse Graphics Network), 생성 적대적 네트워크(Generative Adversarial Network), 액체 상태 머신(Liquid State Machine), 극한 학습 머신(Extreme Learning Machine), 이치 스테이트 네트워크(Each State Network), 딥 레지듀얼 네트워크(Deep Residual Network), 코호넨 네트워크(Kohonen Network), 서포트 벡터 머신, 신경 튜링 머신(Neural Turing Machine))과 같은 모델을 통해 컴퓨터에 의해 구현되는 의사결정 모델을 포함한다.
일부 사례에서, 미소부수체 좌위에 할당된 가중치는 본원에 설명된 분류자에 대한 계산의 일부분으로서 사용된다. 이러한 사례에서, 더 큰 가중치를 갖는 미소부수체 좌위는 더 작은 가중치를 갖는 미소부수체 좌위보다 분류자의 값에 더 많이 기여할 수 있다. 일부 경우에, 분류자의 계산은 최적의 가중치만을 사용하는 것을 포함한다. 최적의 가중치는 적어도 미리 결정된 임계값 또는 이를 초과하는 가중치를 포함할 수 있다.
가중화된 분류자에 의해 결정된 병태는 대상체에서의 건강 상태의 존재 또는 부재를 나타낼 수 있다. 일부 경우에, 가중화된 분류자에 의해 결정된 병태는 대상체에서 건강 상태가 발생할 가능성의 증가 또는 감소를 나타낸다. 일부 사례에서, 가중화된 분류자에 의해 결정된 병태는 대상체가 치료로부터 혜택을 받을 가능성의 증가 또는 감소, 또는 치료의 결과로서 대상체에서 이상반응의 위험이 증가될 가능성의 증가 또는 감소를 나타낸다. 일부 사례에서, 가중화된 분류자에 의해 결정된 병태는 대상체의 건강 상태의 치료에 대한 반응성을 나타낸다. 다른 사례에서, 가중화된 분류자에 의해 결정된 병태는 대상체에서 건강 상태의 예후를 나타낼 수 있다. 일부 경우에, 건강 상태는 암이다. 일부 경우에, 암은 폐암, 예를 들어 비소세포 폐암(예를 들어, 폐 선암종(LUAD), 폐 편평 세포 암종(LUSC) 및 대세포 암종), 소세포 폐암(NSLC) 또는 폐 카르시노이드 종양이다.
분류자는 또한 예를 들어 미소부수체의 소수 대립유전자 분포에 기반하여 결정될 수 있다. 일부 경우에, 분류자는 정보제공성 미소부수체 좌위와 소수 대립유전자 분포의 가중화된 조합을 계산하여 결정될 수 있다. 소수 대립유전자 빈도는 분류자에 대한 추가의 가중화된 파라미터가 될 수 있다. 소수 대립유전자 빈도는 전반적인 게놈 안정성의 지표일 수 있다. 소수 대립유전자 빈도에 기반한 분류자는 분류자에 소수 대립유전자 빈도를 추가하는 것이 분류자를 개선하는지 여부를 결정하기 위해 (예를 들어, 회귀 분석에 의해) 통계적으로 평가될 수 있다.
IV. 범-병태(예를 들어, 암) 위험 분석
본 개시내용은 범-병태(예를 들어, 암) 분류자를 생성하기 위한 컴퓨터 구현 방법을 제공한다(예를 들어, 도 2도 4 참조). 정보제공성 미소부수체 좌위 목록은 다양한 병태(예를 들어, 암) 유형 및 건강한 참조 서열의 샘플을 통계적으로 분석함으로써 생성될 수 있다. 두 샘플 군 모두의 DNA는 다중화 플랫폼에서 시퀀싱될 수 있다. 일부 경우에, 시퀀싱은 예를 들어 미끼 세트를 사용한 추가 강화로 표적화된다. 그 다음, 시퀀싱 결과를 품질에 대해 분석하고 맵핑하여 병태(예를 들어, 암) 샘플과 참조 간의 차이를 밝힐 수 있다. 이러한 차이를 컴퓨터 구현 방법으로 분석하여 범-병태(예를 들어, 암) 분류자를 생성할 수 있다. 범 병태(예를 들어, 암) 분류자는 다양한 유형의 병태, 예를 들어 암의 추가 샘플을 사용하여 추가로 최적화하고 검증할 수 있다.
병태 또는 복수의 병태에 대한 범-병태(예를 들어, 범-암) 분류자는 대상체에서 복수의 건강 상태 중 적어도 하나의 건강 상태의 존재 또는 부재, 대상체에서 복수의 건강 상태 중 적어도 하나의 건강 상태가 발생할 가능성의 감소 또는 증가, 대상체가 복수의 건강 상태 중 적어도 하나의 건강 상태의 치료로부터 혜택을 받을 가능성의 증가 또는 감소, 대상체에서 복수의 건강 상태 중 적어도 하나의 건강 상태의 치료로 인한 이상반응의 위험이 증가할 가능성의 증가 또는 감소, 복수의 건강 상태 중 적어도 하나의 건강 상태의 치료에 대한 대상체의 반응성 또는 이들의 조합을 나타낼 수 있다. 복수의 건강 상태는 본원에 개시된 건강 상태의 임의의 조합일 수 있다.
일부 경우에, 범-암 병태는 대상체에서 다수 유형의 암의 존재 또는 부재를 나타낼 수 있다. 일부 사례에서, 범-암 병태는 대상체에서 다수 유형의 암이 발생할 가능성의 증가 또는 감소를 나타낼 수 있다. 소정 경우에, 다수 유형의 암은 동일한 대상체에서 빈번하게 함께 발생하는 암이다. 대안적 경우에, 다수 유형의 암은 독립적으로 발생하는 암이다. 일부 사례에서, 범-암 병태는, 대상체가 치료로부터 혜택을 받을 가능성이 있거나 가능성이 없거나 대상체가 치료의 결과로서 이상반응의 위험이 증가할 가능성이 있거나 가능성이 없음을 나타낼 수 있다(범-암 분류자는 치료제에 대한 동반 진단일 수 있다). 일부 사례에서, 범-암 병태는 대상체에서 암 치료에 대한 반응성을 나타낼 수 있다. 다른 사례에서, 범-암 병태는 대상체에서 암의 예후를 나타낼 수 있다. 본원에서 설명된 바와 같은 대상체는 암에 대해 증상이 있거나 무증상일 수 있다. 일부 경우에, 추가 검사(예를 들어, 신체 검사, 순환 또는 세포 유리형 암 바이오마커 분석, 이미지화(예를 들어, 컴퓨터 단층촬영(CT), 뼈 스캔, 자기 공명 이미지(MRI), 양전자 방출 단층촬영(PET), 초음파 및 X-선), 생검, 유전자 스크리닝, 유전자 또는 단백질 발현 수준 등)는 대상체에 대한 범-암 분류자에 기반하여 사용될 수 있다.
범-병태(예를 들어, 범-암) 분류자를 생성하기 위한 컴퓨터 구현 방법은 처리, 결합, 통계적 평가 또는 결과의 추가 분석, 또는 이들의 임의의 조합을 수행하는 것을 포함할 수 있다. 일부 측면에서, 범-병태(예를 들어, 암) 분류자를 생성하기 위한 컴퓨터 구현 방법은 먼저 복수의 유형의 병태(예를 들어, 암)를 갖지 않는 대상체로부터 수득되거나 유래된 샘플로부터의 미소부수체 좌위와 상이한, 복수의 유형의 병태(예를 들어, 암)를 갖는 대상체로부터 수득되거나 유래된 샘플로부터의 미소부수체 좌위를 식별함으로써 복수의 유형의 병태(예를 들어, 암)와 연관되거나 상관관계가 있는 미소부수체 좌위의 서브세트들의 집단을 생성하는 단계를 포함한다. 미소부수체의 서열은 먼저 임의의 시퀀싱 방법에 의해 수득될 수 있다.
미소부수체 좌위는 t-검정, Z-검정, ANOVA, 회귀 분석, 만-위트니-윌콕슨, 카이-제곱 검정, 상관관계, 피셔 정확 검정, 본페로니 보정 및 벤자민 호치버그 검정과 같은 하나 이상의 통계적 검정을 사용하여 식별될 수 있다.
통계적 검정은 수신기 작동 특성(ROC) 곡선을 산출할 수 있으며, 여기서 ROC 곡선하 면적은 곡선하 면적(AUC)으로 지칭된다. AUC는 복수의 유형의 병태(예를 들어, 암)와 연관되거나 상관관계가 있는 미소부수체 좌위를 식별하는 정확도를 결정할 수 있다. 더 큰 AUC는 연관성 또는 상관관계의 더 높은 정확도를 나타낼 수 있다. ROC 곡선은 복수의 유형의 병태(예를 들어, 암)와 미소부수체 좌위와의 연관성 또는 상관관계 대한 민감도(예를 들어, 진양성) 및 특이도(예를 들어, 진음성)의 비율을 결정할 수 있다. 복수의 유형의 병태(예를 들어, 암)와 미소부수체 좌위와의 통계적으로 유의한 연관성 또는 상관관계는 적어도 약 70%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99%의 통계적 정확도를 가질 수 있다. 일부 경우에, 복수의 유형의 병태(예를 들어, 암)와 미소부수체 좌위와의 통계적으로 유의한 연관성 또는 상관관계는 적어도 0.70, 0.80, 0.85, 0.90, 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98 또는 0.99의 통계적 특이도 및 적어도 0.70, 0.80, 0.85, 0.90, 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98 또는 0.99의 통계적 민감도를 갖는다.
일부 사례에서, 복수의 유형의 병태(예를 들어, 암)와 연관되거나 상관관계가 있는 미소부수체 좌위를 식별하는 것은 복수의 유형의 병태(예를 들어, 암)의 핵산 서열을 포함하는 데이터베이스로부터의 제1 미소부수체 좌위 세트 및 참조 데이터베이스(예를 들어, hg19)의 제2 미소부수체 좌위 세트를 식별하는 것을 포함한다. 일부 경우에, 미소부수체 중 일부는 복수의 유형의 병태(예를 들어, 암)와 연관되거나 상관관계가 있는 것으로 식별된다. 일부 경우에, 미소부수체 중 일부는 한 가지 유형의 병태(예를 들어, 암)와 연관되거나 상관관계가 있는 것으로 식별된다.
복수의 유형의 암은 고형 또는 혈액 악성 유형의 암을 포함할 수 있다. 일부 경우에, 복수의 유형의 암은 전이성, 재발성 또는 불응성일 수 있다. 식별된 미소부수체 좌위와 연관되거나 상관관계가 있는 복수의 유형의 암은 임의의 수(예를 들어, 약 4 내지 약 10, 약 10 내지 약 15, 약 15 내지 약 20, 또는 약 4, 약 10, 약 15, 약 20, 약 25, 약 30, 또는 약 50)의 본원에 개시된 암을 포함할 수 있다.
범-암 분석은 다음의 암 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 또는 16가지를 분석하거나 시험할 수 있다: 유방암, 난소암, 전립선암, 폐암, 다형성 교모세포종, 자궁 체부 내막 암종, 결장 선암종, 방광암, 요로상피세포 암종, 두경부 편평세포 암종, 자궁경부 편평세포 암종 및 자궁경관내 선암종, 위 선암종, 갑상선 암종, 뇌 저등급 신경교종, 신장 유두상 신세포 암종 및 간 간세포 암종.
일부 경우에, 미소부수체 좌위 세트들의 차이와 연관되거나 상관관계가 있는 복수의 유형의 암은 폐암을 포함한다. 미소부수체 좌위 세트들의 차이와 연관되거나 상관관계가 있을 수 있는 폐암은 비소세포 폐암(예를 들어, 폐 선암종(LUAD), 폐 편평 세포 암종(LUSC) 및 대세포 암종), 소세포 폐암(SCLC) 및 폐 카르시노이드 종양을 포함한다.
복수의 유형의 병태(예를 들어, 암)와 연관되거나 상관관계가 있는 미소부수체 좌위를 포함하는 서브세트의 집단은 서브세트당 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 60, 70, 80, 90 또는 100개의 미소부수체 좌위를 포함할 수 있다. 일부 측면에서, 서브세트의 집단은 서브세트와 복수의 유형의 병태(예를 들어, 암)와의 연관성 또는 상관관계에 기반하여 반복적으로 순위화된다.
그 다음, 미소부수체 좌위 집단의 서브세트는 서브세트의 집단을 복수의 유형의 병태(예를 들어, 암)를 갖는 대상체 및/또는 복수의 유형의 병태(예를 들어, 암)를 갖지 않는 대상체로부터 수득되거나 유래된 추가 샘플과 비교함으로써 최적화될 수 있다. 일부 경우에, 약 100개 서브세트의 집단이 최적화에서 사용된다. 일부 경우에, 적어도 100, 200, 300, 400, 500, 1000, 2000, 3000 또는 5000개 서브세트의 집단이 최적화에서 사용된다. 일부 사례에서, 최적화는 약 100개의 식별된 서브세트를 추가 샘플과 비교하는 적어도 하나의 사이클을 포함한다. 일부 사례에서, 최적화는 약 100개의 식별된 서브세트를 추가 샘플과 비교하는 복수의 사이클을 포함한다.
반복적 순위화는 각 사이클이 완료되면 수행될 수 있다. 일부 경우에, 반복 순위화는 추가 샘플에서 복수의 유형의 병태(예를 들어, 암)의 존재 또는 부재를 결정할 때 정확도, 민감도 및 특이도에 대한 수신기 작동 특성(ROC) 분석을 위한 서브세트의 통계 분석을 수행하는 것을 포함한다. 복수의 유형의 병태(예를 들어, 암)의 존재 또는 부재를 나타내는 데 있어 최악의 수행 또는 최저 순위를 갖는 서브세트 중 하나 이상이 식별되고 폐기될 수 있다. 각 최적화 사이클을 개시하기 전에 일정한 수의 서브세트를 유지하기 위해, 새로운 서브세트가 서브세트의 집단에 추가될 수 있다. 일부 경우에, 새로운 서브세트는 이전 최적화 사이클로부터 무작위로 선택된 2개의 서브세트를 무작위로 분할 및 재결합함으로써 생성된다. 일부 경우에, 새로운 서브세트는 이전의 최적화 사이클로부터 무작위로 선택된다. 일부 경우에, 각 최적화 사이클의 종결 시에 폐기되는 서브세트의 수는 각 최적화 사이클 전에 서브세트에 추가되는 서브세트 수와 동일하다.
범-병태(예를 들어, 범-암) 분류자를 생성하기 위한 컴퓨터 구현 방법은 통계적으로 가중화되지 않은 미소부수체 좌위 서브세트를 결정하는 것을 포함할 수 있다. 일부 측면에서, 범-병태(예를 들어, 범-암) 분류자를 생성하기 위한 컴퓨터-구현 방법은 통계적으로 가중화된 미소부수체 좌위 서브세트를 결정하는 것을 포함한다. 범-병태(예를 들어, 범-암) 분류자는 가중화되지 않거나 가중화될 수 있다.
최적화 사이클의 완료 후, 범-병태(예를 들어, 범-암) 분류자를 생성하는 컴퓨터 구현 방법은 최적화된 정확도, 민감도 및 특이도를 갖는 병태와 연관되거나 상관관계가 있는 미소부수체 좌위를 포함한다. 일부 측면에서, 컴퓨터 구현 방법은 복수의 유형의 병태(예를 들어, 암)를 갖는 대상체로부터 수득되거나 유래된 샘플, 복수의 유형의 병태(예를 들어, 암)를 갖지 않는 대상체로부터 수득되거나 유래된 샘플 또는 이들의 조합을 포함하는 추가 샘플 세트를 이용하여 검증될 수 있다. 최적화 및 검증된 컴퓨터 구현 방법은 대상체로부터의 샘플을 분석할 때 범-병태(예를 들어, 범-암 분류자)를 생성할 수 있다. 범-병태(예를 들어, 범-암)는 대상체에서 한가지 유형의 건강 상태(예를 들어, 암)의 존재 또는 부재를 나타낼 수 있다. 소정 경우에, 범-상태(예를 들어, 범-암)는 대상체에서 한가지 유형의 건강 상태(예를 들어, 암)가 발생할 가능성의 증가 또는 감소를 나타낸다. 일부 경우에, 범-병태(예를 들어, 범-암)는 대상체가 치료로부터 혜택을 받을 가능성의 증가 또는 감소, 또는 치료의 결과로서 대상체에서 이상반응의 위험이 증가할 가능성의 증가 또는 감소를 나타낼 수 있다(범-병태, 예를 들어 범-암 분류자는 치료용 생성물에 대한 동반 진단일 수 있다). 일부 사례에서, 범-병태(예를 들어, 범-암)는 대상체의 한가지 유형의 건강 상태(예를 들어, 암)를 위한 치료에 대한 반응성을 나타낸다. 다른 사례에서, 범-병태(예를 들어, 범-암)는 대상체에서 한가지 유형의 건강 상태(예를 들어, 암)의 예후를 나타낸다.
범-병태(예를 들어, 범-암) 분석에서 각 병태(예를 들어, 암)에 대한 분류자(예를 들어, 미소부수체 세트)가 개발될 수 있다. 일부 경우에, 개개의 미소부수체 좌위는 범-병태(예를 들어, 범-암) 미소부수체 좌위일 수 있다.
V. 대상체로부터의 샘플 평가
본원에 설명된 바와 같이 생성된 분류자는 대상체(예를 들어, 환자) 샘플을 분석하는 데 사용될 수 있다. 대상체의 샘플은 예를 들어 임상 실험실 개선 개정법(Clinical Laboratory Improvement Amendments: CLIA) 인증 실험실에서 분석될 수 있다. 일부 경우에, 키트가 준비되고 대상체로부터의 샘플이 CLIA 실험실 외부에서 분석된다. 도 5는 예를 들어 CLIA 인증 실험실에서의 대상체(예를 들어, 환자) 샘플 분석 파이프라인에 대한 작업 흐름(500)의 예를 예시한다; 작업 흐름은 다중화된 범-암 분석을 위한 샘플을 가공처리하기 위해 사용될 수 있다. 샘플, 예를 들어 혈액, 소변, 뇌척수액, 정액, 타액, 가래, 대변, 림프액, 조직(예를 들어, 갑상선, 피부, 심장, 폐, 신장, 유방, 췌장, 간, 근육, 평활근, 방광, 담낭, 결장, 장, 뇌, 식도 또는 전립선), 또는 이들의 임의의 조합의 샘플은 복수의 대상체로부터 수득된다(501). 핵산 분자, 예를 들어 게놈 DNA는 샘플로부터 추출된다. 표적, 예를 들어 미소부수체 표적은 다중화(예를 들어, 미끼, 예를 들어 혼성화 프로브를 사용)에 의해 강화된다; 강화된 표적은 바코드화되고 증폭될 수 있다(503). 차세대 시퀀싱 분석은 예를 들어 약 4, 8, 12, 24, 96, 128, 384 또는 1536의 뱃치에서 표적 강화된 샘플에서 수행된다(505). 시퀀싱 데이터는 (예를 들어, 각각의 개별 샘플에 추가된 고유한 서열 태그(예를 들어, 바코드)를 사용하여) 역다중화될 수 있으며, 품질 제어 필터는 미가공 서열 리드(예를 들어, Q30보다 큰 Phred 품질)에 적용될 수 있으며, 유전자형이 결정되고(예를 들어, 각 좌위에 대한 리드를 측면 서열을 사용하여 참조 서열에 대해 정렬한 다음, 2개의 1차 대립유전자(유전자형)를 계산한다), 소수 대립유전자 분포(예를 들어, 소수 대립유전자의 수, 또는 주요 유전자형에 대한 소수 대립유전자의 분율)가 각 샘플의 각 미소부수체 좌위에 대해 결정된다(507)(소수 대립유전자는 적어도 1개, 적어도 2개, 적어도 3개 또는 3개 초과의 서열 리드에 의해 지원될 수 있다). 각 암에 대한 각 샘플에 대한 위험 분류자(예를 들어, 적어도 5, 10, 25, 50 또는 100개의 미소부수체 좌위에 기반함)가 계산된다(509)(예를 들어, 유전자형은 건강한 집단 유전자형에서 가장 주된 유전자형(예를 들어, GRCh38)에 관하여 모달(modal) 또는 비-모달(non-modal)인 것으로 결정될 수 있고 모든 좌위에 걸쳐 합산될 수 있으며, 샘플은 암 또는 정상 유전자형을 갖는 좌위의 분율의 컷오프와 관련하여 위치에 따라 병태의 위험이 있거나 위험이 없는 것으로 분류될 수 있다). 위험은 정량적 규모일 수 있거나 범주적 평가에 의해 나타내질 수 있다. 위험 분류자를 포함하는 임상 실험실 보고서가 생성되고(511) 의료 제공자, 대상체 또는 보험 제공자에게 제공된다.
도 17은 임상 실험실 보고서의 예를 예시한다. 임상 실험실 보고서는 환자 정보, 검체 정보, 시험 요약, 시험 결과, 해설 및 결과 세부정보를 포함할 수 있다. 결과 세부정보는 유전자형 검사된 미소부수체 좌위의 수, 병태에 대한 하나 이상의 위험 분류자, 하나 이상의 임계값, 및 병태, 예를 들어 폐암을 갖거나 획득할 상대적 위험(예를 들어, 저 위험, 고 위험, "위험에 있음", "위험에 있지 않음")을 포함할 수 있다.
보고서는 비-모달(주로 암) 유전자형을 가진 대상체의 샘플 중의 좌위의 수를 포함할 수 있다. 높은 위험에 있는 것으로 결정된 건강 상태 존재의 검출에 대한 민감도 및 특이도는 90% 초과일 수 있으며, 대조군 샘플 생식계열에서의 부재는 폐암에 대한 "저 위험"에 있는 것으로 결정될 수 있다. 분석의 정확도는 참조 대조군에서 고도로 보존된 좌위에 의해 측정되었을 때 99% 초과일 수 있다.
일부 사례에서, 병태는 추가 검사, 예를 들어 신체 검사, 순환 또는 세포 유리형 암 바이오마커, 이미지화(예를 들어, 컴퓨터 단층촬영, 뼈 스캔, 자기 공명 이미지, 양전자 방출 단층촬영, 초음파 및 X-선), 생검, 유전자 스크리닝, 유전자 발현 또는 단백질 발현 등에 의해 검증되거나 추가로 검사될 수 있다.
VI. 미소부수체의 소수 대립유전자
본 개시내용은 대상체의 게놈 연령 및 게놈 노화 속도를 결정하는 컴퓨터 구현 방법을 제공한다. 게놈 연령은 년(year)으로 보정된 수치로 주어질 수 있다. 예를 들어, 게놈 연령이 대상체의 수치적 연령과 대략적으로 동일하다면, 전체 게놈 안정성은 게놈 연령에 대해 정상일 수 있다. 일부 사례에서, 게놈 연령은 대상체의 실제 연령보다 더 어리거나 동일하거나 더 나이가 많을 수 있다. 대상체의 실제 나이보다 더 나이가 많은 게놈 연령 또는 높은 게놈 노화 속도는 게놈 불안정성 및 노화와 연관된 건강 상태(예를 들어, 질환), 예를 들어 암, 심혈관 질환, 신경계 질환 등의 발생에 대한 감수성을 시사할 수 있다. 게놈 연령 및 게놈 노화 속도는 동일한 대상체의 상이한 조직(예를 들어, 피부 또는 혈액)로부터 수득된 샘플들 간에 다양할 수 있다. 일부 경우에, 게놈 연령 및 게놈 노화 속도는 개인의 생활 방식(예를 들어, 영양, 신체적 또는 정신적 스트레스) 또는 의학적 병태를 나타낼 수 있다. 대상체의 게놈 연령에 기반하여 생활 방식의 변화(예를 들어, 금연, 식단 변경 및 운동)가 대상체에게 권장할 수 있다.
게놈 연령 및 게놈 노화 속도를 결정하는 컴퓨터 구현 방법은 대상체의 제1 샘플에서 소수 대립유전자 특성을 결정하는 단계 및 제1 샘플의 소수 대립유전자 특성을 참조의 소수 대립유전자 특성과 비교하여 소수 대립유전자 특성의 제1 차이를 산출하는 단계를 포함한다. 참조는 수치적 연령, 인종, 성별 등의 함수로서 평균 게놈 연령을 결정하기 위해 대규모 집단에 걸친 소수 대립유전자 함량의 분포를 포함할 수 있다. 제1 샘플과 참조 사이의 소수 대립유전자 특성의 제1 차이는 컴퓨터 구현 방법에 의해 대상체의 게놈 연령이 되는 것으로 결정될 수 있다. 일부 측면에서, 대상체로부터의 제2 샘플은 제1 샘플을 참조와 비교한 후인 시점에서 참조와 비교되어 소수 대립유전자 특성의 제2 차이를 산출한다. 제1 차이와 제2 차이 사이의 변화는 컴퓨터 구현 방법에 의해 대상체의 게놈 노화 속도인 것으로 결정될 수 있다. 일부 경우에, 추가의 게놈 노화 속도는 이후의 소수 대립유전자 특성을 수득하고 이전의 소수 대립유전자 특성과 비교함으로써 결정될 수 있다.
본원에 설명된 바와 같은 소수 대립유전자 특성은 적어도 하나의 좌위에 있는 소수 대립유전자의 수일 수 있다. 일부 측면에서, 소수 대립유전자 특성은 SNP의 백분율, 확장의 백분율, 수축의 백분율, SNP에 대한 확장 및 수축의 비, 이형접합 좌위의 백분율, 동형접합 좌위의 백분율, 및 소수 대립유전자를 갖는 좌위의 백분율을 포함한다. 일부 경우에, 소수 대립유전자 특성은 적어도 하나의 좌위에서의 SNP와 인델 변이, 미소부수체 변이, 동의 SNP, 비동의 SNP, 스탑게인 SNP, 스탑로스 SNP, 스플라이싱 변이체(예를 들어, 스플라이싱 연결부 내 2-bp), 프레임시프트 인델 및 비-프레임시프트 인델의 조합을 포함한다. 일부 경우에, 소수 대립유전자 특성은 동일한 대상체에서 다수의 시점에 걸쳐 결정된다.
대상체의 샘플로부터 결정된 소수 대립유전자 특성은 임의의 시퀀싱 방법으로부터 적어도 1개의 서열 리드를 필요로 할 수 있다. 일부 경우에, 소수 대립유전자 특성은 임의의 차세대 시퀀싱 방법으로부터 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 50 또는 100개의 서열 리드에서 식별될 수 있다. 대상체의 샘플로부터 결정된 소수 대립유전자 특성은 임의의 시퀀싱 방법으로부터 적어도 1개, 적어도 2개, 적어도 3개 또는 3개 초과의 서열 리드를 필요로 할 수 있다.
일부 사례에서, 대상체의 샘플의 서열로부터 결정된 소수 대립유전자 특성은 참조 서열과 비교된다. 비교는 적어도 하나의 좌위에서의 SNP와 인델 변이, 미소부수체 변이, 동의 SNP, 비동의 SNP, 스탑게인 SNP, 스탑로스 SNP, 스플라이싱 변이체(예를 들어, 스플라이싱 연결부 내 2-bp), 프레임시프트 인델 및 비-프레임시프트 인델의 상이한 수의 조합을 포함하는, 참조 서열과의 소수 대립유전자 특성의 차이를 산출할 수 있다. 샘플과 참조 사이의 소수 대립유전자 특성의 차이는 게놈 연령을 산출하기 위한 컴퓨터 구현 방법에 의해 결정될 수 있다.
일부 경우에, 대상체로부터의 제1 샘플의 제1 서열을 참조 서열과 비교하여 제1 소수 대립유전자 특성과 제1 게놈 연령을 산출한다. 일부 사례에서, 동일한 대상체로부터의 제2 샘플의 제2 서열을 동일한 참조 서열과 비교하여 제2 소수 대립유전자 특성 및 제2 게놈 연령을 산출한다. 제1 소수 대립유전자 특성과 제2 소수 대립유전자 특성을 비교하여 게놈 노화 속도를 결정할 수 있다. 소정 사례에서, 대상체의 상이한 연령에서 다수의 게놈 노화 속도를 산출하기 위한 비교를 위해, 나중 시점에 동일한 대상체의 샘플로부터 다수의 소수 대립유전자 특성을 수득할 수 있다.
본 개시내용은 대상체의 제1 샘플에서 미소부수체 소수 대립유전자 특성을 결정함으로써 대상체의 게놈 연령을 결정하는 컴퓨터 구현 방법을 제공한다. 미소부수체 소수 대립유전자 특성은 참조 서열과 비교할 때 SNP 백분율, 확장 백분율, 수축 백분율, SNP에 대한 확장 및 수축의 비, 이형접합 좌위 백분율 또는 동형접합 좌위 백분율이 상이한 미소부수체를 포함하는 소수 대립유전자일 수 있다. 일부 경우에, 미소부수체 소수 대립유전자 특성은 참조 서열과 비교할 때 적어도 하나의 좌위에서의 SNP와 인델 변이, 미소부수체 변이, 동의 SNP, 비동의 SNP, 스탑게인 SNP, 스탑로스 SNP, 스플라이싱 변이체(예를 들어, 스플라이싱 연결부 내 2-bp), 프레임시프트 인델 및 비-프레임시프트 인델의 조합이 상이한 미소부수체를 포함하는 소수 대립유전자를 포함할 수 있다. 일부 경우에, 미소부수체 소수 대립유전자 특성은 동일한 대상체에서 다수의 시점에 걸쳐 결정된다.
VI. 컴퓨터 시스템, 프로세서 및 메모리
본 개시내용은 본 개시내용에 설명된 방법을 구현하도록 구성된 컴퓨터 시스템을 제공한다. 일부 사례에서, 임의로 컴퓨터 네트워크에 연결된 컴퓨터 처리 장치; 및 컴퓨터 처리 장치에 의해 실행되는 소프트웨어 모듈을 포함하는 시스템이 본원에 개시된다. 일부 사례에서, 시스템은 중앙 처리 유닛(CPU), 메모리(예를 들어, 랜덤 액세스 메모리, 플래시 메모리), 전자 저장 유닛, 컴퓨터 프로그램, 하나 이상의 다른 시스템과 통신하는 통신 인터페이스, 및 이들의 임의의 조합을 포함한다. 일부 사례에서, 시스템은 컴퓨터 네트워크, 예를 들어 인터넷, 인트라넷 및/또는 인터넷, 전기통신 또는 데이터 네트워크와 통신하는 엑스트라넷에 연결된다. 일부 측면에서, 시스템은 본 개시내용에 기재된 방법의 임의의 측면에 관한 데이터 및 정보를 저장하기 위한 저장 유닛을 포함한다. 시스템의 다양한 측면은 제품 또는 물품 또는 제조이다.
컴퓨터 프로그램의 하나의 특징은 지정된 작업을 수행하도록 작성된, 디지털 처리 장치의 CPU에서 실행 가능한 명령어 시퀀스를 포함한다. 일부 측면에서, 컴퓨터 판독가능 명령어는 특정 작업을 수행하거나 특정 추상적 데이터 유형을 구현하는 기능, 특징, 애플리케이션 프로그래밍 인터페이스(API), 데이터 구조 등과 같은 프로그램 모듈로서 구현된다. 다양한 실시양태에서, 컴퓨터 프로그램은 다양한 언어의 다양한 버전으로 작성될 수 있다.
컴퓨터 판독가능 명령어의 기능은 다양한 환경에서 원하는 대로 결합되거나 분배된다. 일부 사례에서, 컴퓨터 프로그램은 하나의 명령어 시퀀스 또는 복수의 명령어 시퀀스를 포함한다. 컴퓨터 프로그램은 하나의 위치로부터 제공될 수 있다. 컴퓨터 프로그램은 복수의 위치로부터 제공될 수 있다. 일부 측면에서, 컴퓨터 프로그램은 하나 이상의 소프트웨어 모듈을 포함한다. 일부 측면에서, 컴퓨터 프로그램은, 부분적으로 또는 전체적으로, 하나 이상의 웹 애플리케이션, 하나 이상의 모바일 애플리케이션, 하나 이상의 독립형 애플리케이션, 하나 이상의 웹 브라우저 플러그인, 확장 프로그램, 애드인(ad-in) 또는 애드온(ad-on), 또는 이들의 조합을 포함한다.
컴퓨터 시스템
본 개시내용은 본 개시내용의 방법을 구현하도록 프로그래밍된 컴퓨터 시스템을 제공한다. 도 18은 본원에 설명된 방법을 실행하도록 프로그래밍될 수 있거나 달리 구성될 수 있는 컴퓨터 시스템(1801)을 도시한다. 컴퓨터 시스템(1801)은 핵산 위치 정보를 입력하고 입력된 정보를 데이터세트로 전송하고 데이터세트로 훈련된 알고리즘을 생성하는 것을 포함하여, 본 개시내용의 다양한 측면을 조절할 수 있다. 컴퓨터 시스템(1801)은 사용자 전자 장치 또는 원격 컴퓨터 시스템일 수 있다. 전자 장치는 모바일 전자 장치일 수 있다.
컴퓨터 시스템(1801)은 순차 처리 또는 병렬 처리를 통해 단일 코어 또는 다중 코어 프로세서일 수 있는 중앙 처리 유닛(CPU, 본원에서 "프로세서" 및 "컴퓨터 프로세서"로도 지칭됨)(1805)를 포함한다. 컴퓨터 시스템(1801)은 또한 메모리 유닛 또는 장치(1810)(예를 들어, 랜덤 액세스 메모리, 읽기 전용 메모리, 플래시 메모리), 저장 유닛(1815)(예를 들어, 하드 디스크), 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스(1820)(예를 들어, 네트워크 어댑터), 및 외부 또는 내부 또는 둘 다의 주변 장치(1825), 예컨대 프린터, 모니터, USB 드라이브 및/또는 CD-ROM 드라이브를 포함한다. 메모리(1810), 저장 유닛(1815), 인터페이스(1820) 및 주변 장치(1825)는 마더보드와 같은 통신 버스(실선)를 통해 CPU(1805)와 통신한다. 저장 유닛(1815)은 데이터를 저장하기 위한 데이터 저장 유닛(또는 데이터 저장소)일 수 있다. 컴퓨터 시스템(1801)은 통신 인터페이스(1820)의 도움으로 컴퓨터 네트워크("네트워크")(1830)에 작동 가능하게 결합될 수 있다. 네트워크(1830)는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷과 통신하는 인트라넷 및/또는 엑스트라넷일 수 있다. 일부 경우에 네트워크(1830)는 전기통신 및/또는 데이터 네트워크이다. 네트워크(1830)는 분산된 컴퓨팅을 지원하는 피어 투 피어(peer-to-peer) 네트워크를 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 일부 경우에, 네트워크(1830)는 컴퓨터 시스템(1801)의 도움으로 클라이언트-서버 구조를 구현할 수 있으며, 이는 컴퓨터 시스템(1801)에 결합된 장치가 클라이언트 또는 서버로서 동작할 수 있도록 한다.
CPU(1805)는 프로그램 또는 소프트웨어에 통합될 수 있는 기계 판독가능 명령어 시퀀스를 실행할 수 있다. 명령어는 메모리(1810)에 저장될 수 있다. 명령어는 CPU(1805)로 보내질 수 있고, 이는 후속적으로 본 개시내용의 방법을 구현하도록 CPU(1805)를 프로그래밍할 수 있거나 달리 구성할 수 있다. CPU(1805)에 의해 수행되는 작업의 예로는 인출, 복호화, 실행 및 재기록이 포함될 수 있다.
CPU(1805)는 집적 회로와 같은 회로의 일부분일 수 있다. 시스템(1801)의 하나 이상의 다른 구성요소가 회로에 포함될 수 있다. 일부 실시양태에서, 회로는 애플리케이션 특정 집적 회로(ASIC)이다.
저장 유닛(1815)은 드라이버, 라이브러리 및 저장된 프로그램과 같은 파일을 저장할 수 있다. 저장 유닛(1815)은 사용자 데이터, 예를 들어, 사용자 선호도 및 사용자 프로그램을 저장할 수 있다. 일부 경우에, 컴퓨터 시스템(1801)은 예컨대 인트라넷 또는 인터넷을 통해 컴퓨터 시스템(1801)과 통신하는 원격 서버에 위치하는 컴퓨터 시스템(1801)의 외부에 있는 하나 이상의 추가 데이터 저장 유닛을 포함할 수 있다.
컴퓨터 시스템(1801)은 네트워크(1830)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들어, 컴퓨터 시스템(1801)은 원격 컴퓨터 시스템 또는 사용자와 통신할 수 있다. 원격 컴퓨터 시스템의 예로는 개인용 컴퓨터(예를 들어, 휴대용 PC), 슬레이트 또는 태블릿 PC(예를 들어, Apple® iPad, Samsung® Galaxy Tab), 전화기, 스마트폰(예를 들어, Apple® 아이폰(iPhone), 안드로이드(Android) 지원 장치, Blackberry®) 또는 개인 휴대형 정보 단말기가 포함된다. 사용자는 네트워크(1830)를 통해 컴퓨터 시스템(1801)에 접근할 수 있다.
본원에 설명된 방법은 예를 들어 메모리(1810) 또는 데이터 저장 유닛(1815) 내에서, 컴퓨터 시스템(1801)의 전자 저장 위치 상에 저장된 기계(예를 들어, 컴퓨터 프로세서) 실행가능 코드에 의해 구현될 수 있다. 기계 실행가능 또는 기계 판독가능 코드는 소프트웨어의 형태로 제공될 수 있다. 사용 동안, 코드는 프로세서(1805)에 의해 실행될 수 있다. 일부 경우에, 코드는 저장 유닛(1815)에서 검색될 수 있고 프로세서(1805)에 의한 즉시 접근을 위해 메모리(1810)에 저장될 수 있다. 일부 상황에서, 저장 유닛(1815)은 배제될 수 있고 기계 실행가능 명령어는 메모리(1810)에 저장된다.
코드는 코드를 실행하도록 적응된 프로세서를 갖는 기계와 함께 사용하기 위해 미리 컴파일되고 구성될 수 있거나, 런타임 동안 컴파일될 수 있다. 코드는 코드를 미리 컴파일된 상태로 또는 컴파일된 방식으로 실행할 수 있도록 선택될 수 있는 프로그래밍 언어로 제공될 수 있다.
본원에 제공된 시스템 및 방법의 측면, 예컨대 컴퓨터 시스템(1801)은 프로그래밍에 통합될 수 있다. 본 기술의 다양한 측면은 전형적으로 한 가지 유형의 기계 판독가능 매체 상에 보유되거나 그 안에서 구현되는 기계(또는 프로세서) 실행가능 코드 및/또는 관련 데이터의 형태인 "제품" 또는 "제조품"으로 생각될 수 있다. 기계 실행가능 코드는 하드 디스크와 같은 저장 유닛 또는 메모리(예를 들어, 읽기 전용 메모리, 랜덤 액세스 메모리, 플래시 메모리)에 저장될 수 있다. "저장"형 매체는 컴퓨터, 프로세서 등의 임의의 또는 모든 유형(tangible) 메모리, 또는 다양한 반도체 메모리, 테이프 드라이버, 디스크 드라이버 등을 포함하는 이의 연관된 모듈을 포함할 수 있고, 이는 소프트웨어 프로그래밍을 위해 임의의 시간에 비일시적인 저장을 제공할 수 있다. 소프트웨어의 전부 또는 일부분은 때때로 인터넷 또는 다양한 다른 전기통신 네트워크를 통해 통신될 수 있다. 이러한 통신은, 예를 들어 하나의 컴퓨터 또는 프로세서로부터 다른 것으로, 예를 들면, 관리 서버 또는 호스트 컴퓨터로부터 어플리케이션 서버의 컴퓨터 플랫폼으로 소프트웨어의 로딩을 가능하게 할 수 있다. 따라서, 소프트웨어 요소를 보유할 수 있는 다른 유형의 매체는, 예컨대 유선 및 광지상선 네트워크 및 다양한 공중 연결을 통해 로컬 장치들 간의 물리적 인터페이스에 걸쳐 사용되는 광학파, 전기파 및 전자기파를 포함한다. 이러한 파를 보유한 물리적 요소, 예컨대 유선 또는 무선 회선, 광회선 등은 또한 소프트웨어를 보유한 매체로서 간주될 수 있다. 본원에서 사용되는 바와 같이, 비일시적인, 유형 "저장" 매체로 제한되지 않는 한, 컴퓨터 또는 기계 "판독가능 매체"와 같은 용어는 실행을 위해 프로세서에 명령어를 제공하는 데 참여하는 임의의 매체를 지칭한다.
A. 전자 장치
일부 측면에서, 본원에서 설명된 플랫폼, 매체 구현 방법 및 애플리케이션은 전자 장치, 프로세서, 또는 이들의 사용(디지털 처리 장치로도 지침)을 포함한다. 추가 측면에서, 전자 장치는 장치의 기능들을 수행하는 하나 이상의 하드웨어 중앙 처리 유닛(CPU)을 포함한다. 또 다른 측면에서, 전자 장치는 실행가능 명령어를 수행하도록 구성된 운영 체제를 추가로 포함한다. 일부 측면에서, 전자 장치는 임의로 컴퓨터 네트워크에 연결된다. 추가 측면에서, 전자 장치는 월드 와이드 웹(World Wide Web)에 접근하도록 인터넷에 임의로 연결된다. 또 다른 측면에서, 전자 장치는 임의로 클라우드 컴퓨팅 인프라구조에 연결된다. 일부 측면에서, 전자 장치는 임의로 인트라넷에 연결된다. 일부 측면에서, 전자 장치는 임의로 데이터 저장 장치에 연결된다. 본원의 설명에 따르면, 적합한 전자 장치는 비제한적인 예로서, 서버 컴퓨터, 데스크탑 컴퓨터, 랩탑 컴퓨터, 노트북 컴퓨터, 서브노트북 컴퓨터, 넷북 컴퓨터, 넷 패드 컴퓨터, 셋탑 컴퓨터, 휴대용 컴퓨터, 인터넷 어플라이언스, 모바일 스마트폰, 태블릿 컴퓨터, 개인 휴대형 정보 단말기, 비디오 게임 콘솔 및 차량을 포함한다. 다양한 실시양태에서, 많은 스마트폰이 본원에 설명된 시스템에서 사용하기에 적합하다. 다양한 실시양태에서, 선택적인 컴퓨터 네트워크 연결을 갖는 선택 텔레비전, 비디오 플레이어 및 디지털 음악 플레이어는 본원에 설명된 시스템에서 사용하기에 적합하다. 적합한 태블릿 컴퓨터는 소책자, 슬레이트 및 컨버터블 구성을 갖는 컴퓨터를 포함한다.
일부 측면에서, 전자 장치는 실행가능 명령어를 수행하도록 구성된 운영 체제를 포함한다. 운영 체제는 예를 들어 장치의 하드웨어를 관리하고 애플리케이션의 실행을 위한 서비스를 제공하는 프로그램 및 데이터를 포함하는 소프트웨어이다. 다양한 실시양태에서, 적절한 서버 운영 체제는 비제한적인 예로서, FreeBSD, OpenBSD, NetBSD®, Linux, Ubuntu Linux, Apple® Mac OS X Server®, Oracle® Solaris®, Windows Server® 및 Novell® NetWare®을 포함한다. 다양한 실시양태에서, 적합한 개인용 컴퓨터 운영 체제는 비제한적인 예로서, Microsoft® Windows®, Apple® Mac OS X®, UNIX® 및 UNIX-유사 운영 체제, 예컨대 GNU/Linux®을 포함한다. 일부 측면에서, 운영 체제는 클라우드 컴퓨팅에 의해 제공된다. 다양한 실시양태에서, 적합한 모바일 스마트폰 운영 체제는 비제한적인 예로서, Nokia® Symbian® OS, Apple® iOS®, Research In Motion® BlackBerry OS®, Google® Android®, Microsoft® Windows Phone® OS, Microsoft® Windows Mobile® OS, Linux® 및 Palm® WebOS®을 포함한다.
일부 측면에서, 장치는 저장 및/또는 메모리 장치를 포함한다. 저장 및/또는 메모리 장치는 데이터 또는 프로그램을 일시적 또는 영구적 기반으로 저장하는 데 사용되는 하나 이상의 물리적 장치이다. 일부 측면에서, 장치는 휘발성 메모리이고 저장된 정보를 유지하기 위해 전력을 필요로 한다. 일부 측면에서, 장치는 비휘발성 메모리이고 전자 장치에 전원이 공급되지 않을 때 저장된 정보를 유지한다. 추가 측면에서, 비휘발성 메모리는 플래시 메모리를 포함한다. 일부 측면에서, 비휘발성 메모리는 동적 랜덤 액세스 메모리(DRAM)를 포함한다. 일부 측면에서, 비휘발성 메모리는 강유전체 랜덤 액세스 메모리(FRAM)를 포함한다. 일부 측면에서, 비휘발성 메모리는 상변화 랜덤 액세스 메모리(PRAM)를 포함한다. 일부 측면에서, 비휘발성 메모리는 자기저항 랜덤 액세스 메모리(MRAM)를 포함한다. 일부 측면에서, 장치는 비제한적인 예로서 CD-ROM, DVD, 플래시 메모리 장치, 자기 디스크 드라이브, 자기 테이프 드라이브, 광 디스크 드라이브 및 클라우드 컴퓨팅 기반 저장소를 포함하는 저장 장치이다. 추가 측면에서, 저장 및/또는 메모리 장치는 본원에 개시된 것과 같은 장치들의 조합이다.
일부 측면에서, 전자 장치는 시각적 정보를 대상체에게 전송하기 위한 디스플레이를 포함한다. 일부 측면에서, 디스플레이는 음극선관(CRT)이다. 일부 측면에서, 디스플레이는 액정 디스플레이(LCD)이다. 추가 측면에서, 디스플레이는 박막 트랜지스터 액정 디스플레이(TFT-LCD)이다. 일부 측면에서, 디스플레이는 유기 발광 다이오드(OLED) 디스플레이이다. 다양한 추가 측면에서, OLED 디스플레이는 수동 매트릭스 OLED(PMOLED) 또는 능동 매트릭스 OLED(AMOLED) 디스플레이이다. 일부 측면에서, 디스플레이는 플라즈마 디스플레이이다. 일부 측면에서, 디스플레이는 전자-종이 또는 전자 잉크이다. 일부 측면에서 디스플레이는 비디오 프로젝터이다. 또 다른 측면에서, 디스플레이는 본원에 개시된 것과 같은 장치들의 조합이다.
일부 측면에서, 전자 장치는 대상체로부터 정보를 수신하는 입력 장치를 포함한다. 일부 측면에서, 입력 장치는 키보드이다. 일부 측면에서, 입력 장치는 비제한적인 예로서 마우스, 트랙볼, 트랙패드, 조이스틱, 게임 제어기 또는 스타일러스를 포함하는 포인팅 장치이다. 일부 측면에서, 입력 장치는 터치 스크린 또는 멀티-터치 스크린이다. 일부 측면에서, 입력 장치는 음성 또는 기타 사운드 입력을 캡처하는 마이크로폰이다. 일부 측면에서, 입력 장치는 움직임 또는 시각적 입력을 캡처하는 비디오 카메라 또는 기타 센서이다. 추가 측면에서, 입력 장치는 키넥트(Kinect), 립 모션(Leap Motion) 등이다. 다른 추가 측면에서, 입력 장치는 본원에 개시된 것과 같은 장치들의 조합이다.
B. 비일시적 컴퓨터 판독가능 저장 매체
일부 측면에서, 본원에 설명된 플랫폼, 매체 구현 방법 및 애플리케이션은 임의로 네트워크로 연결된 디지털 처리 장치의 운영 체제에 의해 실행 가능한 명령어를 포함하는 프로그램으로 코딩된 하나 이상의 비일시적 컴퓨터 판독가능 저장 매체를 포함한다. 추가 측면에서, 컴퓨터 판독가능 저장 매체는 전자 장치의 유형 구성요소이다. 또 다른 측면에서, 컴퓨터 판독가능 저장 매체는 전자 장치로부터 임의로 제거될 수 있다. 일부 측에서, 컴퓨터 판독가능 저장 매체는 비제한적인 예로서, CD-ROM, DVD, 플래시 메모리 장치, 고체 상태 메모리, 자기 디스크 드라이브, 자기 테이프 드라이브, 광 디스크 드라이브, 클라우드 컴퓨팅 시스템 및 서비스 등을 포함한다. 일부 경우에, 프로그램 및 명령어는 매체 상에 영구적으로, 실질적으로 영구적으로, 반영구적으로 또는 비일시적으로 코딩된다.
C. 컴퓨터 프로그램
일부 측면에서, 본원에 설명된 플랫폼, 매체 구현 방법 및 애플리케이션은 적어도 하나의 컴퓨터 프로그램 또는 이의 사용을 포함한다. 컴퓨터 프로그램은 지정된 작업을 수행하도록 작성된, 전자 장치의 CPU에서 실행 가능한 명령어 시퀀스를 포함한다. 컴퓨터 판독가능 명령어는 특정 작업을 수행하거나 특정 추상 데이터 유형을 구현하는 기능, 객체, 애플리케이션 프로그래밍 인터페이스(API), 데이터 구조 등과 같은 프로그램 모듈로서 구현될 수 있다. 다양한 실시양태에서, 컴퓨터 프로그램은 다양한 언어의 다양한 버전으로 작성될 수 있다.
컴퓨터 판독가능 명령어의 기능은 다양한 환경에서 원하는 대로 결합되거나 분배된다. 일부 사례에서, 컴퓨터 프로그램은 하나의 명령어 시퀀스 또는 복수의 명령어 시퀀스를 포함한다. 컴퓨터 프로그램은 하나의 위치로부터 제공된다. 컴퓨터 프로그램은 복수의 위치로부터 제공된다. 다양한 측면에서, 컴퓨터 프로그램은 하나 이상의 소프트웨어 모듈을 포함한다. 다양한 측면에서, 컴퓨터 프로그램은, 부분적으로 또는 전체적으로, 하나 이상의 웹 애플리케이션, 하나 이상의 모바일 애플리케이션, 하나 이상의 독립형 애플리케이션, 하나 이상의 웹 브라우저 플러그인, 확장 프로그램, 애드인 또는 애드온, 또는 이들의 조합을 포함한다.
D. 웹 애플리케이션
일부 측면에서, 컴퓨터 프로그램은 웹 애플리케이션을 포함한다. 다양한 실시양태에서, 웹 애플리케이션은 다양한 측면에서 하나 이상의 소프트웨어 프레임워크 및 하나 이상의 데이터베이스 시스템을 이용한다. 일부 측면에서, 웹 애플리케이션은 Microsoft® .NET 또는 Ruby on Rails(RoR)과 같은 소프트웨어 프레임워크에서 생성된다. 일부 측면에서, 웹 애플리케이션은 비제한적인 예로서, 관계형, 비관계형, 객체 지향적, 연관적 및 XML 데이터베이스 시스템을 포함하는 하나 이상의 데이터베이스 시스템을 이용한다. 추가 측면에서, 적합한 관계형 데이터베이스 시스템은 비제한적인 예로서 Microsoft® SQL Server, mySQL™, 및 Oracle®을 포함한다. 다양한 실시양태에서, 웹 애플리케이션은 다양한 측면에서 하나 이상의 언어의 하나 이상의 버전으로 작성된다. 웹 애플리케이션은 하나 이상의 마크업 언어, 프리젠테이션 정의 언어, 클라이언트-측 스크립팅 언어, 서버-측 코딩 언어, 데이터베이스 쿼리 언어 또는 이들의 조합으로 작성될 수 있다. 일부 측면에서, 웹 애플리케이션은 하이퍼 텍스트 마크업 언어(HTML), 확장 하이퍼 텍스트 마크업 언어(XHTML) 또는 확장 마크업 언어(XML)같은 마크업 언어로 어느 정도 작성된다. 일부 측면에서, 웹 애플리케이션은 캐스케이딩 스타일 시트(CSS)와 같은 프리젠테이션 정의 언어로 어느 정도 작성된다. 일부 측면에서, 웹 애플리케이션은 에이신커너스 자바스크립트(Asynchronous Javascript) 및 XML(AJAX), Flash® Actionscript, 자바스크립트 또는 Silverlight®와 같은 클라이언트-측 스크립팅 언어로 어느 정도 작성된다. 일부 측면에서, 웹 애플리케이션은 액티브 서버 페이지(Active Server Pages: ASP), ColdFusion®, Perl, Java™, 자바서버 페이지(JavaServer Pages: JSP), 하이퍼텍스트 프로세서(Hypertext Preprocessor: PHP), Python™, 루비(Ruby), Tcl, 스몰토크(Smalltalk), WebDNA® 또는 그루비(Groovy)과 같은 서버-측 코딩 언어로 어느 정도 작성된다. 일부 측면에서, 웹 애플리케이션은 구조화 쿼리 언어(SQL)와 같은 데이터베이스 쿼리 언어로 어느 정도 작성된다. 일부 측면에서, 웹 애플리케이션은 IBM® Lotus Domino® 같은 엔터프라이즈 서버 제품을 통합한다. 일부 측면에서, 웹 애플리케이션은 미디어 플레이어 요소를 포함한다. 다양한 추가 측면에서, 미디어 플레이어 요소는 비제한적인 예로서 Adobe® Flash®, HTML 5, Apple®, QuickTime®, Microsoft® Silverlight® Java™ 및 Unity®를 포함하는 많은 적합한 멀티미디어 기술 중 하나 이상을 이용한다.
E. 모바일 애플리케이션
일부 측면에서, 컴퓨터 프로그램은 모바일 전자 장치에 제공된 모바일 애플리케이션을 포함한다. 일부 측면에서, 모바일 애플리케이션은 제조시에 모바일 전자 장치에 제공된다. 일부 측면에서, 모바일 애플리케이션은 본원에 설명된 컴퓨터 네트워크를 통해 모바일 전자 장치에 제공된다.
다양한 실시양태에서, 모바일 애플리케이션은 하드웨어, 언어 및 개발 환경을 사용하여 다양한 기술에 의해 생성된다. 다양한 실시양태에서, 모바일 애플리케이션은 몇가지 언어로 작성된다. 적합한 프로그래밍 언어는 비제한적인 예로서 C, C++, C#, 오브젝티브-C(Objective-C), Java™, 자바스크립트, 파스칼(Pascal), 오브젝트 파스칼(Object Pascal), Python™, 루비, VB.NET, WML, 및 CSS를 갖거나 갖지 않는 XHTML/HTML 또는 이들의 조합을 포함한다.
적합한 모바일 애플리케이션 개발 환경은 몇가지 공급원으로부터 입수 가능하다. 상업적으로 입수 가능한 개발 환경은 비제한적인 예로서 AirplaySDK, alcheMo, Appcelerator®, 셀시우스(Celsius), 베드락(Bedrock), 플래시 라이트(Flash Lite), .NET 컴팩트 프레임워크(Compact Framework), 로모바일(Rhomobile) 및 워크라이트 모바일 플랫폼(WorkLight Mobile Platform)을 포함한다. 비제한적 예로서 라자루스(Lazarus), 모비플렉스(MobiFlex), 모신크(MoSync) 및 폰갭(Phonegap)을 포함하는 다른 개발 환경은 비용 없이 입수 가능하다. 또한, 모바일 장치 제조업체는 비제한적 예로서 아이폰 및 아이패드(iOS) SDK, Android™ SDK, BlackBerry® SDK, BREW SDK, Palm® OS SDK, 심비안 SDK, webOS SDK 및 Windows® Mobile SDK를 포함하는 소프트웨어 개발자 키트를 배포한다.
다양한 실시양태에서, 몇가지 상업적 포럼은 비제한적인 예로서 Apple® 앱 스토어(App Store), Android™ 마켓, BlackBerry® 앱 월드, Palm 장치용 앱 스토어, webOS, 모바일용 Windows® 마켓플레이스, Nokia® 장치용 Ovi 스토어, Samsung® 앱 및 Nintendo® DSi 샵을 포함하는 모바일 애플리케이션의 배포를 위해 입수 가능하다.
F. 독립형 애플리케이션
일부 측면에서, 컴퓨터 프로그램은 기존 프로세스에 대한 애드-온이 아닌, 예를 들면, 플러그-인(plug-in)이 아닌 독립적 컴퓨터 프로세스로서 실행되는 프로그램인 독립형 애플리케이션을 포함한다. 다양한 실시양태에서, 독립형 애플리케이션은 종종 컴파일된다. 컴파일러는 프로그래밍 언어로 작성된 원시 코드를 이진법 객체 코드, 예컨대 어셈블리 언어 또는 기계 코드로 변환시키는 컴퓨터 프로그램(들)이다. 적합한 컴파일된 프로그래밍 언어는 비제한적 예로서 C, C++, 오브젝티브-C, 코볼(COBOL), 델피(Delphi), 에이펠(Eiffel), Java™, 리스프(Lisp), Python™, 비쥬얼 베이직(Visual Basic) 및 VB .NET, 또는 이들의 조합을 포함한다. 컴파일화는 종종 적어도 부분적으로 실행 가능한 프로그램을 생성하기 위해 수행된다. 일부 측면에서, 컴퓨터 프로그램은 하나 이상의 실행 가능한 컴파일된 애플리케이션을 포함한다.
G. 소프트웨어 모듈
일부 측면에서, 본원에 설명된 플랫폼, 매체 구현 방법 및 애플리케이션은 소프트웨어, 서버 및/또는 데이터베이스 모듈, 또는 이들의 사용을 포함한다. 다양한 실시양태에서, 소프트웨어 모듈은 기계, 소프트웨어 및 언어를 사용하는 다양한 기술에 의해 생성된다. 본원에 개시된 소프트웨어 모듈은 다양한 방식으로 구현될 수 있다. 다양한 측면에서, 소프트웨어 모듈은 파일, 코드의 섹션, 프로그래밍 객체, 프로그래밍 구조 또는 이들의 조합을 포함한다. 추가의 다양한 측면에서, 소프트웨어 모듈은 복수의 파일, 복수의 코드 섹션, 복수의 프로그래밍 객체, 복수의 프로그래밍 구조 또는 이들의 조합을 포함한다. 다양한 측면에서, 하나 이상의 소프트웨어 모듈은 비제한적인 예로서, 웹 애플리케이션, 모바일 애플리케이션 및 독립형 애플리케이션을 포함한다. 일부 측면에서, 소프트웨어 모듈은 하나의 컴퓨터 프로그램 또는 애플리케이션 내에 있다. 일부 측면에서, 소프트웨어 모듈은 하나 초과의 컴퓨터 프로그램 또는 애플리케이션 내에 있다. 일부 측면에서, 소프트웨어 모듈은 하나의 기계에 호스팅된다. 일부 측면에서 소프트웨어 모듈은 하나 초과의 기계에 호스팅된다. 추가 측면에서, 소프트웨어 모듈은 클라우드 컴퓨팅 플랫폼에 호스팅된다. 일부 측면에서, 소프트웨어 모듈은 하나의 위치에서 하나 이상의 기계에 호스팅된다. 일부 측면에서, 소프트웨어 모듈은 하나 초과의 위치에서 하나 초과의 기계에 호스팅된다.
H. 데이터베이스
일부 측면에서, 본원에 개시된 플랫폼, 시스템, 미디어 및 방법은 하나 이상의 데이터베이스 또는 이의 사용을 포함한다. 다양한 실시양태에서, 많은 데이터베이스가 바코드, 경로, 소포, 주제 또는 네트워크 정보의 저장 및 검색에 적합하다. 다양한 측면에서, 적합한 데이터베이스는 비제한적인 예로서 관계형 데이터베이스, 비관계형 데이터베이스, 객체 지향 데이터베이스, 객체 데이터베이스, 개체-관계 모델 데이터베이스, 연관 데이터베이스 및 XML 데이터베이스를 포함한다. 일부 측면에서, 데이터베이스는 인터넷-기반이다. 추가 측면에서, 데이터베이스는 웹-기반이다. 또 다른 측면에서, 데이터베이스는 클라우드 컴퓨팅-기반이다. 일부 측면에서, 데이터베이스는 하나 이상의 로컬 컴퓨터 저장 장치에 기반한다.
I. 데이터 전송
본원에 제공된 방법 및 시스템을 포함하는 본원에 설명된 청구 대상은 하나 이상의 위치에 있는 하나 이상의 시설에서 수행되도록 구성될 수 있다. 시설 위치는 국가에 의해 제한되지 않으며 모든 국가 또는 지역을 포함한다. 일부 사례에서, 하나 이상의 단계는 방법의 다른 단계와 상이한 국가에서 수행된다. 일부 사례에서, 샘플을 수득하기 위한 하나 이상의 단계는 샘플에서 병태의 존재 또는 부재를 검출하기 위한 하나 이상의 단계와 상이한 국가에서 수행된다. 일부 측면에서, 컴퓨터 시스템과 관련된 하나 이상의 방법 단계는 본원에 제공된 방법의 다른 단계와 상이한 국가에서 수행된다. 일부 측면에서, 데이터 처리 및 분석은 본원에 설명된 방법의 하나 이상의 단계와 상이한 국가 또는 위치에서 수행된다. 일부 측면에서, 하나 이상의 물품, 제품 또는 데이터는 분석 또는 추가 분석을 위해 하나 이상의 시설로부터 하나 이상의 상이한 시설로 이송된다. 물품은 대상체로부터 수득된 하나 이상의 성분, 예를 들어 가공처리된 세포 물질을 포함하지만, 이에 제한되지 않는다. 가공처리된 세포 물질은 RNA로부터 역전사된 cDNA, 증폭된 RNA, 증폭된 cDNA, 시퀀싱된 DNA, 단리 및/또는 정제된 RNA, 단리 및/또는 정제된 DNA 및/또는 정제된 폴리펩티드를 포함하지만, 이에 제한되지 않는다. 데이터는 대상체의 계층화에 관한 정보 및 본원에 개시된 방법에 의해 생성된 임의의 데이터를 포함하지만, 이에 제한되지 않는다. 본원에 설명된 방법 및 시스템의 일부 측면에서, 분석이 수행되고 후속 데이터 전송 단계는 분석 결과를 전달하거나 전송할 것이다.
J. 웹 브라우저 플러그인
일부 측면에서, 컴퓨터 프로그램은 웹 브라우저 플러그인을 포함한다. 컴퓨팅에서, 플러그인은 더 큰 소프트웨어 애플리케이션에 특정 기능을 추가하는 하나 이상의 소프트웨어 구성요소이다. 소프트웨어 애플리케이션 제작자는 타사 개발자가 애플리케이션을 확장하는 기능을 만들고 새로운 특징을 쉽게 추가하고 애플리케이션의 크기를 줄일 수 있도록 하는 플러그인을 지원한다. 지원되는 경우, 플러그인은 소프트웨어 애플리케이션의 기능을 사용자 정의할 수 있도록 한다. 예를 들어, 플러그인은 일반적으로 웹 브라우저에서 비디오를 재생하고, 상호작용을 생성하고, 바이러스를 검색하고, 특정 파일 형식을 표시하는 데 사용된다. 다양한 실시양태에서, Adobe® Flash® Player, Microsoft® Silverlight® 및 Apple® QuickTime®을 포함하는 몇가지 웹 브라우저 플러그인이 사용될 수 있다. 일부 측면에서, 툴바는 하나 이상의 웹 브라우저 확장, 애드인 또는 애드온을 포함한다. 일부 측면에서, 툴바는 하나 이상의 탐색기 바, 툴 밴드 또는 데스크 밴드를 포함한다.
다양한 실시양태에서, 비제한적인 예로서 C++, Delphi, Java™, PHP, Python™ 및 VB .NET 또는 이들의 조합을 포함하는 다양한 프로그래밍 언어로 플러그인을 개발할 수 있게 하는 몇가지 플러그인 프레임워크가 이용 가능한다.
웹 브라우저(인터넷 브라우저로도 불림)는 월드 와이드 웹에서 정보 자원을 검색, 제시 및 탐색하기 위해 네트워크에 연결된 전자 장치와 함께 사용하도록 설계된 소프트웨어 애플리케이션이다. 적합한 웹 브라우저는 비제한적인 예로서 Microsoft® Internet Explorer®, Mozilla® Firefox®, Google® Chrome, Apple® Safari®, Opera Software® Opera® 및 KDE Konqueror를 포함한다. 일부 측면에서, 웹 브라우저는 모바일 웹 브라우저이다. 모바일 웹 브라우저(마이크로브라우저, 미니-브라우저 및 무선 브라우저로도 불림)는 비제한적인 예로서 휴대용 컴퓨터, 태블릿 컴퓨터, 넷북 컴퓨터, 서브노트북 컴퓨터, 스마트폰, 음악 플레이어, 개인 휴대형 정보 단말기(PDA) 및 휴대용 비디오 게임 시스템을 포함하는 모바일 전자 장치에서 사용하도록 설계되었다. 적합한 모바일 웹 브라우저는 비제한적인 예로서 Google® Android® 브라우저, RIM BlackBerry® 브라우저, Apple® Safari®, Palm® Blazer, Palm® WebOS® 브라우저, 모바일용 Mozilla® Firefox®, Microsoft® 인터넷을 포함한다. Explorer® 모바일, Amazon® Kindle® Basic Web, Nokia® 브라우저, Opera Software® Opera® 모바일 및 Sony® PSP™ 브라우저를 포함한다.
K. 컴퓨터를 이용한 비즈니스 방법
본원에 설명된 방법은 하나 이상의 컴퓨터를 이용할 수 있다. 컴퓨터는 샘플 또는 고객 추적, 데이터베이스 관리, 분자 프로파일링 데이터 분석, 세포학적 데이터 분석, 데이터 저장, 요금청구, 마케팅, 결과 보고, 결과 저장 또는 이들의 조합과 같은 고객 및 샘플 정보를 관리하기 위해 사용할 수 있다. 컴퓨터는 데이터, 결과, 요금청구 정보, 마케팅 정보(예를 들어, 인구통계), 고객 정보 또는 샘플 정보를 표시하기 위한 모니터 또는 기타 그래픽 인터페이스를 포함할 수 있다. 컴퓨터는 또한 데이터 또는 정보 입력 수단을 포함할 수 있다. 컴퓨터는 처리 유닛 및 고정 또는 제거 가능한 매체 또는 이들의 조합을 포함할 수 있다. 컴퓨터는 컴퓨터에 물리적으로 근접한 사용자에 의해 예를 들어 키보드 및/또는 마우스를 통해 접근될 수 있거나, 물리적 컴퓨터에 접근할 필요가 없는 사용자에 의해 모뎀, 인터넷 연결, 전화 연결 또는 유선 또는 무선 통신 신호 반송파와 같은 통신 매체를 통해 접근될 수 있다. 일부 경우에, 컴퓨터는 사용자로부터 컴퓨터로 또는 컴퓨터로부터 사용자로 정보를 중계하기 위해 서버 또는 다른 통신 장치에 연결될 수 있다. 일부 경우에, 사용자는 통신 매체를 통해 컴퓨터로부터 수득된 데이터 또는 정보를 이동식 매체와 같은 매체에 저장할 수 있다. 방법과 관련된 데이터는 당사자에 의한 수신 및/또는 검토를 위해 이러한 네트워크 또는 연결을 통해 전송될 수 있는 것으로 구상된다. 수신 당사자는 개인, 의료 제공자 또는 의료 관리자가 될 수 있지만 이에 제한되지 않는다. 일례로, 컴퓨터 판독가능 매체는 생물학적 샘플의 분석 결과를 전송하기에 적합한 매체를 포함한다. 매체는 대상체의 결과를 포함할 수 있으며, 여기서 이러한 결과는 본원에 설명된 방법을 사용하여 도출된다.
샘플 정보를 수득한 개체는 다음 중 하나 이상의 목적을 위해 이를 데이터베이스에 입력할 수 있다: 재고 추적, 분석 결과 추적, 주문 추적, 고객 관리, 고객 서비스, 요금청구 및 판매. 샘플 정보는 고객명, 고유한 고객 식별, 고객 관련 의료 전문가, 표시된 분석 또는 분석들, 분석 결과, 적절성 상태, 표시된 적절성 시험, 개인의 병력, 예비 진단, 의심되는 진단, 샘플 기록, 보험 제공자, 의료 제공자, 제3자 시험 센터 또는 데이터베이스에 저장하기에 적합한 임의의 정보를 포함할 수 있지만, 이에 제한되지 않는다. 샘플 기록은 샘플의 연령, 샘플의 유형, 획득 방법, 저장 방법 또는 운송 방법을 포함할 수 있지만, 이에 제한되지 않는다.
데이터베이스는 고객, 의료 전문가, 보험 제공자 또는 기타 제3자에 의해 접근될 수 있다. 데이터베이스 접근은 컴퓨터 또는 전화와 같은 전자 통신의 형태를 취할 수 있다. 데이터베이스는 고객 서비스 담당자, 비즈니스 담당자, 컨설턴트, 독립적 시험 센터 또는 의료 전문가와 같은 중개자를 통해 접근될 수 있다. 데이터베이스 접근 또는 분석 결과와 같은 샘플 정보의 가용성 또는 정도는 제공되거나 제공될 제품 및 서비스에 대한 요금 지불시 변경될 수 있다. 데이터베이스 접근 또는 샘플 정보의 정도는 환자 또는 고객 기밀 유지를 위해 일반적으로 허용되는 또는 법적 요건을 준수하도록 제한될 수 있다.
실시예
하기 제공된 실시예는 단지 예시적 목적을 위한 것이며 본원에 제공된 청구범위를 제한하려는 것이 아니다.
실시예 1: 생식계열 미소부수체 유전자형은 수모세포종(MB)을 갖는 아동을 구별한다
서론
수모세포종(MB)은 흔한 악성 아동 뇌 종양이다. MB를 갖는 아동은 일생 동안 아직 환경 노출 및 스트레스를 겪지 않았기 때문에 MB는 주로 유전성 또는 자발적 돌연변이에 의해 유발될 수 있다. 광범위한 게놈 특성규명은 MB 종양을 WNT, SHH, 그룹3 및 그룹 4의 적어도 4가지의 공통 분자 하위그룹으로 나누었으며, 각각은 고유한 전사 프로파일, 카피수 변경, 체세포 돌연변이 및 임상 결과를 갖는다. 일반적으로 소아 뇌암 및 구체적으로 MB는 성인 고형 종양에서 전형적으로 관찰되는 것보다 5 내지 10배 더 적은 돌연변이를 갖는다. 특히 p53, PTEN, RB 및 EGFR과 같은 가장 중요한 종양 개시 유전자 돌연변이는 흔하지 않다. 또한, 알려진 유전성 종양 소인성 돌연변이의 발생률은 상대적으로 낮을 수 있다. PTCH, SMO 및 CTNNB1의 돌연변이 및 MYC 및 MYCN의 증폭과 같은 몇가지 알려진 유전적 이상은 동물 모델에서 MB를 효율적으로 유발하기에 개별적으로는 불충분할 수 있으며, 잠재적인 배경, 일반적으로 인간 종양의 5% 미만에서 발견될 수 있는 p53 비활성화를 필요로 할 수 있다. MB에서 수많은 게놈 전장 연관성 연구(Genome-wide Association Studies: GWAS)는 비-코딩 영역 및 반복적인 DNA를 무시하면서 단일 뉴클레오티드 변이체에 초점을 맞출 수 있다. 그러나, 생식계열 미소부수체(MS) 삽입 및 삭제(인델)와 헌팅턴병 및 프리드라이히 운동실조증과 같은 수많은 신경계 장애 사이에 연관성이 나타날 수 있다; 전자는 코딩 서열에서 미소부수체 변이체에 의해 발생하고 후자는 비-코딩 인트론 서열에서 발생한다. 또한, 미소부수체 변이는 몇가지 암의 유전적 배경에 기여할 수 있다. 또한, 많은 암 관련 유전자는 MS 좌위(예를 들어, PTEN 및 NF1)를 함유하며, 일부 경우에, 체세포 MS 인델은 암과 인과적으로 관련되어 있다. 이러한 발견들에 기초하여, 개체의 전사 및 번역 상황에 영향을 미치는 DNA 미소부수체 반복 요소들의 협력에 의해 허용적인 체질별 유전 환경이 생성될 수 있으며, 이는 기초적인 세포 과정의 조절을 통해 개체를 종양 형성에 취약하게 만든다.
MS는 연쇄 반복된 1 내지 6개 염기쌍 단위를 포함하여 어레이를 형성할 수 있다. 600,000가지 이상의 고유한 MS가 인간 게놈에 존재하며 이들은 유전자 인트론, 엑손 및 조절 영역에 내포될 수 있다. 미소부수체 좌위의 길이는 가닥 슬립 복제(strand slip replication)와 이형 접합체의 불안정성으로 인해 빈번하게 변할 수 있어, 대립유전자들 간에 및 개체들 간에 다양하다. 이러한 변화는 Z-DNA 및 H-DNA 폴딩을 유도하고; 뉴클레오솜 위치를 변경하고; DNA 결합 부위의 간격을 변화시킴으로써 유전자 발현에 영향을 줄 수 있다. 비-코딩 변이는 DNA 2차 구조 및 이들의 위치에 근접한 유전자의 단백질/RNA 결합을 변경하여 전사 및 번역 활성의 변화뿐만 아니라 선택적 스플라이싱의 변화를 초래할 수 있다. 이러한 이유로, MS는 유전자 발현의 "조정 손잡이(tuning knob)"라고 불려 왔다. 엑손 내에서, 3개 또는 6개 염기쌍의 반복된 요소를 함유하는 미소부수체 좌위는 코돈 트리플렛과 함께 프레임에 체류함으로써 아미노산 증가 또는 손실을 유발할 수 있다; 다른 비-모듈로-3 길이는 프레임시프트 돌연변이를 유발할 수 있다. MS를 보유하는 유전자는 신경계 장애에 불균형적으로 기여할 수 있다. 연쇄 반복부, 특히 CAG 모티프의 확장에 대한 이러한 특정 취약성은 신경발달에서 중요성을 나타낼 수 있다. 사실, 반복적 요소는 신경계 질환에서 역할을 할 수 있다; 특히 폴리글루타메이트 반복부는 헌팅턴병, 척수소뇌 운동실조증 및 척수구근 위축증에서 역할을 할 수 있다. 유사하게, 생물정보학 연구는 연쇄 반복부를 개최하는 많은 유전자가 신경 기능을 가질 수 있음을 나타낸다.
미소부수체 유전자형 검사 알고리즘의 개발 및 게놈 시퀀싱의 발전은 건강한 개체를 상이한 유형의 암(유방, 결장, 신경교종 등)에 걸린 환자와 구별할 수 있는 생식계열 미소부수체 유전자형을 식별할 수 있게 하였다. MB를 갖는 아동을 생식계열 DNA에 기반하여 건강한 개체와 구별할 수 있는 미소부수체 유전자형의 세트가 본 실시에에서 설명된다.
방법
특허 샘플
수모세포종(MB) 환자로부터의 생식계열 DNA WES 및 WGS를 다음의 데이터세트로부터 다운로드하였다: phs000504, phs000409, EGAD00001000122, EGAD00001000275, EGAD00001000816 및 문헌[Waszak, S.M, et. Al (Spectrum and prevalence of genetic predisposition in medulloblastoma: a retrospective genetic study and prospective validation in a clinical trial cohort. The Lancet Oncology, Volume 19, Issue 6 , 785 - 798, 이는 그 전문이 본원에 참조로 통합된다)]. 게다가, TruSeq 엑솜 표적 강화 키트 및 Illumina Sequencer HiSeq 2500을 사용하여 6MB 환자의 혈액 DNA로부터 WES를 새로 생성하였다. 건강한 대조군의 생식계열 DNA WES 및 WGS는 1000 게놈으로부터 다운로드하였다. 100명의 건강한 아동의 생식계열 DNA WES는 독일 하이델베르그 소재의 NCT 하이델베르그에 있는 호프 아동 암 센터(Hopp Children's Cancer Center)에서 제공하였다.
서열 맵핑 및 적용범위
Bowtie2를 사용하여 WES 및 WGS 리드를 인간 GRCh38/hg38 참조 게놈에 맵핑하였다. 전반적으로, 120개의 MB 생식계열 샘플에 대한 적용범위는 31x(31.0 ± 18.2)였다. 대조군의 샘플에 대한 적용범위는 13x(13.4 ± 7.8)였다.
미소부수체 목록 생성
인간 참조 게놈의 버전 GRCh38/hg38 내의 미소부수체 목록을 데폴트 파라미터를 사용하여 맞춤형 Perl 스크립트 'searchTandemRepeats.pl'로 생성하였다. 상기 스크립트는 미소부수체 연구에서 사용할 수 있으며 온라인에서 무료로 입수 가능하다. 간략하게 언급하면, 'searchTandemRepeats.pl' 스크립트는 먼저 순수한 반복 스트레치를 검색하였다: 불순물은 허용되지 않는다. 그 다음, 불완전한 반복부 및 복합 반복부를 10개 염기쌍의 데폴트 값을 갖는 "mergeGap" 파라미터를 사용하여 취급하였다. 본질적으로, 순수한 반복 서열의 스트레치를 방해한 불순물은 10개 염기쌍을 초과하지 않는 한 허용되었다. 마찬가지로, 10개 염기쌍보다 더 가까운 반복부는 복합체로 간주되었다. 그 결과는 CAGm 데이터베이스 내의 반복부가 매우 순수하였고 복합 반복부의 성분도 매우 순수하였다는 것이었다. 이 스크립트로 생성된 초기 목록은 1,671,121개의 미소부수체를 포함하였다. 미소부수체들 간의 부적절한 리드 맵핑 가능성을 완화시키기 위해 5개 염기쌍 길이 3' 및 5' 측면 영역 사이에 동일한 반복 모티프를 보유하는 미소부수체의 모든 서브세트가 제거되었다. 예를 들어, 미소부수체 'GCTGC(A)34CTTAG' 및 'GCTGC(A)15CTTAG'를 초기 미소부수체 목록으로부터 선제적으로 제거하였다. 미소부수체는 더 큰 반복적 모티프에 내포될 수 있다. 필터링된 목록은 인간 게놈 내의 625,195개의 고유한 미소부수체를 포함하였다.
미소부수체 유전자형 검사
프로그램 Repeatseq를 사용하여 차세대 시퀀싱 리드 내의 미소부수체의 유전자형을 결정하였다. Repeatseq는 경험적으로 도출된 오류 모델에 의해 가이드된 베이지안 모델 선택을 사용한다. 오류 모델은 서열 및 리드 특성을 통합하였다: 단위, 길이 및 염기 품질. Repeatseq는 3가지 입력 파일에서 작동하였다: 참조 게놈, 인간 참조 게놈에 정렬된 리드를 함유하는 파일(.bam 파일) 및 알려진 미소부수체의 목록(본원에 개시된 방법 및 시스템에 따름). 출력은 대부분의 지원 리드를 갖는 2개의 대립유전자로 구성된 각 미소부수체 좌위에 대한 유전자형을 나열하는 변이체 호출 포맷(.vcf) 파일이었다. 다른 미소부수체 유전자형 검사 프로그램에 비해 Repeatseq의 장점은 어레이 길이 검출 전에 각 리드를 참조 게놈에 대해 재정렬한다는 것이다. Repeatseq는 미소부수체 연구에서 사용할 수 있으며 무료로 입수 가능하다.
Repeatseq의 능력은 체세포 미소부수체 가변성의 검출을 위해 확장되었다: 예를 들어, 소수 대립유전자. 소수 대립유전자는 유전자형의 1차 대립유전자와 구별될 수 있다; 그들은 사람이 노화함에 따라 정상 조직에서 체세포적으로 획득될 수 있다. 소수 대립유전자는 미소부수체 돌연변이성의 표시로서 사용되었다. 간략하게 언급하면, 소수 대립유전자의 검출은 Repeatseq 출력을 기반으로 하는 2단계를 통해 가능하였다. 먼저, 재정렬된 리드의 출력은 Repeatseq에 대한 호출에서 가능하게 되었다. 둘째, 재정렬된 리드는 유전자형의 모든 1차 대립유전자에서 삭제된다. 나머지 리드 중에서, 적어도 3개의 리드에 의해 지원된 이러한 어레이 길이를 소수 대립유전자로서 카운팅하였다. 그러나, 상이한 샘플들 중의 소수 대립유전자를 비교할 때에는 대안적 접근법을 사용하였다. 구체적으로, 총 리드 깊이(read depth)의 적어도 20%에 의해 지원된 어레이 길이가 소수 대립유전자로서 카운팅된다.
통계
검증을 위한 검정 세트에 충분한 샘플이 있음을 보장하면서 트레이닝 세트의 크기를 선택하기 위해, 다른 암 및 대조군에 대한 미소부수체 유전자형 분포의 이전 관찰에 기반하여 검정력 계산을 수행하였다. 이러한 귀무 가설의 검정과 연관된 보수적인 제1종 오류 확률 0.01이 검증의 일부분으로서 선택되었다. 각 대상체 군 내의 반응은 1의 표준 편차로 정규 분포되는 것으로 나타날 수 있다. 실험군 평균과 대조군 평균의 실제 차이가 2인 경우, 실험군과 대조군의 집단 평균이 120명의 실험 대상체와 426명의 대조군 대상체의 연구에 대해 0.99보다 큰 확률(검정력)과 동일하다는 귀무 가설은 기각되었다. 따라서, 훈련 세트는 이용 가능한 샘플 수에서 적절히 검정력이 있는 것으로 예측되었다.
각 미소부수체에 대해, 유전자형의 분포는 훈련 데이터세트의 2개의 샘플 군: 120명의 MB 및 425명의 건강한 대조군으로부터의 생식계열 DNA에서 상이하였다. 각 경우에, 일반화된 피셔의 정확 검정을 사용하여 통계적 차이를 정량화하였다. 간략하게 언급하면, 각 미소부수체에 대해 분할표를 두 군: MB 및 정상에 대한 유전자형 카운트로 채웠다(도 9). 그 다음, 각 분할표에 대한 p-값을 R에서 피셔 검정 기능을 사용하여 계산하였다. 위발견율을 제어하기 위해 벤자민 호치버그 다중 검정 보정(n=43,457개의 시험된 미소부수체)을 적용하였다.
연령, 인종 및 시퀀싱 프로토콜을 제어하기 위한 미소부수체 필터링
본 연구는 MB에 특이적인 생식계열 미소부수체 변이를 식별하기 위해 설계되었다; 구체적으로, 통계적으로 유의한 미소부수체는 120개의 MB 샘플 및 425개의 건강한 대조군에서 식별되었다. 그러나, 이러한 샘플들은 연령 또는 시퀀싱 프로토콜에 대해 매치되지 않았다; 또한, 그들은 인종에 대해 부분적으로만 매치되었다. 따라서, 이러한 접근법은 질환 상태 단독보다는 연령, 시퀀싱 및 인종적 편향을 가지고 미소부수체를 식별할 위험이 있을 수 있다. 이러한 위험을 경감시키기 위해, 미소부수체를 연령, 시퀀싱 또는 인종에 대한 잠재적 편향으로 식별하고 후속적 분석에서는 이들을 배제하였다.
연령 제어: 유전자형이 연령에 따라 비무작위로 달라지는 미소부수체를 식별하기 위해, 1,000 게놈 프로젝트로부터 100명의 건강한 유럽 아동 및 501명의 유럽 성인을 비교하였다. 피셔 정확 검정은 738개(29,061개 중)의 통계적으로 유의한 미소부수체를 식별하였다. 벤자민 호치버그 보정(p-값 < 0.05)(도 10).
시퀀싱 프로토콜 제어: DNA 시퀀싱 프로토콜에 따라 달라지는 미소부수체(WGS 대 WES)를 식별하기 위해, 1,000 게놈 프로젝트에서 16명의 개체에서의 쌍을 이룬 WGS 및 WES 실험으로부터 유전자형을 비교하였다. 37,511개의 미소부수체에 대한 유전자형의 분포를 통계적 차이에 대해 검정하였다(피셔 정확 검정); 157개는 벤자민 호치버그 위발견 보정을 사용할 때 상이한 것으로 밝혀졌다(p-값 < 0.05)(도 11). 이것은 특히 미소부수체가 큰 삽입 또는 결실을 보유할 때 맵핑 오류를 판독하기 쉽다는 사실 때문일 수 있다. 따라서, 식별된 157개의 미소부수체는 특히 매핑 오류가 발생하는 경향이 있거나 게놈의 고도로 가변적인 영역에 존재할 수 있다; 그들은 후속 분석에서 배제되었다. 또한, 134개의 WGS 샘플에는 37,775개의 식별된 미소부수체 호출이 없었다. 결과적으로, 이들 37,775개는 위험, 진단 또는 예후의 미소부수체 기반 분석을 위해 사용할 수 없었다; 이들은 후속 분석에서 배제하였다(도 11).
인종 제어: 인종에 따라 달라지는 DNA 미소부수체를 식별하기 위해, 모두 1,000 게놈 프로젝트로부터 유래한 352개의 미국인 샘플 및 502개의 유럽인 샘플에서 유전자형의 분포를 비교하고 분석하였다. 총 184,981회의 통계 검정을 수행하였으며, 1,037개의 미소부수체는 벤자민 호치버그 위발견 보정을 사용할 때 유의하게 상이한 것으로 밝혀졌다(p-값 < 0.05). 또한, 주로 유럽인인 59개의 MB 샘플과 주로 미국인인 55개의 MB 샘플의 군에서 미소부수체 유전자형의 분포를 조사하였다. 여기서, 13,899회의 검정을 수행하였으며, 여기서 478개의 미소부수체가 벤자민 호치버그 위발견 보정(p-값 < 0.05) 후에 상이한 것으로 밝혀졌다. 두 목록 모두에 존재한 71개의 미소부수체가 식별되었으며 이는 추가 분석에서 배제하였다(도 12).
상기 3단계로부터의 38,653개의 고유한 미소부수체는 모두 추가 분석에서 배제되었다.
샘플에 점수를 매기기 위한 메트릭 및 ROC 분석
샘플에 점수를 매기기 위한 메트릭: 샘플에 점수를 매기기 위한 메트릭은 미소부수체 유전자형의 고유한 분포에 기반하여 설계되었다. 본질적으로, 메트릭은 각 샘플에 속하는 유전자형의 가중화된 합이었다: 가중치는 MB 군과 건강한 군의 각 유전자형에 대한 빈도의 차이에 기인하였다. 메트릭의 시각적 요약은 도 13에 제공되어 있다.
ROC 분석: 수신기 작동 특성(ROC) 분석을 사용하여 MB를 갖는 샘플을 건강한 대조군과 구별할 수 있는 분류 방식을 설계하였다. 간략하게 언급하면, ROC 곡선하 면적(AUC)을 두 군의 점수가 두 군을 얼마나 잘 구별하는지에 대한 척도로서 사용하였다. 그 다음, 모든 향후 분류를 위한 컷오프를 선택하였다. 여기서, 컷오프는 민감도를 최소화하면서 동시에 특이도를 최대화하는 단일 점수였다; 컷오프는 유덴 지수를 사용하여 식별하였다. ROC 분석, AUC 계산 및 유덴 지수 최적화는 무료로 입수 가능한 R 패키지: ROCR을 사용하여 수행하였다.
미소부수체의 서브세트(유전자 알고리즘)
유전자 알고리즘은 생물학적으로 영감을 받은 알고리즘의 한 부류일 수 있다. 간략하게 언급하면, 유전자 알고리즘을 2단계 반복 프로세스를 사용하여 139의 세트로부터 가장 유익한 정보제공성 마커 서브세트를 식별하는 데 사용하였다. 첫째, 알고리즘을 139개 미소부수체 마커의 무작위 서브세트를 이용하여 초기화하였다; 다음으로, 상위 수행 서브세트를 지속적으로 재결합하고, 재평가하고, 재순위화하였다. 3개의 하이퍼파라미터(예를 들어, 반복 알고리즘이 시작되기 전에 설정된 파라미터)를 최대 집단 크기, 각 서브세트의 크기, 각 서브세트의 성능 및 집단 내의 서브세트 다양성을 제어하는 데 사용하였다. 각 단계 및 하이퍼파라미터에 대한 세부정보는 하기에 제공되어 있다.
초기화: 초기 집단 내의 각 서브세트는 139의 전체 수량으로부터 무작위로 선택된 마커로 구성되었다. 하이퍼파라미터는 초기 집단 크기와 각 서브세트의 크기를 제어한다. 일단 채워지면, 초기 서브세트를 하기 설명된 성능 메트릭에 기반하여 순위화하였다.
최적화: 각 최적화 사이클은 집단에 10개의 새로운 서브세트를 배치함으로써 시작되었다; 이 중 7개는 기존 모집단의 2개 구성원(무작위로 선택됨)을 재결합하여 생성되었고 3개는 무작위로 생성되었다. 2개의 서브세트를 재결합하기 위해, 각각을 분할하였다; 그 다음, 2개의 단편(각 서브세트로부터 하나씩)을 다시 연결시켰다. 분할 지점 및 단편은 무작위로 선택하였다. 3개의 무작위 서브세트가 초기화에서 생성되었으며 집단의 다양성을 유지하는 데 도움이 된다. 일단 새로운 서브세트가 생성되면, 성능 메트릭에 기반하여 집단을 재순위화하였다. 마지막으로, 집단 크기를 유지하기 위해 성능이 최악인 10개의 서브세트를 폐기하였다.
하이퍼파라미터: 100개 서브세트의 집단 크기를 초기화하여 알고리즘 전반에 걸쳐 사용하였다. 서브세트의 최소 및 최대 크기는 각각 8개 및 64개 마커로 설정하였다. 중복 마커는 서브세트에서 허용되지 않았다. 120개의 MB 샘플과 425개의 건강한 대조군, 예를 들어 본 연구 전반에 걸쳐 사용된 동일한 훈련 샘플을 사용하여 ROC 분석에 의해 각 서브세트의 성능을 결정하였다. 민감도와 특이도의 합은 각 서브세트의 성능을 좌우하였고 유전자 알고리즘의 각 세대에서 집단의 순위화를 수행하는 데 사용되었다.
견고성: 유전자 알고리즘의 파라미터는 계산 실현가능성을 위해 선택하였다. 그러나, 유전자 알고리즘의 결과는 하이퍼파라미터의 선택에 둔감하였다. 또한, 최적화 사이클의 세부사항(예를 들어, 각 주기에서 새로운 서브세트 수)은 유전자 알고리즘의 결과에 영향을 미치지 않았다.
검증
사용된 샘플: 본 연구가 충분히 검정력이 있는 것 이상임을 보장하기 위해, 검증 연구에서 102명의 실험 대상체와 428명의 대조군 대상체를 선택하였다. 훈련 세트를 분석할 때 발견된 대상체(MB) 및 대조 분포를 사용하면(도 7a), 각 대상체 군 내의 반응은 1.1의 표준 편차로 정규 분포를 따랐다. 실험군 평균과 대조군 평균의 실제 차이가 4.4인 경우, 실험군 및 대조군의 집단 평균이 이러한 크기의 샘플 및 대조 검증 세트에서 제1종 오류 확률 0.01에 대해 0.99보다 큰 확률(검정력)과 동일하다는 귀무가설에 기반하여 기각이 이루어졌다. 훈련 및 검증에 사용된 모든 대조군 샘플은 전체 엑솜 시퀀싱을 거쳤다. MB의 경우, 컬렉션은 전체 엑솜과 전체 게놈 샘플 둘 다를 포함하였다. 전체 게놈 시퀀싱 샘플은 검증을 위해 독점적으로 사용되었다.
절차: 각 검증 샘플은 훈련 샘플에 사용된 것과 동일한 메트릭으로 점수를 매겼다. 컷오프(훈련에서 식별됨)를 사용하여, 530개의 검증 샘플 중 어떤 것이 MB를 갖고 어떤 것이 건강한 대조군인가를 예측하였다. 컷오프 이상의 검증 샘플을 MB로 예측하였다. 예측을 102개 MB의 샘플과 428개의 정상 대조군의 알려진 정체와 비교하였다. 이들 예측의 민감도와 특이도는 훈련과 유사하였다.
미소부수체 돌연변이성
MB를 가진 개체가 미소부수체 변이에 더욱 취약한지 여부를 시험하기 위해, 각 미소부수체에 대해 유전자형 검사된 대립유전자의 총 수(대립유전자 존재량(allelic load))를 이의 돌연변이성의 척도로서 사용하고, 이 메트릭을 질환 및 대조군 코호트에 걸쳐 비교하였다. 생성된 카운트가 2가지 오류 근원에 대해 견고해지도록 대립유전자를 정의하였다: (a) PCR 아티팩트의 잠재적인 영향은 각 대립유전자가 적어도 2개의 리드에 의해 지원되도록 요구함으로써 완화되었다; 및 (b) 샘플 전반에 걸친 리드 적용범위의 차이에 대해 정규화하기 위해, 각 대립유전자는 미소부수체에 맵핑된 총 리드 수의 적어도 20%에 의해 지원되어야 하는 것이 요구되었다. 대립유전자는 맵핑된 리드가 샘플의 적어도 20%에 존재하는 미소부수체에 대해서만 카운팅하였다. 그 다음, MB 환자와 건강한 개체 간의 통계적 유의성을 확립하기 위해 피셔 정확 검정을 수행하였다. 이러한 과정은 0.077의 평균 p-값으로 50회 반복하였다.
2가지의 추가 증거를 사용하여 수모세포종 생식계열에서 미스매치 복구 메커니즘의 무결성을 또한 평가하였다: (a) MB 및 대조군 샘플에서 모든(총 71,192개) 미소부수체에 대해 집계된 동형접합체 및 이형접합체 유전자형; 및 (b) MB 및 대조군 샘플에서 모든 미소부수체(총 71,192개)에 대한 중간값 미소부수체 어레이 길이의 비교. 전자의 분석의 경우, 비정상적 미스매치 복구는 이형접합체 유전자형의 카운트를 증가시킬 것으로 예상할 수 있다; 그러나, 사례와 대조군 샘플의 차이는 통계적으로 유의하지 않았다. 수모세포종 샘플은 전체적으로 299,802개의 이형접합 유전자형과 2,596,324개의 동형접합 유전자형을 가졌다; 대조군 샘플은 283,037개의 이형접합 유전자형과 2,449,046개의 동형접합 유전자형을 가졌다. 후자의 분석의 경우, 비정상적 미스매치 복구는 대조군과 비교하여 수모세포종 샘플에서 더 길거나 더 짧은 중간값 미소부수체 어레이 길이의 축적을 초래할 것으로 예상될 수 있다. 다시 말하면, 결과는 통계적으로 유의하지 않았다. 수모세포종 샘플은 1,031개의 미소부수체에 대해 더 짧은 중간값 어레이 길이를 갖고 907개의 미소부수체에 대해 더 긴 중간값 어레이 길이를 가졌다; 나머지 69,254개의 미소부수체는 중간값 어레이 길이에 차이가 없었다.
다운스트림 분석
MB 대상체와 대조군 사이에 유전자형이 유의하게 상이한 139개의 미소부수체 좌위와 연관된 유전자를 기능 분석을 위해 사용하였다. 유전자간 영역에 위치한 미소부수체를 제외한 총 124개의 유전자가 분석에 포함되었다. 경로 분석은 인제뉴이티 경로 분석(QIAGEN Inc.)을 사용하여 수행하였다. 돌연변이 및 동시발생은 PedcBioPortal을 사용하여 분석하였다. 단백질-단백질 상호작용(PPI) 네트워크 구성은 0.7의 최소 상호작용 점수(높은 신뢰도) 및 제1 껍질 내의 5개 이하의 분자를 이용하여 STRING으로 수행하였다. 이러한 설정은 129개의 노드와 49개의 에지가 있는 허브를 생성하여 PPI 강화 p-값이 0.0007인 네트워크를 생성하였다.
결과
수모세포종 미소부수체 정보제공성 좌위의 식별
단일 뉴클레오티드 돌연변이는 MB 게놈 전장 분석에서 특성규명할 수 있다. 여기서, 수모세포종 소인에서 미소부수체 변이의 영향을 연구하였다. 이러한 목적을 위해, 연령, 인종 및 DNA 시퀀싱 프로토콜에 따라 달라지는 것들을 보정하면서 수모세포종을 갖는 아동과 대조군 사이에 유전자형이 상이한 생식계열 미소부수체를 식별하기 위한 컴퓨터 작업흐름을 개발하였다(도 6). 미소부수체 유전자형의 고유한 컬렉션에 기반하여 각 샘플의 점수를 매기기 위해 메트릭도 개발하였다. 이러한 접근법을 수모세포종을 갖는 222명의 아동과 853명의 건강한 대조군 대상체로부터의 생식게열 DNA 시퀀싱 데이터에 적용하였다. 데이터는 영향을 받은 대상체와 건강한 대상체 둘 다를 포함하는 2개의 군, 120명의 수모세포종 환자와 425명의 대조군 개체를 포함하는 훈련을 위한 제1 군 및 102명의 수모세포종 환자와 428명의 대조군 개체를 포함하는 검증을 위한 제2 군으로 나누었다. 분석의 제1 단계에서는, 훈련 세트를 사용하여 120개의 수모세포종 샘플과 425개의 건강한 대조군 둘 다에 존재하는 43,457개의 상이한 미소부수체를 유전자형 검사하였다. 이들 미소부수체 각각에 대해, 일반화된 피셔 정확 검정을 사용하여 각 미소부수체에 대한 두 군 사이의 유전자형 분포의 통계적 차이를 평가하였다. 2,094개의 미소부수체가 p-값 < 0.05로 식별되었다. 벤자민 호치버그 다중 검정 보정(α=.05) 후, 422개가 위발견을 통과하였다. 연령, 인종 및 DNA 시퀀싱 프로토콜에 따라 달라지는 미소부수체를 제거하기 위해 3가지 추가 단계를 수행하였다(도 6, 도 10, 도 11도 12). 총 283개의미소부수체가 422개의 목록으로부터 제거되어 139개의 축소된 목록이 생성되었다(도 19a 내지 19g). 요약하면, 이러한 접근법은 수모세포종 대상체와 건강한 대조군 사이에 유전자형이 유의하게 상이한 생식계열 DNA로부터 139개의 미소부수체를 식별하였다.
수모세포종 미소부수체 분류자 세트
수모세포종 샘플과 건강한 대조군을 구별하는 데 최고의 성능을 갖는 미소부수체 서브세트를 식별하기 위해, 139개 미소부수체의 세트를 사용하여 수모세포종 분류자를 훈련시켰다. 먼저, 139개 미소부수체의 유전자형에 기반하여 각 수모세포종 및 대조군 샘플의 점수를 매기기 위한 메트릭을 설계하였다(상세한 내용에 대해서는 방법 및 도 13 참조). 다음으로, 수신기 작동 특성(ROC)을 생성하고 수모세포종에 대한 2진 분류자 역할을 하는 샘플 점수의 능력을 결정하는 데 사용하였다. 유전자 알고리즘 방법에 기반한 서브세트 최적화 전략을 사용하여, 2단계 반복 프로세스를 사용하여 구별 마커의 최상의 서브세트를 식별하였다. 먼저, 완전한 목록으로부터 서브세트를 무작위로 생성하고 이의 F-측정에 의해 순위화하였다. 둘째, 최고 성능의 서브세트를 지속적으로 혼합하고, 재평가하고, 재순위화하였다. 알고리즘은 87회 사이클로 수렴되어 F-측정값이 0.90이고 곡선하 면적(AUC)이 0.962인 43개 미소부수체의 서브세트를 밝혀냈다(도 7, 도 20a 및 20b). 유덴 지수를 결정하였으며, 이는 수모세포종 샘플을 건강한 대조군과 구별하기 위한 최적의 컷오프 점수가 0.155임을 나타냈다(도 14). 훈련 세트에 적용되었을 때의 민감도는 0.88이었고 특이도는 0.92였다(도 7b). 인간 게놈에서 이들 43개 마커의 염색체상 위치는 도 15에 도시되어 있다. 따라서, 43개 미소부수체의 한 세트가 식별되었고 이의 유전자형 분포는 88%의 민감도와 92%의 특이도로 수모세포종 환자를 건강한 대조군과 구별할 수 있었다.
수모세포종 환자 및 건강한 대조군으로부터의 생식계열 DNA의 독립적 코호트를 사용하여 이전 결과들을 검증하였다. 검증 연구를 위해, 102명의 실험 대상체와 428명의 대조군 대상체가 포함되었고, 연구가 충분히 검정력 있는 것 이상임을 보장하기 위해 훈련 세트를 분석할 때 발견된 대상체(수모세포종) 및 대조군 분포(도 7)를 사용하였다. 훈련 세트에서, 각 대상체 군 내의 반응은 1.1의 표준 편차로 정규 분포를 따랐다. 실험군 평균과 대조군 평균의 실제 차이가 4.4인 경우, 실험군 및 대조군의 집단 평균이 이러한 크기의 샘플 및 대조 세트에서 제1종 오류 확률 0.01에 대해 0.99보다 큰 확률(검정력)과 동일하다는 귀무가설을 기각할 수 있다는 것이 발견되었다. 최적의 컷오프(0.155)를 독립적 검증 샘플 세트에 적용하였고, 분류자가 0.95의 민감도와 0.90의 특이도로 사례를 대조군과 구별할 수 있다는 것이 발견되었다(도 7c 및 도 7d). 요약하면, 유전자형 분포가 식별되고 높은 민감도와 특이도로 생식계열 DNA를 사용하여 MB 환자를 건강한 대조군과 구별할 수 있는 것으로 검증된 43개 MS의 한 세트이다.
수모세포종 정보제공성 미소부수체 좌위 돌연변이성
생식계열에서, MS 내의 인델의 비율은 게놈의 다른 곳에서의 단일 뉴클레오티드 치환의 비율보다 유의하게 더 높으며, 각각 세대당 좌위당 10-8과 비교하여 10-4 내지 10-3이다. 그러나, 돌연변이 비율은 반복부의 길이, 이들의 반복적 모티프 및 DNA 폴딩에 대한 영향에 따라 상이한 MS마다 다르다. 유전자형이 MB와 비무작위로 연관된 139개 MS(도 20a 및 20b)에서 발견된 차이는 MB를 가진 개체에 내재하는 증가된 미소부수체 유전자형 변이의 결과일 수 있다는 가설이 세워졌다. MB를 가진 개체가 미소부수체 변이되기 더 쉬운지 여부를 시험하기 위해, 각 미소부수체에 대해 유전자형 검사된 대립유전자의 총 수(대립유전자 존재량(allelic load))를 이의 돌연변이성의 척도로서 사용하고, 이 메트릭을 질환 및 대조군 코호트에 걸쳐 비교하였다. 건강한 개체와 MB 개체 사이에 유전자형 검사된 대립유전자의 수에는 유의차가 없었으며, 이는 MB 환자에 일반적 미소부수체 불안정성이 없다는 결론을 뒷받침한다. 139개의 마커가 분석된 가장 돌연변이성 좌위들 중에 존재하는지 여부를 결정하기 위해 대립유전자 존재량에 따라 모든 MS를 순위화함으로써 정보제공성 미소부수체 자체의 특성과 관련하여 예측 능력을 조사하였다. 그들은 더욱 돌연변이성인 MS에 속하지만 가장 돌연변이성인 부위를 포함하는 않는 것으로 밝혀졌다. 또한, 동형접합체 및 이형접합체 유전자형의 수와 미소부수체 어레이 길이를 MB에서 잠재적인 가변성 근원으로서 비교하였다. 두 경우 모두, MB와 대조군 생식계열 DNA 사이에는 통계적 유의차가 없었다. 이들 결과 및 데이터는 이러한 139개 MS와 MB의 연관성이 단순히 체질적 초돌연변이성(hypermutability)의 결과라기보다는 개별 미소부수체의 유전자형의 결과임을 나타낸다.
정보제공성 MST 연관된 유전자의 역할
MB와 대조군 샘플 사이에 유전자형이 상이한 139개의 MS 좌위 중, 114개는 인트론 영역에 위치하고, 15개는 유전자간 영역에 위치하고, 6개는 3'UTR에 위치하고, 3개는 엑손 영역에 위치하고, 1개는 5'UTR에 위치하였다(도 8a). 이들 유전자의 잠재적인 기계적 역할을 이해하기 위해, Ingenuity Pathway Analysis®를 실시하여 정보제공성 MS 좌위(유전자간 영역에 위치한 MS는 배제)와 연관된 124개의 유전자를 분석하였다. 분석은 암 및 분자적 세포 기능, 예컨대 세포 주기, DNA 복제, 재조합 및 수복, 세포 성장 및 증식과의 통계적으로 유의한 연관성을 밝혀냈으며, 이는 암 생물학과의 관계를 나타낸다(도 8b도 21). 정보제공성 MS와 연관된 이들 124개 유전자에서의 돌연변이 발생은 cBioportal에서 이용 가능한 4MB 코호트에서 조사하였다. MB 종양에서 알려진 낮은 돌연변이율에도 불구하고, 신경모세포종 종양의 4.5%와 비교하여 MB 암 샘플의 평균 17%가 이들 124개 유전자 중 적어도 하나에서의 돌연변이를 포함하였다(도 22). cBioportal 내에서 Sick Kids 2016 데이터 세트를 사용한 돌연변이 동시발생 분석은, 모든 가능한(9,591=139*(139-1)/2) 미소부수체 쌍 중 135개가 유의하게 동시 발생하는 것으로 발견되었음을 나타냈다(p-값 < 0.05). 2명의 환자는 각각 20개 및 10개의 MB 정보제공성 MS 좌위에서 돌연변이의 동시발생이 있는 것으로 발견되었다(도 23a 내지 23c).
정보제공성 MS 좌위와 연관된 124개의 유전자로 구성된 단백질-단백질 상호작용(PPI) 네트워크(도 8c)는 129개의 노드 및 49개의 에지를 포함하여 PPI 강화 p-값이 0.0007인 네트워크를 생성하는 것으로 밝혀졌다. 입력으로서 사용되는 단백질의 수가 적음에도 불구하고, 중요한 허브는 MB 종양에서 두드러진 경로(PI3K/AKT/mTOR)인 mTOR와 관련되었다.
3개의 정보제공성 미소부수체 좌위는 단백질 코딩 서열에 위치하였고(도 8a); 그들 모두는 트리뉴클레오티드 반복체(RAI1, BCL6B, TNS1)였다. 트리뉴클레오티드 반복체의 변이는 헌팅턴병, 척수소뇌 운동실조증, 취약 X 증후군과 같은 신경 및 신경근 질환의 원인으로서 인식되었다. 이들 유전자 중 2개(RAI1, BCL6B)는 17번 염색체의 단완(short arm)에 위치한 전사 인자였으며, 이의 결실은 MB 종양의 가장 흔한 하위군에서 반복적인 변경이었다. BCL6B 유전자는 결장암, 위암 및 간암과 관련이 있으며 MB 종양에서의 주요 유전자형은 33/33인 반면, 대조군에서의 주요 유전자형은 30/33이다(도 16); 이러한 리딩 프레임에서, 코돈 CAG는 세린으로 번역된다. RAI1(레티노산-유도 단백질)은 기능이 알려지지 않은 핵 단백질을 코딩하고, 그의 반수체기능부전(haploinsufficiency)은 스미스-마제니스 증후군을 유발한다. MB 종양에서 RAI1에 대한 2가지 주요 유전자형은 38/41 및 41/41인 반면, 대조군에서는 38/38 및 38/41이었다(도 16). RAI1 단백질 구조의 변화를 유도하는 것 외에도, 짧은 폴리글루타민 확장은 전사 인자 활성을 조절하는 것으로 또한 사료되었다. RAI1 단백질은 MB 종양이 발생하는 소뇌의 영역에서 고도로 발현된다.
본 연구에서, 139개 MS의 한 세트는 MB 환자와 건강한 대조군 사이에 상이한 유전자형을 보유하는 것으로 식별되었다. 43개 MS의 서브세트는 생식계열 DNA에 기반하여, 각각 0.95 및 0.90의 민감도와 특이도로 대조군과 MB 개체를 구별할 수 있었다.
본 연구는 3세트의 미소부수체를 식별하였다: (a) 수모세포종 샘플 및 건강한 대조군을 함께 구별하는 43개의 미소부수체; (b) 수모세포종 샘플과 건강한 대조군 사이에 통계적으로 상이한 유전자형을 갖는 139개 미소부수체; 및 (c) 초기 스크린에서 식별된 422개 미소부수체. 모든 3세트의 미소부수체는 위발견을 통과하였다. 초기 스크린(c)에서 식별된 미소부수체 세트는 연령, 인종 및/또는 DNA 시퀀싱에 민감한 283개를 함유하였다; 결과적으로, 후속 분석에는 어느 것도 사용되지 않았다. 인종적 편향을 갖는 미소부수체 중 일부는 수모세포종에서도 역할을 할 수 있다. 수모세포종을 포함한 많은 질환의 유병률은 인종적 차이를 나타낼 수 있다. 따라서, 수모세포종을 유발하는 유전적 메커니즘에 대해 다시 한번 알려진다면 283개의 미소부수체에 대한 재조사가 실현될 수 있다.
추가로, 139개 미소부수체의 군(b)과 43개의 미소부수체의 이의 서브세트(a) 사이의 관계를 조사하였다: 후자는 수모세포종 샘플을 건강한 대조군과 구별한 반면, 전자는 그렇지 않았다. 43개 미소부수체 세트의 돌연변이는 유전자 발현에 더 큰 영향을 미칠 수 있다; 또는, 이러한 미소부수체들을 보유하는 유전자는 질환 발병에 더 큰 효과를 미칠 수 있다. 이것은 43의 세트 내의 2개의 코딩 미소부수체의 존재에 의해 뒷받침될 수 있다; 두 경우 모두, 돌연변이는 단백질 1차 구조에 직접적인 영향을 미칠 수 있으며 2차 구조 및 기능에 잠재적인 영향을 미칠 수 있다. 또한, 43개 미소부수체의 세트는 5' 및 3' UTR 영역에 더 큰 비율로 내포되었다; 이들 영역 내의 MS는 유전자 발현/번역에 더 강력하게 영향을 미쳤을 수 있다. 이러한 표시들은 종양 조직 내의 정보제공성 미소부수체를 보유하는 이들 유전자의 발현 연구로 결정될 수 있다.
이들 결과는 BCL6B 및 RAI1 유전자에 내포된 폴리글루타민 미소부수체가 수모세포종에서 역할을 할 수 있음을 나타낸다. 181개의 폴리글루타민 미소부수체(627,174개 중)만이 스크리닝된 미소부수체의 완전한 목록에 존재하였다. 따라서, 우연만으로는 최종 목록 43개의 정보제공성 미소부수체 중 2개의 존재를 설명할 수 없다; 컴퓨터 시뮬레이션을 사용할 때, 이것이 무작위로 발생할 확률은 약 1,000,000분의 1인 것으로 추정되었다. 둘째, 폴리글루타민 미소부수체는 척수구근 위축증, 헌팅턴병 및 다양한 척수소뇌 운동실조증과 같은 질환에서 역할을 할 수 있다. 더욱이, BCL6B 유전자와 RAI1 유전자는 둘다 질환과 연관될 수 있다; 전자는 림프종과 연관되고 후자는 스미스-마제니스 증후군과 연관된다. 폴리글루타민 질환은 불용성 단백질 응집체: 일부 암에서는 볼 수 없는 어떤 것으로 특징지어질 수 있다. 반면에, 폴리글루타민 확장은 영향을 받은 단백질에 따라 기능의 획득과 기능 손실 둘 다를 부여할 수 있다.
본 연구는 2가지의 전반적인 결론을 입증하였다. 첫째, 식별된 미소부수체, 특히 139개 미소부수체의 세트 및 43개 미소부수체의 서브세트는 수모세포종 병인에서 역할을 할 수 있다. 수모세포종 어레이 길이 변화의 효과는 DNA 2차 구조, 뉴클레오솜 위치 및 DNA 결합 부위에 대한 효과를 포함하였다. 미소부수체 중 3개는 영향을 받은 단백질 1차 서열을 식별하였다. 미소부수체는 건강한 대조군과 수모세포종을 갖는 개체를 구별하는 데 도움이 될 수 있다; 본 분류 방식은 각각 0.95 및 0.90의 높은 민감도 및 특이도를 나타냈다.
수모세포종의 치료는 생존자들에게 청력 상실, 인지 결함, 내분비병증, 뇌졸중 및 이차 악성 종양의 위험 증가를 포함하는 평생의 부담을 남길 수 있다. 수모세포종의 발생 위험이 있는 집단의 식별은 조기 검출 전략을 가능하게 하여 종양 제어의 덜 침습적이고 더 국소화된 수단을 허용할 수 있다. 그러나, 이들 아동의 삶을 개선하는 효과적인 방법은 종양이 형성되는 것을 방지하는 것일 수 있다. 암 백신을 포함하는 면역요법의 최근 발전은 종양 특이적 항원에 대해 개체를 면역화할 수 있는 잠재력을 창출한다. 이러한 전략은 이러한 개입에 적절한 개체의 선택을 요구할 수 있다.
실시예 2: 정보제공성 미소부수체 마커 식별
병태를 갖는 대상체(제1 군)와 건강한 대조군(제2 군) 둘 다의 핵산 서열 샘플은 공개 도메인 데이터베이스로부터 입수한다. 미소부수체 좌위는 두 군 모두에서 식별한다. 제1 군에서만 발견되고 병태와 구체적으로 연관되거나 상관관계가 있는 미소부수체 좌위를 밝히기 위해 미소부수체들을 비교한다. 통계 분석 및 모델링을 병태와의 연관성 또는 상관관계를 위해 이러한 상이한 미소부수체들에 적용한다. 일부 사례에서, 미소부수체는 통계적으로 가중화한다. 미소부수체 세트가 병태와 강력하게 관련된 것으로 식별된 후, 이들 미소부수체를 훈련 알고리즘 내로 조립하여 병태와 관련되는 이들 미소부수체의 정확도, 민감도 및 특이도를 더욱 최적화한다. 훈련 동안 미소부수체를 무작위로 재결합하여 미소부수체의 추가 조합을 생성할 수 있다. 훈련이 완료되면, 추가의 독립적인 샘플 세트를 사용하여 알고리즘을 검증할 수 있다.
예를 들어, 암 환자 및 상응하는 건강한 대조군의 핵산 서열을 각각 캔서 게놈 아틀라스(TCGA) 및 1000 게놈 프로젝트로부터 다운로드한다. 미소부수체 좌위를 두 군 모두에서 식별한다. 두 군 사이의 미소부수체 비교는 암 환자 군에서만 발견되고 한 유형의 암과 구체적으로 연관되거나 상관관계가 있는 미소부수체 좌위의 집단을 밝힌다. 그 다음, 한 유형의 암과 관련된 이들 미소부수체를 훈련 알고리즘에 적용하여, 암과 관련이 있는 이들 미소부수체의 정확도, 민감도 및 특이도를 향상시킨다. 훈련이 완료되면, 알고리즘을 암을 보유하거나 건강한 대조군으로부터 유래된 추가의 샘플 세트로 검증한다. 검증 후, 알고리즘은 환자 샘플에 적용할 준비가 되었다.
실시예 3: 환자에서 위험 평가
혈청 샘플을 일상적인 건강 검진 동안 대상체로부터 단리한다. 혈청 샘플로부터 DNA를 추출하고 시퀀싱한다. 시퀀싱 데이터를 처리하고 분석하여 대상체에 고유한 미소부수체 세트를 생성한다. 그 다음, 상기 미소부수체 세트를, 대상체의 미소부수체와 범-암 데이터베이스의 미소부수체 사이의 비교에 기반하여 암의 발생 위험을 결정하도록 설계된 컴퓨터 구현 방법을 사용하여 분석한다. 식별된 정보제공성 미소부수체 각각에는 0 내지 1의 범위의 가중치가 할당된다. 가중치는 식별된미소부수체의 정확도, 민감도 및 특이도에 기반하여 생성된다. 그 다음, 가중치의 합을 결정하고, 한 유형의 암이 발생할 가능성에 대한 분류자를 창출하는 데 사용한다. 그 다음, 범-암 분류자는 대상체에 대한 위험 평가를 위해 복수의 암이 발생할 복수의 가능성에 대한 복수의 분류자를 컴파일하고 보고한다. 범-암 분류자는 대상체에서 암, 예를 들어 유방암, 폐암, 전립선암, 자궁경부암, 다형성 교모세포종, 자궁 체부 내막 암종, 결장 선암종, 방광암, 요로상피세포 암종, 두경부 편평세포 암종, 자궁경부 편평세포 암종 및 자궁경관내 선암종, 위 선암종, 갑상선 암종, 뇌 저등급 신경교종, 신장 유두상 신세포 암종 및 간 간세포 암종이 발생할 가능성의 위험 평가를 제공한다.
대상체는 실험실 보고서에 의해 위험 평가를 통지 받는다(도 5도 17). 환자, 의료 전문가 및 혈청 샘플의 정보는 시험 요약과 함께 나열된다. 요약은 대상체에서 현재 암이 없지만 대상체의 폐암 발생 가능성을 증가시키는 몇가지 식별된 미소부수체가 대상체의 게놈에 있음을 보여준다. 폐암 발생 가능성의 분류자는 수치적 결과를 포함하고 폐암 발생 가능성에 대한 임계값과 비교된다. 폐암 발생 가능성에 대한 임계값은 0.3이며 1 표준 편차 범위는 0.1과 0.5이다(도 24). 대상체에 대한 폐암 발생 가능성의 분류자는 2.3이며, 이는 향후 대상체에서 암이 발생할 가능성이 높다는 것을 나타낸다. 따라서, 대상체의 폐 및 호흡계통에 추가의 임상적 주의를 기울인다. 보다 일상적인 폐의 이미지 촬영을 정기적으로 수행하는 것이 권장된다. 대상체는 또한 흡연을 시작하지 말고 공지된 에어로졸화 발암 물질을 갖는 특정 환경에 장기간 노출되는 것을 피하도록 권고를 받는다. 게다가, 요약은 위험 평가의 파라미터에 대한 개요, 예를 들어 사용되는 통계 방법 및 임계값의 유형 및 분석되는 미소부수체 위치의 수를 제공한다.
실시예 4: 소수 대립유전자를 이용한 게놈 연령 측정
일차 피부 섬유아세포로부터의 DNA 샘플을 17세의 대상체 및 다시 30세의 대상체로부터 수득한다. DNA-seq 라이브러리를 구성하고 후속적으로 차세대 시퀀싱 플랫폼을 이용하여 시퀀싱하고 hg19에 맵핑한다. 소수 대립유전자가 집단에서 발생하는 경향이 있는 핫스팟을 강화하기 위해 강화를 수행할 수 있다. 최소 5개의 리드를 갖는 소수 대립유전자는 생거 시퀀싱으로 독립적으로 확인된다. 진양성 소수 대립유전자를 분석하고 가중화한다. 소수 대립유전자가 출현하는 위치의 예로는 유전자의 상류 또는 하류, 엑손 영역, 유전자간 영역, 인트론 및 엑손에 걸친 영역, 3'UTR 및 5'UTR이 포함된다. 소수 대립유전자는 비동의 변이체, 동의 변이체, 프레임시프트 인델, 비-프레임시프트 인델, 스탑게인, 스탑로스 또는 이들의 조합일 수 있다.
17세에 수득된 샘플과 hg19 참조 서열 간의 비교로부터 수득된 소수 대립유전자를 컴퓨터 구현 방법으로 분석하여 게놈 연령을 밝힌다. 소수 대립유전자 또는 소수 대립유전자의 좌위의 증가된 수는 대상체의 실제 연령 및 체력보다 더욱 노화된 게놈 연령에 기여할 수 있다. 동일한 대상체로부터 17세 및 30세에 수득된 샘플들을 서로 비교하여 동일한 대상체 내에서 소수 대립유전자 패턴의 추가적인 축적 또는 변화를 밝힐 수 있다. 17세와 30세 사이의 소수 대립유전자의 비교는 대상체에서 총 소수 대립유전자 수가 약간 증가함을 보여준다. 이러한 증가를 컴퓨터 구현 방법으로 분석하여 대상체에서 가속화된 게놈 노화 속도를 밝힌다. 따라서, 대상체는 영양의 균형과 정신적 스트레스의 감소를 강조하는 소정 생활 방식을 취하도록 권고를 받는다.
본 실시예의 바람직한 측면이 본원에 제시되고 설명되었지만, 이러한 측면이 단지 예로서 제공된다는 것은 당업자에게 자명할 것이다. 당업자는 본 발명을 벗어나지 않으면서 다수의 변형, 변경 및 치환을 생각해 낼 것이다. 본원에 설명된 본 개시내용의 측면에 대한 다양한 대안이 본 개시내용을 실시하는 데 사용될 수 있음을 이해해야 한다. 다음의 청구범위는 본 개시내용의 범위를 정의하고 이들 청구범위 내의 방법과 구조 및 이들의 등가물은 이에 의해 포함되는 것으로 의도된다.

Claims (61)

  1. 병태에 대한 최적화된 분류자(classifier)를 구성하기 위한 컴퓨터 구현 방법으로서, 복수의 최적화 사이클에서 병태에 대한 분류자로서 복수의 미소부수체의 서브세트들을 순위화하는 단계를 포함하며, 여기서 상기 복수의 미소부수체의 서브세트들은 상기 병태와 상관관계가 있는 초기 미소부수체 집단 내의 미소부수체를 포함하고, 이에 의해 미소부수체의 서브세트들 중 최적화된 서브세트를 병태에 대한 최적화된 분류자로서 식별하는 구현 방법.
  2. 제1항에 있어서, 병태를 갖는 대상체로부터의 제1 샘플 세트 내의 미소부수체와 병태를 갖지 않는 대상체로부터의 제2 샘플 세트 내의 미소부수체를 비교하고, 이에 의해 초기 미소부수체 집단을 식별하는 단계를 추가로 포함하는 구현 방법.
  3. 제1항에 있어서, 순위화는 미소부수체의 서브세트들을, 병태를 갖는 대상체로부터의 샘플 중의 미소부수체 및 병태를 갖지 않는 대상체로부터의 샘플로부터의 미소부수체를 비교하는 것을 포함하는 구현 방법.
  4. 제1항에 있어서, 초기화를 추가로 포함하고, 여기서 상기 초기화는 복수의 최적화 사이클 중 한 최적화 사이클에서의 순위화에 사용하기 위해 초기 미소부수체 집단으로부터 초기 미소부수체 서브세트의 집단을 무작위로 선택하는 것을 포함하는 구현 방법.
  5. 제1항에 있어서, 초기 미소부수체 집단의 적어도 100개 서브세트의 집단이 복수의 최적화 사이클에서 사용되는 구현 방법.
  6. 제1항에 있어서, 미소부수체의 서브세트들 중 한 서브세트 내의 미소부수체의 최소 수는 8개인 구현 방법.
  7. 제1항에 있어서, 미소부수체의 서브세트들 중 한 서브세트 내의 미소부수체의 최대 수는 64개인 구현 방법.
  8. 제1항에 있어서, 미소부수체의 서브세트들 중 한 서브세트 내에서 중복 미소부수체는 허용되지 않는 구현 방법.
  9. 제1항에 있어서, 순위화는 (i) 미소부수체의 서브세트들, (ii) 병태를 갖는 대상체로부터의 샘플 중의 미소부수체 및 (iii) 병태를 갖지 않는 대상체로부터의 샘플 중의 미소부수체를 사용하여 수신기 작동 특성(receiver operating characteristic: ROC) 분석을 수행하는 것을 포함하는 구현 방법.
  10. 제9항에 있어서, 복수의 최적화 사이클 중 한 최적화 사이클에서의 순위화는, 병태에 대한 분류자로서 서브세트들 중 각 서브세트에서 미소부수체의 민감도와 특이도의 합을 결정하는 것을 포함하는 구현 방법.
  11. 제10항에 있어서, 복수의 최적화 사이클 중 한 최적화 사이클은 초기 미소부수체 집단의 10개의 새로운 서브세트를 복수의 최적화 사이클 중 이전 최적화 사이클로부터의 서브세트에 추가하는 것을 포함하는 구현 방법.
  12. 제11항에 있어서, 10개의 새로운 서브세트 중 7개는 이전 최적화 사이클로부터 무작위로 선택된 2개의 서브세트를 무작위로 분할 및 재결합함으로써 생성되고, 10개의 새로운 서브세트 중 3개는 초기 미소부수체 집단으로부터 미소부수체를 무작위로 선택함으로써 생성되는 구현 방법.
  13. 제12항에 있어서, 최적화 사이클에서 최저 순위를 갖는 것에 적어도 부분적으로 기초하여, 최적화 사이클에서 서브세트들 중 10개의 서브세트를 폐기하는 단계를 추가로 포함하는 구현 방법
  14. 제1항에 있어서, 병태는 대상체에서의 건강 상태의 존재 또는 부재를 포함하는 구현 방법.
  15. 제1항에 있어서, 병태는 대상체에서 건강 상태가 발생할 가능성의 증가 또는 감소를 포함하는 구현 방법.
  16. 제1항에 있어서, 병태는 대상체가 건강 상태의 치료로부터 혜택을 받을 가능성의 증가 또는 감소를 포함하는 구현 방법.
  17. 제1항에 있어서, 병태는 대상체에서 건강 상태의 치료로 인한 이상반응(adverse effect)의 위험이 증가할 가능성의 증가 또는 감소를 포함하는 구현 방법.
  18. 제1항에 있어서, 병태는 건강 상태의 치료에 대한 대상체의 반응성을 포함하는 구현 방법.
  19. 제1항에 있어서, 병태는 대상체에서 건강 상태의 예후를 포함하는 구현 방법.
  20. 제14항 내지 제19항 중 어느 한 항에 있어서, 건강 상태는 암인 구현 방법.
  21. 제20항에 있어서, 암은 폐암인 구현 방법.
  22. 제14항 내지 제19항 중 어느 한 항에 있어서, 건강 상태는 신경계 질환인 구현 방법.
  23. 제14항 내지 제19항 중 어느 한 항에 있어서, 건강 상태는 심혈관 질환인 구현 방법.
  24. 복수의 파라미터를 사용하여 대상체의 샘플로부터 병태에 대한 분류자의 값을 결정하는 단계를 포함하는 컴퓨터 구현 방법으로서, 상기 복수의 파라미터 중 각각의 파라미터는 병태를 갖는 대상체의 샘플 또는 병태를 갖지 않는 대상체의 샘플로부터의 복수의 미소부수체 각각의 상관관계의 통계적 척도인 구현 방법
  25. 제24항에 있어서, 복수의 파라미터는 복수의 가중치를 포함하는 구현 방법.
  26. 제25항에 있어서, 복수의 가중치는 복수의 최적 가중치를 포함하는 구현 방법.
  27. 제26항에 있어서, 복수의 최적 가중치를 결정하는 단계를 추가로 포함하는 구현 방법.
  28. 제27항에 있어서, 복수의 최적 가중치를 결정하는 단계는 복수의 가중치에 표준 회귀 분석을 적용하는 것을 포함하는 구현 방법.
  29. 제24항에 있어서, 복수의 최적 가중치를 결정하는 단계는 유전자 알고리즘의 사용을 포함하는 구현 방법.
  30. 제24항에 있어서, 분류자의 값을 결정하는 단계는 소수 대립유전자 빈도(minor allele frequency) 데이터를 사용하는 것을 포함하는 구현 방법.
  31. 제24항에 있어서, 복수의 미소부수체는 적어도 10개의 미소부수체를 포함하는 구현 방법.
  32. 제24항에 있어서, 복수의 미소부수체 각각은 병태와 상관관계가 있는 구현 방법.
  33. 제24항에 있어서, 분류자의 값을 임계값과 비교하는 단계를 추가로 포함하는 구현 방법.
  34. 제24항에 있어서, 병태는 대상체에서의 건강 상태의 존재 또는 부재를 포함하는 구현 방법.
  35. 제24항에 있어서, 병태는 대상체에서 건강 상태가 발생할 가능성의 증가 또는 감소를 포함하는 구현 방법.
  36. 제24항에 있어서, 병태는 대상체가 건강 상태의 치료로부터 혜택을 받을 가능성의 증가 또는 감소를 포함하는 구현 방법.
  37. 제24항에 있어서, 병태는 대상체에서 건강 상태의 치료로 인한 이상반응의 위험이 증가할 가능성의 증가 또는 감소를 포함하는 구현 방법.
  38. 제24항에 있어서, 병태는 건강 상태의 치료에 대한 대상체의 반응성을 포함하는 구현 방법.
  39. 제34항 내지 제38항 중 어느 한 항에 있어서, 병태는 암, 심혈관 질환 또는 신경계 질환인 구현 방법.
  40. 제39항에 있어서, 암은 폐암인 구현 방법.
  41. 대상체의 게놈 연령을 결정하는 컴퓨터 구현 방법으로서,
    (a) 대상체로부터의 제1 샘플에서 미소부수체 소수 대립유전자 특성을 결정하는 단계;
    (b) 미소부수체 소수 대립유전자 특성을 참조로 처리하는 단계; 및
    (c) 처리에 기초하여, 대상체의 게놈 연령을 결정하는 단계
    를 포함하는 구현 방법.
  42. 제41항에 있어서, 처리는 미소부수체 소수 대립유전자 특성을 참조와 비교하는 것을 포함하는 구현 방법.
  43. 제41항에 있어서, 소수 대립유전자 특성은 유전자좌에 있는 소수 대립유전자의 수인 구현 방법.
  44. 제43항에 있어서, 소수 대립유전자의 수는 적어도 3개의 차세대 시퀀싱 서열 리드(sequence read)에 의해 지원되는 구현 방법.
  45. 제41항에 있어서, 소수 대립유전자 특성은 유전자좌에 있는 1차 대립유전자의 총 리드 수에 대해 정규화된 소수 대립유전자의 총 리드 수인 구현 방법.
  46. 제41항에 있어서, 대상체의 미소부수체의 서열 리드를 생성하기 위해 대상체로부터의 제1 샘플의 차세대 시퀀싱을 수행하는 단계를 추가로 포함하는 구현 방법.
  47. 제46항에 있어서, 제1 샘플은 혈액, 타액 또는 종양을 포함하는 구현 방법.
  48. 제45항에 있어서, c)를 작업한 후, 대상체로부터의 제2 샘플에서 소수 대립유전자 특성을 결정하는 단계를 추가로 포함하는 구현 방법.
  49. 제47항에 있어서, 대상체로부터의 제1 샘플에서의 소수 대립유전자 특성 및 대상체로부터의 제2 샘플에서의 소수 대립유전자 특성을 평가하는 단계, 및 평가에 기초하여 대상체의 게놈 노화 속도를 결정하는 단계를 추가로 포함하는 구현 방법.
  50. a) 대상체로부터의 샘플에서 미소부수체를 사용하여 대상체로부터의 샘플에 대한 복수의 분류자를 결정하는 단계;
    b) 복수의 분류자를 복수의 병태에 대한 복수의 참조 분류자로 처리하는 단계; 및
    c) 처리에 기초하여, 복수의 병태 중에서 대상체에 대한 적어도 하나의 병태를 결정하는 단계
    를 포함하는 컴퓨터 구현 방법.
  51. 제50항에 있어서, 처리는 복수의 분류자를 복수의 병태에 대한 복수의 참조 분류자와 비교하는 것을 포함하는 구현 방법.
  52. 제50항에 있어서, 복수의 병태 중 적어도 하나의 병태는 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태의 존재 또는 부재를 포함하는 구현 방법.
  53. 제50항에 있어서, 복수의 병태 중 적어도 하나의 병태는 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태가 발생할 가능성의 증가 또는 감소를 포함하는 구현 방법.
  54. 제50항에 있어서, 복수의 병태 중 적어도 하나의 병태는 대상체가 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태의 치료로부터 혜택을 얻을 가능성의 증가 또는 감소를 포함하는 구현 방법.
  55. 제50항에 있어서, 복수의 병태 중 적어도 하나의 병태는 대상체에서 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태의 치료로 인한 이상반응의 위험이 증가할 가능성의 증가 또는 감소를 포함하는 구현 방법.
  56. 제50항에 있어서, 복수의 병태 중 적어도 하나의 병태는 대상체의 복수의 건강 상태 중에서 적어도 하나의 건강 상태의 치료에 대한 대상체의 반응성을 포함하는 구현 방법.
  57. 제51항 내지 제56항 중 어느 한 항에 있어서, 복수의 건강 상태는 복수의 암을 포함하는 구현 방법.
  58. 제57항에 있어서, 복수의 암은 난소암, 유방암, 저등급 신경교종, 교모세포종, 폐암, 전립선암 또는 흑색종을 포함하는 구현 방법.
  59. 제50항에 있어서, 복수의 건강 상태는 복수의 신경계 질환 또는 복수의 심혈관 질환을 포함하는 구현 방법.
  60. 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 제1항 내지 제59항 중 어느 한 항에 따른 구현 방법을 수행하도록 하는 실행가능 명령어를 포함하는 비일시적 컴퓨터 판독가능 매체.
  61. 제60항의 비일시적 컴퓨터 판독가능 매체 상에서 명령어를 실행하도록 구성된 하드웨어 프로세서를 포함하는 컴퓨터 시스템.
KR1020217037385A 2019-04-22 2020-04-21 미소부수체 분석을 위한 방법 및 시스템 KR20220011630A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962837109P 2019-04-22 2019-04-22
US62/837,109 2019-04-22
PCT/US2020/029145 WO2020219463A1 (en) 2019-04-22 2020-04-21 Methods and systems for microsatellite analysis

Publications (1)

Publication Number Publication Date
KR20220011630A true KR20220011630A (ko) 2022-01-28

Family

ID=72941731

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217037385A KR20220011630A (ko) 2019-04-22 2020-04-21 미소부수체 분석을 위한 방법 및 시스템

Country Status (11)

Country Link
US (1) US20220189583A1 (ko)
EP (1) EP3959341A4 (ko)
JP (1) JP2022530088A (ko)
KR (1) KR20220011630A (ko)
CN (1) CN114026253A (ko)
AU (1) AU2020260998A1 (ko)
BR (1) BR112021021128A2 (ko)
CA (1) CA3137720A1 (ko)
IL (1) IL287458A (ko)
MX (1) MX2021012988A (ko)
WO (1) WO2020219463A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113916218B (zh) * 2021-10-12 2024-01-26 中国科学院微小卫星创新研究院 星敏感器互判和仲裁方法及系统
CN114708916B (zh) * 2022-03-15 2023-11-10 至本医疗科技(上海)有限公司 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质
WO2024105220A1 (en) * 2022-11-17 2024-05-23 Universite De Poitiers Method for determining microsatellite instability status, kits and uses thereof

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050084907A1 (en) * 2002-03-01 2005-04-21 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US7991557B2 (en) * 2004-06-19 2011-08-02 Genenews Corporation Computer system and methods for constructing biological classifiers and uses thereof
WO2009039479A1 (en) * 2007-09-21 2009-03-26 H. Lee Moffitt Cancer Center And Research Institute, Inc. Genotypic tumor progression classifier and predictor
US20140235456A1 (en) * 2012-12-17 2014-08-21 Virginia Tech Intellectual Properties, Inc. Methods and Compositions for Identifying Global Microsatellite Instability and for Characterizing Informative Microsatellite Loci
US9471871B2 (en) * 2014-02-21 2016-10-18 Battelle Memorial Institute Method of generating features optimal to a dataset and classifier
US20210032699A1 (en) * 2016-04-06 2021-02-04 University Of Florida Research Foundation, Inc. Measurement of genomic age for predicting the risk of cancer
JP6703264B2 (ja) * 2016-06-22 2020-06-03 富士通株式会社 機械学習管理プログラム、機械学習管理方法および機械学習管理装置
MX2020001575A (es) * 2017-08-07 2020-11-18 Univ Johns Hopkins Materiales y métodos para evaluar y tratar el cáncer.
KR102416048B1 (ko) * 2017-10-16 2022-07-04 일루미나, 인코포레이티드 변이체 분류를 위한 심층 컨볼루션 신경망
WO2020081607A1 (en) * 2018-10-15 2020-04-23 Tempus Labs, Inc. Microsatellite instability determination system and related methods

Also Published As

Publication number Publication date
AU2020260998A1 (en) 2021-11-25
CN114026253A (zh) 2022-02-08
EP3959341A4 (en) 2023-01-18
US20220189583A1 (en) 2022-06-16
MX2021012988A (es) 2022-03-04
BR112021021128A2 (pt) 2022-02-08
WO2020219463A1 (en) 2020-10-29
IL287458A (en) 2021-12-01
JP2022530088A (ja) 2022-06-27
EP3959341A1 (en) 2022-03-02
CA3137720A1 (en) 2020-10-29

Similar Documents

Publication Publication Date Title
US20200342958A1 (en) Methods and systems for assessing inflammatory disease with deep learning
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
US20210098078A1 (en) Methods and systems for detecting microsatellite instability of a cancer in a liquid biopsy assay
US20220189583A1 (en) Methods and systems for microsatellite analysis
JP2022532897A (ja) マルチラベルがん分類のためのシステムおよび方法
CN113228190B (zh) 分类和/或鉴定癌症亚型的系统和方法
TWI816927B (zh) 用於計算世系特異性之遺傳風險評分之媒體、方法及系統
US20210172024A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
CN108292299A (zh) 从基因组变体预测疾病负担
JP2023524627A (ja) 核酸のメチル化分析による結腸直腸癌を検出するための方法およびシステム
Wang et al. A review of cancer risk prediction models with genetic variants
US11211147B2 (en) Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
JP2023540257A (ja) がんを分類するためのサンプルの検証
Jafari et al. Perspectives on the use of multiple sclerosis risk genes for prediction
Chan et al. Genome-wide rare variant score associates with morphological subtypes of autism spectrum disorder
Van Dyke et al. Chromosome 5p region SNPs are associated with risk of NSCLC among women
US20220213558A1 (en) Methods and systems for urine-based detection of urologic conditions
Lopez et al. A systematic review of clinically available gene expression profiling assays for stage II colorectal cancer: Initial steps toward genetic staging
US20210142911A1 (en) Estimation of phenotypes using large-effect expression variants
Sirisena et al. Implementation of genomic medicine in Sri Lanka: initial experience and challenges
Lenfant et al. Genetic variability in 13q33 and 9q34 is linked to aggressiveness patterns and a higher risk of progression of non‐muscle‐invasive bladder cancer at the time of diagnosis
WO2021041968A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
Cheng et al. Whole genome error-corrected sequencing for sensitive circulating tumor DNA cancer monitoring
Ren et al. Clonal architectures predict clinical outcome in gastric adenocarcinoma based on genomic variation, tumor evolution, and heterogeneity
US20230230655A1 (en) Methods and systems for assessing fibrotic disease with deep learning