KR20230011905A - 파노믹 게놈 유병률 점수 - Google Patents

파노믹 게놈 유병률 점수 Download PDF

Info

Publication number
KR20230011905A
KR20230011905A KR1020227028198A KR20227028198A KR20230011905A KR 20230011905 A KR20230011905 A KR 20230011905A KR 1020227028198 A KR1020227028198 A KR 1020227028198A KR 20227028198 A KR20227028198 A KR 20227028198A KR 20230011905 A KR20230011905 A KR 20230011905A
Authority
KR
South Korea
Prior art keywords
features
indicative
biosignatures
origin
nos
Prior art date
Application number
KR1020227028198A
Other languages
English (en)
Inventor
짐 아브라함
데이비드 스페즐러
Original Assignee
캐리스 엠피아이, 아이엔씨.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 캐리스 엠피아이, 아이엔씨. filed Critical 캐리스 엠피아이, 아이엔씨.
Publication of KR20230011905A publication Critical patent/KR20230011905A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

포괄적인 분자 프로파일링은 환자 샘플의 분자 상태에 관한 풍부한 데이터를 제공한다. 이러한 데이터를 치료에 대한 환자의 반응과 비교하여 이러한 치료에 대한 반응 또는 무 반응을 예측하는 바이오마커 시그니처를 식별할 수 있다. 본 명세서에서, 우리는 분자 프로파일링 데이터를 사용해 종양 원발 계통, 암 카테고리 또는 유형, 장기 군 및/또는 조직을 예측하는 바이오마커 시그니처(바이오시그니처)를 식별할 수 있다. 시그니처는 게놈 및 전사체 레벨 정보를 사용할 수 있다.

Description

파노믹 게놈 유병률 점수
우선권 주장
본 출원은 그 전체가 본 명세서에 참조로서 포함되는 2020년02월14일에 출원된 미국 가특허출원 번호 62/977,015, 2020년04월23일에 출원된 63/014,515, 2020년07월15일에 출원된 63/052,363, 및 2021년02월03일에 출원된 63/145,305의 이익을 주장한다.
이 출원은 그 전체가 본 명세서에 참조로서 포함되는 국제 특허 공개 WO/2020/146554, 발명의 명칭 "Genomic Profiling Similarity"와 관련되고 2020년01월08일에 출원된 국제 특허 출원 PCT/US2020/012815에 기초한다.
기술 분야
본 개시 내용은 데이터 구조, 데이터 처리, 및 머신 러닝 분야와 관련되며, 정밀 의료에서의 이들의 용도, 비제한적 예를 들면, 종양 특성화, 비제한적 예를 들면, 생체 샘플의 속성, 가령, 원발 위치, 장기 유형, 조직학 및/또는 암 유형의 속성을 예측하기 위한 분자 프로파일링의 사용과 관련된다.
원발 부위 불명 암(CUP: Carcinoma of Unknown Primary)은 광범위한 임상 및 병리학적 평가에도 불구하고 원발성 종양이 파악되지 않은 채 남아 있는, 임상적으로 해결하기 어려운 전이성 악성의 이종 그룹을 나타낸다. 전세계의 암 진단의 대략 2-4%가 CUP를 포함한다. 가령, Varadhachary.New Strategies for Carcinoma of Unknown Primary: the role of tissue of origin molecular profiling.Clin Cancer Res.2013 Aug 1;19(15):4027-33를 참조할 수 있다. 덧붙여, 정확한 종양 유형 분류와 관련된 일부 레벨의 진단 불확실성은 종양학 하위 분야에서 빈번하게 발생한다. 확실한 진단을 내리려는 노력은 진단 과정을 연장하고 치료 시작을 지연시킬 수 있다. 또한, CUP는 차선의 치료 개입의 사용으로 설명될 수 있는 나쁜 결과와 관련이 있다. 면역조직화학(IHC) 검사는 특히 잘 분화되지 않거나 미분화된 종양의 경우 종양 기원 부위를 진단하기 위한 황금 표준 방법이다. 까다로운 사례의 정확도를 평가하고 이러한 연구의 메타 분석을 수행한 결과 IHC 분석이 전이성 종양의 특성화에서 66%의 정확도를 보였다고 보고했다. 예컨대, Brown RW외 Immunohistochemical identification of tumor markers in metastatic adenocarcinoma: a diagnostic adjunct in the determination of primary site. Am J Clin Pathol 1997, 107:12e19; Dennis JL외 Markers of adenocarcinoma characteristic of the site of origin: development of a diagnostic algorithm. Clin Cancer Res 2005, 11:3766e3772; Gamble AR외 Use of tumour marker immunoreactivity to identify primary site of metastatic cancer. BMJ 1993, 306:295e298; Park SY외 Panels of immunohistochemical markers help determine primary sites of metastatic adenocarcinoma. Arch Pathol Lab Med 2007, 131:1561e1567; DeYoung BR, Wick MR. Immunohistologic evaluation of metastatic carcinomas of unknown origin: an algorithmic approach. Semin Diagn Pathol 2000, 17:184e193; Anderson GG, Weiss LM. Determining tissue of origin for metastatic cancers: meta-analysis and literature review of immunohistochemistry performance. Appl Immunohistochem Mol Morphol 2010, 18:3e8를 참조할 수 있다. 치료 요법은 진단에 의존할 수 있기 때문에 이는 중요한 충족되지 않은 임상 요구를 나타낸다.
이러한 문제를 해결하기 위해 차등 유전자 발현 평가를 기반으로 하는 TOO(Tissue-of-Origin) 식별을 목표로 하는 분석이 개발되어 임상적으로 테스트되었다. 그러나 이러한 분석을 임상 실습에 통합하는 것은 상대적으로 열악한 성능 특성(83%에서 89%)과 제한된 샘플 가용성으로 인해 방해를 받는다. 가령, Pillai R외 Validation and reproducibility of a microarray-based gene expression test for tumor identification in formalin-fixed, paraffin-embedded specimens. J Mol Diagn 2011, 13:48e56; Rosenwald S외 Validation of a microRNA-based qRT-PCR test for accurate identification of tumor tissue origin. Mod Pathol 2010, 23:814e823; Kerr SE외 Multisite validation study to determine performance characteristics of a 92-gene molecular cancer classifier. Clin Cancer Res 2012, 18:3952e3960; Kucab JE외 A Compendium of Mutational Signatures of Environmental Agents. Cell. 2019 May 2;177(4):821-836.e16을 참조할 수 있다. 예를 들어, 최근의 상용 RNA 기반 분석은 187개 종양의 테스트 세트에서 83%의 민감도를 가지며 별도의 300개 샘플 검증 세트의 78%에서만 결과를 확인했다. Hainsworth JD, et al, Molecular gene expression profiling to predict the tissue of origin and direct site-specific therapy in patients with carcinoma of unknown primary site: a prospective trial of the Sarah Cannon research institute.J Clin Oncol.2013 Jan 10;31(2):217-23를 참조할 수 있다. 이는 적어도 부분적으로 정상적인 세포 오염, RNA 안정성 및 RNA 발현의 역학과 관련하여 일반적인 RNA 기반 분석의 한계의 결과일 수 있다. 따라서, 특히 CUP에 국한되지 않는 암 환자를 돕기 위해 TOO 식별에 대한 보다 강력한 접근 방식이 필요하다.
머신 러닝 모델은 라벨링된 훈련 데이터를 분석한 다음, 이 훈련 데이터로부터 추론을 도출하도록 구성할 수 있다. 머신 러닝 모델이 훈련되면, 라벨링되지 않은 데이터의 세트가 입력으로서 머신 러닝 모델로 제공될 수 있다. 머신 러닝 모델은 입력 데이터, 가령, 분자 프로파일링 데이터를 처리하고, 훈련 동안 학습된 추론에 기초하여 입력에 대한 예측을 할 수 있다. 본 개시 내용은 단일 모델을 사용함으로써 달성되는 것보다 더 정확한 분류를 달성하기 위해 다수의 분류기 모델을 조합하는 "투표" 방법론을 더 제공한다.
포괄적인 분자 프로파일링은 환자 샘플의 분자 상태에 관한 풍부한 데이터를 제공한다. 우리는 거의 모든 암 계통의 100,000명 이상의 종양 환자에 대해 이러한 프로파일링을 수행했다. 환자 및 분자 데이터는 관심 있는 다양한 표현형을 특성화하는 데 사용할 수 있는 추가 바이오마커 서명을 식별하기 위해 머신 러닝 알고리즘을 사용하여 처리할 수 있다. 여기에서, 이 "차세대 프로파일링"(NGP) 접근 방식은 생체 샘플의 속성, 비제한적 예를 들면, 원발 기원, 장기 유형, 조직학 및/또는 암 유형을 예측하기 위한 모델을 구축하는 데 적용되었다.
포괄적인 분자 프로파일링은 환자 샘플의 분자 상태에 관한 풍부한 데이터를 제공한다. 이러한 데이터를 치료에 대한 환자의 반응과 비교하여 이러한 치료에 대한 반응 또는 무 반응을 예측하는 바이오마커 시그니처를 식별할 수 있다. 본 명세서에서 우리는 환자 샘플의 속성, 비제한적 예를 들어, TOO(Tissue-of-Origin)를 예측하기 위한 시스템 및 방법을 제공한다.
하나의 양태에서, 본 개시내용은 생체 샘플의 적어도 하나의 속성을 예측하기 위해 머신 러닝 모델을 훈련하는 데 사용되기 위한 입력 데이터 구조를 생성하기 위한 데이터 처리 장치를 제공하며, 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되고, 상기 데이터 처리 장치는 하나 이상의 프로세서 및 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하는 명령을 저장하는 하나 이상의 저장 디바이스를 포함하며, 상기 동작은: 데이터 처리 장치에 의해 하나 이상의 바이오마커 데이터 구조 및 하나 이상의 샘플 데이터 구조를 획득하는 것, 데이터 처리 장치에 의해, 하나 이상의 바이오마커 데이터 구조로부터의 샘플과 연관된 하나 이상의 바이오마커를 나타내는 제1 데이터, 하나 이상의 샘플 데이터 구조로부터의 샘플 데이터를 나타내는 제2 데이터, 및 예측된 적어도 하나의 속성을 나타내는 제3 데이터를 추출하는 것, 데이터 처리 장치에 의해, 하나 이상의 바이오마커를 나타내는 제1 데이터 및 예측된 적어도 하나의 속성 및 샘플을 나타내는 제2 데이터에 기초하여, 머신 러닝 모델로의 입력을 위해 데이터 구조를 생성하는 것, 데이터 처리 장치에 의해, 머신 러닝 모델로의 입력으로서 생성된 데이터 구조를 제공하는 것, 데이터 처리 장치에 의해, 생성된 데이터 구조의 머신 러닝 모델의 처리에 기초하여 머신 러닝 모델에 의해 생성된 출력을 획득하는 것, 데이터 처리 장치에 의해, 샘플에 대한 예측된 적어도 하나의 속성을 나타내는 제3 데이터와 머신 러닝 모델에 의해 생성된 출력 간 차이를 결정하는 것, 및 데이터 처리 장치에 의해, 샘플에 대한 예측 기원을 나타내는 제3 데이터와 머신 러닝 모델에 의해 생성된 출력 간 차이에 기초하여 머신 러닝 모델의 하나 이상의 파라미터를 조절하는 것을 포함한다. 일부 실시예에서, 하나 이상의 바이오마커의 세트는 표 121-129, 표 117-120의 임의의 것, INSM1, 표 2-116에서 선택된 임의의 표, 이들의 임의의 조합에 나열된 하나 이상의 바이오마커를 포함하고, 선택적으로, 하나 이상의 바이오마커의 세트가 표 117, 표 118, 표 119, 표 120, INSM1, 또는 이들의 임의의 조합 중 하나에 나열된 하나 이상의 바이오마커를 포함한다. 일부 실시예에서, 하나 이상의 바이오마커의 세트는 각각의 바이오마커를 포함한다. 일부 실시예에서, 하나 이상의 바이오마커의 세트는 이들 바이오마커 중 적어도 하나를 포함하고, 선택적으로, 하나 이상의 바이오마커의 세트는 표 118, 표 119, 표 120, 및 INSM1의 바이오마커 각각을 포함하고, 선택적으로 하나 이상의 바이오마커의 세트는 표 2-116로부터 선택된 임의의 표의 마커를 더 포함한다.
하나의 양태에서, 본 개시내용은 생체 샘플의 적어도 하나의 속성을 예측하기 위해 머신 러닝 모델을 훈련하는 데 사용되기 위한 입력 데이터 구조를 생성하기 위한 데이터 처리 장치를 제공하며, 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합을 포함하는 군 중에서 선택되고, 상기 데이터 처리 장치는 하나 이상의 프로세서 및 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하는 명령을 저장하는 하나 이상의 저장 디바이스를 포함하며, 상기 동작은:데이터 처리 장치에 의해, 제1 분산 데이터 소스로부터의 생체 샘플과 연관된 하나 이상의 바이오마커의 세트를 나타내는 데이터를 구조화하는 제1 데이터 구조를 획득하는 것 - 제1 데이터 구조는 상기 샘플을 식별하는 키 값을 포함함 - , 데이터 처리 장치에 의해, 하나 이상의 메모리 디바이스에 제1 데이터 구조를 저장하는 것,데이터 처리 장치에 의해, 제2 분산 데이터 소스로부터의 하나 이상의 바이오마커를 갖는 샘플에 대한 적어도 하나의 속성 데이터를 나타내는 데이터를 구조화하는 제2 데이터 구조를 획득하는 것 - 적어도 하나의 속성 데이터는 샘플을 식별하는 데이터, 적어도 하나의 속성, 및 적어도 하나의 속성의 지시자를 포함하고, 제2 데이터 구조는 샘플을 식별하는 키 값을 더 포함함 - , 데이터 처리 장치에 의해, 하나 이상의 메모리 디바이스에 제2 데이터 구조를 저장하는 것, 데이터 처리 장치에 의해, 메모리 디바이스에 저장된 제1 데이터 구조 및 제2 데이터 구조를 이용해, (i) 하나 이상의 바이오마커의 세트 및 샘플을 나타내는 데이터, 및 (ii) 예측된 적어도 하나의 속성의 지시자를 제공하는 라벨을 포함하는 라벨링된 훈련 데이터 구조를 생성하는 것 - 데이터 처리 장치에 의해, 제1 데이터 구조 및 제2 데이터 구조를 이용해 생성하는 것은 샘플과 연관된 하나 이상의 바이오마커의 세트를 나타내는 데이터를 구조화하는 제1 데이터 구조를, 데이터 처리 장치에 의해 대상체를 식별하는 키 값에 기초하여 하나 이상의 바이오마커를 갖는 샘플에 대해 예측된 적어도 하나의 속성 데이터를 나타내는 제2 데이터 구조와 상관시키는 것을 포함함 - ,데이터 처리 장치에 의해, 생성된 라벨 훈련 데이터 구조를 이용해 머신 러닝 모델을 훈련하는 것 - 생성된 라벨링된 훈련 데이터 구조를 이용해 머신 러닝 모델을 훈련하는 것은 데이터 처리 장치에 의해 생성된 라벨 훈련 데이터 구조를 머신 러닝 모델로의 입력으로서 머신 러닝 모델로 제공하는 것을 포함함 - 을 포함한다. 일부 실시예에서, 동작은 데이터 처리 장치에 의해, 생성된 라벨링된 훈련 데이터 구조의 머신 러닝 모델의 처리에 기초하여 머신 러닝 모델로부터 머신 러닝 모델에 의해 생성된 출력을 획득하는 것, 및 데이터 처리 장치에 의해, 머신 러닝 모델에 의해 생성된 출력과 예측된 적어도 하나의 속성의 지시자를 제공하는 라벨 간 차이를 결정하는 것을 더 포함한다. 일부 실시예에서, 동작은 데이터 처리 장치에 의해, 머신 러닝 모델에 의해 생성된 출력과 예측된 적어도 하나의 속성의 지시자를 제공하는 라벨 간 결정된 차이에 기초하여 머신 러닝 모델의 하나 이상의 파라미터를 조절하는 것을 더 포함한다. 일부 실시예에서, 하나 이상의 바이오마커의 세트는 표 121-129, 표 117-120의 임의의 것, INSM1, 표 2-116에서 선택된 임의의 표, 이들의 임의의 조합에 나열된 하나 이상의 바이오마커를 포함하고, 선택적으로, 하나 이상의 바이오마커의 세트가 표 117, 표 118, 표 119, 표 120, INSM1, 또는 이들의 임의의 조합 중 하나에 나열된 하나 이상의 바이오마커를 포함한다. 일부 실시예에서, 하나 이상의 바이오마커의 세트는 각각의 바이오마커를 포함한다. 일부 실시예에서, 하나 이상의 바이오마커의 세트는 이들 바이오마커 중 적어도 하나를 포함하고, 선택적으로, 하나 이상의 바이오마커의 세트는 표 118, 표 119, 표 120, 및 INSM1의 바이오마커 각각을 포함하고, 선택적으로 하나 이상의 바이오마커의 세트는 표 2-116로부터 선택된 임의의 표의 마커를 더 포함한다.
본 개시내용은 또한 앞서 기재된 동작 각각에 대응하는 단계들을 포함하는 방법을 제공한다. 본 개시는 또한 하나 이상의 컴퓨터 및 상기 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 상기의 단락들에서 기재된 동작을 수행하게 하는 명령을 저장하는 하나 이상의 저장 매체를 포함하는 시스템을 제공한다. 본 개시는 하나 이상의 컴퓨터에 의해 실행되는 명령을 포함하는 소프트웨어를 저장하는 비일시적 컴퓨터 판독형 매체를 또한 제공하며, 상기 명령은 실행 시 하나 이상의 컴퓨터로 하여금 상기의 단락에서 기재된 동작을 수행하게 한다.
하나의 양태에서, 본 개시내용은 생체 샘플의 적어도 하나의 속성을 결정하기 위한 방법을 제공하며, 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되고, 상기 방법은 샘플을 나타내는 수신된 입력 데이터와 적어도 하나의 속성 간 예측 동작을 수행하도록 각각 훈련된 복수의 머신 러닝 모델의 각각의 특정 머신 러닝 모델에 대해: 특정 머신 러닝 모델로, 대상체의 샘플을 나타내는 입력 데이터를 제공하는 단계 - 샘플은 대상체의 조직 또는 장기로부터 획득됨 - , 및 특정 머신 러닝 모델의 제공된 입력 데이터 처리에 기초하여 특정 머신 러닝 모델에 의해 생성된 출력 데이터를 획득하는 단계 - 상기 출력 데이터는 제공된 입력 데이터에 의해 나타내어지는 샘플이 적어도 하나의 속성에 대응할 확률 또는 우도를 나타냄 - , 복수의 머신 러닝 모델의 각각의 머신 러닝 모델에 대해 획득된 출력 데이터를 투표 유닛으로 제공하는 단계 - 제공된 출력 데이터는 복수의 머신 러닝 모델의 각각의 머신 러닝 모델에 의해 결정된 초기 샘플 속성을 나타내는 데이터를 포함함 - , 및 투표 유닛에 의해 제공된 출력 데이터에 기초하여, 예측된 적어도 하나의 속성을 결정하는 단계를 포함한다. 일부 실시예에서, 제공된 출력 데이터에 다수결 규칙을 적용함으로써, 제공된 출력 데이터를 동적 투표 모델의 입력으로 사용함으로써, 또는 이들의 조합에 의해, 상기 예측된 적어도 하나의 속성이 결정된다. 일부 실시예에서, 투표 유닛에 의해 제공된 출력 데이터에 기초하여, 예측된 적어도 하나의 속성을 결정하는 단계는 투표 유닛에 의해, 복수의 후보 속성 분류의 각각의 초기 속성 분류의 발생 횟수를 결정하는 단계, 및 투표 유닛에 의해, 복수의 후보 속성 분류 중 가장 높은 등장 횟수를 가진 초기 속성 분류를 선택하는 단계를 포함한다. 일부 실시예에서, 복수의 머신 러닝 모델의 각각의 머신 러닝 모델은 랜덤 포레스트 분류 알고리즘, 부스팅 트리(boosted tree), 서포트 벡터 머신, 로지스틱 회귀, k-최근접 이웃 모델, 인공 신경망, 나이브 베이즈 모델, 2차 판별 분석, 가우시안 프로세스 모델, 또는 이들의 조합을 포함한다. 일부 실시예에서, 복수의 머신 러닝 모델의 각각의 머신 러닝 모델은 랜덤 포레스트 분류 알고리즘을 포함한다. 일부 실시예에서, 복수의 머신 러닝 모델의 각각의 머신 러닝 모델은 부스팅 트리 분류 분류 알고리즘을 포함한다. 일부 실시예에서, 복수의 머신 러닝 모델은 동일한 유형의 분류 알고리즘의 복수의 표현을 포함한다. 일부 실시예에서, 입력 데이터는 (i) 샘플 속성 및 (ii) 기원의 기술을 나타낸다. 일부 실시예에서, 복수의 후보 속성 분류는 전립선, 방광, 자궁경부, 복막, 위, 식도, 난소, 두정엽, 자궁경부, 자궁내막, 간, S상 결장, 유방의 상외사분면, 자궁, 췌장, 머리의 각각의 바이오시그니처을 식별하는 데 사용되었습니다.췌장, 직장, 결장, 유방, 간내 담관, 맹장, 위식도 접합부, 전두엽, 신장, 췌장 꼬리, 상행 결장, 하행 결장, 담낭, 맹장, 직결장, 나팔관, 뇌, 폐, 측두엽, 하부 식도의 3분의 1, 유방의 상부 내측 사분면, 횡행 결장, 및 피부에 대한 적어도 하나의 분류를 포함한다. 일부 실시예에서, 복수의 후보 속성 분류는 위식도 선암종, 위장관기질종양(GIST), 간세포 암종, 폐 선암종, 흑색종, 수막종, 난소 과립막 세포 종양, 난소 및 나팔관 선암종, 췌장 선암종, 전립선 선암종, 신세포 암종, 편평세포암종, 갑상선암, 요로상피 암종, 자궁내막 선암종, 및 자궁육종 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 또는 21개 모두를 포함한다. 일부 실시예에서, 샘플 속성은 샘플에 대한 하나 이상의 바이오마커를 포함하고, 선택적으로, 하나 이상의 바이오마커는 표 121-129, 표 117-120의 임의의 것, INSM1, 표 2-116에서 선택된 임의의 표, 이들의 임의의 조합에 나열된 하나 이상의 바이오마커를 포함하고, 선택적으로, 하나 이상의 바이오마커의 세트가 표 117, 표 118, 표 119, 표 120, INSM1, 또는 이들의 임의의 조합 중 하나에 나열된 하나 이상의 바이오마커를 포함한다. 일부 실시예에서, 하나 이상의 바이오마커의 세트는 각각의 바이오마커를 포함한다. 일부 실시예에서, 하나 이상의 바이오마커의 세트는 이들 바이오마커 중 적어도 하나를 포함하고, 선택적으로, 하나 이상의 바이오마커의 세트는 표 118, 표 119, 표 120, 및 INSM1의 바이오마커 각각을 포함하고, 선택적으로 하나 이상의 바이오마커의 세트는 표 2-116로부터 선택된 임의의 표의 마커를 더 포함한다. 일부 실시예에서, 입력 데이터는 샘플 및/또는 피험체에 대한 설명을 나타내는 데이터를 더 포함한다. 본 개시는 또한 하나 이상의 컴퓨터 및 상기 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 상기의 단락들에서 기재된 동작을 수행하게 하는 명령을 저장하는 하나 이상의 저장 매체를 포함하는 시스템을 제공한다. 본 개시는 하나 이상의 컴퓨터에 의해 실행되는 명령을 포함하는 소프트웨어를 저장하는 비일시적 컴퓨터 판독형 매체를 또한 제공하며, 상기 명령은 실행 시 하나 이상의 컴퓨터로 하여금 상기의 단락에서 기재된 동작을 수행하게 한다.
1. 하나의 양태에서, 본 개시 내용은 생체 샘플을 분류하기 위한 방법을 제공하며, 상기 방법은 하나 이상의 컴퓨터에 의해, 생체 샘플의 RNA 시퀀스에 기초하여 이전에 결정된 생체 샘플에 대한 하나 이상의 초기 분류를 나타내는 제1 데이터를 획득하는 단계, 하나 이상의 컴퓨터에 의해, 필요할 때, 생체 샘플의 DNA 시퀀스에 기초하여 이전에 결정된 생체 샘플에 대한 다른 초기 분류를 나타내는 제2 데이터를 획득하는 단계, 하나 이상의 컴퓨터에 의해, 제1 데이터 및 제2 데이터의 적어도 일부분을 복수의 초기 생체 샘플 분류의 처리에 기초하여 타깃 생체 샘플 분류를 예측하도록 훈련된 동적 투표 엔진의 입력으로서 제공하는 단계, 하나 이상의 컴퓨터에 의해, 동적 투표 엔진을 통해 제공된 입력 데이터를 처리하는 단계; 하나 이상의 컴퓨터에 의해, 제공된 입력 데이터의 동적 투표 엔진의 처리에 기초하여 동적 투표 엔진에 의해 생성된 출력 데이터를 획득하는 단계, 및 하나 이상의 컴퓨터에 의해, 획득된 출력 데이터에 기초하여 생체 샘플에 대한 타깃 생체 샘플 분류를 결정하는 단계를 포함한다. 일부 실시예에서, 하나 이상의 컴퓨터에 의해, 생체 샘플의 RNA 서열에 기초하여 이전에 결정된 생체 샘플에 대한 하나 이상의 초기 분류를 나타내는 제1 데이터를 획득하는 단계는 생체 샘플의 RNA 서열에 기초하여 생체 샘플에 대한 암 유형 분류를 나타내는 데이터를 획득하는 단계, 생체 샘플의 RNA 서열에 기초하여 생체 샘플이 기원된 장기를 나타내는 데이터를 획득하는 단계, 및 생체 샘플의 RNA 서열에 기초하여 생체 샘플에 대한 조직학을 나타내는 데이터를 획득하는 단계를 포함하며, 제1 데이터 및 제2 데이터의 적어도 일부분을 동적 투표 엔진의 입력으로서 제공하는 단계는 암 유형을 나타내는 획득된 데이터, 생체 샘플이 기원된 장기를 나타내는 획득된 데이터, 조직학을 나타내는 획득된 데이터, 및 동적 투표 엔진의 입력으로서 제2 데이터를 제공하는 단계를 포함한다. 일부 실시예에서, 동적 투표 엔진은 하나 이상의 머신 러닝 모델을 포함한다. 일부 실시예에서, 동적 투표 엔진을 훈련하는 것은 (I) 암 분류 유형을 나타내는 데이터, 초기 기원 장기를 나타내는 데이터, 조직학을 나타내는 데이터, 또는 DNA 분석 엔진의 출력을 나타내는 데이터를 포함하는 라벨링된 훈련 데이터 아이템 및 (II) 타깃 생체 샘플 분류를 포함하는 라벨링된 훈련 데이터 아이템을 획득하는 것, 획득된 훈련 데이터 아이템에 기초하여 동적 투표 엔진으로의 입력을 위해 훈련 입력 데이터를 생성하는 것, 동적 투표 엔진을 통해 생성된 훈련 입력 데이터를 처리하는 것, 동적 투표 엔진의 생성된 훈련 입력 데이터의 처리에 기초하여 동적 투표 엔진에 의해 생성된 출력 데이터를 획득하는 것, 및 출력 데이터와 획득된 훈련 데이터 아이템의 라벨 간 유사도에 기초하여 동적 투표 엔진의 하나 이상의 파라미터를 조정하는 것을 포함한다.
일부 실시예에서, 생체 샘플의 DNA 서열에 기초한 생체 샘플에 대한 초기 분류를 이전에 결정하는 단계는, 하나 이상의 컴퓨터에 의해, 신체의 제1 부분의 암성 신생물로부터 획득된 생체 샘플을 나타내는 생체 시그니처를 수신하는 단계 - 모델은 복수의 상이한 유형의 암성 생체 샘플 각각에 대해 암성 생체 시그니처를 포함하고, 각각의 암성 생체 시그니처는 하나 이상의 다른 신체의 제1 부분으로부터의 암성 생체 샘플의 분자 프로파일을 나타내는 적어도 제1 암성 생체 시그니처 및 하나 이상의 다른 신체의 제2 부분으로부터의 암성 생체 샘플의 분자 프로파일을 나타내는 제2 암성 생체 시그니처를 포함함 - , 하나 이상의 컴퓨터에 의해 쌍별 분석 모델(pairwise-analysis model)을 이용해, 제1 암성 생체 시그니처 및 제2 암성 생체 시그니처를 이용해 생체 시그니처의 쌍별 분석을 수행하는 단계, 하나 이상의 컴퓨터에 의해 수행된 쌍별 분석에 기초하여, 신체의 제1 부분의 암성 신생물이 신체의 제2 부분의 암에 의해 야기됐을 우도를 생성하는 단계, 및 하나 이상의 컴퓨터에 의해 메모리 디바이스에 생성된 우도를 저장하는 단계를 포함한다. 본 개시는 또한 하나 이상의 컴퓨터 및 상기 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 상기의 단락들에서 기재된 동작을 수행하게 하는 명령을 저장하는 하나 이상의 저장 매체를 포함하는 시스템을 제공한다. 본 개시는 하나 이상의 컴퓨터에 의해 실행되는 명령을 포함하는 소프트웨어를 저장하는 비일시적 컴퓨터 판독형 매체를 또한 제공하며, 상기 명령은 실행 시 하나 이상의 컴퓨터로 하여금 상기의 단락에서 기재된 동작을 수행하게 한다.
하나의 양태에서, 방법이 제공되며, 상기 방법은 (a) 암을 갖는 대상체로부터 생체 샘플을 획득하는 단계, (b) 샘플에 적어도 하나의 분석으로 수행하여 하나 이상의 바이오마커를 평가함으로써 샘플에 대한 바이오시그니처를 획득하는 단계, (c) 바이오시그니처를 암의 적어도 하나의 속성을 예측하도록 훈련된 모델로 제공하는 단계 - 상기 모델은 적어도 하나의 속성을 나타내는 적어도 하나의 지정 바이오시그니처를 포함하고, 암의 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합을 포함하는 군 중에서 선택됨 - , (d) 하나 이상의 컴퓨터에 의해, 모델을 통해 제공된 바이오시그니처를 처리하는 단계, 및 (e) 암의 적어도 하나의 속성의 예측을 모델로부터 출력하는 단계를 포함한다.
본 명세서에 제공된 방법에서, 생체 샘플은 포르말린-고정 파라핀-포매(FFPE: formalin-fixed paraffin-embedded) 조직, 고정된 조직, 코어 바늘 생검, 미세 바늘 흡인물, 비염색 슬라이드, 신선 동결(FF: fresh frozen) 조직, 포르말린 샘플, 핵산 또는 단백질 분자를 보존하는 용액에 포함된 조직, 신선 샘플, 악성 유체, 체액, 종양 샘플, 조직 샘플, 또는 이들의 임의의 조합을 포함한다. 일부 실시예에서, 생체 샘플은 고형 종양, 체액, 또는 이의 조합으로부터의 세포를 포함한다. 일부 실시예에서, 체액은 악성 유체, 흉수, 복막액, 또는 이들의 임의의 조합을 포함한다. 일부 실시예에서, 체액은 말초 혈액, 혈청, 혈장, 복수, 소변, 뇌척수액(CSF), 가래, 타액, 골수, 활액, 안방수, 양수, 귀지, 모유, 기관지폐포 세척액, 정액, 전립선액, 소액, 사정전액, 여성의 사정액, 땀, 대변, 눈물, 낭종액, 흉막액, 복막액, 심낭액, 림프액, 유미즙, 유미, 담즙, 간질액, 월경, 고름, 피지, 구토, 질 분비물, 점막 분비물, 대변 물, 췌장액, 부비동강 세척액, 기관지폐 흡인물, 배반포강액 또는 제대혈을 포함한다.
본 명세서에 제공된 방법에서, 단계(b)에서의 적어도 하나의 분석을 수행하는 것은 하나 이상의 바이오머커 각각에 대한 단백질 또는 핵산의 존재여부, 레벨, 또는 상태를 결정하는 것을 포함할 수 있으며, 선택적으로, 핵산은 DNA(deoxyribonucleic acid), RNA(ribonucleic acid), 또는 이들의 조합을 포함한다. 일부 실시예에서, 적어도 하나의 단백질의 존재여부, 레벨 또는 상태는 면역조직화학(IHC: immunohistochemistry), 유세포 분석, 면역분석, 항체 또는 기능 단면, 압타머, 질량 분석계, 또는 이들의 임의의 조합 중에서 선택된 기술을 이용해 결정되며, 선택적으로 모든 단백질의 존재여부, 레벨, 또는 상태가 상기 기술을 이용해 결정됨, 및/또는 적어도 하나의 핵산의 존재여부, 레벨, 또는 상태가 PCR(polymerase chain reaction), 원위치 혼성화, 증폭, 혼성화, 마이크로어레이, 핵산 시퀀싱, 염료 종단 시퀀싱, 파이로시퀀싱, 차세대 시퀀싱(NGS; 고처리율 시퀀싱), 전장 엑솜 시퀀싱, 전장 게놈 시퀀싱, 전장 전사체 시퀀싱, 또는 이들의 임의의 조합 중에서 선택된 기술을 이용해 결정되며, 선택적으로, 모든 핵산의 존재여부, 레벨 또는 상태가 상기 기술을 이용해 결정된다. 일부 실시예에서, 핵산의 상태는 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 전좌, 융합, 절단, 복제, 증폭, 반복, 복제수, 복제수 변동(CNV; 복제수 변경; CNA), 또는 임의의 이들의 조합을 포함한다. 일부 실시예에서, 핵산의 상태는 복제수를 포함한다. 일부 실시예에서, 적어도 하나의 분석은 차세대 시퀀싱을 포함하며, 선택적으로 차세대 시퀀싱은 i) 표 121-130 중 어느 하나의 유전자, 게놈 정보/시그니처, 및 융합 전사, 또는 이들의 임의의 조합, ii) 표 117-120에서 선택된 어느 표, INSM1, 및 이들의 임의의 조합의 유전자 및/또는 전사 중 적어도 하나, iii) 전장 엑솜 또는 실질적으로 전장 엑솜, iv) 전장 전사체 또는 실질적으로 전장 전사체, v) 표 2-116에서 선택된 어느 한 표의 적어도 하나의 유전자, 및 이들의 임의의 조합, 또는 vi) 이들의 임의의 조합을 평가하도록 사용된다.
본 명세서에 제공된 방법에서, 암의 적어도 하나의 속성을 예측하는 것은 속성이 이러한 복수의 속성의 각각의 구성원일 확률을 결정하고 가장 높은 확률을 갖는 속성을 선택하는 것을 포함할 수 있다.
본 명세서에 제공된 방법의 일부 실시예에서, 하나의 원발 종양 기원 또는 복수의 원발 종양 기원은 전립선, 방광, 자궁 경부 내막, 복막, 위, 식도, 난소, 두정엽, 자궁 경부, 자궁 내막, 간, 구불 결장, 유방의 상부 외부 사분면, 자궁, 췌장, 췌장 머리, 직장, 결장, 유방, 간내 담관, 맹장, 위식도 접합부, 전두엽, 신장, 췌장 꼬리, 상행 결장, 하행 결장, 담낭, 충수돌기, 직장구불 결장, 나팔관, 뇌, 폐, 측두엽, 식도의 하부 1/3, 유방의 상부 내부 사분면, 횡행 결장 및 피부 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 또는 모든 38개로 구성되거나 포함한다. 일부 실시예에서, 하나의 원발 종양 기원 또는 복수의 원발 종양 기원은 유방 선암종, 중추신경계 암, 자궁경부 선암종, 담관암, 결장 선암종, 위식도 선암종, 위장관기질종양(GIST), 간세포 암종, 폐 선암종, 흑색종, 수막종, 난소 과립막 세포 종양, 난소 및 나팔관 선암종, 췌장 선암종, 전립선 선암종, 신세포 암종, 편평세포암종, 갑상선암, 요로상피 암종, 자궁내막 선암종, 및 자궁 육종 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 또는 모든 21개로 구성되거나 포함한다. 일부 실시예에서, 암/질병 유형은 부신 피질 암종; 담관, 담관암종; 유방암종; 중추신경계(CNS); 자궁경부암종; 결장암종; 자궁내막암종; 위장관 기질 종양(GIST); 위식도 암종; 신장 신세포 암종; 간 간세포 암종; 폐암종; 흑색종; 수막종; 메르켈(Merkel); 신경내분비; 난소 과립막 세포 종양; 난소, 나팔관, 복막; 췌장암종; 흉막 중피종; 전립선 선암종; 후복막; 타액 및 이하선; 소장 선암종; 편평 세포 암종; 갑상선암종; 요로상피암종; 자궁 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 또는 모든 28개로 구성되거나 포함한다. 일부 실시예에서, 장기 군은 부신; 방광; 뇌; 유방; 결장; 눈; 여성 생식기 및 복막(FGTP); 위식도; 두부, 안면 또는 경부, NOS; 신장; 간, 담낭, 담관; 폐; 췌장; 전립선; 피부; 소장; 갑상선 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 또는 모든 17개로 구성되거나 포함한다. 일부 실시예에서, 조직학(histology)은 선암종, 샘낭암종, 선편평암종, 부신피질암종, 성상세포종, 암종, 암육종, 담관암종, 투명세포암종, 유관상피내암종(DCIS), 교모세포종(GBM), GIST, 신경교종, 과립막세포종양, 침윤성 소엽 암종, 평활근육종, 지방육종, 흑색종, 수막종, 메르켈 세포 암종, 중피종, 신경내분비, 비소세포암종, 희소돌기아교종, 육종, 육종양암종, 장액, 소세포암종, 편평상피 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 또는 모든 29개로 구성되거나 포함한다.
본 명세서에 제공된 방법의 일부 실시예에서, 암의 적어도 하나의 속성을 나타내는 적어도 하나의 지정 바이오시그니처, 선택사항으로서 암/질병 유형을 나타내는 적어도 하나의 지정 바이오시그니처는 표 118에 따른 바이오마커의 선택을 포함하며, 선택적으로: i. 부신피질암종을 나타내는 지정 바이오시그니처는 INHA, MIB1, SYP, CDH1, NKX3-1, CALB2, KRT19, MUC1, S100A5, CD34, TMPRSS2, KRT8, NCAM2, ARG1, TG, NCAM1, SERPINA1, PSAP, TPM3, 및 ACVRL1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, ii. 담관, 담관암종을 나타내는 지정 바이오시그니처는 HNF1B, VIL1, SERPINA1, ESR1, ANO1, SOX2, MUC4, S100A2, KRT5, KRT7, CNN1, AR, ENO2, S100A9, NKX2-2, SATB2, PSAP, S100A6, CALB2, 및 TMPRSS2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, iii. 유방암종을 나타내는 지정 바이오시그니처는 GATA3, ANKRD30A, KRT15, KRT7, S100A2, PAX8, MUC4, KRT18, HNF1B, S100A1, PIP, SOX2, MDM2, MUC5AC, PMEL, TFF1, KRT16, KRT6B, S100A6, 및 SERPINB5로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, iv. 중추신경계를 나타내는 지정 바이오시그니처는 S100B, KRT18, KRT8, SOX2, ANO1, NCAM1, PDPN, NKX2-2, KRT19, S100A14, S100A11, S100A1, MSH2, CEACAM1, GPC3, ERBB2, TG, KRT7, CGB3, 및 S100A2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, v. 자궁경부암종을 나타내는 지정 바이오시그니처는 ESR1, CDKN2A, CCND1, LIN28A, PGR, SMARCB1, CEACAM4, S100B, FUT4, PSAP, MUC2, MDM2, NCAM1, SATB2, TNFRSF8, CD79A, S100A13, VHL, CD3G, 및 TPSAB1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, vi. 결장암종을 나타내는 지정 바이오시그니처는 CDX2, KRT7, MUC2, KRT20, MUC1, SATB2, VIL1, CEACAM5, CDH17, S100A6, CEACAM20, KRT6B, TFF3, FUT4, BCL2, KRT6A, KRT18, CEACAM18, TFF1, 및 MLH1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, vii. 자궁내막암종을 나타내는 지정 바이오시그니처는 PAX8, PGR, ESR1, VHL, CALD1, LIN28B, NAPSA, KRT5, S100A6, DES, FLI1, DSC3, S100P, CEACAM16, PDPN, ARG1, TLE1, WT1, BCL6, 및 MLH1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, viii. 위장관기질종양(GIST)을 나타내는 지정 바이오시그니처는 ANO1, SDC1, KRT19, MUC1, KRT8, ACVRL1, KIT, CDH1, S100A2, KRT7, ERBB2, S100A16, ENO2, S100A9, TPSAB1, KRT17, PAX8, PGR, ESR1, 및 VHL로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, ix. 위식도암종을 나타내는 지정 바이오시그니처는 FUT4, CDX2, SERPINB5, MUC5AC, AR, TFF1, NCAM2, TFF3, ISL1, ANO1, VIL1, PAX8, SOX2, CEACAM6, S100A13, ENO2, NAPSA, TPSAB1, S100B, 및 CD34로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, x. 신장 신세포 암종을 나타내는 지정 바이오시그니처는 PAX8, CDH1, CDKN2A, S100P, S100A14, HAVCR1, HNF1B, KL, KRT7, MUC1, POU5F1, VHL, PAX2, AMACR, BCL6, S100A13, CA9, MDM2, SALL4, 및 SYP로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xi. 간 간세포 암종을 나타내는 지정 바이오시그니처는 SERPINA1, CEACAM16, KRT19, AFP, MUC4, CEACAM5, MSH2, BCL6, DSC3, KRT15, S100A6, CEACAM20, GPC3, MUC1, CD34, VIL1, ERBB2, POU5F1, KRT18, 및 KRT16로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xii. 폐암종을 나타내는 지정 바이오시그니처는 NAPSA, SOX2, CEACAM7, KRT7, S100A10, CEACAM6, S100A1, PAX8, AR, VHL, S100A13, CD99L2, KRT5, MUC1, CEACAM1, SFTPA1, TMPRSS2, TFF1, KRT15, 및 MUC4로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xiii. 흑색종을 나타내는 지정 바이오시그니처는 S100B, KRT8, PMEL, KRT19, MUC1, MLANA, S100A14, S100A13, MITF, S100A1, VIM, CDKN2A, ACVRL1, MS4A1, POU5F1, TPM1, UPK3A, S100P, GATA3, 및 CEACAM1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xiv. 수막종을 나타내는 지정 바이오시그니처는 SDC1, KRT8, ANO1, VIM, S100A14, S100A2, CEACAM1, MSH2, PGR, KRT10, TP63, CD5, INHA, CDH1, CCND1, MDM2, KRT16, SPN, SMARCB1, 및 S100A9로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xv. 메르켈 세포 암종을 나타내는 지정 바이오시그니처는 ISL1, ERBB2, S100A12, S100A14, MYOG, SDC1, KRT7, S100PBP, MME, TMPRSS2, CEACAM5, CPS1, CR1, MUC4, CEACAM4, CA9, ENO2, FLI1, LIN28B, 및 MLANA로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xvi. 신경내분비를 나타내는 지정 바이오시그니처는NCAM1, ISL1, ENO2, POU5F1, TFF3, SYP, TPM4, S100A1, S100Z, MUC4, MPO, DSC3, CEACAM4, S100A7, ERBB2, CDX2, S100A11, KRT10, CEACAM5, 및 CEACAM3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xvii. 난소 과립막 세포 종양을 나타내는 지정 바이오시그니처는 FOXL2, SDC1, MSH6, MUC1, KRT8, PGR, MME, SERPINA1, FLI1, S100B, CEACAM21, AMACR, KRT1, SFTPA1, TPM1, CALCA, S100A11, NCAM1, ISL1, 및 ENO2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xviii. 난소, 나팔관, 복막을 나타내는 지정 바이오시그니처는 WT1, PAX8, INHA, TFE3, S100A13, FOXL2, TLE1, MSLN, POU5F1, CEACAM3, ALPP, S100A10, FUT4, NKX3-1, CEACAM5, SOX2, ESR1, ENO2, ACVRL1, 및 SYP로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xix. 췌장암종을 나타내는 지정 바이오시그니처는 PDX1, GATA3, ANO1, SERPINA1, ISL1, MUC5AC, FUT4, SMAD4, CD5, CALB2, S100A4, SMN1, ESR1, HNF1B, AMACR, MSH2, PDPN, MSLN, TFF1, 및 KRT6C로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xx. 흉막중피종을 나타내는 지정 바이오시그니처는 UPK3B, CALB2, WT1, SMARCB1, PDPN, INHA, CEACAM1, MSLN, KRT5, CA9, S100A13, SF1, CDH1, CDKN2A, FLI1, SYP, CEACAM3, CPS1, SATB2, 및 BCL6로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxi. 전립선 선암종을 나타내는 지정 바이오시그니처는 KRT7, KLK3, NKX3-1, AMACR, S100A5, MUC1, MUC2, UPK3A, KL, CPS1, MSLN, PMEL, CNN1, SERPINA1, KRT2, CGB3, TMPRSS2, CEACAM6, SDC1, 및 AR로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxii. 후복막을 나타내는 지정 바이오시그니처는 KRT19, KRT18, KRT8, TPM1, S100A14, CD34, TPM4, CDH1, CNN1, SDC1, AR, MDM2, KIT, TLE1, CPS1, CDK4, UPK3A, TMPRSS2, TPM3, 및 CEACAM1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxiii. 침샘 및 이하선을 나타내는 지정 바이오시그니처는ENO2, PIP, TPM1, KRT14, S100A1, ERBB2, TFF1, ALPP, DSC3, CTNNB1, CALB2, SALL4, ANO1, CEACAM16, HNF1B, KIT, ARG1, CEACAM18, TMPRSS2, 및 HAVCR1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxiv. 소장 선암종을 나타내는 지정 바이오시그니처는 PDX1, DES, MUC2, CDH17, CEACAM5, SERPINA1, KRT20, HNF1B, ESR1, ARG1, CD5, TLE1, PMEL, SOX2, SFTPA1, MME, CD99L2, MPO, S100P, 및 CA9로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxv. 편평세포암종을 나타내는 지정 바이오시그니처는 TP63, SOX2, KRT6A, KRT17, S100A1, CD3G, SFTPA1, AR, KRT5, SDC1, KRT20, DSC3, CNN1, MSH2, ESR1, S100A2, SERPINB5, PDPN, S100A14, 및 TPM3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxvi. 갑상선 암종을 나타내는 지정 바이오시그니처는 TG, PAX8, CPS1, S100A2, TPSAB1, CALB2, HNF1B, INHA, ARG1, CNN1, CDK4, VIM, CEACAM5, TLE1, TFF3, KRT8, S100P, FOXL2, MUC1, 및 GATA3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxvii. 요로상피암종을 나타내는 지정 바이오시그니처는 GATA3, UPK2, KRT20, MUC1, S100A2, CPS1, TP63, CALB2, MITF, S100P, SERPINA1, DES, CTNNB1, MSLN, SALL4, VHL, KRT7, CD2, PAX8, 및 UPK3A로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, 및/또는 xxviii. 자궁을 나타내는 지정 바이오시그니처는 KRT19, KRT18, NCAM1, DES, FOXL2, CD79A, S100A14, ESR1, MSLN, MITF, UPK3B, TPM1, ENO2, S100P, MLH1, KRT8, CDH1, TPM4, SATB2, 및 MDM2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함.
본 명세서에 제공된 방법의 일부 실시예에서, 암의 적어도 하나의 속성을 나타내는 적어도 하나의 지정 바이오시그니처, 선택사항으로서 적어도 하나의 속성은 장기 유형이고, 표 119에 따른 바이오마커의 선택을 포함하며, 선택적으로: i. 부신을 나타내는 지정 바이오시그니처는 INHA, CDH1, SYP, MIB1, CALB2, KRT8, PSAP, KRT19, NCAM2, NKX3-1, ARG1, SERPINA1, CD34, TPM3, S100A7, ACVRL1, PMEL, CR1, ERG, 및 PECAM1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, ii. 방광을 나타내는 지정 바이오시그니처는 GATA3, KRT20, UPK2, CPS1, SALL4, SERPINA1, DES, CALB2, MUC1, S100A2, MSLN, MITF, PAX8, S100A10, CNN1, UPK3A, CD3G, NAPSA, CD2, 및 MME로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, iii. 뇌를 나타내는 지정 바이오시그니처는 KRT8, ANO1, S100B, S100A14, SOX2, PDPN, CEACAM1, S100A2, NCAM1, MSH2, KRT18, NKX2-2, WT1, S100A1, GPC3, TLE1, CD5, S100Z, S100A16, 및 PGR로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, iv. 유방을 나타내는 지정 바이오시그니처는 GATA3, ANKRD30A, KRT15, KRT7, S100A2, S100A1, MUC4, HNF1B, KRT18, SOX2, PIP, PAX8, MDM2, KRT16, MUC5AC, S100A6, TP63, TFF1, KRT5, 및 SERPINA1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, v. 결장을 나타내는 지정 바이오시그니처는 CDX2, KRT7, MUC2, KRT20, MUC1, CEACAM5, CDH17, TFF3, KRT18, KRT6B, VIL1, SATB2, S100A6, SOX2, S100A14, HAVCR1, FUT4, ERG, HNF1B, 및 PTPRC로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, vi. 눈을 나타내는 지정 바이오시그니처는 PMEL, MLANA, MITF, BCL2, S100A13, S100A2, S100A10, S100A1, MIB1, SOX2, ENO2, S100A16, VIM, VHL, PDPN, WT1, S100B, KRT7, KRT10, 및 PSAP로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, vii. 여성 생식기 및 복막(FGTP)을 나타내는 지정 바이오시그니처는 PAX8, ESR1, WT1, PGR, CDKN2A, FOXL2, KRT5, TPM4, SMARCB1, DES, TMPRSS2, CDK4, GATA3, AR, S100A13, MSH2, ANO1, CALB2, MS4A1, 및 CCND1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, viii. 위식도를 나타내는 지정 바이오시그니처는 CDX2, ANO1, FUT4, SERPINB5, SPN, NCAM2, VIL1, CD34, ENO2, TFF3, AR, S100A13, TPM1, CEACAM6, SOX2, PAX8, MUC5AC, CDH1, S100A11, 및 ISL1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, ix. 두부, 안면 또는 경부, NOS를 나타내는 지정 바이오시그니처는 KRT5, DSC3, TP63, HNF1B, MUC5AC, PAX5, KRT15, PGR, S100A6, TMPRSS2, MME, S100B, ENO2, CEACAM8, SALL4, ANO1, GATA3, LIN28B, CD99L2, 및 UPK3A로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, x. 신장을 나타내는 지정 바이오시그니처는 PAX8, CDH1, HNF1B, S100A14, HAVCR1, CDKN2A, S100P, KL, KRT7, S100A13, VHL, PAX2, POU5F1, MUC1, AMACR, ENO2, MDM2, WT1, SYP, 및 AR로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xi. 간, 담낭, 담관을 나타내는 지정 바이오시그니처는 SERPINA1, VIL1, HNF1B, ANO1, ESR1, SOX2, MUC4, S100A2, ENO2, CNN1, POU5F1, KRT5, S100A9, UPK3B, PSAP, KRT7, KL, TMPRSS2, SATB2, 및 S100A14로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xii. 폐를 나타내는 지정 바이오시그니처는 NAPSA, SOX2, SFTPA1, VHL, S100A1, S100A10, AR, TMPRSS2, CD99L2, CEACAM7, CEACAM6, KRT6A, KRT7, NCAM2, TP63, CEACAM1, MUC4, KRT20, CNN1, 및 ISL1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xiii. 췌장을 나타내는 지정 바이오시그니처는 PDX1, ANO1, SERPINA1, GATA3, ISL1, MUC5AC, SMAD4, FUT4, CD5, SMN1, NKX2-2, TFF1, AMACR, SOX2, HNF1B, S100Z, MSLN, DES, S100A4, 및 CALB2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xiv. 전립선을 나타내는 지정 바이오시그니처는KLK3, KRT7, NKX3-1, AMACR, CPS1, S100A5, UPK3A, KL, MUC1, CGB3, MUC2, TMPRSS2, MSLN, PMEL, S100A10, SERPINA1, KRT20, SFTPA1, BCL6, 및 TFF1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xv. 피부를 나타내는 지정 바이오시그니처는 S100B, KRT8, PMEL, KRT7, KRT19, GATA3, MDM2, AMACR, TPM1, TLE1, CEACAM19, CEACAM16, MLANA, TMPRSS2, AR, TFF3, BCL6, CR1, NCAM1, 및 MS4A1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xvi. 소장을 나타내는 지정 바이오시그니처는 MUC2, CDH17, FLI1, KRT20, CDX2, CD5, KRT7, MPO, CNN1, DSC3, DES, ANO1, S100A1, CALD1, TFF1, SPN, MITF, TMPRSS2, CALB2, 및 CEACAM16로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, 및/또는 xvii. 갑상선을 나타내는 지정 바이오시그니처는 PAX8, TG, CPS1, SERPINB5, INHA, ARG1, CNN1, CEACAM5, TPSAB1, CALB2, HNF1B, VIM, CDK4, S100P, S100A2, LIN28B, TFF3, CGA, TLE1, 및 TPM3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함한다.
본 명세서에 제공된 방법의 일부 실시예에서, 암의 적어도 하나의 속성을 나타내는 적어도 하나의 지정 바이오시그니처, 선택사항으로서 적어도 하나의 속성은 조직학(histology)이며, 표 120에 따른 바이오마커의 선택을 포함하며, 선택적으로: i. 선암종을 나타내는 지정 바이오시그니처는 TMPRSS2, HNF1B, KRT5, MUC1, CEACAM5, MUC5AC, CDH17, TP63, ALPP, GATA3, CEACAM1, TFF3, S100A1, KRT8, PDX1, KRT17, CDH1, KLK3, CPS1, 및 S100A2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, ii. 샘낭암종을 나타내는 지정 바이오시그니처는 KRT14, KIT, TPM3, CGA, SMAD4, CTNNB1, DSC3, S100A6, TP63, TPM1, CALD1, MIB1, CD2, CDH1, ANO1, ENO2, CD3G, TPM2, CEACAM1, 및 BCL2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, iii. 선편평암종을 나타내는 지정 바이오시그니처는 TP63, SFTPA1, OSCAR, KRT19, KRT15, NAPSA, GPC3, MS4A1, S100A12, ERG, CEACAM6, VHL, SOX2, SERPINA1, KRT6A, CDKN2A, CD3G, PIP, NCAM2, 및 CEACAM7로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, iv. 부신피질암종을 나타내는 지정 바이오시그니처는 MIB1, INHA, CDH1, SYP, CALB2, NKX3-1, KRT19, ERBB2, MUC1, ARG1, VIM, CD34, CALD1, S100A9, MSLN, S100A10, CD5, PMEL, SDC1, 및 TP63로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, v. 성상세포종을 나타내는 지정 바이오시그니처는 S100B, SOX2, NCAM1, MUC1, S100A4, KRT17, KRT8, S100A1, TPM4, CNN1, TPM2, OSCAR, AR, SDC1, SALL4, SMN1, SFTPA1, KIT, CA9, 및 S100A9로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, vi. 암종을 나타내는 지정 바이오시그니처는 GATA3, MITF, MUC5AC, PDPN, VIL1, CEACAM5, CDH1, CDH17, IL12B, S100P, KRT20, KRT7, SPN, TMPRSS2, ENO2, NKX2-2, PMEL, IMP3, BCL6, 및 S100A8로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, vii. 암육종을 나타내는 지정 바이오시그니처는 KRT6B, GPC3, MSLN, MUC1, S100A6, S100A2, MME, CDKN2A, CDH1, FOXL2, KRT7, CALB2, SFTPA1, ERG, PGR, KRT17, NAPSA, CALD1, LIN28B, 및 KIT로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, viii. 담관암종을 나타내는 지정 바이오시그니처는 SERPINA1, HNF1B, VIL1, TFF1, ENO2, NKX2-2, FUT4, MUC4, MLH1, TMPRSS2, WT1, KL, KRT7, ESR1, MDM2, SFTPA1, SMN1, KRT18, UPK3B, 및 COQ2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, ix. 투명세포암종을 나타내는 지정 바이오시그니처는 POU5F1, HAVCR1, CEACAM6, HNF1B, PAX8, NAPSA, CD34, MYOG, FOXL2, MITF, S100P, S100A9, S100A14, S100Z, WT1, CDH1, TTF1, SYP, MLH1, 및 KRT16로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, x. 상피내유관암(DCIS)을 나타내는 지정 바이오시그니처는 GATA3, HNF1B, DES, MME, ANKRD30A, SATB2, SOX2, NCAM2, PAX8, CEACAM4, PIP, MUC4, NKX3-1, SERPINA1, KRT20, KIT, NCAM1, KRT14, S100A2, 및 CDKN2A로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xi. 교모세포종(GBM)을 나타내는 지정 바이오시그니처는 S100B, KRT18, PDPN, NKX2-2, SOX2, NCAM1, KRT8, ERBB2, KRT15, KRT19, GATA3, CDKN2A, BCL6, S100A14, KRT10, UPK3A, SF1, CA9, CCND1, 및 KRT5로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xii. GIST을 나타내는 지정 바이오시그니처는 ANO1, SDC1, MUC1, KRT19, KRT8, ACVRL1, KIT, ERBB2, CDH1, CEACAM19, FUT4, TFF3, S100A16, S100A13, ISL1, S100A9, TPSAB1, KRT18, IMP3, 및 KRT3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xiii. 신경교종을 나타내는 지정 바이오시그니처는 KRT8, S100B, SYP, NCAM2, CD3G, SDC1, SOX2, CEACAM1, POU5F1, MIB1, SATB2, MDM2, NCAM1, KRT7, CGB3, CPS1, PDPN, CALCA, ERBB2, 및 TNFRSF8로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xiv. 과립막 세포 종양을 나타내는 지정 바이오시그니처는 FOXL2, SDC1, MSH6, KRT18, KRT8, MME, FLI1, S100A9, CALCA, S100B, CCND1, CEACAM21, TLE1, SERPINA1, S100A11, SFTPA1, SYP, NCAM2, CD3G, 및 SOX2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xv. 침윤성 소엽암을 나타내는 지정 바이오시그니처는 CDH1, GATA3, S100A1, TFF3, CA9, MUC1, NKX3-1, ANKRD30A, SOX2, S100A5, MUC4, KRT7, OSCAR, MME, SERPINA1, CDK4, AR, CEACAM3, BCL6, 및 KRT5로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xvi. 평활근육종을 나타내는 지정 바이오시그니처는 KRT19, KRT8, KRT18, CNN1, TPM4, FOXL2, TPM2, TPM1, CD79A, CALB2, SATB2, S100A5, DES, S100A14, KRT2, ERBB2, PDPN, ENO2, CD2, 및 CALD1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xvii. 지방육종을 나타내는 지정 바이오시그니처는 KRT18, MDM2, CDK4, CDH1, KRT19, KRT7, PDPN, CD34, TPM4, CR1, ACVRL1, MME, KRT8, AMACR, CEACAM5, S100B, OSCAR, LIN28A, S100A12, 및 SDC1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xviii. 흑색종을 나타내는 지정 바이오시그니처는 S100B, PMEL, KRT19, KRT8, MUC1, S100A14, MLANA, S100A13, TPM1, MITF, VIM, CEACAM19, POU5F1, SATB2, CPS1, CDKN2A, KRT10, AR, ACVRL1, 및 LIN28A로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xix. 수막종을 나타내는 지정 바이오시그니처는 SDC1, KRT8, S100A14, ANO1, CEACAM1, VIM, KRT10, PGR, MSH2, CD5, S100A2, CDH1, TP63, SMARCB1, KRT16, S100A10, S100A4, DSC3, CCND1, 및 GATA3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xx. 메르켈 세포 암종을 나타내는 지정 바이오시그니처는 ISL1, ERBB2, MME, MYOG, CPS1, KRT7, SALL4, S100A12, S100A14, S100PBP, CR1, SMAD4, CEACAM5, MUC4, CA9, KRT10, SYP, CCND1, MSLN, 및 MLANA로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxi. 중피종을 나타내는 지정 바이오시그니처는 UPK3B, CALB2, PDPN, SMARCB1, MSLN, KRT5, CEACAM3, WT1, INHA, CEACAM1, CA9, TLE1, SATB2, CDH1, MUC2, CDKN2A, CEACAM18, MSH2, DSC3, 및 PTPRC로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxii. 신경내분비를 나타내는 지정 바이오시그니처는ISL1, NCAM1, S100A11, ENO2, S100A1, SYP, MUC1, TFF3, S100Z, PAX8, ERBB2, ESR1, S100A10, CEACAM5, SDC1, MUC4, MPO, S100A4, S100A7, 및 TP63로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxiii. 비소세포 암종을 나타내는 지정 바이오시그니처는 ESR1, TMPRSS2, AR, S100A1, SFTPA1, MSLN, SOX2, ENO2, TP63, SMAD4, PTPRC, ISL1, CEACAM7, CEACAM20, S100Z, INHA, NCAM1, MUC2, TFF3, 및 PAX8로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxiv. 희소돌기아교종을 나타내는 지정 바이오시그니처는 NCAM1, KRT18, CD2, S100A11, SYP, CDH1, S100A4, S100A14, CEACAM1, S100PBP, SDC1, SALL4, UPK2, COQ2, TPM2, CD99L2, TTF1, CD79A, INHA, 및 VIM로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxv. 육종을 나타내는 지정 바이오시그니처는 NCAM1, KRT19, S100A14, NKX2-2, KRT2, KRT7, SATB2, MYOG, CALD1, CEACAM19, CA9, KRT15, CDKN2A, S100P, WT1, TMPRSS2, S100A7, SERPINB5, DSC3, 및 ENO2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxvi. 육종암종을 나타내는 지정 바이오시그니처는MME, VIM, S100A14, CD99L2, S100A11, NKX3-1, SATB2, CPS1, MSLN, SFTPA1, POU5F1, CDH1, OSCAR, S100A5, IMP3, CEACAM1, PMS2, NCAM2, KRT15, 및 S100A12로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxvii. 장액을 나타내는 지정 바이오시그니처는 WT1, PAX8, KRT7, CDKN2A, MSLN, ACVRL1, SATB2, CDK4, DSC3, AR, S100A16, ANO1, S100A5, SDC1, IMP3, SERPINA1, KRT4, ESR1, FOXL2, 및 KRT15로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, xxviii. 소세포 암종을 나타내는 지정 바이오시그니처는 NCAM1, ISL1, PAX5, KIT, MUC4, S100A10, MUC1, CTNNB1, MITF, NKX2-2, S100A11, SMN1, MSLN, S100A6, BCL2, SYP, KL, CGB3, TPSAB1, TFF3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, 및/또는 xxix. 편평(squamous)을 나타내는 지정 바이오시그니처는 TP63, KRT5, KRT17, SOX2, AR, CD3G, KRT6A, S100A1, DSC3, SERPINB5, HNF1B, SDC1, S100A6, TPSAB1, KRT20, HAVCR1, TTF1, MSH2, PMS2, 및 CNN1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함한다. 본 명세서에 제공된 시스템 및 방법은 상기의 지정 바이오시그니처의 임의의 조합을 고려한다. 가령, 도 4a-c 및 관련 개시내용을 참조할 수 있다.
본 명세서에 제공된 지정 바이오시그니처들 중에서 바이오마커를 선택할 때, 가장 정보를 많이 주는 예측을 제공하는 바이오마커가 선택될 수 있다. 예를 들어, 표 118-120에 나열된 각각의 지정 바이오시그니처에 대해 최고 중요도 값을 갖는 상위 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 또는 20개 특징, 가령, 3 또는 5 또는 10 또는 20개의 특징, 또는 적어도 3 또는 5 또는 10 또는 20개의 특징이 선택될 수 있다.
본 명세서에 제공된 방법의 일부 실시예에서, 단계 (b)에서 하나 이상의 바이오마커, 비제한적 예를 들면 표 118-120에 대해 앞서 기재된 바이오마커를 평가하기 위한 적어도 하나의 분석을 수행하는 것은, DNA 분석 및/또는 발현 분석을 이용해 적어도 하나의 지정 바이오시그니처의 마커를 평가하는 것을 포함하며, i. 상기 DNA 분석은 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 전좌, 융합, 절단, 복제, 증폭, 반복, 복제수, 복제수 변동(CNV; 복제수 변경; CNA), 또는 임의의 이들의 조합으로 구성되거나 포함함, ii. 상기 DNA 분석은, PCR(polymerase chain reaction), 원위치 혼성화, 증폭, 혼성화, 마이크로어레이, 핵산 시퀀싱, 염료 종단 시퀀싱, 파이로시퀀싱, 차세대 시퀀싱(NGS; 고처리율 시퀀싱), 전장 엑솜 시퀀싱, 또는 이들의 임의의 조합을 이용해 결정됨, 및/또는 iii. 발현 분석은 RNA의 분석으로 구성되거나 포함하며, 선택적으로: i. RNA 분석은 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 전좌, 융합, 절단, 복제, 증폭, 반복, 복제수, 양, 레벨, 발현 레벨, 존재여부, 또는 임의의 이들의 조합으로 구성되거나 포함함, 및/또는 ii. RNA 분석은, PCR(polymerase chain reaction), 원위치 혼성화, 증폭, 혼성화, 마이크로어레이, 핵산 시퀀싱, 염료 종단 시퀀싱, 파이로시퀀싱, 차세대 시퀀싱(NGS; 고처리율 시퀀싱), 전장 전사체 시퀀싱, 또는 이들의 임의의 조합을 이용해 결정되고, iv. 발현 분석은 단백질의 분석으로 구성되거나 포함하며, 선택적으로: i. 단백질 분석은 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 융합, 증폭, 양, 레벨, 발현 레벨, 존재여부, 또는 임의의 이들의 조합으로 구성되거나 포함함, 및/또는 ii. 단백질 분석은 IHC(immunohistochemistry), 유세포 분석, 면역분석, 항체 또는 기능 단면, 압타머, 질량 분석, 또는 이들의 임의의 조합, 및/또는 v. 이들의 임의의 조합을 이용해 수행된다. 일부 실시예에서, 단계(b)에서 하나 이상의 바이오마커를 평가하기 위한 분석을 수행하는 것은 DNA 분석 및 RNA 분석의 조합, DNA 분석 및 단백질 분식의 조합, RNA 분석 및 단백질 분석의 조합, 또는 DNA 분석, RNA 분석, 및 단백질 분석의 조합을 이용해 적어도 하나의 지정 바이오시그니처에서 마커를 평가하는 것을 포함한다. 일부 실시예에서, 단계(b)에서 하나 이상의 바이오마커를 평가하기 위한 분석을 수행하는 것은 메신저 RNA 전사체의 RNA 분석을 포함한다.
본 명세서에 제공된 방법의 일부 실시예에서, 암의 적어도 하나의 속성, 선택사항으로서 암 유형 또는 원발 종양 기원을 나타내는 적어도 하나의 지정 바이오시그니처는 표 6i-ac 중 적어도 하나에 따른 바이오마커의 선택을 포함하며, 선택적으로: i. 유방 선암종을 나타내는 지정 바이오시그니처는 GATA3, CDH1, PAX8, KRAS, ELK4, CCND1, MECOM, PBX1, CREBBP로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 GATA3, NY-BR-1, KRT15, CK7, S100A2, RCCMa, MUC4, CK18, HNF1B 및 S100A1에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, ii. 중추신경계 암을 나타내는 지정 바이오시그니처는 IDH1, SOX2, OLIG2, MYC, CREB3L2, SPECC1, EGFR, FGFR2, SETBP1, 및 ZNF217로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 S100B, CK18, CK8, SOX2, DOG1, CD56, PDPN, NKX2-2, CK19, 및 S100A14에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, iii. 자궁경부 선암종을 나타내는 지정 바이오시그니처는 TP53, MECOM, RPN1, U2AF1, GNAS, RAC1, KRAS, FL11, EXT1, 및 CDK6로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 ER, p16, CYCLIND1, LIN28A, PR, SMARCB1, CEACAM4, S100B, CD15, 및 PSAP에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, iv. 담관암을 나타내는 지정 바이오시그니처는 TP53, ARID1A, MAF, KRAS, CACNA1D, SPEN, SETBP1, CDK12, LHFPL6, 및 MDS2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 HNF1B, VILLIN, ANTITRYPSIN, ER, DOG1, SOX2, MUC4, S100A2, KRT5, 및 CK7에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, v. 결장 선암종을 나타내는 지정 바이오시그니처는 APC, CDX2, KRAS, SETBP1, FLT3, LHFPL6, CDKN2A, FLT1, ASXL1, 및 CDKN2B로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 CDX2, CK7, MUC2, CK20, MUC1, SATB2, VILLIN, CEACAM5, CDK17, 및 S100A6에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, vi. 위식도 선암을 나타내는 지정 바이오시그니처는 CDX2, ERG, TP53, KRAS, U2AF1, ZNF217, CREB3L2, IRF4, TCF7L2, 및 LHFPL6로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 CD15, CDX2, MASPIN, MUC5AC, AR, TFF1, NCAM2, TFF3, ISL1, 및 DOG1에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, vii. 위장관 기질 종양(GIST)을 나타내는 지정 바이오시그니처는 c-KIT (KIT), TP53, MAX, PDGFRA, TSHR, MSI2, SPEN, JAK1, SETBP1, 및 CDH11로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 DOG1, CD138, CK19, MUC1, CK8, ACVRL1, KIT, E-CADHERIN, S100A2, 및 CK7에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, viii. 간세포암을 나타내는 지정 바이오시그니처는 HLF, CACNA1D, HMGN2P46, KRAS, FANCF, PRCC, ERG, FLT1, FGFR1, 및 ACSL6로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 ANTITRYPSIN, CEACAM16, CK19, AFP, MUC4, CEACAM5, MSH2, BCL6, DSC3, 및 KRT15에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, ix. 폐선암종을 나타내는 지정 바이오시그니처는 NKX-2, KRAS, TP53, TPM4, CDX2, TERT, FOXA1, SETBP1, CDKN2A, 및 LHFPL6로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 Napsin A, SOX2, CEACAM7, CK7, S100A10, CEACAM6, S100A1, RCCMa, AR 및 VHL에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, x. 흑색종을 나타내는 지정 바이오시그니처는 IRF4, SOX10, TP53, BRAF, FGFR2, TRIM27, EP300, CDKN2A, LRP1B, 및 NRAS로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 S100B, CK8, HMB-45, CD19, MUC1, MLANA, S100A14, S100A13, MITF, 및 S100A1에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, xi. 수막종을 나타내는 지정 바이오시그니처는 CHEK2, TP53, MYCL, THRAP3, MPL, EBF1, EWSR1, PMS2, FLI1, 및 NTRK2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 CD138, CK8, DOG1, VIM, S100A14, S100A2, CEACAM1, MSH2, PR, 및 KRT10에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, xii. 난소 과립막 세포 종양을 나타내는 지정 바이오시그니처는 FOXL2, TP53, EWSR1, CBFB, SPECC1, BCL3, MYH9, TSHR, GID4, 및 SOX2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 FOXL2, CD138, MSH6, MUC1, CK8, PR, MME, ANTITRYPSIN, FLI1, 및 S100B에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, xiii. 난소 및 나팔관 선암종을 나타내는 지정 바이오시그니처는 TP53, MECOM, KRAS, TPM4, RAC1, ASXL1, EP300, CDX2, RPN1, 및 WT1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 WT1, RCCMa, INHIBIN-alpha, TFE3, S100A13, FOLX2, TLE1, MSLN, POU5F1, 및 CEACAM3에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, xiv. 췌장 선암종을 나타내는 지정 바이오시그니처는 KRAS, CDKN2A, CDKN2B, FANCF, IRF4, TP53, ASXL1, SETBP1, APC, 및 FOXO1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 PDX1, GATA3, DOG1, ANTITRYPSIN, ISL1, MUC5AC, CD15, SMAD4, CD5, 및 CALB2에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, xv. 전립선 선암종을 나타내는 지정 바이오시그니처는 FOXA1, PTEN, KLK2, FOXO1, GATA2, FANCA, LHFPL6, KRAS, ETV6, 및 ERCC3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 CK7, PSA, NKX3-1, AMACR, S100A5, MUC1, MUC2, UPK3A, KL 및 HEPPAR-1에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, xvi. 신세포암종을 나타내는 지정 바이오시그니처는 VHL, TP53, EBF1, MAF, RAF1, CTNNA1, XPC, MUC1, KRAS, 및 BTG1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 RCCMa, E-CADHERIN, p16, S100P, S100A14, HAVCR1, HNF1B, KL, CK7, 및 MUC1에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, xvii. 편평 세포 암종을 나타내는 지정 바이오시그니처는 TP53, SOX2, KLHL6, CDKN2A, LPP, CACNA1D, TFRC, KRAS, RPN1, 및 CDX2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 P63, SOX2, CK6, KRT17, S100A1, CD3G, SFTPA1, AR, KRT5, 및 CD138에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, xviii. 갑상선 암을 나타내는 지정 바이오시그니처는 BRAF, NKX2-1, TP53, MYC, KDSR, TRRAP, CDX2, KRAS, FHIT, 및 SETBP1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 THYROGLOBULIN, RCCMa, HEPPAR-1, S100A2, TPSAB1, CALB2, HNF1B, INHIBIN-alpha, ARG1, 및 CNN1에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, xix. 요로상피암을 나타내는 지정 바이오시그니처는 GATA3, ASXL1, CDKN2B, TP53, CTNNA1, CDKN2A, KRAS, IL7R, CREBBP, 및 VHL로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 GATA3, UPII, CK20, MUC1, S100A2, HEPPAR-1, P63, CALB2, MITF, 및 S100P에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, xx. 자궁내막선암종을 나타내는 지정 바이오시그니처는 PTEN, PAX8, PIK3CA, CCNE1, TP53, MECOM, ESR1, CDX2, CDKN2A, 및 KRAS로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 RCCMa, PR, ER, VHL, CALD1, LIN28B, Napsin A, KRT5, S100A6, 및 DES에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함, xxi. 자궁 육종을 나타내는 지정 바이오시그니처는 RB1, SPECC1, FANCC, TP53, CACNA1D, JAK1, ETV1, PRRX1, PTCH1, 및 HOXD13로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 CK19, CK18, CD56, DES, FOXL2, CD79A, S100A14, ER, MSLN, 및 MITF에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함한다. 일부 실시예에서, 상기 DNA 분석은 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 전좌, 융합, 절단, 복제, 증폭, 반복, 복제수, 복제수 변동(CNV; 복제수 변경; CNA), 또는 임의의 이들의 조합으로 구성되거나 포함한다. 일부 실시예에서, 상기 DNA 분석은, PCR(polymerase chain reaction), 원위치 혼성화, 증폭, 혼성화, 마이크로어레이, 핵산 시퀀싱, 염료 종단 시퀀싱, 파이로시퀀싱, 차세대 시퀀싱(NGS; 고처리율 시퀀싱), 전장 엑솜 시퀀싱, 또는 이들의 임의의 조합을 이용해 결정된다. 일부 실시예에서, 발현 분석은 RNA의 분석으로 구성되거나 포함한다. 일부 실시예에서, RNA 분석은 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 전좌, 융합, 절단, 복제, 증폭, 반복, 복제수, 양, 레벨, 발현 레벨, 존재여부, 또는 임의의 이들의 조합으로 구성되거나 포함한다. 일부 실시예에서, RNA 분석은, PCR(polymerase chain reaction), 원위치 혼성화, 증폭, 혼성화, 마이크로어레이, 핵산 시퀀싱, 염료 종단 시퀀싱, 파이로시퀀싱, 차세대 시퀀싱(NGS; 고처리율 시퀀싱), 전장 전사체 시퀀싱, 또는 이들의 임의의 조합을 이용해 결정된다. 일부 실시예에서, 발현 분석은 단백질의 분석으로 구성되거나 포함한다. 일부 실시예에서, 단백질 분석은 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 융합, 증폭, 양, 레벨, 발현 레벨, 존재여부, 또는 임의의 이들의 조합으로 구성되거나 포함한다. 일부 실시예에서, 단백질 분석은 IHC(immunohistochemistry), 유세포 분석, 면역분석, 항체 또는 기능 단면, 압타머, 질량 분석, 또는 이들의 임의의 조합을 이용해 수행된다. 이러한 분석의 임의의 유용한 조합이 본 발명에서 고려된다.
본 명세서에 제공된 방법에서, 적어도 하나의 지정 바이오시그니처는 DNA 분석을 이용해 평가된 표 2-116 중 임의의 하나에 따른 바이오마커의 선택을 포함하거나 더 포함할 수 있다. 일부 실시예에서, 상기 DNA 분석은 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 전좌, 융합, 절단, 복제, 증폭, 반복, 복제수, 복제수 변동(CNV; 복제수 변경; CNA), 또는 임의의 이들의 조합으로 구성되거나 포함한다. 일부 실시예에서, 상기 DNA 분석은, PCR(polymerase chain reaction), 원위치 혼성화, 증폭, 혼성화, 마이크로어레이, 핵산 시퀀싱, 염료 종단 시퀀싱, 파이로시퀀싱, 차세대 시퀀싱(NGS; 고처리율 시퀀싱), 전장 엑솜 시퀀싱, 또는 이들의 임의의 조합을 이용해 결정된다. 일부 실시예에서, 표 2-116 중 임의의 하나에 따른 바이오마커의 선택을 포함하는 적어도 하나의 지정 바이오시그니처는:
i. 부신 피질 상피암 기원을 나타내는 지정 바이오시그니처는 표 2에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, ii. 항문 편평 상피암종 기원을 나타내는 지정 바이오시그니처는 표 3에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, iii. 충수돌기 선암종 기원을 나타내는 지정 바이오시그니처는 표 4에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, iv. 충수돌기 점액성 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 5에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, v. 담관 NOS 기원을 나타내는 지정 바이오시그니처는 표 6에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, vi. 뇌 성상세포종 NOS 기원을 나타내는 지정 바이오시그니처는 표 7에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, vii. 뇌 성상세포종 역형성 기원을 나타내는 지정 바이오시그니처는 표 8에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, viii. 유방 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 9에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, ix. 유방 선종 NOS를 나타내는 지정 바이오시그니처는 표 10에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, x. 유방 침윤관 선암종 기원을 나타내는 지정 바이오시그니처는 표 11에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xi. 유방 침윤성 소엽 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 12에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xii. 유방 화생암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 13에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xiii. 자궁경부 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 14에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xiv. 자궁경부 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 14에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xv. 자궁경부 편평상피암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 16에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xvi. 결장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 17에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xvii. 결장 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 18에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xviii. 결장 점액성 선암종 기원을 나타내는 지정 바이오시그니처는 표 19에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xix. 결막 악성 흑색종 NOS 기원을 나타내는 지정 바이오시그니처는 표 20에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xx. 십이지장 및 팽대 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 21에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxi. 자궁내막양 선암종 기원을 나타내는 지정 바이오시그니처는 표 22에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxii. 자궁내막 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 23에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxiii. 자궁내막 암육종(endometrial carcinosarcoma) NOS 기원을 나타내는 지정 바이오시그니처는 표 24에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxiv. 자궁내막 장액성 암종 기원을 나타내는 지정 바이오시그니처는 표 25에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxv. 자궁내막 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 23에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxvi. 미분화 자궁내막 암종 기원을 나타내는 지정 바이오시그니처는 표 27에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxvii. 자궁내막 투명 세포 암종 기원을 나타내는 지정 바이오시그니처는 표 28에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxviii. 식도 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 29에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxix. 식도 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 29에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxx. 식도 편평 상피 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 31에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxxi. 간외 담낭성 담낭선암 NOS 기원을 나타내는 지정 바이오시그니처는 표 32에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxxii. 나팔관 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 33에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxxiii. 나팔관 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 33에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxxiv. 나팔관 암육종 NOS 기원을 나타내는 지정 바이오시그니처는 표 35에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxxv. 나팔관 장액성 암종 기원을 나타내는 지정 바이오시그니처는 표 36에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxxvi. 위 선암종 기원을 나타내는 지정 바이오시그니처는 표 37에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxxvii. 위식도 접합부 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 38에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxxviii. 교모세포종 기원을 나타내는 지정 바이오시그니처는 표 39에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xxxix. 신경교종 NOS 기원을 나타내는 지정 바이오시그니처는 표 40에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xl. 교육종 기원을 나타내는 지정 바이오시그니처는 표 41에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xli. 두부, 안면 또는 경부 NOS 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 42에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xlii. 간내 담관 담관암 기원을 나타내는 지정 바이오시그니처는 표 43에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xliii. 신장 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 44에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xliv. 신장 투명 세포 암종 기원을 나타내는 지정 바이오시그니처는 표 45에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xlv. 신장 유두상 신세포 암종 기원을 나타내는 지정 바이오시그니처는 표 46에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xlvi. 신장 신세포 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 47에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xlvii. 후두 NOS 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 48에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xlviii. 왼쪽 결장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 49에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xlix. 왼쪽 결장 점액성 선암종 기원을 나타내는 지정 바이오시그니처는 표 50에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, l. 간 간세포 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 51에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, li. 폐 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 52에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lii. 폐 선편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 53에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, liii. 폐 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 54에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, liv. 폐 점액성 암종 기원을 나타내는 지정 바이오시그니처는 표 55에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lv. 폐 신경내분비 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 56에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lvi. 폐 비소세포 암종 기원을 나타내는 지정 바이오시그니처는 표 57에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lvii. 폐 육종 암종 기원을 나타내는 지정 바이오시그니처는 표 58에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lviii. 폐 소세포 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 59에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lix. 폐 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 60에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lx. 수막 수막종 NOS 기원을 나타내는 지정 바이오시그니처는 표 61에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxi. 비인두 NOS 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 62에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxii. 희소돌기아교종 NOS 기원을 나타내는 지정 바이오시그니처는 표 63에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxiii. 재생불량성 희소돌기아교종 기원을 나타내는 지정 바이오시그니처는 표 64에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxiv. 난소 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 65에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxv. 난소 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 66에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxvi. 난소 암육종 기원을 나타내는 지정 바이오시그니처는 표 67에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxvii. 난소 투명 세포 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 68에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxviii. 난소 내막 선암종 기원을 나타내는 지정 바이오시그니처는 표 69에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxix. 난소 과립막 세포 종양 NOS 기원을 나타내는 지정 바이오시그니처는 표 70에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxx. 난소 고등급 장액성 암종 기원을 나타내는 지정 바이오시그니처는 표 71에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxi. 난소 저등급 장액성 암종 기원을 나타내는 지정 바이오시그니처는 표 72에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxii. 난소 점액성 선암종 기원을 나타내는 지정 바이오시그니처는 표 73에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxiii. 난소 장액성 암종 기원을 나타내는 지정 바이오시그니처는 표 74에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxiv. 췌장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 75에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxv. 췌장 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 76에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxvi. 췌장 점액성 선암종 기원을 나타내는 지정 바이오시그니처는 표 77에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxvii. 췌장 신경내분비암 NOS 기원을 나타내는 지정 바이오시그니처는 표 78에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxviii. 이하선 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 79에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxix. 복막 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 80에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxx. 복막 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 81에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxxi. 복막 장액성 암종 기원을 나타내는 지정 바이오시그니처는 표 82에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxxii. 흉막 중피종 NOS 기원을 나타내는 지정 바이오시그니처는 표 83에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxxiii. 전립선 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 84에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxxiv. 직장구불결장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 85에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxxv. 직장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 86에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxxvi. 직장 점액성 선암종 기원을 나타내는 지정 바이오시그니처는 표 87에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxxvii. 역분화 후복막 지방육종 기원을 나타내는 지정 바이오시그니처는 표 88에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxxviii. 후복막 평활근육종 NOS 기원을 나타내는 지정 바이오시그니처는 표 89에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, lxxxix. 오른쪽 결장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 90에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xc. 오른쪽 결장 점액성 선암종 기원을 나타내는 지정 바이오시그니처는 표 91에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xci. 침샘 낭성 암종 기원을 나타내는 지정 바이오시그니처는 표 92에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xcii. 피부 메르켈 세포 암종 기원을 나타내는 지정 바이오시그니처는 표 93에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xciii. 피부 결절 흑색종 기원을 나타내는 지정 바이오시그니처는 표94에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xciv. 피부 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 95에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xcv. 피부 흑색종 기원을 나타내는 지정 바이오시그니처는 표 96에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xcvi. 소장 위장관 기질 종양(GIST) NOS 기원을 나타내는 지정 바이오시그니처는 표 97에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xcvii. 소장 선암종 기원을 나타내는 지정 바이오시그니처는 표 98에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xcviii. 위 위장관 기질 종양(GIST) NOS 기원을 나타내는 지정 바이오시그니처는 표 99에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, xcix. 위 서명 고리 세포 선암종 기원을 나타내는 지정 바이오시그니처는 표 100에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, c. 갑상선 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 101에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, ci. 역형성 갑상선 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 102에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, cii. 갑상선 유두 암종 기원을 나타내는 지정 바이오시그니처는 표 103에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, ciii. 편도 구인두 혀 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 104에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, civ. 횡행 결장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 105에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, cv. 요로상피 방광 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 106에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, cvi. 요로상피 방광 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 107에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, cvii. 요로상피 방광 편평 상피 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 108에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, cviii. 요로상피 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 109에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, cix. 자궁내막 기질 육종 NOS 기원을 나타내는 지정 바이오시그니처는 표 110에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, cx. 자궁 평활육종 NOS 기원을 나타내는 지정 바이오시그니처는 표 111에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, cxi. 자궁 육종 NOS 기원을 나타내는 지정 바이오시그니처는 표 112에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, cxii. 포도막 흑색종 기원을 나타내는 지정 바이오시그니처는 표 113에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, cxiii. 질 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 114에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, cxiv. 외음부 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 115에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함, cxv. 피부 간 흑색종 기원을 나타내는 지정 바이오시그니처는 표 116에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함한다. 일부 실시예에서, 표 2-116 중 임의의 하나에 따른 바이오마커의 선택은 대응하는 표에서 가장 높은 중요 값을 갖는 특징 바이오마커 중 상위 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 41%, 42%, 43%, 44%, 45%, 46%, 47%, 48%, 49%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% 또는 100%를 포함한다. 일부 실시예에서, 표 2-116 중 임의의 하나에 따른 바이오시그니처의 선택은 대응하는 표 내 가장 높은 중요 값을 갖는 상위 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49 또는 50개의 특징 바이오마커를 포함한다. 일부 실시예에서, 표 2-116 중 임의의 하나에 따른 바이오마커의 선택은 대응하는 표에서 가장 높은 중요 값을 갖는 상위 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50개의 특징 바이오마커 중 적어도 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 41%, 42%, 43%, 44%, 45%, 46%, 47%, 48%, 40%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%를 포함한다. 일부 실시예에서, 표 2-116 중 임의의 하나에 따르는 바이오마커의 선택은 대응하는 표의 가장 높은 중요 값을 갖는 상위 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 60, 65, 70, 75, 80, 85, 90, 95, 또는 100개의 특징 바이오마커의 적어도 50%, 60%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%를 포함한다.
본 명세서에 제공된 지정 바이오시그니처들 중에서 바이오마커를 선택할 때, 가장 정보를 많이 주는 예측을 제공하는 바이오마커가 선택될 수 있다. 예를 들어, 표 2-116에서 나열된 각각의 지정 바이오시그니처에 대해 최고 중요도 값을 갖는 상위 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49 또는 50개, 가령, 3 또는 5 또는 10 또는 20 또는 25개의 특징, 또는 적어도 3 또는 5 또는 10 또는 20 또는 25개의 특징을 선택할 수 있다.
본 명세서에 제공된 방법의 일부 실시예에서, 단계 (b)는 바이오시그니처의 적어도 하나의 구성원에 대한 유전자 복제수를 결정하는 단계를 포함하고, 단계 (d)는 유전자 복제수를 처리하는 단계를 포함한다. 일부 실시예에서, 단계 (b)는 바이오시그니처의 적어도 하나의 구성원에 대한 서열을 결정하는 단계를 포함하고, 단계 (d)는 서열을 처리하는 단계를 포함한다. 일부 실시예에서, 단계 (b)는 바이오시그니처의 복수의 구성원에 대한 서열을 결정하는 단계를 포함하고, 단계 (d)는 상기 서열을 기준 서열(가령, 와일드형)에 비교하여 미세부수체 반복을 식별하는 단계, 및 미세부수체 불안정성(MSI)을 갖는 바이오시그니처의 구성원을 식별하는 단계를 포함한다. 일부 실시예에서, 단계 (b)는 바이오시그니처의 복수의 구성원에 대한 서열을 결정하는 단계를 포함하고, 단계 (d)는 상기 서열을 기준 서열(가령, 와일드형)에 비교하여 종양 돌연변이 부담(TMB)을 식별하는 단계를 포함한다. 일부 실시예에서, 단계 (b)는 표 117-120 중 임의의 것 및/또는 INSM1에서 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개 유전자에 대한 mRNA 전사체 레벨을 결정하는 단계를 포함하고, 단계(d)는 전사체 레벨을 처리하는 단계를 포함한다. 일부 실시예에서, 바이오시그니처에서 유전자의 유전자 복제수, CNV 또는 CNA가 상기 유전자의 적어도 하나의 근접 영역의 복제수를 측정함으로써 결정되며, 선택적으로 근접 영역은 상기 유전자가 위치하는 염색체의 동일한 서브-밴드, 밴드 또는 팔 내 적어도 하나의 위치를 포함한다.
본 명세서에 제공된 방법의 일부 실시예에서, 바이오시그니처의 하나 이상의 바이오마커는 이들의 대응하는 표, 비제한적 예를 들어, 표 2-116 또는 표 117-120에서 기재된 것처럼 평가된다.
본 명세서에 제공된 방법의 일부 실시예에서, 모델은 복수의 중간 모델을 포함하고, 복수의 중간 모델은 적어도 하나의 쌍별 비교 모듈 및/또는 적어도 하나의 멀티-클래스 분류 모델을 포함한다. 일부 실시예에서, 모델은 바이오시그니처가 적어도 하나의 지정 바이오시그니처의 적어도 하나에 대응하는 통계적 측정을 계산한다. 일부 실시예에서, 처리하는 단계(d)는 후보 지정 바이오시그니처 간 쌍별 비교(pairwise comparison)를 포함하고, 바이오시그니처가 적어도 하나의 지정 바이오시그니처의 쌍들 중 어느 하나에 대응할 확률이 계산되고, 및/또는 적어도 하나의 멀티-클래스 분류 모델을 이용하여 바이오시그니처를 평가하는 것을 포함한다. 일부 실시예에서, 두 개의 후보 원발 종양 기원 간 쌍별 비교 및/또는 멀티-클래스 분류 모델이 머신 러닝 분류 알고리즘을 이용해 결정되며, 선택적으로, 머신 러닝 분류 알고리즘은 부스팅 트리를 포함한다. 일부 실시예에서, 두 개의 후보 원발 종양 기원 간 쌍별 비교가 본 명세서에 제공된, 가령, 표 2-116과 관련된 적어도 하나의 지정 바이오시그니처에 적용 및/또는 멀티-클래스 분류 모델이 본 명세서에 제공된, 가령, 표 118-120과 관련된 적어도 하나의 지정 바이오시그니처에 적용된다.
일부 실시예에서, 본 명세서에 제공된 방법은 중간 모델 예측을 결정하는 단계를 더 포함하며, 상기 중간 모델 예측은, 본 명세서에 제공된, 가령 표 2-116과 관련된 지정 바이오시그니처의 적어도 하나의 쌍 간 공동 쌍별 비교에 의해 결정된 암 유형, 본 명세서에 제공된, 가령, 표 118과 관련된 적어도 하나의 지정 바이오시그니처에 적용된 중간 멀티-클래스 모델에 의해 결정된 암/질병 유형 - 선택적으로 중간 멀티-클래스 모델이 표 118의 지정 바이오시그니처의 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 또는 28개에 적용됨 - , 본 명세서에 제공된, 가령, 표 119와 관련된 적어도 하나의 지정 바이오시그니처에 적용된 중간 멀티-클래스 모델에 의해 결정된 장기 군 유형 - 선택적으로, 중간 멀티-클래스 모델이 표 119의 지정 바이오시그니처의 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 또는 27개에 적용됨 - 및/또는 본 명세서에 제공된, 가령, 표 120과 관련된 적어도 하나의 지정 바이오시그니처에 적용된 중간 멀티-클래스 모델에 의해 결정된 조직학 - 선택적으로, 중간 멀티-클래스 모델이 표 120의 지정 바이오시그니처의 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 또는 29개에 적용됨 - 을 포함한다. 일부 실시예에서, 단계 (d)의 처리는 단계 (e)에서 예측을 제공하는 최종 예측자 모델로 사용된 중간 멀티-클래스 모델 각각의 출력을 입력하는 것을 포함하고, 선택적으로 최종 예측자 모델은 머신 러닝 알고리즘을 포함하고, 선택적으로 머신 러닝 알고리즘은 부스팅 트리를 포함한다.
본 명세서에 기재된 바와 같이, 본 명세서의 시스템 및 방법에 의해 제공되는 암의 예측된 적어도 하나의 속성이 희망 입도에서 제공될 수 있다. 일부 실시예에서, 암의 예측된 적어도 하나의 속성은, 부신 피질 상피암; 항문 편평 상피 암종; 충수돌기 선암종, NOS; 충수돌기 점액상 선암종; 담관, NOS, 담관암종; 뇌 성상세포종 역형성; 뇌 성상세포종, NOS; 유방 선암종, NOS; 유방 암종, NOS; 유방 침윤관 선암종; 유방 침윤성 소엽 암종, NOS; 유방 화생암종, NOS; 자궁경부 선암종, NOS; 자궁경부 암종, NOS; 자궁경부 편평 상피 암종; 결장 선암종, NOS; 결장 암종, NOS; 결장 점액상 선암종; 결막 악성 흑색종, NOS; 십이지장 및 팽대 선암종, NOS; 자궁내막 선암종, NOS; 자궁내막 암육종; 자궁내막양 선암종; 자궁내막 장액성 암종; 자궁내막 암종, NOS; 미분화 자궁내막 암종; 자궁내막 투명 세포 암종; 식도 선암종, NOS; 식도 암종, NOS; 식도 편평 상피 암종; 간외 담낭성 담낭선암 선암종, NOS; 나팔관 선암종, NOS; 나팔관 암종, NOS; 나팔관 암육종, NOS; 나팔관 장액성 암종; 위 선암종; 위식도 접합부 선암종, NOS; 교모세포종; 신경교종, NOS; 교육종; 두부, 안면, 또는 경부, NOS 편평 상피 암종; 간내 담관 담관암; 신장 암종, NOS; 신장 투명 세포 암종; 신장 유두상 신세포 암종; 신장 신세포 암종, NOS; 후두 NOS 편평 상피 암종; 왼쪽 결장 선암종, NOS; 왼쪽 결장 점액상 선암종; 간 간세포 암종, NOS; 폐 선암종, NOS; 폐 선편평 상피 암종; 폐 암종, NOS; 폐 점액상 선암종; 폐 신경내분비 암종, NOS; 폐 비-소세포 암종; 폐 육종 암종; 폐 소세포 암종, NOS; 폐 편평 상피 암종; 수막 수막종, NOS; 비인두, NOS 편평 상피 암종; 역형성 희소돌기아교종; 희소돌기아교종, NOS; 난소 선암종, NOS; 난소 암종, NOS; 난소 암육종; 난소 투명 세포 암종; 난소 내막양 선암종; 난소 과립성 세포 종양, NOS; 난소 고등급 장액성 암종; 난소 저등급 장액성 암종; 난소 점액상 선암종; 난소 장액성 암종; 췌장 선암종, NOS; 췌장 암종, NOS; 췌장 점액상 선암종; 췌장 신경내분비 암종, NOS; 이하선 암종, NOS; 복막 선암종, NOS; 복막 암종, NOS; 복막 장액성 암종; 흉막 중피종, NOS; 전립선 선암종, NOS; 직장구불 선암종, NOS; 직장 선암종, NOS; 직장 점액상 선암종; 역분화 직장복막 지방종; 직장복막 펼활근육종, NOS; 오른쪽 결장 선암종, NOS; 오른쪽 결장 점액상 선암종; 침샘 낭성 암종; 피부 흑색종; 피부 흑색종; 피부 메르켈 세포 암종; 피부 결절 흑색종; 피부 편평 상피 암종; 피부 간 흑색종; 소장 선암종; 소장 위장관기질 종양, NOS; 위 위장관기질 종양, NOS; 위 서명 고리 세포 선암종; 역형성 갑상선 암종, NOS; 갑상선 암종, NOS; 갑상선의 갑상선 유두성 암종; 편도선, 구인두, 혀 편평 상피 암종; 횡행 결장 선암종, NOS; 요로상피 방광 선암종, NOS; 요로상피 방광 암종, NOS; 요로상피 방광 편평 상피 암종; 요로상피 암종, NOS; 자궁 자궁내막 기질 육종, NOS; 자궁 평활근육종, NOS; 자궁 육종, NOS; 포도막 흑색종; 질 편평 상피 암종; 외음부 편평 상피 암종; 및 이들의 임의의 조합 중 적어도 하나를 포함한다. 일부 실시예에서, 암의 예측된 적어도 하나의 속성은 유방 선암종, 중추신경계 암, 자궁경부 선암종, 담관암, 결장 선암종, 위식도 선암종, 위장관기질종양(GIST), 간세포 암종, 폐 선암종, 흑색종, 수막종, 난소 과립막 세포 종양, 난소 및 나팔관 선암종, 췌장 선암종, 전립선 선암종, 신세포 암종, 편평세포암종, 갑상선암, 요로상피 암종, 자궁내막 선암종, 및 자궁 육종 중 적어도 하나를 포함한다. 일부 실시예에서, 암의 예측된 적어도 하나의 속성은, 방광; 피부; 폐; 두부, 안면 또는 경부(NOS); 식도; 여성 생식기(FGT); 뇌; 결장; 전립선; 간, 담낭, 담관; 유방; 눈; 위; 신장; 및 췌장 중 적어도 하나를 포함한다. 일부 실시예에서, 샘플은 원발 부위 불명 암(CUP)을 포함한다.
하나의 양태에서, 암의 적어도 하나의 속성을 예측하는 방법이 제공되며, 상기 방법은: (a) 암을 갖고 있는 대상체로부터 생체 샘플을 획득하는 단계 - 상기 생체 샘플은 앞서 기재된 것과 같은 생체 샘플일 수 있음 - , (b) 생체 샘플 내 하나 이상의 바이오마커를 평가하기 위해 적어도 하나의 분석을 수행하여 샘플에 대한 바이오시그니처를 획득하는 단계 - 적어도 하나의 분석은 앞서 기재된 것일 수 있음 - , (c) 암의 적어도 하나의 속성을 예측하도록 훈련된 모델로 바이오시그니처를 제공하는 단계 - 상기 모델은 적어도 하나의 중간 모델을 포함하고, 적어도 하나의 중간 모델은: (1) 표 2-116와 관련하여 본 명세서에 제공되는 지정 바이오시그니처를 이용해 DNA 데이터를 처리하도록 훈련된 제1 중간 모델, (2) 표 118와 관련하여 본 명세서에 제공되는 지정 바이오시그니처를 이용해 RNA 데이터를 처리하도록 훈련된 제2 중간 모델, (3) 표 119와 관련하여 본 명세서에 제공되는 지정 바이오시그니처를 이용해 RNA 데이터를 처리하도록 훈련된 제3 중간 모델, 및/또는 (4) 표 120와 관련하여 본 명세서에 제공되는 지정 바이오시그니처를 이용해 RNA 데이터를 처리하도록 훈련된 제4 중간 모델, (d) 하나 이상의 컴퓨터에 의해, (c)에서 복수의 중간 모델의 각각을 통해 제공된 바이오시그니처를 처리하고, 복수의 중간 모델의 각각의 출력을 최종 예측자 모델로 제공하며, 하나 이상의 컴퓨터에 의해, 최종 예측자 모델을 통해 복수의 중간 모델의 각각의 출력을 처리하는 단계, 및 (e) 암의 적어도 하나의 속성의 예측을 최종 예측자 모델로부터 출력하는 단계를 포함한다. 일부 실시예에서, 암의 예측된 적어도 하나의 속성은 유방 선암종, 중추신경계 암, 자궁경부 선암종, 담관암, 결장 선암종, 위식도 선암종, 위장관기질종양(GIST), 간세포 암종, 폐 선암종, 흑색종, 수막종, 난소 과립막 세포 종양, 난소 및 나팔관 선암종, 췌장 선암종, 전립선 선암종, 신세포 암종, 편평세포암종, 갑상선암, 요로상피 암종, 자궁내막 선암종, 자궁 육종, 및 이들의 조합으로 구성된 군 중에서 선택된 기원 조직(tissue-of-origin)이다. 일부 실시예에서, 단계 (b)는 생체 샘플로부터 게놈 DNA를 시퀀싱함으로써 DNA 분석을 수행하는 단계를 포함하며 DNA 분석은 표 2-116의 유전자에 대해 수행된다. 일부 실시예에서, 단계 (b)는 생체 샘플로부터 메신저 RNA 전사체를 시퀀싱함으로써 RNA 분석을 수행하는 단계를 포함하며, RNA 분석은 표 117 또는 표 118-120의 유전자에 대해 수행된다. 일부 실시예에서, 적어도 하나의 중간 모델 및 최종 예측자 모델 중 적어도 하나가 머신 러닝 모듈을 포함하고, 선택적으로 머신 러닝 모듈은 랜덤 포레스트, 서포트 벡터 머신, 로지스틱 회귀, K-최근접 이웃, 인공 신경망, 나이브 베이즈 모델, 2차 판별 분석, 및 가우시안 프로세스 모델 중 하나 이상을 포함하고, 선택적으로, 머신 러닝 모듈은 XGBoost 결정-트리-기반 앙상블 머신 러닝 알고리즘을 포함한다.
본 명세서에 제공된 시스템 및 방법을 이용해 만들어진 암의 적어도 하나의 속성의 예측이 다양한 설정에서 사용될 수 있다. 가령, 실시예 3을 참조할 수 있다. 일부 실시예에서, 예측은 진단을 확인하는 데 사용된다. 일부 실시예에서, 예측은 진단을 변경하는 데 사용된다. 일부 실시예에서, 예측은 품질 체크를 수행하는 데 사용된다. 일부 실시예에서, 예측이 수행될 추가 분자 테스트를 지시하는 데 사용된다.
본 발명의 방법의 일부 실시예에서, 암의 예측된 적어도 하나의 속성이 정렬된 리스트를 포함하고, 선택적으로, 리스트는 통계 측정을 이용해 정렬된다. 예를 들어, 리스트는 예측 신뢰도에 따라 정렬될 수 있다. 일부 실시예에서, 본 명세서에 제공된 방법은 적어도 하나의 속성의 예측이 임계 레벨을 충족하는지 여부를 결정하는 단계를 더 포함하고, 선택적으로 임계 레벨은 예측의 확률 및/또는 예측의 신뢰도와 관련된다.
일부 실시예에서, 본 명세서에 제공된 방법은 바이오시그니처에서의 바이오마커의 존재여부, 레벨, 또는 상태, 가령, 각각의 바이오마커가 복제수 변경 및/또는 돌연변이를 갖는지 여부, 및/또는 TMB 레벨, MSI, LOH, 또는 MMR 상태, 및/또는 발현 레벨을 식별하는 분자 프로파일을 생성하는 단계를 더 포함하고, 발현 레벨은 적어도 하나의 전사체의 발현 레벨 및/또는 단백질 레벨을 포함한다. 예를 들어, 세부사항에 대해 실시예 1을 참조할 수 있다.
일부 실시예에서, 암의 분류된 적어도 하나의 속성에 적어도 부분적으로 기초하여 환자에 대한 적어도 하나의 치료를 선택하는 단계를 더 포함하며, 선택적으로, 상기 치료는 면역요법, 화학요법, 또는 이들의 조합의 투여를 포함한다.
하나의 양태에서, 리포트를 생성하는 단계를 포함하는 방법이 제공되며, 상기 리포트는 본 명세서에 생성된, 가령, 앞서 기재된 분자 프로파일의 요약 또는 개요를 포함하고, 리포트는 암의 분류된 적어도 하나의 속성을 식별하며, 선택적으로 리포트는 본 명세서에 제공된 방법, 가령, 앞서 기재된 방법에 따라 선택된 적어도 하나의 치료를 더 식별한다. 일부 실시예에서, 상기 리포트는 컴퓨터에 의해 생성되거나, 및/또는 인쇄 리포트 또는 컴퓨터 파일이거나, 및/또는 웹 포털에 의해 액세스 가능하다.
하나 이상의 컴퓨터 및 상기 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 앞서 기재된 방법을 참조하여 기재된 동작을 수행하게 하는 명령을 저장하는 하나 이상의 저장 매체를 포함하는 시스템이 본 명세서에 더 제공된다. 반복하자면, 하나 이상의 컴퓨터에 의해 실행되는 명령을 포함하는 소프트웨어를 저장하는 비일시적 컴퓨터 판독형 매체로서, 상기 명령은 실행 시 하나 이상의 컴퓨터로 하여금 앞서 암의 원발 기원을 분류하기 위한 방법과 관련하여 기재된 동작을 수행하게 하는 비일시적 컴퓨터 판독형 매체가 또한 본 명세서에 제공된다.
하나의 양태에서, 암에 대한 계통을 식별하기 위한 시스템이 제공되며, 상기 시스템은: (a) 적어도 하나의 호스트 서버, (b) 데이터를 액세스 및 입력하기 위해 적어도 하나의 호스트 서버를 액세스하기 위한 적어도 하나의 사용자 인터페이스, (c) 입력된 데이터를 처리하기 위한 적어도 하나의 프로세서, (d) 앞서 기재된 방법을 참조하여 동작을 수행하도록 처리된 데이터 및 명령을 저장하기 위한 프로세서, 및 (e) 암의 분류된 원발 기원을 디스플레이하기 위한 적어도 하나의 디스플레이를 포함한다. 일부 실시예에서, 시스템은 처리된 데이터 및 앞서 기재된 바와 같이 치료를 선택 및/또는 분자 프로파일링 리포트를 생성하기 위한 처리된 데이터 및 명령을 저장하도록 프로세서에 연결된 적어도 하나의 메모리를 더 포함한다. 일부 실시예에서, 적어도 하나의 디스플레이는 암의 분류된 적어도 하나의 속성을 포함하는 리포트를 포함한다.
하나의 양태에서, 신체로부터 획득된 샘플의 적어도 하나의 속성을 식별하기 위한 시스템이 본 명세서에 제공되며, 상기 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되며, 상기 시스템은 하나 이상의 프로세서 및 명령을 저장하는 하나 이상의 메모리 유닛을 포함하고, 상기 명령은 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하며, 상기 동작은 시스템에 의해, 신체로부터 획득된 샘플을 나타내는 샘플 생체 시그니처를 획득하는 것 - 샘플은 암 세포를 포함함 - , 시스템에 의해, 샘플 생체 시그니처를 모델의 입력으로서 제공하는 것 - 모델은 샘플 생체 시그니처와 복수의 상이한 생체 시그니처의 각각 간 분석을 수행하도록 구성되며, 복수의 상이한 생체 시그니처의 각각은 상이한 속성에 대응함 및/또는 모델은 클래스는 상이한 속성을 포함하는 멀티-클래스 모델임 - , 및 시스템에 의해, 쌍별 분석에 기초하여 신체로부터 획득된 샘플의 가능성 속성을 가리키는 데이터를 나타내는 모델에 의해 생성된 출력을 수신하는 것을 포함한다. 또 하나의 양태에서, 신체로부터 획득된 샘플의 적어도 하나의 속성을 식별하기 위한 시스템이 본 명세서에 제공되며, 상기 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되며, 상기 시스템은 하나 이상의 프로세서 및 명령을 저장하는 하나 이상의 메모리 유닛을 포함하고, 상기 명령은 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하며, 상기 동작은 시스템에 의해, 신체로부터 획득된 샘플을 나타내는 샘플 생체 시그니처를 획득하는 것 - , 시스템에 의해, 샘플 생체 시그니처를 모델의 입력으로서 제공하는 것 - 모델은 샘플 생체 시그니처와 복수의 상이한 생체 시그니처의 각각 간 분석을 수행하도록 구성되며, 복수의 상이한 생체 시그니처의 각각은 상이한 속성에 대응함 및/또는 모델은 클래스는 상이한 속성을 포함하는 멀티-클래스 모델임 - , 및 시스템에 의해, 특정 생체 시그니처에 의해 식별된 속성이 샘플의 가능성 속성을 식별할 확률을 지시하는 데이터를 나타내는 모델에 의해 생성된 출력을 수신하는 것을 포함한다. 또 하나의 양태에서, 신체로부터 획득된 샘플의 적어도 하나의 속성을 식별하기 위한 시스템이 본 명세서에 제공되며, 상기 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되며, 상기 시스템은 하나 이상의 프로세서 및 명령을 저장하는 하나 이상의 메모리 유닛을 포함하고, 상기 명령은 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하며, 상기 동작은 시스템에 의해, 신체의 제1 부분의 암 샘플로부터 획득된 생체 샘플을 나타내는 샘플 생체 시그니처를 획득하는 것 - 상기 샘플 생체 시그니처는 생체 샘플의 복수의 특징을 기술하는 데이터를 포함하고, 복수의 특징은 신체의 제1 부분을 기술하는 데이터를 포함함 - , 시스템에 의해, 샘플 생체 시그니처를 모델의 입력으로서 제공하는 것 - 모델은 샘플 생체 시그니처와 복수의 상이한 생체 시그니처의 각각 간 분석을 수행하도록 구성되며, 복수의 상이한 생체 시그니처의 각각은 상이한 속성에 대응함 및/또는 모델은 클래스는 상이한 속성을 포함하는 멀티-클래스 모델임 - , 및 시스템에 의해, 신체로부터 획득된 샘플의 가능성 속성을 지시하는 데이터를 나타내는 모델에 의해 생성된 출력을 수신하는 것을 포함한다. 일부 실시예에서, 신체로부터 획득된 샘플은 앞서 기재된 생체 샘플이다. 일부 실시예에서, 적어도 하나의 속성은 앞서 기재된 바와 같이 원발 종양 기원, 암/질병 유형, 장기 군, 및/또는 조직학이다. 일부 실시예에서, 샘플 생체 시그니처는 암 샘플 내 하나 이상의 바이오마커를 평가하기 위한 분석의 수행에 기초하여 획득된 특징을 나타내는 데이터를 포함하고, 선택적으로, 분석은 앞서 기재된 적어도 하나의 분석에 따른다. 일부 실시예에서, 동작은 모델에 의해 생성된 출력에 기초하여, 제안된 암 치료를 결정하는 것을 더 포함한다. 일부 실시예에서, 복수의 상이한 생체 시그니처의 각각은 앞서 기재된, 가령, 표 2-116 또는 표 118-120과 관련하여 사전 식별된 바이오시그니처를 포함한다. 일부 실시예에서, 동작은 시스템에 의해, 신체의 제1 부분에서의 신체로부터 획득된 샘플이 신체의 제2 부분의 암으로부터 기원했을 우도를 나타내는 모델에 의해 생성된 출력을 수신하는 것을 더 포함한다. 일부 실시예에서, 시스템에 의해 수신된 출력에 기초하여, 모델에 의해 생성된 수신된 출력이 하나 이상의 지정 임계값을 만족하는지 여부를 결정하는 것, 및 수신된 출력이 하나 이상의 지정 임계값을 만족한다는 시스템에 의한 결정에 기초하여, 시스템에 의해, 신체의 제1 부분의 암성 신생물이 신체의 제2 부분의 암으로부터 기원했다고 결정 또는 신체의 제1 부분의 암성 신생물이 신체의 제2 부분의 암으로부터 기원하지 않았다고 결정하는 것을 더 포함한다. 일부 실시예에서, 모델에 의해 생성된 수신된 출력은 행렬 데이터 구조를 포함하고, 행렬 데이터 구조는 짝 모델에 의해 평가되는 복수의 특징 중 각각의 특징에 대해 하나씩의 셀을 포함하고, 각각의 셀은 대응하는 특징이 신체의 제1 부분의 암성 신생물이 제1 신체의 제2 부분의 암에 의해 야기됐음을 가리킬 확률을 기술하는 데이터를 포함한다.
하나의 양태에서, 암의 적어도 하나의 속성을 식별하기 위한 시스템이 본 명세서에 제공되며, 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이의 임의의 조합으로 구성된 군 중에서 선택되며, 상기 시스템은 하나 이상의 프로세서 및 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하는 명령을 저장하는 하나 이상의 메모리 유닛을 포함하며, 상기 동작은: 생체 시그니처의 분석을 수행하도록 구성된 모델을 저장하는 시스템에 의해, 신체의 제1 부분의 암성 신생물로부터 얻어진 생체 샘플을 나타내는 샘플 생체 시그니처를 수신하는 것 - 모델은 복수의 상이한 유형의 암성 생체 샘플 각각에 대한 암성 생체 시그니처를 포함하고, 암성 생체 시그니처는 하나 이상의 다른 신체의 제1 부분으로부터의 암성 생체 샘플의 분자 프로파일을 나타내는 제1 암성 생체 시그니처를 적어도 포함함 - , 시스템에 의해 모델을 이용해, 제1 암성 생체 시그니처를 이용해 샘플 생체 시그니처의 분석을 수행하는 것, 시스템에 의해 수행된 분석에 기초하여, 신체의 제1 부분의 암성 신생물이 신체의 제2 부분의 암에 의해 야기될 우도를 생성하는 것, 시스템에 의해, 다른 디바이스 상에 디스플레이되도록 상기 다른 디바이스로 생성된 가능성을 제공하는 것을 포함한다.
하나의 양태에서, 신체로부터 획득된 암 샘플의 적어도 하나의 속성을 식별하기 위한 분석 모델을 훈련하기 위한 시스템이 본 명세서에 제공되고, 상기 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되고, 상기 시스템은 하나 이상의 프로세서 및 명령을 저장하는 하나 이상의 메모리 유닛을 포함하며, 상기 명령은 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하며, 상기 동작은: 시스템에 의해, 분석 모델을 생성하는 것 - 분석 모델을 생성하는 것은 복수의 모델 시그니처를 생성하는 것을 포함하고, 각각의 모델 시그니처는 적어도 하나의 속성의 각각 내에 적어도 하나의 속성을 구별하도록 구성됨 - , 시스템에 의해, 훈련 데이터 아이템의 세트를 획득하는 것 - 각각의 훈련 데이터는 DNA 또는 RNA 시퀀싱 결과를 나타내고 (i) 시퀀싱 결과에서 변형이 검출되었는지 여부 및 (ii) 시퀀싱 결과에서의 유전자 또는 전사체의 복제수를 지시하는 데이터를 포함함 - , 및 시스템에 의해 훈련 데이터 아이템의 획득된 세트를 이용해 분석 모델을 훈련하는 것을 포함한다. 일부 실시예에서, 복수의 모델 시그니처는 랜덤 포레스트 모델을 이용해 생성되고, 선택적으로, 랜덤 포레스트 모델은 구배 부스팅된 포레스트(gradient boosted forest)를 포함한다.
달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술적 용어 및 과학적 용어는 본 발명이 속하는 기술 분야의 통상의 기술자가 일반적으로 이해하는 것과 동일한 의미를 가진다. 방법 및 물질이 본 발명에서의 사용을 위해 본 명세서에서 기재되었고, 해당 분야에 알려진 그 밖의 다른 적절한 방법 및 물질이 또한 사용될 수 있다. 물질, 방법 및 실시예는 한정이 아니라 단지 예시에 불과하다. 본 명세서에 기재된 모든 간행물, 특허 출원, 특허, 서열, 데이터베이스 엔트리, 및 그 밖의 다른 참고문헌은 그 전체가 본 명세서에 참조로서 포함된다. 충돌의 경우, 정의를 포함해 본 명세서가 우선시될 것이다.
본 발명의 그 밖의 다른 특징 및 이점이 다음의 상세한 설명 및 도면을 통해 명확해질 것이다.
도 1a는 머신 러닝 모델을 훈련하기 위한 종래 기술 시스템의 예의 블록도이다.
도 1b는 샘플 기원을 예측하기 위해 머신 러닝 모델을 훈련하기 위한 훈련 데이터 구조를 생성하는 시스템의 블록도이다.
도 1c는 피험체로부터의 샘플 데이터의 샘플 기원을 예측하기 위해 훈련된 머신 러닝 모델을 사용하기 위한 시스템의 블록도이다.
도 1d는 샘플 기원을 예측하기 위해 머신 러닝 모델을 훈련하기 위한 훈련 데이터 구조를 생성하기 위한 프로세스의 흐름도이다.
도 1e는 피험체로부터의 샘플 데이터의 샘플 기원을 예측하기 위해 훈련된 머신 러닝 모델을 이용하는 프로세스의 흐름도이다.
도 1f는 샘플 기원을 예측하기 위해 짝으로 수행하는 시스템의 예이다.
도 1g는 짝 분석을 수행하도록 각각 훈련된 다수의 머신 러닝 모델에 의해 생성된 출력을 해석하기 위해 투표 유닛을 사용하여 샘플 기원을 예측하는 시스템의 블록도이다.
도 1h는 도 1b, 1c, 1g, 1f, 및 1g의 시스템을 구현하는 데 사용될 수 있는 시스템 구성요소의 블록도이다.
도 1i는 환자의 생물학적 표본의 분자 프로파일링을 사용하는 암에 대한 개별화된 의료 개입을 결정하기 위한 시스템의 예시적인 구체예의 블록도를 도시한다.
도 2a-c는 (도 2a) 환자의 생물학적 표본의 분자 프로파일링을 활용하는 암에 대한 개별화된 의료 개입을 결정하기 위한 방법, (도 2b) 치료의 효험을 예측하는 데 사용될 수 있는 시그니처 또는 분자 프로파일을 식별하기 위한 방법, 및 (도 2c) (도 2b)의 대안 버전의 구체예의 흐름도이다.
도 3a-b는 암 샘플로부터의 원발 종양 계통을 예측하기 위한 바이오시그니처의 사용을 도시한다.
도 4a-b는 RNA 전사체 분석(도 4a) 또는 조합된 RAN와 DNA 분석(도 4b)을 이용해 조직 샘플을 분류하기 위한 스킴을 도시한다. 도 4c는 동적 투표 엔진을 훈련하기 위한 프로세스(400C)의 예시적 흐름도이다.
도 5a-e는 게놈 DNA의 분석을 이용해 암을 분류하기 위한 MDC/GPS의 성능을 예시한다.
도 6a-al은 조합된 RNA와 DNA 분석을 이용해 GPS의 추가 형태를 보여준다.
도 7a-q는 본 명세서에 제공된 시스템 및 방법에 따라 게놈 유병률 점수(GPS, 또한 게놈 프로파일링 유사성) 정보를 포함하는 예시적 분자 프로파일링을 보여준다.
도 8a-m는 본 명세서에 제공된 시스템 및 방법에 따라 게놈 유병률 점수 정보를 포함하는 또 다른 예시적 분자 프로파일링을 보여준다.
분사 프로파일링을 이용함으로써, 생물학적 시스템, 유기체, 세포, 샘플 등의 다양한 표현형을 특성화하기 위한 방법 및 시스템, 가령, 머신 러닝 모델을 훈련한 후 훈련된 머신 러닝 모델을 이용해 이러한 표현형을 특성화하기 위한 시스템, 방법, 장치 및 컴퓨터 프로그램이 본 명세서에 기재된다. 본원에 사용된 용어 "표현형"은 본 명세서에 제공된 시스템 및/또는 방법을 사용하여 부분적으로 또는 전체적으로 식별될 수 있는 임의의 특성을 의미할 수 있다.일부 구현예에서, 시스템은 가령, 본 명세서에 기재된 방법에서 사용되도록 구성된 하나 이상의 위치에 있는 하나 이상의 컴퓨터 상의 하나 이상의 컴퓨터 프로그램을 포함할 수 있다.
특징화될 표현형은 임의의 관심 표현형, 비제한적 예를 들면, 기원의 조직, 해부학적 기원, 조직학, 장기, 의학적 상태, 병, 질병, 장애 또는 이들의 유용한 조합일 수 있다. 표현형은 임의의 관측 가능한 특성 또는 특징, 가령, 질병 또는 상태, 질병 또는 상태의 스테이지, 질병 또는 상태에 대한 민감성, 질병 단계 또는 상태의 예후, 생리적 상태, 또는 개입, 가령, 치료에 대한 반응/잠재 반응(또는 반응 없음)의 임의의 관측 가능한 특성 또는 특징일 수 있다. 표현형은 피험자의 유전적 구성뿐만 아니라 환경 요인의 영향과 둘 사이의 상호 작용, 핵산 서열에 대한 후성 유전적 변형으로 인해 발생할 수 있다.
다양한 구현예에서, 피험체의 표현형은 피험체로부터 생체 샘플을 얻고 본 명세서에 제공된 시스템 및/또는 방법을 이용해 샘플을 분석함으로써 특성화된다. 예를 들어, 피험체 또는 개인에 대한 표현형을 특성화하는 것은 질병 또는 상태의 검출(전증상 초기 단계 검출 포함), 질병 또는 상태의 예후, 진단 또는 치료 진단, 또는 단계 또는 진행의 결정을 포함할 수 있다. 표현형을 특성화하는 것은 특정 질병, 상태, 질병 단계 및 상태 단계, 특히 질병 재발, 전이성 확산 또는 질병 재발의 예측 및 가능성 분석에 대한 적절한 치료 또는 치료 효능을 식별하는 것을 포함할 수 있다. 표현형은 또한 암 또는 종양과 같은 상태 또는 질병의 임상적으로 구별되는 유형 또는 하위유형일 수 있다. 표현형 결정은 또한 생리학적 상태의 결정, 또는 이식 후와 같은 장기 고통 또는 장기 거부의 평가일 수 있다. 본 명세서에 기재된 조성 및 방법을 통해 개인별로 피험자를 평가할 수 있으므로 치료에 있어 보다 효율적이고 경제적인 결정의 이점을 얻을 수 있다.
진단학에는 질병 또는 질병 상태와 같은 의학적 상태의 치료 또는 치료에 영향을 미치는 능력을 제공하는 진단 검사가 포함된다. 진단 검사 또는 예후 검사가 각각 진단 또는 예후를 제공하는 것과 유사한 방식으로 진단 검사가 검사를 제공한다. 본 명세서에 사용된 바와 같이, 진단학은 예측 의학, 개인 맞춤 의학, 정밀 의학, 통합 의학, 약물 진단 및 Dx/Rx 파트너링을 포함하는 임의의 원하는 형태의 치료 관련 테스트를 포함한다. 치료 관련 테스트는 개별 피험체의 약물 반응을 예측하고 평가하는 데 사용될 수 있으므로 개인화된 의료 추천안을 제공할 수 있다. 반응의 가능성을 예측하는 것은, 예를 들어, 피험체가 치료제로 노출되거나 달리 치료되기 전에 피험체가 후보 치료제에 대한 반응군일 가능성이 높은지 또는 비반응군일 가능성이 높은지를 결정하는 것일 수 있다. 치료 반응을 평가하는 것은 치료에 대한 반응을 모니터링하는 것, 예를 들어 치료를 시작한 후 시간 경과에 따라 대상의 개선 또는 부족을 모니터링하는 것일 수 있다. 치료 관련 테스트는 특히 치료에 효험이 있거나 없을 피험자를 선택하는 데 또는 개별 피험체에서 치료 효능의 조기 객관적인 지표를 제공하는 데 유용하다. 본 명세서에 제공된 시스템 및 방법을 사용한 특성화는 치료가 더 유망한 치료를 선택하도록 변경되어야 함을 나타낼 수 있으므로 효험 있는 치료를 지연하는 비용을 피하고 덜 효과적이거나 비효과적인 치료(들)의 재정적 및 이환율 비용을 피할 수 있다.
다양한 구체예에서, 치료술은 치료 효능 또는 이의 부재를 예측하고, 환자를 치료에 대한 반응군 또는 비반응군으로 분류하는 것을 포함한다. 예측된 "반응군"은 치료로부터 효험이 있을 가능성이 있는 환자를 지칭할 수 있고, 예측된 "비반응군"은 치료로부터 효험이 있을 가능성이 없는 환자일 수 있다. 달리 특정되지 않는 한, 효험은 임의의 관심 임상적 효험, 비제한적 예를 들면, 전체 또는 부분적인 치료, 관해, 또는 상태 또는 증상의 진행에 있어서의 개선, 감소 또는 억제를 포함할 수 있다. 치료요법은 임의의 적절한 치료에 관한 것일 수 있으며, 예를 들어 치료는 화학요법, 면역요법, 표적화된 암 요법, 단일클론 항체, 소분자, 또는 이들의 임의의 유용한 조합 중 적어도 하나를 포함할 수 있다.
표현형은 종양, 신생물 또는 암의 존재 또는 발달 가능성의 검출, 또는 종양, 신생물 또는 암의 특징화(예를 들어, 병기, 등급, 공격성, 전이 또는 재발 가능성 등)를 포함할 수 있다. 일부 실시예에서, 암은 급성 골수성 백혈병(AML), 유방암, 담관암, 결장직장 선암, 간외 담관 선암, 여성 생식기 악성종양, 위 선암, 위식도 선암, 위장관 기질 종양(GIST), 교모세포종, 두경부 암종, 백혈병 간세포 암종, 저등급 신경교종, 폐 세기관지폐포암종(BAC), 비소세포폐암(NSCLC), 소세포폐암(SCLC), 림프종, 남성 생식기 악성종양, 흉막의 악성 단독 섬유성 종양(MSFT), 흑색종, 다발성 골수종, 신경내분비 종양, 결절 미만성 거대 B 세포 림프종, 비상피성 난소암(비-EOC), 난소 표면 상피 암종, 췌장 선암종, 뇌하수체 암종, 희소돌기아교종, 전립선 선암종, 후복막 또는 복막 암종, 후복막 또는 복막 암종 육종, 소장암, 연조직종양, 흉선암, 갑상선암, 또는 포도막 흑색종을 포함한다. 본 명세서의 시스템 및 방법이 이들 및 그 밖의 다른 암을 특성화하는 데 사용될 수 있다. 따라서, 표현형을 특성화하는 것은 본 명세서에 개시된 암들 중 하나의 진단, 예후 또는 치료진단(theranosis)을 제공할 수 있다.
다양한 실시예에서, 표현형은 조직 또는 해부학적 기원을 포함한다. 예를 들어, 조직은 근육, 상피, 결합 조직, 신경 조직, 또는 이들의 임의의 조합일 수 있다. 예를 들어, 해부학적 기원은 위, 간, 소장, 대장, 직장, 항문, 폐, 코, 기관지, 신장, 방광, 요도, 뇌하수체, 송과체, 부신, 갑상선, 췌장, 부갑상선일 수 있다., 전립선, 심장, 혈관, 림프절, 골수, 흉선, 비장, 피부, 혀, 코, 눈, 귀, 이, 자궁, 질, 고환, 음경, 난소, 유방, 유선, 뇌, 척수, 신경, 뼈, 인대, 힘줄, 또는 이들의 조합일 수 있다. 관심 표현형의 추가적인 비제한적 예로는 종양의 단계 또는 등급, 또는 종양의 기원, 예를 들어 조직 기원과 같은 임상적 특징이 있다.
다양한 실시예에서, 표현형은 피험체로부터 획득된 생체 샘플을 분석함으로써 결정된다. 피험체(개인, 환자 등)는 포유동물, 예를 들어 소, 조류, 개, 말, 고양이, 양, 돼지 또는 영장류 동물(인간 및 비인간 영장류 포함)을 포함할 수 있지만 이에 제한되지 않는다. 바람직한 구현예에서, 피험체는 인간 피험체이다. 피험체는 명종 위기에 처한 포유동물, 가령, 시베리아 호랑이, 또는 인간이 소비하기 위해 농장에서 기르는 동물과 같은 경제적 중요성, 또는 애완동물이나 동물원에서 기르는 동물과 같이 인간에게 사회적으로 중요한 동물도 포함할 수 있다. 이러한 동물의 예로는 육식 동물, 가령, 고양이 및 개; 돼지(pig), 돼지(hog) 및 멧돼지를 포함한 돼지류; 소, 황소, 양, 기린, 사슴, 염소, 들소, 낙타 또는 말과 같은 반추동물 또는 유제류가 있다. 또한 멸종 위기에 처했거나 동물원에 있는 새, 가금류 및 보다 특히 가축화된 가금류, 예를 들어 칠면조 및 닭, 오리, 거위, 기니 가금과 같은 가금류도 포함된다. 또한 가축화된 돼지와 말(경주마 포함)도 포함된다. 또한, 경제적 생산성 및/또는 푸드 체인의 안전을 위해 질병 모니터링, 진단, 및 치료법 선택이 일상적인 관행인 농업 및 양식업 및 그 밖의 다른 활동과 관련된 동물이 포함된다. 피험체는 암을 포함하나 이에 제한되지 않는 기존의 질병 또는 상태를 가질 수 있다. 대안으로, 피험체는 알려진 기존 상태가 없을 수 있다. 피험체는 또한 암 치료와 같은 기존 또는 과거 치료에 반응하지 않을 수 있다.
데이터 분석 및 머신 러닝
본 개시 내용의 양태는 생체 샘플의 표현형을 특징화하는 것과 같은 다양한 분류를 제공하기 위해 머신 러닝 모델을 훈련시키는 데 사용될 수 있는 하나 이상의 훈련 데이터 구조 세트를 생성하는 시스템과 관련된다. 앞서 기재된 바와 같이, 표현형을 특징화하는 것은 진단, 예후, 치료 또는 그 밖의 다른 관련 분류를 제공하는 것을 포함할 수 있다. 예를 들어, 분류는 피험체의 질병 상태, 피험체의 질병 또는 장애에 대한 예측되는 치료 효능, 또는 특정 바이오마커 세트를 갖는 샘플의 해부학적 기원을 포함할 수 있다. 훈련되면, 훈련된 머신 러닝 모델이 사용되어 시스템에 의해 제공되는 입력 데이터를 처리하고 처리된 입력 데이터에 기초하여 예측을 수행할 수 있다. 입력 데이터는 피험체와 관련된 특징 세트, 가령, 하나 이상의 피험체 바이오마커를 나타내는 데이터 및 관심 표현형을 나타내는 데이터, 예를 들어 질병 및/또는 해부학적 기원을 포함할 수 있다. 일부 실시예에서, 입력 데이터는 해부학적 기원을 나타내는 특징을 더 포함할 수 있고 시스템은 샘플이 그 해부학적 기원에서 유래했는지 여부를 설명하는 예측을 할 수 있다. 예측은 머신 러닝 모델에 대한 입력으로 제공된 특정 특징 세트의 머신 러닝 모델의 처리를 기반으로 머신 러닝 모델에 의해 출력되는 데이터를 포함할 수 있다. 데이터는 하나 이상의 피험체 바이오마커를 나타내는 데이터, 질병 또는 해부학적 기원을 나타내는 데이터 및 필요에 따라 제안된 치료 유형을 나타내는 데이터를 포함할 수 있다.
본 명세서에서 사용될 때 "바이오마커" 또는 "바이오마커 세트"는 머신 러닝 모델을 훈련 및 테스트하고 나이브(na
Figure pct00001
ve) 샘플을 분류하는 데 사용된다. 이러한 참조는 특정 바이오마커, 가령, 특정 핵산 또는 단백질을 포함하고, 선택사항으로서, 이러한 핵산 또는 단백질의 상태를 포함한다. 바이오마커의 상태의 예로는 존재, 수준(양, 농도 등), 서열, 위치, 활성, 구조, 변성, 공유 또는 비-공유 결합 파트너 등과 같이 조회될 수 있는 다양한 측면을 포함한다. 비제한적 예로서, 바이오마커 세트는 특정된 서열(예를 들어, KRAS 돌연변이)을 갖는 유전자 또는 유전자 생성물(즉, mRNA 또는 단백질), 및/또는 유전자 또는 유전자 생성물 및 이의 수준(예를 들어, 증폭된 ERBB2 유전자 또는 과발현된 HER2 단백질)를 포함할 수 있다. 유용한 바이오마커 및 이의 측면은 이하에서 추가로 설명된다.
본 개시 내용의 혁신적인 양태는 트레이닝 데이터 구조를 생성하는 데 사용되기 위한 인입 데이터 스트림으로부터 특정 데이터의 추출을 포함한다. 중요한 측면은 훈련 데이터 구조에 포함되기 위한 하나 이상의 바이오마커의 특정 세트를 선택하는 것일 수 있다. 이는 특정 바이오마커의 존재, 부재 또는 상태가 원하는 분류를 나타낼 수 있기 때문이다. 예를 들어, 특정 바이오마커는 원하는 표현형, 예를 들어 질병 또는 장애에 대한 치료가 효험 가능성이 있는지 여부, 또는 종양 기원을 결정하도록 선택될 수 있다. 예를 들어, 본 개시내용에서, 출원인은 머신 러닝 모델을 훈련하는 데 사용될 때 상이한 바이오마커 세트를 사용하는 것보다 종양 기원을 더 정확하게 예측할 수 있는 훈련된 모델을 생성하는 특정 바이오마커 세트를 제시한다. 예를 들어, 실시예 1-3, 표 121-130을 참조할 수 있다.
시스템은 머신 러닝 모델의 입력 데이터 처리를 기반으로 훈련된 머신 러닝 모델에 의해 생성된 출력 데이터를 얻도록 구성된다. 다양한 구체예에서, 입력 데이터는 하나 이상의 바이오마커를 나타내는 생물학적 데이터, 질병 또는 장애를 나타내는 데이터, 샘플을 나타내는 데이터, 샘플 기원을 나타내는 데이터, 또는 이들의 임의의 조합을 포함한다. 그런 다음 시스템은 특정 세트의 바이오마커를 갖는 생체 샘플의 해부학적 기원을 예측할 수 있다. 일부 구현예에서, 질병 또는 장애는 암의 유형을 포함할 수 있고 해부학적 기원은 다양한 조직 및 기관을 포함할 수 있다. 이 설정에서, 바이오마커 세트, 질병 또는 장애 및 치료 유형을 포함하는 입력 데이터의 훈련된 머신 러닝 처리에 기초하여 생성된 훈련된 머신 러닝 모델의 출력이 생체 샘플의 예측된 해부학적 기원을 나타내는 데이터를 포함한다.
일부 구현예에서, 훈련된 머신 러닝 모델에 의해 생성된 출력 데이터는 원하는 분류의 확률을 포함할 수 있다. 예를 들어, 그러한 확률은 생체 샘플이 특정 기관의 조직에서 유래할 확률일 수 있다. 또 다른 구현에서, 출력 데이터는 훈련된 머신 러닝 모델의 입력 데이터 처리에 기초하여 훈련된 머신 러닝 모델에 의해 생성된 임의의 출력 데이터를 포함할 수 있다. 일부 구체예에서, 입력 데이터는 바이오마커의 세트, 질병 또는 장애를 나타내는 데이터, 샘플을 나타내는 데이터, 샘플 기원을 나타내는 데이터, 또는 이들의 임의의 조합을 포함한다.
일부 구현예에서, 본 개시 내용에 의해 생성된 훈련 데이터 구조는 특정 훈련 샘플에 대응하는 특징 벡터(feature vector)를 나타내는 필드를 각각 포함하는 복수의 훈련 데이터 구조를 포함할 수 있다. 특징 벡터는 훈련 샘플에서 파생된 특징의 집합을 포함한다. 훈련 샘플은 예를 들어, 생체 샘플의 하나 이상의 바이오마커, 생체 샘플과 연관된 질병 또는 장애, 및 생체 샘플로부터의 해부학적 기원을 포함할 수 있다. 훈련 데이터 구조는 각각의 훈련 데이터 구조가 특징 벡터의 각각의 특징를 나타내는 가중치가 할당될 수 있기 때문에 유연하다. 따라서, 복수의 훈련 데이터 구조의 각각의 훈련 데이터 구조는 특히 훈련 중에 머신 러닝 모델에 의해 특정 추론이 이루어지도록 구성될 수 있다.
모델이 생체 샘플, 가령, 종양 샘플의 가능성 높은 해부학적 기원을 예측하도록 모델이 훈련되는 비제한적 예를 고려할 수 있다. 결과적으로, 본 명세서에 따라 생성된 새로운 훈련 데이터 구조는, 특정 바이오마커 세트를 갖는 생체 샘플의 해부학적 기원을 예측하도록 머신 러닝 모델을 훈련시키는 데 사용될 수 있기 때문에 머신 러닝 모델의 성능을 개선하도록 설계된다. 예를 들어, 본 명세서에 기재된 훈련 데이터 구조, 시스템 및 동작을 이용해 훈련되기 전에 특정 바이오마커 세트를 갖는 생체 샘플의 해부학적 기원에 대한 예측을 수행하지 않을 수 있는 머신 러닝 모델이, 본 개시 내용에 의해 기재된 훈련 데이터 구조, 시스템 및 동작을 이용해 훈련됨으로써, 특정 바이오마커 세트를 갖는 생체 샘플의 해부학적 기원에 대한 예측을 하도록 학습할 수 있다. 따라서, 이 프로세스는 다른 범용 머신 러닝 모델을 취하고 범용 머신 린닝 모델을 특정 바이오마커 세트를 갖는 생체 샘플의 해부학적 기원 예측을 수행하는 특정 작업을 수행하는 특정 컴퓨터로 변경한다.
도 1a는 머신 러닝 모델(110)을 훈련하기 위한 종래 기술 시스템(100)의 예의 블록도이다. 일부 구현예에서, 머신 러닝 모델은 예를 들어 서포트 벡터 머신(support vector machine)일 수 있다. 또는, 머신 러닝 모델은 신경망 모델, 선형 회귀 모델, 랜덤 포레스트 모델, 로지스틱 회귀 모델, 나이브 베이즈 모델, 2차 판별 분석 모델(quadratic discriminant analysis model), K-최근접 이웃 모델, 서포트 벡터 머신 등을 포함할 수 있다. 머신 러닝 모델 훈련 시스템(100)은 하나 이상의 위치에 있는 하나 이상의 컴퓨터 상의 컴퓨터 프로그램으로서 구현될 수 있으며, 여기서 이하에서 기재된 시스템, 구성요소, 및 기법이 구현될 수 있다. 머신 러닝 모델 훈련 시스템(100)은 훈련 데이터 항목의 데이터베이스(또는 데이터세트)(120)로부터 훈련 데이터 항목을 사용하여 머신 러닝 모델(110)을 훈련시킨다. 훈련 데이터 항목은 복수의 특징 벡터를 포함할 수 있다. 각각의 훈련 벡터는 훈련 벡터가 나타내는 훈련 샘플의 특정 특징에 각각 대응하는 복수의 값을 포함할 수 있다. 훈련 특징는 독립 변수로 지칭될 수 있다. 또한, 시스템(100)은 특징 벡터에 포함된 각각의 특징에 대한 각자의 가중치를 유지한다.
머신 러닝 모델(110)은 입력 훈련 데이터 항목(122)을 수신하고 입력 훈련 데이터 항목(122)을 처리하여 출력(118)을 생성하도록 구성된다. 입력 훈련 데이터 항목은 복수의 특징(또는 독립 변수 "X") 및 훈련 라벨(또는 종속 변수 "Y")을 포함할 수 있다. 머신 러닝 모델은 훈련 항목을 사용하여 훈련될 수 있으며, 훈련되면 X = f(Y)를 예측할 수 있다.
머신 러닝 모델(110)이 수신된 데이터 항목에 대한 정확한 출력을 생성할 수 있도록 하기 위해, 머신 러닝 모델 훈련 시스템(100)은 머신 러닝 모델(110)을 훈련시켜 머신 러닝 모델(110)의 파라미터의 값을 조절할 수 있다, 가령, 초기 값으로부터 파라미터의 훈련된 값을 결정할 수 있다. 훈련 단계로부터 유도된 이들 파라미터는 완전 훈련된 머신 러닝 모델(110)을 사용하여 예측 단계 동안 사용될 수 있는 가중치를 포함할 수 있다.
훈련에서, 머신 러닝 모델(110), 머신 러닝 모델 훈련 시스템(100)은 라벨링된 훈련 데이터 항목의 데이터베이스(데이터 세트)(120)에 저장된 훈련 데이터 항목을 사용한다. 데이터베이스(120)는 다수의 훈련 데이터 항목의 세트를 저장하고, 다수의 트레이닝 항목 세트의 각각의 트레이닝 데이터 항목은 각자의 라벨과 연관된다. 일반적으로, 훈련 데이터 항목에 대한 라벨은 훈련 데이터 항목에 대한 올바른 분류(또는 예측), 즉, 머신 러닝 모델(110)에 의해 생성된 출력 값에 의해 훈련 데이터 항목의 분류로 식별되어야 할 분류를 식별한다. 도 1a를 참조하면, 훈련 데이터 항목(122)은 훈련 라벨(122a)과 연관될 수 있다.
머신 러닝 모델 훈련 시스템(100)은 목적 함수를 최적화하기 위해 머신 러닝 모델(110)을 훈련시킨다. 목적 함수를 최적화하는 것은 예를 들어 손실 함수(130)를 최소화하는 것을 포함할 수 있다. 일반적으로, 손실 함수(130)는 (i) 주어진 훈련 데이터 항목(122)을 처리하여 머신 러닝 모델(110)에 의해 생성된 출력(118) 및 (ii) 훈련 데이터 아이템(122)에 대한 라벨(122a), 즉, 훈련 데이터 아이템(122)을 처리함으로써 머신 러닝 모델(110)이 생성했었어야 하는 목표 출력에 의존하는 함수이다.
종래의 머신 러닝 모델 훈련 시스템(100)은 데이터베이스(120)로부터 훈련 데이터 항목에 대해 종래의 머신 러닝 모델 훈련 기법, 예를 들어, 힌지 손실, 통계적 경사법, 역전파를 갖는 통계적 경사 하강법 등을 수행함으로써, (누적) 손실 함수(130)를 최소화하도록 머신 러닝 모델(110)을 훈련시켜, 머신 러닝 모델(110)의 파라미터의 값을 반복적으로 조절할 수 있다. 그런 다음 완전히 훈련된 머신 러닝 모델(110)은 라벨링되지 않은 입력 데이터에 기초하여 예측을 하는 데 사용될 수 있는 예측 모델로서 전개될 수 있다.
도 1b는 샘플 기원을 예측하기 위해 머신 러닝 모델을 훈련하기 위한 훈련 데이터 구조를 생성하는 시스템의 블록도이다.
시스템(200)은 둘 이상의 분산 컴퓨터(210, 310), 네트워크(230) 및 애플리케이션 서버(240)를 포함한다. 애플리케이션 서버(240)는 추출 유닛(242), 메모리 유닛(244), 벡터 생성 유닛(250) 및 머신 러닝 모델(270)을 포함한다. 머신 러닝 모델(270)은 신경망 모델, 선형 회귀 모델, 랜덤 포레스트 모델, 로지스틱 회귀 모델, 나이브 베이즈 모델, 2차 판별 분석 모델(quadratic discriminant analysis model), K-최근접 이웃 모델, 서포트 벡터 머신 등 중 하나 이상을 포함할 수 있다. 각각의 분산 컴퓨터(210, 310)는 스마트폰, 태블릿 컴퓨터, 랩톱 컴퓨터 또는 데스크톱 컴퓨터 등을 포함할 수 있다. 대안으로, 분산 컴퓨터(210, 310)는 각각 하나 이상의 단말기(205, 305)에 의해 입력된 데이터를 수신하는 서버 컴퓨터를 포함할 수 있다. 단말 컴퓨터(205, 305)는 임의의 사용자 디바이스, 가령, 스마트폰, 태블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터 등을 포함할 수 있다. 네트워크(230)는 하나 이상의 네트워크(230), 가령, LAN, WAN, 유선 이더넷 네트워크, 무선 네트워크, 셀룰러 네트워크, 인터넷, 또는 이들의 임의의 조합을 포함할 수 있다.
애플리케이션 서버(240)는 네트워크(230)를 사용해 하나 이상의 분산 컴퓨터, 가령, 제1 분산 컴퓨터(210) 및 제2 분산 컴퓨터(310)에 의해 제공되는 데이터 레코드(220, 222, 224, 320)를 획득, 또는 그 밖의 다른 방식으로 수신하도록 구성된다. 일부 구현예에서, 각각의 분산 컴퓨터(210, 310)는 서로 다른 유형의 데이터 레코드(220, 222, 224, 320)를 제공할 수 있다. 예를 들어, 제1 분산 컴퓨터(210)는 피험체로부터의 생체 샘플에 대한 바이오마커를 나타내는 바이오마커 데이터 레코드(220, 222, 224)를 제공할 수 있고, 제2 분산 컴퓨터(310)는 샘플 데이터베이스(312)로부터 획득된 피험체에 대한 해부학적 기원 또는 그 밖의 다른 샘플 데이터를 나타내는 샘플 데이터(320)를 제공할 수 있다. 그러나, 본 개시내용은 데이터 레코드(220, 222, 224, 230)를 제공하는 두 개의 카운터(210, 310)로 한정될 필요가 없다. 이러한 구현이 기술적 이점, 가령, 로드 밸런싱, 대역폭 최적화 또는 둘 모두를 제공할 수 있지만, 데이터 레코드(220, 222, 224, 230) 각각이 동일한 컴퓨터에 의해 제공될 수 있다.
바이오마커 데이터 레코드(220, 222, 224)은 생체 샘플의 생체측정 속성을 기술하는 임의의 유형의 바이오마커 데이터를 포함할 수 있다. 예를 들어, 도 1b의 예는 DNA 바이오마커(220), 단백질 바이오마커(222) 및 RNA 데이터 바이오마커(224)를 나타내는 데이터 레코드를 포함하는 바이오마커 데이터 레코드를 보여준다. 이들 바이오마커 데이터 레코드는 각각 피험체의 바이오마커, 가령, 피험체의 DNA 바이오마커(220a), 단백질 바이오마커(222a), 또는 RNA 바이오마커(224a)를 기술하는 구조 정보(220a, 222a, 224a) 필드를 갖는 데이터 구조를 포함할 수 있다. 그러나, 본 개시내용은 이에 제한될 필요는 없고 임의의 유용한 바이오마커가 평가될 수 있다. 일부 구체예에서, 바이오마커 데이터 레코드(220, 222, 224)는 DNA 및/또는 RNA로부터의 차세대 시퀀싱 데이터, 비제한적 예를 들어, 단일 변이체, 삽입 및 결실, 치환, 전위, 융합, 파손, 복제, 증폭, 손실, 복제수, 반복, 총 돌연변이 부담, 미세 위성 불안정성 등을 포함할 수 있다. 대안으로 또는 추가로, 바이오마커 데이터 레코드(220, 222, 224)은 또한 원위치 혼성화(in situ hybridization) 데이터를 포함할 수 있다. 이러한 원위치 혼성화 데이터는 DNA 복제수, 전위 등을 포함할 수 있다. 대안으로 또는 추가로, 바이오마커 데이터 레코드(220, 222, 224)는 RNA 데이터, 가령, 유전자 표현 또는 유전자 융합, 비제한적 예를 들면, 전체 전사체 시퀀싱을 포함할 수 있다. 대안으로 또는 추가로, 바이오마커 데이터 레코드(220, 222, 224)는 단백질 발현 데이터, 가령, 면역 조직 화학(IHC)을 사용하여 얻은 것을 포함할 수 있다. 대안으로 또는 추가로, 바이오마커 데이터 레코드(220, 222, 224)는 복합체와 같은 ADAPT 데이터를 포함할 수 있다.
일부 구현예에서, 바이오마커 데이터 레코드(220, 222, 224)는 표 2-116, 표 117-120, ISNM1, 표 121-130 중 어느 하나에 나열된 하나 이상의 바이오마커 및 속성을 포함한다. 그러나, 본 개시내용은 이에 제한될 필요는 없으며, 다른 유형의 바이오마커가 필요에 따라 사용될 수 있다. 예를 들어, 바이오마커 데이터는 전장 엑솜 시퀀싱, 전장 전사체 시퀀싱, 전장 게놈 시퀀싱, 또는 이들의 조합에 의해 획득될 수 있다.
샘플 데이터 레코드(320)는 생체 샘플, 예를 들어 샘플이 유래된 조직 및/또는 기관의 다양한 측면을 기술할 수 있다. 예를 들어, 샘플 데이터베이스(312)로부터 획득된 샘플 데이터 레코드(320)는 생체 샘플의 데이터 속성을 구조화하는 필드(320a-1)("질병"), 샘플이 획득된 조직 또는 기관(320a-2), 샘플 유형(320a-3), 검증된 샘플 기원 라벨(320a-4), 또는 이들의 임의의 조합를 갖는 하나 이상의 데이터 구조를 포함할 수 있다. 샘플 레코드(320)는 샘플을 기술하는 최대 n개의 데이터 레코드를 포함할 수 있으며, 여기서 n은 0보다 큰 임의의 양의 정수이다. 예를 들어, 도 1b의 예시를 통해, 질병/장애, 샘플이 획득된 조직/장기, 및 샘플 유형을 설명하는 환자 샘플 데이터를 사용하여 머신 러닝 모델을 훈련하지만, 본 개시내용은 이에 제한되지 않는다. 예를 들어, 일부 구현예에서, 질병 또는 장애(320a-1)를 포함하지 않고, 샘플이 획득된 조직 또는 기관(320a-2) 및 샘플 유형(320a-3)을 포함하는 환자 샘플 정보를 이용해 샘플의 기원을 예측하기 위해 머신 러닝 모델(370)은 훈련될 수 있다.
대안으로 또는 추가로, 샘플 데이터 레코드(320)는 생체 샘플의 세부사항을 기술하는 데이터 속성, 가령, 샘플이 얻어진 피험체의 속성을 구조화하는 필드를 더 포함할 수 있다. 질병 또는 장애의 예는 예를 들어 암의 유형을 포함할 수 있다. 조직 또는 기관은 예를 들어 조직 유형(가령, 근육 조직, 상피 조직, 결합 조직, 신경 조직 등) 또는 기관(가령, 결장, 폐, 뇌 등)을 포함할 수 있다. 샘플 유형은 샘플의 유형, 가령, 종양 샘플, 체액, 신선 또는 냉동, 생검, FFPE 등을 나타내는 데이터를 포함할 수 있다. 일부 구현예에서, 샘플이 얻어진 피험체의 속성은 임상적 속성, 가령, 샘플의 병리학적 세부사항, 피험체 연령 및/또는 성별, 이전 피험체 치료 등을 포함한다. 샘플이 원발 기원을 알 수 없는 전이성 샘플(즉, CUPS(원발부위 불명 암))인 경우 속성은 샘플이 채취된 위치를 포함할 수 있다. 비제한적 예로서, 원발 부위 불명의 전이성 병변이 간 또는 뇌에서 발견될 수 있다. 따라서, 도 1b의 예가 샘플 데이터가 질병 또는 장애, 조직 또는 기관, 및 샘플 유형을 포함할 수 있음을 보여주지만, 샘플 데이터는 그 밖의 다른 유형의 정보를 포함할 수 있다. 또한 샘플 데이터가 인간 "환자"로 제한되어야 한다는 요건은 없다. 대신, 샘플 데이터 레코드(220, 222, 224) 및 생체 인식 데이터 레코드(320)는 임의의 비-인간 유기체를 포함하는 임의의 원하는 피험체와 연관될 수 있다.
일부 구현예에서, 각각의 데이터 레코드(220, 222, 224, 320)는 각각의 분산된 컴퓨터로부터의 데이터 레코드가 애플리케이션 서버(240)에 의해 상관될 수 있게 하는 키잉된 데이터(keyed data)를 포함할 수 있다. 키잉된 데이터는 예를 들어 피험체 식별자를 나타내는 데이터를 포함할 수 있다. 피험체 식별자는 피험체를 식별하고 피험체에 대한 바이오마커를 피험체에 대한 결과 데이터와 연관시킬 수 있는 모든 형태의 데이터를 포함할 수 있다.
제1 분산 컴퓨터(210)는 바이오마커 데이터 레코드(220, 222, 224)를 애플리케이션 서버(240)에 제공할 수 있다(208). 제2 분산 컴퓨팅(310)은 샘플 데이터 레코드(320)를 애플리케이션 서버(240)에 제공할 수 있다. 애플리케이션 서버(240)는 바이오마커 데이터 레코드(220) 및 샘플 데이터 레코드(220, 222, 224)를 추출 유닛(242)으로 제공할 수 있다.
추출 유닛(242)은 수신된 바이오마커 데이터(220, 222, 224) 및 샘플 데이터 레코드(320)를 처리하여 머신 러닝 모델을 훈련시키는 데 사용될 수 있는 데이터(220a-1, 222a-1, 224a-1, 320a-1, 320a-2, 320a-3)를 추출할 수 있다. 예를 들어, 추출 유닛(242)은 생체 측정 데이터 레코드(220, 222, 224)의 데이터 구조의 필드에 의해 구조화된 데이터를 획득하거나, 결과 데이터 레코드(320)의 데이터 구조의 필드에 의해 구조화된 데이터를 획득하거나, 이들의 조합일 수 있다. 추출 유닛(242)은 하나 이상의 정보 추출 알고리즘, 가령, 키잉된 데이터 추출, 패턴 매칭, 자연어 처리 등을 수행하여, 생체 측정 데이터 레코드(220, 222, 224) 및 샘플 데이터 레코드(320)로부터 각각 데이터(220a-1, 222a-1, 224a-1, 320a-1, 320a-2, 320a-3)를 식별 및 획득할 수 있다. 추출 유닛(242)은 추출된 데이터를 메모리 유닛(244)에 제공할 수 있다. 추출된 데이터 유닛은 메모리 유닛(244), 가령, (하드 디스크와 대비되는) 플래시 메모리에 저장되어, 데이터 액세스 시간을 개선하고 추출된 데이터를 액세스하는 레이턴시를 감소시켜 시스템 성능을 개선할 수 있다. 일부 구현예에서, 추출된 데이터는 인-메모리 데이터 그리드로서 메모리 유닛(244)에 저장될 수 있다.
구체적으로, 추출 유닛(242)은 생성된 입력 데이터 구조(260)에 대한 라벨로서 사용될 샘플 데이터 레코드(320a-4)의 부분으로부터 머신 러닝 모델(270)에 의한 처리를 위한 입력 데이터 구조(260)를 생성하는 데 사용될 바이오마커 데이터 레코드(220, 222, 224) 및 샘플 데이터 레코드(320, 가령, 220a-1, 222a-1, 224a-1, 320a-1, 320a-2, 320a-3)의 일부를 필터링하도록 구성될 수 있다. 이러한 필터링은 추출 유닛(242)이 바이오마커 데이터와, 샘플(320a-4)의 검증된 기원으로부터의 질병 또는 장애(320a-1), 샘플이 획득된(가령, 생검된) 조직/기관(320a-1), 샘플 유형(320a-3) 세부사항, 또는 이들의 임의의 조합을 포함하는 샘플 데이터의 제1 부분을 분리하는 것을 포함한다. 검증된 샘플 기원은 샘플이 획득된 샘플이 아닌 다른 조직/기관 또는 동일한 조직/기관일 수 있다. 샘플이 획득된 조직/기관이 검증된 기원과 상이할 수 있는 사례는 질병 또는 장애가 제1 조직/기관에서 샘플이 차후 획득된 제2 조직/기관으로 확산된 사례를 포함할 수 있다. 애플리케이션 서버(240)는 이어서 바이오마커 데이터(220a-1, 222a-1, 224a-1) 및 질병 또는 장애(320a-1), 조직 또는 기관(320a-2), 샘플 유형 상세사항(도 1b에 도시되지 않음), 또는 이들의 조합을 포함하는 샘플 데이타의 제1 부분을 이용해, 입력 데이터 구조(260)를 생성할 수 있다. 또한, 애플리케이션 서버(240)는 생성된 데이터 구조에 대한 라벨로서 샘플(320a-4)의 검증된 기원을 설명하는 샘플 데이터의 제2 부분을 이용할 수 있다.
애플리케이션 서버(240)는 메모리 유닛(244)에 저장된 추출된 데이터를 처리할 수 있으며, 바이오마커 데이터 레코드(220, 222, 224)에서 추출된 바이오마커 데이터(220a-1, 222a-1, 224a-1)를 샘플 데이터(320a-1, 320a-2, 320a-3)의 제1 부분과 연관시킬 수 있다. 이 상관 관계의 목적은 생체 샘플에 대한 샘플 데이터가 동일한 생체 샘플에 대한 바이오마커 데이터와 클러스터링되도록 바이오마커 데이터를 샘플 데이터와 클러스터링하는 것이다. 일부 구현예에서, 바이오마커 데이터와 샘플 데이터의 제1 부분의 상관은 바이오마커 데이터 레코드(220, 222, 224) 및 샘플 데이터 레코드(320) 각각과 연관된 키잉된 데이터에 기초할 수 있다. 예를 들어, 입력된 데이터는 샘플 식별자 또는 피험체 식별자, 가령, 샘플이 얻어진 피험체를 포함할 수 있다.
애플리케이션 서버(240)는 추출된 바이오마커 데이터(220a-1, 222a-1, 224a-1) 및 샘플 데이터(320a-1, 320a-2, 320a-3)의 추출된 제1 부분을 벡터 생성 유닛(250)으로의 입력으로서 제공한다. 벡터 생성 유닛(250)은 추출된 바이오마커 데이터(220a-1, 222a-1, 224a-1) 및 샘플 데이터(320a-1, 320a-2, 320a-3)의 추출된 제1 부분에 기초하여 데이터 구조를 생성하는 데 사용된다. 생성된 데이터 구조는 추출된 바이오마커 데이터(220a-1, 222a-1, 224a-1) 및 샘플 데이터(320a-1, 320a-2, 320a-3)의 추출된 제1 부분을 숫자로 나타내는 복수의 값을 포함하는 특징 벡터(260)이다. 특징 벡터(260)는 각각의 유형의 바이오마커 및 각각의 유형의 샘플 데이터에 대한 필드를 포함할 수 있다. 예를 들어, 특징 벡터(260)는 (i) 하나 이상의 유형의 차세대 시퀀싱 데이터, 가령, 단일 변이체, 삽입 및 삭제, 치환, 전좌, 융합, 파손, 복제, 증폭, 손실, 복제수, 반복, 총 돌연변히 부담, 미세부수체 불완정성, (ii) 하나 이상의 유형의 원위치 혼성화 데이터, 가령, DNA 복제수, 유전자 복제, 유전자 전좌, (iii) 하나 이상의 유형의 RNA 데이터, 가령, 유전자 발현 또는 유전자 융합, (iv) 하나 이상의 유형의 단백질 데이터, 가령, 면역 조직 화학을 사용하여 얻어진 존재여부, 레벨 또는 세포 위치, (v) 하나 이상의 유형의 ADAPT 데이터, 가령, 복합체, 및 (vi) 하나 이상의 유형의 샘플 데이터, 가령, 질병 또는 장애, 샘플 유형, 각각의 샘플 세부사항 등에 대응하는 하나 이상의 필드를 포함할 수 있다.
벡터 생성 유닛(250)은 추출된 바이오마커 데이터(220a-1, 222a-1, 224a-1) 및 샘플 데이터(320a-1, 320a-2, 320a-3)의 추출된 제1 부분이 각각의 필드에 의해 표현되는 데이터를 포함하는 범위를 나타내는 특징 벡터(260)의 각각의 필드에 가중치를 할당하도록 구성된다. 하나의 구현예에서, 예를 들어, 벡터 생성 유닛(250)은 추출된 바이오마커 데이터(220a-1, 222a-1, 224a-1) 및 샘플 데이터(320a-1, 320a-2, 320a-3)의 추출된 제1 부분에서 발견된 특징에 대응하는 특징 벡터의 각각의 필드에 '1'을 할당할 수 있다. 이러한 구현예에서, 벡터 생성 유닛(250)은, 예를 들어 추출된 바이오마커 데이터(220a-1, 222a-1, 224a-1) 및 결과 데이터(320a-1, 320a-2, 320a-3)의 추출된 제1 부분에서 발견되지 않은 특징에 대응하는 특징 벡터의 각각의 필드에 '0'을 할당할 수도있다. 벡터 생성 유닛(250)의 출력은 머신 러닝 모델(270)을 훈련시키는 데 사용될 수 있는 특징 벡터(260)와 같은 데이터 구조를 포함할 수 있다.
애플리케이션 서버(240)는 트레이닝 특징 벡터(260)를 라벨링할 수 있다. 구체적으로, 애플리케이션 서버는 샘플 데이터(320a-4)의 추출된 제2 부분을 사용하여 생성된 특징 벡터(260)를 검증된 샘플 기원(320a-4)으로 라벨링할 수 있다. 검증된 샘플 기원(320a-4)에 기초하여 생성된 트레이닝 특징 벡터(260)의 라벨은 샘플 레코드(320)에 의해 표현되고 훈련 데이터 구조(260)에 기재된 바이오마커(220a-1, 222a-1, 224a-1)의 특정 세트에 의해 정의된 질병 또는 장애(320a-1)를 갖는 생체 샘플에 대한 기원이었던 조직 또는 기관을 예측하는 데 사용될 수 있다.
애플리케이션 서버(240)는 머신 러닝 모델(270)로의 입력으로서 특징 벡터(260)를 제공함으로써 머신 러닝 모델(270)을 훈련시킬 수 있다. 머신 러닝 모델(270)은 생성된 특징 벡터(260)를 처리하고 출력(272)을 생성할 수 있다. 애플리케이션 서버(240)는 손실 함수(280)를 사용하여 머신 러닝 모델(280)의 출력(272)과 검증된 샘플 기원(320a-4)을 설명하는 추출된 샘플 데이터의 제2 부분에 기초하여 생성되는 훈련 라벨에 의해 특정된 값 사이의 오차 양을 결정할 수 있다. 손실 함수(280)의 출력(282)은 머신 러닝 모델(282)의 파라미터를 조정하는 데 사용될 수 있다.
일부 구현예에서, 머신 러닝 모델(270)의 파라미터를 조정하는 것은 머신 러닝 모델 파라미터의 수동 조정을 포함할 수 있다. 대안으로, 일부 구현예에서, 머신 러닝 모델(270)의 파라미터는 애플리케이션 서버(242)에 의해 실행되는 하나 이상의 알고리즘에 의해 자동으로 조정될 수 있다.
애플리케이션 서버(240)는 생체 샘플에 대한 바이오마커 데이터의 세트에 대응하는 샘플 데이터베이스에 저장된 각각의 샘플 데이터 레코드(320)에 대해 도 1b를 참조하여 앞서 기재된 프로세스의 복수의 반복을 수행할 수 있다. 이는 샘플 데이터베이스(312)에 저장되고 생체 샘플에 대한 대응하는 바이오마커 데이터 세트를 갖는 샘플 데이터 레코드(320) 각각이 고갈될 때까지, 또는 특정 오차 마진 내에서 머신 러닝 모델(270)이 훈련될 때까지, 또는 이 둘 모두의 조합으로, 수백 회의 반복, 수천 회의 반복, 수만 회의 반복, 수십만 회의 반복, 수백만 회의 반복, 또는 그 이상을 포함할 수 있다. 예를 들어 머신 러닝 모델(270)이 라벨링되지 않은 바이오마커 데이터 세트에 기초하여, 바이오마커 데이터를 갖는 샘플의 질병 또는 장애 데이터, 샘플 유형 데이터, 기원을 예측할 수 있을 때 머신 러닝 모델(270)은 특정 오차 마진 내에서 훈련된다. 기원은 예를 들어 확률, 기원 분류에 대한 신뢰도의 일반적인 표시 등을 포함할 수 있다.
도 1c는 피험체로부터의 샘플 데이터의 샘플 기원을 예측하기 위해 훈련된 머신 러닝 모델(370)을 사용하기 위한 시스템의 블록도이다.
머신 러닝 모델(370)은 도 1b의 시스템을 참조하여 기재된 프로세스를 사용하여 훈련된 머신 러닝 모델을 포함한다. 예를 들어, 도 1b는 샘플이 획득된 조직/기관(422a) 및 샘플 유형(420a)을 나타내는 데이터를 포함하는 환자 샘플 데이터를 사용하여 샘플 기원을 예측하도록 훈련된 머신 러닝 모델(370)의 예이다. 도 1b의 예에서, 질병, 장애 또는 병은 모델을 훈련하는 데 사용되지 않았지만, 머신 러닝 모델(370)이 샘플이 획득된 조직/기관(422a) 및 샘플 유형(420a) 외에 질병 또는 장애를 사용하여 훈련될 수 있다. 훈련된 머신 러닝 모델(370)은 하나 이상의 바이오마커의 세트를 나타내는 입력 특징 벡터에 기초하여, 질병 또는 장애, 및 그 밖의 다른 관련 샘플 데이터, 가령, 샘플 유형, 바이오마터를 갖는 생체 샘플의 기원을 예측할 수 있다. 일부 구현에서, "기원"은 해부학적 시스템, 위치, 기관, 조직 유형 등을 포함할 수 있다.
머신 러닝 모델(370)을 호스팅하는 애플리케이션 서버(240)는 라벨링되지 않은 바이오마커 데이터 레코드(320, 322, 324)를 수신하도록 구성된다. 바이오마커 데이터 레코드(320, 322, 324)는 하나 이상의 특정 바이오마커, 가령, DNA 바이오마커(320a), 단백질 바이오마커(322a), RNA 바이오마커(324a) 또는 이들의 임의의 조합을 나타내는 필드 구조 데이터를 갖는 하나 이상의 데이터 구조를 포함한다. 앞서 논의된 바와 같이, 수신된 바이오마커 데이터 레코드는 도 1c에 도시되지 않는 바이오마커의 다양한 유형, 가령, (i) DNA 및/또는 RNA로부터의 차세대 시퀀싱 데이터, 비제한적 예를 들면, 단일 변이체, 삽입 및 삭제, 치환, 전좌, 융합, 파손, 복제, 증폭, 손실, 복제수, 반복, 총 돌연변히 부담, 미세부수체 불완정성, (ii) 하나 이상의 유형의 원위치 혼성화 데이터, 가령, DNA 복제, 유전자 복제, 유전자 전좌, (iii) 하나 이상의 유형의 RNA 데이터, 가령, 유전자 발현 또는 유전자 융합, (iv) 하나 이상의 유형의 단백질 데이터, 가령, 면역 조직 화학을 사용하여 얻어진 존재여부, 레벨 또는 위치, 또는 (v) 하나 이상의 유형의 ADAPT 데이터, 가령, 복합체를 포함할 수 있다. 일부 구현예에서, 바이오마커 데이터 레코드(320, 322, 324)는 표 2-116, 표 117-120, ISNM1, 및/또는 표 121-130 중 어느 하나에 나열된 하나 이상의 바이오마커 및 속성을 포함한다. 그러나, 본 개시내용은 이에 제한될 필요는 없으며, 그 밖의 다른 바이오마커가 필요에 따라 사용될 수 있다. 예를 들어, 바이오마커 데이터는 전체 엑솜 시퀀싱, 전체 전사체 시퀀싱, 또는 이들의 조합에 의해 획득될 수 있다.
머신 러닝 모델(370)을 호스팅하는 애플리케이션 서버(240)는 또한 수신된 바이오마커 데이터 레코드(320, 322, 324)에 의해 표현되는 바이오마커를 갖는 생체 바이오마커의 샘플 데이터(420a)에 의해 기술된 생체 샘플에 대한 제안된 기원 데이터(422a)를 나타내는 샘플 데이터(420)를 수신하도록 구성된다. 생체 샘플(420a)에 대해 제안된 기원 데이터(422a)는 또한 라벨링되지 않으며 바이오마커 데이터 레코드(320, 322, 324)에 의해 표현되는 바이오마커를 갖는 생체 샘플의 기원에 대한 제안에 불과하다. 그러나 본 명세서에 언급된 바와 같이, 질병(가령, 암)이, 가령, 장기에서 장기로 퍼질 가능성이 있으므로 샘플을 얻은 조직/장기(422a)는 실제 샘플 기원이 아닐 수 있다.
일부 구현에서, 샘플 데이터(420)는 네트워크(230)를 통해 단말(405)에 의해 수신 또는 제공되고(305), 바이오마커 데이터는 제2 분산 컴퓨터(310)로부터 획득된다. 바이오마커 데이터는 다양한 검증을 수행하는 데 사용되는 실험실 기계로부터 얻어질 수 있다. 가령, 실시예 1을 참조할 수 있다. 샘플 데이터(420)는 샘플이 획득된 조직/장기(422a) 및 샘플 유형(420a)을 나타내는 데이터를 포함할 수 있다. 샘플이 획득된 조직/장기(422a)는 샘플의 제안된 기원으로 지칭될 수 있다. 다른 구현에서, 샘플 데이터(420a), 제안된 기원(422a) 및 바이오마커 데이터(320, 322, 324)는 각각 단말기(405)로부터 수신될 수 있다. 예를 들어, 단말기(405)는 의사, 의사 사무실에서 근무하는 직원, 또는 샘플을 나타내는 데이터, 제안된 기원을 나타내는 데이터, 및 생체 샘플에 대한 환자 속성을 나타내는 데이터를 입력하는 그 밖의 다른 인간의 사용자 장치일 수 있다. 일부 구현예에서, 샘플 데이터(420)는 조직 또는 장기명에 의해 기술된 제안된 기원을 나타내는 데이터의 필드를 구조화하는 데이터 구조를 포함할 수 있다. 또 다른 구현에서, 샘플 데이터(420)는 더 복잡한 샘플 데이터, 가령, 샘플 유형, 샘플이 유래한 환자의 나이 및/또는 성별를 나타내는 데이터의 필드를 구조화하는 데이터 구조를 포함할 수 있다.
애플리케이션 서버(240)는 바이오마커 데이터 레코드(320, 322, 324), 샘플 데이터(420) 및 제안된 기원 데이터(422)를 수신한다. 애플리케이션 서버(240)는 바이오마커 데이터 레코드(320, 322, 324), 샘플 데이터(420), 및 기원 데이터(422)를 추출 유닛(242)으로 제공하며, 상기 추출 유닛은 (i) 특정 바이오마커 데이터, 가령, DNA 바이오마커 데이터(320a-1), 단백질 표현 데이터(322a-1, 324a-1), (ii) 샘플 데이터(420a-1), 및 (iii) 바이오마커 데이터 레코드(320, 322, 324) 및 샘플 데이터 레코드(420, 422)의 필드로부터 제안된 기원 데이터(422a-1)를 추출하도록 구성된다. 일부 구현예에서, 추출된 데이터는 버퍼, 캐시 등으로서의 메모리 유닛(244)에 저장되고, 그런 다음 벡터 생성 유닛(250)이 처리되기 위한 입력을 수신하기 위한 대역폭을 가질 때 벡터 생성 유닛(250)으로의 입력으로서 제공된다. 또 다른 구현에서, 추출된 데이터는 처리를 위해 벡터 생성 유닛(250)에 직접 제공된다. 예를 들어, 일부 구현예에서, 다수의 벡터 생성 유닛(250)은 입력의 병렬 처리를 가능하게 하여 지연을 감소시키기 위해 사용될 수 있다.
벡터 생성 유닛(250)은 데이터 구조, 가령, 복수의 필드를 포함하는 특징 벡터(360)를 생성하고 각각의 유형의 바이오마커에 대한 하나 이상의 필드 및 각각의 유형의 기원 데이터에 대한 하나의 필드를 포함할 수 있다. 예를 들어, 특징 벡터(360)의 각각의 필드는 (i) 바이오마커 데이터 레코드(320, 322, 324)로부터 추출될 수 있는 각각의 유형의 추출된 바이오마커 데이터, 가령, 각각의 유형의 차세대 시퀀싱 데이터, 각각의 유형의 원위치 혼성화 데이터, 각각의 유형의 RNA 또는 DNA 데이터, 각각의 유형의 면역 조직 화학 데이터, 및 각각의 유형의 ADAPT 데이터 및 (ii) 샘플 데이터 레코드(420, 422)로부터 추출될 수 있는 샘플 데이터의 각각의 유형, 가령, 질병 또는 장애의 각각의 유형, 샘플의 각각의 유형, 및 기원 세부사항의 각각의 유형에 대응할 수 있다.
벡터 생성 유닛(250)은 추출된 바이오마커 데이터(320a-1, 322a-1, 324a-1), 추출된 샘플(420a-1), 및 추출된 기원(422a-1)가 각각의 필드에 의해 나타내어지는 데이터를 포함하는 범위를 나타내는 특징 벡터(360)의 각각의 필드에 가중치를 할당하도록 구성된다. 하나의 구현예에서, 예를 들어 벡터 생성 유닛(250)는 추출된 바이오마커 데이터(320a-1, 322a-1, 324a-1), 추출된 샘플(420a-1), 및 추출된 기원(422a-1)에서 발견된 특징에 대응하는 특징 벡터(360)의 각각의 필드에 '1'을 할당할 수 있다. 이러한 구현예에서, 벡터 생성 유닛(250)는, 예를 들어, 추출된 바이오마커 데이터(320a-1, 322a-1, 324a-1), 추출된 샘플(420a-1), 및 추출된 기원(422a-1)에서 발견되지 않은 특징에 대응하는 특징 벡터의 각각의 필드에 '0'을 할당할 수 있다. 벡터 생성 유닛(250)의 출력은 훈련된 머신 러닝 모델(370)로의 입력으로서 제공될 수 있는 특징 벡터(360)와 같은 데이터 구조를 포함할 수 있다.
훈련된 머신 러닝 모델(370)은 훈련 단계 동안 결정되고 도 1b을 참조하여 설명된 조정된 파라미터에 기초하여 생성된 특징 벡터(360)를 처리한다. 훈련된 머신 러닝 모델의 출력(272)은 바이오마커(320a-1, 322a-1, 324a-1)를 갖는 생체 샘플에 대한 샘플(420a-1)의 기원(422a-1)의 효과의 지시자를 제공한다. 일부 구현예에서, 출력(272)은 바이오마커(320a-1, 322a-1, 324a-1)를 갖는 생체 샘플에 대한 샘플(420a-1)의 기원(422a-1)을 나타내는 확률을 포함할 수 있다. 이러한 구현에서, 출력(272)은 네트워크(230)를 사용하여 단말기(405)에 제공될 수 있다(311). 그런 다음, 단말기(405)는 특징 벡터(360)에 의해 나타내어지는 바이오마커를 갖는 생체 샘플에 대한 예측된 기원을 나타내는 사용자 인터페이스(420) 상에 출력을 생성할 수 있다.
다른 구현에서, 출력(272)은 출력(272)의 의미를 해독하도록 구성된 예측 유닛(380)에 제공될 수 있다. 예를 들어, 예측 유닛(380)은 출력(272)을 하나 이상의 효과 카테고리에 매핑하도록 구성될 수 있다. 그런 다음, 예측 유닛(328)의 출력은 실험실 스태프, 의료 제공자, 피험체, 피험체의 보호자, 간호사, 의사 등에 의해 검토되도록 네트워크(230)를 사용하여 단말기(305)에 제공(311)되는 메시지(390)의 일부로서 사용될 수 있다.
도 1d는 샘플 기원을 예측하기 위해 머신 러닝 모델을 훈련하기 위한 훈련 데이터를 생성하는 프로세스(400)의 흐름도이다. 하나의 양태에서, 프로세서(400)는, 제1 분산 데이터 소스로부터, 생체 샘플과 연관된 하나 이상의 바이오마커의 세트를 나타내는 데이터를 구조화하는 필드를 포함하는 제1 데이터 구조를 획득하는 단계(410), 상기 제1 데이터 구조를 하나 이상의 메모리 디바이스에 저장하는 단계(420), 제2 분산 데이터 소스로부터, 생체 샘플을 나타내는 데이터를 구조화하는 필드 및 하나 이상의 바이오마커를 갖는 생체 샘플에 대한 기원 데이터를 포함하는 제2 데이터 구조를 획득하는 단계(430), 하나 이상의 메모리 디바이스에 제2 데이터 구조를 저장하는 단계(440), (i) 하나 이상의 바이오마커, (ii) 생체 샘플, (iii) 기원, 및 (iv) 제1 데이터 구조 및 제2 데이터 구조에 기초하는 생체 샘플에 대한 예측되는 기원을 나타내는 데이터를 구조화하는 라벨링된 훈련 데이터 구조를 생성하는 단계(450), 및 생성된 라벨링된 훈련 데이터를 이용해 머신 러닝 모델을 훈련하는 단계(460)를 포함할 수 있다.
도 1e는 피험체로부터의 샘플 데이터의 샘플 기원을 예측하기 위해 훈련된 머신 러닝 모델을 이용하는 프로세스(500)의 흐름도이다. 하나의 양태에서, 프로세스(500)는, 생체 샘플과 연관된 하나 이상의 바이오마커의 세트를 나타내는 데이터 구조를 획득하는 단계(510), 생체 샘플에 대한 샘플 데이터를 나타내는 데이터를 획득하는 단계(520), 생체 샘플에 대한 기원 유형을 나타내는 데이터를 획득하는 단계(530), (i) 하나 이상의 바이오마커, (ii) 생체 샘플, 및 (iii) 기원 유형을 나타내는 데이터를 구조화하는 머신 러닝 모델로의 입력을 위한 데이터 구조를 생성하는 단계(540), 생성된 데이터 구조를, 하나 이상의 획득된 바이오마커, 하나 이상의 샘플 유형, 및 하나 이상의 기원을 나타내는 데이터를 구조화하는 라벨링된 훈련 데이터 구조를 이용해 샘플 기원을 예측하도록 훈련된 머신 러닝 모델로의 입력으로서 제공하는 단계(550), 및 제공된 데이터 구조의 머신 러닝 모델 처리에 기초하여 머신 러닝 모델에 의해 생성된 출력을 획득하는 단계(560), 및 머신 러닝 모델에 의해 생성된 획득된 출력에 기초하여 하나 이상의 바이오마커를 갖는 생체 샘플에 대한 예측된 기원을 결정하는 단계(570)를 포함할 수 있다.
분류 성능을 향상시키기 위해 여러 머신 러닝 모델을 사용하는 방법이 본 명세서에서 제공된다. 종래 방식에서는, 원하는 예측/분류를 수행하기 위해 단일 모델이 선택된다. 예를 들어, 훈련 동안, 상이한 모델 파라미터 또는 유형의 모델, 가령, 랜덤 포레스트, 서포트 벡터 머신, 로지스틱 회귀, k- 최근접 이웃, 인공 신경망, 나이브 베이즈(na
Figure pct00002
ve Bayes), 2차 판별 분석 또는 가우스 프로세스 모델이 비교되어, 최적의 원하는 성능을 갖는 모델을 식별할 수 있다. 출원인은 단일 모델을 선택하면 모든 설정에서 최적의 성능을 제공하지 못할 수 있음을 깨달았다. 대신, 복수의 모델이 훈련되어 예측/분류를 수행할 수 있고 공동 예측이 사용되어 분류를 할 수 있다. 이 시나리오에서 각각의 모델에 "투표(vote)"할 수 있으며 과반수 득표를 받은 분류가 승자로 간주된다.
본 명세서에 개시된 이 투표 스킴은 모델 빌딩(예를 들어, 훈련 데이터 사용하는 모델 빌딩) 및 나이브 샘플(na
Figure pct00003
ve sample)을 분류하기 위한 애플리케이션을 포함한 임의의 머신 러닝 분류에 적용될 수 있다. 이러한 설정은 생물학, 금융, 커뮤니케이션, 미디어 및 엔터테인먼트 분야의 데이터를 비제한적으로 포함한다. 일부 바람직한 실시예에서, 데이터는 고차원의 "빅 데이터"이다. 일부 구체예에서, 데이터는 본 명세서에 기재된 바와 같은 분자 프로파일링을 통해 획득된 생물학적 데이터를 포함 하나 이에 제한되지 않는 생물학적 데이터를 포함한다. 예를 들어, 실시예 1을 참조할 수 있다. 분자 프로파일링 데이터는 예를 들어 특정 바이오마커 패널(예를 들어, 실시예 1 참조) 또는 전장 엑솜 및/또는 전장 전사체 데이터에 대한 고차원 차세대 시퀀싱 데이터를 제한없이 포함할 수 있다. 분류는 예를 들어 표현형을 특징화하기 위한 유용한 분류일 수 있다. 예를 들어, 분류는 진단(가령, 질병 또는 건강), 예후(가령, 더 나은 결과 또는 더 나쁜 결과 예측), 치료법(가령, 치료 효능 또는 그 결여를 예측 또는 모니터링), 또는 그 밖의 다른 표현형 특성화(가령, CUP의 종양 샘플의 기원)를 제공할 수 있다.
도 1f는 샘플 기원을 예측하기 위해 짝 분석을 수행하는 시스템의 예이다.질병 유형은, 예를 들어, 시스템에 의해 처리되는 피험체 샘플을 포함할 수 있다. 예를 들어, 피험체 샘플의 기원은 질병, 가령, 암이 기원한 피험체의 몸의 위치를 포함할 수 있다. 실전예를 참조하면, 피험체의 종양의 생검이 피험체의 간으로부터 획득될 수 있다. 그런 다음, 입력 데이터가 생검된 종양에 기반하여 생성될 수 있고 짝 분석 모델(340)의 입력으로서 제공될 수 있다. 모델은 각각의 알려진 유형의 질병(가령, 상이한 암 유형)의 대응하는 생체 시그니처에 생성된 입력 데이터를 비교할 수 있다. 짝 분석 모델(340)에 의해 생성된 출력에 기초하여, 컴퓨터(310)는 입력 데이터에 의해 표현되는 생검된 종양이 간에서 기원된 것인지 또는 피험체의 신체의 다른 부분, 가령, 췌장에서 기원된 것인지를 결정할 수 있다. 그런 다음, 치료가 생검된 종양에만 기초하는 것과 반대로, 하나 이상의 치료가 질병의 기원에 기초하여 결정될 수 있다.
더 상세히 말하면, 시스템(300)은 하나 이상의 프로세서 및 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서에 의해 동작을 수행하게 하는 명령을 저장하는 하나 이상의 메모리 유닛(320)을 포함할 수 있다. 일부 구현예에서, 하나 이상의 프로세서 및 하나 이상의 메모리(320)는 컴퓨터, 가령, 컴퓨터(310)에서 구현될 수 있다.
시스템(300)은 제1 생체 시그니처 데이터(322, 324)를 입력으로서 획득할 수 있다. 제1 생체 시그니처(322, 324) 데이터는 하나 이상의 바이오마커(322), 샘플 데이터(324), 또는 둘 모두를 포함할 수 있다. 샘플 데이터(324)는 신체로부터 획득된 샘플, 가령, 조직 샘플, 종양 샘플, 악성 유체, 또는 그 밖의 다른 샘플, 가령, 본 명세서에 기재된 것을 나타내는 데이터를 포함할 수 있다. 일부 구현예에서, 생체 시그니처(322, 324)는 질병, 가령 암의 특징를 나타낸다. 일부 구현예에서, 특징는 차세대 시퀀싱(NGS)을 이용해 획득되는 분자 데이터를 나타낼 수 있다. 일부 구현에서, 돌연변이, 다형성, 결실, 삽입, 치환, 전좌, 융합, 파손, 복제, 손실, 증폭, 반복 또는 유전자 복제수를 제한 없이 포함하는 특징가 질병 샘플의 DNA에 존재할 수 있다. 일부 구현에서, 특징는 질병의 RNA에 존재할 수 있다.
시스템은 짝 분석을 수행하도록 훈련된 머신 러닝 모델(340)로의 입력을 위해 입력 데이터를 생성할 수 있다. 머신 러닝 모델은 신경망 모델, 선형 회귀 모델, 랜덤 포레스트 모델, 로지스틱 회귀 모델, 나이브 베이즈 모델, 2차 판별 분석 모델(quadratic discriminant analysis model), K-최근접 이웃 모델, 서포트 벡터 머신 등을 포함할 수 있다. 머신 러닝 모델(340)은 하나 이상의 위치에서의 하나 이상의 컴퓨터 상의 하나 이상의 컴퓨터 프로그램으로서 구현될 수 있다.
일부 구현예에서, 생성된 입력 데이터는 생체 시그니처(322, 324)를 나타내는 데이터를 포함할 수 있다. 또 다른 구현예에서, 생체 시그니처를 나타내는 생성된 데이터가 벡터 생성 유닛(330)을 이용해 생성된 벡터(332)를 포함할 수 있다. 예를 들어, 벡터 생성 유닛(330)은 메모리 유닛(320)으로부터 생체 시그니처 데이터(322, 324)를 획득하고 상기 생체 시그니처 데이터(322, 324)에 기초하여, 벡터 공간에서 생체 시그니처 데이터(322, 324)를 나타내는 입력 벡터(333)를 생성할 수 있다. 생성된 벡터(332)는, 짝 분석 모델(340)로, 입력으로서 제공될 수 있다.
짝 분석 모델(340)은 각각의 생체 시그니처(341-1, 341-2, 341-n)를 갖는 생체 시그니처(322, 324)를 나타내는 입력 벡터(352)의 짝 분석을 수행하도록 구성될 수 있으며, 여기서, n은 임의의 양의, 0이 아닌 정수이다. 복수의 상이한 생체 시그니처 각각이 질병의 상이한 유형, 가령, 암의 상이한 유형에 대응한다. 일부 구현예에서, 모델(340)은 생체 시그니처(341-1, 341-2, 341-n)에 의해 표현되는 복수의 생체 시그니처 분류 각각과 입력 샘플의 특징의 유사도를 결정함으로써 입력 샘플에 기초하여 샘플의 소스를 결정하도록 훈련된 단일 모델일 수 있다. 또 다른 구현예에서, 모델(340)은 입력 벡터(332)와 하나의 생체 시그니처(가령, 341-1) 간 짝 비교를 각각 수행하는 복수의 상이한 모델을 포함할 수 있다. 이러한 예에서, 각각의 모델에 의해 생성된 출력 데이터는 처리된 입력 벡터(332)에 의해 표현되는 샘플의 소스를 결정하도록 투표 유닛에 의해 평가될 수 있다.
짝 분석 모델(340)은 시스템, 가령, 컴퓨터(310)에 의해 획득될 수 있는 출력(342)을 생성할 수 있다. 출력(342)은 짝 분석에 기초하여 샘플의 가능한 질병 유형을 가리킬 수 있다. 일부 구현예에서, 출력(342)은 행렬, 가령, 도 5b에 설명된 행렬을 포함할 수 있다. 시스템은, 생성된 행렬에 기초하고 예측 유닛(350)을 이용해, 가능성 있는 질병 유형을 가리키는 데이터(360)를 결정할 수 있다.
실시예 2는 이러한 시스템의 구현을 제공한다. 실시예에서, 모델이 질병 유형을 구별하도록 훈련되며(115), 여기서 각각의 질병 유형은 원발 종양 기원 및 조직학을 포함한다. 일부 실시예에서, 데이터(360)는 확률에 의해 순위화된 질병 유형의 리스트를 제공한다. 필요에 따라, 데이터(360)는 다양한 질병 유형의 집합체로 표시될 수 있다. 실시예에서, 기관 그룹의 이러한 집합이 표시되며, 이때, 각각의 장기 그룹은 적절한 질병 유형을 포함한다. 예를 들어, 장기 그룹 "대장"은 질병 유형 "대장 선암종, NOS; 대장암, NOS; 대장 점액성 선암종" 등을 포함한다.
도 1g는 짝 분석을 수행하도록 각각 훈련된 다수의 머신 러닝 모델에 의해 생성된 출력을 해석하기 위해 투표 유닛을 사용하여 샘플 기원을 예측하는 시스템의 블록도이다. 시스템(600)은 도 1f의 시스템(300)과 유사하다. 그러나, 짝 분석을 수행하도록 훈련된 단일 머신 러닝 모델(340) 대신, 시스템(600)은 복수의 머신 러닝 모델(340-0, 340-1 ...340-x)을 포함하며, x는 1보다 큰 임의의 0이 아닌 정수이며, 이는 짝 분석을 수행하도록 훈련되었다. 시스템(600)은 투표 유닛(480)을 포함한다. 비제한적인 예로서, 시스템(600)은 특정 바이오마커 세트를 갖는 생체 샘플의 기원 및 관련 속성을 예측하도록 사용될 수 있다. 예를 들어, 실시예 2-3을 참조할 수 있다.
각각의 머신 러닝 모델(370-0, 370-1, 370-x)은 특정 유형의 입력 데이터(320-0, 320-1 ...320-x)를 분류하도록 훈련된 머신 러닝 모델을 포함할 수 있으며, 여기서 x는 1보다 크고 머신 러닝 모델의 수 x와 같은 0이 아닌 정수이다. 일부 구현예에서, 각각의 머신 러닝 모델(340-0, 340-1, 340-x)(도 1g의 라벨링된 PW 비교 모델)은, (i) 샘플 데이터를 나타내는 데이터를 포함하는 입력 벡터와 (ii) 알려진 질병 유형, 피험체의 일부분, 또는 둘 모두를 나타내는 데이터를 포함하는 특정 생체 시그니처를 나타내는 또 다른 벡터 사이에 특정 짝 비교를 수행하도록 훈련되거나 그 밖의 다른 방식으로 구성될 수 있다. 따라서 이러한 구현예에서, 분류 동작은 (i) 샘플 데이터를 나타내는 데이터(가령, 샘플 기원, 샘플 유형 등)를 포함하는 입력 데이터 벡터와 (ii) 샘플과 연관된 하나 이상의 바이오마커를 특정 머신 러닝 모델과 연관된 생체 시그니처와 충분히 유사한 것 또는 특정 머신 러닝 모델과 연관된 생체 시그니처와 충분히 유사하지 않은 것으로 분류하는 동작을 포함할 수 있다. 일부 구현예에서, 입력 벡터와 생체 시그니처 간 유사함이 지정 임계값을 충족하는 경우 입력 벡터는 생체 시그니처와 충분히 유사할 수 있다.
일부 구현예에서, 각각의 머신 러닝 모델(340-0, 340-1, 340-x)은 동일한 유형일 수 있다. 예를 들어, 각각의 머신 러닝 모델(340-0, 340-1, 340-x)은 가령, 상이한 파라미터를 이용해 훈련된 랜덤 포레스트 분류 알고리즘일 수 있다. 다른 구현예에서, 머신 러닝 모델(340-0, 340-1, 340-x)은 다른 유형일 수 있다. 예를 들어, 하나 이상의 랜덤 포레스트 분류기, 하나 이상의 신경망, 하나 이상의 K- 최근접 이웃 분류기, 그 밖의 다른 유형의 머신 러닝 모델 또는 이들의 조합이 있을 수 있다.
샘플 데이터를 나타내는 입력 데이터(가령, 420) 및 샘플과 연관된 하나 이상의 바이오마커는 애플리케이션 서버(240)에 의해 획득될 수 있다. 샘플 데이터는 본 명세서에 기재된 샘플 유형, 샘플 기원 등을 포함할 수 있다. 일부 구현예에서, 입력 데이터(420)는 하나 이상의 분산 컴퓨터(310, 405)로부터 네트워크(230)를 통해 획득된다. 예를 들어, 입력 데이터 항목(420) 중 하나 이상은 다수의 상이한 데이터 소스(210, 405)로부터의 데이터를 상관시킴으로써 생성될 수 있다. 이러한 구현에서, (i) 생체 샘플에 대한 바이오마커를 설명하는 제1 데이터는 제1 분산 컴퓨터(310)로부터 획득될 수 있고 (ii) 생체 샘플 및 관련 치료를 설명하는 제2 데이터가 제2 컴퓨터(405)로부터 획득될 수 있다. 애플리케이션 서버(240)는 제1 데이터와 제2 데이터를 상관시켜 입력 데이타 구조, 가령, 입력 데이터 구조(420)를 생성할 수 있다. 이 프로세스는 도 1c에서 더 자세히 설명된다. 입력 데이터(420)는 벡터 생성 유닛(250)으로 제공될 수 있다. 벡터 생성 유닛(250)은 각각의 입력 데이터(420)에 대응하는 입력 벡터(360-0, 360-1, 360-x)를 생성할 수 있다. 일부 구현예는 벡터(360-0, 360-1, 360-x)를 직렬로 생성할 수 있지만, 본 개시는 이에 제한될 필요는 없다.
일부 구현예에서, 각각의 입력 데이터 구조(320-0, 320-1, 320-x)는 생체 샘플의 바이오마커를 나타내는 데이터, 생체 샘플 및 관련 데이터를 설명하는 데이터(가령, 샘플 유형, 샘플과 연관된 질병 또는 장애 및/또는 샘플이 유래된 환자 특성), 또는 임의의 이들의 조합을 포함할 수 있다. 생체 샘플의 바이오마커를 나타내는 데이터에는 유전자 또는 특정 하위 집합 또는 유전자 패널을 설명하는 데이터가 포함될 수 있다. 대안으로, 일부 구현예에서, 생체 샘플의 바이오마커를 나타내는 데이터는, 가령, 전체 엑솜 시퀀싱 및/또는 전체 전사체 시퀀싱을 통한, 알려진 유전자 또는 유전자 산물의 완전한 세트를 나타내는 데이터를 포함할 수 있다. 알려진 유전자의 완전한 세트는 생체 샘플이 유래되는 피험체의 모든 유전자를 포함할 수 있다. 일부 구현예에서, 각각의 머신 러닝 모델(340-0, 340-1, 340-x)이 동일한 유형의 머신 러닝 모델, 가령, 입력 데이터 벡터를 머신 러닝 모델에 의해 처리되는 벡터에 의해 연관된 샘플 기원(가령, 조직 또는 기관)에 대응하는 것으로 분류하도록 훈련된 랜덤 포레스트 모델이다. 이러한 구현예에서, 각각의 머신 러닝 모델(340-0, 340-1, 340-x)은 동일한 유형의 머신 러닝 모델이지만, 각각의 머신 러닝 모델(340-0, 340-1, 340-x)은 다양한 방법으로 훈련될 수 있다. 머신 러닝 모델(340-0, 340-1, 340-x)은 각각 입력 벡터(360-0, 360-1, 360-x)와 연관된 생체 샘플이 입력 벡터(360-0, 360-1, 360-x)와 연관된 해부학적 기원으로부터 유래됐을 가능성이 높은지 여부를 각각 나타내는 출력 데이터(372-0, 372-1, 372-x)를 생성할 수 있다. 이 예에서, 입력 데이터 세트 및 이들의 해당 입력 벡터는 동일한데, 예를 들어 각각의 입력 데이터 세트는 동일한 바이오마커, 동일한 샘플 유형, 동일한 기원, 또는 임의의 조합을 가진다. 그럼에도, 도 1g에 도시된 바와 같이 각각의 머신 러닝 모델(340-0, 340-1, 340-x)을 훈련하는 데 사용되는 상이한 훈련 방법이, 각각의 머신 러닝 모델(370-0, 370-1, 370-x)이 입력 벡터(360-0, 361-1, 361-x)를 처리하는 것에 기초하여, 상이한 출력(372-0, 372-1, 372-x)을 생성할 수 있는 것이 고려된다.
대안으로, 각각의 머신 러닝 모델(340-0, 340-1, 340-x)은 입력 데이터를 생체 샘플의 가장 가능성 높은 기원으로 분류하도록 훈련된 또는 그 밖의 다른 방식으로 구성된 상이한 유형의 머신 러닝 모델일 수 있다. 예를 들어, 제1 머신 러닝 모델(340-1)은 신경망을 포함할 수 있고, 머신 러닝 모델(340-1)은 랜덤 포레스트 분류 알고리즘을 포함할 수 있으며, 머신 러닝 모델(340-x)은 K-최근접 이웃 알고리즘을 포함할 수 있다. 이 예에서, 이러한 각기 다른 유형의 머신 러닝 모델(340-0, 340-1, 340-x)은 입력 벡터를 수신 및 처리하고 입력 벡터가 상기 입력 벡터와 또한 연관된 샘플 기원과 연관되는지 여부를 결정하도록 훈련되거나 그 밖의 다른 방식으로 구성될 수 있다. 이 예에서, 입력 데이터 세트 및 이들의 해당 입력 벡터는 동일한데, 예를 들어 각각의 입력 데이터 세트는 동일한 바이오마커, 동일한 샘플 유형, 동일한 기원, 또는 임의의 조합을 가진다. 따라서, 머신 러닝 모델(340-0)은 입력 벡터(360-0)를 처리하고 입력 벡터(360-0)와 연관된 생체가 입력 벡터(360-0)와 연관된 기원으로부터 온 것일 가능성이 높은지 여부를 가리키는 출력 데이터(372-0)를 생성하도록 훈련된 신경망일 수 있다. 또한, 머신 러닝 모델(340-1)은 입력 벡터(360-0)와 동일한 목적으로 입력 벡터(360-1)를 처리하고, 입력 벡터(360-1)와 연관된 생체 샘플이 상기 입력 벡터(360-1)와 또한 연관된 기원으로부터 온 가능성이 높은지 여부를 가리키는 출력 데이터(372-1)를 생성하도록 훈련된 랜덤 포레스트 분류 알고리즘일 수 있다. 이 입력 벡터 분석 방법은 x개의 입력, x개의 입력 벡터 및 x개의 머신 러닝 모델 각각에 대해 계속할 수 있다. 이 예시는 도 1g를 참조하여 계속되며, 머신 러닝 모델(340-x)는 입력 벡터(360-0 및 360-1)와 동일한 목적으로 입력 벡터(360-x)를 처리하고, 입력 벡터(360-x)와 연관된 피험체가 상기 입력 벡터(360-x)와 또한 연관된 치료에 반응할 가능성이 높은지 또는 반응하지 않을 가능성이 높은지 여부를 나타내는 출력 데이터(372-x)를 생성하도록 훈련된 랜덤 포레스트 분류 알고리즘일 수 있다.
대안으로, 각각의 머신 러닝 모델(340-0, 340-1, 340-x)은 동일한 유형의 머신 러닝 모델이거나 각각 상이한 입력을 수신하도록 구성된 다른 유형의 머신 러닝 모델 일 수 있다. 예를 들어, 제1 머신 러닝 모델(340-0)에 대한 입력은 생체 샘플로부터 바이오마커의 제1 부분집합 또는 제1 패널을 나타내는 데이터를 포함한 후 벡터(360-0)를 처리하는 머신 러닝 모델(340-0)에 기초하여, 샘플이 다수의 기원으로부터 왔을 가능성이 높은지 여부를 예측하기 위해 벡터(360-6)를 포함할 수 있다. 또한, 이 예에서, 제2 머신 러닝 모델(340-1)로의 입력은 제1 유전자 부분집합 또는 패널과 상이한 생체 샘플로부터의 바이오마커의 제2 부분집합 또는 제2 패널을 나타내는 데이터를 포함하는 벡터(360-1)를 포함할 수 있다. 그런 다음, 제2 머신 러닝 모델은 입력 벡터(360-1)와 연관된 샘플이 입력 벡터(360-2)와 연관된 기원으로부터 온 것일 능성이 높은지 여부를 나타내는 제2 출력 데이터(372-1)를 생성할 수 있다. 이 입력 벡터 분석 방법은 x개의 입력, x개의 입력 벡터 및 x개의 머신 러닝 모델 각각에 대해 계속할 수 있다. 제x 머신 러닝 모델(340-x)에 대한 입력은 다른 x-1개의 입력 데이터 벡터(340-0 내지 340-x-1) 중 (i) 적어도 하나,(i) 둘 이상, 또는 (iii) 모두 각각과 상이한 피험체의 바이오마커의 제x 부분집합 또는 제x 패널을 나타내는 데이터를 포함하는 벡터(360-x)를 포함할 수 있다. 일부 구현예에서, x개의 입력 데이터 벡터 중 적어도 하나는샘플로부터의 바이오마커의 완전한 세트를 나타내는 데이터, 가령, 차세대 시퀀싱 데이터를 포함할 수 있다. 그런 다음, 제x 머신 러닝 모델(340-x)은 입력 벡터(360-x)와 연관된 샘플이 입력 벡터(360-x)와 연관된 기원을 가질 가능성이 높은지 여부를 나타내는 제2 출력 데이터(372-x)를 생성할 수 있다.
앞서 기재된 시스템(400)의 다중 구현예는 제한하려는 의도가 아니며, 오히려 본 개시 내용을 이용하여 채용될 수 있는 다수의 머신 러닝 모델(340-0, 340-1, 340-x) 및 이들 각자의 입력의 구성의 예시에 불과하다. 이들 예를 참조하면, 피험체는 임의의 인간, 비-인간 동물, 식물 또는 그 밖의 다른 피험체일 수 있다. 앞서 언급한 바와 같이, 입력 데이터를 기반으로 입력 특징 벡터가 생성될 수 있으며 입력 데이터를 나타낼 수 있다. 따라서, 각각의 입력 벡터는 하나 이상의 바이오마커, 질병 또는 장애, 샘플 유형, 기원, 환자 데이터, 바이오마커를 갖는 샘플의 기원을 포함하는 데이터를 나타낼 수 있다.
도 1g의 구현예에서, 출력 데이터(372-0, 372-1, 372-x)는 투표 유닛(480)을 사용하여 분석될 수 있다. 예를 들어, 출력 데이터(372-0, 372-1, 372-x)는 투표 유닛(480)으로 입력될 수 있다. 일부 구현예에서, 출력 데이터(372-0, 372-1, 372-x)는 머신 러닝 모델에 의해 처리된 입력 벡터와 연관된 생체 샘플이 머신 러닝 모델에 의해 처리된 벡터와 연관된 특정 기원을 가질 가능성이 높은지 여부를 나타내는 데이터일 수 있다. 샘플이 입력 벡터와 연관되는지 여부를 나타내고 각각의 머신 러닝 모델에 의해 생성된 데이터가 "0" 또는 "1"을 포함할 수 있다. 입력 벡터(360-0)의 머신 러닝 모델(340-0)의 처리에 기초하여 러닝 모델(340-0)에 의해 생성된 "0"은 입력 벡터(360-6)와 연관된 샘플이 입력 벡터(360-0)와 연관된 기원을 가질 가능성이 높지 않음을 가리킬 수 있다. 마찬가지로, 입력 벡터(360-0)의 머신 러닝 모델(370-0)의 처리에 기초하여 머신 러닝 모델(360-0)에 의해 생성된 "1"은 입력 벡터(360-6)와 연관된 샘플이 입력 벡터(360-0)와 연관된 기원을 가질 가능성이 높음을 가리킬 수 있다. 이 예에서는 가능성 낮음으로 "0"을, 가능성 높음으로 "1"을 사용하지만, 본 개시는 이에 제한되지 않는다. 대신, 임의의 값이 출력 분류를 나타내기 위해 출력 데이터로서 생성될 수 있다. 예를 들어, 일부 구현예에서, "1"은 "가능성 낮음" 분류를 나타내고 "0"은 "가능성 높음" 분류을 나타내도록 사용될 수 있다. 또 다른 구현에서, 출력 데이터(372-0, 372-1, 372-x)는 머신 러닝 모델에 의해 처리된 입력 벡터와 연관된 샘플이 주어진 기원(가령, 주어진 기관)과 연관될 가능성을 가리키는 확률을 포함할 수 있다. 이러한 구현에서, 예를 들어, 생성된 확률은 임계값에 적용될 수 있고, 임계값이 충족되는 경우, 머신 러닝 모델에 의해 처리된 입력 벡터와 연관된 피험체가 기원을 가질 가능성이 높다고 결정될 수 있다.
일부 구현예에서, 머신 러닝 모델은 샘플이, 샘플이 특정 기원에서 왔을 가능성이 높은지 또는 낮은지를 가리키는 대신, 또는 이에 추가로, 다른 기원에 비교해서 한 기원에서 왔을 가능성이 더 높은지 여부에 대한 지시자를 출력한다. 예를 들어, 머신 러닝 모델은 샘플이 전립선 기원(즉, 전립선으로부터 옴)을 가징 가능성이 높거나 낮음을 가리킬 수 있거나, 머신 러닝 모듈이 샘플이 전립선으로부터 유래됐을 가능성이 가능 높은지 또는 대장으로부터 유래됐을 가능성이 가능 높은지를 가리킬 수 있다. 이러한 임의의 기원들이 그렇게 비교될 수 있다.
투표 유닛(480)은 수신된 출력 데이터(370-0, 372-1, 372-x)를 평가하고 처리된 입력 벡터(360-0, 360-1, 360-x)와 연관된 샘플이 처리된 입력 벡터(360-0, 360-1, 360-x)와 연관된 기원을 가질 가능성이 높은지 여부를 결정할 수 있다. 투표 유닛(480)은 수신된 출력 데이터(370-0, 372-1, 372-x)의 세트에 기초하여, 입력 벡터(360-0, 360-1, 360-x)와 연관된 샘플이 입력 벡터(360-0, 360-2, 360-x)와 연관된 기원을 가질 가능성이 높은지 여부를 결정할 수 있다. 일부 구현예에서, 투표 유닛(480)은 "다수결 규칙"을 적용할 수 있다. 다수결 규칙을 적용하면, 투표 유닛(480)은 샘플이 기원으로부터 온 것임을 가리키는 출력(372-0, 372-1, 및 372-x)을 집계하여 샘플이 이 기원으로부터 온 것이 아님을 가리키는 출력(372-0, 372-1, 372-x)을 집계할 수 있다. 그런 다음, 다수결 예측 또는 투표를 갖는 분류 - 가령, 기원 A으로부터 옴 또는 기원 A으로부터 오지 않음, 또는 기원 A로부터 옴 그리고 기원 B로부터 오지 않음, 등 - 는 입력 벡터(360-0, 360-1, 360-x)와 연관된 피험체에 대한 적절한 분류로서 선택된다. 예를 들어, 다수결은 샘플이 기원 A로부터 오거나 기원 A로부터 오지 않음을 결정하거나 다수결이 샘플이 기원 A로부터 오거나 기원 B로부터 옴을 결정할 수 있다.
일부 구현예에서, 투표 유닛(480)은 보다 미묘한 분석을 완료할 수 있다. 예를 들어, 일부 구현예에서, 투표 유닛(480)은 각각의 머신 러닝 모델(340-0, 340-1, 340-x)에 대한 신뢰도 점수를 저장할 수 있다. 각각의 머신 러닝 모델(340-0, 340-1, 340-x)에 대한 이 신뢰도 점수는 초기에 0, 1 등과 같은 기본값으로 설정될 수 있다. 그런 다음, 입력 벡터 처리의 각각의 라운드에서 투표 유닛(480) 또는 애플리케이션 서버(240)의 다른 모듈은 이전 반복 구간 동안 머신 러닝 모델이 투표 유닛(480)에 의해 선택된 샘플 분류를 정확히 예측했는지 여부에 기초하여, 머신 러닝 모델(340-0, 340-1, 340-x)에 대한 신뢰도 점수를 조정할 수 있다. 따라서, 각각의 머신 러닝 모델에 대해, 저장된 신뢰도 점수는 각각의 머신 러닝 모델에 대한 과거 정확도의 표시를 제공할 수 있다.
보다 미묘한 접근 방식에서, 투표 유닛(480)은 머신 러닝 모델에 대해 계산된 신뢰도 점수를 기반으로 각각의 머신 러닝 모델(340-0, 340-1, 340-x)에 의해 생성된 출력 데이터(372-0, 372-0, 372-x)를 조정할 수 있다. 따라서, 머신 러닝 모드가 역사적으로 정확함을 나타내는 신뢰도 점수가 사용되어 머신 러닝 모델에 의해 생성된 출력 데이터의 값을 높일 수 있다. 마찬가지로, 머신 러닝 모델이 역사적으로 부정확하다는 것을 나타내는 신뢰도 점수가 사용되어 머신 러닝 모델에 의해 생성된 출력 데이터의 값을 줄일 수 있다. 머신 러닝 모델에 의해 생성된 출력 데이터 값의 이러한 증가 또는 감소는 예를 들어 신뢰도 점수를 감소에 대해 1 미만, 증가에 대해 1 초과의 승수로 사용함으로써 달성될 수 있다. 출력 데이터의 값을 줄이기 위해 출력 데이터의 값에서 신뢰도 점수를 빼거나 값을 높이기 위해 출력 데이터의 값에 신뢰 점수를 더하는 등 출력 데이터의 값을 조정하는 데 다른 작업을 사용할 수도 있다. 머신 러닝 모델에 의해 생성된 출력 데이터의 값을 높이거나 낮추기 위해 신뢰도 점수를 사용하는 것은 샘플이 기원으로부터 왔는지 여부, 또는 두 개의 가능한 기원으로 왔는지 여부를 결정하기 위해 하나 이상의 임계값에 적용될 확률을 출력하도록 구성될 때 특히 유용하다. 이는 신뢰도 점수를 사용하여 머신 러닝 모델의 출력을 조정하는 것이 사용되어 분류 임계값 초과 또는 미만으로 생성된 출력 값을 이동시켜, 과거 정확도에 기초하여 머신 러닝 모델에 의해 예측을 변경할 수 있다.
복수의 머신 러닝 모델 간 합의가 단일 머신 러닝 모델만의 출력 대신 평가될 수 있기 때문에, 이 복수의 머신 러닝 모델의 출력을 평가하기 위해 투표 유닛(480)을 사용하면 특정 피험체 바이오마커 세트에 대한 샘플의 기원의 예측의 정확도를 더 높일 수 있다.
도 1h는 도 1b, 1c, 1g, 1f, 및 1g의 시스템을 구현하는 데 사용될 수 있는 시스템 구성요소의 블록도이다.
컴퓨팅 장치(600)는 디지털 컴퓨터, 가령, 랩톱, 데스크탑, 워크스테이션, 개인용 디지털 어시스턴트, 서버, 블레이드 서버, 메인프레임 및 그 밖의 다른 적절한 컴퓨터의 다양한 형태를 나타내도록 의도된다. 컴퓨팅 장치(650)는 다양한 형태의 모바일 장치, 가령, 개인 디지털 어시스턴트, 셀룰러 전화기, 스마트폰, 및 그 밖의 다른 유사한 컴퓨팅 장치를 나타내도록 의도된다. 또한, 컴퓨팅 장치(600 또는 650)는 범용 직렬 버스(USB) 플래시 드라이브를 포함할 수 있다. USB 플래시 드라이브는 운영 체제 및 기타 응용 프로그램을 저장할 수 있다. USB 플래시 드라이브는 다른 컴퓨팅 장치의 USB 포트에 삽입될 수 있는 무선 송신기 또는 USB 커넥터와 같은 입력/출력 구성요소가 포함될 수 있다. 여기에 표시된 구성요소, 이들의 연결 및 관계 및 기능은 예시일 뿐이며 이 문서에서 설명 및/또는 청구된 발명의 구현을 제한하려는 것이 아니다.
컴퓨팅 장치(600)는 프로세서(602), 메모리(604), 저장 장치(608), 메모리(604)에 연결된 고속 인터페이스(608) 및 고속 확장 포트(610), 및 저속 버스(614) 및 저장 장치(608)를 연결하는 저속 인터페이스(612)를 포함한다. 각각의 구성요소(602, 604, 608, 608, 610 및 612)는 다양한 버스를 사용하여 상호연결되며, 공통 마더 보드에 또는 적절한 다른 방식으로 장착될 수 있다. 프로세서(602)는 컴퓨팅 장치(600) 내에서 실행될 명령, 가령, 메모리(604) 내에 또는 저장 장치(608) 상에 저장된 명령을 처리하여, 외부 입/출력 장치 상의 GUI, 가령, 고속 인터페이스(608)에 연결된 디스플레이(616)에 대한 그래픽 정보를 디스플레이할 수 있다. 다른 구현에서, 다중 프로세서 및/또는 다중 버스가 다중 메모리 및 메모리 유형과 함께 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 장치(600)는 예를 들어 서버 뱅크, 블레이드 서버 그룹, 또는 다중 프로세서 시스템과 같이 필요한 동작의 일부를 제공하는 각 장치와 연결될 수 있다.
메모리(604)는 컴퓨팅 장치(600) 내에 정보를 저장한다. 하나의 구현예에서, 메모리(604)는 휘발성 메모리 유닛 또는 유닛들이다. 다른 구현예에서, 메모리(604)는 비 휘발성 메모리 유닛(들)이다. 메모리(604)는 또한 자기 또는 광학 디스크와 같은 다른 형태의 컴퓨터 판독 가능 매체 일 수 있다.
저장 장치(608)는 컴퓨팅 장치(600)에 대용량 저장 장치를 제공할 수 있다. 하나의 구현예에서, 저장 장치(608)는 컴퓨터 판독형 매체, 가령, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 또는 테이프 장치, 플래시 메모리 또는 그 밖의 다른 유사한 솔리드 상태 메모리 장치, 또는 장치의 어레이, 가령, 저장 영역 네트워크 또는 그 밖의 다른 구성의 장치이거나 이를 포함할 수 있다. 컴퓨터 프로그램 프로덕트는 정보 매체에 유형적으로(tangibly) 구현될 수 있다. 컴퓨터 프로그램 프로덕트는 실행될 때 위에서 설명한 것과 같은 하나 이상의 방법을 수행하는 명령을 포함할 수도 있다. 정보 캐리어는 컴퓨터 또는 기계 판독형 매체, 가령, 메모리(604), 저장 장치(608) 또는 프로세서(602)이다.
고속 제어기(608)는 컴퓨팅 장치(600)에 대한 대역폭-집약적 동작을 관리하는 반면, 저속 제어기(612)는 낮은 대역폭 집약적 동작을 관리한다. 이러한 기능 할당은 예시에 불과하다. 하나의 구현예에서, 고속 제어기(608)는 예를 들어 그래픽 프로세서 또는 가속기를 통해 메모리(604), 디스플레이(616) 및 다양한 확장 카드(도시되지 않음)를 수용 할 수 있는 고속 확장 포트(610)에 결합된다. 구현예에서, 저속 제어기(612)는 저장 장치(608) 및 저속 확장 포트(614)에 결합된다. 다양한 통신 포트를 포함할 수 있는 저속 확장 포트, 가령, USB, 블루투스, 이더넷, 무선 이더넷이 하나 이상의 입/출력 장치, 가령, 키보드, 포인팅 장치, 마이크로폰/스피커 쌍, 스캐너, 또는 네트워킹 장치, 가령, 스위치 또는 라우터에, 가령, 네트워크 어댑터를 통해 연결될 수 있다. 컴퓨팅 장치(600)는 도면에 도시된 바와 같이 여러 다른 형태로 구현될 수 있다. 예를 들어, 표준 서버(620)로 구현되거나 이러한 서버 그룹에서 여러 번 구현될 수 있다. 이는 또한 랙 서버 시스템(624)의 일부로서 구현될 수 있다. 또한, 랩톱 컴퓨터(622)와 같은 개인용 컴퓨터에서 구현될 수 있다. 대안으로, 컴퓨팅 장치(600)로부터의 구성요소는 모바일 장치(도시되지 않음), 가령, 장치(650) 내 다른 구성요소와 결합될 수 있다. 이러한 장치 각각은 컴퓨팅 장치(600, 650) 중 하나 이상을 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 장치(600, 650)로 구성될 수 있다.
컴퓨팅 장치(600)는 도면에 도시된 바와 같이 여러 다른 형태로 구현될 수 있다. 예를 들어, 표준 서버(620)로 구현되거나 이러한 서버 그룹에서 여러 번 구현될 수 있다. 이는 또한 랙 서버 시스템(624)의 일부로서 구현될 수 있다. 또한, 랩톱 컴퓨터(622)와 같은 개인용 컴퓨터에서 구현될 수 있다. 대안으로, 컴퓨팅 장치(600)로부터의 구성요소는 모바일 장치(도시되지 않음), 가령, 장치(650) 내 다른 구성요소와 결합될 수 있다. 이러한 장치 각각은 컴퓨팅 장치(600, 650) 중 하나 이상을 포함할 수 있고, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 장치(600, 650)로 구성될 수 있다.
컴퓨팅 장치(650)는 프로세서(652), 메모리(664) 및 입/출력 장치, 가령, 디스플레이(654), 통신 인터페이스(666), 및 트랜시버(668) 등을 포함한다. 장치(650)는 또한 추가 저장을 제공하기 위해 마이크로-드라이브 또는 그 밖의 다른 장치와 같은 저장 장치와 함께 제공 될 수 있다. 각각의 구성요소(650, 652, 664, 654, 666 및 668)는 다양한 버스를 사용하여 상호 연결되며, 여러 구성요소는 공통 마더 보드에 또는 적절한 다른 방식으로 장착될 수 있다.
프로세서(652)는 메모리(664)에 저장된 명령어를 포함하여 컴퓨팅 장치(650) 내에서 명령어를 실행할 수 있다. 프로세서는 분리된 다중 아날로그 및 디지털 프로세서를 포함하는 칩의 칩셋으로서 구현 될 수 있다. 또한, 프로세서는 다수의 아키텍처를 사용하여 구현될 수 있다. 예를 들어, 프로세서(610)는 CISC(Complex Instruction Set Computers) 프로세서, RISC(Reduced Instruction Set Computer) 프로세서 또는 MISC(Minimal Instruction Set Computer) 프로세서일 수 있다. 프로세서는 예를 들어, 사용자 인터페이스의 제어, 장치(650)에 의해 실행되는 애플리케이션 및 장치(650)에 의한 무선 통신과 같은 장치(650)의 다른 구성요소의 조정을 제공할 수 있다.
프로세서(652)는 디스플레이(654)에 결합된 제어 인터페이스(658) 및 디스플레이 인터페이스(656)를 통해 사용자와 통신할 수 있다. 디스플레이(654)는 예를 들어 TFT(Thin-Film-Transistor Liquid Crystal Display) 디스플레이 또는 OLED(Organic Light Emitting Diode), 또는 그 밖의 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(656)는 그래픽 및 기타 정보를 사용자에게 제공하기 위해 디스플레이(654)를 구동하기 위한 적절한 회로를 포함할 수 있다. 제어 인터페이스(658)는 사용자로부터 명령을 수신하고 이를 프로세서(652)에 제출하기 위해 변환할 수 있다. 또한, 외부 인터페이스(662)는 프로세서(652)와 통신하여 제공될 수 있어서, 다른 장치와 장치(650)의 근거리 통신을 가능하게 한다. 외부 인터페이스(662)는 예를 들어 일부 구현예에서 유선 통신을 위해, 또는 다른 구현에서 무선 통신을 위해 제공할 수 있으며, 다중 인터페이스가 또한 사용될 수 있다.
메모리(664)는 컴퓨팅 장치(650) 내에 정보를 저장한다. 메모리(664)는 컴퓨터 판독 가능 매체 또는 매체, 휘발성 메모리 유닛(들) 또는 비 휘발성 메모리 유닛(들) 중 하나 이상으로서 구현될 수 있다. 확장 메모리(674)는 또한 예를 들어 SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있는 확장 인터페이스(672)를 통해 장치(650)에 제공되고 연결될 수 있다. 이러한 확장 메모리(674)는 장치(650)에 대한 추가 저장 공간을 제공할 수 있거나, 또한 장치(650)에 대한 애플리케이션 또는 기타 정보를 저장할 수 있다. 구체적으로, 확장 메모리(674)는 위에서 설명된 프로세스를 수행하거나 보충하기 위한 명령을 포함할 수 있고 보안 정보도 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(674)는 장치(650)에 대한 보안 모듈로서 제공될 수 있고, 장치(650)의 안전한 사용을 허용하는 명령으로 프로그래밍 될 수 있다. 또한, 보안 애플리케이션은 추가 정보와 함께 SIMM 카드를 통해 제공될 수 있는데, 가령, 해킹 불가능한 방식으로 SIMM 상에 식별 정보를 위치시킬 수 있다.
메모리는 예를 들어 아래에서 논의되는 바와 같이 플래시 메모리 및/또는 NVRAM 메모리를 포함할 수 있다. 하나의 구현예에서, 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로 구현된다. 컴퓨터 프로그램 프로덕트는 실행될 때 위에서 설명한 것과 같은 하나 이상의 방법을 수행하는 명령을 포함할 수도 있다. 정보 캐리어는 컴퓨터 또는 기계 판독형 매체, 가령, 트랜시버(668) 또는 외부 인터페이스(662)를 통해 수신될 수 있는 메모리(664), 확장 메모리(674) 또는 프로세서 상 메모리(652)이다.
장치(650)는 필요한 경우 디지털 신호 처리 회로를 포함할 수 있는 통신 인터페이스(666)를 통해 무선으로 통신 할 수 있다. 통신 인터페이스(666)는 다양한 모드 또는 프로토콜, 가령, GSM 음성 호출, SMS, EMS 또는 MMS 메시징, CDMA, TDMA, PDC, WCDMA, CDMA2000 또는 GPRS 등에 따르는 통신을 제공할 수 있다. 그러한 통신은 예를 들어 무선-주파수 트랜시버(668)를 통해 발생할 수 있다. 또한, 단거리 통신, 가령, 블루투스, Wi-Fi 또는 그 밖의 다른 그러한 트랜시버(도시되지 않음)가 발생할 수 있다. 또한, GPS(Global Positioning System) 수신기 모듈(670)은 장치(650)에서 실행되는 애플리케이션에 의해 적절하게 사용될 수 있는 추가적인 내비게이션 및 위치 관련 무선 데이터를 장치(650)에 제공할 수 있다.
장치(650)는 또한 사용자로부터 음성 정보를 수신하고 이를 사용 가능한 디지털 정보로 변환할 수 있는 오디오 코덱(660)을 사용하여 청각적으로 통신할 수 있다. 오디오 코덱(660)은 마찬가지로 예를 들어 장치(650)의 핸드셋과 같은 스피커를 통해 사용자를위한 가청 사운드를 생성 할 수 있다. 이러한 사운드는 음성 전화 통화로부터의 사운드를 포함할 수 있고, 녹음된 사운드, 예를 들어 음성 메시지, 음악 파일 등을 포함할 수 있으며, 장치(650) 상에서 에서 동작하는 애플리케이션에 의해 생성된 사운드를 포함할 수 있다.
컴퓨팅 장치(650)는 도면에 도시된 바와 같이 여러 다른 형태로 구현될 수 있다. 예를 들어, 이는 셀룰러 전화기(680)로서 구현될 수 있다. 이는 또한 스마트폰(682), 개인 디지털 어시스턴트, 또는 그 밖의 다른 유사한 모바일 장치의 일부로서 구현될 수 있다.
본 명세서에 기재된 시스템 및 방법의 다양한 구현은 디지털 전자 회로, 집적 회로, 특별히 설계된 ASIC(애플리케이션 특정 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이러한 구현의 조합에서 실현 될 수 있다. 이들 다양한 구현예는, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로 데이터 및 명령을 수신하고 송신하도록 연결된 특수 또는 범요일 수 있는 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 실행 및/또는 해석 가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다.
이들 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 프로그램 또는 코드라고도 함)에는 프로그래밍 가능한 프로세서에 대한 기계 명령이 포함되어 있으며 하이-레벨 절차 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계어에서 구현될 수 있다. 본 명세서에서 사용되는 "기계 판독형 매체" "컴퓨터 판독형 매체"라는 용어는 프로그램 가능 프로세서, 가령, 기계 명령을 기계 판독형 신호로서 수신하는 기계 판독형 매체로 기계 명령 및/또는 데이터를 제공하도록 사용된 임의의 컴퓨터 프로그램 프로덕트, 장치 및/또는 디바이스, 예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD)를 의미한다. 용어 "기계 판독형 신호"는 기계 명령 및/또는 데이터를 프로그래밍 가능 프로세서에 제공하는 데 사용되는 모든 신호를 의미한다.
사용자와의 대화를 제공하기 위해 본 명세서에 설명된 시스템 및 기술은 사용자에게 정보를 표시하기 위한 CRT(음극선 관) 또는 LCD(액정 디스플레이) 모니터와 같은 디스플레이 장치 및 키보드 및 포인팅 장치, 예를 들어 사용자가 컴퓨터에 입력을 제공할 수 있는 마우스 또는 트랙볼이 있는 컴퓨터에서 구현 될 수 있다. 사용자와의 대화를 제공하기 위해 다른 종류의 장치를 사용할 수도 있는데, 예를 들어, 사용자에게 제공되는 피드백은 예를 들어 시각적 피드백, 청각 적 피드백 또는 촉각 적 피드백과 같은 모든 형태의 감각 피드백 일 수 있고 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함한 모든 형태로 수신될 수 있다.
본 명세서에 기재된 시스템 및 기법은 백 엔드 구성요소를 가령, 데이터 서버로서 포함하는, 또는 미들웨어 구성요소, 가령, 애플리케이션 서버를 포함하는, 도는 프론트 엔드 구성요소, 가령, 사용자가 본 명세서에 기재된 시스템 및 기법의 구현과 대화할 수 있게 하는 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 클라이언트 컴퓨터를 포함하는, 또는 이러한 백엔드, 미들웨어, 또는 프론트 엔드 구성요소의 임의의 조합을 갖는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 구성요소는 디지털 데이터 통신의 모든 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호 연결될 수 있다. 통신 네트워크의 예로는 근거리 통신망("LAN"), 광역 통신망( "WAN") 및 인터넷이 있다.
컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있으며 일반적으로 통신 네트워크를 통해 대화한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램으로 인해 발생한다.
컴퓨터 시스템
본 방법의 실행은 또한 컴퓨터 관련 소프트웨어 및 시스템을 사용할 수 있다. 본 명세서에 기재된 컴퓨터 소프트웨어 제품은 일반적으로 본 명세서에 기재된 방법의 논리 단계를 수행하기 위한 컴퓨터 실행 가능 명령을 갖는 컴퓨터 판독 가능 매체를 포함한다. 적절한 컴퓨터 판독 가능 매체는 플로피 디스크, CD-ROM/DVD/DVD-ROM, 하드 디스크 드라이브, 플래시 메모리, ROM/RAM, 자기 테이프 등을 포함한다. 컴퓨터 실행 가능 명령은 적절한 컴퓨터 언어 또는 여러 언어의 조합으로 작성될 수 있다. 기본적인 계산 생물학(computational biology) 방법은 예를 들어 Setubal and Meidanis 외, Introduction to Computational Biology Methods (PWS Publishing Company, Boston, 1997); Salzberg, Searles, Kasif, (Ed.), Computational Methods in Molecular Biology, (Elsevier, Amsterdam, 1998); Rashidi and Buehler, Bioinformatics Basics: Application in Biological Science and Medicine (CRC Press, London, 2000) and Ouelette and Bzevanis Bioinformatics: A Practical Guide for Analysis of Gene and Proteins (Wiley & Sons, Inc., 2.sup.nd ed., 2001)에 기재되어 있다. 미국 특허 번호 6,420,108를 참조할 수 있다.
본 방법은 또한 다양한 목적으로, 가령, 프로브 설계, 데이터 관리, 분석, 및 기구 동작을 위해 다양한 컴퓨터 프로그램 프로덕트 및 소프트웨어를 사용할 수 있다. 미국 특허 번호 5,593,839, 5,795,716, 5,733,729, 5,974,164, 6,066,454, 6,090,555, 6,185,561, 6,188,783, 6,223,127, 6,229,911 및 6,308,170를 참조할 수 있다.
추가로, 본원 방법은 미국 출원 번호 10/197,621, 10/063,559 (미국 공개 번호 20020183936), 10/065,856, 10/065,868, 10/328,818, 10/328,872, 10/423,403, 및 60/482,389에서 나타난, 네트워크, 가령, 인터넷을 통한 유전 정보를 제공하기 위한 방법을 포함하는 실시예와 관련된다. 예를 들어, 하나 이상의 분자 프로파일링 기술이 하나의 장소, 예를 들어 도시, 주, 국가 또는 대륙에서 수행될 수 있으며 결과는 다른 도시, 주, 국가 또는 대륙으로 전송될 수 있다. 그런 다음, 두 번째 장소에서 전체적으로 또는 부분적으로 치료 선택이 이뤄질 수 있다. 본 명세서에 기재된 방법은 상이한 위치들 간 정보의 전송을 포함한다.
종래의 데이터 네트워킹, 애플리케이션 개발 및 시스템의 다른 기능적 측면(및 시스템의 개별 운영 구성요소의 구성요소)은 본 명세서에서 상세히 기재되지 않을 수 있지만, 본 명세서에 기재된 것의 일부이다. 또한, 본 명세서에 포함된 다양한 도면에서 나타난 연결 선은 다양한 요소 사이의 예시적인 기능적 관계 및/또는 물리적 결합을 나타내기 위한 것이다. 실제 시스템에는 많은 대체 또는 추가 기능적 관계 또는 물리적 연결이 존재할 수 있다는 점에 유의해야 한다.
본 명세서에서 논의되는 다양한 시스템 구성요소는 다음 중 하나 이상을 포함할 수 있다: 디지털 데이터를 처리하기 위한 프로세서를 포함하는 호스트 서버 또는 그 밖의 다른 컴퓨팅 시스템; 디지털 데이터를 저장하기 위해 프로세서에 연결된 메모리; 디지털 데이터를 입력하기 위해 프로세서에 연결된 입력 디지타이저; 프로세서에 의한 디지털 데이터의 처리를 지시하기 위해 메모리에 저장되고 프로세서에 의해 액세스 가능한 애플리케이션 프로그램; 프로세서에 의해 처리된 디지털 데이터로부터 얻어진 정보를 디스플레이하기 위해 프로세서 및 메모리에 연결된 디스플레이 장치; 및 복수의 데이터베이스. 본 명세서에 사용되는 다양한 데이터베이스는 다음을 포함할 수 있다: 환자 데이터, 가령, 가족 내력, 인구통계적 및 환경적 데이터, 생체 샘플 데이터, 이전 치료 및 프로토콜 데이터, 환자 임상 데이터, 생체 샘플의 분자 프로파일링 데이터, 치료 약물제 및/또는 조사 약물에 대한 데이터, 유전자 라이브러리, 질병 라이브러리, 약물 라이브러리, 환자 추적 데이터, 파일 관리 데이터, 금융 관리 데이터, 청구 데이터 및/또는 시스템 운영에 유용한 그 밖의 다른 데이터. 해당 분야의 통상의 기술자라면 알다시피, 사용자 컴퓨터는 운영 체제(가령, Windows NT, 95/98/2000, OS2, UNIX, Linux, Solaris, MacOS 등)뿐만 아니라 일반적으로 컴퓨터와 연관된 다양한 기존 지원 소프트웨어 및 드라이버를 포함할 수 있다. 컴퓨터는 임의의 적합한 개인용 컴퓨터, 네트워크 컴퓨터, 워크스테이션, 미니컴퓨터, 메인프레임 등을 포함할 수 있다. 사용자 컴퓨터는 네트워크에 액세스할 수 있는 가정 또는 의료/비즈니스 환경에 있을 수 있다. 예시적인 구체예에서, 액세스는 상업적으로 이용 가능한 웹-브라우저 소프트웨어 패키지를 통해 네트워크 또는 인터넷을 통해 이루어진다.
본 명세서에서 사용될 때 "네트워크"라는 용어는 하드웨어 및 소프트웨어 구성요소를 모두 포함하는 전자 통신 수단을 포함한다. 당사자들 간의 통신은 임의의 적절한 통신 채널, 가령, 전화 네트워크, 엑스트라넷, 인트라넷, 인터넷, 상호 작용 지점 장치, 개인용 디지털 어시스턴트(가령, Palm Pilot®, Blackberry®), 셀룰러 폰, 키오스크 등, 온라인 통신, 위성 통신, 오프라인 통신, 무선 통신, 트랜스폰더 통신, 근거리 통신망(LAN), 광역 통신망(WAN), 네트워크 또는 연결된 장치, 키보드, 마우스 및/또는 임의의 적절한 통신 또는 데이터 입력 양식을 통해 이뤄질 수 있다. 또한, 시스템이 TCP/IP 통신 프로토콜로 구현되는 것으로 본 명세서에서 빈번하게 기재되지만, 시스템은 또한 IPX, Appletalk, IP-6, NetBIOS, OSI 또는 임의의 수의 기존 또는 미래 프로토콜을 사용하여 구현될 수 있다. 네트워크가 공개 네트워크, 가령, 인터넷의 속성을 갖는 경우, 네트워크가 안전하지 않고 도청자에게 열려 있다고 가정하는 것이 바람직할 수 있다. 인터넷과 관련하여 사용되는 프로토콜, 표준 및 애플리케이션 소프트웨어와 관련된 특정 정보는 일반적으로 해당 분야의 통상의 기술자에게 공지되어 있으므로 본 명세서에서 구체적으로 설명될 필요가 없다. 예를 들어, Dilip Naik, Internet Standards and Protocols (1998); Java 2 Complete, various authors, (Sybex 1999); Deborah Ray and Eric Ray, Mastering HTML 4.0 (1997); and Loshin, TCP/IP Clearly Explained (1997) and David Gourley and Brian Totty, HTTP, The Definitive Guide (2002)을 참조할 수 있으며, 이들 내용은 본 명세서에 참조로서 포함된다.
다양한 시스템 구성요소는 예를 들어, 표준 모뎀 통신, 케이블 모뎀, 디쉬 네트워크(Dish network), ISDN, DSL(Digital Subscriber Line), 또는 다양한 무선 통신 방법 - 가령, Gilbert Held, Understanding Data Communications (1996)을 참조할 수 있으며, 이의 내용은 본 명세서에 참조로서 포함됨 - 과 함께 일반적으로 사용될 때, 로컬 루프를 통해 ISP(Internet Service Provider)로의 연결을 포함하는 데이터 링크를 통해 네트워크로 독립적으로, 개별적으로 또는 집합적으로 적절하게 연결될 수 있다. 네트워크는 그 밖의 다른 유형의 네트워크, 가령, 대화형 텔레비전(ITV) 네트워크로서 구현될 수 있다. 또한, 시스템은 본 명세서에 기재된 유사한 기능을 갖는 임의의 네트워크를 통한 임의의 제화, 서비스 또는 정보의 사용, 판매 또는 배포를 고려한다.
본 명세서에서 사용될 때, "전송"은 네트워크 연결을 통해 하나의 시스템 구성요소에서 다른 구성요소로의 전자 데이터 전송을 포함할 수 있다. 추가로, 본 명세서에서 사용될 때 "데이터"는 저장되기 위한 정보, 가령, 커맨드, 질의, 파일, 데이터 등을 디지털 또는 그 밖의 다른 임의의 형태로 포함하는 것을 포함할 수 있다.
이 시스템은 웹 서비스, 유틸리티 컴퓨팅, 퍼베이시브 및 개별화된 컴퓨팅, 보안 및 식별 솔루션, 자율 컴퓨팅, 상품 컴퓨팅, 이동성 및 무선 솔루션, 오픈 소스, 생체 인식, 그리드 컴퓨팅 및/또는 메시 컴퓨팅과 관련된 사용을 고려한다.
본 명세서에서 논의되는 모든 데이터베이스는 관계형, 계층적, 그래픽 또는 객체 지향 구조 및/또는 기타 데이터베이스 구성을 포함할 수 있다. 데이터베이스를 구현하는 데 사용할 수 있는 일반적인 데이터베이스 제품에는 IBM(뉴욕 주, 화이트 플레인)의 DB2, Oracle Corporation(캘리포니아 주, 레드우드 쇼 어스)에서 제공하는 다양한 데이터베이스 제품, Microsoft Corporation(워싱턴 주, 레드몬드)의 Microsoft Access 또는 Microsoft SQL Server, 또는 그 밖의 다른 임의의 적절한 데이터베이스 제품이 포함될 수 있다. 또한, 데이터베이스는 예를 들어 데이터 테이블 또는 룩업 테이블과 같은 임의의 적절한 방식으로 구성될 수 있다. 각각의 레코드는 단일 파일, 일련의 파일, 연결된 일련의 데이터 필드 또는 기타 데이터 구조일 수 있다. 특정 데이터의 연관은 임의의 바람직한 데이터 연관 기법, 가령, 해당 업계에서 공지되어 있거나 사용되는 것을 통해 이뤄질 수 있다. 예를 들어, 연관은 수동 또는 자동으로 수행될 수 있다. 자동 연결 기술에는 예를 들어 데이터베이스 검색, 데이터베이스 병합, GREP, AGREP, SQL, 테이블의 키 필드를 사용하여 검색 속도 향상, 모든 테이블 및 파일을 통한 순차적 검색, 룩업을 단순화하기 위해 알려진 순서에 따라 파일 내 레코드를 정렬하는 것 등이 있을 수 있다. 연관 단계는 예를 들어 사전 선택된 데이터베이스 또는 데이터 섹터에서 "키 필드"를 사용하는 데이터베이스 병합 기능에 의해 수행될 수 있다.
더 구체적으로, "키 필드"는 키 필드에 의해 정의된 객체의 하이-레벨 분류에 따라 데이터베이스를 파티셔닝한다. 예를 들어, 특정 유형의 데이터는 복수의 관련 데이터 테이블에서 키 필드로서 지정될 수 있고, 그 후 데이터 테이블은 키 필드의 데이터 유형에 기초하여 링크될 수 있다. 링크된 데이터 테이블 각각에서의 키 필드에 대응하는 데이터는 바람직하게는 동일하거나 동일한 유형이다. 그러나, 키 필드 내 데이터가 동일하지는 않지만 유사한 데이터를 갖는 데이터 테이블도 예를 들어 AGREP를 사용하여 연결될 수 있다. 하나의 구체예에 따르면, 임의의 적절한 데이터 저장 기술이 표준 포맷 없이 데이터를 저장하는데 사용될 수 있다. 데이터 세트는 임의의 적절한 기술, 가령, ISO/IEC 7816-4 파일 구조를 이용해 개별 파일을 저장하는 것, 도메인을 구현하여, 하나 이상의 데이터 세트를 포함하는 하나 이상의 요소 파일을 노출시키는 전용 파일이 선택되게 하는 것, 계층 파일링 시스템을 이용해 개별 파일에 저장된 데이터 세트, (압축, SQL 액세스 가능, 제1 튜플에 의한 해싱된 하나 이상의 키, 숫자, 알파벳 등) 단일 파일 내 레코드로서 저장된 데이터 세트 를 이용하는 것, 바이너리 라지 객체(BLOB), ISO/IEC 7816-6 데이터 요소를 이용해 인코딩된 언그룹화된 데이터 요소로서 저장된 것, ISO/IEC 8824 및 8825에서처럼 ISO/IEC ASN.1(Abstract Syntax Notation)을 이용해 인코딩된 언그룹화된 데이터 요소로서 저장된 것, 및/또는 프랙탈 압축 방법, 이미지 압축 방법 등을 포함할 수 있는 그 밖의 다른 사설 기법을 이용해 저장될 수 있다.
하나의 예시적인 구체예에서, 다양한 포맷으로 다양한 정보를 저장하는 능력은 정보를 BLOB로 저장함으로써 용이하게 된다. 따라서 모든 바이너리 정보는 데이터 세트와 관련된 저장 공간에 저장될 수 있다. BLOB 방법은 고정 스토리지 할당, 순환 큐 기술, 또는 메모리 관리와 관련한 모범 사례(가령, 가장 최근에 사용 된 페이징 메모리 등)를 사용하여 고정 메모리 오프셋을 통해 바이너리 블록으로 포맷된 그룹화되지 않은 데이터 요소로 데이터 세트를 저장할 수 있다. BLOB 방법을 사용함으로써, 상이한 포맷을 가진 다양한 데이터 세트를 저장하는 기능이 데이터 세트의 여러 소유자 및 관련 없는 소유자가 데이터를 쉽게 저장할 수 있게 한다. 예를 들어, 저장될 수 있는 제1 데이터 세트가 제1측에 의해 제공될 수 있고, 저장될 수 있는 제2 데이터 세트가 무관한 제2측에 의해 제공될 수 있으며, 저장될 수 있는 제3 데이터 세트가 제1측 및 제2측과 무관한 제3측에 의해 제공될 수 있다. 이들 3개의 예시적인 데이터 세트 각각은 상이한 데이터 저장 포맷 및/또는 기술을 사용하여 저장되는 상이한 정보를 포함할 수 있다. 또한, 각각의 데이터 세트는 타 서브세트와 구별될 수 있는 데이터 서브세트를 포함할 수 있다.
앞서 서술한 바와 같이, 다양한 실시예에서, 데이터는 공통 포맷에 관계없이 저장될 수 있다. 그러나, 하나의 예시적인 구체예에서, 데이터 세트(예를 들어, BLOB)는 데이터를 조작하기 위해 제공될 때 표준 방식으로 주석 첨가(annotate)될 수 있다. 주석은 다양한 데이터 세트를 관리하는 데 유용한 정보를 전달하도록 구성된 각각의 데이터 세트와 관련된 짧은 헤더, 트레일러 또는 그 밖의 다른 적절한 표시자를 포함할 수 있다. 예를 들어, 주석은 본 명세서에서 "조건 헤더", "헤더", "트레일러"또는 "상태"로 불릴 수 있으며, 데이터 세트의 상태의 표시자를 포함하거나 데이터의 특정 발행인 또는 소유주와 상관된 식별자를 포함할 수 있다. 예를 들어, 데이터의 후속 바이트가 사용되어 데이터의 발행자 또는 소유자의 신원, 사용자, 거래/회원 계정 식별자 등을 나타낼 수 있다. 이들 조건 주석 각각은 본 명세서에서 더 언급된다.
데이터 세트 주석은 그 밖의 다른 유형의 상태 정보 및 다양한 그 밖의 다른 목적으로도 사용될 수 있다. 예를 들어, 데이터 세트 주석은 액세스 레벨을 확립하는 보안 정보를 포함할 수 있다. 예를 들어 액세스 레벨은 특정 개인, 직원, 회사, 또는 그 밖의 다른 개체가 데이터 세트를 액세스할 수 있는 레벨만이 거래, 발행자 또는 데이터 소유자, 사용자 등에 기초하여 특정 데이터 세트로의 액세스를 허용하도록 구성ㄷ횔 수 있다. 또한, 보안 정보는 특정 동작, 가령, 데이터 세트를 액세스, 수정 및/또는 삭제하는 것만 제한/허용할 수 있다. 하나의 예에서, 데이터 세트 주석은 데이터 세트 소유자 또는 사용자만 데이터 세트를 삭제할 수 있고, 식별된 다양한 사용자는 읽을 수 있도록 데이터 세트에 액세스하는 것이 허용될 수 있으며, 그 밖의 다른 사용자는 데이터 세트를 액세스하지 못함을 나타낸다. 그러나, 그 밖의 다른 액세스 제한 파라미터가 또한 사용되어 다양한 개체가 적절하게 다양한 권한 레벨로 데이터 세트를 액세스할 수 있게 할 수 있다. 헤더 또는 트레일러를 포함하는 데이터는 헤더 또는 트레일러에 따라 데이터를 추가, 삭제, 수정 또는 증강시키도록 구성된 독립형 대화형 장치에 의해 수신될 수 있다.
해당 분야의 통상의 기술자는 또한 보안상의 이유로 임의의 데이터베이스, 시스템, 장치, 서버 또는 시스템의 다른 구성요소가 단일 위치 또는 여러 위치에서 이들의 임의의 조합으로 구성될 수 있음을 알 것이며, 각각의 데이터베이스 또는 시스템은 다양한 적절한 보안 기능, 가령, 방화벽, 액세스 코드, 암호화, 복호화, 압축, 압축 해제 등을 포함한다.
웹 클라이언트의 컴퓨팅 유닛은 표준 다이얼-업, 케이블, DSL 또는 해당 분야에 알려진 임의의 다른 인터넷 프로토콜에 연결된 인터넷 브라우저가 구비될 수 있다. 웹 클라이언트에서 시작된 트랜잭션은 다른 네트워크 사용자의 무단 액세스를 방지하기 위해 방화벽을 통과할 수 있다. 또한, 보안을 더욱 강화하기 위해 CMS의 다양한 구성요소들 사이에 추가 방화벽이 배치될 수 있다.
방화벽은 다른 네트워크의 사용자로부터 CMS 구성요소 및/또는 엔터프라이즈 컴퓨팅 자원을 보호하도록 적절하게 구성된 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 또한, 웹 서버를 통해 연결하는 웹 클라이언트에 대한 방화벽 뒤의 다양한 시스템 및 구성요소에 대한 액세스를 제한하도록 방화벽을 구성할 수 있다. 방화벽은 다양한 구성, 가령, 상태 저장 검사, 프록시 기반 및 패킷 필터링 등에서 존재할 수 있다. 방화벽은 웹 서버 또는 그 밖의 다른 임의의 CMS 구성요소에 일체 구성되거나 별도의 개체로 추가될 수 있다.
본 명세서에 기재된 컴퓨터는 사용자에 의해 액세스될 수 있는 적절한 웹사이트 또는 그 밖의 다른 인터넷 기반 그래픽 사용자 인터페이스를 제공할 수 있다. 하나의 실시예에서, Microsoft Internet Information Server(IIS), Microsoft Transaction Server(MTS) 및 Microsoft SQL Server가 Microsoft 운영 체제, Microsoft NT 웹 서버 소프트웨어, Microsoft SQL Server 데이터베이스 시스템 및 Microsoft Commerce Server와 함께 사용된다. 또한, 구성요소, 가령, Access 또는 Microsoft SQL Server, Oracle, Sybase, Informix MySQL, Interbase 등이 ADO(Active Data Object) 호환 데이터베이스 관리 시스템을 제공하는 데 사용될 수 있다.
본 명세서에서 언급된 통신, 입력, 스토리지, 데이터베이스 또는 디스플레이가 웹 페이지가 있는 웹 사이트를 통해 용이화될 수 있다. 본 명세서에서 사용될 때 "웹 페이지"라는 용어는 사용자와 대화하는 데 사용될 수 있는 문서 및 애플리케이션의 유형을 제한하는 것을 의미하지 않는다. 예를 들어, 일반적인 웹사이트는, 표준 HTML 문서 외에도, 다양한 양식, Java 애플릿, JavaScript, ASP(Active Server Page), CGI(Common Gateway Interface Script), XML(Extensible Markup Language), 동적 HTML, CSS(cascading style sheet), 헬퍼 애플리케이션, 플러그-인 등을 포함할 수 있다. 서버는 웹 서버로부터 요청을 수신하는 웹 서비스를 포함할 수 있으며, 요청은 URL(http://yahoo.com/stockquotes/ge) 및 IP 주소(123.56.789.234)를 포함한다. 웹 서버는 적절한 웹 페이지를 불러오고 웹 페이지에 대한 데이터 또는 애플리케이션을 IP 주소로 전송한다. 웹 서비스는 통신 수단, 가령, 인터넷을 통해 타 애플리케이션과 대화할 수 있는 애플리케이션이다. 웹 서비스는 일반적으로 표준 또는 프로토콜, 가령, XML, XSLT, SOAP, WSDL 및 UDDI에 기초한다. 웹 서비스 방법은 해당 분야에서 잘 알려져 있고, 많은 표준 텍스트에서 다루어진다. 예를 들어, 본 명세서에서 참조로서 포함되는 Alex Nghiem, IT Web Services: A Roadmap for the Enterprise (2003)를 참조할 수 있다.
본 방법의 시스템 및 방법에 대한 웹-기반 임상 데이터베이스는 바람직하게는 네이티브 형식으로 임상 데이터 파일을 업로드하고 저장할 수 있는 기능을 가지며 임의의 임상 파라미터에서 검색할 수 있다. 데이터베이스는 또한 확장 가능하며 EAV 데이터 모델(메타데이터)을 사용하여 다른 연구와 쉽게 통합할 수 있도록 임의의 연구로부터 임상 주석을 입력할 수 있다. 또한 웹-기반 임상 데이터베이스는 유연하며 사용자 정의 질문을 동적으로 추가할 수 있도록 XML 및 XSLT를 사용할 수 있다. 또한, 데이터베이스는 CDISC ODM으로의 보내기 기능을 포함한다.
실무자들은 또한 브라우저-기반 문서 내에 데이터를 디스플레이하기 위한 방법이 많음을 알 것이다. 데이터는 표준 텍스트 또는 고정 리스트, 스크롤 가능 리스트, 드롭-다운 리스트, 편집 가능한 텍스트 필드, 고정 텍스트 필드, 팝-업 창 등으로 표현될 수 있다. 마찬가지로, 웹 페이지에서 데이터를 수정하는 데 사용 가능한 다수의 방법, 가령, 키보드를 이용한 자유 텍스트 입력, 메뉴 아이템 선택, 체크 박스, 옵션 박스 등이 존재한다.
시스템 및 방법은 기능 블록 구성요소, 스크린 샷, 선택적 선택 및 다양한 처리 단계와 관련하여 본 명세서에서 기재될 수 있다. 이러한 기능 블록은 특정된 기능을 수행하도록 구성된 임의의 개수의 하드웨어 및/또는 소프트웨어 구성요소에 의해 실현될 수 있음을 이해해야 한다. 예를 들어, 시스템은 하나 이상의 마이크로 프로세서 또는 그 밖의 다른 제어 장치의 제어 하에서 다양한 기능을 구행할 수 있는 다양한 집적 회로 구성요소, 가령,메모리 요소, 처리 요소, 논리 요소, 룩업 테이블 등과 같은 다양한 집적 회로 구성요소를 사용할 수 있다. 마찬가지로, 시스템의 소프트웨어 요소는 임의의 프로그래밍 또는 스크립팅 언어, 가령, C, C++, Macromedia Cold Fusion, Microsoft Active Server Pages, Java, COBOL, 어셈블러(assembler), PERL, Visual Basic, SQL Stored Procedures, XML(extensible markup language)로 구현될 수 있으며, 이때, 다양한 알고리즘이 데이터 구조, 객체, 프로세스, 루틴, 또는 그 밖의 다른 프로그래밍 요소의 임의의 조합으로 구현된다. 또한, 시스템은 데이터 전송, 시그널링, 데이터 처리, 네트워크 제어 등에 대해 임의의 수의 종래 기술을 사용할 수 있다는 점에 유의해야한다. 또한 시스템은 클라이언트-측 스크립팅 언어, 가령, JavaScript, VBScript 등을 이용해 보안 문제를 감지하거나 방지하는 데 사용될 수 있다. 암호학 및 네트워크 보안의 기본적인 소개를 위해, 다음 참고문헌 중 어느 것이든 참고할 수 있고, 이들 모두 참조로서 본 명세서에 포함된다: (1) "Applied Cryptography: Protocols, Algorithms, And Source Code In C," by Bruce Schneier, published by John Wiley & Sons (second edition, 1995); (2) "Java Cryptography" by Jonathan Knudson, published by O'Reilly & Associates (1998); (3) "Cryptography & Network Security: Principles & Practice" by William Stallings, published by Prentice Hall.
본 명세서에서 사용될 때, "최종 사용자", "소비자", "고객", "클라이언트", "치료 의사", "병원" 또는 "사업체"는 서로 바꿔서 사용할 수 있으며 각각은 임의의 사람, 개체, 머신, 하드웨어, 소프트웨어 또는 사업체를 의미할 것이다. 각각의 참가자는 시스템과 상호 대화하고 온라인 데이터 액세스 및 데이터 입력을 용이하게 하기 위해 컴퓨팅 장치를 갖추고 있다. 고객은 개인용 컴퓨터 형태의 컴퓨팅 유닛을 가지고 있지만, 랩탑, 노트북, 핸드 헬드 컴퓨터, 셋톱 박스, 셀룰러 전화, 터치 톤 전화 등을 포함한 다른 유형의 컴퓨팅 유닛이 사용될 수 있다. 본 방법의 시스템 및 방법의 소유자/운영자는 컴퓨터 서버의 형태로 구현된 컴퓨팅 유닛을 가지고 있지만, 다른 구현은 메인 프레임 컴퓨터, 미니-컴퓨터, PC 서버, 상이한 지리적 위치에 위치하는 컴퓨터의 컴퓨터 네트워크 등으로 나타나는 컴퓨팅 센터를 포함할 수 있다. 또한, 시스템은 본 명세서에 기재된 유사한 기능을 갖는 임의의 네트워크를 통한 임의의 제화, 서비스 또는 정보의 사용, 판매 또는 배포를 고려한다.
하나의 예시적인 실시예에서, 각각의 클라이언트 고객은 "계정" 또는 "계정 번호"를 발급받을 수 있다. 본 명세서에서 사용될 때, 계정 또는 계정 번호는 소비자가 시스템과 액세스, 대화, 또는 통신할 수 있도록 적절하게 구성된 임의의 장치, 코드, 번호, 문자, 기호, 디지털 인증서, 스마트 칩, 디지털 신호, 아날로그 신호, 생체 인식 또는 기타 식별자/인디시아(indicia)(예를 들어, 인증/액세스 코드, 개인 식별 번호(PIN), 인터넷 코드, 그 밖의 다른 식별 코드 등 중 하나 이상)를 포함할 수 있다. 계정 번호는 선택적으로 충전 카드, 신용 카드, 직불 카드, 선불 카드, 엠보싱 카드, 스마트 카드, 마그네틱 스트라이프 카드, 바코드 카드, 트랜스 폰더, 무선 주파수 카드 또는 관련 계정에 위치하거나 이와 관련될 수 있다. 시스템은 앞서 언급된 카드 또는 장치 중 임의의 것, 또는 포브(fob)와 RF 통신하는 트랜스 폰더 및 RFID 판독기를 갖는 포브를 초함하거나 이와 인터페이싱할 수 있다. 시스템이 포브 실시예를 포함할 수 있지만, 방법은 이에 한정되지 않는다. 실제로, 시스템은 RF 통신을 통해 RFID 판독기와 통신하도록 구성된 트랜스폰더를 갖는 임의의 장치를 포함할 수 있다. 전형적인 장치는 예를 들어 열쇠 고리, 태그, 카드, 휴대폰, 손목시계 또는 문의(interrogation)를 위해 제공될 수 있는 임의의 형태를 포함할 수 있다. 또한, 본 명세서에서 기재된 시스템, 컴퓨팅 유닛 또는 장치는 컴퓨팅 유닛이 내장된 전통적으로 컴퓨터화되지 않은 장치를 포함할 수 있는 "퍼베이시브 컴퓨팅 장치(pervasive computing device)"를 포함할 수 있다. 계정 번호는 데이터를 제2 장치로 전송 또는 다운로딩할 수 있는 플라스틱, 전자, 자기, 라디오 주파수, 무선, 오디오 및/또는 광학 장치의 형태로 배포 및 저장될 수 있다.
해당 분야의 통상의 기술자에 의해 이해되는 바와 같이, 시스템은 기존 시스템, 애드온 제품, 업그레이드된 소프트웨어, 독립형 시스템, 분산 시스템, 방법, 데이터 처리 시스템, 데이터 처리르 ㄹ위한 장치, 및/또는 컴퓨터 프로그램 제품의 맞춤화로 구현될 수 있다. 따라서, 시스템은 전체 소프트웨어 실시예, 전체 하드웨어 실시예, 또는 소프트웨어와 하드웨어 양태를 결합한 실시예의 형태를 취할 수 있다. 또한, 시스템은 저장 매체에 구현된 컴퓨터 판독형 프로그램 코드 수단을 갖는 컴퓨터 판독형 저장 매체 상의 컴퓨터 프로그램 제품의 형태를 취할 수 있다. 하드 디스크, CD-ROM, 광학 저장 장치, 자기 저장 장치 등을 포함하는 임의의 적절한 컴퓨터 판독 가능 저장 매체가 사용될 수 있다.
다양한 실시예에 따라 방법, 장치(가령, 시스템), 및 컴퓨터 프로그램 제품의 스크린 샷, 블록도 및 흐름도를 참고하여 시스템 및 방법이 기재된다. 블록도 및 흐름도의 각각의 기능 블록 및 블록도 및 흐름도에서의 기능 블록의 조합 각각이 컴퓨터 프로그램 명령에 의해 구현될 수 있다.
이들 컴퓨터 프로그램 명령은 범용 컴퓨터, 특수 목적 컴퓨터 또는 기타 프로그래밍 가능한 데이터 처리 장치에 로드되어 컴퓨터 또는 기타 프로그래밍 가능한 데이터 처리 장치에서 실행되는 명령이 순서도 블록 또는 블록에서 지정된 기능을 구현하기 위한 수단을 생성하도록 할 수 있다. 이들 컴퓨터 프로그램 명령은 또한 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치가 특정 방식으로 기능하도록 지시 할 수 있는 컴퓨터 판독 가능 메모리에 저장될 수 있으며, 컴퓨터 판독 가능 메모리에 저장된 명령은 흐름도에서 특정된 기능을 구현하는 명령 수단을 포함하는 제조 물품을 생성한다. 컴퓨터 프로그램 명령은 또한 컴퓨터 또는 그 밖의 다른 프로그램 가능한 데이터 처리 장치에 로드되어 일련의 동작 단계가 컴퓨터 또는 또 다른 프로그램 가능한 장치에서 수행되도록 하여 컴퓨터에서 실행되는 명령이 흐름도에서 특정된 기능을 구현하기 위한 단계를 제공하도록 컴퓨터에서 실행되도록 컴퓨터 구현 프로세스를 생성 할 수 있다.
따라서, 블록도 및 흐름도의 기능 블록은 지정된 기능을 수행하기 위한 수단, 지정된 기능을 수행하기 위한 단계의 조합 및 지정된 기능을 수행하기 위한 프로그램 명령 수단의 조합을 지원한다. 또한, 블록도 및 흐름도의 각각의 기능 블록, 그리고 블록도 및 흐름도의 기능 블록 조합은 특정된 기능 또는 단계, 또는 특수 하드웨어 및 컴퓨터 명령의 적절한 조합을 수행하는 특수 하드웨어 기반 컴퓨터 시스템에 의해 구현될 수 있다. 또한, 프로세스 흐름 및 이의 기술의 예시는 사용자 윈도, 웹 페이지, 웹사이트, 웹 서식, 프롬프트 등을 참조할 수 있다. 실무자는 본 명세서에 기재된 예시된 단계가 윈도, 웹 페이지, 웹 서식, 팝업 창, 프롬프트 등의 사용을 포함하는 임의의 개수의 구성을 포함할 수 있음을 알 것이다. 예시되고 설명된 다수의 단계는 단일 웹 페이지 및/또는 창으로 결합될 수 있지만 단순성을 위해 확장되었다는 것을 더 이해해야 한다. 다른 경우에, 단일 프로세스 단계로 예시되고 설명된 단계는 여러 웹 페이지 및/또는 창으로 분리 될 수 있지만 단순성을 위해 결합되었음을 알아야 한다.
분자 프로파일링
분자 프로파일링 접근법은 상태 또는 질병, 가령, 암이 있는 개인에 대해 임상 과정을 유리하게 변경할 수 있는 개인에 대한 후보 치료를 선택하기 위한 방법을 제공한다. 분자 프로파일링 접근법은 개인을 위한 임상적 인점, 가령, 더 긴 무진행 생존(PFS), 더 긴 무병 생존(DFS), 더 긴 전체 생존(OS) 또는 연장된 수명을 제공하는 치료 요법을 식별하는 것을 제공한다. 본 명세서에 기재된 방법 및 시스템은 최적 치료 요법을 식별할 수 있는 개인별 암의 분자 프로파일링과 관련된다. 분자 프로파일링은 암에 효험이 있을 가능성이 높은 후보 치료를 선택하는 개인화된 방식을 제공한다. 본 명세서에 기재된 분자 프로파일링 방법은 임의의 바람직한 세팅, 비제한적 예를 들면, 일선/표준 치료 세팅에서, 또는 좋지 않은 예후를 갖는 환자, 가령, 표준 일선 요법에서 전이성 질병 또는 암이 진전된 환자 또는 이전 화학요법 또는 호르몬 요법에서 암이 진전된 환자를 위해 치료를 안내하도록 사용될 수 있다.
본 발명의 시스템 및 방법은 환자를 다양한 치료에 대해 어느 정도 유익하거나 반응 할 가능성이있는 것으로 분류하는 데 사용될 수 있다. 달리 언급되지 않는 한, 본 명세서에서 사용된 용어 "반응" 또는 "비반응"은 치료가 환자에게 효험을 제공했다는 임의의 적절한 지시자( "반응군" 또는 "효험군") 또는 환자에게 효험이 없었다는 지시자("비반응군" 또는 "비효험군")를 지칭한다. 이러한 지시자는 허용된 임상 응답 기준, 가령, 표준 RECIST(Response Evaluation Criteria in Solid Tumor) 기준, 또는 또 다른 유용한 환자 응답 기준, 가령, PFS(progression free survival), TTP(time to progression), DFS(disease free survival), TNT, TTNT(time-to-next treatment), TTF, TTTF(time-to-treatment failure), 종양 수축 또는 소멸 등을 이용해 결정될 수 있다. RECIST는 암 환자를 치료하는 동안 종양이 개선("반응"), 동일하게 유지("안정화") 또는 악화("진행")되는 때를 정의하는 국제 컨소시엄에서 발표한 일련의 규칙이다. 본 명세서에서 사용될 때 그리고 달리 언급되지 않는 한, 치료에 대한 환자 "효험"은 개선의 적절한 측정, 비제한적 예를 들면, RECIST 반응 또는 장기적인 PFS/TTP/DFS/TNT/TTNT을 지칭할 수 있으며, 치료에 대한 "효험 부재"는 치료 동안의 질병 악화의 적절한 측정을 지칭할 수 있다. 일반적으로 질병 안정화는 효험으로 간주되지만 특정 상황에서, 본 명세서에서 언급되는 경우, 안정화는 효험의 부족으로 간주될 수 있다. 효험 또는 효험 부재에 대한 허용 가능한 수준의 예측이 없는 경우 예측되거나 표시된 효험은 "미확정"으로 기재될 수 있다. 어떤 경우에는 필요한 데이터가 부족하여 계산될 수 없는 경우 효험이 미확정으로 간주될 수 있다.
약물유전학적 통찰에 기반한 개인화된 의학, 가령, 본 명세서에 기재된 바와 같은 분자 프로파일링에 의해 제공되는 것이 일부 실무자와 학계에서 점점 더 당연한 것으로 여겨지지만 개선된 암 치료에 대한 희망의 기초를 형성한다. 그러나, 본 명세서에 기재된 분자 프로파일링은 대부분의 경우 환자가 함께 그룹화되고 광학 현미경 및 질병 단계의 결과에 기반한 접근법으로 치료되는 종양 치료에 대한 전통적인 접근 방식에서 근본적인 출발을 나타낸다. 전통적으로, 특정 치료 전략에 대한 차별적 반응은 치료가 제공된 후, 즉, 사후에만 결정되었다. 질병 치료에 대한 "표준" 접근 방식은 주어진 암 진단에 대해 일반적으로 참인 것에 의존하며 치료 반응은 무작위 3상 임상 시험을 통해 검토되었으며 의료 행위에서 "표준 치료"를 형성한다. 이들 시험의 결과는 미국 종합 암 네트워크(National Comprehensive Cancer Network) 및 미국 임상 종양 학회(American Society of Clinical Oncology)와 같은 가이드 라인 기관에 의해 합의된 성명서에서 체계화되었다. NCCN Compendium™은 암 환자에서 약물 및 생물학적 제제의 적절한 사용에 대한 의사 결정을 지원하도록 설계된 권위 있고 과학적으로 파생된 정보를 포함한다. NCCN Compendium™은 CMS(Centers for Medicare and Medicaid Services)와 United Healthcare에서 종양 보장 정책에 대한 권위 있는 참고 자료로 인정 받았다. 개요서(compendium) 상의 치료는 이러한 가이드가 권장하는 치료법이다. 임상 시험 결과를 검증하는 데 사용되는 생물 통계 학적 방법은 환자 간의 차이를 최소화하는 데 의존하며 종양의 개인차가 아닌 광학 현미경 및 단계로만 정의된 환자 그룹에 대해 하나의 접근법이 다른 접근법보다 낫다는 오류 가능성을 선언하는 것을 기반으로 한다. 본 명세서에 기재된 분자 프로파일링 방법은 이러한 개인차를 활용한다. 방법은 환자를 치료하기 위해 의사에 의해 선택될 수 있는 후보 치료를 제공할 수 있다.
분자 프로파일링은 샘플의 생물학적 상태에 대한 포괄적인 보기를 제공하는 데 사용할 수 있다. 하나의 구체예에서, 분자 프로파일링은 전체 종양 프로파일링을 위해 사용된다. 따라서, 종양의 상태를 평가하기 위해 많은 분자 접근법이 사용된다. 전체 종양 프로파일링은 종양에 대한 후보 치료를 선택하는 데 사용될 수 있다. 분자 프로파일링은 질병의 임의의 단계에 대한 임의의 샘플에서 후보 치료제를 선택하는 데 사용될 수 있다. 구체예에서, 본 명세서에 기재된 방법은 새로 진단된 암을 프로파일링하는 데 사용되지 않는다. 분자 프로파일링에 의해 지시된 후보 치료법이 사용되어 새로 진단된 암 치료를 위한 치료법을 선택할 수 있다. 또 다른 구체예에서, 본 명세서에 기재된 방법은 예를 들어 하나 이상의 표준 치료 요법으로 이미 치료된 암을 프로파일링하는 데 사용된다. 구체예에서, 암은 이전 치료에 불응성이다. 예를 들어, 암은 암에 대한 표준 치료 치료에 불응할 수 있다. 암은 전이성 암 또는 기타 재발성 암일 수 있다. 치료법은 개요서 내에 있거나 개요서에 없는 치료법일 수 있다.
분자 프로파일링은 생체 샘플에서 분자를 검출하기 위한 알려진 수단으로 수행될 수 있다. 분자 프로파일링은 핵산 시퀀싱, 가령, DNA 시퀀싱 또는 RNA 시퀀싱, 면역 조직 화학(IHC); 원위치 혼성화(ISH); 형광 원위치 혼성화(FISH); 발색성 원위치 혼성화(CISH); PCR 증폭(가령, qPCR 또는 RT-PCR); 다양한 유형의 마이크로어레이(mRNA 발현 어레이, 저밀도 어레이, 단백질 어레이 등); 다양한 유형의 시퀀싱(생어(Sanger), 파이로시퀀싱(pyrosequencing) 등); 비교 게놈 혼성화(CGH); 높은 처리량 또는 차세대 시퀀싱(NGS); 노던 블랏; 서던 블랏; 면역분석; 및 관심 생물학적 분자의 존재 또는 양을 분석하기 위한 기타 적절한 기법을 포함하는 방법을 포함한다. 다양한 구체예에서, 임의의 하나 이상의 이들 방법은 본 명세서에 개시된 표적 유전자를 평가하기 위해 동시에 또는 서로 후속하여 사용될 수 있다.
개별 샘플의 분자 프로파일링은 예를 들어 주어진 암에 효과적일 수 있는 약물에 대한 표적을 식별함으로써 피험체의 장애에 대한 하나 이상의 후보 치료를 선택하는 데 사용된다. 예를 들어, 후보 치료제는 분자 프로파일링 기법에 의해 식별된 바와 같이 상이하게 유전자를 발현하는 세포에 효과를 가지는 것으로 알려진 치료법, 실험 약물, 정부 또는 법적 승인 약물 또는 생체 샘플이 획득되고 분자 프로파일링된 피험체의 지시자와 동일하거나 상이한 특정 지시자에 대해 연구 및 승인되었던 이러한 약물의 임의의 조합일 수 있다.
분자 프로파일링에 의해 표적 유전자를 평가함으로써 다중 바이오마커 표적이 밝혀지면, 개인별 치료를 위한 특정 치료제의 선택에 우선 순위를 부여하기 위해 하나 이상의 결정 규칙이 적용될 수 있다. 본 명세서에 기재된 규칙, 예를 들어, 분자 프로파일링의 직접적인 결과, 치료제의 예상 효능, 동일하거나 다른 치료에 대한 이전 이력, 예상되는 부작용, 치료제의 가용성, 치료제 비용, 약물-약물 상호 작용, 및 치료 의사가 고려하는 기타 요인은 치료의 우선 순위를 정하는 데 도움을 준다. 권장되고 우선화되는 치료제 목표에 따라 의사는 특정 개인에 대한 치료 과정을 결정할 수 있다. 따라서, 본 명세서에 기재된 분자 프로파일링 방법 및 시스템은, 질병, 특히, 암으로 고통 받는 사람을 치료하는 데 전통적으로 사용되는 전통적인 단일 크기 적합에 의존하는 것과는 반대로, 질병에 걸린 세포, 예를 들어 종양 세포 및 치료를 필요로 하는 피험체에서 다른 개인화된 인자의 개별적인 특성을 기반으로 후보 치료를 선택할 수 있다. 일부 경우, 권장되는 치료법은 피험체에게 영향을 주는 질병 또는 장애를 치료하는 데 일반적으로 사용되지 않는 치료법이다. 일부 경우, 표준 치료 요법이 더는 적절한 효능을 제공하지 못한 후에 권장 치료법이 사용된다.
치료 의사는 분자 프로파일링 방법의 결과를 사용하여 환자를 위한 치료 요법을 최적화할 수 있다. 본 명세서에 기재된 방법에 의해 식별된 후보 치료는 환자를 치료하는 데 사용될 수 있지만, 이러한 치료는 방법을 필요로 하지 않는다. 실제로, 분자 프로파일링 결과의 분석 및 이러한 결과에 기반한 후보 치료의 식별은 자동화될 수 있으며 의사의 개입이 필요하지 않는다.
생물학적 개체
핵산은 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 및 이의 단일 가닥 또는 이중 가닥 형태의 중합체, 또는 이의 보체를 포함한다. 핵산은 합성, 자연 발생 및 비 자연 발생이며, 참조 핵산과 유사한 결합 특성을 가지며, 참조 뉴클레오티드와 유사한 방식으로 대사되는 알려진 뉴클레오티드 유사체 또는 변형된 백본 잔기 또는 연결을 포함할 수 있다. 이러한 유사체의 비제한적 예로는 포스포로티오에이트, 포스포라미데이트, 메틸포스포네이트, 키랄-메틸 포스포네이트, 2-O-메틸 리보뉴클레오티드, 펩티드-핵산(PNA)을 포함한다. 핵산 서열은 이의 보존적으로 변형된 변이(예를 들어, 축퇴성 코돈 치환)와 상보적 서열, 및 명시적으로 표시된 서열을 포함할 수 있다. 구체적으로, 축퇴성 코돈 치환은 하나 이상의 선택된(또는 모든) 코돈의 세 번째 위치가 혼합 염기 및/또는 데옥시이노신 잔기로 치환된 서열을 생성함으로써 달성 될 수 있다(Batzer 외, Nucleic Acid Res.19:5081 (1991); Ohtsuka 외, J.Biol.Chem.260:2605-2608 (1985); Rossolini 외, Mol.Cell Probes 8:91-98 (1994)). 용어 핵산은 유전자, cDNA, mRNA, 올리고뉴클레오티드 및 폴리뉴클레오티드와 상호 교환적으로 사용될 수 있다.
특정 핵산 서열은 특정 서열 및 "스플라이스 변이체"및 절단된 형태를 인코딩하는 핵산 서열을 암시적으로 포함할 수 있다. 마찬가지로, 핵산에 의해 코딩된 특정 단백질은 스플라이스 변이체에 의해 인코딩되거나 임의의 단백질 또는 그 핵산의 절단된 형태를 포함할 수 있다. 명칭에서 알 수 있듯이 "스플라이스 변이체"는 유전자의 대체 스플라이싱 산물이다. 전사 후, 초기 핵산 전사체는 상이한(대체) 핵산 스플라이스 산물이 상이한 폴리펩티드를 인코딩하도록 스 플라이싱될 수 있다. 스플라이스 변종 생산을 위한 메커니즘은 다양하지만 엑손의 대체 스플라이싱을 포함한다. 판독-통과 전사에 의해 동일한 핵산으로부터 유래된 대체 폴리펩티드도 이 정의에 포함된다. 스플라이싱 반응의 임의의 산물, 가령, 스플라이스 산물의 재조합 형태가 이 정의에 포함된다. 핵산은 5' 말단 또는 3' 말단에서 절단될 수 있다. 폴리펩티드는 N-말단 또는 C-말단에서 절단될 수 있다. 핵산 또는 폴리펩티드 서열의 절단된 버전은 자연적으로 발생하거나 재조합 기술을 사용하여 생성될 수 있다.
용어 "유전자 변이" 및 "뉴클레오티드 변이"는 본 명세서에서 사용될 때 특정 유전자 자리에서 참조 인간 유전자 또는 cDNA 서열에 대한 변경 또는 변화, 비제한적 예를 들면, 코딩 및 비-코딩 영역에서의 뉴클레오티드 염기 결실, 삽입, 역위, 및 치환을 지칭할 수 있다. 결실은 단일 뉴클레오티드 염기, 유전자의 뉴클레오티드 서열의 일부 또는 한 영역, 또는 전체 유전자 서열의 결실일 수 있다. 삽입은 하나 이상의 뉴클레오티드 염기의 삽입일 수 있다. 유전적 변이 또는 뉴클레오티드 변이는 전사 조절 영역, mRNA의 비해석 영역, 엑손, 인트론, 엑손/인트론 접합 등에서 발생할 수 있다. 유전자 변이 또는 뉴클레오티드 변이는 잠재적으로 정지 코돈, 프레임 이동, 아미노산의 결실, 변경된 유전자 전사 슬라이스 형태 또는 변경된 아미노산 서열을 초래할 수 있다.
대립유전자 또는 유전자 대립은 일반적으로 참조 서열을 갖는 자연 발생 유전자 또는 특정 뉴클레오티드 변이를 포함하는 유전자를 포함한다.
하플로타입(haplotype)은 mRNA 영역의 유전적(뉴클레오티드) 변이 또는 개체에서 발견되는 염색체의 게놈 DNA 조합을 의미한다. 따라서, 하플로타입은 일반적으로 하나의 단위로 함께 유전되는 다수의 유전적으로 연결된 다형성 변이를 포함한다.
본 명세서에서 사용될 때 용어 "아미노산 변이"는 참조 단백질을 인코딩하는 참조 인간 유전자에 대한 유전적 변이 또는 뉴클레오티드 변이로부터 발생하는 참조 인간 단백질 서열에 대한 아미노산 변화를 지칭하기 위해 사용된다. 용어 "아미노산 변이"는 단일 아미노산 치환뿐만 아니라 참조 단백질에서의 아미노산 결실, 삽입 및 아미노산 서열의 그 밖의 다른 유의미한 변화를 포함하는 것으로 의도된다.
본 명세서에서 사용될 때 용어 "유전형"은 유전자의 하나의 대립 유전자 또는 두 대립 유전자(또는 특정 염색체 영역)의 특정 뉴클레오티드 변이 마커(또는 유전자 자리)에서 뉴클레오티드 특성을 의미한다. 관심 유전자의 특정 뉴클레오티드 위치와 관련하여, 하나 또는 두 대립 유전자에서 그 유전자 자리의 뉴클레오티드(들) 또는 이의 동등물은 그 유전자 자리에서 유전자의 유전자형을 형성한다. 유전자형은 동형 접합 또는 이형 접합일 수 있다. 따라서, "유전형 분석"은 유전자형, 즉 특정 유전자 자리에서 뉴클레오티드(들)를 결정하는 것을 의미한다. 유전자형은 또한 상응하는 뉴클레오티드 변이체(들)를 추론하는 데 사용될 수 있는 단백질의 특정 위치에서 아미노산 변이체를 결정함으로써 수행될 수 있다.
용어 "자리"는 유전자 서열 또는 단백질의 특정 위치 또는 부위를 지칭한다. 따라서, 특정 유전자 자리에 하나 이상의 인접 뉴클레오티드가 있을 수 있거나 폴리펩티드의 특정 자리에 하나 이상의 아미노산이 있을 수 있다. 또한, 자리는 하나 이상의 뉴클레오티드가 결실, 삽입 또는 반전된 유전자의 특정 위치를 나타낼 수 있다.
달리 명시되거나 해당 분야의 통상의 기술자에 의해 이해되지 않는 한, 용어 "폴리펩티드", "단백질" 및 "펩티드"는 아미노산 잔기가 공유 펩티드 결합에 의해 연결된 아미노산 사슬을 지칭하기 위해 본 명세서에서 상호교환적으로 사용된다. 아미노산 사슬은 전장 단백질을 포함하여, 임의의 길이의 적어도 2개의 아미노산을 가질 수 있다. 달리 명시되지 않는 한, 폴리펩티드, 단백질 및 펩티드는 또한 글리코실화된 형태, 인산화된 형태 등을 포함하지만 이에 제한되지 않는 다양한 변형된 형태를 포함한다. 폴리펩티드, 단백질 또는 펩티드는 또한 유전자 산물로 지칭될 수 있다.
분자 프로파일링 기술에 의해 검정될 수 있는 유전자 및 유전자 산물의 리스트이 본 명세서에 제공된다. 유전자 리스트은 유전자 산물(가령, mRNA 또는 단백질)을 검출하는 분자 프로파일링 기술의 맥락에서 제공될 수 있다. 해당 분야의 통상의 기술자라면 이것이 나열된 유전자의 유전자 산물의 검출을 의미함을 이해할 것이다. 마찬가지로, 유전자 산물의 리스트은 유전자 서열 또는 복제수를 검출하는 분자 프로파일링 기술의 맥락에서 제시될 수 있다. 해당 분야의 통상의 기술자는 이것이 유전자 산물을 인코딩하는 DNA를 예로 포함하여 유전자 산물에 상응하는 유전자의 검출을 의미한다는 것을 이해할 것이다. 해당 분야의 통상의 기술자라면 알 듯이, "바이오마커" 또는 "마커"는 문맥에 따라 유전자 및/또는 유전자 산물을 포함한다.
용어 "라벨" 및 "검출 가능한 라벨"은 분광, 광화학, 생화학, 면역화학, 전기, 광학, 화학 또는 그 밖의 다른 유사한 방법에 의해 검출가능한 임의의 조성물을 지칭할 수 있다. 이러한 라벨은 라벨링된 스트렙타비딘 공액체로 염색하기 위한 비오틴, 자기 비드(가령, DYNABEADS™), 형광 염료(가령, 플루오레세인, 텍사스 레드, 로다민, 녹색 형광 단백질 등), 라디오라벨(가령, 3H, 125I, 35S, 14C, 또는 32P), 엔자임(가령, 겨자무 과산화효소, 알칼리성 포스파타제 및 ELISA에서 일반적으로 사용되는 그 밖의 다른 것) 및 열량측정 라벨, 가령, 콜로이드 금 또는 유색 유리 또는 플라스틱(가령, 폴리스티렌, 폴리프로파일렌, 라텍스 등) 비드를 포함한다. 이러한 라벨의 사용을 설명하는 특허로는 미국 특허 번호 3,817,837; 3,850,752; 3,939,350; 3,996,345; 4,277,437; 4,275,149; 및 4,366,241가 있다. 이러한 라벨을 검출하는 수단은 해당 분야의 통상의 기술자에게 잘 알려져있다. 따라서, 예를 들어, 라디오라벨(radiolabel)은 사진 필름 또는 섬광 카운터를 사용하여 검출될 수 있고, 형광 마커는 방출된 빛을 검출하기 위해 광검출기를 사용하여 검출될 수 있다. 효소 라벨은 일반적으로 효소에 기질을 제공하고 기질에 대한 효소의 작용에 의해 생성된 반응 산물을 검출함으로써 검출되며, 열량측정 라벨은 단순히 컬러 라벨을 시각화하여 검출된다. 라벨은 예를 들어 라벨링된 항체에 결합하는 리간드, 형광단, 화학발광제, 효소, 및 라벨링된 리간드에 대한 특정 결합 쌍 구성원으로 역할 할 수 있는 항체를 포함할 수 있다. 라벨, 라벨링 절차 및 라벨 검출에 대한 소개는 Polak and Van Noorden Introduction to Immunocytochemistry, 2nd ed., Springer Verlag, NY (1997); and in Haugland Handbook of Fluorescent Probes and Research Chemicals, a combined handbook and catalogue Published by Molecular Probes, Inc.(1996)에서 발견된다.
검출 가능한 라벨의 비제한적 예로는 뉴클레오티드(라벨링되거나 라벨링되지 않은 것), 컴포머, 당, 펩티드, 단백질, 항체, 화학 화합물, 전도성 폴리머, 결합 모이어 티, 가령, 비오틴, 질량 태그, 열량측정제, 발광제, 화학 발광제, 산광제, 형광 태그, 방사선 태그, 전하 태그(전기 또는 자기 전하), 휘발성 태그 및 소수성 태그, 생체 분자(가령, 결합 쌍 항체/항원, 항체/항체, 항체/항체 단편, 항체/항체 수용체, 항체/단백질 A 또는 단백질 G, 합텐/항-합텐, 비오틴/아비딘, 비오틴/스트렙타비딘, 엽산/엽산 결합 단백질, 비타민 B12/내인성 인자, 화학적 반응성 그룹/상보적 화학적 반응성 그룹(가령, 설프하이드릴/말레이미드, 설프하이드릴/할로아세틸 유도체, 아민/이소트리오시아네이트, 아민/숙신이미딜 에스테르 및 아민/설포닐 할라이드) 등이 있다.
용어 "프라이머", "프로브" 및 "올리고뉴클레오티드"는 비교적 짧은 핵산 단편 또는 서열을 지칭하기 위해 본 명세서 상호교환적으로 사용된다. 이들은 DNA, RNA 또는 이의 하이브리드, 또는 화학적으로 변형된 유사체 또는 이의 유도체를 포함할 수 있다. 일반적으로, 이들은 단일 가닥이다. 그러나 이들은 변성에 의해 분리될 수 있는 두 개의 보완 가닥을 갖는 이중 가닥일 수도 있다. 일반적으로, 프라이머, 프로브 및 올리고뉴클레오티드는 약 8개 뉴클레오티드 내지 약 200개 뉴클레오티드, 바람직하게는 약 12개 뉴클레오티드 내지 약 100개 뉴클레오티드, 더 바람직하게는 약 18개 내지 약 50개 뉴클레오티드의 길이를 가진다. 이들은 검출 가능한 마커로 라벨링되거나 다양한 분자 생물학적 적용을 위해 기존 방식을 사용하여 수정될 수 있다.
핵산(가령, 게놈 DNA, cDNA, mRNA 또는 이의 단편)과 관련하여 사용될 때 용어 "단리된"은 일반적으로 분자와 연관된 자연 발생 핵산으로부터 실질적으로 단리된 형태로 존재함을 의미한다. 자연적으로 존재하는 염색체(또는 이의 바이러스 등가물)가 긴 핵산 서열을 포함하기 때문에, 단리된 핵산은 염색체에 핵산 서열의 일부만 포함하고 동일한 염색체 상에 존재하는 하나 이상의 다른 부분을 포함하지 않는 핵산 분자일 수 있다. 더 구체적으로, 단리된 핵산은 자연 발생 염색체(또는 이의 바이러스 등가물)에서 핵산 옆에 있는 자연 발생 핵산 서열을 포함할 수 있다. 단리된 핵산은 동일한 유기체의 상이한 염색 상에 있는 다른 자연 발생 핵산과 실질적으로 분리될 수 있다. 단리된 핵산은 또한 특정된 핵산 분자가 전체 핵산의 조성의 적어도 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 또는 적어도 99%을 구성하도록 상당히 농후화된 조성물일 수 있다.
단리된 핵산은 자연적으로 특정 핵산 옆에 있는 핵산이 아닌 하나 이상의 핵산 분자에 공액적으로 연결된 특정된 핵산 분자를 갖는 하이브리드 핵산일 수 있다. 예를 들어, 단리된 핵산은 매개체에 있을 수 있다. 또한, 특정된 핵산은 하나 이상의 돌연변이, 가령, 뉴클레오티드 치환, 결실/삽입, 반전 등을 갖는 자연 발생 핵산 또는 그의 변형된 형태 또는 뮤테인과 동일한 뉴클레오티드 서열을 가질 수 있다.
단리된 핵산은 재조합 숙주 세포(핵산이 재조합적으로 증폭 및/또는 발현된 것)로부터 제조될 수 있거나, 자연 발생 뉴클레오티드 서열을 갖는 화학적으로 합성된 핵산 또는 이의 인공적으로 변형된 형태일 수 있다.
핵산 혼성화와 관련하여 사용될 때 용어 "고 엄격성 혼성화 조건"은, 약 65°C에서 0.1ХSSC로 세정된 혼성화 필터를 이용해 50% 포름아미드, 5ХSSC(750 mM NaCl, 75 mM 소듐 시트레이트), 50 mM 소듐 포스페이트, pH 7.6, 5ХDenhardt 용액, 10% 덱스트란 설페이트, 및 20 마이크로그램/ml 변성 및 전단 연어 정자 DNA를 함유하는 용액에서 42°C에서 밤새 실시된 혼성화를 포함한다. 핵산 혼성화와 관련하여 사용될 때 용어 "중간 엄격성 혼성화 조건"은 약 50°C에서 1ХSSC로 세정된 혼성화 필터를 이용해, 50% 포름아미드, 5ХSSC(750 mM NaCl, 75 mM 소듐 시트레이트), 50 mM 소듐 포스페이트, pH 7.6, 5ХDenhardt 용액, 10% 덱스트란 설페이트, 및 20 마이크로그램/ml 변성 및 전단 연어 정자 DNA를 함유하는 용액에서 37°C에서 밤새 실시된 혼성화를 포함한다. 많은 다른 혼성화 방법, 용액 및 온도가 해당 분야의 통상의 기술자에게 자명할 바와 같이 유사한 엄격한 혼성화 조건을 달성하기 위해 사용될 수 있다는 점이 주목된다.
두 개의 상이한 핵산 또는 폴리펩티드 서열을 비교하기 위해, 하나의 서열(시험 서열)이 다른 서열(비교 서열)과 동일한 특정 비율이도록 기재될 수 있다. 동일성 퍼센티지는 Karlin and Altschul, Proc.Natl.Acad.Sci.USA, 90:5873-5877 (1993)의 알고리즘에 의해 결정될 수 있으며, 이는 다양한 BLAST 프로그램에 통합된다. 동일성 퍼센티지는 NCBI(National Center for Biotechnology Information) 웹 사이트에서 이용 가능한 "BLAST 2 시퀀스" 도구에 의해 결정될 수 있다. Tatusova and Madden, FEMS Microbiol.Lett., 174(2):247-250 (1999)를 참조할 수 있다. 쌍별 DNA-DNA 비교를 위해, BLASTN 프로그램은 디폴트 파라미터(가령, 일치: 1; 불일치: -2; 개방 간격: 5 페널티; 확장 간격: 2 페널티; 갭 x_dropoff: 50; 기대: 10; 및 워드 크기: 11, 필터 포함)와 함께 사용된다. 쌍별 단백질-단백질 서열 비교를 위해, BLASTP 프로그램은 디폴트 파라미터(가령, 모체: BLOSUM62; 간격 개방: 11; 간격 확장: 1; x_dropoff: 15; 기대: 10.0; 및 워크 크기: 3, 필터 포함)를 사용하여 사용될 수 있다. 두 서열의 동일성 퍼센트는 BLAST를 사용하여 테스트 서열을 비교 서열과 정렬하고, 정렬된 테스트 서열에서 비교 서열의 동일한 위치에 있는 아미노산 또는 뉴클레오티드와 동일한 아미노산 또는 뉴클레오티드의 수를 결정하며, 동일한 아미노산 또는 뉴클레오티드의 수를 비교 서열 내 아미노산 또는 뉴클레오티드의 수로 나눔으로써, 계산된다. BLAST가 사용되어 두 개의 서열을 비교할 때, 서열을 정렬하고 정의된 정렬 영역에 대한 동일성 퍼센트를 산출한다. 두 개의 서열이 전체 길이에 걸쳐 정렬된 경우 BLAST에 의해 산출된 동일성 퍼센트는 두 개의 서열의 동일성 퍼센트이다. BLAST가 전체 길이에 걸쳐 두 서열을 정렬하지 않는 경우, 테스트 서열과 비교 서열에서의 동일한 아미노산 또는 뉴클레오티드의 수가 0으로 간주되고 동일성 퍼센트가 정렬된 영역 내 동일한 아미노산 또는 뉴클레오티드의 수를 더하고 상기 수를 비교 시퀀스의 길이로 나눔으로써 계산된다. 다양한 버전의 BLAST 프로그램이 사용되어 서열을 비교할 수 있는데, 가령, BLAST 2.1.2 또는 BLAST+ 2.2.22가 있다.
피험체 또는 개인, 예를 들어 인간 및 비인간 포유 동물, 예컨대, 영장류, 설치류, 말, 개 및 고양이가 본 명세서에 기재된 방법으로부터 이익을 얻을 수 있는 임의의 동물일 수 있다. 피험체의 비제한적 예를 들면, 진핵 유기체, 가장 바람직하게는 포유동물, 가령, 영장류, 예를 들어 침팬지 또는 인간, 소, 개, 고양이; 설치류, 예를 들어 기니피그, 쥐, 생쥐, 토끼, 또는 새, 파충류, 또는 어류가 있다. 피험체는 또한 본 명세서에 기재된 방법을 이용한 치료에 특정하게 의도되며, 인간을 포함한다. 피험체는 또한 본 명세서에서 사람 또는 환자라고 지칭될 수 있다. 본원 방법에서 피험체는 대장암을 가질 수 있는데, 예를 들어 대장암을 진단 받았을 수 있다. 대장암에 걸린 피험체를 식별하는 방법은 해당 분야에 알려져 있으며, 가령, 생검을 이용하는 것이 있다. 예를 들어, Fleming 외, J Gastrointest Oncol.2012 Sep; 3(3): 153-173; Chang 외, Dis Colon Rectum.2012; 55(8):831-43를 참조할 수 있다.
본 명세서에 기재된 방법에 따른 질병 또는 개인의 치료는 임상 결과를 포함하는 유익하거나 원하는 의학적 결과를 얻기 위한 접근 방식이지만 반드시 치료는 아니다. 본 명세서에 기재된 방법의 목적을 위해, 효험이 있거나 바람직한 임상 결과는, 비제한적 예를 들어, 검출가능한지 여부에 무관하게, 하나 이상의 증상의 완화 또는 개선, 질병 정도의 감소, 질병의 안정된(즉, 악화되지 않는) 상태, 확산 방지, 질병 진행 지연 또는 둔화, 질병 상태의 개선 또는 완화, (부분적이든 전체적이든) 완화를 포함한다. 치료는 치료를 받지 않거나 다른 치료를 받는 경우 예상되는 생존과 비교하여 생존을 연장하는 것도 포함한다. 치료에는 면역요법, 예를 들어 체크포인트 억제제 요법과 같은 다양한 소분자 약물 또는 생물학적 제제의 투여가 포함될 수 있다. 바이오마커는 일반적으로 유전자 또는 이의 산물, 핵산(가령, DNA, RNA), 단백질/펩티드/폴리펩티드, 탄수화물 구조, 지질, 당지질을 비제한적으로 포함하며, 이들의 특성은 조직 또는 세포에서 검출될 수 있어서, 후보 치료에 대한 민감성 또는 내성에 대한 예측, 진단, 예후 및/또는 치료적 정보를 제공할 수 있다.
생체 샘플
본 명세서에서 사용되는 샘플은 분자 프로파일링에 사용될 수 있는 모든 관련 생체 샘플, 예를 들어, 수술 또는 기타 절차 동안 제거된 조직 또는 조직 절편, 체액, 부검 샘플 및 조직 학적 목적을 위해 취한 냉동 절편을 포함한다. 이러한 샘플은 혈액 및 혈액 분획 또는 산물(가령, 혈청, 백혈구연층, 혈장, 혈소판, 적혈구 등), 객담, 악성 삼출액, 볼 세포 조직, 배양 세포(가령, 1차 배양, 외식편 및 형질 전환된 세포), 대변, 소변, 기타 생체 유체 또는 체액(가령, 전립선 액, 위액, 장액, 신장 액, 폐액, 뇌척수액 등) 등을 포함한다. 샘플은 신선 냉동 및 포르말린 고정 파라핀 임베디드(FFPE) 블록, 포르말린 고정 파라핀 임베디드 또는 RNA 보존제 + 포르말린 고정제 내에 있는 생체 물질을 포함할 수 있다. 각각의 환자에 대해 둘 이상의 유형의 둘 이상의 샘플이 사용될 수 있다. 바람직한 구체예에서, 샘플은 고정된 종양 샘플을 포함한다.
본 발명의 시스템 및 방법에서 사용되는 샘플은 포르말린 고정 파라핀 임베디드(FFPE) 샘플일 수 있다. FFPE 샘플은 고정 조직, 염색되지 않은 슬라이드, 골수 코어 또는 응고, 코어 바늘 생검, 악성 유체 및 미세 바늘 흡인물(FNA) 중 하나 이상일 수 있다. 하나의 구체예에서, 고정 조직은 수술 또는 생검으로부터 얻은 종양 포함 포르말린 고정 파라핀 임베디드(FFPE) 블록을 포함한다. 또 다른 구체예에서, 착색되지 않은 슬라이드는 파라핀 블록으로부터의 착색되지 않은, 대전된, 베이킹되지 않은 슬라이드를 포함한다. 또 다른 구체예에서, 골수 코어 또는 혈전은 석회화 제거된 코어를 포함한다. 포르말린 고정 코어 및/또는 혈전은 파라핀-임베디드일 수 있다. 또 다른 구체예에서, 코어 바늘 생검은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상, 예를 들어 3-4개의 파라핀 임베디드 생검 샘플을 포함한다. 18 게이지 바늘 생검이 사용될 수 있다. 악성 유체는 5x5x2mm 세포 펠릿을 생성하기에 충분한 양의 신선한 흉막/복수액을 포함할 수 있다. 유체는 파라핀 블록에 고정된 포르말린일 수 있다. 하나의 구체예에서, 코어 바늘 생검은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상, 예를 들어 4-6개의 파라핀 임베디드 흡인물을 포함한다.
샘플은 해당 분야의 통상의 기술자가 이해하는 기술에 따라 처리될 수 있다. 샘플은 신선, 냉동 또는 고정된 세포 또는 조직일 수 있으나, 이에 한정되지는 않는다. 일부 구체예에서, 샘플은 포르말린-고정 파라핀-임베디드(FFPE) 조직, 신선한 조직 또는 신선한 냉동(FF) 조직을 포함한다. 샘플은 피험체 샘플로부터 유래된 일차 또는 불멸화된 세포주를 포함하는 배양된 세포를 포함할 수 있다. 샘플은 피험체로부터의 샘플로부터 추출된 것을 지칭할 수 있다. 예를 들어, 샘플은 조직 또는 체액에서 추출한 DNA, RNA 또는 단백질을 포함할 수 있다. 이러한 목적을 위해 많은 기술과 상용 키트가 사용될 수 있다. 개인의 신선한 샘플은 추가 처리(가령, 세포 용해 및 추출) 전에 RNA를 보존하기 위해 작용제로 처리될 수 있다. 샘플은 다른 목적으로 수집된 냉동 샘플을 포함할 수 있다. 샘플은 관련 정보, 가령, 연령, 성별, 및 피험체에게 존재하는 임상 증상, 샘플의 출처, 및 샘플의 수집 및 저장 방법과 연관될 수 있다. 샘플은 일반적으로 피험체로부터 얻어진다.
생검은 진단 또는 예후 평가를 위해 조직 샘플을 제거하고 조직 표본 자체를 제거하는 과정으로 구성된다. 해당 분야의 통상의 기술자는 본 개시내용의 분자 프로파일링 방법에 적용될 수 있다. 적용되는 생검 기술은 평가될 조직 유형(가령, 결장, 전립선, 신장, 방광, 림프절, 간, 골수, 혈액 세포, 폐, 유방 등), 종양의 크기 및 유형(가령, 고체형인지 또는 부유형인지, 혈액인지 복수인지), 그 밖의 다른 요인에 따라 달라질 수 있다. 대표적인 생검 기술의 비제한적 예를 들면, 절제 생검, 절개 생검, 바늘 생검, 외과 생검 및 골수 생검이 있다. "절제 생검"은 종양을 둘러싼 정상 조직의 작은 마진과 함께 전체 종양 덩어리를 제거하는 것을 지칭한다. "절개 생검"은 종양의 단면 직경을 포함하는 조직의 웨지를 제거하는 것을 지칭한다. 분자 프로파일링은 종양 덩어리의 "코어-침 생검" 또는 일반적으로 종양 덩어리 내로부터 세포의 현탁액을 얻는 "세침 흡인 생검"을 사용할 수 있다. 예를 들어, 생검 기술은 Harrison 's Principles of Internal Medicine, Kasper외, eds., 16th ed., 2005, Chapter 70 및 Part V 전체에서 설명된다.
달리 언급되지 않는 한, 환자의 분자 프로파일링을 위해 본 명세서에서 언급되는 "샘플"은 둘 이상의 물리적 표본을 포함할 수 있다. 하나의 비제한적인 예로서, "샘플"은 종양으로부터의 다수의 섹션, 예를 들어 FFPE 블록의 다수의 섹션 또는 다중 코어-침 생검 섹션을 포함할 수 있다. 또 다른 비제한적인 예를 들어, "샘플"은 다수의 생검 표본, 예를 들어, 하나 이상의 외과용 생검 표본, 하나 이상의 코어-침 생검 표본, 하나 이상의 세침 흡인 생검 표본, 또는 이들의 임의의 유용한 조합을 포함할 수 있다. 또 다른 비제한적인 예로서, 고형 종양 표본 및 체액 표본을 포함하는 "샘플"을 사용하여 피험체에 대해 분자 프로파일이 생성될 수 있다. 일부 구체예에서, 샘플은 단일 샘플, 즉 단일 물리적 표본이다.
해당 분야에 알려져 있고 구체적으로 기재되지 않는 표준 분자 생물학 기법은 일반적으로, 본 명세서에서 참조로서 포함되는 Sambrook 외, Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Laboratory Press, New York (1989), 및 Ausubel 외, Current Protocols in Molecular Biology, John Wiley and Sons, Baltimore, Md.(1989) 및 Perbal, A Practical Guide to Molecular Cloning, John Wiley & Sons, New York (1988), 및 Watson 외, Recombinant DNA, Scientific American Books, New York and in Birren et al (eds) Genome Analysis: A Laboratory Manual Series, Vols.1-4 Cold Spring Harbor Laboratory Press, New York (1998) 및 미국 특허 번호 4,666,828; 4,683,202; 4,801,531; 5,192,659 및 5,272,057에 제공된 방법에 있는 바를 따른다. 중합효소 연쇄 반응(PCR)은 일반적으로 PCR Protocols: A Guide to Methods and Applications, Academic Press, San Diego, Calif.(1990)에 있는 바에 따라 수행될 수 있다.
소포
샘플은 소포를 포함할 수 있다. 본 명세서에 기재된 방법은 하나 이상의 소포를 평가하는 것, 가령, 소포 개체군을 평가하는 것을 포함할 수 있다. 본 명세서에서 사용될 때, 소포는 세포로부터 흘리는 막 소포이다. 소포 또는 막 소포는 순환 미세 소포(cMV), 미세소포, 엑소좀, 나노소포, 덱소좀, 수포, 물집, 프로스타좀, 미세입자, 내강 소포, 막 단편, 내강 엔도좀 소포, 엔도좀-유사 소포, 엑소시토시스 소포, 엔도좀 소포, 엔도조말 소포, 자멸소체, 다낭체, 분비 소포, 인지질 소포, 리포좀 소포, 아르고좀, 텍사좀, 시크레좀, 톨러로좀, 멜라노 좀, 온코좀, 또는 외세포성 소포를 포함하지만, 이에 한정되는 않는다. 또한, 소포는 상이한 세포 과정에 의해 생성될 수 있지만, 본 명세서에 기재된 방법은 그러한 소포가 생체 샘플 내에 존재하고 본 명세서에 개시된 방법에 의해 특징 화될 수 있는 한, 임의의 하나의 메커니즘에 제한되거나 이에 의존되지 않는다. 달리 특징되지 않는 한, 소포의 표본을 사용하는 방법은 그 밖의 다른 다른 유형의 소포에 적용될 수 있다. 소포는 때때로 페이로드라고 지칭되는, 가용성 성분을 포함할 수 있는 내부 구획을 둘러싸는 세포막과 유사한 지질 이중층을 갖는 구형 구조를 포함한다. 일부 구체예에서, 본 명세서에 기재된 방법은 직경이 약 40-100 nm 인 작은 분비 소포인 엑소좀을 사용한다. 유형 및 특징화를 포함한 막 소포를 검토하기 위해, Thery 외, Nat Rev Immunol.2009 Aug;9(8):581-93를 참조할 수 있다. 다양한 유형의 소포의 일부 특성은 표 1에 있는 특성을 포함한다:
표 1: 소포 속성
Figure pct00004
약어: 포스파티딜 세린(PPS: phosphatidylserine), 전자 현미경(EM: electron microscopy)
소포는 원형질막 또는 내부 막에서 유래된 흘리기 막 결합 입자 또는 "마이크로입자"를 포함한다. 소포는 세포로부터 세포외 환경으로 방출될 수 있다. 소포를 방출하는 세포는 외배엽, 내배엽 또는 중배엽으로부터 기원되거나 이로부터 유래된 세포를 포함하지만, 이에 한정되지는 않는다. 세포는 유전적, 환경적 및/또는 그 밖의 다른 임의의 변이 또는 변화를 겪었을 수 있다. 예를 들어, 세포는 종양 세포일 수 있다. 소포는 근원 세포의 모든 변화를 반영할 수 있으며, 이에 따라 기원 세포의 변화, 가령, 다양한 유전자 돌연변이를 가진 세포를 반영할 수 있다. 하나의 메커니즘에서, 소포는 세포막의 한 부분이 자발적으로 침투하여 궁극적으로 세포외 유출된다(가령, Keller 외, Immunol.Lett.107 (2): 102-8 (2006) 참조). 소포는 탈장(출포) 분리와 원형질막의 일부의 밀봉 모두로부터 또는 종양 기원의 다양한 막-연관단백질을 함유하는 임의의 세포내 막-경계 소포 구조의 내보내기로부터 발생하는 지질 이중층 막에 의해 결합된 세포-유래 구조, 가령, 소포 내강에 함유된 분자, 비제한적 예를 들면 종양-유래 마이크로RNA 또는 세포내 단백질과 함께 종양-유래 단백질에 선택적으로 결합된 숙주 순환으로부터 유래된 표면-결합 분자를 포함한다. 수포 및 출혈은 Charras 외, Nature Reviews Molecular and Cell Biology, Vol.9, No.11, p.730-736 (2008)에 더 기재되어 있다. 순환으로 흘러 나오는 소포 또는 종양 세포로부터의 체액이 나오는 것을 "순환하는 종양-유래 소포"라고 지칭될 수 있다. 이러한 소포가 엑소좀인 경우, 순환 종양 유래 엑소좀(CTE)이라고 지칭될 수 있다. 일부 사례에서 소포는 특정 기원 세포로부터 유래될 수 있다. 기원 세포 특정 소포와 마찬가지로, CTE는 일반적으로, 예를 들어, 체액으로부터 그리고 때로는 특정 방식으로 CTE 또는 기원 세포 특정 소포의 단리를 가능하게 하는 하나 이상의 고유한 바이오마커를 가진다. 예를 들어, 세포 또는 조직 특정 마커는 기원 세포를 식별하는 데 사용된다. 이러한 세포 또는 조직 특정 마커의 예가 본 명세서에 개시되어 있으며, bioinfo.wilmer.jhu.edu/tiger/에서 이용 가능한 Tissue-specific Gene Expression and Regulation (TiGER) Database; Liu 외(2008) TiGER: a database for tissue-specific gene expression and regulation.BMC Bioinformatics.9:271; genome.dkfz-heidelberg.de/menu/tissue_db/index.html에서 이용 가능한 TissueDistributionDB에서 더 접근될 수 있다.
소포는 약 10nm, 20nm 또는 30nm보다 큰 직경을 가질 수 있다. 소포는 40nm, 50nm, 100nm, 200nm, 500nm, 1000nm 또는 10,000nm보다 큰 직경을 가질 수 있다. 소포는 약 30-1000 nm, 약 30-800 nm, 약 30-200 nm, 또는 약 30-100 nm의 직경을 가질 수 있다. 일부 구체예에서, 소포는 10,000nm, 1000nm, 800nm, 500nm, 200nm, 100nm, 50nm, 40nm, 30nm, 20nm 또는 10nm 미만의 직경을 가진다. 본 명세서에서 사용될 때, 수치 값와 관련된 용어 "약"은 수치 값의 10 % 이상 또는 미만의 변화가 특정 값에 속하는 범위 내에 있음을 의미한다. 다양한 유형의 소포에 대한 일반적인 크기가 표 1에 나타나 있다. 소포는 단일 소포의 직경 또는 임의의 수의 소포를 측정하기 위해 평가될 수 있다. 예를 들어, 소포 개체군의 직경 범위 또는 소포 개체군의 평균 직경이 결정될 수 있다. 소포 직경은 해당 분야에 알려진 방법을 이용해, 가령, 전자 현미경 같은 이미징 기법을 이용해 평가될 수 있다. 하나의 구체예에서, 하나 이상의 소포의 직경은 광학 입자 검출을 사용하여 결정된다. 예를 들어, 2010년 07월 06일에 발행된 미국 특허 번호 7,751,053, 발명의 명칭 "Optical Detection and Analysis of Particles" 및 2010년 07월 15일에 공개된 미국 특허 번호 7,399,600, 발명의 명칭 "Optical Detection and Analysis of Particles"을 참조할 수 있다.
일부 구체예에서, 소포는 생체 샘플로부터 사전 단리, 정제 또는 농축 없이 생체 샘플로부터 직접 분석된다. 예를 들어, 샘플 내 소포의 양은 그 자체로 진단, 예후 또는 치료적 결정을 제공하는 바이오시그니처를 제공할 수 있다. 대안으로, 샘플의 소포는 분석 전에 샘플로부터 단리, 포획, 정제 또는 농축될 수 있다. 언급한 바와 같이, 본 명세서에 사용될 때 포획 또는 정제는 샘플 내 다른 성분과 별도로 부분 단리, 부분 포획 또는 부분 정제를 포함한다. 소포 단리는 본 명세서에 기재된 또는 종래 기술에서 알려진 다양한 기법, 비제한적 예를 들면, 크기 배제 크로마토그래피, 밀도 구배 원심분리, 차등 원심분리, 나노 막 한외 여과, 면역 흡수성 포획, 친화성 정제, 친화성 포획, 면역 분석, 면역 침전, 미세 유체 분리, 유세포 분석 또는 이들의 조합을 이용해 수행될 수 있다.
소포 특성을 기준에 비교함으로써, 소포가 평가되어 표현형 특징화를 제공할 수 있다. 일부 구체예에서, 소포 상의 표면 항원이 평가된다. 특정 마커를 보유한 소포 또는 소포 개체군은 양성(바이오마커+) 소포 또는 소포 개체군이라고 지칭될 수 있다. 예를 들어, DLL4+ 개체군은 DLL4와 연관된 소포 개체군을 지칭한다. 반대로, DLL4- 개체군은 DLL4와 연관되지 않을 것이다. 표면 항원은 소포의 해부학적 기원 및/또는 세포의 표시자 및 기타 표현형 정보, 예를 들어 종양 상태를 제공할 수 있다. 예를 들어, 환자 샘플에서 발견된 소포는 결장 직장 기원 및 암의 존재를 나타내는 표면 항원에 대해 평가되어 대장암 세포와 연관된 소포를 식별할 수 있다. 표면 항원은 소포박 표면 상에서 검출될 수 있는 임의의 정보성 생체 개체, 비제한적 예를 들면, 표면 단백질, 지질, 탄수화물 및 그 밖의 다른 막 성분을 포함할 수 있다. 예를 들어, 종양 항원을 발현하는 결장 유래 소포의 양성 검출은 환자가 대장 암에 걸렸다는 것을 나타낼 수 있다. 이와 같이, 본 명세서에 기재된 방법은 예를 들어 피험체로부터 수득된 하나 이상의 소포의 질병 특이적 및 세포 특이적 바이오마커를 평가함으로써 해부학적 또는 세포 기원과 관련된 임의의 질병 또는 상태를 특징화하는 데 사용될 수 있다.
구체예에서, 표현형 특징화를 제공하기 위해 하나 이상의 소포 페이로드가 평가된다. 소포를 갖는 페이로드는 소포 내 캡슐화되는 것으로 검출될 수 있는 정보성 생체 개체, 비제한적 예를 들면, 단백질 및 핵산, 예를 들어 게놈 또는 cDNA, mRNA 또는 이의 기능적 단편, 뿐만 아니라 마이크로RNA(miR)를 포함한다. 또한, 본 명세서에 기재된 방법은 표현형 특징화를 제공하기 위해 (소포 페이로드에 추가로 또는 이를 대신하여) 소포 표면 항원을 검출하는 것과 관련된다. 예를 들어, 소포는 소포 표면 항원 특정적 결합제(예를 들어, 항체 또는 압타머)를 사용하여 특징화될 수 있으며, 결합된 소포는 본 명세서에 기재된 하나 이상의 페이로드 성분을 식별하도록 더 평가될 수 있다. 본 명세서에 기재된 바와 같이, 관심 표면 항원 또는 관심 페이로드를 갖는 소포의 레벨은 표현형을 특징화하기 위해 기준에 비교될 수 있다. 예를 들어, 암 관련 표면 항원 또는 소포 페이로드의 샘플, 예를 들어, 기준과 비교하여 종양 관련 mRNA 또는 microRNA의 과발현은 샘플에서의 암의 존재를 나타낼 수 있다. 평가된 바이오마커는 원하는 표적 샘플의 선택 및 원하는 참조 샘플에 대한 표적 샘플의 비교에 기초하여 존재 또는 부재, 증가 또는 감소될 수 있다. 표적 샘플의 비제한적인 예로는 질병; 치료됨/치료되지 않음; 상이한 시점, 가령, 종단 연구; 및 참조 샘플의 비 제한적 예: 비-질병; 표준; 상이한 시점; 및 후보 치료에 대한 민감성 또는 내성이 있다.
하나의 구체예에서, 본 명세서에 기재된 분자 프로파일링은 미세소포, 가령, 순환 미세소포의 분석을 포함한다.
MicroRNA
다양한 바이오마커 분자는 생체 샘플 또는 이러한 생체 샘플로부터 획득된 소포에서 평가될 수 있다. MicroRNA는 본 명세서에 기재된 방법을 통해 평가되는 하나의 부류 바이오마커를 포함한다. 본 명세서에서 miRNA 또는 miR로도 지칭되는 MicroRNA는 길이가 대략 21-23개 뉴클레오티드인 짧은 RNA가닥이다. MiRNA는 DNA에서 전사되지만 단백질로 번역되지 않는 유전자에 의해 인코딩되므로 비-코딩 RNA를 포함한다. miR은 pri-miRNA로 알려진 1차 전사체로부터 pre-miRNA라고 하는 짧은 줄기 루프 구조로, 그리고 마지막으로 생성된 단일 가닥 miRNA로 처리된다. pre-miRNA는 일반적으로 자기 상보적 영역에서 자체적으로 접히는 구조를 형성한다. 그런 다음 이들 구조는 동물의 뉴클레아제 다이서 또는 식물의 DCL1에 의해 처리된다. 성숙한 miRNA 분자는 하나 이상의 메신저 RNA(mRNA) 분자에 부분적으로 상보적이며 단백질의 번역을 조절하는 기능을 할 수 있다. 식별된 miRNA 서열은 공개적으로 이용 가능한 데이터베이스, 가령, www.microRNA.org, www.mirbase.org 또는 www.mirz.unibas.ch/cgi/miRNA.cgi에서 액세스될 수 있다.
miRNA는 일반적으로 "mir-[number]"라는 명명 규칙에 따라 번호가 지정된다. miRNA의 수는 이전에 식별된 miRNA 종과 관련된 발견 순서에 따라 할당된다. 예를 들어, 마지막으로 게시된 miRNA가 mir-121인 경우, 다음에 발견된 miRNA는 mir-122 등으로 명명될 것이다. 상이한 유기체의 알려진 miRNA와 동종인 miRNA가 발견될 때, 이름은 [유기체 식별자]-mir-[번호] 형식의 선택적 유기체 식별자를 부여 받을 수 있다. 식별자는 호모 사피엔스(Homo sapiens)의 경우 hsa, 무스 무스쿨루스(Mus Musculus)의 경우 mmu를 가진다. 예를 들어, mir-121에 대한 인간 동족체는 hsa-mir-121로 지칭될 수 있는 반면, 마우스 동족체는 mmu-mir-121로 지칭될 수 있다.
성숙한 microRNA는 일반적으로 접두사 "miR"로 지정되는 반면 유전자 또는 전구체 miRNA는 접두사 "mir"로 지정된다. 예를 들어, mir-121은 miR-121의 전구체다. 상이한 miRNA 유전자 또는 전구체가 동일한 성숙한 miRNA로 처리될 때 유전자/전구체는 번호가 붙은 접미사로 표시될 수 있다. 예를 들어, mir-121-1 및 mir-121-2는 miR-121로 처리되는 별개의 유전자 또는 전구체를 나타낼 수 있다. 문자 접미사는 밀접하게 관련된 성숙한 서열을 나타내는 데 사용된다. 예를 들어, mir-121a 및 mir-121b는 각각 밀접하게 관련된 miRNA 인 miR-121a 및 miR-121b로 처리될 수 있다. 본 개시 내용의 맥락에서, 접두사 mir- * 또는 miR- *로 본 명세서에 지정된 임의의 microRNA(miRNA 또는 miR)는 달리 명시적으로 언급되지 않는 한 전구체 및/또는 성숙한 종을 모두 포함하는 것으로 이해된다.
때로는 두 개의 성숙한 miRNA 서열이 동일한 전구체에서 유래하는 것으로 관찰된다. 서열 중 하나가 다른 것보다 더 풍부할 경우, "*" 접미사가 사용되어 덜 일반적인 변형을 지정할 수 있다. 예를 들어, miR-121이 우세한 산물인 반면 miR-121 *은 전구체의 반대쪽 팔에서 발견되는 덜 일반적인 변형이다. 우세한 변형이 식별되지 않는 경우, miR은 전구체의 5' 팔로부터 나온 변형에 대한 접미사 "5p" 및 3' 팔로부터 변형에 대한 접미사 "3p"로 구분될 수 있다. 예를 들어, miR-121-5p는 전구체의 5' 팔에서 시작되는 반면 miR-121-3p는 3' 팔에서 기원한다. 덜 일반적으로, 5p 및 3p 변형은 각각 센스( "s") 및 안티-센스( "as") 형식이라고 지칭된다. 예를 들어, miR-121-5p는 miR-121-s로 지칭될 수 있는 반면 miR-121-3p는 miR-121-as로 지칭될 수 있다.
상기 명명 규칙은 시간이 지남에 따라 발전했으며 절대적인 규칙이 아닌 일반적인 지침이다. 예를 들어, miRNA의 let- 및 lin- 군은 이들 모니커(moniker)에 의해 계속 참조된다. 전구체/성숙한 형태에 대한 mir/miR 규약도 지침이며 어떤 형태를 참조할지 결정하기 위해 맥락을 고려해야 한다. MiR 명명 규칙의 추가 세부사항이 www.mirbase.org 또는 Ambros 외, A uniform system for microRNA annotation, RNA 9:277-279 (2003)에서 발견될 수 있다.
식물 miRNA는 Meyers 외, Plant Cell.2008 20(12):3186-3190에서 기재된 바와 같이 상이한 명명 규칙을 따른다.
많은 miRNA가 유전자 조절에 관여하며, miRNA는 현재 유전자 조절의 주요 계층으로 인식되고 있는 비-코딩 RNA의 성장하는 클래스의 일부이다. 일부 경우에, miRNA는 표적 mRNA의 3'-UTR에 내장된 조절 부위에 결합하여, 번역을 방해하여 번역을 억제할 수 있다. 표적 인식은 표적 부위와 miRNA의 시드 영역(miRNA의 5' 단부에서 2-8 위치)의 상보적인 염기 쌍을 포함하지만, 정확한 종자 상보성의 정도는 정확하게 결정되지 않고 3' 쌍으로 수정될 수 있다. 다른 경우에, miRNA는 작은 간섭 RNA(siRNA)처럼 기능하고 완벽하게 상보적인 mRNA 서열에 결합하여 표적 전사체를 파괴할 수 있다.
많은 miRNA의 특성화는 초기 발달, 세포 증식 및 세포 사멸, 세포 사멸 및 지방 대사를 포함한 다양한 과정에 영향을 미친다는 것을 나타낸다. 예를 들어, 일부 miRNA, 가령, lin-4, let-7, mir-14, mir-23 및 bantam은 세포 분화 및 조직 발달에 중요한 역할을 하는 것으로 나타났다. 다른 것들은 이들의 공간적 및 시간적 표현 패턴이 다르기 때문에 마찬가지로 중요한 역할을 한다고 여겨진다.
miRBase(www.mirbase.org)에서 제공되는 miRNA 데이터베이스는 게시된 miRNA 염기 서열 및 주석의 검색 가능한 데이터베이스를 포함한다. miRBase에 대한 추가 정보는 다음 논문에서 찾을 수 있으며, 각 논문은 그 전체가 본 명세어세 참조로서 포함된다: Griffiths-Jones 외, miRBase: tools for microRNA genomics.NAR 2008 36(Database Issue):D154-D158; Griffiths-Jones 외, miRBase: microRNA sequences, targets and gene nomenclature.NAR 2006 34(Database Issue):D140-D144; 및 Griffiths-Jones, S.The microRNA Registry.NAR 2004 32(Database Issue):D109-D111. miRBase의 버전 16에 포함된 대표적인 miRNA는 2010년 9월에 이용 가능해졌다.
본 명세서에 기재된 바와 같이, microRNA는 암 및 기타 질환에 관여하는 것으로 알려져 있으며 샘플에서 표현형을 특징화하기 위해 평가될 수 있다. 예를 들어, Ferracin 외, Micromarkers: miRNAs in cancer diagnosis and prognosis, Exp Rev Mol Diag, Apr 2010, Vol.10, No.3, Pages 297-308; Fabbri, miRNAs as molecular biomarkers of cancer, Exp Rev Mol Diag, May 2010, Vol.10, No.4, Pages 435-444를 참조할 수 있다.
하나의 구체예에서, 본 명세서에 기재된 분자 프로파일링은 microRNA의 분석을 포함한다.
소포 및 miR을 분리하고 특징화하는 기술은 해당 분야의 통상의 기술자에게 알려져 있다. 본 명세서에 제시된 방법에 추가로, 추가 방법이 본 명세서에서 참조로서 포함되는 다음 특허 문서에서 발견된다: 미국 특허 번호 7,888,035, 발명의 명칭 "METHODS FOR ASSESSING RNA PATTERNS" 2011년02월15일 공개; 및 7,897,356, 발명의 명칭 "METHODS AND SYSTEMS OF USING EXOSOMES FOR DETERMINING PHENOTYPES" 2011년 03월 01일 공개; 및 국제 특허 공개 번호 WO/2011/066589, 발명의 명칭 "METHODS AND SYSTEMS FOR ISOLATING, STORING, AND ANALYZING VESICLES" 2010년 11월 30일 출원; WO/2011/088226, 발명의 명칭 "DETECTION OF GASTROINTESTINAL DISORDERS" 2011년01월13일 출원; WO/2011/109440, 발명의 명칭 "BIOMARKERS FOR THERANOSTICS" 2011년03월01일 출원; 및 WO/2011/127219, 발명의 명칭 "CIRCULATING BIOMARKERS FOR DISEASE" 2011년 04월 06일 출원.
순환 바이오마커
순환 바이오마커는 체액, 가령, 혈액, 혈장, 혈청에서 검출 가능한 바이오마커를 포함한다. 순환 암 바이오마커의 예로는 심장 트로포닌 T(cTnT), 전립선 암에 대한 전립선 특이 항원(PSA) 및 난소 암에 대한 CA125가 있다. 본 개시 내용에 따른 순환 바이오마커는 체액에서 검출될 수 있는 임의의 적절한 바이오마커, 비제한적 예를 들면, 단백질, 핵산, 예를 들어 DNA, mRNA 및 microRNA, 지질, 탄수화물 및 대사 산물을 포함한다. 순환 바이오마커는 세포와 연관되지 않은 바이오마커, 예를 들어 막 연관된 것이거나, 막 단편에 포함되거나, 생물학적 복합체의 일부이거나, 용액에 없는 바이오마커를 포함할 수 있다. 하나의 구체예에서, 순환 바이오마커는 피험체의 생물학적 유체에 존재하는 하나 이상의 소포와 관련된 바이오마커이다.
순환 바이오마커는 암 검출과 같은 다양한 표현형의 특징화에 사용하기 위해 식별되었다. 예를 들어, Ahmed N외, Proteomic-based identification of haptoglobin-1 precursor as a novel circulating biomarker of ovarian cancer.Br.J.Cancer 2004; Mathelin 외, Circulating proteinic biomarkers and breast cancer, Gynecol Obstet Fertil.2006 Jul-Aug;34(7-8):638-46.Epub 2006 Jul 28; Ye 외, Recent technical strategies to identify diagnostic biomarkers for ovarian cancer.Expert Rev Proteomics.2007 Feb;4(1):121-31; Carney, Circulating oncoproteins HER2/neu, EGFR and CAIX (MN) as novel cancer biomarkers.Expert Rev Mol Diagn.2007 May;7(3):309-19; Gagnon, Discovery and application of protein biomarkers for ovarian cancer, Curr Opin Obstet Gynecol.2008 Feb;20(1):9-13; Pasterkamp 외, Immune regulatory cells: circulating biomarker factories in cardiovascular disease.Clin Sci (Lond).2008 Aug;115(4):129-31; Fabbri, miRNAs as molecular biomarkers of cancer, Exp Rev Mol Diag, May 2010, Vol.10, No.4, Pages 435-444; PCT 특허 공개 번호 WO/2007/088537; 미국 특허 번호 7,745,150 및 7,655,479; 미국 특허 공개 번호 20110008808, 20100330683, 20100248290, 20100222230, 20100203566, 20100173788, 20090291932, 20090239246, 20090226937, 20090111121, 20090004687, 20080261258, 20080213907, 20060003465, 20050124071, 및 20040096915를 참조할 수 있으며, 이들 각각은 그 전체가 본 명세서에 참조로서 포함된다. 하나의 구체예에서, 본 명세서에 기재된 바와 같은 분자 프로파일링은 순환 바이오마커의 분석을 포함한다.
유전자 발현 프로파일링
본 명세서에 기재된 방법 및 시스템은 본 명세서에 개시된 하나 이상의 표적 유전자의 차등 발현을 평가하는 것을 포함하는 발현 프로파일링을 포함한다. 차등 발현은 대조군(또는 참조)과 비교하여 생물학적 산물, 예를 들어 유전자, mRNA 또는 단백질의 과발현 및/또는 과소 발현을 포함할 수 있다. 대조군은 샘플과 유사한, 그러나 질병이 없는 세포(가령, 건강한 개인의 샘플에서 얻은 발현 프로파일)를 포함할 수 있다. 대조군은 특정 질병 및 특정 약물 표적과 관련된 약물 표적 효능을 나타내는 이전에 결정된 수준일 수 있다. 대조군은 동일한 환자, 예를 들어 질병에 걸린 세포와 동일한 장기의 정상적인 인접 부분에서 유래 할 수 있으며, 대조군은 특정 약물 표적에 반응하는 다른 환자의 건강한 조직 또는 질병 반응 여부를 나타내는 이전에 결정된 역치에서 유래 할 수 있다. 대조군은 동일한 샘플에서 발견되는 대조군, 가령, 세포유지 유전자 또는 그 산물(가령, mRNA 또는 단백질)일 수도 있다. 예를 들어, 대조군 핵산은 세포의 암성 또는 비-암성 상태에 따라 다르지 않는 것으로 알려진 것일 수 있다. 대조 핵산의 발현 수준은 검사 및 참조 개체군에서 신호 수준을 정규화하는 데 사용될 수 있다. 예시적인 대조군 유전자는 예를 들어, β-액틴, 글리세르알데히드 3-포스페이트 탈수소 효소 및 리보솜 단백질 P1을 포함하지만 이에 제한되지 않는다. 여러 대조군 또는 대조군 유형이 사용될 수 있다. 차등 발현의 원인은 달라질 수 있다. 예를 들어, 세포에서 유전자 복제수가 증가하여 유전자 발현이 증가 할 수 있다. 대안으로, 유전자의 전사는 예를 들어 염색질 리모델링, 차등 메틸화, 전사 인자의 차등 발현 또는 활성 등에 의해 변형될 수 있다. 번역은 또한 예를 들어 mRNA를 저하하는 인자의 차등 발현, mRNA 번역, 침묵 번역, 예를 들어, microRNA 또는 siRNA에 의해 변형될 수 있다. 일부 구체예에서, 차등 발현은 차등 활성을 포함한다. 예를 들어, 단백질은 단백질의 활성을 증가시키는 돌연 변이, 가령, 구조 활성화를 지닐 수 있어서, 질병 상태에 기여할 수 있다. 활성의 변화를 나타내는 분자 프로파일링이 사용되어 치료 선택이 안내될 수 있다.
유전자 발현 프로파일링 방법은 폴리 뉴클레오티드의 혼성화 분석에 기반한 방법과 폴리 뉴클레오티드의 시퀀싱에 기반한 방법을 포함한다. 샘플에서 mRNA 발현의 정량화를 위해 해당 분야의 통상의 기술자에게 알려진 일반적으로 사용되는 방법은 노던 블롯 및 현장 혼종화를 포함한다(Parker & Barnes (1999) Methods in Molecular Biology 106:247-283); RNAse protection assays (Hod (1992) Biotechniques 13:852-854); and reverse transcription polymerase chain reaction (RT-PCR) (Weis 외(1992) Trends in Genetics 8:263-264). 대안으로, 특정 이중 나선, 가령, DNA 이중 나선, RNA 이중 나선 및 DNA-RNA 하이브리드 이중 나선 또는 DNA-단백질 이중 나선을 인식할 수 있는 항체가 사용될 수 있다. 시퀀싱-기반 유전자 발현 분석을 위한 대표적인 방법은 SAGE(Serial Analysis of Gene Expression), MPSS(massively parallel signature sequencing) 및/또는 차세대 시퀀싱에 의한 유전자 발현 분석을 포함한다.
RT-PCR
역전사 중합효소 연쇄 반응(RT-PCR: Reverse transcription polymerase chain reaction)은 중합효소 연쇄 반응(PCR)의 변형이다. 이 기법에 따르면, RNA 가닥은 효소 역전사 효소를 사용하여 DNA 보체(즉, 상보적 DNA 또는 cDNA)로 역전사되고 결과적인 cDNA는 PCR을 사용하여 증폭된다. 실시간 중합효소 연쇄 반응은 정량적 PCR, Q-PCR, qRT-PCR 또는 때로는 RT-PCR이라고도 하는 또 다른 PCR 변이체이다. 역전사 PCR 방법 또는 실시간 PCR 방법은 본 개시 내용에 따라 분자 프로파일링을 위해 사용될 수 있으며, RT-PCR은 달리 명시되지 않는 한 또는 해당 분야의 통상의 기술자에 의해 이해되는 바와 같이 지칭될 수 있다.
RT-PCR이 사용되어 본 명세서에 기재된 바와 같은 바이오마커의 RNA 수준, 예를 들어 mRNA 또는 miRNA 수준이 결정될 수 있다. RT-PCR은 약물 치료 유무에 관계없이 다양한 샘플 집단, 정상 및 종양 조직에서 본 명세서에 기재된 바이오마커의 이러한 RNA 수준을 비교하고, 유전자 발현 패턴을 특징화하고, 밀접하게 관련된 RNA를 구별하고, RNA 구조를 분석하는 데 사용될 수 있다.
첫 번째 단계는 샘플에서 RNA, 예를 들어 mRNA를 분리하는 것이다. 출발 물질은 각각 인간 종양 또는 종양 세포주 및 상응하는 정상 조직 또는 세포주로부터 분리된 총 RNA일 수 있다. 따라서 RNA는 샘플(가령, 종양 세포 또는 종양 세포주)에서 분리될 수 있으며 건강한 기증자의 풀링된 DNA와 비교할 수 있다. mRNA의 출처가 원발성 종양인 경우, mRNA는 예를 들어 냉동 또는 보관된 파라핀 내장 및 고정(가령, 포르말린 고정) 조직 샘플에서 추출될 수 있다.
mRNA 추출을 위한 일반적인 방법은 해당 분야에 잘 알려져 있고 분자 생물학의 표준 교과서, 가령, Ausubel 외(1997) Current Protocols of Molecular Biology, John Wiley and Sons에 개시되어 있다. 파라핀 내장 조직으로부터 RNA를 추출하는 방법은 예를 들어 Rupp & Locker (1987) Lab Invest.56:A67, and De Andres 외, BioTechniques 18:42044 (1995)에 개시되어 있다. 특히, RNA 분리는 제조업체(QIAGEN Inc., 캘리포니아, 발렌시아)의 지시사항에 따라 정제 키트, 완충 세트, 및 상업적 제조업체, 가령, Qiagen로부터의 프로테아제를 이용해 수행될 수 있다. 예를 들어, Qiagen RNeasy 미니-컬럼을 사용하여 배양중인 세포의 총 RNA를 분리할 수 있다. 수많은 RNA 분리 키트가 상업적으로 이용 가능하며 본 명세서에 기재된 방법에 사용될 수 있다.
대안으로, 첫 번째 단계는 표적 샘플로부터 miRNA를 분리하는 것이다. 출발 물질은 각각 인간 종양 또는 종양 세포주 및 상응하는 정상 조직 또는 세포주로부터 분리된 총 RNA일 수 있다. 따라서 RNA는 다양한 원발성 종양 또는 종양 세포주에서 분리될 수 있으며 건강한 기증자로부터 수집된 DNA를 사용한다. miRNA의 출처가 원발성 종양인 경우, miRNA는 예를 들어 냉동 또는 보관된 파라핀 내장 및 고정(가령, 포르말린 고정) 조직 샘플에서 추출될 수 있다.
miRNA 추출을 위한 일반적인 방법은 해당 분야에 잘 알려져 있고 분자 생물학의 표준 교과서, 가령, Ausubel 외(1997) Current Protocols of Molecular Biology, John Wiley and Sons에 개시되어 있다. 파라핀 내장 조직으로부터 RNA를 추출하는 방법은 예를 들어 Rupp & Locker (1987) Lab Invest.56:A67, and De Andres 외, BioTechniques 18:42044 (1995)에 개시되어 있다. 특히 RNA 분리는 제조업체의 지침에 따라 Qiagen과 같은 상용 제조업체의 정제 키트, 완충 세트 및 프로테아제를 사용하여 수행될 수 있다. 예를 들어, Qiagen RNeasy 미니-컬럼을 사용하여 배양중인 세포의 총 RNA를 분리할 수 있다. 수많은 miRNA 분리 키트가 상업적으로 이용 가능하며 본 명세서에 기재된 방법에 사용될 수 있다.
RNA가 mRNA, miRNA 또는 다른 유형의 RNA를 포함하는지 여부에 관계없이 RT-PCR에 의한 유전자 발현 프로파일링에는 RNA 템플릿을 cDNA로 역전사한 다음 PCR 반응에서 증폭하는 것이 포함될 수 있다. 일반적으로 사용되는 역전사 효소의 비제한적 예를 들면, 아빌로 골수모세포증 바이러스 역전사 효소(AMV-RT) 및 몰로니 쥐 백혈병 바이러스 역전사 효소(MMLV-RT)가 있다. 역전사 단계는 일반적으로 상황과 발현 프로파일링의 목표에 따라 특정 프라이머, 랜덤 6량체 또는 올리고-dT 프라이머를 사용하여 프라이밍된다. 예를 들어, 추출된 RNA는 제조업체의 지침에 따라 GeneAmp RNA PCR 키트(Perkin Elmer, 미국, 캘리포니아 소재)를 사용하여 역전사될 수 있다. 파생된 cDNA는 후속 PCR 반응에서 템플릿으로 사용될 수 있다.
PCR 단계는 다양한 열안정성 DNA-의존성 DNA 폴리머아제를 사용할 수 있지만 일반적으로 5'-3' 뉴클레아제 활성을 갖지만 3'-5' 교정 엔도뉴클레아제 활성이 없는 Taq DNA 중합 효소를 사용한다. TaqMan PCR은 일반적으로 Taq 또는 Tth 폴리머아제의 5'-뉴클레아제 활성을 사용하여 표적 앰플리콘에 결합된 혼성화 프로브를 가수 분해하지만 동등한 5' 뉴 클레아제 활성을 가진 모든 효소가 사용될 수 있다. PCR 반응의 전형적인 앰플리콘을 생성하기 위해 2개의 올리고 뉴클레오티드 프라이머가 사용된다. 세 번째 올리고뉴클레오티드 또는 프로브는 두 개의 PCR 프라이머 사이에 위치한 뉴클레오티드 서열을 검출하도록 설계되었다. 프로브는 Taq DNA 폴리머아제 효소에 의해 확장될 수 없으며, 리포터 형광 염료와 소광제 형광 염료로 라벨링된다. 리포터 염료(reporter dye)로부터 레이저로 유도된 방출은 두 염료가 프로브에 있을 때 서로 가까이 위치할 때 감소 염료(quenching dye)에 의해 감소된다. 증폭 반응 동안 Taq DNA 폴리머아제 효소는 템플릿-종속 방식으로 프로브를 절단한다. 결과적 프로브 단편은 용액에서 분리되고 방출된 리포터 염료로부터의 신호는 두 번째 형광단의 감소 효과가 없습니다. 합성된 각각의 새로운 분자에 대해 하나의 리포터 염료 분자가 해방되며, 감소되지 않은 리포터 염료의 검출은 데이터의 정량적 해석을 위한 기초를 제공한다.
TaqMan™ RT-PCR은 상용화된 장비, 가령, ABI PRISM 7700?? Sequence Detection System™ (Perkin-Elmer-Applied Biosystems, 미국, 캘리포니아, 포스터 시티 소재), 또는 LightCycler (Roche Molecular Biochemicals, 독일, 맨하임 소재)를 이용해 수행될 수 있다. 하나의 구체예에서, 5' 뉴클레아제 절차는 실시간 정량적 PCR 장치, 가령, ABI PRISM 7700 서열 검출 시스템 상에서 실행된다. 이 시스템은 열순환기, 레이저, CCD(charge-coupled device), 카메라 및 컴퓨터로 구성된다. 이 시스템은 열순환기에서 96-웰 포맷으로 샘플을 증폭한다. 증폭 동안, 레이저-유도 형광 신호는 96개의 모든 웰에 대해 광섬유 케이블을 통해 실시간으로 수집되고 CCD에서 검출된다.시스템은 기기를 실행하고 데이터를 분석하기 위한 소프트웨어를 포함한다.
TaqMan 데이터는 처음에 Ct 또는 임계값 주기로 표시된다. 앞서 논의한 바와 같이, 형광 값은 모든 주기 동안 기록되며 증폭 반응에서 해당 지점까지 증폭된 산물의 양을 나타낸다. 형광 신호가 처음에 통계적으로 유의미한 것으로 기록되는 지점은 임계주기(Ct)이다.
오류와 샘플간 변동의 영향을 최소화하기 위해, RT-PCR은 일반적으로 내부 표준을 사용하여 수행된다. 이상적인 내부 표준은 상이한 조직간에 일정한 수준으로 표현되며 실험적 처리에 의해 영향을 받지 않는다. 유전자 발현 패턴을 정규화하는 데 가장 자주 사용되는 RNA는 세포유지 유전자 글리세랄데하이드-3-포스페이트-데하이드로게나제(GAPDH) 및 베타액틴(
Figure pct00005
-actin)에 대한 mRNA이다.
실시간 정량적 PCR(또한 정량적 실시간 폴리머아제 연쇄 반응, QRT-PCR 또는 Q-PCR)은 RT-PCR 기술의 최근 변형이다. Q-PCR은 이중-라벨링된 형광생성 프로브(즉, TaqMan 프로브)를 통해 PCR 산물 축적을 측정할 수 있다. 실시간 PCR은 각 표적 서열에 대한 내부 경쟁자가 정규화에 사용되는 정량적 경쟁 PCR과 샘플에 포함된 정규화 유전자 또는 RT-PCR을 위한 세포유지 유전자를 사용하는 정량적 비교 PCR과 모두 호환된다. 예를 들어 Held 외(1996) Genome Research 6:986-994를 참조할 수 있다.
단백질-기반 검출 기술은 특히 뉴클레오티드 변이가 단백질 1차, 2차 또는 3차 구조에 영향을 미치는 아미노산 치환 또는 결실 또는 삽입 또는 프레임 이동을 유발할 때 분자 프로파일링에 유용하다. 아미노산 변이를 검출하기 위해 단백질 시퀀싱 기술이 사용될 수 있다. 예를 들어, 유전자에 해당하는 단백질 또는 이의 단편은 검사 대상 개체로부터 단리된 DNA 단편을 사용하여 재조합 발현에 의해 합성될 수 있다. 바람직하게는, 결정될 다형성 유전자 자리를 포함하는 100 내지 150개 이하의 염기쌍의 cDNA 단편이 사용된다. 그 후 펩티드의 아미노산 서열은 통상적인 단백질 서열 분석 방법에 의해 결정될 수 있다. 또는, HPLC-현미경 탠덤 질량 분석 기법이 사용되어 아미노산 서열 변이를 결정할 수 있다. 이 기법에서 단백질 분해 분해는 단백질에서 수행되고 생성된 펩타이드 혼합물은 역상 크로마토 그래피 분리에 의해 분리된다. 그런 다음 탠덤 질량 분석이 수행되고 수집된 데이터가 분석된다. Gatlin 외, Anal.Chem., 72:757-763 (2000)을 참조할 수 있다.
마이크로어레이
본 명세서에 기재된 바와 같은 바이오마커는 또한 마이크로어레이 기술을 사용하여 확인, 확인 및/또는 측정될 수 있다. 따라서 마이크로어레이 기술을 사용하여 암 샘플에서 발현 프로파일 바이오마커를 측정할 수 있다. 이 방법에서, 관심 폴리뉴클레오티드 서열은 마이크로칩 기질에 도금 또는 배열된다. 배열된 서열은 관심 세포 또는 조직의 특정 DNA 프로브와 혼성화된다. mRNA의 소스는 샘플, 예를 들어, 인간 종양 또는 종양 세포주 및 상응하는 정상 조직 또는 세포주로부터 단리된 총 RNA일 수 있다. 따라서 RNA는 다양한 원발성 종양 또는 종양 세포주로부터 단리될 수 있다. mRNA의 소스가 원발성 종양인 경우, mRNA는 예를 들어 냉동 또는 보관된 파라핀 내장 및 고정(가령, 포르말린 고정) 조직 샘플에서 추출될 수 있으며, 이는 일상 임상 실시에서 일상적으로 제조되고 보존된다.
바이오마커의 발현 프로파일은 마이크로어레이 기술을 사용하여 신선하거나 파라핀이 내장된 종양 조직 또는 체액에서 측정될 수 있다. 이 방법에서, 관심 폴리뉴클레오티드 서열은 마이크로칩 기질에 도금 또는 배열된다. 배열된 서열은 관심 세포 또는 조직의 특정 DNA 프로브와 혼성화된다. RT-PCR 방법과 마찬가지로, miRNA의 소스는 일반적으로 인간 종양 또는 종양 세포주, 가령, 체액, 가령, 혈청, 소변, 눈물 및 엑소좀 및 이에 대응하는 정상 조직 또는 세포주로부터 단리된다. 따라서 RNA는 다양한 소스로부터 단리될 수 있다. miRNA의 출처가 원발성 종양인 경우, 예를 들어, 일상적인 임상 실습에서 일상적으로 준비되고 보존되는 냉동 조직 샘플에서 miRNA이 추출될 수 있다.
각각 주어진 유전자를 나타내는 cDNA 또는 올리고뉴클레오티드는 기질(가령, 작은 칩, 비드 또는 나일론 막)에 고정되고 태그가 지정되고 관심 생체 샘플에서 발현되는지 여부를 나타내는 프로브 역할을 한다. 각각 주어진 유전자를 나타내는 cDNA 또는 올리고뉴클레오티드는 기질(가령, 작은 칩, 비드 또는 나일론 막)에 고정되고 태그가 지정되고 관심 생체 샘플에서 발현되는지 여부를 나타내는 프로브 역할을 한다. 수천 개의 유전자의 동시 발현이 동시에 모니터링될 수 있다.
마이크로어레이 기법의 특정 구체예에서, cDNA 클론의 PCR 증폭된 삽입은 고밀도 어레이의 기질에 적용된다. 하나의 양태에서, 적어도 100, 200, 300, 400, 500, 600, 700, 800, 900, 1,000, 1,500, 2,000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10,000, 15,000, 20,000, 25,000, 30,000, 35,000, 40,000, 45,000 또는 적어도 50,000개의 뉴클레오티드 서열이 기질에 적용된다. 각각의 서열은 다른 유전자에 대응할 수 있거나, 유전자당 여러 서열이 배열될 수 있다. 마이크로 칩에 고정된 마이크로어레이 유전자는 엄격한 조건 하에서 혼성화에 적합하다. 형광 라벨링된 cDNA 프로브는 관심 조직으로부터 추출된 RNA의 역전사에 의한 형광 뉴클레오티드의 통합을 통해 생성될 수 있다. 칩에 적용된 라벨링된 cDNA 프로브는 어레이 상의 각 DNA 지점에 특이적으로 혼성화된다. 비특이적으로 결합된 프로브를 제거하기 위해 엄격한 세척 후 칩은 공초점 레이저 현미경 또는 CCD 카메라와 같은 다른 감지 방법으로 스캔된다. 배열된 각 요소의 혼성화를 정량화하면 해당 mRNA 풍부도를 평가할 수 있다. 이중 색상 형광을 사용하면, 두 RNA 소스로부터 생성된 개별적으로 라벨링된 cDNA 프로브가 어레이에 쌍으로 혼성화된다. 따라서 각 특정 유전자에 해당하는 두 소스로부터의 전 사체의 상대적 풍부도가 동시에 결정된다. 소형화된 규모의 혼성화는 다수의 유전자에 대한 발현 패턴의 편리하고 신속한 평가를 제공한다. 이러한 방법은 세포당 몇 개의 사본으로 발현되는 희귀 전 사체를 검출하고 발현 수준에서 적어도 약 2 배의 차이를 재현 가능하게 검출하는 데 필요한 감도를 갖는 것으로 나타났다(Schena 외(1996) Proc.Natl.Acad.Sci.USA 93(2):106-149). 마이크로어레이 분석은 제조업체의 프로토콜, 비제한적 예를 들면, Affymetrix GeneChip technology (Affymetrix, 캘리포니아, 산타 클라라 소재), Agilent (Agilent Technologies, Inc., 캘리포니아, 산타 클라라 소재), 또는 Illumina (Illumina, Inc., 캘리포니아, 샌 디에고 소재)에 따르는 사용화된 장비에 의해 수행될 수 있다.
유전자 발현의 대규모 분석을 위한 마이크로어레이 방법의 개발은 다양한 종양 유형에서 암 분류 및 결과 예측의 분자 마커를 체계적으로 검색할 수 있게 한다.
일부 구체예에서에서, Agilent Whole Human Genome Microarray Kit (Agilent Technologies, Inc., 캘리포니아, 산타 클라라 소재)가 있다. 이 시스템은 공용 도메인 주석을 사용하여 41,000개 이상의 고유한 인간 유전자 및 전사체를 분석할 수 있다. 이 시스템은 제조업체의 지침에 따라 사용된다.
일부 구체예에서, Illumina Whole Genome DASL assay (Illumina Inc., 캘리포니아, 샌 디에고)가 사용된다. 이 시스템은 신선한 냉동(FF) 및 포르말린 고정 파라핀 내장(FFPE) 조직 소스에서 최소 RNA 입력으로부터 24,000개 이상의 전 사체를 높은 처리량 방식으로 동시에 프로파일링하는 방법을 제공한다.
마이크로어레이 발현 분석은 유전자 또는 유전자 산물이 기준에 비해 상향 조절되는지 또는 하향 조절되는지 확인하는 것을 포함한다. 식별은 관찰된 모든 차등 발현의 통계적 유의성을 결정하기 위해 통계 테스트를 사용하여 수행될 수 있다. 일부 구체예에서, 통계적 유의성은 모수적 통계 테스트를 사용하여 결정된다. 모수적 통계 검정은 예를 들어 부분 요인 설계, 분산 분석(ANOVA), t-검정, 최소 제곱, 피어슨 상관, 단순 선형 회귀, 비선형 회귀, 다중 선형 회귀 또는 다중 비선형 회귀를 포함할 수 있다. 또는, 모수적 통계 테스트는 일원 분산 분석, 양방향 분산 분석 또는 반복 측정 분산 분석을 포함할 수 있다. 또 다른 구체예에서, 통계적 유의성은 비모수적 통계 테스트를 사용하여 결정된다. 예로는 윌콕슨(Wilcoxon) 부호 순위 검정, 맨-휘트니(Mann-Whitney) 검정, 크루스컬-월리스(Kruskal-Wallis) 검정, 프리드먼(Friedman) 검정, 스피어맨(Spearman) 순위 순서 상관 계수, 켄달 타우(Kendall Tau) 분석 및 비모수 회귀 검정이 있다. 일부 구체예에서, 통계적 유의성은 약 0.05, 0.01, 0.005, 0.001, 0.0005, 또는 0.0001 미만의 p-값에서 결정된다. 본 명세서에 기재된 방법에 사용 된 마이크로어레이 시스템이 수천 개의 전 사체를 분석 할 수 있지만, 데이터 분석은 관심있는 전 사체에 대해서만 수행하면되므로 다중 통계 테스트를 수행하는 데 내재 된 다중 비교 문제를 줄일 수 있다. P-값은 또한 예를 들어 본페로니(Bonferroni) 보정, 이의 수정 또는 해당 분야에 알려진 다른 기술(가령, 호흐베르크(Hochberg) 보정, 홈-본페로니(Holm-Bonferroni) 보정, 시닥(??idαk) 보정 또는 더넷(Dunnett) 보정)을 사용하여 다중 비교를 위해 보정될 수 있다.. 차등 발현의 정도가 또한 고려될 수 있다. 예를 들어, 유전자는 대조군 수준에 비해 발현의 배 변화가 샘플 대 대조군에서 최소 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0, 2.2, 2.5, 2.7, 3.0, 4, 5, 6, 7, 8, 9 또는 10-배 차이가 있다. 차등 발현은 과발현과 과소 발현을 모두 고려한다. 유전자 또는 유전자 산물은 차동 발현이 통계적 임계 값, 폴드-변경 임계 값 또는 둘 다를 충족하는 경우 상향 또는 하향 조절된 것으로 간주 될 수 있다. 예를 들어, 차별적 발현을 식별하는 기준은 p- 값 0.001과 최소 1.5 배(위 또는 아래)의 폴드 변화를 모두 포함할 수 있다. 해당 분야의 통상의 기술자는 이러한 통계 및 역치 측정이 본 명세서에 개시된 임의의 분자 프로파일링 기술에 의해 차별적 발현을 결정하도록 적용될 수 있음을 이해할 것이다.
본 명세서에 기재된 다양한 방법은 샘플에서 생물학적 개체의 존재 및 잠재적으로 양을 검출하는 다양한 유형의 마이크로어레이를 사용한다. 어레이는 일반적으로 예를 들어 결합 이벤트를 통해 샘플에서 개체의 존재를 감지 할 수 있는 어드레싱 가능한 모이어티를 포함한다. 마이크로어레이는 cDNA 마이크로어레이, 올리고 뉴클레오티드 마이크로어레이 및 SNP 마이크로어레이, microRNA 어레이, 단백질 마이크로어레이, 항체 마이크로어레이, 조직 마이크로어레이, 세포 마이크로어레이(트랜스펙션 마이크로어레이라고도 함), 화학적 화합물 마이크로어레이 및 탄수화물 어레이(글리코 어레이)와 같은 DNA 마이크로어레이를 제한없이 포함한다. DNA 어레이는 일반적으로 샘플에 존재하는 서열에 결합 할 수 있는 주소 지정 가능한 뉴클레오티드 서열을 포함한다. MicroRNA 어레이, 예를 들어 University of Louisville의 MMChips 어레이 또는 Agilent의 상용 시스템을 사용하여 microRNA를 검출 할 수 있다. 단백질 마이크로어레이는 단백질 키나제의 기질 식별, 전사 인자 단백질 활성화를 포함하되 이에 국한되지 않는 단백질-단백질 상호 작용을 식별하거나 생물학적으로 활성 인 작은 분자의 표적을 식별하는 데 사용할 수 있다. 단백질 어레이는 관심 단백질에 결합하는 상이한 단백질 분자, 일반적으로 항체 또는 뉴클레오티드 서열의 어레이를 포함할 수 있다. 항체 마이크로어레이는 샘플, 예를 들어 세포 또는 조직 용 해물 용액에서 단백질 또는 기타 생물학적 물질을 검출하기 위해 포획 분자로 사용되는 단백질 칩에 스팟 팅 된 항체를 포함한다. 예를 들어, 항체 어레이는 진단 적용을 위해 체액, 예를 들어 혈청 또는 소변에서 바이오마커를 검출하는 데 사용될 수 있다. 조직 마이크로어레이는 다중 조직 학적 분석을 허용하기 위해 어레이 방식으로 조립 된 별도의 조직 코어로 구성된다. 형질 감염 마이크로어레이라고도 하는 세포 마이크로어레이는 항체, 단백질 또는 지질과 같은 다양한 포획 제를 포함하며, 세포와 상호 작용하여 주소 지정 가능한 위치에서 포획을 용이하게 할 수 있다. 화학적 화합물 마이크로어레이는 화학적 화합물의 어레이를 포함하며 화합물을 결합하는 단백질 또는 기타 생물학적 물질을 검출하는 데 사용할 수 있다. 탄수화물 어레이(글리코 어레이)는 탄수화물 어레이를 포함하고 예를 들어 당 모이어티에 결합하는 단백질을 검출 할 수 있다. 해당 분야의 통상의 기술자는 본 명세서에 설명 된 방법에 따라 유사한 기술 또는 개선이 사용될 수 있음을 이해할 것이다.
현재 방법의 특정 구체예는 다중 웰 플레이트 또는 다중 챔버 미세 유체 장치를 포함 하나 이에 제한되지 않는 다중 웰 반응 용기를 포함하며, 여기서 다수의 증폭 반응 및 일부 구체예에서 검출은 전형적으로 병렬로 수행된다. 특정 구체예에서, 앰플리콘을 생성하기 위한 하나 이상의 다중 반응은 96-웰, 384-웰, 1536-웰 플레이트 등, 또는 미세유체 장치, 비제한적 예를 들면, TaqMan™ 저밀도 어레이(Applied Biosystems, 캘리포니아, 포스터 시티 소재)과 같은 다중-웰 플레이트를 포함 하나 이에 제한되지 않는 동일한 반응 용기에서 수행된다. 일부 구체예에서, 대규모 병렬 증폭 단계는 다중 반응 웰을 포함하는 플레이트, 예를 들어 24-웰 플레이트, 96-웰 플레이트, 384-웰 플레이트, 또는 1536-웰 플레이트; 또는 다중 챔버 미세 유체 장치, 예를 들어 저밀도 어레이에 제한되지 않고 각 챔버 또는 웰은 적절한 프라이머, 프라이머 세트 및/또는 리포터 프로브를 적절하게 포함한다. 일반적으로 이러한 증폭 단계는 일련의 병렬 단일 플렉스(plex), 2 플렉스, 3 플렉스, 4 플렉스, 5 플렉스 또는 6 플렉스 반응에서 발생하지만 더 높은 수준의 병렬 멀티플렉싱도 의도된 범위 내에 있다. 이들 방법은 관심 핵산 분자를 증폭 및/또는 검출하기 위해 각각의 웰 또는 챔버에서 RT-PCR과 같은 PCR 방법론을 포함할 수 있다.
저밀도 어레이에는 수 천개의 분자가 아닌 수십 개 또는 수백 개의 분자를 감지하는 어레이가 포함될 수 있다. 이들 어레이는 고밀도 어레이보다 더 민감할 수 있다. 구현예에서, 저 밀도 어레이, 가령, TaqMan™ 저밀도 어레이가 사용되어 WO2018175501의 표 5-12 중 어느 하나에서 하나 이상의 유전자 또는 유전자 산물을 검출할 수 있다. 예를 들어, 저밀도 어레이는 WO2018175501의 표 5-12 중 어느 것으로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90 또는 100 유전자 또는 유전자 산물을 검출하도록 사용될 수 있다.
일부 구체예에서, 개시된 방법은 미세 유체 장치, "랩 온 칩" 또는 마이크로 토탈 분석 시스템(pTAS)을 포함한다. 일부 구체예에서, 샘플 준비는 미세 유체 장치를 사용하여 수행된다. 일부 구체예에서, 증폭 반응은 미세 유체 장치를 사용하여 수행된다. 일부 구체예에서, 시퀀싱 또는 PCR 반응은 미세 유체 장치를 사용하여 수행된다. 일부 구체예에서, 증폭된 산물의 적어도 일부의 뉴클레오티드 서열은 미세 유체 장치를 사용하여 수득된다. 일부 구체예에서, 검출은 미세 유체 장치, 비제한적 예를 들면 TaqMan™ 저밀도 어레이와 같은 저밀도 어레이를 포함한다. 예시적인 미세 유체 장치의 설명은 예를 들어 공개 PCT 출원 번호 WO/0185341 및 WO 04/011666, Kartalov and Quake, Nucl.Acids Res.32:2873-79, 2004; 및 Fiorini and Chiu, Bio Techniques 38:429-46, 2005에 개시되어 있다.
임의의 적절한 미세 유체 장치가 본 명세서에 기재된 방법에서 사용될 수 있다. 분자 프로파일링과 함께 사용되도록 사용되거나 구성될 수 있는 미세 유체 장치의 예는 비제한적 예를 들어, 미국 특허 번호 7,591,936, 7,581,429, 7,579,136, 7,575,722, 7,568,399, 7,552,741, 7,544,506, 7,541,578, 7,518,726, 7,488,596, 7,485,214, 7,467,928, 7,452,713, 7,452,509, 7,449,096, 7,431,887, 7,422,725, 7,422,669, 7,419,822, 7,419,639, 7,413,709, 7,411,184, 7,402,229, 7,390,463, 7,381,471, 7,357,864, 7,351,592, 7,351,380, 7,338,637, 7,329,391, 7,323,140, 7,261,824, 7,258,837, 7,253,003, 7,238,324, 7,238,255, 7,233,865, 7,229,538, 7,201,881, 7,195,986, 7,189,581, 7,189,580, 7,189,368, 7,141,978, 7,138,062, 7,135,147, 7,125,711, 7,118,910, 7,118,661, 7,640,947, 7,666,361, 7,704,735; 미국 특허 출원 공개 번호 20060035243; 및 국제 특허 공개 번호 WO 2010/072410가 있으며, 이들 각각은 그 전체가 본 명세서에 참조로서 포함된다. 본 명세서에 개시된 방법과 함께 사용되기 위한 또 다른 예시가 Chen 외, "Microfluidic isolation and transcriptome analysis of serum vesicles," Lab on a Chip, Dec.8, 2009 DOI: 10.1039/b916199f에 기재되어 있다.
대량 병렬 시그니처 시퀀싱(MPSS: Massively Parallel Signature Sequencing)에 의한 유전자 발현 분석
Brenner 외(2000) Nature Biotechnology 18:630-634에 의해 기재되어 있는 이 방법은 개별 마이크로비즈 상의 수십억 개의 템플릿의 체외 복제와 비-겔-기반 시그니처 시퀀싱을 조합하는 시퀀싱 방식이다. 첫째, DNA 템플릿의 마이크로비즈 라이브러리는 체외 복제에 의해 구축된다. 그 후 고밀도에서 플로우 셀에서 템플릿이 포함된 마이크로 비드의 평면의 어레이가 뒤 따른다. DNA 단편 분리가 필요 없는 형광 기반 시그니처 시퀀싱 방법을 사용하여 각 마이크로비즈에서 복제된 템플릿의 자유 단부가 동시에 분석된다. 이 방법은 cDNA 라이브러리에서 수십만 개의 유전자 서명 서열을 단일 작업으로 동시에 정확하게 제공하는 것으로 나타났다.
MPSS 데이터에는 많은 용도가 있다. 거의 모든 전사체의 발현 수준은 정량적으로 결정될 수 있다, 풍부한 시그니처는 분석된 조직에서 유전자의 발현 수준을 나타낸다. 태그 빈도 분석 및 라이브러리 간의 차이 감지를위한 정량적 방법이 게시되어 SAGE™ 데이터에 대한 공용 데이터베이스에 통합되었으며 MPSS 데이터에 적용할 수 있다. 완전한 게놈 서열의 가용성은 게놈 서열에 대한 서명의 직접 비교를 허용하고 MPSS 데이터의 유용성을 더욱 확장한다. MPSS 분석 대상이 (마이크로어레이에서와 같이) 미리 선택되지 않았기 때문에 MPSS 데이터는 전 사체의 전체 복잡성을 특징화 할 수 있다. 이는 수백만 개의 EST를 한 번에 시퀀싱하는 것과 유사하며, 게놈 서열 데이터를 사용하여 MPSS 서명의 소스를 계산 수단으로 쉽게 식별할 수 있다.
유전자 발현의 연속 분석(SAGE: Serial Analysis of Gene Expression)
SAGE(Serial Analysis of Gene Expression)는 각각의 전사체에 대해 개별 혼성화 프로브를 제공 할 필요없이 다수의 유전자 전 사체를 동시에 정량적으로 분석할 수 있는 방법이다. 먼저, 각각의 전사체 내의 고유한 위치에서 태그를 얻는 경우 전 사체를 고유하게 식별하는 데 충분한 정보를 포함하는 짧은 서열 태그(가령, 약 10-14bp)가 생성된다. 그런 다음, 많은 전사체가 서로 연결되어 긴 연속 분자를 형성하며, 이는 시퀀싱될 수 있으며 동시에 여러 태그의 정체성을 드러낸다. 모든 전사체 집단의 발현 패턴은 개별 태그의 풍부도를 결정하고 각각의 태그에 해당하는 유전자를 식별하여 정량적으로 평가할 수 있다. 예를 들어 Velculescu 외(1995) Science 270:484-487; and Velculescu 외(1997) Cell 88:243-51를 참조할 수 있다.
DNA 복제수 프로파일링
특정 샘플의 DNA 복제수 프로파일을 결정할 수 있는 임의의 방법은 해상도가 본 명세서에 기재된 바이오마커에서 복제수 변이를 확인하기에 충분하다면 본 명세서에 기재된 방법에 따라 분자 프로파일링에 사용될 수 있다. 해당 분야의 통상의 기술자는 본 명세서에 기술 된 방법의 하나 이상의 바이오마커의 복제수를 확인하기에 충분한 해상도로 전체 게놈 복제수 변화를 평가하기위한 다수의 상이한 플랫폼을 인지하고 사용할 수 있다. 플랫폼 및 기술 중 일부는 아래의 실시예에서 설명된다. 본 명세서에 기술 된 일부 구체예에서, 본 명세서에 기술되거나 해당 업계에 공지된 차세대 시퀀싱 또는 ISH 기술은 복제수/유전자 증폭을 결정하기 위해 사용된다.
일부 구체예에서, 복제수 프로파일 분석은 전체 게놈 증폭 방법에 의한 전체 게놈 DNA의 증폭을 포함한다. 전체 게놈 증폭 방법은 가닥 치환 폴리머아제와 랜덤 프라이머를 사용할 수 있다.
이들 구체예의 일부 측면에서, 복제수 프로파일 분석은 전체 게놈 증폭 DNA와 고밀도 어레이의 혼성화를 포함한다. 더 구체적인 측면에서 고밀도 어레이는 5,000개 이상의 서로 다른 프로브를 가진다. 또 다른 특정 측면에서, 고밀도 어레이는 5,000, 10,000, 20,000, 50,000, 100,000, 200,000, 300,000, 400,000, 500,000, 600,000, 700,000, 800,000, 900,000, 또는 1,000,000 이상의 상이한 프로브를 가진다. 또 다른 특정 측면에서, 어레이 상의 상이한 프로브 각각은 약 15 내지 200개의 염기 길이를 갖는 올리고뉴클레오티드이다. 또 다른 특정 양태에서, 어레이상의 상이한 프로브 각각은 약 15 내지 200, 15 내지 150, 15 내지 100, 15 내지 75, 15 내지 60, 또는 20 내지 55 개의 염기 길이를 갖는 올리고뉴클레오티드이다.
일부 구체예에서, 샘플, 예를 들어 종양 유래 세포에 대한 복제수 프로파일을 결정하는 데 도움을주기 위해 마이크로어레이가 사용된다. 마이크로어레이는 전형적으로 어레이 패턴으로 기판(예를 들어, 유리 지지체) 상에 합성되거나 침착된 복수의 올리고머(예를 들어, DNA 또는 RNA 폴리 뉴클레오티드 또는 올리고 뉴클레오티드, 또는 다른 중합체)를 포함한다. 지지체 결합 올리고머는 혼성화 실험에서 샘플 물질(예를 들어, 종양 샘플에서 제조되거나 얻은 핵산)과 혼성화 또는 결합하는 기능을하는 "프로브"이다. 반대 상황도 적용될 수 있다: 샘플은 마이크로어레이 기판에 결합될 수 있고 올리고머 프로브는 혼종화를 위해 용액 내에 있다. 사용시, 어레이 표면은 하나 이상의 프로브에 대한 표적의 특이적, 고친화성 결합을 촉진하는 조건 하에서 하나 이상의 표적과 접촉된다. 일부 구성에서 샘플 핵산은 형광 태그와 같은 검출 가능한 라벨로 라벨링되어 혼성화 된 샘플 및 프로브를 스캐닝 장비로 검출 할 수 있다. DNA 어레이 기술은 DNA 복제수 프로파일을 분석하기 위해 많은(가령, 수십만 개의) 올리고 뉴클레오티드를 사용할 수 있는 잠재력을 제공한다. 일부 구체예에서, 어레이에 사용되는 기질은 표면-유도체 화 된 유리 또는 실리카, 또는 중합체 막 표면이다(가령, in Z.Guo외, Nucleic Acids Res, 22, 5456-65 (1994); U.Maskos, E.M.Southern, Nucleic Acids Res, 20, 1679-84 (1992), and E.M.Southern외, Nucleic Acids Res, 22, 1368-73 (1994)를 참조할 수 있으며, 각각은 본 명세서에 참조로서 포함된다). 어레이 기판의 표면 수정은 많은 기술로 수행될 수 있다. 예를 들어, 규산 또는 금속 산화물 표면은 이작용성 실란, 즉 표면에 공유 결합을 가능하게하는 제1 작용기(가령, --SiCl3 또는--Si(OCH3) 3에서와 같은 Si- 할로겐 또는 Si-알콕시 기)으로 유도체화 될 수 있고 생물학적 프로브 어레이를위한 리간드 및/또는 중합체 또는 단량체를 공유 또는 비공유적으로 부착하기 위해 표면에 원하는 화학적 및/또는 물리적 변형을 부여 할 수 있는 제 2 작용기를 갖는 실란일 수 있다. 해당 분야에 알려진 실릴화된 유도체화 및 그 밖의 다른 표면 유도체화(Sundberg의 미국 특허 번호 5,624,711, Willis의 미국 특허 번호 5,266,222, 및 Farnsworth의 미국 특허 번호 5,137,765).어레이를 제조하는 그 밖의 다른 프로세스가 현장 합성 방법에 의해 생성된 DNA 어레이를 개시하는 Agilent Corp에게 양도된 미국 특허 번호 6,649,348에 기재되어 있다.
중합체 어레이 합성은 또한 그 전체가 본 명세서에 참조로서 포함되는 다음의 문헌에 광범위하게 기술되어있다: WO00/58516, 미국 특허 번호 5,143,854, 5,242,974, 5,252,743, 5,324,633, 5,384,261, 5,405,783, 5,424,186, 5,451,683, 5,482,867, 5,491,074, 5,527,681, 5,550,215, 5,571,639, 5,578,832, 5,593,839, 5,599,695, 5,624,711, 5,631,734, 5,795,716, 5,831,070, 5,837,832, 5,856,101, 5,858,659, 5,936,324, 5,968,740, 5,974,164, 5,981,185, 5,981,956, 6,025,601, 6,033,860, 6,040,193, 6,090,555, 6,136,269, 6,269,846 and 6,428,752, 5,412,087, 6,147,205, 6,262,216, 6,310,189, 5,889,165, 및 5,959,098, PCT 출원 번호 PCT/US99/00730 (국제 공개 번호 WO 99/36760) 및 PCT/US01/04285 (국제 공개 번호 WO 01/58593).
본 개시 내용에 유용한 핵산 어레이는 브랜드 명 GeneChip™으로 Affymetrix(캘리포니아 주 산타 클라라)로부터 상업적으로 입수 가능한 것들을 포함하지만 이에 제한되지 않는다. 예제 어레이는 affymetrix.com 웹 사이트에 나와 있다. 또 다른 마이크로어레이 공급 업체는 캘리포니아 샌디에고에 소재하는 Illumina, Inc.이며, 자사 웹 사이트 illumina.com에 예제 어레이가 나와 있다.
일부 구체예에서, 본 발명의 방법은 샘플 제조를 제공한다. 수행될 마이크로어레이 및 실험에 따라, 샘플 핵산은 숙련된 기술자에게 알려진 방법에 의해 다양한 방법으로 제조될 수 있다. 본 명세서에 기재된 일부 측면에서, 유전형 분석(복제수 프로파일 분석) 이전에 또는 이와 동시에, 샘플은 임의의 수의 메커니즘으로 증폭될 수 있다. 사용되는 가장 일반적인 증폭 절차로는 PCR이 있다. 예를 들어, PCR Technology: Principles and Applications for DNA Amplification (Ed.H.A.Erlich, Freeman Press, NY, N.Y., 1992); PCR Protocols: A Guide to Methods and Applications (Eds.Innis외, Academic Press, San Diego, Calif., 1990); Mattila 외, Nucleic Acids Res.19, 4967 (1991); Eckert 외, PCR Methods and Applications 1, 17 (1991); PCR (Eds.McPherson 외, IRL Press, Oxford); 및 미국 특허 번호 4,683,202, 4,683,195, 4,800,159 4,965,188, 및 5,333,675를 참조할 수 있으며, 이들 각각은 본 명세서에서 참조로서 포함된다. 일부 구체예에서, 샘플은 어레이상에서 증폭될 수 있다(예를 들어, 본 명세서에 참조로 포함되는 미국 특허 번호 6,300,070).
또 다른 적절한 증폭 방법은 리가제 연쇄 반응(LCR: ligase chain reaction)(예를 들어, Wu and Wallace, Genomics 4, 560 (1989), Landegren 외, Science 241, 1077 (1988) and Barringer 외Gene 89:117 (1990)), transcription amplification (Kwoh 외, Proc.Natl.Acad.Sci.USA 86, 1173 (1989) 및 WO88/10315), 자가-지속 서열 복제(Guatelli 외, Proc.Nat.Acad.Sci.USA, 87, 1874 (1990) 및 WO90/06995), 표적 폴리뉴클레오티드 서열의 선택적 증폭(미국 특허 번호 6,410,276), 컨센서스 서열 프라이밍 중합 효소 연쇄 반응(CP-PCR: consensus sequence primed polymerase chain reaction)(미국 특허 번호 4,437,975) , 임의 프라이밍된 폴리머아제 연쇄 반응(AP-PCR: arbitrarily primed polymerase chain reaction)(미국 특허 번호 5,413,909, 5,861,245) 및 핵산 기반 서열 증폭(NABSA: nucleic acid based sequence amplification)(미국 특허 번호 5,409,818, 5,554,517 및 6,063,603 참조, 이들 각각은 본 명세서에 참조로 포함됨)을 포함한다. 사용될 수 있는 다른 증폭 방법은 미국 특허 번호 5,242,794, 5,494,810, 4,988,617 및 미국 특허 출원 번호 09/854,317에 기재된 바가 있으며, 이들 각각은 본 명세서에 참조로 포함된다.
샘플 준비의 추가 방법 및 핵산 샘플의 복잡성을 감소시키기 위한 기법은 Dong 외, Genome Research 11, 1418 (2001), 미국 특허 번호 6,361,947, 6,391,592 및 미국 특허 출원 번호 09/916,135, 09/920,491 (미국 특허 출원 공개 번호 20030096235), 09/910,292 (미국 특허 출원 공개 번호 20030082543), 및 10/013,598에 기재되어 있다.
폴리 뉴클레오티드 혼성화 분석을 수행하는 방법은 해당 업계에서 잘 개발되어있다. 본 명세서에 기재된 방법에 사용되는 혼성화 검정 절차 및 조건은 응용 분야에 따라 달라질 수 있으며 다음과 같은 공지된 일반적인 결합 방법에 따라 선택된다: Maniatis 외Molecular Cloning: A Laboratory Manual (2.sup.nd Ed.Cold Spring Harbor, N.Y., 1989); Berger and Kimmel Methods in Enzymology, Vol.152, Guide to Molecular Cloning Techniques (Academic Press, Inc., San Diego, Calif., 1987); Young and Davism, P.N.A.S, 80: 1194 (1983). 반복 및 제어된 혼성화 반응을 수행하기 위한 방법 및 장치는 미국 특허 번호 5,871,928, 5,874,219, 6,045,996 및 6,386,749, 6,391,623에 기재되어 있으며, 이들 각각은 참조로서 포함된다.
본 명세서에 기재된 방법은 또한 혼성화 후(및/또는 도중)에서 리간드 간 혼성화의 신호 검출을 포함할 수 있다. 미국 특허 번호 5,143,854, 5,578,832; 5,631,734; 5,834,758; 5,936,324; 5,981,956; 6,025,601; 6,141,096; 6,185,030; 6,201,639; 6,218,803; 및 6,225,625, 미국 특허 출원 번호 10/389,194 및 PCT 출원 PCT/US99/06097 (공개 번호 WO99/47964)를 참조할 수 있으며, 이들 각각은 본 명세서에 참조로서 포함된다.
신호 검출 및 강도 데이터 처리를 위한 방법 및 장치는 예를 들어, 미국 특허 5,143,854, 5,547,839, 5,578,832, 5,631,734, 5,800,992, 5,834,758; 5,856,092, 5,902,723, 5,936,324, 5,981,956, 6,025,601, 6,090,555, 6,141,096, 6,185,030, 6,201,639; 6,218,803; 및 6,225,625, 미국 특허 출원 번호 10/389,194, 60/493,495 및 PCT 출원 번호 PCT/US99/06097(공개 번호 WO99/47964)에 개시되어 있으며, 이들 각각은 본 명세서에 참조로서 포함된다.
면역-기반 검정
단백질-기반 검출 분자 프로파일링 기술은 본 방법에 따라 돌연변이 유전자 코딩된 단백질과 선택적으로 면역 반응하는 항체에 기초한 면역 친화성 검정을 포함한다. 이들 기술은 제한 없이 면역 침전, 웨스턴 블롯 분석, 분자 결합 분석, 효소 결합 면역 흡착 분석(ELISA), 효소 결합 면역 여과 분석(ELIFA), 형광 활성화 세포 분류(FACS) 등을 포함한다. 예를 들어, 샘플에서 바이오마커의 발현을 검출하는 선택적인 방법은 샘플을 바이오마커에 대한 항체, 또는 항체의 면역 반응성 단편, 또는 항체의 항원 결합 영역을 포함하는 재조합 단백질과 접촉시키는 단계, 또는 샘플 내 바이오마커의 결합을 검출하는 단계를 포함한다. 이러한 항체를 생산하는 방법은 해당 업계에 공지되어있다. 항체는 용액 샘플에서 특정 단백질을 면역 침전시키거나 예를 들어 폴리아크릴아미드 겔로 분리된 단백질을 면역 블롯하는 데 사용될 수 있다. 면역 세포 화학적 방법은 조직이나 세포에서 특정 단백질 다형성을 검출하는 데에도 사용할 수 있다. 예를 들어, ELISA, 방사성 면역 분석(RIA), 면역 방사성 분석(IRMA) 및 면역 효소 분석(IEMA), 가령 단클론 또는 다클론 항체를 사용한 샌드위치 검정을 포함하는 다른 잘 알려진 항체 기반 기술이 또한 사용될 수 있다. 예를 들어, 미국 특허 번호 4,376,110 및 4,486,530를 참조할 수 있으며, 이들 각각은 참조로서 포함된다.
대안적인 방법에서, 샘플은 항체-바이오마커 복합체가 형성하기에 충분한 조건 하에서 바이오마커에 특이적인 항체와 접촉한 다음 상기 복합체를 검출 할 수 있다. 바이오마커의 존재는 혈장 또는 혈청을 포함한 다양한 조직 및 샘플을 검정하기 위한 웨스턴 블롯팅 및 ELISA 절차와 같은 다양한 방법으로 검출될 수 있다. 이러한 분석 형식을 사용하는 광범위한 면역 분석 기술은 가령, 4,016,043, 4,424,279 및 4,018,653에서 이용 가능하다. 여기에는 비경쟁 유형의 1-사이트 및 2-사이트 또는 "샌드위치" 검정뿐만 아니라 전통적인 경쟁 결합 분석이 포함된다. 이들 검정은 라벨링된 항체가 표적 바이오마커에 직접 결합하는 것을 포함한다.
샌드위치 분석 기술의 많은 변형이 존재하며, 모두 본 방법에 포함되도록 의도된다. 간단히 말하면, 전형적인 순방향 분석에서, 라벨링되지 않은 항체는 고체 기질에 고정되고 테스트 할 샘플은 결합된 분자와 접촉하게 된다. 적절한 배양 기간 후, 항체-항원 복합체의 형성을 허용하기에 충분한 시간 동안 검출 가능한 신호를 생성할 수 있는 리포터 분자로 라벨링된 항원에 특이적인 2차 항체를 첨가하고 배양하여 시간이 허용된다. 반응하지 않은 물질은 씻어 내고 항원의 존재는 리포터 분자에 의해 생성 된 신호를 관찰하여 결정된다. 결과는 가시적 신호를 간단히 관찰하여 정성 적이거나 알려진 양의 바이오마커를 포함하는 대조 샘플과 비교하여 정량화할 수 있다.
순방향 분석의 변형에는 샘플과 라벨링된 항체가 결합된 항체에 동시에 추가되는 동시 분석이 포함된다. 이들 기법은 용이하게 명백한 임의의 사소한 변형을 포함하여 해당 분야의 통상의 기술자에게 잘 알려져있다. 전형적인 포워드 샌드위치 검정에서 바이오마커에 대한 특이성을 갖는 첫 번째 항체는 고체 표면에 공유 또는 수동적으로 결합된다. 고체 표면은 일반적으로 유리 또는 폴리머이며 가장 일반적으로 사용되는 폴리머는 셀룰로오스, 폴리 아크릴 아미드, 나일론, 폴리스티렌, 폴리 염화 비닐 또는 폴리 프로파일렌이다. 고체 지지체는 튜브, 비드, 마이크로 플레이트 디스크, 또는 면역 분석을 수행하기에 적합한 다른 표면의 형태일 수 있다. 결합 공정은 해당 업계에 잘 알려져 있으며 일반적으로 가교 결합 또는 물리적 흡착으로 구성되며, 중합체-항체 복합체는 시험 샘플을 위한 준비에서 세척된다. 그런 다음 검사될 샘플의 분취량을 고체상태 복합체에 첨가하고 충분한 시간(가령, 2-40분 또는 더 편리하게는 밤새) 동안 적절한 조건(가령, 실온에서 40
Figure pct00006
까지, 가령, 25
Figure pct00007
내지 32
Figure pct00008
경계값 포함))에서 배양하여, 항체에 존재하는 임의의 서브유닛의 결합을 허용한다. 배양 기간 후, 항체 서브유닛 고체상은 세척 및 건조되고 바이오마커의 일부에 특이적인 제2 항체와 함께 배양된다. 제2 항체는 분자 마커에 대한 제2 항체의 결합을 나타내는 데 사용되는 리포터 분자에 연결된다.
대안적인 방법은 샘플에서 표적 바이오마커를 고정시킨 다음 고정된 표적을 리포터 분자로 라벨링되거나 라벨링되지 않을 수 있는 특정 항체에 노출시키는 것을 포함한다. 표적의 양과 리포터 분자 신호의 강도에 따라, 결합된 표적은 항체로 직접 라벨링하여 검출될 수 있다. 대안으로, 제1 항체에 특이적인 제2 라벨링된 항체는 표적-제1 항체 복합체에 노출되어 표적-제1 항체-제2 항체 삼원 복합체를 형성할 수 있다. 이 복합체는 리포터 분자에 의해 방출되는 신호에 의해 검출된다. 본 명세서에서 사용되는 "리포터 분자"는 화학적 성질에 의해 항원 결합 항체의 검출을 허용하는 분석적으로 식별 가능한 신호를 제공하는 분자를 의미한다. 이 유형의 분석에서 가장 일반적으로 사용되는 리포터 분자는 효소, 형광단 또는 방사성 핵종 함유 분자(즉, 방사성 동위 원소) 및 화학 발광 분자이다.
효소 면역 검정의 경우, 효소는 일반적으로 글루타르알데히드 또는 과아이오딘산염에 의해 제2 항체에 공액결합된다. 그러나 쉽게 인식되는 바와 같이, 숙련된 기술자가 쉽게 이용할 수 있는 매우 다양한 상이한 접합 기술이 존재한다. 일반적으로 사용되는 효소에는 겨자무 페록시다제, 포도당 옥시다제, β-갈락토시다제 및 알칼리성 포스파타제가 포함된다. 특정 효소와 함께 사용될 기질은 일반적으로, 대응하는 효소에 의한 가수 분해 시, 검출 가능한 색상 변화의 생산을 위해 선택된다. 적합한 효소의 예로는 알칼리성 포스파타제 및 페록시다제를 포함한다. 앞서 언급된 발색 기질보다는 형광 산물을 생성하는 형광 기질을 사용하는 것이 가능하다. 모든 경우에, 효소-라벨링된 항체는 제1 항체-분자 마커 복합체에 추가되고 결합이 허용된 다음 여분의 시약이 세척된다. 그런 다음 적절한 기질을 포함하는 용액을 항체-항원-항체 복합체에 첨가된다. 기질은 제2 항체에 연결된 효소와 반응하여 정성적인 시각 신호를 제공하며, 이는 샘플에 존재하는 바이오마커의 양을 표시하기 위해 일반적으로 분광 광도계로 추가 정량화될 수 있다. 대안으로, 형광 화합물, 가령, 플루오레세인 및 로다민이 결합 능력을 변경하지 않고 항체에 화학적으로 결합될 수 있다. 특정 파장의 광으로의 조명에 의해 활성화될 때, 형광색소-라벨링된 항체가 광 에너지를 흡수하여, 분자의 여기 상태를 유도하고, 광학 현미경으로 시각적으로 검출 가능한 특성 색상에서 광의 발산이 뒤 따를 수 있다. EIA에서와 같이, 형광 라벨링된 항체는 제1 항체-분자 마커 복합체로 결합될 수 있다. 결합되지 않은 시약을 세척한 후, 나머지 3원 복합체를 적절한 파장의 광에 노출시키고 관찰된 형광은 관심 분자 마커의 존재를 나타낸다. 면역형광 및 EIA 기법은 모두 해당 분야에서 매우 잘 확립되어 있다. 그러나, 그 밖의 다른 리포터 분자, 가령, 방사성 동위 원소, 화학 발광 또는 생물 발광 분자도 사용될 수 있다.
면역 조직 화학(IHC: Immunohistochemistry)
IHC는 조직의 항원에 특이적으로 결합하는 항체의 세포에서 항원(가령, 단백질)을 국소화하는 과정이다. 항원-결합 항체는 예를 들어 시각화를 통해 검출을 허용하는 태그에 접합되거나 융합될 수 있다. 일부 구체예에서, 태그는 발색 반응을 촉진시킬 수 있는 효소, 가령, 알칼리성 포스파타제 또는 겨자무 페록시다제이다. 효소는 예를 들어 비오틴-아바딘 시스템을 이용해, 항체에 융합되거나 비공유 결합될 수 있다. 대안으로, 항체는 형광단, 가령, 플루오레세인, 로다민, DyLight Fluor 또는 Alexa Fluor으로 태깅될 수 있다. 항원-결합 항체는 직접 태그가 지정되거나 태그를 포함하는 검출 항체에 의해 자체적으로 인식될 수 있다. IHC를 사용하여 하나 이상의 단백질이 검출될 수 있다. 유전자 산물의 발현은 대조군 수준과 비교하여 염색 강도와 관련이 있을 수 있다. 일부 구체예에서, 유전자 산물은 이의 염색이 샘플과 대조군에서 적어도 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0, 2.2, 2.5, 2.7, 3.0, 4, 5, 6, 7, 8, 9 또는 10-배로 변하는 경우 차등적으로 발현되는 것으로 간주된다.
IHC는 항원-항체 상호 작용을 조직 화학적 기술에 적용하는 것을 포함한다. 예를 들면, 조직 섹션은 슬라이드에 장착되고 항원에 특이적인 항체(다 클론 또는 단일 클론)와 함께 배양된다(1 차 반응). 그런 다음 항원-항체 신호는 페록시다제(PAP), 아비딘-비오틴-페록시다제(ABC) 또는 아비딘-비오틴 알칼리 포스파타제의 복합체에 공액결합된 제2 항체를 사용하여 증폭된다. 기질과 발색원의 존재하에 효소는 항체-항원 결합 부위에 컬러링된 침착물을 형성한다. 면역형광(immunofluorescence)은 항원을 시각화하는 대체 접근 방식이다. 이 기술에서 1차 항원-항체 신호는 형광 색소에 공액 연결된 제2 항체를 사용하여 증폭된다. UV 광 흡수에서 형광 색소는 더 긴 파장(형광)에서 자체 빛을 방출하므로 항체-항원 복합체의 국소화가 가능하다.
후성적 상태(Epigenetic Status)
본 개시 내용에 따른 분자 프로파일링 방법은 또한 후성적 변화, 즉 메틸화 상태 또는 히스톤 아세틸 화의 변화와 같은 후성적 메커니즘에 의해 야기되는 유전자의 변형을 측정하는 것을 포함한다. 종종, 후성 유전학적 변화는 후성 유전적 변화의 지표로서 (적절한 RNA 또는 단백질 수준에서) 검출될 수 있는 유전자 발현 수준의 변화를 초래할 것이다. 종종, 후성 유전적 변화는 "후성 유전적 침묵"이라고하는 유전자의 침묵 또는 하향 조절을 초래한다. 본 명세서에 기재된 방법에서 가장 빈번하게 조사되는 후성 유전적 변화는 유전자의 DNA 메틸화 상태를 결정하는 것을 포함하며, 여기서 메틸화 수준의 증가는 (유전자 발현의 하향 조절을 유발할 수 있기 때문에) 일반적으로 관련 암과 관련이 있다. 유전자 또는 유전자의 과메틸화라고도 할 수 있는 비정상적인 메틸화가 검출될 수 있다. 전형적으로, 메틸화 상태는 유전자(들)의 프로모터 영역에서 종종 발견되는 적합한 CpG 섬에서 결정된다. 용어 "메틸화", "메틸화 상태" 또는 "메틸화 상태"는 DNA 서열 내의 하나 또는 복수의 CpG 디뉴클레오티드에서 5-메틸시토신의 존재 또는 부재를 지칭할 수 있다. CpG 디뉴클레오티드는 일반적으로 인간 유전자의 프로모터 영역 및 엑손에 집중되어 있다.
감소된 유전자 발현은 DNA 메틸화 상태 또는 유전자의 메틸화 상태에 의해 결정된 발현 수준의 관점에서 평가될 수 있다. 후성 유전적 침묵을 검출하는 한 가지 방법은 정상 세포에서 발현되는 유전자가 종양 세포에서 덜 발현되는지 또는 발현되지 않는지 확인하는 것이다. 따라서, 본 개시 내용은 후성적 침묵을 검출하는 것을 포함하는 분자 프로파일링 방법을 제공한다.
메틸화를 직접 검출하기 위한 다양한 분석 절차가 당 업계에 공지되어 있으며, 본 방법과 함께 사용될 수 있다. 이러한 분석은 바이설파이트(bisulphite) 변환 기반 방식과 비-바이설파이트(non-bisulphite) 기반 방식의 두 가지 개별 방식을 이용한다. DNA 메틸화 분석을 위한 비-바이설파이트 기반 방법은 메틸화 민감성 효소가 제한에서 메틸화 시토신을 절단할 수 없음을 이용한다. 바이설파이트 변환은 비메틸화 시토신을 우라실로 변환하는 나트륨 바이설파이트로 DNA 샘플을 처리하는 데 의존하며, 메틸화 시토신은 유지된다(Furuichi Y, Wataya Y, Hayatsu H, Ukita T.Biochem Biophys Res Commun.1970 Dec 9;41(5):1185-91). 이 변환으로 인해 원래 DNA의 서열이 변경된다. 이러한 변화를 검출하기 위한 방법은 MS AP-PCR (Methylation-Sensitive Arbitrarily-Primed Polymerase Chain Reaction), Gonzalgo 외, Cancer Research 57:594-599, 1997에 기재된 CpG 디뉴클레오티드를 함유할 가능성이 가장 높은 영역에 포커싱하는 CG-농후 프라이머를 이용한 게놈의 전역 스캔을 가능하게 하는 기법; Eads 외, Cancer Res.59:2302-2306, 1999에 기재된 형광-기반 실시간 PCR 기법으로 지칭되는 MethyLight™; 본 명세서에서, 사이의 CpG 위치를 커버하거나 증폭 프라이머에 의해 커버되는 메틸화 특이 차단 프로브(블로커라고도 지칭됨)이 핵산 샘플의 메틸화 특이 선택 증폭을 활성화한는 분석으로 구현되는 HeavyMethyl™ 분석, MethyLight™ 분석이 증폭 프라이머들 간 CpG 위치를 커버하는 메틸화 특이 차단 프로브와 결합된 MethyLight™ 분석의 변형인 HeavyMethyl™ MethyLight™, Gonzalgo & Jones, Nucleic Acids Res.25:2529-2531, 1997에 기재된 분석인 Ms-SNuPE (Methylation-sensitive Single Nucleotide Primer Extension), Herman 외Proc.Natl.Acad.Sci.USA 93:9821-9826, 1996, 및 U.S.Pat.No.5,786,146에 기재된메틸화 분석인 MSP (Methylation-specific PCR); Xiong & Laird, Nucleic Acids Res.25:2532-2534, 1997에 기재된 메틸화 분석인 COBRA (Combined Bisulfite Restriction Analysis), Toyota 외, Cancer Res.59:2307-12, 1999, 및 WO 00/26401A1에 기재된 메틸화 분석인 MCA (Methylated CpG Island Amplification)를 포함한다.
DNA 메틸화 분석을 위한 또 다른 기법으로는 시퀀싱, MS-PCR(methylation-specific PCR), McMS-PCR(melting curve methylation-specific PCR), 바이설파이트 처리를 동반하거나 동반하지 않는 MLPA, QAMA, MSRE-PCR, MethyLight, ConLight-MSP, BS-MSP(bisulfite conversion-specific methylation-specific PCR), COBRA (소듐 바이설파이트-처리 DNA의 PCR 생산에서 메틸화 종속 서열 차이를 드러내도록 제한 효소를 사용하는 것을 이용함), MS-SNuPE(methylation-sensitive single-nucleotide primer extension conformation), MS-SSCA(methylation-sensitive single-strand conformation analysis), McCOBRA(Melting curve combined bisulfite restriction analysis), PyroMethA, HeavyMethyl, MALDI-TOF, MassARRAY, QAMA(Quantitative analysis of methylated alleles), ERMA(enzymatic regional methylation assay), QBSUPT, MethylQuant, 정량적 PCR 시퀀싱 및 올리고뉴클레오티드-기반 마이크로어레이 시스템, 파이로시퀀싱, Meth-DOP-PCR이 있다. 일부 유용한 기술에 대한 리뷰가 본 명세서에서 그 전체가 참조로서 포함되는 Nucleic acids research, 1998, Vol.26, No.10, 2255-2264; Nature Reviews, 2003, Vol.3, 253-266; Oral Oncology, 2006, Vol.42, 5-13에 제공되어 있다. 이들 기술 중 임의의 것이 본 방법에 따라 적절하게 사용될 수 있다. 그 밖의 다른 기술은 미국 특허 공개 20100144836; 및 20100184027에 기재되어 있으며, 이들 출원은 그 전체가 참조로서 본 명세서에 포함된다.
다양한 아세틸라제와 탈 아세틸라제의 활성을 통해 히스톤 단백질의 DNA 결합 기능이 엄격하게 조절된다. 또한, 히스톤 아세틸화 및 히스톤 탈 아세틸화가 악성 진행과 관련이 있다. Nature, 429: 457-63, 2004를 참조할 수 있다. 히스톤 아세틸화를 분석하는 방법은 미국 특허 공개 번호 20100144543 및 20100151468에 기재되어 있으며,이 출원은 그 전체가 본 명세서에 참조로 포함된다.
서열 분석
본 개시 내용에 따른 분자 프로파일링은 개체가 하나 이상의 유전자 또는 유전자 산물에 하나 이상의 뉴클레오티드 변이체(또는 아미노산 변이체)를 갖는지 여부를 결정함으로써 하나 이상의 바이오마커를 유전형화하는 방법을 포함한다. 일부 구체예에서 본 명세서에 기재된 방법에 따라 하나 이상의 유전자를 유전형화하는 것은 치료 선택에 대한 더 많은 증거를 제공 할 수 있다.
본 명세서에 기재된 바와 같은 바이오마커는 핵산 또는 이들이 코딩하는 단백질의 변경을 결정하는 데 유용한 임의의 방법에 의해 분석될 수 있다. 한 실시 양태에 따르면, 해당 분야의 통상의 기술자는 결실 돌연변이, 삽입 돌연변이, 프레임 이동 돌연변이, 넌센스 돌연변이, 미스센스 돌연변이 및 스플라이스 돌연변이를 포함하는 돌연변이에 대한 하나 이상의 유전자를 분석할 수 있다.
하나 이상의 유전자 분석에 사용되는 핵산은 표준 방법론에 따라 샘플의 세포에서 분리할 수 있다(Sambrook 외, 1989). 예를 들어, 핵산은 게놈 DNA 또는 분획화되거나 전체 세포 RNA, 또는 엑소좀 또는 세포 표면으로부터 획득된 miRNA일 수 있다. RNA가 사용되는 경우, RNA를 상보적인 DNA로 변환하는 것이 바람직할 수 있다. 한 구체예에서, RNA는 전체 세포 RNA이고, 또 다른 예에서, 폴리-A RNA이며, 또 다른 예에서, 엑소좀 RNA이다. 일반적으로, 핵산이 증폭된다. 하나 이상의 유전자를 분석하기 위한 분석의 형식에 따라, 관심 특정 핵산은 증폭을 사용하여 직접 또는 증폭 후 두 번째 알려진 핵산을 사용하여 샘플에서 식별된다. 다음으로, 식별된 산물이 검출된다. 특정 적용예에서, 검출은 시각적 수단(예를 들어, 겔의 에티듐 브로마이드 염색)에 의해 수행될 수 있다. 대안으로, 검출은 화학 발광, 라디오라벨 또는 형광 라벨의 방사성 신티그라피를 통한 제품의 간접 식별을 포함하거나 심지어 전기 또는 열 충격 신호를 사용하는 시스템을 통해 포함될 수 있다(Affymax Technology; Bellus, 1994).
본 명세서에 기재된 바와 같이 다양한 유형의 결함이 바이오마커에서 발생하는 것으로 알려져있다. 변경에는 삭제, 삽입, 점 돌연변이 및 복제가 포함되며, 이에 제한되지는 않는다. 점 돌연변이는 침묵하거나 중지 코돈, 프레임 이동 돌연변이 또는 아미노산 치환을 초래할 수 있다. 하나 이상의 유전자의 코딩 영역 내부 및 외부의 돌연변이가 발생할 수 있으며 본 명세서에 기재된 방법에 따라 분석될 수 있다. 관심 핵산의 표적 부위는 서열이 변하는 영역을 포함할 수 있다. 예에는 상이한 형태로 존재하는 다형성, 가령, 단일 뉴클레오티드 변이, 뉴클레오티드 반복, 다중 염기 결실(컨센서스 서열에서 삭제된 둘 이상의 뉴클레오티드), 다중 염기 삽입(컨센서스 서열에서 삽입 된 둘 이상의 뉴클레오티드), 미세 위성 반복(전형적인 5-1000 반복 단위를 가진 적은 수의 뉴클레오티드 반복), 디-뉴클레오티드 반복, 트리-뉴클레오티드 반복, 서열 재배열(전위 및 복제 포함), 키메라 서열(상이한 유전자 기원으로부터의 두 서열이 함께 융합됨) 등이 있으며, 이에 한정되지는 않는다. 서열 다형성 중, 인간 게놈에서 가장 빈번한 동질이상은 단일-염기 변이이며, 또한 단일-뉴클레오티드 다형성(SNP: single-nucleotide polymorphism)이라고도 한다. SNP는 풍부하고, 안정적이며, 게놈 전체에 널리 분포되어 있다.
분자 프로파일링은 하나 이상의 유전자를 하플로타이핑하는 방법을 포함한다. 하플로타입은 단일 염색체에 위치한 일련의 유전적 결정 인자이며 일반적으로 염색체 영역에 대립 유전자의 특정 조합(유전자의 모든 대체 서열)을 포함한다. 즉, 하플로타입은 개별 염색체에 대한 위상 시퀀스 정보이다. 염색체의 단계적 SNP는 하플로타입을 정의하는 것이 매우 흔하다. 염색체의 하플로타입의 조합은 세포의 유전적 프로파일을 결정할 수 있다. 특정 유전 표지와 질병 돌연변이 사이의 연관성을 결정하는 것은 하플로타입이다. 하플로타입은 해당 분야에 알려진 임의의 방법에 의해 수행될 수 있다. SNP를 채점하는 일반적인 방법은 Landgren 외, Genome Research, 8:769-776, 1998에서 검토된 혼성화 마이크로어레이 또는 직접 겔 시퀀싱이 포함된다. 예를 들어, 하나 이상의 유전자의 사본 하나만 개인으로부터 단리될 수 있으며 각각의 변이 위치에서 뉴클레오티드가 결정된다. 대안으로, 대립 유전자 특이적 PCR 또는 유사한 방법을 사용하여 개체에서 하나 이상의 유전자의 하나의 복제만을 증폭시킬 수 있으며, 본 개시 내용의 변이 위치에서의 SNP가 결정된다. 해당 분야에서 알려진 Clark 방법은 또한 일배 체형화를 위해 사용될 수 있다. 고 처리량 분자 하플로타이핑 방법은 또한 본 명세서에 참조로서 포함된 Tost 외, Nucleic Acids Res., 30(19):e96 (2002)에 개시되어있다.
따라서, 본 개시 내용의 변이 및/또는 하플로타입과 연관 불균형에있는 추가 변이체(들)는 유전학 및 하플로타이핑 분야의 숙련된 기술자에게 명백한 바와 같이 해당 업계에 공지된 하플로타이핑 방법에 의해 식별될 수 있다. 본 개시 내용의 변이체 또는 하플로타입과 연관 불균형에있는 추가 변이체는 또한 아래에 기재된 바와 같이 다양한 적용에서 유용 할 수 있다.
유전형 분석 및 하플로타이핑을 위해, 게놈 DNA와 mRNA/cDNA가 모두 사용될 수 있으며, 둘 다 본 명세서에서 일반적으로 "유전자"로 지칭된다.
뉴클레오티드 변이체를 검출하기 위한 수많은 기술이 해당 업계에 공지되어 있으며 모두 본 개시 내용의 방법에 사용될 수 있다. 기술은 단백질 기반 또는 핵산 기반일 수 있다. 어느 경우라도, 사용되는 기술이 작은 뉴클레오티드 또는 아미노산 변이를 정확하게 감지 할 수 있도록 충분히 민감해야 한다. 검출 가능한 마커로 라벨링된 프로브가 매우 일반적으로 사용된다. 하기 기재된 특정 기술에서 달리 명시되지 않는 한, 방사성 동위 원소, 형광 화합물, 스트렙타비딘을 사용하여 검출 할 수 있는 비오틴, 효소(가령, 알칼리성 포스파타제), 효소, 리간드 및 항체 등의 해당 분야에 알려진 임의의 적절한 마커가 사용될 수 있다. Jablonski 외, Nucleic Acids Res., 14:6115-6128 (1986); Nguyen 외, Biotechniques, 13:116-123 (1992); Rigby 외, J.Mol.Biol., 113:237-251 (1977)를 참조할 수 있다.
핵산 기반 검출 방법에서 표적 DNA 샘플, 즉 하나 이상의 유전자에 해당하는 게놈 DNA, cDNA, mRNA 및/또는 miRNA를 포함하는 샘플이 검사 대상 개체로부터 얻어져야 한다. 하나 이상의 유전자에 대응하는 게놈 DNA, miRNA, mRNA 및/또는 cDNA(또는 이의 일부)를 포함하는 임의의 조직 또는 세포 샘플이 사용될 수 있다. 이를 위해 세포핵과 게놈 DNA를 포함하는 조직 샘플을 개체로부터 얻을 수 있다. 백혈구와 다른 림프구에만 세포핵이 있는 반면 적혈구에는 핵이 없고 mRNA 또는 miRNA 만 포함한다는 점을 제외하면 혈액 샘플도 유용 할 수 있다. 그럼에도 불구하고, miRNA와 mRNA는 또한 그 서열에서 뉴클레오티드 변이체의 존재를 분석하거나 cDNA 합성을 위한 템플릿으로 사용할 수 있기 때문에 유용하다. 조직 또는 세포 샘플은 많은 처리없이 직접 분석될 수 있다. 대안으로, 표적 서열을 포함하는 핵산은 아래에서 논의되는 다양한 검출 절차를 거치기 전에 추출, 정제 및/또는 증폭될 수 있다. 조직 또는 세포 샘플 이외에, 검사 대상 개체로부터 얻은 조직 또는 세포 샘플을 사용하여 구축된 cDNA 또는 게놈 DNA 라이브러리의 cDNA 또는 게놈 DNA도 유용하다.
특정 뉴클레오티드 변이체의 존재 또는 부재를 결정하기 위해, 표적 게놈 DNA 또는 cDNA, 특히, 검출될 뉴클레오티드 변이체 자리를 포함하는 영역의 시퀀싱. 다양한 시퀀싱 기법이 일반적으로 알려져 있고 널리 사용되며, 예를 들어 Sanger 방법 및 Gilbert 화학 방법이 있다. 파이로시퀀싱(pyrosequencing) 방법은 발광 검출 시스템을 사용하여 실시간으로 DNA 합성을 모니터링한다. 파이로시퀀싱은 단일 뉴클레오티드 다형성과 같은 유전적 다형성을 분석하는 데 효과적인 것으로 나타났으며 본 방법에서도 사용할 수 있다. Nordstrom 외, Biotechnol.Appl.Biochem., 31(2):107-112 (2000); Ahmadian 외, Anal.Biochem., 280:103-110 (2000)을 참조할 수 있다.
핵산 변이체는 적절한 검출 과정을 통해 검출될 수 있다. 검출, 정량화, 시퀀싱 등의 방법의 비제한적 예를 들면 다음과 같다: 질량 변형 앰플리콘의 질량 검출(가령, MALDI(matrix-assisted laser desorption ionization) 질량분석계 및 ES(electrospray) 질량 분석계), 프라이머 확장 방법(가령, iPLEX™; Sequenom, Inc.), 미세시퀀싱 방법(가령, 수정된 프라이머 확장 방법), 리가제 서열 결정 방법(가령, 미국 특허 번호 5,679,524 및 5,952,174, 및 WO 01/27326), 불일치 서열 결정 방법(가령, 미국 특허 번호 5,851,770; 5,958,692; 6,110,684; 및 6,183,958), 직접 DNA 시퀀싱, FA(fragment analysis), RFLP(restriction fragment length polymorphism) 분석, ASO(allele specific oligonucleotide) 분석, MSPCR(methylation-specific PCR), 파이로시퀀싱 분석, 아시클로프라임 분석, 역 도트 블롯, GeneChip 마이크로어레이, DASH(Dynamic allele-specific hybridization), PNA(Peptide nucleic acid) 및 LNA(locked nucleic acids) 프로브, TaqMan, 분자 비컨, 인터칼레이팅 염료, FRET 프라이머, AlphaScreen, SNPstream, GBA(genetic bit analysis), 멀티플렉스 미니시퀀싱, SNaPshot, GOOD 분석, 마이크로어레이 미니시퀀싱, APEX(arrayed primer extension), 마이크로어레이 프라이머 확장(가령, 마이크로어레이 서열 결정 방법), 태그 어레이, 코딩된 미세구체, TDI(Template-directed incorporation), 형광 편광, 색채학적 OLA(oligonucleotide ligation assay), 서열-코딩된 OLA, 마이크로어레이 결찰, 리가제 연쇄 반응, 패들락 프로브(Padlock probe), 전화 분석, 혼종화 방법(가령, 적어도 하나의 프로브를 이용한 혼종화, 적어도 하나의 형광 라벨링된 프로브를 이용한 혼종화 등), 종래의 도트 블롯 분석, 단일 가닥 순응 다형성 분석(SSCP, 가령, U.S.Pat.Nos.5,891,625 and 6,013,499; Orita 외, Proc.Natl.Acad.Sci.U.S.A.86: 27776-2770 (1989)), 헤테로듀플렉스 분석, 불일치 클리비지 검출, 및 Sheffield 외, Proc.Natl.Acad.Sci.USA 49: 699-706 (1991), White 외, Genomics 12: 301-306 (1992), Grompe 외, Proc.Natl.Acad.Sci.USA 86: 5855-5892 (1989), and Grompe, Nature Genetics 5: 111-117 (1993)에 기재된 기법, 복제 및 시퀀싱, 전기영동법, 혼종화 프로브 및 QRT-PCR(quantitative real time polymerase chain reaction) 및 디지털 PCR, 나노포어 시퀀싱, 칩 및 이들의 조합. 대립유전자 또는 이원체의 검출 및 정량화가 2007년12월04일에 출원된 미국 특허 출원 번호 11/950,395에 기재된 "폐관" 방법을 이용해 수행될 수 있다. 일부 실시예에서, 질량 분석계, 프라이머 확장, 시퀀싱(가령, 임의의 적절한 방법, 가령, 나노포어 또는 파이로시퀀싱), 정량적 PCR(Q-PCR 또는 QRT-PCR), 디지털 PCR, 이들의 조합 등에 의해 핵산 종의 양이 결정된다.
본 명세서에 사용된 용어 "서열 분석"은 뉴클레오티드 서열, 예를 들어 증폭 생성물의 서열을 결정하는 것을 지칭한다. 예를 들어, DNA 또는 mRNA와 같은 폴리뉴클레오티드의 전체 서열 또는 부분 서열이 결정될 수 있고, 결정된 뉴클레오티드 서열은 "리드(read)" 또는 "서열 리드(sequence read)"으로 지칭될 수 있다. 예를 들어, 선형 증폭 산물은 일부 구체예에서 추가 증폭없이 (예를 들어, 단일-분자 시퀀싱 방법을 사용하여) 직접 분석될 수 있다. 특정 구체예에서, 선형 증폭 산물은 추가 증폭을 거쳐 분석될 수 있다(예를 들어, 결찰 또는 파이로 시퀀싱 방법론에 의한 시퀀싱 사용). 리드(read)는 다양한 유형의 시퀀스 분석의 대상이 될 수 있다. 임의의 적합한 시퀀싱 방법을 사용하여 뉴클레오티드 서열 종, 증폭된 핵산 종, 또는 상기로부터 생성된 검출 가능한 산물의 양을 검출하고 결정할 수 있다. 특정 시퀀싱 방법의 예는 이하에서 기재된다.
서열 분석 장치 또는 서열 분석 구성요소(들)는 장치, 및 이러한 장치와 함께 사용되는 하나 이상의 구성요소를 포함하며, 이는 해당 분야의 통상의 기술자에 의해 본 명세서에 기재된 프로세스로부터 생성된 뉴클레오티드 서열을 결정하기 위해 사용될 수 있다(예를 들어, 선형 및/또는 지수 증폭 산물). 시퀀싱 플랫폼의 비제한적 예를 들면, 다음이 있다: 454 플랫폼 (Roche) (Margulies, M.외2005 Nature 437, 376-380), Illumina Genomic Analyzer (또는 Solexa 플랫폼) 또는 SOLID 시스템 (Applied Biosystems; see PCT 특허 출원 공개 번호 WO 06/084132 발명의 명칭 "Reagents, Methods, and Libraries For Bead-Based Sequencing" 및 WO07/121,489 발명의 명칭 "Reagents, Methods, and Libraries for Gel-Free Bead-Based Sequencing"), the Helicos True Single Molecule DNA sequencing technology (Harris TD 외2008 Science, 320, 106-109), Pacific Biosciences의 단일 분자, 실시간 (SMRT™) 기술, 및 나노포어 시퀀싱 (Soni G V and Meller A.2007 Clin Chem 53: 1996-2001), 이온 반도체 시퀀싱(Ion Torrent Systems, Inc, 캘리포니아, 샌 프란시스코 소재), 또는 DNA 나노볼 시퀀싱(Complete Genomics, 캘리포니아, 마운틴 뷰 소재), VisiGen Biotechnologies approach (Invitrogen) 및 폴로니 시퀀싱. 이러한 플랫폼은 고차 멀티플렉싱에서 표본으로부터 단리된 많은 핵산 분자의 시퀀싱을 병렬 방식으로 가능하게 한다(Dear Brief Funct Genomic Proteomic 2003; 1: 397-416; Haimovich, Methods, challenges, and promise of next-generation sequencing in cancer biology.Yale J Biol Med.2011 Dec;84(4):439-46). 이들 비-Sanger-계열 시퀀싱 기술은 때때로 NextGen 시퀀싱, NGS, 차세대 시퀀싱, 차세대 시퀀싱, 및 이들의 변형으로 지칭된다. 일반적으로 이들은 전통적인 Sanger 접근 방식보다 훨씬 높은 처리량을 가능하게 한다. Schuster, Next-generation sequencing transforms today's biology, Nature Methods 5:16-18 (2008); Metzker, Sequencing technologies - the next generation.Nat Rev Genet.2010 Jan;11(1):31-46; Levy and Myers, Advancements in Next-Generation Sequencing.Annu Rev Genomics Hum Genet.2016 Aug 31;17:95-115를 참조할 수 있다. 이들 플랫폼은 핵산 단편의 클론 확장 또는 비-증폭 단일 분자의 시퀀싱을 가능하게 할 수 있다. 특정 플랫폼에는 예를 들어 염료 변형 프로브의 연결에 의한 시퀀싱(순환 연결 및 절단 포함), 파이로 시퀀싱 및 단일 분자 시퀀싱이 포함된다. 뉴클레오티드 서열 종, 증폭 핵산 종 및 이로부터 생성된 검출 가능한 산물은 이러한 서열 분석 플랫폼에 의해 분석될 수 있다. 예를 들어, 적절하게 돌연변이, 복제수 또는 발현 수준을 결정하기 위해, 본 명세서에 기재된 바와 같은 방법에서 차세대 시퀀싱이 사용될 수 있다. 방법은 전체 게놈 시퀀싱 또는 관심 특정 서열, 가령, 관심 유전자 또는 이의 단편의 시퀀싱을 수행하는 데 사용될 수 있다.
결찰에 의한 시퀀싱은 염기 페어링 불일치에 대한 DNA 리가제의 민감도에 의존하는 핵산 시퀀싱 방법이다. DNA 리가제는 정확하게 염기쌍을 이루는 DNA의 끝을 연결한다. DNA 리가제가 올바르게 염기 쌍을 이룬 DNA 말단만 결합하는 기능을 형광 라벨링된 올리고 뉴클레오티드 또는 프라이머의 혼합 풀과 결합하면 형광 검출을 통해 서열을 결정할 수 있다. 더 긴 서열 리드는 라벨 식별 후 절단될 수 있는 절단 가능한 연결을 포함하는 프라이머를 포함하여 얻을 수 있다. 링커(linker)에서의 절단은 라벨을 제거하고 결찰된 프라이머의 끝에 있는 5' 인산염을 재생하여 또 다른 결찰 라운드를위한 프라이머를 준비한다. 일부 구체예에서 프라이머는 둘 이상의 형광 라벨, 예를 들어 적어도 1, 2, 3, 4 또는 5개의 형광 라벨로 라벨링될 수 있다.
결찰에 의한 시퀀싱에는 일반적으로 다음 단계가 포함된다. 클론 비드 개체군은 표적 핵산 템플릿 서열, 증폭 반응 성분, 비드 및 프라이머를 포함하는 에멀젼 마이크로 반응기에서 준비 될 수 있다. 증폭 후, 템플릿이 변성되고 비드 농축이 수행되어 확장 템플릿이있는 비드와 원하지 않는 비드(가령, 확장 템플릿이없는 비드)를 분리한다. 선택된 비드의 템플릿은 슬라이드에 공유 결합을 허용하기 위해 3' 변형을 거치고 변형된 비드는 유리 슬라이드에 증착될 수 있다. 증착 챔버는 비드 로딩 프로세스 동안 슬라이드를 1개, 4개 또는 8개의 챔버로 분할하는 기능을 제공한다. 서열 분석을 위해 프라이머는 어댑터 서열에 혼성화된다. 4가지 색상의 염료로 라벨링된 프로브 세트가 시퀀싱 프라이머에 대한 결찰을 위해 경쟁한다. 프로브 결찰의 특이성은 결찰 시리즈 동안 4번째 염기 마다 그리고 5번째 염기 마다 조사함으로써 달성된다. 5-7 라운드의 결찰, 감지 및 절단은 사용된 라이브러리 유형에 따라 결정된 라운드 수로 5번째 위치마다 색상을 기록한다. 각각의 라운드의 결찰 후, 5' 방향으로 하나의 염기만큼 오프셋된 새로운 보체 프라이머가 또 다른 일련의 결찰을 위해 배치된다. 프라이머 재설정 및 결찰 라운드(라운드 당 5-7 결찰 주기)를 순차적으로 5 회 반복하여 단일 태그에 대해 25-35 염기 쌍의 시퀀스를 생성한다. 메이트-쌍 시퀀싱을 사용하면, 두 번째 태그에 대해 이 프로세스가 반복된다.
파이로시퀀싱은 합성에 의한 시퀀싱에 기반한 핵산 시퀀싱 방법으로, 뉴클레오티드 통합시 방출되는 피로 포스페이트의 검출에 의존한다. 일반적으로, 합성에 의한 시퀀싱은 한 번에 하나의 뉴클레오티드를 합성하는 것을 포함하며, 그 서열을 찾는 가닥에 보체 DNA 가닥을 합성한다. 표적 핵산은 DNA 중합 효소, ATP 설퍼일라제, 루시퍼라제, 아피라제, 아데노신 5' 포스포설페이트 및 루시페린과 함께 배양된 시퀀싱 프라이머와 혼성화된 고체 지지체에 고정될 수 있다. 뉴클레오티드 솔루션은 순차적으로 추가 및 제거된다. 뉴클레오티드의 올바른 통합은 ATP 설퍼일라제와 상호 작용하고 아데노신 5' 포스포설페이트의 존재 하에 ATP를 생성하는 피로포스페이트를 방출하여 루시페린 반응을 촉진하여 서열 결정을 허용하는 화학 발광 신호를 생성한다. 생성되는 빛의 양은 추가된 염기의 수에 비례한다. 따라서, 시퀀싱 프라이머 하류의 서열이 결정될 수 있다. 파이로시퀀싱을 위한 예시적인 시스템은 다음 단계를 포함한다: 어댑터 핵산을 조사 대상 핵산에 묶고 생성된 핵산을 비드에 혼성화하는 단계; 에멀젼에서 뉴클레오티드 서열 증폭; 피코리터 멀티웰 고체 지지체를 사용한 비드 분류; 및 파이로시퀀싱 방법론(가령, Nakano 외, "Single-molecule PCR using water-in-oil emulsion;" Journal of Biotechnology 102: 117-124 (2003))에 의해 증폭된 뉴클레오티드 서열을 시퀀싱하는 단계.
특정 단일-분자 시퀀싱 실시예는 합성에 의한 시퀀싱의 원리를 기반으로하며, 성공적인 뉴클레오티드 통합의 결과로 광자가 방출되게 하는 메커니즘으로 단일-쌍 형광 공명 에너지 전달(단일 쌍 FRET)을 사용한다. 방출된 광자는 종종 내부 전반사 현미경(TIRM: total internal reflection microscopy)과 함께 강화 또는 고감도 냉각 전하 결합 장치를 사용하여 검출된다. 광자는 도입된 반응 용액이 시퀀싱 과정의 결과로 합성되는 성장하는 핵산 사슬에 통합하기위한 올바른 뉴클레오티드를 포함할 때만 방출된다. FRET 계열 단일 분자 시퀀싱에서 에너지는 장거리 쌍극자 상호 작용을 통해 두 개의 형광 염료, 때로는 폴리메틴시아닌 염료 Cy3 및 Cy5 간에 전달된다. 도너는 특정 여기 파장에서 여기되고 여기된 상태 에너지는 비방사 방식으로 수용체 염료로 전달되며, 이는 그 후 여기된다. 수용체 염료는 결국 광자의 복사 방출에 의해 바닥 상태로 돌아간다. 에너지 전달 과정에서 사용되는 두 개의 염료는 단일 쌍 FRET의 "단일 쌍"을 나타낸다. Cy3는 종종 도너 형광단으로 사용되며 종종 첫 번째 라벨링된 뉴클레오티드로 포함된다. Cy5는 종종 수용체 형광단으로 사용되며 첫 번째 Cy3 라벨링된 뉴클레오티드를 통합한 후 연속적인 뉴클레오티드 추가를 위한 뉴클레오티드 라벨로 사용된다. 형광단은 일반적으로 에너지 전달이 성공적으로 이루어지도록 각각 10 나노 미터 이내에 있다.
단일-분자 시퀀싱을 기반으로 사용될 수 있는 시스템의 예는 일반적으로 복합체를 생성하기 위해 프라이머를 표적 핵산 서열에 혼성화하는 것; 복합체를 고체상과 연관시키는 것; 형광 분자로 태그된 뉴클레오티드에 의해 프라이머를 반복적으로 확장하는 것; 및 각각의 반복 후에 형광 공명 에너지 전달 신호의 이미지를 캡처하는 것을 포함한다(예를 들어, U.S.Pat.No.7,169,314; Braslavsky 외, PNAS 100(7): 3960-3964 (2003)). 이러한 시스템은 본 명세서에 기재된 공정에 의해 생성된 증폭 산물(선형 또는 지수 증폭 산물)을 직접 시퀀싱하는 데 사용될 수 있다. 일부 구체예에서, 증폭 산물은 예를 들어 고체 지지체, 비드 또는 유리 슬라이드 상에 존재하는 고정화된 포획 서열에 보체 서열을 함유하는 프라이머에 혼성화될 수 있다. 고정된 포획 서열과 프라이머-증폭 생성물 복합체의 혼성화는 합성에 의한 단일 쌍 FRET 계열 시퀀싱을 위한 고체 지지체에 증폭 산물을 고정시킨다. 프라이머는 종종 형광성이어서, 고정된 핵산이있는 슬라이드 표면의 초기 참조 이미지를 생성할 수 있다. 초기 참조 이미지는 실제 뉴클레오티드 통합이 발생하는 위치를 결정하는 데 유용하다. "프라이머 전용" 참조 이미지에서 초기에 식별되지 않은 어레이 위치에서 검출된 형광 신호는 비특이적 형광으로서 폐기된다. 프라이머-증폭 산물 복합체의 고정화 후, 결합된 핵산은 종종 a) 하나의 형광 라벨링된 뉴클레오티드 존재 하에서 폴리머아제 확장, b) 적절한 현미경 검사법, 예를 들어 TIRM을 사용한 형광 검출, c) 형광 뉴클레오티드의 제거, 및 d) 상이한 형광 라벨링된 뉴클레오티드로 단계 a로 복귀?l 반복 단계에 의해 병렬로 시퀀싱된다.
일부 구체예에서, 뉴클레오티드 시퀀싱은 고체상 단일 뉴클레오티드 시퀀싱 방법 및 프로세스에 의해 이루어질 수 있다. 고체상 단일 뉴클레오티드 시퀀싱 방법은 단일 분자의 샘플 핵산이 고체 지지체의 단일 분자에 혼성화하는 조건 하에서 표적 핵산 및 고체 지지체를 접촉시키는 것을 포함한다. 이러한 조건은 "마이크로 반응기"에서 고체 지지체 분자 및 표적 핵산의 단일 분자를 제공하는 것을 포함할 수 있다. 이러한 조건은 또한 표적 핵산 분자가 고체 지지체상의 고체상 핵산에 혼성화할 수 있는 혼합물을 제공하는 것을 포함할 수 있다. 본 명세서에 기재된 실시 양태에서 유용한 단일 뉴클레오티드 서열 분석 방법은 2008년01월17일에 출원된 미국 가특허 출원 번호 61/021,871에 기재되어 있다.
특정 구체예에서, 나노포어 시퀀싱 검출 방법은 (a) 검출체(detector)가 실질적으로 염기 핵산의 실질적으로 보체 부분서열에 특정하게 혼종화되는 조건 하에서, 서열-특이적 검출체로 시퀀싱을 위한 표적 핵산("염기 핵산", 가령, 연결된 프로브 분자)을 접촉시키는 것, (b) 검출기로부터 신호를 검출하는 것, 및 (c) 검출된 신호에 따라 염기 핵산의 서열을 결정하는 것을 포함한다. 특정 구체예에서, 염기 핵산이 기공을 통과함에 따라 검출체가 나노포어 구조체와 간섭을 일으킬 때 염기 핵산으로 혼종화된 검출체가 염기 핵산으로부터 분리되고(가령, 서열적으로 분리되고) 염기 시퀀스로부터 분리된 검출체가 검출된다. 일부 구체예에서, 염기 핵산으로부터 분리된 검출체는 검출 가능한 신호를 발산하고, 염기 핵산에 혼성화된 검출체는 상이한 검출 가능한 신호를 발산하거나 어떠한 검출 가능한 신호도 발산하지 않는다. 특정 구체예에서, 핵산(예를 들어, 연결된 프로브 분자) 내 뉴클레오티드는 특정 뉴클레오티드("뉴클레오티드 대표")에 대응하는 특정 뉴클레오티드 서열로 치환되어 확장된 핵산을 발생시키고(가령, 미국 특허 번호 6,723,513 참조) 검출체는 염기 핵산 역할을 하는 확장된 핵산의 뉴클레오티드 대표에 혼성화된다. 이러한 구체예에서, 뉴클레오티드 대표는 이원 이상의 배열로 배열될 수 있다(예를 들어, Soni and Meller, Clinical Chemistry 53(11): 1996-2001 (2007)). 일부 구체예에서, 핵산은 확장되지 않고, 확장된 핵산을 생성하지 않으며, 염기 핵산을 직접 제공하며(예를 들어, 연결된 프로브 분자는 비-확장 염기 핵산으로 사용), 검출체는 직접 염기 핵산과 접촉한다. 예를 들어, 제1 검출체는 제1 부분 서열로 혼성화될 수 있고 제2 검출체는 제2 부분 서열로 혼성화될 수 있으며, 여기서 제1 검출체와 제2 검출체는 각각 서로 구별 될 수 있는 검출 가능한 라벨을 가지며, 여기서 제1 검출체 및 제2 검출체로부터의 신호는 검출체가 염기 핵산과 분리될 때 서로 구별될 수 있다. 특정 구체예에서, 검출체는 약 3개 내지 약 100개의 뉴클레오티드 길이(예를 들어, 약 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 50, 55, 60, 65, 70, 75, 80, 85, 90, 또는 95개의 뉴클레오티드 길이)일 수 있는 염기 핵산에 혼성화되는 영역(가령, 2개 영역)을 포함한다. 검출체는 또한 염기 핵산에 혼성화되지 않는 하나 이상의 뉴클레오티드 영역을 포함할 수 있다. 일부 구체예에서, 검출체는 분자 비콘(molecular beacon)이다. 검출체는 종종 본 명세서에 기재된 것들로부터 독립적으로 선택된 하나 이상의 검출 가능한 라벨을 포함한다. 각각의 검출 가능한 라벨은 각각의 라벨(가령, 자기, 전기, 화학, 광학 등)에 의해 생성된 신호를 검출할 수 있는 임의의 종래의 검출 프로세스에 의해 검출될 수 있다. 예를 들어, CD 카메라가 검출기에 연결된 하나 이상의 구별 가능한 양자점(quantum dot)에서 신호를 검출할 수 있다.
특정 서열 분석 구체예에서, 리드(read)는 더 큰 뉴클레오티드 서열을 구축하는 데 사용될 수 있으며, 이는 상이한 리드에서 중첩 서열을 식별하고 리드에서 식별 서열을 사용함으로써 용이해질 수 있다. 리드로부터 더 큰 서열을 구성하기 위한 이러한 서열 분석 방법 및 소프트웨어는 해당 분야의 통상의 기술자에게 공지되어있다(예를 들어, Venter 외, Science 291: 1304-1351 (2001)). 특정 리드, 부분 뉴클레오티드 서열 구축물 및 전체 뉴클레오티드 서열 구축물은 샘플 핵산 내의 뉴클레오티드 서열들 간에 비교될 수 있거나(즉, 내부 비교) 특정 서열 분석 구체예에서 참조 서열(즉, 참조 비교)과 비교될 수 있다. 내부 비교는 샘플 핵산이 여러 샘플 또는 서열 변이를 포함하는 단일 샘플 소스에서 준비되는 상황에서 수행될 수 있다. 참조 뉴클레오티드 서열이 알려져 있고 샘플 핵산이 참조 뉴클레오티드 서열과 실질적으로 유사하거나 동일하거나 상이한 뉴클레오티드 서열을 포함하는지 여부를 결정하는 것이 목적 일 때 참조 비교가 때때로 수행된다. 서열 분석은 앞서 기재된 서열 분석 장치 및 구성요소를 사용하여 촉진될 수 있다.
본 명세서에서 "마이크로시퀀싱" 방법으로도 지칭되는 프라이머 연장 다형성 검출 방법은 전형적으로 보체 올리고 뉴클레오티드를 다형성 부위를 운반하는 핵산에 혼성화시킴으로써 수행된다. 이들 방법에서, 올리고뉴클레오티드는 전형적으로 다형성 부위에 인접하여 혼성화한다. "마이크로 시퀀싱" 방법과 관련하여 사용된 용어 "인접한"은, 연장 올리고뉴클레오티드가 핵산에 혼종화될 때 연장 올리고뉴클레오티드의 3' 말단이 때때로 다형성 부위의 5' 말단으로부터 1개 뉴클레오티드, 종종 다형성 부위의 5' 말단으로부터 2 또는 3개, 그리고 때때로 4, 5, 6, 7, 8, 9, 또는 10개의 뉴클레오티드인 것을 지칭한다. 그런 다음 연장 올리고뉴클레오티드는 하나 이상의 뉴클레오티드, 종종 1, 2 또는 3개의 뉴클레오티드만큼 연장되고, 연장 올리고뉴클레오티드에 추가되는 뉴클레오티드의 수 및/또는 유형이 어떠한 하나 또는 복수의 다형성 변이체 또는 변이체가 존재하는지를 결정한다. 올리고뉴클레오티드 연장 방법은 예를 들어 미국 특허 번호 4,656,127; 4,851,331; 5,679,524; 5,834,189; 5,876,934; 5,908,755; 5,912,118; 5,976,802; 5,981,186; 6,004,744; 6,013,431; 6,017,702; 6,046,005; 6,087,095; 6,210,891; 및 WO 01/20039에 개시되어 있다. 연장 산물은 임의의 방식으로, 가령, 형광 방법(가령, Chen & Kwok, Nucleic Acids Research 25: 347-353 (1997) 및 Chen 외, Proc.Natl.Acad.Sci.USA 94/20: 10756-10761 (1997)) 또는 질량 분광법(가령, MALDI-TOF 질량 분광법) 및 본 명세서에 기재된 그 밖의 다른 방법에 의해 검출될 수 있다. 질량 분석법을 사용하는 올리고뉴클레오티드 연장 방법은 예를 들어 미국 특허 번호 5,547,835; 5,605,798; 5,691,141; 5,849,542; 5,869,242; 5,928,906; 6,043,031; 6,194,144; 및 6,258,538에 기재되어 있다.
미세시퀀싱 검출 방법은 종종 연장 단계를 진행하는 증폭 과정을 포함한다. 증폭 과정은 일반적으로 다형성 부위를 포함하는 핵산 샘플로부터 영역을 증폭한다. 증폭은 앞서 기재된 방법을 사용하거나 예를 들어 중합 효소 연쇄 반응(PCR)에서 한 쌍의 올리고뉴클레오티드 프라이머를 사용하여 수행될 수 있으며, 여기서 하나의 올리고뉴클레오티드 프라이머는 일반적으로 다형성의 영역 3'에 보체이고 다른 하나는 일반적으로 다형성의 영역 5'에 보체이다. PCR 프라이머 쌍은 미국 특허 번호 4,683,195; 4,683,202, 4,965,188; 5,656,493; 5,998,143; 6,140,054; WO 01/27327; 및 WO 01/27329에 개시된 방법에서 사용될 수 있다. PCR 프라이머 쌍은 PCR을 수행하는 임의의 사용화된 기계, 가령, Applied Biosystems의 GeneAmp™ 시스템들 중 임의의 것에서 사용될 수 있다.
그 밖의 다른 적절한 시퀀싱 방법은 부동화된 마이크로비드를 이용하는 멀티플렉싱 폴로니 시퀀싱(www.sciencexpress.org/4 Aug.2005/Page1/10.1126/science.1117389에서 이용 가능한 본 명세서에서 참조로서 포함되는 Shendure 외, Accurate Multiplex Polony Sequencing of an Evolved Bacterial Genome, Sciencexpress, Aug.4, 2005, pg 1에 기재된 것) 및 마이크로제조된 피코리터 반응기에서의 시퀀싱(www.nature.com/nature (published online 31 Jul.2005, doi:10.1038/nature03959에서 이용 가능한 본 명세서에서 참조로서 포함되는 Margulies 외, Genome Sequencing in Microfabricated High-Density Picolitre Reactors, Nature, August 2005에 기재된 것)을 포함한다.
일부 구체예에서, 전체 게놈 시퀀싱은 또한 RNA 전사체의 대립 유전자를 구별하기 위해 사용될 수 있다. 전체 게놈 시퀀싱 방법의 비제한적 예를 들면, 나노포어-기반 시퀀싱 방법, 합성에 의한 시퀀싱, 및 결찰에 의한 시퀀싱이 있다.
핵산 변이체는 표준 전기 영동 기술을 사용하여 검출될 수도 있다. 검출 단계는 때때로 증폭 단계가 선행될 수 있지만, 본 명세서에 기재된 실시예에서는 증폭이 요구되지는 않는다. 전기 영동 기술을 사용하여 핵산을 검출 및 정량화하는 방법의 예는 해당 업계에서 찾을 수 있다. 비 제한적인 예로는 아가로스 또는 폴리아크릴아미드 겔에 샘플(예를 들어, 모체 혈청으로부터 분리된 혼합 핵산 샘플, 또는 증폭 핵산 종)을 실행하는 것을 포함한다. 겔은 에티듐 브로미드로 라벨링(가령, 염색)될 수 있다(Sambrook and Russell, Molecular Cloning: A Laboratory Manual 3d ed., 2001 참조). 표준 대조군과 동일한 크기의 밴드의 존재는 표적 핵산 서열의 존재를 나타내는 것이며, 그 양은 밴드의 강도에 따라 대조군과 비교할 수 있으므로 관심 표적 서열을 검출하고 정량화할 수 있다. 일부 구체예에서, 모계 및 부계 대립 유전자를 구별할 수 있는 제한 효소를 사용하여 표적 핵산 종을 검출하고 정량화할 수 있다. 특정 구체예에서, 관심 표적 서열의 존재를 검출하기 위해 관심 서열에 특이적인 올리고 뉴클레오티드 프로브가 사용된다. 올리고뉴클레오티드는 또한 프로브에 의해 전달되는 신호의 강도에 기초하여 표준 대조군과 비교하여 표적 핵산 분자의 양을 나타내는 데 사용될 수 있다.
서열-특이적 프로브 혼성화는 다른 종의 핵산을 포함하는 혼합물 또는 혼합 집단에서 특정 핵산을 검출하는데 사용될 수 있다. 충분히 엄격한 혼성화 조건 하에서 프로브는 실질적으로 보체인 서열에만 특이적으로 혼성화된다. 혼성화 조건의 엄격함은 다양한 양의 서열 불일치를 허용하도록 완화될 수 있다. 용액상, 고체상 또는 혼합상 혼성화 분석을 포함하지만 이에 제한되지 않는 다수의 혼성화 형식이 해당 분야에 공지되어있다. 다음 문헌은 다양한 혼성화 분석 형식에 대한 개요를 제공한다: Singer 외, Biotechniques 4:230, 1986; Haase 외, Methods in Virology, pp.189-226, 1984; Wilkinson, In situ Hybridization, Wilkinson ed., IRL Press, Oxford University Press, Oxford; and Hames and Higgins eds., Nucleic Acid Hybridization: A Practical Approach, IRL Press, 1987.
혼성화 복합체는 해당 업계에 공지된 기술에 의해 검출될 수 있다. 표적 핵산(예를 들어, mRNA 또는 DNA)에 특이적으로 혼성화될 수 있는 핵산 프로브는 임의의 적합한 방법에 의해 라벨링될 수 있으며, 라벨링된 프로브는 혼성화 된 핵산의 존재를 검출하는 데 사용된다. 일반적으로 사용되는 검출 방법 중 하나는 3H, 125I, 35S, 14C, 32P, 33P 등으로 라벨링된 프로브를 사용하는 자동 방사선 촬영(autoradiography)이다. 방사성 동위 원소의 선택은 선택한 동위 원소의 합성 용이성, 안정성 및 반감기 때문에 연구 선호도에 따라 달라진다. 다른 라벨에는 형광단, 화학 발광제 및 효소로 라벨링된 항 리간드 또는 항체에 결합하는 화합물(가령, 비오틴 및 디곡시제닌)이 포함된다. 일부 구체예에서, 프로브는 형광단, 화학 발광제 또는 효소와 같은 라벨링과 직접 접합될 수 있다. 라벨 선택은 필요한 감도, 프로브와의 용이성, 안정성 요구 사항 및 사용 가능한 기기에 따라 달라진다.
구체예에서, 단편 분석(본 명세서에서 "FA"로 지칭됨) 방법이 분자 프로파일링에 사용된다. 단편 분석(FA)은 제한 단편 길이 다형성(RFLP) 및/또는(증폭 단편 길이 다형성)과 같은 기술을 포함한다. 하나 이상의 유전자에 해당하는 표적 DNA의 뉴클레오티드 변이가 제한 효소 인식 부위의 제거 또는 생성을 초래하는 경우, 특정 제한 효소로 표적 DNA를 소화하면 변경된 제한 단편 길이 패턴이 생성된다. 따라서 검출된 RFLP 또는 AFLP는 특정 뉴클레오티드 변이체의 존재를 나타낸다.
TRFLP(terminal restriction fragment length polymorphism)은 형광 태그로 라벨링된 프라이머 쌍을 사용하여 DNA의 PCR 증폭에 의해 작동한다. PCR 산물은 RFLP 효소를 사용하여 분해되고 결과 패턴은 DNA 시퀀서를 사용하여 시각화된다. 결과는 TRFLP 프로파일에서 밴드 또는 피크를 계산 및 비교하거나 데이터베이스에서 하나 이상의 TRFLP 실행의 밴드를 비교하여 분석된다.
RFLP와 직접 관련된 서열 변화는 PCR을 통해 더 빠르게 분석될 수도 있다. 증폭은 변경된 제한 부위 및 제한 효소로 분해 된 산물을 통해 지시될 수 있다. 이 방법을 CAPS(Cleaved Amplified Polymorphic Sequence)라고 한다. 대안으로, 증폭된 세그먼트는 ASO(Allele specific oligonucleotide) 프로브로 분석될 수 있으며, 이 과정은 때때로 도트 블롯을 사용하여 평가된다.
AFLP의 변이는 cDNA-AFLP이며 이는 유전자 발현 수준의 차이를 정량화하는 데 사용될 수 있다.
또 다른 유용한 접근법은 관심 뉴클레오티드 변이체에 걸쳐 있는 단일 가닥 표적 DNA의 변경된 이동성을 기반으로하는 SSCA(single-stranded conformation polymorphism assay)이다. 표적 서열의 단일 뉴클레오티드 변화는 상이한 분자 내 염기 쌍 패턴을 초래할 수 있으며, 따라서 비-변성 겔에서 검출 될 수 있는 단일 가닥 DNA의 상이한 2차 구조를 초래할 수 있다. Orita 외, Proc.Natl.Acad.Sci.USA, 86:2776-2770 (1989)를 참조할 수 있다. 변성 겔-계열 기법, 가령, CDGE(clamped denaturing gel electrophoresis) 및 DGGE(denaturing gradient gel electrophoresis)가 변성 겔의 야생형 서열과 비교하여 돌연변이 서열의 이동 속도 차이를 검출한다. Miller 외, Biotechniques, 5:1016-24 (1999); Sheffield 외, Am.J.Hum, Genet., 49:699-706 (1991); Wartell 외, Nucleic Acids Res., 18:2699-2705 (1990); and Sheffield 외, Proc.Natl.Acad.Sci.USA, 86:232-236 (1989)를 참조할 수 있다. 또한, DSCA(double-strand conformation analysis)도 본 방법에서 유용할 수 있다. Arguello 외, Nat.Genet., 18:192-194 (1998)를 참조할 수 있다.
개인의 하나 이상의 유전자에서 특정 유전자 자리에서 뉴클레오티드 변이의 존재 또는 부재는 또한 ARMS(amplification refractory mutation system) 기술을 사용하여 검출될 수 있다. 가령, European Patent No.0,332,435; Newton 외, Nucleic Acids Res., 17:2503-2515 (1989); Fox 외, Br.J.Cancer, 77:1267-1274 (1998); Robertson 외, Eur.Respir.J., 12:477-482 (1998)를 참조할 수 있다. ARMS 방법에서, 검사되는 자리에서의 뉴클레오티드에 대응하는 3'-말단 뉴클레오티드가 지정 뉴클레오티드인 것을 제외하고, 검사되는 자리로부터 바로 5' 상향에 있는 뉴클레오티드 서열과 일치하도록 프라이머가 합성된다. 예를 들어, 3'-말단 뉴클레오티드는 돌연변이된 유전자 자리에 있는 것과 동일할 수 있다. 프라이머는 이의 3'-말단 뉴클레오티드가 검사되는 자리에서의 뉴클레오티드와 일치될 때만 엄격한 조건 하에서 표적 DNA에 혼성화하는 한 임의의 적절한 길이를 가질 수 있다. 바람직하게는 프라이머는 적어도 12개의 뉴클레오티드, 더 바람직하게는 약 18 내지 50개의 뉴클레오티드를 가진다. 검사된 개체가 유전자 자리에 돌연변이를 갖고 그 안에 있는 뉴클레오티드가 프라이머의 3'-말단 뉴클레오티드와 일치하는 경우, 프라이머는 표적 DNA 템플릿에 혼성화될 때 추가로 연장될 수 있으며, 프라이머는 또 다른 적절한 PCR 프라이머와 함께 PCR 증폭 반응을 시작할 수 있다. 이와 달리, 유전자 자리의 뉴클레오티드가 야생형(wild type)이면 프라이머 연장을 달성할 수 없다. 지난 몇 년 동안 개발된 다양한 형태의 ARMS 기술이 사용될 수 있다. 예를 들어, Gibson 외, Clin.Chem.43:1336-1341 (1997)를 참조할 수 있다.
ARMS 기술과 유사한 것으로는 단일 뉴클레오티드의 통합을 기반으로 하는 미니 시퀀싱 또는 단일 뉴클레오티드 프라이머 연장 방법이 있다. 검사되는 유전자 자리에 바로 5' 뉴클레오티드 서열과 일치하는 올리고뉴클레오티드 프라이머는 라벨링된 디데옥시리보뉴클레오티드의 존재 하에 표적 DNA, mRNA 또는 miRNA에 혼성화된다. 라벨링된 뉴클레오티드는 디데옥시리보뉴클레오티드가 검출되는 변이 유전자자리의 뉴클레오티드와 일치하는 경우에만 프라이머에 통합되거나 연결된다. 따라서, 혼입된 디데옥시리보뉴클레오티드에 부착된 검출 라벨에 기초하여 변이 유전자 자리의 뉴클레오티드의 정체가 밝혀질 수 있다. See Syvanen 외, Genomics, 8:684-692 (1990); Shumaker 외, Hum.Mutat., 7:346-354 (1996); Chen 외, Genome Res., 10:549-547 (2000)를 참조할 수 있다.
본 방법에서 유용한 또 다른 기술 세트는 야생형 유전자 자리와 돌연변이 사이의 분화가 2개의 올리고뉴클레오티드가 표적 DNA 분자 상에서 서로 인접하여 어닐링하여 DNA 리가제에 의해 함께 접합되는 2개의 올리고뉴클레오티드를 허용하는 능력에 기초하는 소위 "올리고뉴클레오티드 결찰 분석(OLA)"이다. Landergren 외, Science, 241:1077-1080 (1988); Chen et al, Genome Res., 8:549-556 (1998); Iannone 외, Cytometry, 39:131-140 (2000)를 참조할 수 있다. 따라서, 예를 들어, 하나 이상의 유전자의 특정 유전자 자리에서 단일-뉴클레오티드 돌연변이를 검출하기 위해, 2개의 올리고 뉴클레오티드가 합성될 수 있는데, 하나는 유전자 자리에서 단지 5' 상류에 있는 서열을 가지며 그 3' 말단 뉴클레오티드는 특정 유전자의 변이 유전자 자리에 있는 뉴클레오티드와 동일하고, 다른 하나는 유전자의 유전자 자리에서 바로 3' 하류에 있는 서열과 일치하는 뉴클레오티드 서열을 가진다. 올리고 뉴클레오티드는 검출 목적으로 라벨링될 수 있다. 엄격한 조건 하에서 표적 유전자에 혼성화될 때, 2개의 올리고뉴클레오티드는 적절한 리가제의 존재하에 결찰된다. 2개의 올리고뉴클레오티드의 결찰은 표적 DNA가 검출되는 유전자 자리에 뉴클레오티드 변이가 있음을 나타낼 것이다.
작은 유전적 변이의 검출은 또한 다양한 혼성화 기반 접근법에 의해 달성될 수 있다. 대립 유전자 특이적 올리고뉴클레오티드가 가장 유용하다. Conner 외, Proc.Natl.Acad.Sci.USA, 80:278-282 (1983); Saiki et al, Proc.Natl.Acad.Sci.USA, 86:6230-6234 (1989)를 참조할 수 있다. 다른 대립 유전자가 아닌 특정 유전자 자리에 특정 유전자 변이를 갖는 유전자 대립 유전자에 특이적으로 혼성화(대립 유전자 특이적)되는 올리고뉴클레오티드 프로브는 해당 업계에 공지된 방법에 의해 설계될 수 있다. 프로브는 예를 들어 10 내지 약 50개의 뉴클레오티드 염기의 길이를 가질 수 있다. 표적 DNA와 올리고 뉴클레오티드 프로브는 혼성화의 유무에 따라 뉴클레오티드 변이체가 야생형 유전자와 구별될 수 있도록 충분히 엄격한 조건 하에서 서로 접촉할 수 있다. 검출 신호를 제공하기 위해 프로브가 라벨링될 수 있다. 대안으로, 대립 유전자 특이적 올리고뉴클레오티드 프로브는 "대립 유전자 특이적 PCR"에서 PCR 증폭 프라이머로 사용될 수 있고 예상 길이의 PCR 산물의 존재 또는 부재는 특정 뉴클레오티드 변이체의 존재 또는 부재를 나타낼 것이다.
그 밖의 다른 유용한 혼종화 기반 기법에 의해, 2개의 단일-가닥 핵산이 뉴클레오티드 치환, 삽입 또는 결실로 인한 불일치의 존재에서도 함께 어닐링되는 것이 가능하다. 그런 다음 다양한 기법에 의해 불일치가 검출될 수 있다. 예를 들어, 어닐된 듀플렉스가 전기영동의 대상이 될 수 있다. 불일치된 듀플렉스가 완벽하게 일치된 듀플렉스와 상이한 전기영동 이동도에 기초하여 검출될 수 있다. Cariello, Human Genetics, 42:726 (1988)를 참조할 수 있다. 대안으로, RNase 보호 분석에서, 검출될 뉴클레오티드 변이 사이트를 스패닝하고 검출 마커를 갖는 RNA 프로브가 준비될 수 있다. Giunta 외, Diagn.Mol.Path., 5:265-270 (1996); Finkelstein 외, Genomics, 7:167-172 (1990); Kinszler 외, Science 251:1366-1370 (1991)를 참조할 수 있다. RNA 프로브는 표적 DNA 또는 mRNA에 혼성화되어 이질듀플렉스를 형성한 다음 리보뉴클레아제 RNase A 분해의 대상이 될 수 있다. RNase A는 불일치의 사이트에서만 이질듀플렉스에서 RNA 프로브를 분해한다. 분해는 크기 변화에 따라 변성 전기영동 겔에서 결정될 수 있다. 또한, 불일치는 해당 업계에 공지된 화학적 절단 방법에 의해 검출될 수도 있다. 예를 들어, Roberts 외, Nucleic Acids Res., 25:3377-3378 (1997)를 참조할 수 있다.
MutS 분석에서, 변이 유전자 자리에서 지정된 뉴클레오티드가 사용되는 것을 제외하고, 변이의 존재 또는 부재가 검출될 유전자 자리 주위의 유전자 서열과 일치하는 프로브가 준비될 수 있다. 프로브를 표적 DNA에 어닐하여 듀플렉스를 형성할 때, E.coli mutS 단백질은 듀플렉스와 접촉된다. mutS 단백질은 뉴클레오티드 불일치를 포함하는 이질듀플렉스 서열에만 결합하기 때문에, mutS 단백질의 결합은 변이의 존재를 나타낼 것이다. Modrich 외, Ann.Rev.Genet., 25:229-253 (1991)를 참조할 수 있다.
본 방법에서 돌연변이 또는 뉴클레오티드 변이체를 검출하는 데 유용할 수 있는 앞서 기재된 기본 기술에 기초하여 당업계에서 매우 다양한 개선 및 변형이 개발되어 왔다. 예를 들어, "선라이즈 프로브" 또는 "분자 비컨"은 FRET(fluorescence resonance energy transfer) 특성을 사용하고 높은 감도를 제공한다. Wolf 외, Proc.Nat.Acad.Sci.USA, 85:8790-8794 (1988)를 참조할 수 있다. 일반적으로 검출될 뉴클레오티드 유전자 자리에 걸쳐 있는 프로브는 머리핀 모양의 구조로 설계되고 한쪽 끝에는 소광 형광단이 있고 다른 쪽 끝에는 리포터 형광단으로 라벨링된다. 자연 상태에서, 리포터 형광단의 형광은 하나의 형광단이 다른 형광단에 근접하기 때문에 소광 형광단에 의해 소멸된다. 프로브가 표적 DNA에 혼성화되면 5' 말단이 3' 말단으로부터 멀리 분리되어 형광 신호가 재생된다. Nazarenko 외, Nucleic Acids Res., 25:2516-2521 (1997); Rychlik 외, Nucleic Acids Res., 17:8543-8551 (1989); Sharkey 외, Bio/Technology 12:506-509 (1994); Tyagi 외, Nat.Biotechnol., 14:303-308 (1996); Tyagi 외, Nat.Biotechnol., 16:49-53 (1998)를 참조할 수 있다. HANDS(homo-tag assisted non-dimer system)는 분자 표지 방법과 함께 사용되어 프라이머-이량체 축적을 억제할 수 있다. Brownie 외, Nucleic Acids Res., 25:3235-3241 (1997)를 참조할 수 있다.
염료-라벨링된 올리고뉴클레오티드 결찰 분석이 OLA 분석과 PCR을 결합하는 FRET-기반 방법이다. Chen 외, Genome Res.8:549-556 (1998)를 참조할 수 있다. TaqMan은 뉴클레오티드 변이를 검출하기 위한 또 다른 FRET-기반 방법이다. TaqMan 프로브는 관심 있는 변이 유전자 자리에 걸친 유전자의 뉴클레오티드 서열을 갖고 다른 대립 유전자와 차별적으로 혼성화되도록 설계된 올리고뉴클레오티드일 수 있다. 프로브의 두 끝은 각각 소광 형광 단 및 리포터 형광 단으로 라벨링된다. TaqMan 프로브는 Taq 폴리머아제를 사용하여 관심 유전자 자리를 포함하는 표적 유전자 영역의 증폭을 위해 PCR 반응에 혼입된다. Taq 폴리머아제는 5'-3' 엑소뉴클레아제 활성을 나타내지만 3'-5' 엑소뉴클레아제 활성이 없기 때문에 TaqMan 프로브가 표적 DNA 템플릿에 어닐되는 경우, PCR 반응 동안 TaqMan 프로브의 5' 말단이 Taq 폴리머아제에 의해 분해되고, 따라서 리포트 형광 단을 소광 형광 단에서 분리하고 형광 신호를 방출할 수 있다. Holland 외, Proc.Natl.Acad.Sci.USA, 88:7276-7280 (1991); Kalinina 외, Nucleic Acids Res., 25:1999-2004 (1997); Whitcombe 외, Clin.Chem., 44:918-923 (1998)를 참조할 수 있다.
또한, 본 방법에서의 검출은 화학발광-기반 기술을 사용할 수도 있다. 예를 들어, 올리고 뉴클레오티드 프로브는 야생형 또는 변이 유전자 자리 중 하나에 혼성화하도록 설계될 수 있지만 둘 모두에 혼성화되지는 않는다. 프로브는 고도의 화학 발광 아크리디늄 에스테르로 라벨링된다. 아크리디늄 에스테르의 가수 분해는 화학 발광을 파괴한다. 프로브를 표적 DNA로 혼성화하는 것은 아크리디늄 에스테르의 가수 분해를 막는다. 따라서 표적 DNA에서의 특정 돌연변이의 유무는 화학 발광 변화를 측정하여 결정된다. Nelson 외, Nucleic Acids Res., 24:4998-5003 (1996)를 참조할 수 있다.
본 방법에 따른 유전자의 유전적 변이의 검출은 또한 BESS(base excision sequence scanning) 기법에 기초할 수 있다. BESS 방법은 PCR 기반 돌연변이 스캔 방법이다. 디데옥시 시퀀싱(dideoxy sequencing)의 T 및 G 래더와 유사한 BESS T-Scan 및 BESS G-Tracker가 생성된다. 돌연변이는 정상 DNA와 돌연변이 DNA의 서열을 비교함으로써 검출된다. 가령, Hawkins 외, Electrophoresis, 20:1171-1176 (1999)를 참조할 수 있다.
질량 분석법은 본 방법에 따라 분자 프로파일링에 사용될 수 있다. Graber 외, Curr.Opin.Biotechnol., 9:14-18 (1998)를 참조할 수 있다. 예를 들어, 프라이머 올리고 염기 연장(PROBE(primer oligo base extension)™) 방법에서 표적 핵산은 고체상 지지체에 고정된다. 프라이머는 분석될 유전자 자리로부터 바로 5' 상류의 표적에 어닐된다. 프라이머 연장은 데옥시리보뉴클레오티드와 디데옥시리보뉴클레오티드의 선택된 혼합물의 존재 하에 수행된다. 새로 연장된 프라이머의 결과 혼합물은 MALDI-TOF로 분석된다. 예를 들어, Monforte 외, Nat.Med., 3:360-362 (1997)를 참조할 수 있다.
또한, 마이크로칩 또는 마이크로어레이 기술이 본 방법의 검출 방법에도 적용 가능하다. 기본적으로, 마이크로칩에서, 다수의 상이한 올리고뉴클레오티드 프로브가 기판 또는 캐리어(가령, 실리콘 칩 또는 유리 슬라이드) 상에 어레이로 고정된다. 분석될 표적 핵산 서열은 마이크로칩 상의 고정된 올리고뉴클레오티드 프로브와 접촉될 수 있다. Lipshutz 외, Biotechniques, 19:442-447 (1995); Chee 외, Science, 274:610-614 (1996); Kozal 외, Nat.Med.2:753-759 (1996); Hacia 외, Nat.Genet., 14:441-447 (1996); Saiki 외, Proc.Natl.Acad.Sci.USA, 86:6230-6234 (1989); Gingeras 외, Genome Res., 8:435-448 (1998)를 참조할 수 있다. 대안으로, 연구될 다중 표적 핵산 서열은 기질에 고정되고 프로브 어레이는 고정된 표적 서열과 접촉된다. Drmanac 외, Nat.Biotechnol., 16:54-58 (1998)를 참조할 수 있다. 돌연 변이를 검출하기 위한 기재된 기술 중 하나 이상을 통합하는 수 많은 마이크로 칩 기술이 개발되었다. 컴퓨터화된 분석 도구와 결합된 마이크로칩 기술은 대규모로 빠른 스크리닝을 가능하게 한다. 마이크로칩 기술을 본 방법에 적용하는 것은 본 개시 내용을 적용한 해당 분야의 통상의 기술자에게 명백할 것이다. 예를 들어, U.S.Pat.No.5,925,525 to Fodor et al; Wilgenbus 외, J.Mol.Med., 77:761-786 (1999); Graber 외, Curr.Opin.Biotechnol., 9:14-18 (1998); Hacia 외, Nat.Genet., 14:441-447 (1996); Shoemaker 외, Nat.Genet., 14:450-456 (1996); DeRisi 외, Nat.Genet., 14:457-460 (1996); Chee 외, Nat.Genet., 14:610-614 (1996); Lockhart 외, Nat.Genet., 14:675-680 (1996); Drobyshev 외, Gene, 188:45-52 (1997)를 참조할 수 있다.
적합한 검출 기술에 대한 상기 조사에서 명백한 바와 같이, 표적 DNA 분자의 수를 증가시키기 위해, 사용되는 감지 기술에 따라, 표적 DNA, 즉 유전자, cDNA, mRNA, miRNA 또는 이의 일부를 증폭하는 것이 필요하거나 필요하지 않을 수 있다. 예를 들어, 대부분의 PCR 기반 기술은 표적의 일부의 증폭과 돌연변이의 검출을 결합한다. PCR 증폭은 해당 분야에 잘 알려져 있으며 미국 특허 번호 4,683,195 및 4,800,159에 개시되어 있으며, 이들 모두는 참조로서 본 명세서에 포함된다. 비-PCR-기반 검출 기술의 경우, 필요에 따라, 증폭이 예를 들어 체내 플라스미드 증식 또는 다량의 조직 또는 세포 샘플에서 표적 DNA를 정제하여 달성될 수 있다. 일반적으로 Sambrook 외, Molecular Cloning: A Laboratory Manual, 2nd ed., Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y., 1989를 참조할 수 있다. 그러나, 희소한 샘플의 경우에도, 샘플에서 표적 DNA를 증폭하지 않고도 단일 염기 치환과 같은 작은 유전적 변이를 검출할 수 있는 많은 민감한 기술이 개발되었다. 예를 들어, 표적 DNA에 혼성화될 수 있는 분지형 DNA 또는 덴드리머(dendrimer)를 사용함으로써, 표적 DNA와 반대되는 신호를 증폭하는 기술이 개발되었다. 분지형 또는 덴드리머 DNA는 혼성화 프로브가 부착될 다중 혼성화 부위를 제공하여 검출 신호를 증폭한다. Detmer 외, J.Clin.Microbiol., 34:901-907 (1996); Collins 외, Nucleic Acids Res., 25:2979-2984 (1997); Horn 외, Nucleic Acids Res., 25:4835-4841 (1997); Horn 외, Nucleic Acids Res., 25:4842-4849 (1997); Nilsen 외, J.Theor.Biol., 187:273-284 (1997)를 참조할 수 있다.
Invader™ 분석은 방법에 따라 분자 프로파일링에 사용될 수 있는 단일 뉴클레오티드 변이를 검출하기 위한 또 다른 기술이다. Invader™ 분석은 일반적인 PCR DNA 염기 서열 분석에 필요한 긴 처리 시간을 개선하는 새로운 선형 신호 증폭 기술을 사용한다. Cooksey 외, Antimicrobial Agents and Chemotherapy 44:1296-1301 (2000)를 참조할 수 있다. 이 분석은 "플랩"을 형성하기 위해 관심 표적 서열에 혼성화하는 2개의 중첩 올리고뉴클레오티드 사이에 형성된 독특한 2차 구조의 절단을 기반으로 한다. 그런 다음 각각의 "플랩"은 시간당 수천 개의 신호를 생성한다. 따라서, 이 기술의 결과는 쉽게 판독될 수 있으며 방법은 DNA 표적의 지수 증폭이 필요하지 않는다. Invader™ 시스템은 DNA 표적에 혼성화된 두 개의 짧은 DNA 프로브를 사용한다. 혼성화 이벤트에 의해 형성된 구조는 프로브 중 하나를 절단하여 짧은 DNA "플랩"을 방출하는 특수 절단 효소에 의해 인식된다. 각각의 방출된 "플랩"은 형광 라벨링된 프로브에 결합하여 또 다른 절단 구조를 형성할 수 있다. 절단 효소가 라벨링된 프로브를 절단할 때, 프로브는 검출 가능한 형광 신호를 방출한다. 가령, Lyamichev 외, Nat.Biotechnol., 17:292-296 (1999)를 참조할 수 있다.
롤링 서클 방법은 지수 증폭을 피하는 또 다른 방법이다. Lizardi 외, Nature Genetics, 19:225-232 (1998)(본 명세서에 참조로서 포함됨). 예를 들어, 이 방법의 상업적 구현인 Sniper™는 특정 변이체의 정확한 형광 검출을 위해 설계된 민감하고 처리량이 높은 SNP 스코어링 시스템이다. 각각의 뉴클레오티드 변형에 대해, 두 개의 선형 대립 유전자 특이적 프로브가 설계되었다. 2개의 대립 유전자 특이적 프로브는 변이 부위를 보완하기 위해 변화하는 3' 염기를 제외하고는 동일하다. 분석의 첫 번째 단계에서 표적 DNA가 변성된 후 한 쌍의 단일 대립 유전자 특이적 개방형 올리고뉴클레오티드 프로브와 혼성화된다. 3' 염기가 표적 DNA를 정확히 보완할 때 프로브의 결찰이 우선적으로 발생할 것이다. 순환 올리고뉴클레오티드 프로브의 후속 검출은 롤링 서클 증폭에 의한 것이며, 증폭된 프로브 생성물은 형광에 의해 검출된다. Clark and Pickering, Life Science News 6, 2000, Amersham Pharmacia Biotech (2000)을 참조할 수 있다.
증폭을 모두 피하는 다른 많은 기술에는 예를 들어 SERRS(surface-enhanced resonance Raman scattering), 형광 상관 분광법 및 단일 분자 전기 영동이 포함된다. SERRS에서, 발색단-핵산 접합체는 콜로이드성 은에 흡수되고 발색단의 공명 주파수에서 레이저 광으로 조사된다. Graham 외, Anal.Chem., 69:4703-4707 (1997)을 참조할 수 있다. 형광 상관 분광법은 변동하는 광 신호와 전기장에 단일 분자를 포획하는 사이의 시공간 상관 관계를 기반으로 한다. Eigen 외, Proc.Natl.Acad.Sci.USA, 91:5740-5747 (1994)를 참조할 수 있다. 단일-분자 전기 영동에서, 형광 태깅된 핵산의 전기 영동 속도는 분자가 두 레이저 빔 간 지정 거리를 이동하는 데 필요한 시간을 측정함으로써 결정된다. Castro 외, Anal.Chem., 67:3181-3186 (1995)를 참조할 수 있다.
또한, 대립 유전자 특이적 올리고뉴클레오티드(ASO)는 조직 또는 세포를 샘플로 사용하는 원위치 혼성화도 사용할 수 있다. 야생형 유전자 서열 또는 돌연변이를 포함하는 유전자 서열과 차별적으로 혼성화할 수 있는 올리고뉴클레오티드 프로브는 방사성 동위 원소, 형광 또는 기타 검출 가능한 마커로 라벨링될 수 있다. 원위치 혼성화 기술은 해당 업계에 잘 알려져 있으며, 해당 분야의 통상의 기술자라면,이들을 본 방법에 적용하여 특정 개체의 하나 이상의 유전자에서 뉴클레오티드 변이체의 존재 또는 부재를 검출할 수 있음을 자명하게 알 것이다.
따라서, 개체에서 하나 이상의 유전자 뉴클레오티드 변이체 또는 아미노산 변이체의 존재 또는 부재는 상기 기재된 임의의 검출 방법을 사용하여 결정될 수 있다.
일반적으로, 하나 이상의 유전자 뉴클레오티드 변이 또는 아미노산 변이의 존재 또는 부재가 결정되면 의사나 유전 상담사, 환자 또는 다른 연구자에게 결과를 알릴 수 있다. 특히, 결과는 다른 연구자, 의사, 유전 상담사 또는 환자에게 통신되거나 전달될 수 있는 전달 가능한 형태로 캐스팅될 수 있다. 이러한 형식은 다양할 수 있으며 유형 또는 무형일 수 있다. 시험 대상 개체에서 본 방법의 뉴클레오티드 변이체의 존재 또는 부재와 관련된 결과는 설명문, 다이어그램, 사진, 차트, 이미지 또는 기타 시각적 형태로 구체화될 수 있다. 예를 들어, PCR 산물의 겔 전기 영동 이미지를 사용하여 결과가 설명될 수 있다. 개인의 유전자에서 변이가 발생하는 위치를 보여주는 다이어그램도 검사 결과를 나타내는 데 유용하다. 진술과 시각적 형식은 종이와 같은 유형의 매체, 플로피 디스크, 콤팩트 디스크 등과 같은 컴퓨터 판독 가능 매체 또는 무형 매체(가령, 이메일 형식의 전자 매체 또는 인터넷상의 웹 사이트)에 기록 될 수 있다. 또는, 검사되는 개체에서 뉴클레오티드 변이 또는 아미노산 변이의 존재 또는 부재와 관련된 결과가 소리 형식으로 기록될 수 있으며 임의의 적절한 매체, 가령, 아날로그 또는 디지털 케이블 선, 광섬유 케이블 등을 통해, 가령, 전화기, 팩시밀리, 무선 모바일 전화기, 인터넷 전화기 등을 통해 전송될 수 있다.
따라서 검사 결과에 대한 정보와 데이터는 세계 어디에서나 생성되어 다른 위치로 전송될 수 있다. 예를 들어, 유전형 분석이 해외에서 수행되는 경우, 검사 결과에 대한 정보 및 데이터가 생성되어 앞서 설명한 전송 가능한 형태로 캐스팅될 수 있다. 따라서 전송 가능한 형태로의 검사 결과가 U.S로 가져와질 수 있다. 따라서 본 발명은 개체로부터의 둘 이상의 의심되는 암 샘플의 유전자형에 대한 정보의 전송 가능한 형태를 생성하기 위한 방법을 더 포함한다. 이 방법은 (1) 본 방법의 방법에 따라 샘플로부터 DNA의 유전자형을 결정하는 단계, 및 (2) 결정 단계의 결과를 전송 가능한 형태로 구현하는 단계를 포함한다. 전송 가능한 형태는 생성 방법의 산물이다.
원위치 혼성화
원위치 혼성화에서 분석이 잘 알여져 있으며 일반적으로 Angerer 외, Methods Enzymol.152:649-660 (1987)에 기재되어 있다. 원위치 혼성화 분석에서, 예를 들어 생검으로부터 얻은 세포는 고체 지지체, 일반적으로 유리 슬라이드에 고정된다. DNA가 프로빙될 경우, 세포는 열이나 알칼리에 의해 변성된다. 그런 다음 세포를 적당한 온도에서 혼성화 용액과 접촉시켜 라벨링된 특정 프로브의 어닐을 허용한다. 프로브는 바람직하게는 예를 들어 방사성 동위 원소 또는 형광 리포터로 또는 효소적으로 라벨링된다. FISH(fluorescence in situ hybridization)는 높은 수준의 서열 유사성을 보이는 서열의 일부에만 결합하는 형광 프로브를 사용한다. CISH(chromogenic in situ hybridization)는 표준 명시야 현미경 하에서 시각화된 기존의 페르옥시다제 또는 알칼리성 포스파타제 반응을 사용한다.
원위치 혼성화는 뉴클레오티드 프로브의 상보적 가닥을 관심 서열에 혼성화함으로써 조직 절편 또는 세포 제제에서 특정 유전자 서열을 검출하는 데 사용될 수 있다. FISH(fluorescent in situ hybridization)는 형광 프로브를 사용하여 원위치 혼성화의 감도를 증가시킨다.
FISH는 세포에서 특정 폴리 뉴클레오티드 서열을 검출하고 국소화하는 데 사용되는 세포 유전학 기술이다. 예를 들어, FISH는 염색체에서 DNA 서열을 검출하는 데 사용될 수 있다. FISH는 또한 조직 샘플 내에서 특정 RNA(가령, mRNA)를 검출하고 국소화하는 데 사용될 수 있다. FISH에서는 높은 수준의 서열 유사성을 나타내는 특정 뉴클레오티드 서열에 결합하는 형광 프로브가 사용된다. 형광 현미경은 형광 프로브가 결합되었는지 여부와 위치를 확인하는 데 사용될 수 있다. 특정 뉴클레오티드 서열, 가령, 전좌, 융합, 파손, 복제 및 기타 염색체 이상을 검출하는 것 외에도 FISH는 세포 및 조직 내에서 특정 유전자 복제수 및/또는 유전자 발현의 공간-시간 패턴을 정의하는 데 도움을 줄 수 있다.
다양한 유형의 FISH 프로브가 사용되어 염색체 전위를 감지할 수 있다. 이중 색상, 단일 융합 프로브는 특정 염색체 전좌를 보유한 세포를 검출하는 데 유용할 수 있다. DNA 프로브 혼성화 표적은 두 유전적 중단점 각각의 한쪽에 있다. "추가 신호" 프로브는 정상 핵에서 프로브 신호의 무작위 공동 국소화로 인해 비정상적인 FISH 패턴을 나타내는 정상 세포의 빈도를 줄일 수 있다. 하나의 큰 프로브는 하나의 중단점에 걸쳐 있고 다른 프로브는 다른 유전자의 중단점 옆에 있다. 이중 색상, 분리 프로브는 알려진 유전적 중단점과 관련된 여러 전좌 파트너가 있을 수 있는 경우에 유용하다. 이 라벨링 체계는 하나의 유전자에서 중단점의 반대편에 있는 표적에 혼성화하는 두 개의 서로 다른 색상의 프로브를 특징으로 한다. 이중 색상, 이중 융합 프로브는 비정상적인 신호 패턴을 나타내는 정상 핵의 수를 줄일 수 있다. 이 프로브는 단순한 균형 전좌를 가진 낮은 수준의 핵을 검출하는 데 유리하다. 큰 프로브는 서로 다른 염색체의 두 중단점에 걸쳐 있다. 이러한 프로브는 일리노이 주, 애보트 파크에있는 애보트 연구소(Abbott Laboratories)의 비시스 프로브(Vysis probe)로서 이용 가능하다.
CISH, 또는 발색성 원위치 혼성화가 라벨링된 상보적 DNA 또는 RNA 가닥이 사용되어 조직 표본에서 특정 DNA 또는 RNA 서열을 국소화하는 과정입니다. CISH 방법론은 유전자 증폭, 유전자 결실, 염색체 전좌 및 염색체 수를 평가하는 데 사용할 수 있다. CISH는 표준 명시야 현미경으로 시각화된, 종래의 효소 검출 방법, 가령, 양겨자 페르옥시다제 또는 알칼리성 포스파타제 반응을 이용할 수 있다. 일반적인 구체예에서, 관심 서열을 인식하는 프로브는 샘플과 접촉된다. 예를 들어, 프로브에 의해 운반되는 라벨을 통해, 프로브를 인식하는 항체 또는 기타 결합제는 효소 검출 시스템을 프로브 부위에 표적화하는 데 사용될 수 있다. 일부 시스템에서, 항체는 FISH 프로브의 라벨을 인식할 수 있으므로 FISH 및 CISH 검출을 모두 사용하여 샘플을 분석할 수 있다. CISH는 여러 설정, 가령, 포르말린 고정, 파라핀 포매(FFPE) 조직, 혈액 또는 골수 도말, 중기 염색체 확산 및/또는 고정 세포에서 핵산을 평가하는 데 사용될 수 있다. 하나의 구체예에서, CISH는 Life Technologies(캘리포니아, 칼스배드)로부터 입수 가능한 SPoT-Light® HER2 CISH 키트 또는 Life Technologies로부터 입수 가능한 유사한 CISH 제품의 방법론에 따라 수행된다. SPoT-Light® HER2 CISH 키트 자체는 체외 진단용으로 FDA 승인을 받았으며 HER2의 분자 프로파일링에 사용할 수 있다. CISH는 FISH와 유사한 응용 프로그램에서 사용될 수 있다. 따라서, 해당 분야의 통상의 기술자는 본 명세서에서 FISH를 사용한 분자 프로파일링에 대한 언급이 달리 명시되지 않는 한 CISH를 사용하여 수행될 수 있음을 인식 할 것이다.
SISH(silver-enhanced in situ hybridization)은 CISH와 유사하지만 SISH를 사용하면 신호가 CISH의 발색체 침전물 대신 은 침전으로 인해 검은 색으로 나타난다.
방법에 따라 분자 프로파일링을 위해 변형된 원위치 혼성화를 사용할 수 있다. 이러한 변형은 예를 들어 복수의 표적의 동시 검출 , 가령, Dual ISH, Dual color CISH, BDISH(bright field double in situ hybridization)을 포함한다. 예를 들어, FDA 승인된 Ventana Medical Systems, Inc.(Tucson, AZ)의 INFORM HER2 Dual ISH DNA 프로브 칵테일 키트, Dako Denmark A/S(덴마크)에 의해 개발된 듀얼 컬러 CISH 키트를 참조할 수 있다.
CGH(Comparative Genomic Hybridization)는 염색체 및 아염색체 수준에서 복제수 변화에 대한 특징적인 패턴을 보여주는 유전적 변화에 대해 종양 샘플을 스크리닝하는 분자 세포 유전 학적 방법을 포함한다. 패턴의 변화는 DNA 증가와 손실로 분류될 수 있다. CGH는 한 샘플에서 다른 DNA 또는 RNA 서열의 복제수 또는 한 샘플에서 다른 DNA 또는 RNA 서열의 복제수를 다른 샘플에서 실질적으로 동일한 서열의 복제수와 비교하기 위해 원위치 혼성화 역학을 사용한다. CGH의 많은 유용한 응용에서, DNA 또는 RNA는 대상 세포 또는 세포 개체군으로부터 분리된다. 비교는 질적 또는 양적일 수 있다. 절대 복제수가 하나 또는 여러 서열에 대해 알려지거나 결정되는 경우 세포 또는 세포 집단의 게놈 전체에 걸쳐 DNA 서열의 절대 복제수를 결정하는 절차가 설명된다. 상이한 서열은 참조 게놈, 일반적으로 중기 염색체에 혼성화될 때 결합 부위의 상이한 위치에 의해 서로 구별되지만 특정 경우에는 간기 핵이다. 복제수 정보는 참조 게놈의 서로 다른 위치 간의 혼성화 신호 강도 비교에서 비롯된다. CGH의 방법, 기술 및 응용은 미국 특허 번호 6,335,167, 및 60/804,818에서 알려져 있으며, 이들의 관련 부분이 본 명세서에 참조로서 포함된다.
하나의 구체예에서, CGH는 질병이있는 조직과 건강한 조직 사이의 핵산을 비교하는 데 사용된다. 이 방법은 질병 조직(예를 들어, 종양) 및 기준 조직(예를 들어, 건강한 조직)에서 DNA를 분리하고 각각 다른 "색상" 또는 형광으로 라벨링하는 것을 포함한다. 두 샘플은 혼합되어 정상 중기 염색체에 혼성화된다. 어레이 또는 매트릭스 CGH의 경우, 혼성화 혼합은 수천 개의 DNA 프로브가 있는 슬라이드 상에서 수행된다. 기본적으로 염색체를 따라 색상 비율을 결정하는 다양한 검출 시스템을 사용하여 참조와 비교하여 질병에 걸린 샘플에서 얻거나 잃을 수 있는 DNA 영역을 결정할 수 있다.
분자 프로파일링 방법
도 1i는 환자의 생물학적 표본의 분자 프로파일링을 사용하는 특정 질병 상태에 대한 개별화된 의료 개입을 결정하기 위한 시스템(10)의 예시적인 실시예의 블록도를 예시한다. 시스템(10)은 사용자 인터페이스(12), 데이터 처리를 위한 프로세서(16)를 포함하는 호스트 서버(14), 프로세서에 결합된 메모리(18), 메모리(18)에 저장되고 데이터 처리를 지시하기 위해 프로세서(16)에 의해 액세스 가능한 애플리케이션 프로그램(20), 복수의 내부 데이터베이스(22) 및 외부 데이터베이스(24), 및 유선 또는 무선 통신 네트워크(26)(가령, 인터넷)와의 인터페이스를 포함한다. 시스템(10)은 또한 사용자 인터페이스(12)로부터 수신된 데이터로부터 디지털 데이터를 입력하기 위해 프로세서(16)에 연결된 입력 디지타이저(28)를 포함할 수 있다.
사용자 인터페이스(12)는 시스템(10)에 데이터를 입력하고 프로세서(16)에 의해 처리된 데이터로부터 유도된 정보를 표시하기위한 입력 장치(30) 및 디스플레이(32)를 포함한다. 사용자 인터페이스(12)는 또한 프로세서(16)에 의해 처리된 데이터로부터 유도된 정보, 가령, 표적에 대한 검사 결과 및 검사 결과에 기초하는 제안 약물 요법을 포함할 수 있는 환자 리포트를 인쇄하기 위한 프린터(34)를 포함할 수 있다.
내부 데이터베이스(22)는 환자 생체 샘플/표본 정보 및 추적, 임상 데이터, 환자 데이터, 환자 추적, 파일 관리, 연구 프로토콜, 분자 프로파일링으로부터의 환자 검사 결과, 및 청구 정보 및 추적을 포함할 수 있지만 이에 제한되지는 않는다. 외부 데이터베이스는 약물 라이브러리, 유전자 라이브러리, 질병 라이브러리 및 공개 및 사설 데이터베이스, 가령, UniGene, OMIM, GO, TIGR, GenBank, KEGG 및 Biocarta를 포함할 수 있지만, 이에 한정되지는 않는다.
다양한 방법이 시스템(10)에 따라 사용될 수 있다. 도 2a-c는 질병 특이적이 아닌 환자의 생물학적 표본의 분자 프로파일링을 사용하는 특정 질병 상태에 대한 개별화된 의료 개입을 결정하기 위한 방법의 예시적인 실시예의 블록도를 예시한다. 질병 계통 진단에 독립적인 분자 프로파일링(즉, 단일 질병 제한 없음)을 사용하는 특정 질병 상태에 대한 의학적 개입을 결정하기 위해 질병 있는 환자의 생체 샘플에 대해 적어도 하나의 분자 검사가 수행된다. 종양 생검을 취하고, 어떠한 최신 종양도 가능하지 않은 경우 최소 침습적 수술을 실시하며, 환자의 혈액 샘플, 또는 그 밖의 다른 임의의 생체 유체의 샘플, 비제한적 예를 들면, 세포 추출물, 핵 추출물, 세포 용해물 또는 생체 산물 또는 생체 기원의 물질, 가령, 배설물, 혈액, 혈청, 혈장, 소변, 가래, 눈물, 대벽, 타액, 막 추출물 등을 획득함으로써, 질병 있는 환자로부터 생체 샘플이 획득된다.
표적은 분자 검사로부터 획득될 수 있는 임의의 분자 발견일 수 있다. 예를 들어, 표적은 하나 이상의 유전자 또는 단백질을 포함할 수 있다. 예를 들어, 유전자의 복제수 변이의 존재가 결정될 수 있다. 도 2에 도시된 바와 같이, 이러한 표적을 찾기 위한 검사의 비제한적 예를 들면, NGS, IHC, FISH(fluorescent in-situ hybridization), ISH(in-situ hybridization) 및 그 밖의 다른 분자 검사를 포함할 수 있다.
또한, 본 명세서에 개시된 방법은 또한 둘 이상의 표적을 프로파일링하는 것을 포함한다. 비제한적 예를 들면, 복수의 유전자의 복제수 또는 CNV(copy number variation)의 존재가 식별될 수 있다. 또한, 샘플에서 복수의 표적의 식별은 하나의 방법 또는 다양한 수단에 의해 이루어질 수 있다. 예를 들어, 제1 유전자의 CNV의 존재는 하나의 방법, 가령, NGS으로 결정될 수 있고 제2 유전자의 CNV의 존재는 다른 방법, 가령, 단편 분석으로 결정될 수 있다. 대안으로, 동일한 방법이 사용되어, 가령, NGS를 이용해, 첫 번째 및 두 번째 유전자 모두에서 CNV의 존재를 감지할 수 있다.
그런 다음 테스트 결과들이 합쳐져 암의 개별 특성을 결정할 수 있다. 암의 특성을 결정한 후, 가령, 효험 가능성이 있는 치료 및 효험 가능성이 없는 치료를 포함하는 치료 요법이 식별된다.
마지막으로, 다양한 표적에 대한 환자의 검사 결과와 이러한 결과를 기반으로 제안된 치료법이 포함된 환자 프로파일 리포트가 제공될 수 있다.
본 명세서에 기재된 시스템은 암을 평가하기 위해 분자 프로파일을 확인하는 단계를 자동화하는 데 사용될 수 있다. 하나의 양태에서, 본 방법은 분자 프로파일을 포함하는 리포트를 생성하는 데 사용될 수 있다. 방법은 다음을 포함할 수 있다: 복수의 암 바이오마커의 특성을 평가하기 위해 피험체로부터의 샘플에 대해 분자 프로파일링을 수행하는 단계, 및 분석된 특성을 포함하는 리포트를 하나의 리스트로 편집하여, 샘플에 대한 분자 프로파일을 식별하는 리포트를 생성하는 단계. 리포트는 평가된 특성에 기초하여 복수의 치료 옵션의 예상 이익을 설명하는 리스트을 추가로 포함할 수 있으며, 이에 따라 피험자에 대한 후보 치료 옵션을 식별 할 수 있다. 리포트는 평가된 특성에 기초하여, 효험 가능성이 낮은 치료, 또는 효험 미결정 치료를 제안할 수 있다.
치료 선택을 위한 분자 프로파일링
본 명세서에 기재된 방법은 이를 필요로 하는 피험체에 대한 후보 치료 선택을 제공한다. 분자 프로파일링은 본 명세서에 개시된 하나 이상의 바이오마커가 치료를 위한 표적인 질환을 앓고 있는 개체에 대한 하나 이상의 후보 치료를 식별하기 위해 사용될 수 있다. 예를 들어, 방법은 암에 대한 하나 이상의 화학 요법 치료를 식별할 수 있다. 하나의 양태에서, 방법은 하나 이상의 바이오마커에 대해 하나 이상의 분자 프로파일링 기술을 수행하는 단계를 포함하는 방법을 제공한다. 임의의 관련 바이오마커는 본 명세서에 기술되거나 해당 업계에 공지된 하나 이상의 분자 프로파일링 기술을 사용하여 평가될 수 있다. 마커는 유용할 치료와 직접 또는 간접적으로 연관될 필요가 있다. 본 명세서에 개시된 것과 같은 모든 관련 분자 프로파일링 기술을 수행할 수 있다. 여기에는 단백질 및 핵산 분석 기술이 제한 없이 포함될 수 있다. 단백질 분석 기술은 비제한적인 예로서, 면역 분석, 면역 조직 화학 및 질량 분석을 포함한다. 핵산 분석 기술의 비 제한적인 예로는, 증폭, 폴리머아제 연쇄 증폭, 혼성화, 마이크로어레이, 원위치 혼성화, 시퀀싱, 염료-종결자 시퀀싱, 차세대 시퀀싱, 파이로 시퀀싱 및 제한 단편 분석이 있다.
분자 프로파일링은 수행되는 각각의 분석 기술에 대한 하나 이상의 유전자(또는 유전자 산물)의 프로파일링을 포함할 수 있다. 상이한 수의 유전자가 상이한 기법에 의해 분석될 수 있다. 표적 치료제와 직접 또는 간접적으로 관련된 본 명세서에 개시된 임의의 마커가 평가될 수 있다. 예를 들어, 소분자 또는 항체와 같은 결합제와 같은 치료제로 조절될 수 있는 표적을 포함하는 임의의 "투약 가능 표적(druggable target)"은 본 명세서에 기재된 바와 같은 분자 프로파일링 방법에 포함될 후보이다. 표적은 또한 연관된 약물에 의해 영향을 받는 생물학적 경로의 구성요소와 같이 간접적으로 약물과 연관될 수 있다. 분자 프로파일링은 유전자(가령, DNA 서열) 및/또는 유전자 산물(가령, mRNA 또는 단백질)을 기반으로 할 수 있다. 이러한 핵산 및/또는 폴리펩티드는 존재 또는 부재, 수준 또는 양, 활성, 돌연변이, 서열, 하플로타입, 재 배열, 복제수 또는 기타 측정 가능한 특성에 대해 적용 가능한 것으로 프로파일링될 수 있다. 일부 구체예에서, 단일 유전자 및/또는 하나 이상의 대응하는 유전자 산물은 둘 이상의 분자 프로파일링 기술에 의해 분석된다. 유전자 또는 유전자 산물(본 명세서에서 "마커" 또는 "바이오마커"라고도 함), 예를 들어 mRNA 또는 단백질은 적용 가능한 기술(가령, DNA, RNA, 단백질을 평가하기 위해), 비제한적 예를 들어, ISH, 유전자 발현, IHC, 시퀀싱 또는 면역분석을 사용하여 평가됩니다. 따라서, 본 명세서에 개시된 임의의 마커는 단일 분자 프로파일링 기술 또는 본 명세서에 개시된 다중 방법에 의해 분석될 수 있다(예를 들어, 단일 마커는 IHC, ISH, 시퀀싱, 마이크로어레이 등 중 하나 이상에 의해 프로파일링됨). 일부 구체예에서, 적어도 약1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 또는 적어도 약 100개의 유전자 또는 유전자 산물은 적어도 하나의 기술에 의해, 복수의 기술에 의해 또는 ISH, IHC, 유전자 발현, 유전자 복제 및 시퀀싱의 임의의 원하는 조합을 사용하여 프로파일링된다. 일부 구체예에서, 적어도 약 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10,000, 11,000, 12,000, 13,000, 14,000, 15,000, 16,000, 17,000, 18,000, 19,000, 20,000, 21,000, 22,000, 23,000, 24,000, 25,000, 26,000, 27,000, 28,000, 29,000, 30,000, 31,000, 32,000, 33,000, 34,000, 35,000, 36,000, 37,000, 38,000, 39,000, 40,000, 41,000, 42,000, 43,000, 44,000, 45,000, 46,000, 47,000, 48,000, 49,000 또는 적어도 50,000개의 유전자 또는 유전자 산물이 다양한 기술을 사용하여 프로파일링된다. 분석된 마커의 수는 사용되는 기술에 따라 달라질 수 있다. 예를 들어, 마이크로어레이 및 대규모 병렬 시퀀싱은 높은 처리량 분석에 적합하다. 분자 프로파일링은 종양 자체의 분자 특성을 쿼리하기 때문에 이 접근 방식은 종양의 계통에 따라 고려되지 않을 수 있는 치료법에 대한 정보를 제공한다.
일부 구체예에서, 이를 필요로 하는 피험체로부터의 샘플은 다음 중 하나 이상에 대해 IHC 분석, 유전자 발현 분석, ISH 분석 및/또는 서열 분석(예를 들어, PCR, RT-PCR, 파이로시퀀싱, NGS)을 포함하는 방법을 이용해 프로파일링된다: ABCC1, ABCG2, ACE2, ADA, ADH1C, ADH4, AGT, AR, AREG, ASNS, BCL2, BCRP, BDCA1, 베타 III 튜불린, BIRC5, B-RAF, BRCA1, BRCA2, CA2, 카베올린, CD20, CD25, CD33, CD52, CDA, CDKN2A, CDKN1A, CDKN1B, CDK2, CDW52, CES2, CK 14, CK 17, CK 5/6, c-KIT, c-Met, c-Myc, COX-2, 사이클린 D1, DCK, DHFR, DNMT1, DNMT3A, DNMT3B, E-카드헤린, ECGF1, EGFR, EML4-ALK fusion, EPHA2, 에피레귤린, ER, ERBR2, ERCC1, ERCC3, EREG, ESR1, FLT1, 엽산 수용체, FOLR1, FOLR2, FSHB, FSHPRH1, FSHR, FYN, GART, GNA11, GNAQ, GNRH1, GNRHR1, GSTP1, HCK, HDAC1, hENT-1, Her2/Neu, HGF, HIF1A, HIG1, HSP90, HSP90AA1, HSPCA, IGF-1R, IGFRBP, IGFRBP3, IGFRBP4, IGFRBP5, IL13RA1, IL2RA, KDR, Ki67, KIT, K-RAS, LCK, LTB, 림포톡신 베타 수용체, LYN, MET, MGMT, MLH1, MMR, MRP1, MS4A1, MSH2, MSH5, Myc, NFKB1, NFKB2, NFKBIA, NRAS, ODC1, OGFR, p16, p21, p27, p53, p95, PARP-1, PDGFC, PDGFR, PDGFRA, PDGFRB, PGP, PGR, PI3K, POLA, POLA1, PPARG, PPARGC1, PR, PTEN, PTGS2, PTPN12, RAF1, RARA, ROS1, RRM1, RRM2, RRM2B, RXRB, RXRG, SIK2, SPARC, SRC, SSTR1, SSTR2, SSTR3, SSTR4, SSTR5, 서비빈(Survivin), TK1, TLE3, TNF, TOP1, TOP2A, TOP2B, TS, TUBB3, TXN, TXNRD1, TYMS, VDR, VEGF, VEGFA, VEGFC, VHL, YES1, ZAP70, 또는 표 2-116, 표 117-120, ISNM1, 표 121-130 중 임의의 하나에 나열된 바이오마커, 및 이들의 임의의 유용한 조합.
해당 분야의 통상의 기술자에 의해 이해되는 바와 같이, 유전자 및 단백질은 과학 문헌에서 다수의 대체 명칭을 발전시켰다. 본 명세서에서 사용되는 유전자 별칭 및 설명 리스트은 다양한 온라인 데이터베이스, 가령, GeneCards® (www.genecards.org), HUGO Gene Nomenclature (www.genenames.org), Entrez Gene (www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene), UniProtKB/Swiss-Prot (www.uniprot.org), UniProtKB/TrEMBL (www.uniprot.org), OMIM (www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM), GeneLoc (genecards.weizmann.ac.il/geneloc/), 및 Ensembl (www.ensembl.org)를 이용해 발견될 수 있다. 예를 들어, 본 명세서에서 사용된 유전자 기호 및 이름은 HUGO에 의해 승인된 것에 대응할 수 있고 단백질 이름은 UniProtKB/Swiss-Prot에 의해 권장되는 것일 수 있다. 본 명세서에서, 단백질 이름이 전구체를 나타내는 경우 성숙 단백질도 함축된다. 애플리케이션 전체에서, 유전자 및 단백질 기호는 상호교환적으로 사용될 수 있으며 의미는 문맥으로부터 파생될 수 있다, 예를 들어 ISH 또는 NGS는 핵산을 분석하기 위해 사용될 수 있는 반면에 IHC는 단백질 분석에 사용된다.
본 명세서에 기재된 분자 프로파일을 제공하기 위해 평가될 유전자 및 유전자 산물의 선택은 새로운 치료법 및 새로운 약물 표적이 식별됨에 따라 시간이 지남에 따라 업데이트 될 수 있다. 예를 들어, 바이오마커의 발현 또는 돌연변이가 치료 옵션과 상관되면 분자 프로파일링에 의해 평가될 수 있다. 해당 분야의 통상의 기술자는 이러한 분자 프로파일링이 본 명세서에 개시된 기술에 제한되지 않고 핵산 또는 단백질 수준, 서열 정보 또는 둘 모두를 평가하기 위한 통상적인 방법론을 포함한다는 것을 이해할 것이다. 본 명세서에 기재된 방법은 또한 현재 방법 또는 미래에 개발된 새로운 분자 프로파일링 기술에 대한 임의의 개선을 이용할 수 있다. 일부 구체예에서, 유전자 또는 유전자 산물은 단일 분자 프로파일링 기술에 의해 평가된다. 다른 구체예에서, 유전자 및/또는 유전자 산물은 다중 분자 프로파일링 기술에 의해 평가된다. 비 제한적인 예에서, 유전자 서열은 NGS, ISH 및 파이로시퀀싱 분석 중 하나 이상에 의해 분석될 수 있으며, mRNA 유전자 산물은 NGS, RT-PCR 및 마이크로어레이 중 하나 이상에 의해 분석될 수 있고, IHC 및 면역 분석 중 하나 이상에 의해 단백질 유전자 산물이 분석될 수 있다. 해당 분야의 통상의 기술자는 질병 치료에 도움이 될 바이오마커 및 분자 프로파일링 기술의 임의의 조합이 본 방법에 의해 고려된다는 것을 이해할 것이다.
암에서 역할을 하는 것으로 알려져 있고 본 명세서에 기재된 바와 같은 분자 프로파일링 기술 중 어느 것에 의해 분석될 수 있는 유전자 및 유전자 산물은 제한없이그 전체가 본 명세서에 참조로서 포함되는 2007년11월29일에 공개된 국제 특허 공개 번호 WO/2007/137187 (국제 출원 번호 PCT/US2007/069286); 2010년 04월 22일에 공개된 WO/2010/045318 (국제 출원 번호 PCT/US2009/060630), 2010년 08월 19일에 공개된 WO/2010/093465 (국제 출원 번호 PCT/US2010/000407), 2012년 12월 13일에 공개된 WO/2012/170715 (국제 출원 번호 PCT/US2012/041393), 2014년 06월 12일에 공개된 WO/2014/089241 (국제 출원 번호 PCT/US2013/073184), 2011년 05월 12일에 공개된 WO/2011/056688 (국제 출원 번호 PCT/US2010/054366), 2012년 07월 05일에 공개된 WO/2012/092336 (국제 출원 번호 PCT/US2011/067527), 2015년 08월 06일에 공개된 WO/2015/116868 (국제 출원 번호 PCT/US2015/013618), 2017년 03월 30일에 공개된 WO/2017/053915 (국제 출원 번호 PCT/US2016/053614), 2016년 09월 09일에 공개된 WO/2016/141169 (국제 출원 번호 PCT/US2016/020657), 및 2018년 09월 27일에 공개된 WO2018175501 (국제 출원 번호 PCT/US2018/023438) 중 임의의 것에 나열된 것일 수 있다.
돌연변이 프로파일링은 Sanger 시퀀싱, 어레이 시퀀싱, 파이로시퀀싱, 고처리율 또는 차세대(NGS, NextGen) 시퀀싱 등을 포함한 시퀀싱에 의해 결정될 수 있다. 서열 분석은 활성을 억제하는 약물이 치료를 위해 표시되도록 유전자에 활성화 돌연변이가 있음을 보여줄 수 있다. 대안으로, 서열 분석은 유전자가 활성을 억제하거나 제거하는 돌연변이를 가지고 있음을 나타내어 치료를 보상하기 위한 치료를 나타낸다. 일부 구체예에서, 서열 분석은 c-KIT의 엑손 9 및 11의 분석을 포함한다. 시퀀싱은 또한 EGFR-키나제 도메인 엑손 18, 19, 20 및 21에서 수행될 수 있다. EGFR 또는 그 가족 구성원의 돌연변이, 증폭 또는 잘못된 조절은 모든 상피암의 약 30 %와 관련이 있다. 시퀀싱은 PIK3CA 유전자에 의해 암호화된 PI3K에서도 수행될 수 있다. 이 유전자는 많은 암에서 돌연변이된 것으로 발견된다. 시퀀싱 분석은 또한 하나 이상의 ABCC1, ABCG2, ADA, AR, ASNS, BCL2, BIRC5, BRCA1, BRCA2, CD33, CD52, CDA, CES2, DCK, DHFR, DNMT1, DNMT3A, DNMT3B, ECGF1, EGFR, EPHA2, ERBB2, ERCC1, ERCC3, ESR1, FLT1, FOLR2, FYN, GART, GNRH1, GSTP1, HCK, HDAC1, HIF1A, HSP90AA1, IGFBP3, IGFBP4, IGFBP5, IL2RA, KDR, KIT, LCK, LYN, MET, MGMT, MLH1, MS4A1, MSH2, NFKB1, NFKB2, NFKBIA, NRAS, OGFR, PARP1, PDGFC, PDGFRA, PDGFRB, PGP, PGR, POLA1, PTEN, PTGS2, PTPN12, RAF1, RARA, RRM1, RRM2, RRM2B, RXRB, RXRG, SIK2, SPARC, SRC, SSTR1, SSTR2, SSTR3, SSTR4, SSTR5, TK1, TNF, TOP1, TOP2A, TOP2B, TXNRD1, TYMS, VDR, VEGFA, VHL, YES1, 및 ZAP70에서 돌인변이를 평가하는 것을 포함할 수 있다. 다음의 유전자 중 하나 이상이 서열 분석에 의해 평가될 수 있다: ALK, EML4, hENT-1, IGF-1R, HSP90AA1, MMR, p16, p21, p27, PARP-1, PI3K 및 TLE3. 돌연변이 또는 서열 분석에 사용되는 유전자 및/또는 유전자 산물은 WO2018175501의 표 4-12 중 임의의 것, 가령, WO2018175501의 표 5-10 중 임의의 것, 또는 WO2018175501의 표 7-10에서 나열된 유전자 및/또는 유전자 산물 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500개 또는 전부일 수 있다.
구체예에서, 본 명세서에 기재된 방법은 유전자 융합, 가령, 다음의 국제특허출원 중 임의의 것에 나열된 것을 검출하기 위해 사용된다: 2007년11월29일에 공개된 국제 특허 공개 번호 WO/2007/137187 (국제 출원 번호 PCT/US2007/069286); 2010년 04월 22일에 공개된 WO/2010/045318 (국제 출원 번호 PCT/US2009/060630), 2010년 08월 19일에 공개된 WO/2010/093465 (국제 출원 번호 PCT/US2010/000407), 2012년 12월 13일에 공개된 WO/2012/170715 (국제 출원 번호 PCT/US2012/041393), 2014년 06월 12일에 공개된 WO/2014/089241 (국제 출원 번호 PCT/US2013/073184), 2011년 05월 12일에 공개된 WO/2011/056688 (국제 출원 번호 PCT/US2010/054366), 2012년 07월 05일에 공개된 WO/2012/092336 (국제 출원 번호 PCT/US2011/067527), 2015년 08월 06일에 공개된 WO/2015/116868 (국제 출원 번호 PCT/US2015/013618), 2017년 03월 30일에 공개된 WO/2017/053915 (국제 출원 번호 PCT/US2016/053614), 2016년 09월 09일에 공개된 WO/2016/141169 (국제 출원 번호 PCT/US2016/020657), 및 2018년 09월 27일에 공개된 WO2018175501 (국제 출원 번호 PCT/US2018/023438). 융합 유전자는 이전에 분리된 두 유전자의 병치에 의해 생성된 하이브리드 유전자이다. 이는 염색체 전위 또는 반전, 결실 또는 트랜스 스플라이싱을 통해 발생할 수 있다. 결과적 융합 유전자는 비정상적인 유전자의 시간적 및 공간적 발현을 유발하여 세포 성장 인자, 혈관 신생 인자, 종양 프로모터 또는 세포의 종양 변형 및 종양 생성에 기여하는 기타 인자의 비정상적인 발현을 유발할 수 있다. 예를 들어, 이러한 융합 유전자는 1) 세포 성장 인자의 코딩 영역 옆에있는 한 유전자의 강력한 프로모터 영역, 종양 프로모터 또는 증가된 유전자 발현을 유도하는 종양 발생을 촉진하는 다른 유전자의 병치, 또는 2) 두 개의 서로 다른 유전자의 코딩 영역이 융합되어 키메라 유전자와 비정상적인 활성을 가진 키메라 단백질의 생성으로 인해 발암성일 수 있다 융합 유전자는 많은 암의 특징이다. 치료적 개입이 융합과 연관되면, 모든 유형의 암에서 그 융합의 존재는 치료적 개입이 암 치료를 위한 후보 요법으로 식별된다.
융합 유전자의 존재는 치료 선택을 안내하는 데 사용될 수 있다. 예를 들어, BCR-ABL 유전자 융합은 만성 골수성 백혈병(CML)의 ~ 90 %와 급성 백혈병의 하위 집합에서 특징적인 분자 이상이다(Kurzrock 외, Annals of Internal Medicine 2003; 138:819-830). BCR-ABL은 일반적으로 필라델피아 염색체 또는 필라델피아 전위라고 하는 9번과 22번 염색체 사이의 전위로 인해 발생한다. 전위는 BCR 유전자의 5' 영역과 ABL1의 3' 영역을 결합하여 키메라 BCR-ABL1 유전자를 생성하며, 이는 구성적으로 활성인 티로신키나제 활성을 갖는 단백질을 인코딩한다(Mittleman 외, Nature Reviews Cancer 2007; 7:233-245). 비정상적인 티로신 키나제 활성은 조절 해제된 세포 신호 전달, 세포 성장 및 세포 생존, 세포 자멸사 저항성 및 성장 인자 독립성을 유발하며,이 모두는 백혈병의 병태 생리학에 기여한다(Kurzrock 외, Annals of Internal Medicine 2003; 138:819-830). 필라델피아 염색체를 가진 환자는 이마티닙 및 그 밖의 다른 표적 요법으로 치료된다. 이마티닙은 융합 단백질의 구성적 티로신 키나제 활성 부위에 결합하여 그 활성을 방지한다. 이마티닙 치료는 분자 반응(BCR-ABL + 혈액 세포의 소멸)을 이끌고 BCR-ABL + CML 환자의 무진행 생존을 개선했다(Kantarjian 외, Clinical Cancer Research 2007; 13:1089-1097).
또 다른 융합 유전자인 IGH-MYC는 버킷 림프종의 ~80%를 정의하는 특징이다(Ferry 외Oncologist 2006; 11:375-83). 이에 대한 인과적 사건은 염색체 8과 14 사이의 전위로, c-Myc 종양 유전자를 면역 글로불린 중쇄 유전자의 강력한 프로모터에 인접하게 하여 c-myc 과발현을 유발한다(Mittleman 외, Nature Reviews Cancer 2007; 7:233-245). c-myc 재배열은 영구 증식 상태를 초래하기 때문에 림프종 발생에서 중추적인 사건이다. 이는 세포주기, 세포 분화, 세포 자멸사 및 세포 접착을 통한 진행에 광범위한 영향을 미친다(Ferry 외Oncologist 2006; 11:375-83).
Mittleman 데이터베이스(cgap.nci.nih.gov/Chromosomes/Mitelman)에는 다수의 반복 융합 유전자가 분류되어 있다. 유전자 융합은 신생물 및 암을 특징화하고 본 명세서에 기재된 방법을 사용하여 요법을 안내하는 데 사용될 수 있다. 예를 들어, TMPRSS2-ERG, TMPRSS2-ETV 및 SLC45A3-ELK4 융합이 검출되어 전립선 암을 특징지을 수 있고, ETV6-NTRK3 및 ODZ4-NRG1이 유방암을 특징짓기 위해 사용될 수 있다. EML4-ALK, RLF-MYCL1, TGF-ALK, 또는 CD74-ROS1 융합이 폐암을 특징짓기 위해 사용될 수 있다. ACSL3-ETV1, C15ORF21-ETV1, FLJ35294-ETV1, HERV-ETV1, TMPRSS2-ERG, TMPRSS2-ETV1/4/5, TMPRSS2-ETV4/5, SLC5A3-ERG, SLC5A3-ETV1, SLC5A3-ETV5 또는 KLK2-ETV4 융합이 전립선암을 특징짓는 데 사용될 수 있다. GOPC-ROS1 융합은 뇌암을 특징짓도록 사용될 수 있다. CHCHD7-PLAG1, CTNNB1-PLAG1, FHIT-HMGA2, HMGA2-NFIB, LIFR-PLAG1, 또는 TCEA1-PLAG1 융합은 두경부암을 특징짓는데 사용될 수 있다. ALPHA-TFEB, NONO-TFE3, PRCC-TFE3, SFPQ-TFE3, CLTC-TFE3, 또는 MALAT1-TFEB 융합은 신장 세포 암종(RCC)을 특징 짓는 데 사용될 수 있다. AKAP9-BRAF, CCDC6-RET, ERC1-RETM, GOLGA5-RET, HOOK3-RET, HRH4-RET, KTN1-RET, NCOA4-RET, PCM1-RET, PRKARA1A-RET, RFG-RET, RFG9-RET, Ria-RET, TGF-NTRK1, TPM3-NTRK1, TPM3-TPR, TPR-MET, TPR-NTRK1, TRIM24-RET, TRIM27-RET 또는 TRIM33-RET 융합이 갑상선 암 및/또는 유두 갑상선 암종을 특징짓는 데 사용될 수 있으며, PAX8-PPARy 융합은 여포성 갑상선 암을 특징 짓기 위해 분석될 수 있다. 혈액 악성 종양과 연관된 융합의 비제한적 예를 들면, 급성 림프구성 백혈병(ALL)의 특징인 TTL-ETV6, CDK6-MLL, CDK6-TLX3, ETV6-FLT3, ETV6-RUNX1, ETV6-TTL, MLL-AFF1, MLL-AFF3, MLL-AFF4, MLL-GAS7, TCBA1-ETV6, TCF3-PBX1 또는 TCF3-TFPT; T 세포 급성 림프구성 백혈병(T-ALL)의 특징인 BCL11B-TLX3, IL2-TNFRFS17, NUP214-ABL1, NUP98-CCDC28A, TAL1-STIL, 또는 ETV6-ABL2; 역 형성 대세포 림프종(ALCL)의 특징인 ATIC-ALK, KIAA1618-ALK, MSN-ALK, MYH9-ALK, NPM1-ALK, TGF-ALK 또는 TPM3-ALK; 만성 골수성 백혈병(CML)의 특징인 BCR-ABL1, BCR-JAK2, ETV6-EVI1, ETV6-MN1 또는 ETV6-TCBA1; 급성 골수성 백혈병(AML)의 특징인 CBFB-MYH11, CHIC2-ETV6, ETV6-ABL1, ETV6-ABL2, ETV6-ARNT, ETV6-CDX2, ETV6-HLXB9, ETV6-PER1, MEF2D-DAZAP1, AML-AFF1, MLL-ARHGAP26, MLL-ARHGEF12, MLL-CASC5, MLL-CBL,MLL-CREBBP, MLL-DAB21P, MLL-ELL, MLL-EP300, MLL-EPS15, MLL-FNBP1, MLL-FOXO3A, MLL-GMPS, MLL-GPHN, MLL-MLLT1, MLL-MLLT11, MLL-MLLT3, MLL-MLLT6, MLL-MYO1F, MLL-PICALM, MLL-SEPT2, MLL-SEPT6, MLL-SORBS2, MYST3-SORBS2, MYST-CREBBP, NPM1-MLF1, NUP98-HOXA13, PRDM16-EVI1, RABEP1-PDGFRB, RUNX1-EVI1, RUNX1-MDS1, RUNX1-RPL22, RUNX1-RUNX1T1, RUNX1-SH3D19, RUNX1-USP42, RUNX1-YTHDF2, RUNX1-ZNF687, 또는 TAF15-ZNF-384; 만성 림프구성 백혈병(CLL)의 특징인 CCND1-FSTL3, which is characteristic of chronic lymphocytic leukemia (CLL); B-세포 만성 림프구성 백혈병(B-CLL)의 특징인 BCL3-MYC, MYC-BTG1, BCL7A-MYC, BRWD3-ARHGAP20 또는 BTG1-MYC; 미만성 거대 B 세포 림프종(DLBCL)의 특징인 CITTA-BCL6, CLTC-ALK, IL21R-BCL6, PIM1-BCL6, TFCR-BCL6, IKZF1-BCL6 또는 SEC31A-ALK; 과다 호산구 증가/만성 호산구 증가증의 특징인 FLIP1-PDGFRA, FLT3-ETV6, KIAA1509-PDGFRA, PDE4DIP-PDGFRB, NIN-PDGFRB, TP53BP1-PDGFRB, 또는 TPM3-PDGFRB; 및 버킷 림프종의 특징인 IGH-MYC 또는 LCP1-BCL6이 있다. 해당 분야의 통상의 기술자라면 아직까지 확인되지 않은 융합을 포함하여 추가 융합이 치료적 개입과 관련이있는 경우 치료를 안내하는 데 사용될 수 있음을 이해할 것이다.
융합 유전자 및 유전자 산물은 본 명세서에 기재된 하나 이상의 기술을 사용하여 검출될 수 있다. 일부 구체예에서, 유전자 서열 또는 상응하는 mRNA는 예를 들어 Sanger 시퀀싱, NGS, 파이로시퀀싱, DNA 마이크로어레이 등을 사용하여 결정된다. 염색체 이상은 무엇보다도 ISH, NGS 또는 PCR 기술을 사용하여 평가될 수 있다. 예를 들어, ALK 융합, 가령, EML4-ALK, KIF5B-ALK 및/또는 TFG-ALK의 ISH 검출을 위해 분리 프로브가 사용될 수 있다. 대안으로서, PCR이 사용되어 융합 산물을 증폭시킬 수 있으며, 여기서 증폭 또는 부족은 각각 융합의 존재 또는 부재를 나타낸다.예를 들어, 이러한 융합을 검출하기 위해 NGS를 사용하여 mRNA가 시퀀싱될 수 있다. 예를 들어, WO2018175501의 표 9 또는 표 12 또는 본 명세서의 표 126-127을 참조할 수 있다. 일부 구체예에서, 융합 단백질 융합이 검출된다. 단백질 분석을 위한 적절한 방법의 비제한적 예를 들면 질량 분광법, 전기 영동(가령, 2D 겔 전기 영동 또는 SDS-PAGE) 또는 면역 분석, 단백질 어레이 또는 면역 조직 화학을 포함한 항체 관련 기술을 포함한다. 기술들은 조합될 수 있다. 비제한적인 예로서, NGS에 의한 ALK 융합의 표시는 IHC를 사용한 ISH 또는 ALK 발현에 의해 확인될 수 있으며, 그 반대의 경우도 마찬가지이다.
치료 선택을 위한 분자 프로파일링 표적
본 명세서에 기재된 시스템 및 방법은 분자 프로파일링에 기초하여 예상되는 치료 효능을 갖는 하나 이상의 치료 요법의 확인을 허용한다. 치료 요법을 식별하기 위해 분자 프로파일링을 사용하는 예시적인 계획이 전체에 제공된다. 추가 계획은 그 전체가 본 명세서에 참조로서 포함되는 2007년11월29일에 공개된 국제 특허 공개 번호 WO/2007/137187 (국제 출원 번호 PCT/US2007/069286); 2010년 04월 22일에 공개된 WO/2010/045318 (국제 출원 번호 PCT/US2009/060630), 2010년 08월 19일에 공개된 WO/2010/093465 (국제 출원 번호 PCT/US2010/000407), 2012년 12월 13일에 공개된 WO/2012/170715 (국제 출원 번호 PCT/US2012/041393), 2014년 06월 12일에 공개된 WO/2014/089241 (국제 출원 번호 PCT/US2013/073184), 2011년 05월 12일에 공개된 WO/2011/056688 (국제 출원 번호 PCT/US2010/054366), 2012년 07월 05일에 공개된 WO/2012/092336 (국제 출원 번호 PCT/US2011/067527), 2015년 08월 06일에 공개된 WO/2015/116868 (국제 출원 번호 PCT/US2015/013618), 2017년 03월 30일에 공개된 WO/2017/053915 (국제 출원 번호 PCT/US2016/053614), 2016년 09월 09일에 공개된 WO/2016/141169 (국제 출원 번호 PCT/US2016/020657), 및 2018년 09월 27일에 공개된 WO2018175501 (국제 출원 번호 PCT/US2018/023438)에 기재되어 있다.
본 명세서에 기재된 방법은 치료 효험과의 연관성을 제안하기 위해 분자 프로파일링 결과를 사용하는 것을 포함한다. 일부 구체예에서, 규칙은 분자 프로파일링 테스트 결과에 기초하여 제안된 화학 요법 치료를 제공하기 위해 사용된다. 규칙은 "바이오마커가 양성이면 치료 옵션 1, 그렇지 않으면 치료 옵션 2" 형식으로 구성된다. 치료 옵션은 단일 요법(가령, 5-FU)을 이용한 치료 또는 결합 요법(가령, 대장암을 위한 FOLFOX 또는 FOLFIRI)에 의한 치료를 포함한다. 일부 구체예에서, 둘 이상의 바이오마커의 상호 작용을 포함하는 더 복잡한 규칙이 구성된다. 마지막으로, 치료의 예상 효험과 바이오마커의 연관성을 기재하는 리포트가 생성될 수 있으며, 선택적으로 선택된 치료를 뒷받침하는 최상의 증거에 대한 요약 설명이 있다. 궁극적으로, 치료 의사는 최선의 치료 과정을 결정할 것이다. 리포트는 또한 효험 부재가 예측되는 치료를 나열할 수 있다. 가령, 실시예 4-5를 참조할 수 있다.
개인에 대한 후보 치료의 선택은 기재된 방법 중 임의의 하나 이상의 분자 프로파일링 결과를 기반으로 할 수 있다.
일부 실시예에서, 분자 프로파일링 분석이 수행되어, 하나 이상의 유전자의 복제수 또는 복제수 변이(CNV; CNA(copy number alteration)이라고도 지칭됨)가 대조군에 비교해서, 가령, 디플로이드 레벨에서 샘플에 존재하는지 여부를 결정할 수 있다. 유전자의 CNV는 환자 치료에 효험이 있거나 없는 것으로 여측되는 요법을 선택하는 데 사용될 수 있다. 방법은 또한 가령, 본 명세서의 실시예 1에 기재된 다른 유전자 및/또는 유전자 산물에서의 돌연변이, 삽입-결실, 융합 등의 검출을 더 포함할 수 있으며, 이는 예를 들어, 그 전체가 본 명세서에 참조로서 포함되는 2007년11월29일에 공개된 국제 특허 공개 번호 WO/2007/137187 (국제 출원 번호 PCT/US2007/069286); 2010년 04월 22일에 공개된 WO/2010/045318 (국제 출원 번호 PCT/US2009/060630), 2010년 08월 19일에 공개된 WO/2010/093465 (국제 출원 번호 PCT/US2010/000407), 2012년 12월 13일에 공개된 WO/2012/170715 (국제 출원 번호 PCT/US2012/041393), 2014년 06월 12일에 공개된 WO/2014/089241 (국제 출원 번호 PCT/US2013/073184), 2011년 05월 12일에 공개된 WO/2011/056688 (국제 출원 번호 PCT/US2010/054366), 2012년 07월 05일에 공개된 WO/2012/092336 (국제 출원 번호 PCT/US2011/067527), 2015년 08월 06일에 공개된 WO/2015/116868 (국제 출원 번호 PCT/US2015/013618), 2017년 03월 30일에 공개된 WO/2017/053915 (국제 출원 번호 PCT/US2016/053614), 2016년 09월 09일에 공개된 WO/2016/141169 (국제 출원 번호 PCT/US2016/020657), 및 2018년 09월 27일에 공개된 WO2018175501 (국제 출원 번호 PCT/US2018/023438)에 기재되어 있다.
본 명세서에 기재된 방법은 개인화된 치료를 제공함으로써 대장암에 걸린 피험체의 생존율을 연장하기 위해 사용된다. 일부 구체예에서, 피험체는 암을 치료하기 위해 하나 이상의 치료제로 이전에 치료를 받은 적이있다. 암은 예를 들어 약물 내성 돌연변이를 획득함으로써 이러한 작용제 중 하나에 불응성일 수 있다. 일부 실시예에서, 암 치료제의 어떠한 알려진 표준도 없거나 암이 기존의 모든 표준적인 치료제에 내성이 있을 수 있다. 이러한 표준 치료제에는 "온라벨(on label)" 약제 또는 약물 라벨에 표시가 있는 약제가 포함될 수 있다. 일부 구체예에서, 암은 전이성이다. 일부 구체예에서, 피험체는 방법에 의해 식별된 하나 이상의 치료제로 이전에 치료 된 적이 없다. 분자 프로파일링을 사용하면 암세포의 단계, 진행, 해부학적 위치 또는 해부학적 기원에 관계없이 후보 치료법을 선택할 수 있다.
본 개시 내용은 전술한 바와 같이 분자 프로파일링을 사용하여 병든 조직을 분석하기 위한 방법 및 시스템을 제공한다. 이 방법은 분석 중인 종양의 특성 분석에 의존하기 때문에,이 방법은 질병의 진행 단계 또는 원인을 알 수없는 전이성 종양과 같은 모든 종양 또는 질병 단계에 적용 할 수 있다. 본 명세서에 기술된 바와 같이, 종양 또는 암 샘플은 후보 치료 치료를 예측하거나 확인하기 위해 하나 이상의 바이오마커에 대해 분석된다.
본 방법은 원발성 또는 전이성 암의 치료를 선택하는 데 사용될 수 있다.
바이오마커 패턴 및/또는 바이오마커 시그니처 세트는 복수의 바이오마커를 포함할 수 있다. 또 다른 구체예에서, 바이오마커 패턴 또는 시그니처 세트는 적어도 6, 7, 8, 9 또는 10개의 바이오마커를 포함할 수 있다. 일부 구체예에서, 바이오마커 시그니처 세트 또는 바이오마커 패턴은 적어도 15, 20, 30, 40, 50 또는 60 개의 바이오마커를 포함할 수 있다. 일부 구체예에서, 바이오마커 시그니처 세트 또는 바이오마커 패턴은 적어도 70, 80, 90, 100 또는 200개의 바이오마커를 포함할 수 있다. 일부 구체예에서, 바이오마커 시그니처 세트 또는 바이오마커 패턴은 적어도 100, 200, 300, 400, 500, 600, 700 또는 적어도 800개의 바이오마커를 포함할 수 있다. 일부 구체예에서, 바이오마커 시그니처 세트 또는 바이오마커 패턴은 적어도 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10,000, 20,000 또는 적어도 30,000개의 바이오마커를 포함할 수 있다. 예를 들어, 바이오마커는 전체 엑솜 시퀀싱 및/또는 전체 전사체 시퀀싱을 포함할 수 있으며, 따라서 모든 유전자 및 유전자 산물을 포함할 수 있다. 하나 이상의 바이오마커의 분석은 예를 들어, 본 명세서에 기재된 바와 같은 하나 이상의 방법에 의해 이루어질 수 있다. 예를 들어, 실시예 1을 참조할 수 있다.
본 명세서에 기재된 바와 같이, 하나 이상의 표적의 분자 프로파일링은 개인에 대한 치료제를 결정하거나 확인하는 데 사용될 수 있다. 예를 들어, 하나 이상의 바이오마커의 존재 여부 또는 상태는 개인에 대한 치료제를 결정하거나 확인하는 데 사용될 수 있다. 본 명세서에 개시된 바와 같은 하나 이상의 바이오마커는 개인에 대한 치료제를 확인하는 데 사용되는 바이오마커 패턴 또는 바이오마커 시그니처 세트를 형성하는 데 사용될 수 있다. 일부 구체예에서, 식별된 치료법은 개인이 이전에 치료받은 적이 없는 치료법이다. 예를 들어, 특정 치료법에 대한 참조 바이오마커 패턴이 확립되어, 참조 바이오마커 패턴을 가진 개인이 해당 치료법에 반응할 것이다. 기준과 상이한 바이오마커 패턴을 가진 개체, 예를 들어 바이오마커 패턴에서 유전자의 발현이 기준의 것으로부터 변경되거나 상이한 경우, 그 치료법이 투여되지 않을 것이다. 또 다른 예에서, 기준과 동일하거나 실질적으로 동일한 바이오마커 패턴을 나타내는 개체는 해당 치료법으로 치료를 받는 것이 권장된다. 일부 구체예에서, 개체는 이전에 그 치료법으로 치료된 적 없고 따라서 상기 개체에 대해 새로운 치료법이 식별되었다. 바이오마커 패턴은 단일 바이오마커(예를 들어, HER2의 발현은 항-HER2 요법에 의한 치료를 제안함) 또는 다중 바이오마커에 기초할 수 있다.
예를 들어, IHC, ISH, 시퀀싱(가령, NGS) 및/또는 PCR(가령, qPCR)에 의해 분자 프로파일링에 사용되는 유전자는 본 명세서의 실시예 1에 나열된 것, 또는 WO2018175501, 예를 들어 표 5-10에 기재된 임의의 유전자로부터 선택 될 수 있다. 본 명세서에 개시된 하나 이상의 바이오마커를 평가하는 것은 암을 특징화하기 위해 사용될 수 있다.
피험체의 암은 피험체로부터 생체 샘플을 획득하고 샘플로부터의 하나 이상의 바이오마커를 분석함으로써 특징화될 수 있다. 예를 들어, 피험체 또는 개인에 대한 암을 특징화하는 것은 특정 질병, 상태, 질병 단계 및 상태 단계, 특히 질병 재발, 전이성 확산 또는 질병 재발의 예측 및 가능성 분석에 대한 적절한 치료 또는 치료 효능을 식별하는 것을 포함할 수 있다. 본 명세서에 기재된 제품 및 프로세스를 통해 개인별로 피험자를 평가할 수 있으므로 치료에 있어 보다 효율적이고 경제적인 결정의 이점을 얻을 수 있다.
한 측면에서, 암을 특징화하는 것은 피험체가 암에 대한 치료로부터 혜택을받을 가능성이 있는지 예측하는 것을 포함한다. 바이오마커는 피험체에서 분석될 수 있고 치료에 효험이 있다고 또는 없다고 알려진 이전 피험체의 바이오마커 프로파일에 비교될 수 있다. 피험체의 바이오마커 프로파일이 치료로부터 이익을 얻는 것으로 알려진 이전 피험체의 프로파일과 더 밀접하게 일치한다면, 피험체는 치료법에 효험이 있는 것으로 특징화되거나 예측될 수 있다. 유사하게, 피험체의 바이오마커 프로파일이 치료로부터 이익을 얻지 못한 이전 피험체의 프로파일과 더 밀접하게 일치한다면, 피험체는 치료법으로부터 효험이 없는 것으로 특징화되거나 예측될 수 있다. 암을 특징화하기 위해 사용되는 샘플은 본 명세서에 개시된 것들을 포함 하나 이에 제한되지 않는 임의의 유용한 샘플 일 수 있다.
방법은 피험체에게 선택된 치료를 투여하는 것을 추가로 포함할 수 있다.
치료는 소분자 약물 또는 생물학적 제제와 같은 효험 있는 치료일 수 있다. 다양한 면역요법, 가령, 체크포인트 억제제 요법, 가령, 이필리무맙, 니볼루맙, 펨브롤리주맙, 아테졸리주맙, 아벨루맙, 더발루맙이 FDA 승인을 받았으며 나머지는 임상 시험 또는 개발 단계에 있다.
게놈 유병률 점수(GPS)
본 개시내용은 생체 샘플의 속성(표현형), 비제한적 예를 들면, 기원 조직(TOO)을 결정하기 위한 시스템, 방법, 및 컴퓨터 프로그램을 제공한다. 본 개시 내용은 생체 샘플에 대한 이러한 속성을 다양한 방식으로 결정할 수 있다. 예를 들어, 일부 구현에서, 제1 유형의 분석이 생체 샘플에 대해 수행되어 생체 샘플의 DNA의 속성을 생성할 수 있고, 그런 다음 훈련된 모델이 사용되어 샘플의 DNA 평가에 기초하여 생체 샘플의 속성을 예측할 수 있다. 일부 실시예에서, 모델은 동적 투표 엔진, 가령, 본 명세서에 제공된 것을 포함한다. 또 다른 예로서, 제2 유형의 분석이 생체 샘플에 대해 수행되어 생체 샘플의 RNA의 속성을 생성하고, 그런 다음 훈련된 모델이 사용되어 샘플의 RNA의 평가에 기초하여 생체 샘플에 대한 속성을 예측할 수 있다. 일부 실시예에서, 모델은 또한 여기에 제공된 것과 같은 동적 투표 엔진을 포함할 수 있다. 또 다른 구현에서, 제1 유형의 분석 및 제2 유형의 분석이 수행되어 생체 샘플의 DNA에 기초한 제1 생체 데이터 및 생체 샘플의 RNA에 기초한 제2 생체 데이터를 생성한 다음 훈련된 모델을 사용하여 제1 생체 데이터 및 제2 생체 데이터에 기초한 생체 샘플에 대한 속성을 예측할 수 있다. 일부 실시예에서, 모델은 또한 여기에 제공된 것과 같은 동적 투표 엔진을 포함할 수 있다. 일부 구현에서, 생체 샘플은 암 샘플, 예를 들어, 종양 샘플 또는 액상 종양 세포 또는 핵산을 포함하는 체액일 수 있고, 속성 기원 조직은 종양이 기원한 기원일 수 있다.
본 개시내용의 시스템, 방법 및 컴퓨터 프로그램의 사용을 통해 달성되는 많은 기술적 이점이 있다. 예를 들어, 본 발명은 기존의 분석에 비해 생체 샘플 데이터를 보다 정확하게 분류할 수 있는 동적 투표 엔진 형태의 머신 러닝 모델을 제공한다. 일부 구현예에서, 이러한 정확도 증가는 복수의 초기 입력 조직 분류에 동적으로 투표하고 다음과 같은 생체 샘플에 대한 기원의 속성(표현형) 조직을 나타내는 표적 또는 최종 조직 분류를 선택하도록 머신 러닝 모델을 훈련함으로써 달성될 수 있다. 정확도의 이러한 증가를 달성하기 위해 사용된 훈련 프로세스가 여기에서 더 자세히 설명된다.
암 치료의 첫 번째 단계는 진단이다. 진단에는 신체 검사(가령, 확대된 기원 또는 의심스러운 피부 병변 또는 변색 감지), 실험실 검사(가령, 소변 또는 혈액 검사), 의료 영상 촬영(가령, 컴퓨터 단층 촬영(CT), 뼈 스캔, 자기 공명 영상(MRI), 양전자방출단층촬영(PET), 초음파 및/또는 X-선), 생검이 있으며 이는 최종 진단을 제공하는 데 선호되는 수단일 수 있다. 그러나 사례의 3-9%는 오진이다. 예를 들어, Peck, M. et al, Review of diagnostic error in anatomical pathology and the role and value of second opinions in error prevention. J Clin Pathol, 2018, 71: p. 995-1000을 참조할 수 있으며, 본 명세서에 그 내용 전체가 참조로서 포함된다. 또한, 암의 5-10%가 잠재성/원발 부위 불명 암(CUP)이다. www.mdanderson.org/cancer-types/cancer-of-unknown-primary.html; www.cancer.gov/types/unknown-primary/hp/unknown-primary-treatment-pdq#_1를 참조할 수 있다. 따라서 상당한 수의 암의 기원 조직(TOO)을 결정 및/또는 확인하는 개선된 방법이 필요하다. TOO의 자동 검증은 드문 경우에 실험실 오류(가령, 샘플 바꿔치기)를 식별할 수도 있다.
악성 종양의 진단은 일반적으로 세포 형태, 면역조직화학, 세포유전학 및 분자 표지를 포함한 임상적 표현 및 종양 조직 특징에 의해 알려진다. 종양의 신뢰할 수 있는 분류의 결여는 부적절한 및/또는 지연된 치료로 이어지는 종양 전문의에게 심각한 치료 딜레마를 제기한다. 유전자 발현 프로파일링은 CUP 환자의 종양 유형을 식별하는 데 사용되었지만 여러 가지 고유한 제한이 있다. 구체적으로, 종양 비율, 발현의 변화 및 RNA의 동적 속성은 모두 최적이 아닌 성능에 기여한다. 예를 들어, 하나의 상용 RNA 기반 분석은 187개 종양의 테스트 세트에서 83%의 민감도를 가지며 별도의 300개 샘플 검증 세트의 78%에서만 결과를 확인했다. Erlander MG외Performance and clinical evaluation of the 92-gene real-time PCR assay for tumor classification.J Mol Diagn. 2011 Sep;13(5):493-503를 참조할 수 있으며, 이 참조문헌은 그 전체가 본 명세서에 참조로서 포함된다. 또한 어떤 경우에는 임의의 암에 대한 진단이 잘못될 수 있다.
본 명세서에서 우리는 생체 샘플의 속성(표현형), 가령, 원발 위치, 조직학, 질병/암, 및/또는 장기 군을 예측하기 위한 시스템 및 방법을 제공한다. 속성의 세분성은 여기에 설명된 것과 같이 원하는 수준에서 선택될 수 있다. 우리는 분자 프로파일링(예를 들어, 실시예 1; 도 2b-c 참조) 및 머신 러닝을 사용하여 이러한 속성을 예측하기 위한 모델 및 바이오시그니처를 구성했다. 비제한적인 예로서, 이러한 정보는 전이성 원발 부위 불명 암(CUPS)의 원발 종양 부위를 식별하는 데 사용될 수 있다. 일부 실시예에서, 예측은 암 환자의 치료 계획을 보조하기 위해 사용될 수 있다. 일부 실시예에서, 이러한 정보는 분자 프로파일링이 치료 옵션을 식별하는 데 사용되는 동시에 암의 원래 진단을 확인하는 데 사용된다. 정보가 원래 진단과 다른 경우 진단을 확인하여 환자 치료에 도움이 되도록 추가 문의(가령, 병리학 검토)를 수행할 수 있다.
일반적인 접근 방식은 다음과 같다. 먼저, 본 발명자는 대상체의 암 세포를 포함하는 샘플, 예를 들어 본원에 기재된 바와 같은 종양 샘플 또는 체액 샘플을 수득한다. 일부 실시예에서, 샘플은 전이성 세포를 포함한다. 우리는 샘플에 대한 분자 프로파일링 분석을 수행하여 하나 이상의 바이오마커를 평가함으로써 샘플에 대한 분자 프로필 또는 바이오시그니처를 얻는다. 예를 들어, 실시예 1을 참조할 수 있다. 샘플 바이오시그니처는 본 명세서에 기재된 것과 같은 통계적 모델로 입력될 수 있다. 일부 실시예에서, 이는 샘플 바이오시그니처를 복수의 관심 속성을 나타내는 다수의 바이오시그니처와 비교하는 것을 포함한다. 비제한적인 예를 들면, 샘플 바이오시그니처를 다양한 속성, 예를 들어 다양한 원발성 종양 기원을 나타내는 복수의 미리 결정된 바이오시그니처 각각과 비교할 수 있다. 샘플 바이오시그니처가 미리 결정된 바이오시그니처 각각에 대응할 확률 또는 유사한 메트릭이 계산될 수 있다. 일부 실시예에서, 샘플 바이오시그니처는 관심 속성(들)의 전체 예측에 참여하도록 훈련된 하나 이상의 머신 러닝 모델에 대한 입력으로 사용된다. 이러한 모델은 위에서 설명한 확률 또는 유사성 메트릭을 계산할 수 있다. 일부 실시예에서, 가장 높은 신뢰도, 예를 들어 가장 높은 확률을 갖는 속성을 할당할 수 있다. 할당 강도가 결정되도록 임계값이 설정될 수 있다.
머신 러닝 모델과 같은 통계 모델은 관심 있는 다양한 속성으로 훈련된다. 여기에서 우리는 수천 개의 환자 종양 샘플에 대한 차세대 시퀀싱 결과를 사용하여 접근 방식을 보여준다. 예를 들어, 실시예 2-3을 참조할 수 있다. 비제한적 예를 들면, 이러한 데이터가 다음의 복수의 종양 계통의 각각에 대한 지정 바이오시그니처를 식별하는 데 사용됨을 고려할 수 있다: 전립선, 방광, 자궁경부, 복막, 위, 식도, 난소, 두정엽, 자궁경부, 자궁내막, 간, S상 결장, 유방의 상외사분면, 자궁, 췌장, 머리의 각각의 생체특징을 식별하는 데 사용되었습니다. 췌장, 직장, 결장, 유방, 간내 담관, 맹장, 위식도 접합부, 전두엽, 신장, 췌장 꼬리, 상행 결장, 하행 결장, 담낭, 맹장, 직결장, 나팔관, 뇌, 폐, 측두엽, 하부 식도의 3분의 1, 유방의 상부 내측 사분면, 횡행 결장, 및 피부. 각각의 계통 예측자에 대한 바이오시그니처 및 모델이 임의의 개수의 특징, 여기서, 바이오마커를 포함하여, 바람직한 성능 레벨을 획득할 수 있다. 당업자에 의해 이해되는 바와 같이, 다수의 특징은 보다 강력한 예측을 제공할 수 있지만, 너무 많은 특징은 과적합으로 이어질 수 있다. 이러한 파라미터는 모델 개발의 교육 및 테스트 단계에서 최적화될 수 있다. 비제한적 예를 들면, 전립선에 대한 바이오시그니처는 유전자 FOXA1, PTEN, KLK2, GATA2, LCP1, ETV6, ERCC3, FANCA, MLLT3, MLH1, NCOA4, NCOA2, CCDC6, PTCH1, FOXO1 및 IRF4 중 하나 이상에 대한 DNA 복제수를 포함할 수 있다.
도 3a 및 3b는 테스트 케이스로서 알려진 기원의 개별 종양 샘플의 분류의 예를 제공한다. 도 3a는 빽빽하게 음영 처리된 영역으로 표시된 바와 같이 높은 신뢰도로 전립선 기원으로 올바르게 분류된 전립선암 샘플의 예측을 보여준다. 도 3b는 원발 부위가 알려지지 않았지만 계통이 췌장인 종양의 예측을 보여준다. 췌장 내 부위가 "췌장", "췌장 머리" 및 "췌장 꼬리"를 덮는 어두운 영역에 의해 나타나는 바와 같이 불확실하지만 예측자는 종양을 췌장 종양으로 정확하게 식별했다.
대상체의 암으로부터의 세포를 포함하는 생체 샘플을 획득하는 단계, 샘플에 대한 바이오시그니처(분자 프로파일이라고도 지칭됨)를 획득하도록 샘플 내 하나 이상의 바이오마커를 평가하기 위한 분석을 수행하는 단계, 샘플에 대한 바이오시그니처를 적어도 하나의 통계 모델의 입력으로서 이용하는 단계 - 하나 이상의 통계 모델은 적어도 하나의 지정 바이오시그니처를 포함할 수 있음 - , 및 (d) 비교에 기초하여 샘플의 속성을 분류 또는 예측하는 단계 - 속성은 원발 기원, 장기 유형, 조직학, 및 질병/암 유형, 또는 이들의 임의의 유용한 조합을 포함함 - 를 포함하는 방법이 본 명세서에 제공된다. 마찬가지로, (a) 대상체로부터의 세포를 포함하는 생체 샘플을 획득하는 단계, (b) 샘플에 대한 바이오시그니처를 획득하기 위해 샘플 내 하나 이상의 바이오마커를 평가하기 위한 분석을 수행하는 단계, (c) 획득된 샘플 및 하나 이상의 바이오마커에 기초하여 입력 데이터를 생성하는 단계, (d) 입력 데이터를 입력 데이터를 이용해 샘플의 속성을 예측하도록 훈련된 머신 러닝 모델에 제공하는 단계 - 속성은 원발 종양 기원, 압/질병 유형 장기 군, 조직, 및 이들의 임의의 조합으로 구성된 군 중에서 선택됨 - , (e) 입력 데이터의 머신 러닝 모델 처리에 기초하여 머신 러닝 모델에 의해 생성된 출력 데이터를 획득하는 단계, 및 (f) 출력 데이터에 기초한 샘플의 속성을 분류하는 단계를 포함하는 방법이 본 명세서에 제공된다.
일부 실시예에서, 모델은 샘플의 바이오시그니처와 복수의 상이한 지정(또는 훈련된) 바이오시그니처 각각 사이의 쌍별 분석을 수행하도록 구성되고, 복수의 상이한 지정 바이오시그니처의 각각은 상이한 속성에 대응한다. 실시예 2-3을 참조할 수 있으며, 여기서 쌍별 분석을 수행하는 것은 복수의 질병 유형 중 하나 이상에 대한 바이오시그니처과 입력 데이터 간의 유사성 수준을 결정하는 머신 러닝 모델을 포함한다.
예측될 희망 속성이 가변 특이도에서 결정될 수 있다. 예를 들어, 종양 기원은 결합될 수 있는 원발성 종양 위치 및 조직학으로서 결정될 수 있다. 예를 들어, 전립선으로 결정된 샘플의 원발 기원과 선암종으로 결정된 조직학은 전립선 선암종으로 결합될 수 있다. 본 명세서에 사용된 모델은 원하는 대로 이러한 상이한 특이성으로 훈련될 수 있다. 예를 들어, 예측자 모델은 전립선 기원의 샘플을 인식하도록 훈련될 수 있거나 전립선 선암종을 인식하도록 훈련될 수 있다. 일부 실시예에서, 복수의 모델은 상이한 속성, 예를 들어 기관 또는 조직학에서 훈련되고, 결과는 원하는 속성 수준을 예측하기 위해 조합된다. 필요에 따라, 예측자 모델은 매우 세분화된 수준에서 훈련될 수 있으며 출력은 관심 분야의 덜 세분화된 범주에서 식별될 수 있다. 예를 들어, 아래 표 2-116에서 더 세분화된 질병 유형 및 덜 세분화된 장기 군을 참고할 수 있다. 일부 실시예에서, 예측자 모델은 덜 세분화된 수준에서 훈련된다. 일부 실시예에서, 예측자 모델은 상이한 속성(가령, 장기 대 조직학)에 대해 훈련된 다음, 조합되어, 최종 예측된 속성을 제공할 수 있다.
일부 실시예에서, 시스템 및 방법은 게놈 DNA의 분석을 포함한다. 게놈 이상은 암 조직의 특징이다. 예를 들어, 1p19q는 희소돌기신경교종과 같은 특정 암을 나타낸다. 17번 단일 염색체 손실은 난소암에서 가장 흔한 초기 발생이며 투명 세포 신장의 3p 결실 및 유두성 신장암의 삼염색체 7 및 17이 확립된 예측인자이다. 6번 염색체 손실, 8번 염색체 증가는 안구암의 마커이다. Her2 증폭은 유방암에서 관찰된다. 우리는 게놈 이상의 현상, 가령, 유전자 복제수 및 돌연변이 시그니처가 전부는 아니지만, 다수의 유형의 암을 예측할 수 있다고 가정했다. DNA는 종양 퍼센티지, 전이, 및 시퀀싱 깊이에 강건할 수 있기 때문에 분석물 바이오마커로서 특정 이점을 가지며, 차세대 시퀀싱 접근법을 이용해 효율적으로 분석될 수 있다. 예를 들어, 실시예 1을 참조할 수 있다. 하나의 양태에서, 우리는 다음의 상이한 115개의 세분화된 질병/암 유형의 일부인 게놈 DNA의 특징을 결정하기 위해 본 명세서에 제공된 시스템 및 방법을 사용했다: 부신 피질 암종; 항문 편평상피암; 맹장 선암종, NOS; 맹장 점액성 선암종; 담관, NOS, 담관암종; 뇌 성상세포종, 역형성; 뇌 성상세포종, NOS; 유방 선암종, NOS; 유방암, NOS; 유방 침윤관 선암종; 유방 침윤성 소엽 암종, NOS; 유방 화생암, NOS; 자궁경부 선암종, NOS; 자궁경부암, NOS; 자궁경부 편평상피암; 결장 선암종, NOS; 결장암, NOS; 결장 점액성 선암종; 결막 악성 흑색종, NOS; 십이지장 및 팽대부 선암종, NOS; 자궁내막 선암종, NOS; 자궁내막암종; 자궁내막양 선암종; 자궁내막 장액암종; 자궁내막암종, NOS; 미분화 자궁내막암종; 자궁내막 투명 세포 암종; 식도 선암종, NOS; 식도 암종, NOS; 식도 편평상피암; 간외 담관, 총담즙, 담낭 선암종, NOS; 나팔관 선암종, NOS; 나팔관 암종, NOS; 나팔관 암육종, NOS; 나팔관 장액 암종; 위 선암종; 위식도 접합부 선암종, NOS; 교모세포종; 신경교종, NOS; 교육종; 머리, 얼굴 또는 목, NOS 편평상피암; 간내 담관 담관암종; 신장 암종, NOS; 신장 투명 세포 암종; 신장 유두 신세포 암종; 신장 신세포 암종, NOS; 후두, NOS 편평상피암; 왼쪽 결장 선암종, NOS; 왼쪽 결장 점액성 선암종; 간 간세포 암종, NOS; 폐 선암종, NOS; 폐 선편평암종; 폐암, NOS; 폐 점액성 선암종; 폐 신경내분비 암종, NOS; 폐 비소세포암종; 폐 육종암종; 폐 소세포 암종, NOS; 폐 편평 상피암; 수막 수막종, NOS; 비인두, NOS 편평상피암; 희소돌기아교종, 역형성; 희소돌기아교종, NOS; 난소 선암종, NOS; 난소 암종, NOS; 난소 암육종; 난소 투명 세포 암종; 난소 자궁내막양 선암종; 난소 과립막 세포 종양, NOS; 난소 고급 장액 암종; 난소 저등급 장액 암종; 난소 점액성 선암종; 난소 장액 암종; 췌장 선암종, NOS; 췌장암, NOS; 췌장 점액성 선암종; 췌장 신경내분비 암종, NOS; 이하선 암종, NOS; 복막 선암종, NOS; 복막 암종, NOS; 복막 장액 암종; 흉막 중피종, NOS; 전립선 선암종, NOS; 직장상 결장 선암종, NOS; 직장 선암종, NOS; 직장 점액성 선암종; 후복막 역분화 지방육종; 후복막 평활근육종, NOS; 오른쪽 결장 선암종, NOS; 우측 결장 점액성 선암종; 침샘 선양 낭성 암종; 피부 흑색종; 피부 흑색종; 피부 머켈 세포 암종; 피부 결절 흑색종; 피부 편평상피암; 피부간 흑색종; 소장 선암종; 소장 위장관 기질 종양, NOS; 위 위장 기질 종양, NOS; 위 인장 고리 세포 선암종; 갑상선 암종, 역형성, NOS; 갑상선암, NOS; 갑상선의 갑상선 유두암종; 편도, 구인두, 혀 편평상피암; 횡단 결장 선암종, NOS; 요로상피 방광 선암종, NOS; 요로상피 방광암, NOS; 요로상피 방광 편평상피암; 요로상피암, NOS; 자궁내막 기질 육종, NOS; 자궁 평활근육종, NOS; 자궁 육종, NOS; 포도막 흑색종; 질 편평 상피암; 외음부 편평상피암; 및 이들의 임의의 조합. NOS, 즉, "상세불명(Not Otherwise Specified)"은 질병/장애 분류, 가령, ICD-9, ICD-10 또는 DSM-IV의 시스템에서 하위 카테고리이며, 더 구체적 진단이 이뤄지지 않은 경우 일반적이지만 배타적이지 않게 사용된다.이들 질병 유형에 대한 모델은 수만 개의 환자 샘플에 대해 획득된 특정 유전자 패널(실시예 1, 표 123-125 참조)에 대한 NGS 데이터를 사용하여 훈련되었다. 모델의 훈련이 실시예 2-3에서 더 기재된다.
표 2-116는 질병 유형 예측에 기여하는 특징을 나열하며, 여기서 표의 각각의 행은 중요도 순의 특징을 나타낸다. 표에서, "유전자(GENE)" 열은 일반적으로 유전자 ID일 수 있는 특징에 대한 식별자이며, "기법(TECH)" 열은 바이오마커를 평가하는 데 사용되는 기법이며, 여기서 "CNA"는 NGS에 의해 평가되는 복제수 변경을 지칭하고, "NGS"는 차세대 시퀀싱을 이용한 돌연변이 분석이며, "META"는 환자 특성, 가령, 표본 수집 시의 연령("Age") 또는 성별("Gender")이며, "IMP"는 특징에 대한 정규화된 중요도 점수이다. 표에서 GENE 열이 MSI이고 TECH 열이 NGS인 행은 차세대 시퀀싱에 의해 평가된 특징 미세부수체 불안정성(MSI)을 나타낸다. 표 제목은 "질병 유형 - 장기 군" 형식으로 더 세분화된 질병 유형(위 참조)과 덜 세분화된 장기 군을 나타낸다. 다음의 상이한 장기 또는 장기 군에서 기원하는 질병 유형을 각각 포함하는 이러한 15개의 장기 군이 존재한다: 방광; 피부; 폐;두부, 안면 또는 목(NOS); 식도; 여성 생식기 및 복막(FGTP); 뇌; 결장; 전립선; 간, 담당, 담관; 유방; 눈; 위; 신장; 및 췌장. 생체 표본은 더 세분화된 예측 질병 유형에 따라 덜 세분화된 15개 장기 군 중 하나로 그룹화될 수 있다. 언급한 바와 같이 테이블의 행은 중요도에 따라 정렬된다. 중요도 점수가 높을수록 질병 유형을 예측하는 데 기능이 더 중요하거나 관련성이 있다. 표에서 나타나듯이 대부분의 케이스에서, 유전자 복제수가 예측을 주도했음을 관측했다.
Figure pct00009
Figure pct00010
Figure pct00011
Figure pct00012
Figure pct00013
Figure pct00014
Figure pct00015
Figure pct00016
Figure pct00017
Figure pct00018
Figure pct00019
Figure pct00020
Figure pct00021
Figure pct00022
Figure pct00023
Figure pct00024
Figure pct00025
Figure pct00026
Figure pct00027
Figure pct00028
Figure pct00029
Figure pct00030
Figure pct00031
Figure pct00032
Figure pct00033
Figure pct00034
Figure pct00035
Figure pct00036
Figure pct00037
Figure pct00038
Figure pct00039
Figure pct00040
Figure pct00041
Figure pct00042
Figure pct00043
Figure pct00044
Figure pct00045
Figure pct00046
Figure pct00047
Figure pct00048
Figure pct00049
Figure pct00050
Figure pct00051
Figure pct00052
Figure pct00053
Figure pct00054
Figure pct00055
Figure pct00056
Figure pct00057
Figure pct00058
Figure pct00059
Figure pct00060
Figure pct00061
Figure pct00062
Figure pct00063
Figure pct00064
Figure pct00065
Figure pct00066
Figure pct00067
Figure pct00068
Figure pct00069
Figure pct00070
Figure pct00071
Figure pct00072
Figure pct00073
Figure pct00074
Figure pct00075
Figure pct00076
Figure pct00077
Figure pct00078
Figure pct00079
Figure pct00080
Figure pct00081
Figure pct00082
Figure pct00083
Figure pct00084
Figure pct00085
Figure pct00086
Figure pct00087
Figure pct00088
Figure pct00089
Figure pct00090
Figure pct00091
Figure pct00092
Figure pct00093
Figure pct00094
Figure pct00095
Figure pct00096
Figure pct00097
Figure pct00098
Figure pct00099
Figure pct00100
Figure pct00101
Figure pct00102
Figure pct00103
Figure pct00104
Figure pct00105
Figure pct00106
Figure pct00107
Figure pct00108
Figure pct00109
Figure pct00110
Figure pct00111
Figure pct00112
Figure pct00113
Figure pct00114
Figure pct00115
Figure pct00116
Figure pct00117
Figure pct00118
Figure pct00119
Figure pct00120
Figure pct00121
Figure pct00122
Figure pct00123
많은 경우에, 표 2-116의 바이오시그니처의 특징은 유전자 복제수 변경(CNA, 또한 CNV)을 포함한다. 세포는 일반적으로 각각의 유전자의 두 번의 복제를 갖는 디폴로이드이다. 그러나 암은 복제수를 변경할 수 있는 다양한 게놈 변경을 초래할 수 있다. 어떤 경우에는 유전자 복제가 증폭(게인)되는 반면 다른 경우에는 유전자 복제가 손실된다. 게놈 변경은 염색체의 다른 영역에 영향을 미칠 수 있다. 예를 들어, 유전자 내에서, 유전자 수준에서 또는 인접 유전자 그룹 내에서 이득 또는 손실이 발생할 수 있다. 세포 유전학적 밴드 수준 또는 염색체 암의 더 큰 부분에서 또는 손실이 관찰 될 수 있다. 따라서 유전자에 대한 이러한 근접 영역의 분석은 유전자 자체에 유사하거나 심지어 동일한 정보를 제공 할 수 있다. 따라서, 본 명세서에 제공된 방법은 특정 유전자의 복제수를 결정하는 데 제한되지 않고, 또한 유전자에 대한 근접 영역의 분석을 명시적으로 고려하며, 여기서 이러한 근접 영역은 유사하거나 동일한 수준의 정보를 제공합니다. 밴드 내 유전자, SNP 또는 그 밖의 다른 특징의 복제 분석이 본 명세서에 기재된 시스템 및 방법의 범위 내에서 사용될 수 있다.
본 명세서의 실시예에서 기재된 바와 같이, 암의 속성을 분류하기 위한 방법은 바이오시그니처가 적어도 하나의 사전 결정된 바이오시그니처에 대응할 확률을 계산할 수 있다. 일부 실시예에서, 방법은 두 개의 후보 속성 간 쌍별 비교(pairwise comparison)를 포함하고, 샘플 바이오시그니처가 적어도 하나의 사전 결정된 바이오시그니처 중 어느 하나에 대응할 확률이 계산된다. 일부 실시예에서, 두 개의 후보 속성 간 쌍별 비교는 머신 러닝 분류 알고리즘을 이용해 결정되며, 선택적으로, 머신 러닝 분류 알고리즘은 투표 모듈을 포함한다. 일부 실시예에서, 투표 모듈은 본 명세서에서 제공된 바, 가령, 앞서 기재된 바와 같다. 일부 실시예에서, 복수의 확률이 복수의 사전 결정된 바이오시그니처에 대해 계산된다. 일부 실시예에서, 확률은 순위화된다. 일부 실시예에서, 확률들이 임계값에 비교되며, 이때 선택적으로, 임계값에 대한 비교는 암의 희망 속성의 분류가 가능성 높음인지, 가능성 낮음인지, 미결정인지를 결정하는 데 사용된다. 본 명세서에서 분류를 구현하기 위한 시스템 및 방법이 제공된다. 예를 들어, 도 1a-i 및 관련 텍스트를 참조할 수 있다.
일부 실시예에서, 환자 샘플의 속성에 대한 특이도가 장기 군의 수준에서 결정된다. 한 가지 비제한적 예를 들면, 예측되는 장기 군은 방광; 피부; 폐; 머리, 얼굴 또는 목(NOS); 식도; 여성 생식기(FGT); 뇌; 대장; 전립선; 간, 담낭, 담관; 가슴; 눈; 위; 신장; 및 췌장 중 적어도 하나로부터 결정될 수 있다. 필요에 따라, 본원에 제공된 시스템 및 방법은 원발 종양 위치 및 조직학 수준에서 결정된 바이오시그니처를 사용할 수 있으며(예를 들어 표 2-116를 참조), 그런 다음 기관 그룹이 가장 높은 확률의 원발 종양 위치 + 조직학에 기초하여 결정된다. 비제한적 예로서, 본 명세서의 표 2-116는 원발 종양 위치 + 조직학에 대한 바이오시그니처를 제공하고, 표 제목은 원발 종양 위치 + 조직학 및 대응하는 기관 그룹을 모두 보고한다.
본 개시내용은 예를 들어 원발 종양 위치 + 조직학에 대해 본 명세서에서 제공된, 가령, 표 2-116의 바이오시그니처로부터 선택이 이뤄질 수 있음을 고려한다. 표의 특징을 사용하면 최적의 기원 예측을 제공할 수 있지만, 선택이 원하는 성능 기준, 비제한적 예를 들면, 적어도 50%, 60%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 적어도 99%의 정확도를 만족시킬 수 있다면, 선택이 이뤄질 수 있다. 일부 실시예에서, 바이오시그니처는 대응하는 표(즉, 표 2-116)에서 가장 높은 중요 값을 갖는 특징 바이오마커 중 상위 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 41%, 42%, 43%, 44%, 45%, 46%, 47%, 48%, 49%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% 또는 100%를 포함한다. 일부 실시예에서, 바이오시그니처는 대응하는 표(즉, 표 2-116) 내 가장 높은 중요 값을 갖는 상위 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49 또는 50개의 특징 바이오마커를 포함한다. 일부 실시예에서, 바이오시그니처는 대응하는 표(즉, 표 2-116)에서 가장 높은 중요 값을 갖는 상위 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50개의 특징 바이오마커 중 적어도 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 41%, 42%, 43%, 44%, 45%, 46%, 47%, 48%, 40%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%를 포함한다. 일부 실시예에서, 바이오시그니처는 대응하는 표의 가장 높은 중요 값을 갖는 상위 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 60, 65, 70, 75, 80, 85, 90, 95, 또는 100개의 특징 바이오마커의 적어도 50%, 60%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%를 포함한다. 비제한적인 예를 들면, 바이오시그니처는 상위 10, 20 또는 50개의 특징 중 적어도 1, 2, 3, 4, 또는 5개를 포함할 수 있다. 관심 속성, 가령, 원발 위치, 장기 군, 조직학, 또는 질병/암 유형을 예측하기 위한 원하는 성능을 얻기 위해 사용될 수 있는 바이오마커의 임의의 선택이 본 명세서에서 제공된다.
방법을 구현하기 위한 시스템이 또한 본 명세서에서 제공된다. 가령, 도 1f-1g 및 관련 개시내용을 참조할 수 있다.
일부 실시예에서, 본 발명의 시스템 및 방법이 그 전체가 본 명세서에 참조로서 포함되는 국제 특허 공개 WO/2020/146554, 발명의 명칭 "Genomic Profiling Similarity"와 관련되고 2020년01월08일에 출원된 국제 특허 출원 PCT/US2020/012815에 상세히 기재된 바와 같이 샘플 속성을 예측하기 위한 시스템 및 방법을 구현한다.
질병 유형의 발현-기반 예측자
상기의 선택은 샘플의 분자 분석에 기초한 암 샘플의 속성을 예측하기 위해 머신 러닝 기반 분류자를 제공하고, 이러한 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합을 포함한다. 이에 따라 제공되는 방법 및 시스템에 필요에 따라 다양한 생체 분석대상, 가령, 핵산, 가령, DNA 및 RNA, 및 단백질이 적용될 수 있다. 상기의 섹션 및 WO/2020/146554는 게놈 DNA를 이용해 이러한 분석을 설명했다. 이러한 속성의 분류자 또는 예측자를 구축하기 위해 mRNA 발현 프로파일링을 사용하기 위한 시도가 있어왔다. mRNA는 잘 확립된 기술, 가령, PCR 또는 마이크로 어레이를 이용해 평가될 수 있기 때문에, 매력적인 분석 대상이다. 또한 mRNA 서열 및 발현은 차세대 시퀀싱을 이용해, 비제한적 예를 들면, 전장 전사체 시퀀싱을 이용해 고처리율 방식으로 평가될 수 있다. 그러나 RNA 역시 단점을 가진다. 단백질 발현을 위해 IHC를 이용해 종양 샘플을 분석하는 것을 고려하자. 염색된 IHC 슬라이드가 정상 대 종양 조직의 영역을 보여주고 그 밖의 다른 특징, 가령, 단백질의 핵 또는 막 염색을 보여줄 것이다. 따라서 병리학자는 단백질 발현 레벨 및 패턴의 분석을 위해 관심 영역에 집중할 수 있다. 그러나, RNA는 세포 위치 없이 샘플 내의 상이한 세포 및 세포 유형으로부터의 RNA의 혼합물을 포함할 것이고, 여기서 다양한 RNA 전사체의 배경 양은 세포 간에 크게 다를 수 있다. 특히, RNA 분류기는 종종 TOO 식별이 가장 필요한 전이 부위에서 낮은 신생물 퍼센티지로 어려움을 겪을 수 있다. 따라서, RNA 발현 기반 CUP 분석은 RNA가 추출되는 특정 샘플 및 세포에 의해 혼동될 수 있다. 예를 들어, Hayashi 외, Randomized Phase II Trial Comparing Site-Specific Treatment Based on Gene Expression Profiling with Carboplatin and Paclitaxel for Patients with Cancer of Unknown Primary Site, J Clin Oncol 37:57-579를 참조할 수 있다(유전자 발현 프로파일링에 의해 결정된 부위-특정 치료에 기반한 1년 생존율의 어떠한 유의미한 개선도 찾을 수 없음). 따라서 암 샘플의 RNA 기반 특성화의 분석을 개선할 필요가 있다.
여기에서 우리는 이전에 달성한 것보다 훨씬 더 높은 정확도로 RNA 발현 분석을 기반으로 종양 샘플의 샘플 기원을 예측하는 시스템 및 방법을 제공한다. 예측을 수행하기 위한 일반적인 방식(400)이 도 4a에 도시되어 있다. RNA 발현 데이터(401)가 원하는 전사체에 대해 수집된다. 그러한 데이터를 획득하는 모든 유용한 방법이 사용될 수 있다. 예를 들어, 우리는 단일 분석에서 22,000개 이상의 전사체를 쿼리하는 Illumina NGS 플랫폼을 사용하여 전장 전사체 시퀀싱 분석(WTS; RNA-seq)을 사용했다. 원시 발현 데이터는 임의의 원하는 처리 방법을 통해 처리된다. 예를 들어 Li 외, Comparing the Normalization Methods for the Differential Analysis of Illumina High-Throughput RNA-Seq Data, BMC Bioinformatics. 2015 Oct 28;16:347. doi: 10.1186/s12859-015-0778-7; Abbas-Aghababazadeh and Fridley, Comparison of normalization approaches for gene expression studies completed with high-throughput sequencing, PLoS One. 2018; 13(10): e0206312를 참조할 수 있다. 일부 실시예에서, RNA 발현 데이터(402)는 TMM(Trimmed Mean of M-values)을 사용하여 정규화된다. Robinson and Oshlack, A Scaling Normalization Method for Differential Expression Analysis of RNA-seq Data, Genome Biol. 2010;11(3):R25. doi: 10.1186/gb-2010-11-3-r25. Epub 2010 Mar 2를 참조할 수 있다.
도 4a를 계속 참조하면, 표적 전사체에 대한 정규화된 발현 데이터는 다양한 관심 속성, 비제한적 예를 들면, 원발성 종양 기원, 암/질병 유형(403), 장기 군(404) 및/또는 조직학(405)을 위한 머신 러닝 모델을 훈련하는 데 사용될 수 있다. 일부 실시예에서, 하나의 원발 종양 기원 또는 복수의 원발 종양 기원은 전립선, 방광, 자궁 경부 내막, 복막, 위, 식도, 난소, 두정엽, 자궁 경부, 자궁 내막, 간, 구불 결장, 유방의 상부 외부 사분면, 자궁, 췌장, 췌장 머리, 직장, 결장, 유방, 간내 담관, 맹장, 위식도 접합부, 전두엽, 신장, 췌장 꼬리, 상행 결장, 하행 결장, 담낭, 충수돌기, 직장구불 결장, 나팔관, 뇌, 폐, 측두엽, 식도의 하부 1/3, 유방의 상부 내부 사분면, 횡행 결장 및 피부 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 또는 모든 38개로 구성되거나 포함한다. 일부 실시예에서, 하나의 원발 종양 기원 또는 복수의 원발 종양 기원은 유방 선암종, 중추신경계 암, 자궁경부 선암종, 담관암, 결장 선암종, 위식도 선암종, 위장관기질종양(GIST), 간세포 암종, 폐 선암종, 흑색종, 수막종, 난소 과립막 세포 종양, 난소 및 나팔관 선암종, 췌장 선암종, 전립선 선암종, 신세포 암종, 편평세포암종, 갑상선암, 요로상피 암종, 자궁내막 선암종, 및 자궁 육종 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 또는 모든 21개로 구성되거나 포함한다. 일부 실시예에서, 암/질병 유형(403)은 부신 피질 암종; 담관, 담관암종; 유방암종; 중추신경계(CNS); 자궁경부암종; 결장암종; 자궁내막암종; 위장관 기질 종양(GIST); 위식도 암종; 신장 신세포 암종; 간 간세포 암종; 폐암종; 흑색종; 수막종; 메르켈(Merkel); 신경내분비; 난소 과립막 세포 종양; 난소, 나팔관, 복막; 췌장암종; 흉막 중피종; 전립선 선암종; 후복막; 타액 및 이하선; 소장 선암종; 편평 세포 암종; 갑상선암종; 요로상피암종; 자궁 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 또는 모든 28개로 구성되거나 포함한다. 일부 실시예에서, 장기 군(404)은 부신; 방광; 뇌; 유방; 결장; 눈; 여성 생식기 및 복막(FGTP); 위식도; 두부, 안면 또는 경부, NOS; 신장; 간, 담낭, 담관; 폐; 췌장; 전립선; 피부; 소장; 갑상선 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 또는 모든 17개로 구성되거나 포함한다. 일부 실시예에서, 조직학(histology)(405)은 선암종, 샘낭암종, 선편평암종, 부신피질암종, 성상세포종, 암종, 암육종, 담관암종, 투명세포암종, 유관상피내암종(DCIS), 교모세포종(GBM), GIST, 신경교종, 과립막세포종양, 침윤성 소엽 암종, 평활근육종, 지방육종, 흑색종, 수막종, 메르켈 세포 암종, 중피종, 신경내분비, 비소세포암종, 희소돌기아교종, 육종, 육종양암종, 장액, 소세포암종, 편평상피 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 또는 모든 29개로 구성되거나 포함한다.
다양한 분류 방법이 필요에 따라 선택된 속성에 적용될 수 있으며, 비제한적 예를 들면, 신경망 모델, 선형 회귀 모델, 랜덤 포레스트 모델, 로지스틱 회귀 모델, 나이브 베이즈(naive Bayes) 모델, 2차 판별 분석 모델, K-최근접 이웃 모델, 서포트 벡터 머신, 또는 이들의 다양한 형태 또는 조합에 적용될 수 있다. 일부 실시예에서, 머신 러닝 접근법은 XGBoost 멀티-클래스 분류를 포함한다. XGBoost는 구배 부스팅 프레임워크를 사용하는 의사 결정 트리 기반 앙상블 머신 러닝 알고리즘이다. 분류 방법의 조합이 사용될 수 있다. 다양한 통계 분석 플랫폼, 비제한적 예를 들면 R을 이용해 계산이 수행될 수 있다.
도 4a는 동일한 전사체 발현 데이터에 대해 3개의 상이한 분류(403-405)가 수행되는 시나리오를 예시한다. 이 세 가지 모델 각각의 분류는 앞서 설명한 것과 같은 다른 모델을 사용하여 결합될 수 있다. 일부 실시예에서, 조합은 또한 XGBoost 모델을 사용하여 이루어진다. 선택된 속성의 중간 분류를 조합하는 이러한 메커니즘, 가령, 예시(403-405)는 본 명세서에 기재된 투표 스킴의 구현이며(가령, 도 1f 및 관련 텍스트) 동적 투표(406)를 제공한다. 비제한적인 예로, 중간 모델(403-405) 중 하나가 주어진 분류를 만드는 데 매우 정확하다고 생각할 수 있다. 이러한 경우, 최종 분류(407)를 수행할 때 단일 모델의 분류가 두 개의 다른 중간 모델보다 더 많은 가중치를 가질 수 있다. 이러한 경우, 해당 모델의 분류가 최종 분류(407)를 수행할 때 다른 중간 모델을 지배할 수 있다. 다양한 중간 모델은 동적 투표(406)를 수행할 때 상이한 가중치가 할당 받을 수 있다. 하나 이상의 중간 모델의 이러한 조합은 다른 것보다 더 중요할 수 있다. 따라서 동적 투표(406)는 각각의 중간 모델로부터 훈련되고 최적화된 기여에 기초하여 분류(407)를 제공할 수 있다.
일부 실시예에서, 상이한 유형의 분석물의 분석이 조합되어 입력 샘플을 분류하고 바람직한 하나 이상의 속성을 추정할 수 있다. 이와 관련하여 도 4b는 도 4a에 도시된 스킴(400)의 예시적인 변형(410)을 나타낸다. 이 변형에서, RNA 전사체 레벨(411)과 DNA(416) 모두 입력 샘플을 분류하는 데 사용된다. 본 명세서에서 언급된 바와 같이, DNA 및 RNA는 생체 샘플의 속성을 예측하기 위한 다양한 강점과 약점을 가지고 있다. 예를 들어, DNA는 여러 다른 유형의 세포 사이에서 상대적으로 더 안정적이고 더 균일한 반면, RNA는 더 역동적이고 개별 세포 내의 차이를 더 잘 나타낼 수 있다. 이론에 얽매이지 않고, 우리는 게놈 DNA 분석과 RNA 전사체 분석의 조합이 최적의 결과를 제공할 수 있다고 가정했다. 우리는 이 결합된 분류기를 "파노믹(panomic)" 예측기라고 지칭했다. 경우에 따라, 추가 분석물, 가령, 다른 유형의 RNA 및/또는 단백질의 분석이 유사한 방식으로 시스템으로 입력될 수 있다. 도 4b에 예시된 실시예에서, 3개의 중간 RNA 전사체 모델(412-414)은 앞서 기재된 도 4a(403-405)에서 각각 상술한 바와 같다. 또한, 도면이 시스템에 입력된 DNA(416)를 보여준다. 일부 실시예에서, DNA는 앞서 기재된 바와 같은 115개 질병 유형을 사용하여 처리된다. 예를 들어, 표 2-116 및 관련 논의를 참조할 수 있고, 또한 실시예 2-3도 참조할 수 있다. 이 경우, 동적 투표(415)는 RNA(412-414) 및 DNA(416)를 포함하는 4개의 중간 모델에 적용된다. 대체 분석물을 기반으로 속성을 평가하는 모델이 유사한 방식으로 동적 투표 모듈(415)에 입력될 수 있다. 앞서 설명된 바와 같이, 동적 투표 메커니즘은 본 명세서에 기재된 투표 스킴의 변형이며(예를 들어, 도 1f 및 관련 텍스트 참조) 예측/분류(417)를 제공하기 위해 동적 투표 모듈(415)에 대한 입력 간에 본질적으로 동적 투표를 제공한다. 비제한적 예로서, 중간 모델(412-414 또는 416) 중 하나가 주어진 분류를 만드는 데 매우 정확하다고 고려할 수 있다. 그러한 경우, 그 모델의 분류는 최종 분류(417)를 할 때 다른 중간 모델보다 중요할 수 있다. 유사하게, 중간 모델 중 2개는 주어진 분류에 대해 2개의 다른 중간 모델보다 성능이 우수함으로써 해당 설정에서 지배적일 수 있거나, 중간 모델 중 3개가 결합되어 나머지 모델로부터 더 적은 입력으로 더 나은 분류를 제공할 수 있다. 따라서 동적 투표(415)는 각각의 중간 모델로부터 훈련되고 최적화된 기여에 기초하여 분류(417)를 제공할 수 있다.
도 4c는 동적 투표 엔진을 훈련하기 위한 프로세스(400C)의 예시적 흐름도이다. 프로세스(400C)는 시스템, 가령, 도 4a의 시스템(400) 또는 도 4b의 시스템(410)에 의해 수행될 수 있다.
동적 투표 엔진, 가령, 도 4a의 동적 투표 엔진(406), 도 4b의 동적 투표 엔진(415), 또는 도 1g의 동적 투표 엔진(400)이 상이한 방식으로 훈련될 수 있다. 하나의 구현예에서, 동적 투표 엔진은 생체 샘플에 대해 이전에 결정된 하나 이상의 초기 분류에 대응하는 데이터를 동적 투표 엔진에 의한 처리에 기초하여 생체 샘플에 대한 표적 분류를 예측하도록 훈련될 수 있다. 일부 구현예에서, 생체 샘플은 암 샘플을 포함할 수 있고 표적 분류는 암에 대한 속성, 비제한적 예를 들면, TOO를 포함할 수 있다. 일부 구현예에서, 하나 이상의 이전에 결정된 분류는 생체 샘플의 DNA 서열, 생체 샘플의 RNA 서열, 또는 둘 모두의 처리를 기반으로 할 수 있다.
시스템은 하나 이상의 컴퓨터를 사용하여 라벨링된 훈련 데이터 아이템의 데이터베이스로부터 라벨링된 훈련 데이터 항목을 획득함으로써(410C) 프로세스(400C)의 수행을 시작할 수 있다. 각각의 라벨링된 훈련 데이터 아이템은 하나 이상의 초기 분류 및 표적 분류를 포함할 수 있다. 하나 이상의 초기 분류가 각자의 초기 분류 엔진 중 하나 이상에 의한, 생체 샘플로부터 얻어진 데이터의 처리에 기초하여 하나 이상의 초기 분류 엔진, 가령, 암 유형 분류 엔진(가령, 도 4a의 403 또는 도 4b의 412), 초기 기원 장기 엔진(가령, 도 4a의 404 또는 도 4b의 413), 조직학 엔진(가령, 도 4a의 405 또는 도 4b의 414), 또는 DNA 분석 엔진(가령, 도 4b의 416)에 의해 생성된 실제 데이터에 기초하거나 이로부터 도출될 수 있다. 생체 샘플로부터 파생된 데이터는 샘플의 DNA 서열, 샘플의 RNA 서열 또는 둘 다를 포함할 수 있다. 또 다른 구현예에서, 하나 이상의 초기 분류는 이러한 초기 분류 모델이 생체 샘플로부터 얻어진 데이터, 가령, DNA 서열, RNA 서열 또는 둘 모두를 처리할 때 이러한 초기 분류 모델에 의해 생성되어야 하는 초기 분류를 나타내도록 생성된 시뮬레이션된 데이터에 기초하거나 그로부터 얻어질 수 있다.
시스템은 동적 투표 엔진에 대한 입력을 위한 420C 훈련 입력 데이터를 생성하기 위해 하나 이상의 컴퓨터를 사용함으로써 프로세스(400C)의 성능을 계속할 수 있다. 일부 구현예에서, 훈련 입력 데이터는 예를 들어 하나 이상의 초기 분류의 수치적 표현을 포함할 수 있다. 예를 들어, 초기 분류 각각을 나타내는 데이터는 동적 투표 엔진에 대한 입력을 위해 형식이 지정된 데이터 구조의 하나 이상의 필드로 인코딩될 수 있다.
시스템은 동적 투표 엔진을 통해 생성된 훈련 입력 데이터(430C)를 처리하기 위해 하나 이상의 컴퓨터를 사용함으로써 프로세스(400C)의 성능을 계속할 수 있다. 일부 구현예에서, 동적 투표 엔진은 하나 이상의 머신 러닝 모델, 예를 들어 랜덤 포레스트, 서포트 벡터 머신, 로지스틱 회귀, K-최근접 이웃, 인공 신경망, 나이브 베이즈, 2차 판별 분석, 가우스 프로세스 모델, 의사 결정 트리 또는 이들의 조합 중 하나 이상을 포함할 수 있다. 그러한 구현에서, 동적 투표 엔진을 통해 생성된 훈련 입력 데이터를 처리하는 것은 하나 이상의 머신 러닝 모델의 각각의 계층을 통해 생성된 훈련 입력 데이터를 처리하는 것을 포함할 수 있다. 일부 구현예에서 동적 투표 엔진은 XGBoost 결정 트리 기반 앙상블 머신 러닝 알고리즘을 포함한다.
시스템은 단계(420C)에서 생성된 훈련 입력 데이터의 동적 투표 엔진의 처리에 기초하여 동적 투표 엔진에 의해 생성된 출력 데이터(440C)를 획득하기 위해 하나 이상의 컴퓨터를 사용함으로써 프로세스(400C)의 성능을 계속할 수 있다. 그런 다음, 시스템은 단계(440C)에서 획득된 동적 투표 엔진에 의해 생성된 출력 데이터와 단계(410C)에서 획득된 훈련 데이터 항목에 대한 라벨 사이의 유사성 레벨을 결정하기 위해 하나 이상의 컴퓨터를 사용할 수 있다. 일부 구현예에서, 단계(410C)에서 획득된 훈련 데이터 아이템의 레이블과 단계(440C)에서 획득된 출력 데이터 사이의 유사성 레벨은 레이블과 출력 데이터 사이의 차이를 포함할 수 있다.
시스템은 단계(410C)에서 획득된 훈련 데이터 항목의 라벨과 출력 데이터 사이의 유사성 레벨에 기초하여 동적 투표 엔진의 하나 이상의 매개변수(460C)를 조정하기 위해 하나 이상의 컴퓨터를 사용함으로써 프로세스(400C)의 성능을 계속할 수 있다. 그런 다음, 시스템은 시스템에 의해 생성되고 단계(440C)에서 획득된 출력 데이터가 임계값 오류량 내에서 단계(410C)에서 획득된 훈련 데이터 항목에 대한 레이블과 일치하기 시작할 때까지 프로세스(400C)를 반복적으로 수행할 수 있다. 일부 구현에서, 에러 임계값은 0개의 에러일 수 있다. 또 다른 구현예에서, 임계값은 1% 미만의 에러, 2% 미만의 에러, 5% 미만의 에러, 10% 미만의 에러 등을 포함할 수 있다. 시스템이 동적 투표 엔진이 임계값 에러 내에서 동적 투표 엔진에 의해 처리된 훈련 입력 데이터에 대한 라벨과 일치하는 출력 데이터를 예측하고 있음을 감지하기 시작하면 동적 투표 엔진은 완전히 훈련된 것으로 간주될 수 있다.
시스템(400, 410) 및 그 변형은 관심 있는 암의 적어도 하나의 속성을 분류하기 위해 RNA 전사체의 원하는 패널로 훈련될 수 있다. 일부 실시예에서, 시스템은 NGS 기반 전장 전사체 시퀀싱 데이터, 가령, 22,000개 유전자로부터의 mRNA를 사용하여 훈련된다. 과적합 또는 이와 유사한 에러를 피하기 위해, 이러한 패널을 분석하려면 수만 개의 종양 샘플에 대한 교육 데이터가 필요할 수 있다. 많은 수의 총 mRNA를 기반으로 한 데이터의 과적합과 같이 RNA 전사체 분석에 의존하는 문제를 추가로 피하기 위해 더 제한된 전사체 세트를 사용하여 시스템을 훈련할 수 있다. 전통적으로, IHC 기반 종양 분류에 사용된 단백질. 예를 들어 Lin and Liu, Immunohistochemistry in Undifferentiated Neoplasm/Tumor of Uncertain Origin, Arch Pathol Lab Med. 2014;138:1583-1610을 참조할 수 있으며, 그 내용 전체가 참조로서 본 명세서에 포함된다. 일부 실시예에서, 시스템을 구현하는 데 사용되는 mRNA 전사체의 패널은 이러한 단백질을 코딩하는 mRNA를 포함하고, 다양한 이소형 또는 그의 관련 패밀리 구성원을 추가로 포함할 수 있다. RNA 전사체 발현과 단백질 발현 수준 사이의 상관관계는 노이즈가 있고 조직에 따라 다르므로 그러한 접근 방식이 수용 가능한 결과를 얻을 것인지 여부를 선험적으로 예측할 수 없다. 예를 들어, Edfors et al, Gene-specific correlation of RNA and protein levels in human cells and tissues, Mol Syst Biol. (2016) 12: 883; Franks A, et al (2017) Post-transcriptional regulation across human tissues. PLoS Comput Biol 13(5): e1005535를 참조할 수 있다. 그러나 우리는 여러 유전자의 분석이 노이즈 수준을 개선하여 수용 가능한 정확도를 달성할 것이라고 가정했고 예기치 않게 높은 수준의 정확도로 수행하는 접근 방식을 발견했다.
잠재적으로 유용한 RNA 전사체의 하위 집합을 식별하기 위한 위의 근거를 기반으로 우리는 표 117에 표시된 후보 바이오마커 목록을 구성했다. 이 표는 HUGO 유전자 명명 위원회(HGNC) 데이터베이스를 참조하여 국립 생명공학 정보 센터(NCBI) 유전자에 의해 보고된 공식 유전자 기호와 전체 이름을 제공한다. www.ncbi.nlm.nih.gov/gene (NCBI Gene); www.genenames.org (HGNC)를 참조할 수 있다. NCBI의 유전자 ID도 제공된다. "별칭" 열은 예를 들어, 여기에서도 사용될 수 있는 대체 유전자 이름과 같은 유전자에 대한 대체 설명의 비포괄적인 목록을 제공한다. 대체 기호의 포괄적인 목록은 NCBI 및 HGNC 데이터베이스에 의해 제공되며, 그 중에서도 당업자에게 이용 가능하고 알려져 있다(예를 들어, Ensembl, Genecards 등).
Figure pct00124
Figure pct00125
Figure pct00126
Figure pct00127
Figure pct00128
Figure pct00129
Figure pct00130
일부 실시예에서, 선택된 특징에 대한 데이터, 여기서 전사체 발현 레벨은 예를 들어, 도 4b의 (412-414) 또는 도 4a의 (403-405)와 같은 관심 속성에 대한 예측 모델을 훈련하는 데 사용된다. IHC 단백질 발현을 기반으로 한 조직 분류에 따라 표 117에서 전사체 그룹의 선택을 합리화했지만 단백질-조직 상관 관계를 기반으로 한 분류 체계를 복제하지 않았다. 오히려, 표 117의 RNA 전사체에 대한 발현 데이터가 사용되어 조직 특성을 예측하는 머신 러닝 모델을 구축했다. 머신 러닝 알고리즘은 훈련 단계에서 적절한 전사 기능을 선택했다. 전사체 INSM1(전체 명칭: INSM 전사 억제자 1, NCBI 유전자 ID: 3642)도 신경내분비 종양에 대한 검증으로 사용되었지만 머신 러닝 프레임워크를 훈련할 때 포함되지 않았다. 예를 들어, Mukhopadhyay, M 외, Insulinoma-associated protein 1 (INSM1) is a sensitive and highly specific marker of neuroendocrine differentiation in primary lung neoplasms: an immunohistochemical study of 345 cases, including 292 whole-tissue sections, Modern Pathology (2019) 32:100-109을 참조할 수 있다.
모델은 본 명세서에 기재된 바와 같이 훈련되었다. 예를 들어, 도 4a-b 및 관련 설명, 실시예 2-3을 참조할 수 있다. 훈련은 표 117의 모든 전사 특성을 사용하여 수행되었다. 암 유형, 장기 군, 및 조직학 속성의 각각의 예측에 대한 가장 중요한 특성이 각각 표 118-120에 나열되어 있다. 일부 실시예에서, 개별 속성에 대한 예측 모델은 예측에 가장 많이 기여하는 것으로 발견된 특징을 사용한다. 표 118-120에서 "중요도" 값은 언급된 분류 모델에 대한 각 해당 성적표의 상대적 기여도를 나타낸다. 값이 높을수록 중요도가 높다. 표 118의 약어는 ACC(부신 피질 암종), BDC(담관, 담관암), BC(유방암), Cerv(자궁경부 암종), Colon(결장 암종), EC(자궁내막 암종), GC(위식도 암종), KRCC(신장 신세포 암종), LHC(간 간세포 암종), Lung(폐 암종), Mel(흑색종), Men(수막종), Merk(메르켈), Neu(신경내분비), OGCT(난소과립막세포종양), OFP (난소, 나팔관, 복막), Panc(췌장암), PM(흉막 중피종), PA(전립선 선암종), Ret(후복막), SP(침샘 및 이하샘), SIA(소장 선암종), SCC(편평상피세포 암종), TC(갑상선 암종), UC(요로상피암종), Ute(자궁)을 포함한다. 표 119의 약어는 AG(부신), Bla(방광), Br(유방), Gast(위식도), HFN(두부, 안면 또는 경부, NOS), Kid(신장), LGD(간, 담낭, 담관), Panc(췌장) , Pros(전립선), SI(소장), Thy(갑상선)을 포함한다. 표 119에서는 간결함을 위해 소수점 앞의 0을 생략한다. 표 120의 약어는 Adeno(선암종), ACyC(선낭성암), AC(선편평암), ACC(부신피질암), Astro(성상세포종), Carc(암종), CS(암육종), Chol(담관암), CCC(투명세포암종), DCIS(유관암), GBM(교모세포종), GIST(위장관 기질 종양), Gli(신경교종), GCT(과립막 세포 종양), ILC(침윤성 소엽 암종), Lei(평활근육종), Lipo(지방육종) , Mel(흑색종), Men(수막종), Merk(메르켈 세포 암종), Meso(중피종), Neuro(신경내분비), NSCC(비소세포암), Oligo(희소돌기아교종), Sarc(육종), SerC(육종 암종), SCC(소세포 암종), Sq(편평)을 포함한다.
Figure pct00131
Figure pct00132
Figure pct00133
Figure pct00134
Figure pct00135
Figure pct00136
Figure pct00137
Figure pct00138
Figure pct00139
Figure pct00140
Figure pct00141
Figure pct00142
Figure pct00143
Figure pct00144
Figure pct00145
Figure pct00146
Figure pct00147
Figure pct00148
Figure pct00149
Figure pct00150
Figure pct00151
Figure pct00152
Figure pct00153
Figure pct00154
Figure pct00155
명시된 바와 같이, 표 117-120에 제공된 전사체가 도 4a-b에 나열된 시스템 및 프로세스에서 사용될 수 있다. 예를 들어, 본 개시는 생체 샘플을 분류하기 위한 방법(400, 410)을 제공하며, 상기 방법은 하나 이상의 컴퓨터에 의해, 생체 샘플의 RNA 시퀀스에 기초하여 이전에 결정된 생체 샘플에 대한 하나 이상의 초기 분류를 나타내는 제1 데이터를 획득하는 단계(401, 411), 하나 이상의 컴퓨터에 의해, 필요할 때, 생체 샘플의 DNA 시퀀스에 기초하여 이전에 결정된 생체 샘플에 대한 다른 초기 분류를 나타내는 제2 데이터를 획득하는 단계(416)(가령, 표 2-16 및 관련 텍스트 참조), 하나 이상의 컴퓨터에 의해, 제1 데이터 및 제2 데이터의 적어도 일부분을 복수의 초기 생체 샘플 분류의 처리에 기초하여 타깃 생체 샘플 분류를 예측하도록 훈련된 동적 투표 엔진의 입력으로서 제공하는 단계(406, 415), 하나 이상의 컴퓨터에 의해, 동적 투표 엔진을 통해 제공된 입력 데이터를 처리하는 단계; 하나 이상의 컴퓨터에 의해, 제공된 입력 데이터의 동적 투표 엔진의 처리에 기초하여 동적 투표 엔진에 의해 생성된 출력 데이터를 획득하는 단계, 및 하나 이상의 컴퓨터에 의해, 획득된 출력 데이터에 기초하여 생체 샘플에 대한 타깃 생체 샘플 분류를 결정하는 단계(407, 417)를 포함한다. 일부 실시예에서, 하나 이상의 컴퓨터에 의해, 생체 샘플의 RNA 서열에 기초하여 이전에 결정된 생체 샘플에 대한 하나 이상의 초기 분류를 나타내는 제1 데이터를 획득하는 단계는 생체 샘플의 RNA 서열에 기초하여 생체 샘플에 대한 암 유형 분류를 나타내는 데이터를 획득하는 단계(403, 412)(가령, 표 118 및 관련 텍스트 참조), 생체 샘플의 RNA 서열에 기초하여 생체 샘플이 기원된 장기를 나타내는 데이터를 획득하는 단계(404, 413)(가령, 표 119 및 관련 테스트 참조), 및 생체 샘플의 RNA 서열에 기초하여 생체 샘플에 대한 조직학을 나타내는 데이터를 획득하는 단계(405, 414)(가령, 표 120 및 관련 텍스트 참조)를 포함하며, 제1 데이터 및 제2 데이터의 적어도 일부분을 동적 투표 엔진의 입력으로서 제공하는 단계(406, 415)는 암 유형을 나타내는 획득된 데이터(403, 412), 생체 샘플이 기원된 장기를 나타내는 획득된 데이터(404, 413), 조직학을 나타내는 획득된 데이터(405, 414), 및 동적 투표 엔진의 입력으로서 제2 데이터(406, 415)를 제공하는 단계를 포함한다. 일부 실시예에서, 동적 투표 엔진(406, 415)은 하나 이상의 머신 러닝 모델을 포함한다. 일부 실시예에서, 생체 샘플의 DNA 서열에 기초한 생체 샘플에 대한 초기 분류를 이전에 결정하는 단계는, 하나 이상의 컴퓨터에 의해, 신체의 제1 부분의 암성 신생물로부터 획득된 생체 샘플을 나타내는 생체 시그니처를 수신하는 단계(416) - 모델은 복수의 상이한 유형의 암성 생체 샘플 각각에 대해 암성 생체 시그니처를 포함하고, 각각의 암성 생체 시그니처는 하나 이상의 다른 신체의 제1 부분으로부터의 암성 생체 샘플의 분자 프로파일을 나타내는 적어도 제1 암성 생체 시그니처 및 하나 이상의 다른 신체의 제2 부분으로부터의 암성 생체 샘플의 분자 프로파일을 나타내는 제2 암성 생체 시그니처를 포함함 - , 하나 이상의 컴퓨터에 의해 쌍별 분석 모델(pairwise-analysis model)을 이용해, 제1 암성 생체 시그니처 및 제2 암성 생체 시그니처를 이용해 생체 시그니처의 쌍별 분석을 수행하는 단계, 하나 이상의 컴퓨터에 의해 수행된 쌍별 분석에 기초하여, 신체의 제1 부분의 암성 신생물이 신체의 제2 부분의 암에 의해 야기됐을 우도를 생성하는 단계, 및 하나 이상의 컴퓨터에 의해 메모리 디바이스에 생성된 우도를 저장하는 단계를 포함한다.
반복적으로, 또한 방법이 개시되며, 상기 방법은 (a) 암을 갖는 대상체로부터 생체 샘플을 획득하는 단계, (b) 샘플에 적어도 하나의 분석으로 수행하여 하나 이상의 바이오마커를 평가함으로써 샘플에 대한 바이오시그니처를 획득하는 단계, (c) 바이오시그니처를 암의 적어도 하나의 속성을 예측하도록 훈련된 모델로 제공하는 단계 - 상기 모델은 적어도 하나의 속성을 나타내는 적어도 하나의 지정 바이오시그니처를 포함하고, 암의 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합을 포함하는 군 중에서 선택됨 - , (d) 하나 이상의 컴퓨터에 의해, 모델을 통해 제공된 바이오시그니처를 처리하는 단계, 및 (e) 암의 적어도 하나의 속성의 예측을 모델로부터 출력하는 단계를 포함한다. 상기 분석은, 가령, 예시 1에서 기재된 바와 같은, DNA 및 RNA의 차세대 시퀀싱을 포함할 수 있다. 분석은, 가령, 표 2-116 및/또는 표 118-120에 기초하여, 모델을 훈련하는 데 사용되는 것과 동일한 입력을 측정하도록 수행될 수 있다. 따라서 대상체로부터의 샘플에 대한 데이터가 속성을 결정하도록 처리될 수 있다. 예를 들어, 모델은 표 123-125 및/또는 표 128-129, 또는 이의 선택으로부터 선택된 유전자의 군의 DNA 분석을 위한 데이터를 이용해 훈련될 수 있다. 예를 들어, 모델은 표 117 또는 이의 선택으로부터 선택된 유전자의 군의 RNA 분석을 위한 데이터를 이용해 훈련될 수 있다. 모델 내 바이오마커가 지정 바이오시그니처를 제공한다. 그런 다음 대상체에 대한 샘플에 수행되는 분석이 지정 바이오시그니처 내 동일한 바이오마커를 질의할 수 있다. 비제한적 예를 들면, 암 또는 질병 유형을 예측하도록 훈련된 지정 바이오시그니처는 표 118에 따를 수 있거나, 장기 유형을 예측하도록 훈련된 지정 바이오시그니처는 표 119에 따를 수 있거나, 및/또는 조직학을 예측하도록 훈련되는 지정 바이오시그니처는 표 120에 따를 수 있다. 이 예시에 따르면, 그런 다음 대상체로부터의 샘플이 표 118, 표 119 및/또는 표 120의 유전자를 포함하는 바이오시그니처를 결정하도록 분석될 것이다. 따라서, 샘플 바이오시그니처는 대응하는 지정 바이오시그니처를 포함하는 모델에 의해 처리될 수 있다.
암의 적어도 하나의 속성을 예측하는 방법, 가령, 도 4a-b에 요약된 방법(400, 410)이 또한 예시되며, 상기 방법은 (a) 암을 갖는 대상체로부터 생체 샘플을 획득하는 단계 - 상기 생체 샘플은 종양 샘플, 유체, 또는 그 밖의 다른 획득 가능한 샘플, 가령, 본 명세서에 기재된 것을 포함함 - , (b) 생체 샘플 내 하나 이상의 바이오마커를 평가하기 위한 적어도 하나의 분석을 수행하여 샘플에 대한 바이오시그니처를 획득하는 단계, 가령, 생체 샘플로부터 게놈 DNA를 시퀀싱함으로써 DNA 분석을 수행하는 단계(416) - DNA 분석은 표 2-116의 유전자의 선택에 대해 수행될 수 있음 - , 및/또는 생체 샘플로부터 메신저 RNA 전사체를 시퀀싱함으로써 RNA 분석을 수행하는 단계(410, 411) - RNA 분석은 표 117 또는 표 118-120의 유전자의 선택을 위해 수행됨 - , (c) 바이오시그니처를 암의 적어도 하나의 속성을 예측하도록 훈련된 모델로 제공하는 단계 - 모델은 복수의 중간 모델을 포함하고, 복수의 중간 모델은 (1) 표 2-116에 따라 지정 바이오시그니처를 이용해 DNA 데이터를 처리하도록 훈련된 제1 중간 모델(416), (2) 표 118에 따라 지정 바이오시그니처를 이용해 RNA 데이터를 처리하도록 훈련된 제2 중간 모델(403, 412), (3) 표 119에 따라 지정 바이오시그니처를 이용해 RNA 데이터를 처리하도록 훈련된 제3 중간 모델(403, 412), 및 (4) 표 120에 따른 지정 바이오시그니처를 이용해 RNA 데이터를 처리하도록 훈련된 제4 중간 모델(404, 413)을 포함함 - , (d) 하나 이상의 컴퓨터에 의해, (c)의 복수의 중간 모델 각각을 통해 제공된 바이오시그니처를 처리하고, 복수의 중간 모델의 각각의 출력을 최종 예측자 모델, 가령, 동적 투표 모듈(415)로 제공하며, 하나 이상의 컴퓨터에 의해 최종 예측자 모델을 통해 복수의 중간 모델의 각각의 출력을 처리하는 단계, 및 (e) 암의 적어도 하나의 속성의 예측을 상기 최종 예측자 모델로부터 출력하는 단계(417)를 포함한다. 본 명세서에 기재된 바와 같이, 속성이 조직 특성, 가령, TOO과 관련되고, 희망 과립도에서 출력될 수 있다. 일부 실시예에서, 암의 예측된 적어도 하나의 속성은 유방 선암종, 중추신경계 암, 자궁경부 선암종, 담관암, 결장 선암종, 위식도 선암종, 위장관기질종양(GIST), 간세포 암종, 폐 선암종, 흑색종, 수막종, 난소 과립막 세포 종양, 난소 및 나팔관 선암종, 췌장 선암종, 전립선 선암종, 신세포 암종, 편평세포암종, 갑상선암, 요로상피 암종, 자궁내막 선암종, 자궁 육종, 및 이들의 조합으로 구성된 군 중에서 선택된 기원 조직(tissue-of-origin)이다. 필요에 따라, 모델은 본 명세서에 기재된 바와 같이, 상이한 과립도에서 TOO를 출력하도록 훈련될 수 있다. 가령, 표 2-116 및 관련 서술에서 나타난 질병 유형 및 장기 군을 참조할 수 있다.
암의 예측된 적어도 하나의 속성은 임계값에 비교될 수 있다. 예를 들어, 본 명세서의 시스템 및 방법에 의해 제공된 예측 또는 분류가 예측된 속성에서의 신뢰도 레벨을 지시하는 확률, 우도, 또는 유사한 통계적 측정을 포함할 수 있다. 이러한 신뢰도 레벨은 각각의 가능한 속성에 대해 결정될 수 있다. 가령, 실시예 3에서의 논의 및 실시예 4-5에서의 예시적 리포트를 참조할 수 있다. 암 환자에 대한 치료 결정을 보조할 때 예측에서의 신뢰도가 특히 중요할 수 있다. 필요에 따라, 본 개시는 예측된 속성을 확정할지 안할지를 위해 추가 임상 테스트 또는 검토를 고려한다.
본 개시는 또한 하나 이상의 컴퓨터 및 상기 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 상기의 단락들에서 기재된 동작을 수행하게 하는 명령을 저장하는 하나 이상의 저장 매체를 포함하는 시스템을 제공한다. 본 개시는 하나 이상의 컴퓨터에 의해 실행되는 명령을 포함하는 소프트웨어를 저장하는 비일시적 컴퓨터 판독형 매체를 또한 제공하며, 상기 명령은 실행 시 하나 이상의 컴퓨터로 하여금 상기의 단락에서 기재된 동작을 수행하게 한다.
바람직하게는, 암 환자를 위한 치료 선택을 돕기 위해 사용되는 분자 프로파일링 데이터를 이용해 본 명세서에 제공된 시스템 및 방법이 수행될 수 있다. 예를 들어, 실시예 1을 참조할 수 있다. 예측된 속성은 CUP 샘플의 진단을 제공하거나, 임의의 프로파일링된 샘플에 대한 품질 체크를 제공하고 가능하면 조정된 진단을 제공하는 데 도움이 될 수 있다. 후자는 특히, 전이성 샘플, 또는 그 밖의 다른 원격 샘플, 가령, 혈액 샘플 또는 그 밖의 다른 체액의 기원을 검증하는 데 바람직할 수 있다. 따라서, 본 명세서에 제공된 시스템 및 방법은 암 환자의 치료를 개선하는 데 도움이 되기 위한 효율적인 수단을 제공한다.
실시예 3은 RNA 및 파노믹 분류자(400 및 410)의 추가 세부사항 및 구현을 더 제공한다.
리포트
하나의 구체예에서, 본 명세서에 기재된 방법은 분자 프로파일 리포트를 생성하는 것을 포함한다. 리포트는 암이 프로파일링된 피험체의 치료 의사 또는 다른 간병인에게 전달될 수 있다. 리포트는 다음을 포함하되 이에 국한되지 않는 관련 정보의 여러 섹션으로 구성될 수 있다: 1) 프로파일링된 바이오마커의 목록(즉, 분자 테스트 대상), 2) 대상체에 대해 결정된 유전자 및/또는 유전자 산물의 특성을 포함하는 분자 프로필에 대한 설명, 3) 프로파일링된 유전자 및/또는 유전자 산물의 특성과 연관된 치료, 및 4) 각각의 치료가 환자에게 효험이 있을 가능성이 있는지, 환자에게 효험이 있을 가능성이 없는지, 효험 여부가 불확실한지에 대한 지시자. 분자 프로파일의 유전자의 리스트가 본 명세서에 제공된 것일 수 있다. 예를 들어, 실시예 1을 참조할 수 있다. 평가된 바이오마커에 대한 설명은 각각의 바이오마커(가령, RT-PCR, FISH/CISH, PCR, FA/RFLP, NGS 등)를 평가하는 데 사용되는 실험실 기술 및 각각의 기술에 점수를 매기는 데 사용되는 기준과 같은 정보를 포함할 수 있다. 예를 들어, CNV를 점수 매기기 위한 기준이 존재(즉, 암이 없는 피험체에 존재하는 또는 일반적인 개체군에 존재하는 것으로 통계적으로 식별된 "정상" 복제수, 일반적으로 디플로이드보다 크거나 작은 복제수) 또는 부재(즉, 암이 없는 피험체에 존재하는 또는 일반적인 개체군에 존재하는 것으로 통계적으로 식별된 "정상" 복제수, 일반적으로 디플로이드보다 크거나 작은 복제수와 동일한 복제수)일 수 있다. 분자 프로파일 내 유전자 및/또는 유전자 산물 중 하나 이상과 연관된 치료가, 가령, 그 전체가 본 명세서에 참조로서 포함되는 2007년11월29일에 공개된 국제 특허 공개 번호 WO/2007/137187 (국제 출원 번호 PCT/US2007/069286); 2010년 04월 22일에 공개된 WO/2010/045318 (국제 출원 번호 PCT/US2009/060630), 2010년 08월 19일에 공개된 WO/2010/093465 (국제 출원 번호 PCT/US2010/000407), 2012년 12월 13일에 공개된 WO/2012/170715 (국제 출원 번호 PCT/US2012/041393), 2014년 06월 12일에 공개된 WO/2014/089241 (국제 출원 번호 PCT/US2013/073184), 2011년 05월 12일에 공개된 WO/2011/056688 (국제 출원 번호 PCT/US2010/054366), 2012년 07월 05일에 공개된 WO/2012/092336 (국제 출원 번호 PCT/US2011/067527), 2015년 08월 06일에 공개된 WO/2015/116868 (국제 출원 번호 PCT/US2015/013618), 2017년 03월 30일에 공개된 WO/2017/053915 (국제 출원 번호 PCT/US2016/053614), 2016년 09월 09일에 공개된 WO/2016/141169 (국제 출원 번호 PCT/US2016/020657), 및 2018년 09월 27일에 공개된 WO2018175501 (국제 출원 번호 PCT/US2018/023438)의 바이오마커-치료 연관 규칙 세트, 가령, 표 2-116, 표 117-120, ISNM1, 또는 표 121-130에 나타난 것을 이용해 결정될 수 있다. 이러한 바이오마커-치료 연관관계는 시간에 따라, 가령, 연관관계가 반박될 때 또는 새 연관관계가 발견될 때 업데이트될 수 있다. 각각의 치료가 환자에게 효험 가능성이 있는지, 또는 효험이 없는지, 또는 결정되지 않았는지 여부의 지시자가 가중화될 수 있다. 예를 들어, 잠재적 효험은 강력한 잠재적 효험 또는 더 적은 잠재적 효험일 수 있다. 이러한 가중화는 임의의 적절한 기준, 예를 들어 바이오마커-치료 연관성 증거의 강도 또는 프로파일링 결과, 예를 들어 과발현 또는 과소 발현 정도를 기반으로 할 수 있다.
원하는 대로 다양한 추가 구성요소를 리포트에 추가할 수 있다. 바람직한 실시예에서, 리포트는 조직 분류의 결과를 상세히 나타내는, 가령, 원발 종양 부위, 암 카테고리, 암/질병 유형, 장기 유형, 및/또는 조직학 중 하나 이상을 결정하도록 기재된 섹션을 포함한다. 가령, 도 7e, 8c를 참조할 수 있다.이러한 속성은 희망 과립도, 가령, 예측된 속성이 본래의 속성과 상이한 경우 치료를 변경할 수 있는 정도에서 제공될 수 있다. 가령, 도 6ah-al 및 관련 개시내용을 참조할 수 있다.
일부 구체예에서, 리포트는 평가된 바이오마커의 존재, 수준 또는 상태가 진행 중인 임상 시험과 연관되는지 여부에 대한 표시를 갖는 목록을 포함한다. 리포트에는 예를 들어, 임상 시험에서 피험자의 잠재적 등록에 대한 치료 의사의 조사를 용이하게 하기 위해 임상 시험에 대한 식별자가 포함될 수 있다. 일부 구체예에서, 리포트는 평가된 바이오마커와 리포트된 치료의 연관관계를 뒷받침하는 증거 리스트를 제공한다. 이 리스트에는 증거 문헌에 대한 인용 및/또는 특정 바이오마커-치료 연관성에 대한 증거의 강도 표시가 포함될 수 있다. 일부 구체예에서, 리포트는 프로파일링된 유전자 및 유전자 산물의 설명을 포함한다. 분자 프로파일에서 유전자의 설명은 제한없이 생물학적 기능 및/또는 다양한 치료 연관성을 포함할 수 있다.
분자 프로파일링 리포트는 환자의 간병인, 예를 들어 종양 전문의 또는 기타 치료 의사에게 전달될 수 있다. 간병인은 리포트의 결과를 사용하여 환자를 위한 치료 요법을 안내할 수 있다. 예를 들어, 간병인은 환자를 치료하기 위해 리포트에서 유익한 것으로 표시된 하나 이상의 치료를 사용할 수 있다. 유사하게, 간병인은 리포트에서 효험이 없을 가능성이 있는 것으로 표시된 하나 이상의 치료로 환자를 치료하는 것을 피할 수 있다.
가능한 효험의 적어도 하나의 요법을 확인하는 방법의 일부 구체예에서, 환자는 가능한 효험의 적어도 하나의 요법으로 이전에 치료된 적이 없다. 암은 전이성 암, 재발성 암 또는 이들의 임의의 조합을 포함할 수 있다. 일부 경우에, 암은 이전 요법, 비제한적 예를 들면, 암의 최일선 또는 표준 치료에 대해 불응성이다. 일부 구체예에서, 암은 모든 공지된 표준 치료 요법에 불응성이다. 또 다른 구체예에서, 환자는 이전에 암 치료를 받은 적이 없다. 상기 방법은 개인에게 효험이 있을 가능성이 있는 적어도 하나의 치료를 투여하는 것을 더 포함할 수 있다. 무진행 생존율(PFS), 무질병 생존율(DFS) 또는 수명은 투여에 의해 연장될 수 있다.
예시적 리포트가 본 명세서의 도 7 및 8에서 제공되며 각각 실시예 4 및 5에서 상세히 기술된다.
리포트는 컴퓨터로 생성될 수 있으며 인쇄된 리포트, 컴퓨터 파일 또는 둘 다일 수 있다. 리포트는 보안 웹 포털을 통해 액세스될 수 있다.
한 측면에서, 본 개시 내용은 상기 기재된 바와 같이 본 명세서에 기재된 방법을 수행하는데 시약의 사용을 제공한다. 관련 측면에서, 본 개시 내용은 본 명세서에 기재된 방법을 수행하기 위한 시약 또는 키트의 제조에있어서 시약을 제공한다. 또 다른 관련 측면에서, 본 개시 내용은 본 명세서에 기재된 방법을 수행하기 위한 시약을 포함하는 키트를 제공한다. 시약은 유용하고 원하는 시약일 수 있다. 바람직한 구체예에서, 시약은 샘플에서 핵산을 추출하기 위한 시약 및 차세대 시퀀싱을 수행하기위한 시약 중 적어도 하나를 포함한다.
개시내용은 또한 분자 프로파일링을 수행하고 결과 및 이의 분석을 포함하는 리포트를 생성하기 위한 시스템을 제공한다. 하나의 양태에서, 본 개시 내용은 개체에서의 암과 연관된 적어도 하나의 치료법을 식별하기 위한 시스템을 제공하며, 상기 시스템은 (a) 적어도 하나의 호스트 서버, (b) 데이터를 액세스 및 입력하도록 적어도 하나의 호스트 서버를 액세스하기 위한 적어도 하나의 사용자 인터페이스, (c) 입력된 데이터를 처리하기 위한 적어도 하나의 프로세서, (d) 프로세서에 연결되고 처리된 데이터 및 명령을 저장하기 위한 적어도 하나의 메모리 - 상기 명령은 i) 가령, 실시예 1에 따르는 분자 프로파일을 액세스하기 위한 명령, 및 (ii) 분자 프로파일 내 다양한 바이오마커의 상태에 기초하여, 암의 치료에 대한 가능한 효험을 갖는 적어도 하나의 치료법을 식별하는 명령을 포함함 - , 및 (e) 암의 치료에 가능한 이점이 있는 식별된 치료법을 디스플레이하기 위한 적어도 하나의 디스플레이를 포함한다. 일부 구체예에서, 시스템은 상기 방법에 따라 생성 된 분자 프로파일에 기초하여 암 치료에 잠재적인 이점이있는 적어도 하나의 요법을 식별하기 위한 명령 및 처리 된 데이터를 저장하기 위해 프로세서에 연결된 적어도 하나의 메모리 및 그 디스플레이를위한 적어도 하나의 디스플레이를 포함한다. 시스템은 다양한 바이오마커 상태에 대한 참조, 약물/바이오마커 연관에 대한 데이터, 또는 둘 다를 포함하는 적어도 하나의 데이터베이스를 추가로 포함할 수 있다. 적어도 하나의 디스플레이는 본 개시 내용에 의해 제공되는 리포트일 수 있다.
실시예
본 발명은 특허 청구 범위에 기재된 바와 같은 범위를 제한하지 않는하기 실시예에서 추가로 설명된다.
실시예 1:분자 프로파일링
포괄적인 분자 프로파일링은 환자 샘플의 분자 상태에 관한 풍부한 데이터를 제공한다. 우리는 다양한 프로파일링 기법을 이용해 거의 모든 암 계통의 100,000명 이상의 종양 환자에 대해 이러한 프로파일링을 수행했다. 현재까지, 우리는 이러한 환자 중 20,000명 이상에서 치료로부터 효험 또는 효험 부재를 추적했다. 따라서 우리의 분자 프로파일링 데이터를 치료에 대한 환자 효험에 비교되어 추가 암 환자의 다양한 치료에 대한 효험을 예측하는 추가 바이오마커 시그니처를 식별할 수 있다. 우리는 다양한 암 치료법에 대한 환자 효험(가령, 긍정적, 부정적 또는 불확실한 효험)와 상관된 바이오마커 시그니처를 식별하기 위해 이 "차세대 프로파일링"(NGP) 접근 방식을 적용했다.
NGP에 대한 일반적인 접근 방식은 다음과 같다. 수 년에 걸쳐 다양한 분자 프로파일링 기술을 사용하여 수만 명의 환자에 대한 포괄적인 분자 프로파일링을 수행했다. 도 2c에 추가로 나타나듯이, 이러한 기술의 비제한적 예를 들면, 다양한 속성을 평가하기 위한 DNA의 차세대 시퀀싱(NGS)(2301), RNA의 유전자 발현 및 유전자 융합 분석(2302), 단백질 발현의 IHC 분석(2303) 및 유전자 복제수 및 염색체 이상, 가령, 전좌를 평가하기 위한 ISH(2304)가 있다. 우리는 현재 다양한 암 계통의 20,000명 이상의 환자에 대한 환자 임상 결과 데이터(2305)와 매칭했다. 우리는 인지 컴퓨팅 방식(2306)을 사용하여 원하는 대로 다양한 치료에 대한 실제 환자 결과 데이터와 종합적인 분자 프로파일링 결과를 연관시켰다. 임상 결과는 치료 종료 시간(TOT) 또는 다음 치료까지의 시간(TTNT 또는 TNT)을 사용하여 결정될 수 있다. 가령, Roever L (2016) Endpoints in Clinical Trials: Advantages and Limitations.Evidence Based Medicine and Practice 1: e111.doi:10.4172/ebmp.1000e111를 참조할 수 있다. 결과는 바이오마커의 패널(2307)을 포함하는 바이오시그니처를 제공하며, 이때, 바이오시그니처는 검사 대상 치료에 대한 효험 또는 효험 없음을 나타낸다. 바이오시그니처는 적용 가능한 치료로부터의 효험을 예측하고 치료 결정을 안내하기 위해 새로운 환자의 분자 프로파일링 결과에 적용할 수 있다. 이러한 개인화된 안내는 효과적인 치료법의 선택을 개선할 수 있으며 임상적 이점이 적은 치료법을 피할 수 있다.
표 121는 지난 몇 년 동안 우리가 프로파일링한 수많은 바이오마커를 나열한다. 관련 분자 프로파일링 및 환자 결과가 이용 가능하고, 이들 바이오마커 중 일부 또는 전부가 관심 바이오시그니처를 개발하기 위해 인지 컴퓨팅 환경으로 입력되기 위한 특징으로서 역할 할 수 있다. 표는 분자 프로파일링 기술과 이러한 기술을 사용하여 평가된 다양한 바이오마커를 보여준다. 리스트은 포괄적인 것이 아니며 나열된 모든 바이오마커에 대한 데이터가 모든 환자를 위해 가용한 것은 아닐 것이다. 다양한 바이오마커가 여러 방법을 사용하여 프로파일링되었음이 추가로 인식될 것이다. 비-제한적인 예로서, EGFR(Epidermal Growth Factor Receptor) 단백질을 발현하는 EGFR 유전자를 고려할 수 있다. 표 121에 나타난 바와 같이, EGFR 단백질의 발현은 IHC를 사용하여 검출되었고; EGFR 유전자 증폭, 유전자 재배열, 돌연변이 및 변경은 ISH, Sanger 시퀀싱, NGS, 단편 분석 및 PCR, 가령, qPCR로 검출되었고, EGFR RNA 발현은 PCR 기술, 예를 들어 qPCR 및 DNA 마이크로어레이를 사용하여 검출되었다. 비제한적인 추가 예로서, EGFR 변이체 III(EGFRvIII) 전사체의 존재에 대한 분자 프로파일링 결과는 단편 분석(가령, RFLP) 및 시퀀싱(가령, NGS)을 사용하여 수집되었다.
표 122은 다양한 종양 계통에 대한 예시적인 분자 프로파일을 보여준다. 이러한 분자 프로파일의 데이터는 관심 있는 하나 이상의 바이오시그니처를 식별하기 위해 NGP에 대한 입력으로 사용될 수 있다. 표에서, 암 계통은 "종양 유형" 열에 표시된다. 나머지 열은 표시된 방법론(즉, 면역조직화학(IHC), 현장 혼성화(ISH) 또는 그 밖의 다른 기술)을 사용하여 평가될 수 있는 다양한 바이오마커를 보여준다. 앞서 설명한 바와 같이, 바이오마커는 해당 분야의 통상의 기술자에게 알려진 기호를 사용하여 식별된다. IHC 열에서, "MMR"은 각각 IHC를 사용하여 개별적으로 평가되는 불일치 복구 단백질 MLH1, MSH2, MSH6 및 PMS2를 의미한다. WES 열 "DNA 변경"에서 "CNA"는 본 명세서에서 복제수 변이(CNV)로도 지칭되는 복제수 변경을 지칭한다. WES 열 "게놈 시그니처"에서 "MSI"는 미세부수체 불안정성을 나타내고, "TMB"는 종양 돌연변이 부담 또는 TML로 지칭될 수 있고; "LOH"는 이형접합성의 상실을 의미하고; "FOLFOX"는 국제 특허 공개 번호 WO2020113237, 발명의 명칭 " "NEXT-GENERATION MOLECULAR PROFILING" 및 2019년12월02일자 국제 특허 공개 번호 PCT/US2019/064078에 설명되어 있는 전이성 대장 선암종에 대한 FOLFOX 반응의 예측 인자를 나타낸다. 전장 전사체 시퀀싱(WTS)은 표본의 모든 RNA 전사체를 평가하고 그 중 융합 및 변형 전사체를 검출하는 데 사용된다. 열 "기타"에서, 약어 EBER(Epstein-Barr encoding region), 및 HPV(human papilloma virus)가 포함된다. 해당 분야의 통상의 기술자는 분자 프로파일링 기술이 원하는 대로 및/또는 상호 교환 될 수 있음을 인식 할 것이다. 예를 들어, IHC 대신에 다른 적합한 단백질 분석 방법(가령, 대체 면역 분석 형식)을 사용할 수 있고, ISH 대신에 다른 적합한 핵산 분석 방법(가령, 복제수 및/또는 재 배열, 전좌 등을 평가하는 것) 을 사용할 수 있고 기타 적합한 핵산 분석 방법이 단편 분석 대신 사용될 수 있다. 마찬가지로, FISH와 CISH는 일반적으로 상호 교환 가능하며 프로브 가용성 등에 따라 선택이 이루어질 수 있다. 표 123-125 및 128-129은 DNA, 가령, 게놈 DNA의 NGS(Next Generation Sequencing) 분석을 사용하여 평가된 게놈 분석 및 유전자 패널을 보여준다. 전장 엑솜 시퀀싱(WES)이 게놈 DNA를 분석하는 데 사용될 수 있다. 해당 분야의 통상의 기술자는 NGS 분석 대신에 다른 핵산 분석 방법, 예를 들어 다른 시퀀싱(가령, Sanger), 혼성화(가령, 마이크로어레이, 나노 스트링) 및/또는 증폭(가령, PCR 기반) 방법을 사용할 수 있음을 인식할 것이다. 표 126-127에 나열된 바이오마커는 RNA 시퀀싱, 가령, WTS에 의해 평가될 수 있다. WTS를 사용하여, 임의의 융합, 스플라이스 변이체 등이 검출될 수 있다. 표 126-127은 암에서 일반적으로 검출된 변형을 갖는 바이오마커를 나열한다.
유전자의 다양한 측면을 평가하기 위해 핵산 분석이 수행될 수 있다. 예를 들어, 핵산 분석은 돌연변이 분석, 융합 분석, 변이 분석, 스플 라이스 변이, SNP 분석 및 유전자 복제수/증폭을 포함할 수 있지만 이에 한정되지 않는다. 이러한 분석은 본 명세서에 기재되어 있거나 해당 분야에 잘 알려진 임의의 개수의 기법, 비제한적 예를 들면, 시퀀싱(가령, Sanger, 차세대(Next Generation), 파이로시퀀싱), PCR의 변형, 가령, RT-PCR, 단편 분석 등을 이용해 수행될 수 있다. NGS 기술은 단일 분석에서 다중 유전자의 돌연변이, 융합, 변이체 및 복제수를 검출하는 데 사용될 수 있다. 달리 언급되거나 문맥 상 명백하지 않는 한, 본 명세서에 사용 된 "돌연변이"는 야생형에 비교되는 유전자 또는 게놈의 임의의 변경, 가령, 돌연변이, 다형성, 결실, 삽입, 인델(즉, 삽입 또는 결실), 치환, 전좌, 융합, 단절, 복제, 손실, 증폭, 반복 또는 복제수 변이를 포함한다. 상이한 게놈 변경 및/또는 유전자 세트에 대해 상이한 분석이 가능할 수 있다. 예를 들어, 표 123는 NGS로 측정할 수 있는 게놈 안정성의 속성을 나열하고, 표 124는 점 돌연변이 및 인델에 대해 평가할 수 있는 다양한 유전자를 나열하고, 표 125은 점 돌연변이, 인델 및 복제수 변이에 대해 평가할 수 있는 다양한 유전자를 나열하며, 표 126은 RNA 분석을 통해, 가령, WTS를 통해 유전자 융합에 대해 평가 될 수 있는 다양한 유전자를 나열하고, 마찬가지로 표 127은 RNA를 통해 전사 변이체에 대해 평가할 수 있는 유전자를 나열한다. 추가 유전자에 대한 분자 프로파일링 결과는 이러한 데이터를 사용할 수 있으므로 NGP 바이오시그니처을 식별하는 데 사용할 수 있다.
Figure pct00156
Figure pct00157
Figure pct00158
Figure pct00159
Figure pct00160
Figure pct00161
Figure pct00162
Figure pct00163
Figure pct00164
Figure pct00165
Figure pct00166
Figure pct00167
이 실시예 및 명세서 전반에 걸쳐 사용된 약어, 예를 들어 IHC: 면역 조직 화학(immunohistochemistry); ISH: 원위치 혼성화(in situ hybridization); CISH: 색상측정 원위치 혼성화(colorimetric in situ hybridization); FISH: 형광 현장 혼성화(fluorescent in situ hybridization); NGS: 차세대 시퀀싱(next generation sequencing); PCR : 폴리머아제 연쇄 반응(polymerase chain reaction); CNA: 복제수 변경(copy number alteration); CNV: 복제수 변이(copy number variation); MSI: 미세 위성 불안정성(microsatellite instability); TMB: 종양 돌연변이 부담(tumor mutational burden).
전장 엑솜 시퀀싱(WES) 및 전장 전사체 시퀀싱(WTS)의 경우, 정량적 시퀀싱 데이터가 실질적으로 모든 알려진 유전자 및 전사체에 대해 이용 가능하다. 예를 들어, WES 및 WTS는 22,000 이상의 관심 시퀀스를 질의할 수 있다. 표 124-125의 유전자에 추가로, 표 128-129는 분자 프로파일링 암 샘플에서 특히 관심사일 수 있는 관심 유전자, 가령, 암과 가장 일반적으로 연관된 유전자의 추가 선택을 제공한다.
Figure pct00168
Figure pct00169
이 실시예에서의 분자 프로파일은 비제한적 예를 들어 새롭고 업데이트된 기술의 개발, 바이오마커 테스트 및 동반 진단, 및 바이오마커 - 치료 연관관계에 대한 신규 또는 업데이트된 증거와 같은 이유로 시간에 따라 조절되었다. 따라서, 과거에 수집된 일부 환자 분자 프로파일에 대해, 표 122-129의 방법이 아닌 다른 방법으로 테스트한 다양한 바이오마커에 대한 데이터가 이용 가능하며 NGP에 대해 사용될 수 있다.
표 130는 평가된 바이오마커와 다양한 치료제 사이의 연관관계를 나타낸 것이다. 이러한 연관관계는 바이오마커 평가 결과를 출처, 가령, NCCN, 문헌 보고서 및 임상 시험으로부터의 약물 연관관계와 상관시킴으로써 결정될 수 있다. "약제" 열은 후보 약제(가령,약물 또는 생물학적 제제) 또는 바이오마커 상태를 제공한다. 일부 경우에, 약제는 바이오마커 상태와 매칭될 수 있는 임상 시험을 포함한다. 어떤 경우에는, 복수의 바이오마커가 약제 또는 약제 그룹과 연관된다. 플랫폼 약어가 본 출원에서 사용되는데, 가령, IHC: 면역조직화학(immunohistochemistry); CISH: 비색계 원위치 혼성화(colorimetric in situ hybridization); NGS: 차세대 시퀀싱(next generation sequencing); PCR: 중합효소 연쇄 반응(polymerase chain reaction); CNA: 복제수 변경(copy number alteration)가 있다. 종양 유형 약자는 다음을 포함한다: TNBC: 삼중 음성 유방암(triple negative breast cancer); NSCLC: 비소세포폐암(non-small cell lung cancer); CRC: 대장암(colorectal cancer); GEJ: 위식도 접합부(gastroesophageal junction), EBDA: 간외 담관 선암종(extrahepatic bile duct adenocarcinoma). 바이오마커 약자는 다음을 포함한다: HRR: 상동 재조합 복구(Homologous Recombination Repair)이며, 유전자 ATM, BARD1, BRCA1, BRCA2, BRIP1, CDK12, CHEK1, CHEK2, FANCL, PALB2, RAD51B, RAD51C, RAD51D, RAD54L를 포함함; MSI: 미세부수체 불안정(microsatellite instability); MSS: 미세부수체 안정(microsatellite stable); MMR: 미스매치 복구(mismatch repair); TMB: 종양 돌연변이 부담(tumor mutational burden). 바이오마커 PD-L1용 양제는 괄호 안의 검출 분석에 사용되는 특정 항체를 식별한다.
Figure pct00170
Figure pct00171
Figure pct00172
실시예 2: 종양 유형을 예측하기 위해 DNA NGS 패널을 이용한 게놈 유병률 점수(GPS)
이 실시예는 게놈 DNA를 평가하기 위해 차세대 시퀀싱 패널을 이용해 생체 샘플의 종양 유형을 예측하기 위한 게놈 유병률 점수(Genomic Prevalence Score) 시스템(본 명세서에서, GPS; Genomic Profiling Similarity; Molecular Disease Classifier; MDC라고도 지칭될 수 있음)의 개발을 설명한다. 이 실시예는 원발 부위 불명 암종(CUP, 일명, 원발 불명 암)에 대한 보다 면밀한 분석과 함께 확장된 표본 집단에 대한 종양 유형 예측에 GPS를 추가로 적용한다.
현재의 표준 조직학적 진단 검사는 10%의 환자1에서 전이성 암의 기원을 결정할 수 없기 때문에 CUP(원발 부위 불명 암)로 진단된다. 확실한 진단이 없으면 최적이 아닌 치료 요법을 시행하고 좋지 않은 결과를 초래할 수 있다. 유전자 발현 프로파일링은 기원의 조직을 식별하는 데 사용되었지만 여러 고유한 제한 사항이 있다. 이들 제한은 종종 식별이 가장 필요한 전이 부위에서 낮은 신생물 퍼센티지를 가진 종양을 식별하는 성능을 저하시킨다2. 본 명세서에 제공된 GPS 시스템은 암 진단을 돕기 위해 머신 러닝 플랫폼과 결합된 592 유전자 패널(실시예 1의 설명 참조, 패널은 표 123-125의 바이오마커를 포함함)의 게놈 DNA 시퀀싱을 위한 데이터를 이용해 개발되었다. 생성된 알고리즘은 34,352건의 케이스로 훈련되었고 15,473건의 명확하게 진단된 케이스에서 테스트되었다. 그런 다음 알고리즘의 성능이 1,662건의 CUP 케이스에 대해 평가되었다. GPS는 민감도, 특이도, PPV 및 NPV가 각각 90.5%, 99.2%, 90.5% 및 99.2%인 레이블이 지정된 데이터 세트에서 종양 유형을 정확하게 예측했다. 성능은 종양 핵의 퍼센티지에 무관하게 또는 전이 부위에서 표본을 얻었는지 여부에 관계없이 일관되었다. 선택된 불일치 케이스의 병리학적 재평가를 통해 GPS 결과의 확인 및 임상적 유용성이 확인되었다. 또한, 치료 선택에 필수적인 모든 게놈 마커가 이 분석에서 평가되어, 단일 테스트 내에서 환자의 임상 유용성을 극대화한다.
소개
원발 부위 불명 암(CUP: Carcinoma of Unknown Primary)은 광범위한 임상 및 병리학적 평가에도 불구하고 원발성 종양이 파악되지 않은 채 남아 있는, 임상적으로 해결하기 어려운 전이성 악성의 이종 그룹을 나타낸다. 전세계의 암 진단의 대략 2-4%가 CUP를 포함한다3. 덧붙여, 정확한 종양 유형 분류와 관련된 일부 레벨의 진단 불확실성은 종양학 하위 분야에서 빈번하게 발생한다. 확실한 진단을 내리려는 노력은 진단 과정을 연장하고 치료 시작을 지연시킬 수 있다. 또한, CUP는 차선의 치료 개입의 사용으로 설명될 수 있는 나쁜 결과와 관련이 있다. 면역조직화학(IHC) 검사는 특히 잘 분화되지 않거나 미분화된 종양의 경우 종양 기원 부위를 진단하기 위한 황금 표준 방법이다. 까다로운 사례의 정확도를 평가하고 이러한 연구의 메타 분석을 수행한 결과 IHC 분석이 전이성 종양의 특성화에서 66%의 정확도를 보였다고 보고했다4-9. 치료 요법은 진단에 크게 의존하기 때문에 이는 중요한 충족되지 않은 임상 요구를 나타낸다. 이러한 문제를 해결하기 위해 차등 유전자 발현 평가를 기반으로 하는 TOO(Tissue-of-Origin) 식별을 목표로 하는 분석이 개발되어 임상적으로 테스트되었다. 그러나 이러한 분석을 임상 실습에 통합하는 것은 상대적으로 열악한 성능 특성(83%에서 89%11-14)과 제한된 샘플 가용성으로 인해 방해를 받는다. 예를 들어, 최근의 상용 RNA 기반 분석은 187개 종양의 테스트 세트에서 83%의 민감도를 가지며 별도의 300개 샘플 검증 세트의 78%에서만 결과를 확인했다14. 이는 적어도 부분적으로 정상적인 세포 오염, RNA 안정성 및 RNA 발현의 역학과 관련하여 일반적인 RNA 기반 분석의 한계의 결과일 수 있다. 그럼에도, 초기 임상 연구는 분석에 의해 예측된 종양 유형에 치료를 일치시키는 것이 가능한 이점을 보여준다15. 포괄적인 분자 프로파일링 분석, 특히 차세대 DNA 시퀀싱의 가용성이 증가함에 따라 게놈 기능이 CUP 치료 전략에 통합되었다16. 이 접근 방식은 TOO의 명확한 식별을 거의 지원하지 않지만 일부 환자에서 표적 가능한 분자 변경을 나타낸다16.
이 실시예에서, 우리는 수 백개의 유전자 서열 및 이의 다양한 속성(실시예 1 참조)을 평가하며 암 환자의 임상 치료에서 널리 사용되어 온 대규모 NGS 게놈 DNA 패널로부터의 데이터에 기초하여 TOO 분류자를 구축하기 위해 신규한 머신 러닝 방식을 이용함으로써 TOO 식별의 상이한 전략을 추구했다. 이 계산 분류 시스템은 이전에 공개된 기술의 정확도를 훨씬 능가하는 정확도로 TOO를 식별했다. 또한, 592-유전자 NGS 분석은 GPS 및 치료 선택을 안내하는 근본적인 유전적 이상의 존재를 동시에 결정하여(실시예 1 참조), 단일 테스트에서 실질적으로 증가된 임상적 유용성을 생성한다.
방법론
연구 설계
GPS는 다양한 설정에서 이전에 암 진단을 받은 환자, 비제한적 예를 들면, 분자 프로파일링이 수행된 모든 경우에 대한확인 또는 품질 관리(QC) 측정으로서 사용된다. GPS는 원발 부위 불명 암(CUP)의 진단을 갖는 케이스 또는 불확실한 진단을 갖는 임의의 케이스의 치료를 안내하는 데 특히 유용할 수 있다. 592-유전자 NGS 분석으로 프로파일링된 케이스의 데이터베이스로부터, 이용 가능한 병리학 리포트를 갖는 55,780 케이스를 선택했다. 이 연구는 IRB 승인을 받아 수행되었다. 이 데이터 세트는 다음과 같은 3개의 집단으로 분할되었다: 명확한 진단을 갖는 34,352 건의 케이스, 독립 검증 세트로서 예약된 명확한 진단을 갖는 15,473건의 케이스, 및 1,662건의 CUP 케이스. 모든 케이스는 분석 전에 익명화되었다.
일반적인 연구 설계(500)가 도 5a에 나타나 있다. 명확한 진단이 있는 34,352건의 케이스로 시작하여, 훈련 집단의 27,439건의 샘플을 이용해 머신 러닝 알고리즘이 훈련(501)되었고 6,913건의 샘플이 검증을 위해 사용되었다. 모델이 훈련되고 최적화되면, 알고리즘은 고정되었다(502). 명확한 진단이 있는 15,473 건의 케이스가 독립 검증 세트로서 사용되었다(503). 1,662건의 CUP 케이스(504)가 분류를 평가하는 데 사용되었으며 10,000개 이상의 임상 케이스에 대해 전향적 검증(505)이 수행되었다.
592 NGS 패널
NextSeq 플랫폼(Illumina, Inc., 캘리포니아, 샌 디에고 소재)을 사용하여 포르말린 고정 파라핀 포매(FFPE) 종양 샘플로부터 분리된 게놈 DNA에서 차세대 시퀀싱(NGS)을 수행했다. 매칭되는 정상 조직이 시퀀싱되지 않았다. 맞춤-설계된 SureSelect XT 분석은 592개의 전체 유전자 표적을 강화하는 데 사용되었다(Agilent Technologies, 캘리포니아, 산타 클라라 소재). 특정 타깃이 상기의 표 123-125에서 나열된다. 모든 변이체는 대립유전자 빈도 및 앰플리콘 적용 범위를 기반으로 > 99% 신뢰도로 검출되었으며, 적용 범위의 평균 시퀀싱 깊이는 > 500이고 분석 감도는 5%이다. 분자 테스트 전에, 수동 미세 해부 기술을 사용하여 표적 조직을 수확하여 종양 농축을 달성했다. 식별된 유전자 변이는 위원회 인증을 받은 분자 유전학자에 의해 해석되었으며 ACMG(American College of Medical Genetics 및 Genomics) 표준에 따라, '병원성', '병원성으로 추정', '의미 불명 변종', '양성으로 추정' 또는 '양성'으로 분류되었다. 개별 유전자의 돌연변이 빈도를 평가할 때, '병원성' 및 '병원성으로 추정'은 변이를 돌연변이로 계산하고 '양성', '양성으로 추정' 변이 및 '의미 불명 변이'는 배제되었다.
TML(Tumor Mutation Load)이 이전에 생식계열 변경으로 기술되지 않은 종양당 발견된 모든 비동의적 미스센스 돌연변이를 카운팅함으로써 측정되었다(종양당 592개의 유전자 및 1.4 메가베이스[MB] 시퀀싱됨). TML-high를 정의하는 임계값은 17 돌연변이/MB 이상이었고 CRC에서 TML이 MSI와 높은 일치도를 가진다는 보고를 기반으로 CRC 케이스의 단편 분석에 의해 MSI와 TML을 비교하여 설정되었다.
MSI(Microsatellite Instability)는 7,000개 이상의 표적 microsatellite loci를 사용하여 조사되었으며 UCSC(University of California, Santa Cruz) Genome Browser 데이터베이스의 참조 게놈 hg19와 비교되었다. 체세포 삽입 또는 결실에 의해 변경된 미세부수체 유전자좌의 수가 각각의 샘플에 대해 카운팅되었다. 반복 횟수를 늘리거나 줄인 삽입 또는 삭제만 고려되었다. 미세부수체 유전자좌의 게놈 변이체는 돌연변이 검출에 사용된 것과 동일한 깊이 및 빈도 기준을 사용하여 검출되었다. MSI-NGS 결과는 기존의 PCR 기반 방법으로 분석된 2,000개 이상의 일치하는 임상 케이스의 결과와 비교되었다. NGS에 의해 MSI를 결정하기 위한 역치는 > 95%의 민감도 및 > 99%의 특이성을 생성하기 위해 삽입 또는 결실이 있는 46개 이상의 유전자좌로 결정되었다.
복제수 변경(CNA(copy number alteration), 또는 CNV(Copy number variation)라고도 지칭됨)은 NGS 패널을 사용하여 테스트되었으며 게놈 유전자좌의 시퀀싱 깊이를 이배체 대조군뿐만 아니라 이들 게놈 유전자좌의 알려진 성능과 비교함으로써 결정되었다. 6 복제수 이상의 계산된 이득은 증폭된 것으로 간주되었다.
592 NGS 패널과 MSI 및 TML 콜링의 추가 설명에 대해, 실시예 1; 본 명세서에서 그 전체가 참조로서 포함되는 2018년 03월 20일에 출원된 국제 출원 번호 PCT/US2018/023438에 기초한 2018년 09월 27일에 공개된 국제 출원 공개 WO 2018/175501 A1을 참조할 수 있다.
머신 러닝
GPS 시스템은 복수의 모델을 이용해 서로에 대해 투표하여 최종 결과를 결정하는 본 명세서에 제공된 프레임워크를 활용하는 인공 지능 플랫폼을 이용해 구축되었다. 예를 들어, 도 1f-1g 및 관련 텍스트를 참조할 수 있다. 115개의 개별 종양 부위의 세트 및 조직학적 분류가 사용되어 원발 위치(가령, 전립선) 및 조직학(가령, 선암)에 따라 계층화되었으며 "질병 유형" 또는 "암 유형"(가령, 전립선 선암)으로 결합된 환자의 부분집단을 생성하였다. 115개의 질병/암 유형은 다음을 포함했다: 부신 피질 암종; 항문 편평상피암; 맹장 선암종, NOS; 맹장 점액성 선암종; 담관, NOS, 담관암종; 뇌 성상세포종, 역형성; 뇌 성상세포종, NOS; 유방 선암종, NOS; 유방암, NOS; 유방 침윤관 선암종; 유방 침윤성 소엽 암종, NOS; 유방 화생암, NOS; 자궁경부 선암종, NOS; 자궁경부암, NOS; 자궁경부 편평상피암; 결장 선암종, NOS; 결장암, NOS; 결장 점액성 선암종; 결막 악성 흑색종, NOS; 십이지장 및 팽대부 선암종, NOS; 자궁내막 선암종, NOS; 자궁내막암종; 자궁내막양 선암종; 자궁내막 장액암종; 자궁내막암종, NOS; 미분화 자궁내막암종; 자궁내막 투명 세포 암종; 식도 선암종, NOS; 식도 암종, NOS; 식도 편평상피암; 간외 담관, 총담즙, 담낭 선암종, NOS; 나팔관 선암종, NOS; 나팔관 암종, NOS; 나팔관 암육종, NOS; 나팔관 장액 암종; 위 선암종; 위식도 접합부 선암종, NOS; 교모세포종; 신경교종, NOS; 교육종; 머리, 얼굴 또는 목, NOS 편평상피암; 간내 담관 담관암종; 신장 암종, NOS; 신장 투명 세포 암종; 신장 유두 신세포 암종; 신장 신세포 암종, NOS; 후두, NOS 편평상피암; 왼쪽 결장 선암종, NOS; 왼쪽 결장 점액성 선암종; 간 간세포 암종, NOS; 폐 선암종, NOS; 폐 선편평암종; 폐암, NOS; 폐 점액성 선암종; 폐 신경내분비 암종, NOS; 폐 비소세포암종; 폐 육종암종; 폐 소세포 암종, NOS; 폐 편평 상피암; 수막 수막종, NOS; 비인두, NOS 편평상피암; 역형성 희소돌기아교종; 희소돌기아교종, NOS; 난소 선암종, NOS; 난소 암종, NOS; 난소 암육종; 난소 투명 세포 암종; 난소 자궁내막양 선암종; 난소 과립막 세포 종양, NOS; 난소 고급 장액 암종; 난소 저등급 장액 암종; 난소 점액성 선암종; 난소 장액 암종; 췌장 선암종, NOS; 췌장암, NOS; 췌장 점액성 선암종; 췌장 신경내분비 암종, NOS; 이하선 암종, NOS; 복막 선암종, NOS; 복막 암종, NOS; 복막 장액 암종; 흉막 중피종, NOS; 전립선 선암종, NOS; 직장상 결장 선암종, NOS; 직장 선암종, NOS; 직장 점액성 선암종; 후복막 역분화 지방육종; 후복막 평활근육종, NOS; 오른쪽 결장 선암종, NOS; 우측 결장 점액성 선암종; 침샘 선양 낭성 암종; 피부 흑색종; 피부 흑색종; 피부 머켈 세포 암종; 피부 결절 흑색종; 피부 편평상피암; 피부간 흑색종; 소장 선암종; 소장 위장관 기질 종양, NOS; 위 위장 기질 종양, NOS; 위 인장 고리 세포 선암종; 갑상선 암종, 역형성, NOS; 갑상선암, NOS; 갑상선의 갑상선 유두암종; 편도, 구인두, 혀 편평상피암; 횡단 결장 선암종, NOS; 요로상피 방광 선암종, NOS; 요로상피 방광암, NOS; 요로상피 방광 편평상피암; 요로상피암, NOS; 자궁내막 기질 육종, NOS; 자궁 평활근육종, NOS; 자궁 육종, NOS; 포도막 흑색종; 질 편평 상피암; 외음부 편평상피암. NOS, 즉, "상세불명(Not Otherwise Specified)"은 질병/장애 분류, 가령, ICD-9, ICD-10 또는 DSM-IV의 시스템에서 하위 카테고리이며, 더 구체적 진단이 이뤄지지 않은 경우 일반적이지만 배타적이지 않게 사용된다.
GPS를 훈련하기 위해, 115개 질병 유형 모두가 훈련 세트를 사용하여 쌍병 비교 방식으로 서로에 대해 훈련되어 6555개 모델 시그니처를 생성했고, 여기서, 각각의 시그니처가 질병 유형의 쌍을 구별하도록 구축된다. 시그니처는 구배 부스팅된 포레스트(Gradient Boosted Forest)를 사용하여 생성되었으며 본 명세서에 기재된 바와 같이 투표 모듈이 적용되었다.
모델은 테스트 케이스를 사용하여 검증되었다. 각각의 테스트 케이스는 6555개의 모든 시그니처를 통해 개별적으로 처리되어 모든 케이스에 대한 모든 질병 유형 간의 짝 분석을 제공할 수 있다. 결과는 각각의 열과 각각의 행이 단일 질병 유형이고 교차점에 있는 셀이 케이스가 하나 또는 다른 질병 유형일 확률인 115 x 115 행렬에서 분석된다. 각각의 질병 유형에 대한 확률은 각각의 열에 대해 합산되어 해당 확률 합계와 함께 115개의 질병 유형을 도출한다. 이들 질병 유형은 확률 합계에 따라 순위가 매겨진다.
그런 다음 질병 유형이 사용되어 다음의 15개의 구별되는 장기 군의 슈퍼세트에 속하는 각각의 케이스에 대한 최종 확률을 결정할 수 있다: 결장; 간; 담낭; 담관; 뇌; 유방; FGTP(Female Genital Tract and Peritoneum); 식도; 위; 두부, 안면 또는 경부, 상세불명(NOS); 신장; 폐; 췌장; 전립선; 피부/흑색종; 및 방광. 각각의 경우에 대해 이들 기관 각각은 원발 기원 예측을 수행하는 데 사용할 확률이 할당될 수 있다. 표 2-116는 질병 유형 예측에 기여하는 특징을 나열하며, 여기서 표의 각각의 행은 중요도 순의 특징을 나타낸다. 나타난 바와 같이, 표 2-116의 제목은 115개의 질병 유형이 15개의 장기 군과 어떻게 관련되는지를 나타내며, 표는 "질병 유형 - 장기 군"의 포맷의 제목을 가진다. 예를 들어, 표 2의 제목이 "부신 피질 암종 - 부신"이며, 이는 질병 유형이 부신 피질 암종이고, 장기 군이 부신임을 나타낸다.
도 5b는 전립선 기원의 테스트 케이스에 대해 생성된 예시적 115x115 행렬을 보여준다(즉, 원발 부위: 전립선, 조직학: 선암). 이 도면에서, X 및 Y 범례는 앞서 나열된 115개의 질병 유형이다. 앞서 언급된 바와 같이, 각각의 행은 "음성" 콜의 확률이고(확률<0.5) 각각의 열은 양성 콜의 확률이다. 행렬의 음영 사각형은 ≥0.98의 확률 점수를 나타낸다. 화살표는 질병 유형 "전립선 선암"을 나타낸다. 전립선에 대한 이 케이스에 대한 확률 합은 115 중 114.3이었다.
추가 세부사항이 그 전체가 참조로서 본 명세서에 포함되는 Abraham J.외Genomic Profiling Similarity, Int'l Patent Publication WO2020146554에서 발견될 수 있다.
결과
소급 검증
머신 러닝 접근 방식을 사용하여 케이스가 15개의 별개의 기관 그룹 중 하나일 확률이 각각의 케이스에 할당되었다. 확률은 GPS 점수로 지칭될 수 있다. 독립적인 검증 세트(도 5a의 503)로 사용된 명확한 진단을 갖는 15,473건의 케이스 중에서 >0.95의 GPS 점수를 갖는 6229 건의 케이스가 있다. 그 중 98.4%가 케이스-할당 결과와 일치했다. 98.4% 일치가 GPS 점수>0.95를 검증하기 위한 허용 기준을 초과했다. 이 기준은 점수>0.95를 제시할 때 95% 이상의 정확도를 보였다. GPS 점수는 기관 그룹에 0의 점수를 할당할 때 매우 높은 성능을 보였다(즉, 해당 기관 그룹에서 나온 종양 샘플의 확률은 GPS에 의해 0으로 결정됨). 케이스와 매칭되지 않는 종양 유형이 0 GPS 점수(12270/12279)를 받은 시간의 백분율은 99.92%였다.
도 5c는 각각의 샘플에 대한 매칭 확률에 대해 플롯팅된 GPS 점수 > 0.95를 갖는 6229건의 케이스에 대한 점수를 보여준다. 최종 상관 계수 0.990은 GPS 점수가 정확도와 높은 상관 관계가 있음을 나타낸다.
GPS 점수의 분석 감도는 (1) 종양 퍼센티지 및 (2) 샘플당 평균 판독 깊이의 두 가지 개별 매개변수와 관련된 성능을 평가하여 결정되었다. 종양 퍼센티지를 평가하기 위해 케이스-할당된 기관 유형에 대한 GPS의 정확도가 결정되었다. 도 5d는 20-49%, 50-80% 및 >80% 종양 함량의 범위로 그룹화된 데이터에 대한 상관 차트를 보여준다. 도면은 GPS 점수가 종양 퍼센티지에 둔감함을 나타낸다. 도 5e는 판독 깊이를 평가하기 위해 사용된 데이터에 대한 상관 차트를 도시한다. 케이스-할당 장기 유형과 관련된 GPS 점수의 정확도는 300-500X와 >500X 사이의 판독 깊이 분류로 결정되었다. 종양 퍼센티지와 마찬가지로, 이 수치는 GPS 점수가 판독 깊이에 둔감함을 나타낸다. 두 케이스 모두, 피어슨 r(Pearson's r)에 따른 상관 계수는 각 데이터 그룹에 대해 98% 이상으로 유지되었다.
우리는 또한 GPS 점수가 전이에 강건하다는 것을 발견했다. 표 131는 원발 부위(N 8,437), 전이 부위(6,690), 낮은 종양 비율(9,492) 및 높은 종양 비율(5,945)의 테스트 데이터 하위 집합에 대한 성능 메트릭을 보여준다.
Figure pct00173
성능이 여러 종양 유형에 걸쳐 유지되었다. 표 132는 원발 종양 부위가 알려진 독립 테스트 데이터세트의 하위 집합의 성능 메트릭 및 집단 크기를 보여준다. FGTP는 여성 생식기 및 복막(female genital tract and peritoneum)을 나타낸다.
Figure pct00174
GPS 점수는 기관 그룹에 0의 점수를 할당할 때 매우 높은 성능을 보였다(즉, 해당 기관 그룹에서 나온 종양 샘플의 확률은 GPS에 의해 0.001 미만으로 결정됨). 평가된 15,473건의 검증 케이스 중 12,279건이 하나 이상의 기관 유형에 대해 0의 GPS 점수를 받았다. 케이스와 매칭되지 않는 종양 유형에 0 GPS 점수(12270/12279)가 부여된 때의 퍼센티지는 99.92%이고, 이는 GPS 0% 점수를 검증하기 위한 허용 기준을 초과했다. 기준은 0점을 제시할 때 정확도가 99.9% 이상이었다. 따라서 0점은 매우 정확했다. 케이스-할당 기관 결과 케이스에 대해 GPS 점수가 0인 케이스는 9건에 불과했다.
표 133은 현재 사용 가능한 다른 방법과 비교하여 15,473개의 독립적인 테스트 세트에 대한 GPS 알고리즘의 성능 메트릭을 보여준다. 표 및 이하의 기재에서, "민감도"는 종양 유형이 있는 종양에 대해 양성 테스트 결과를 얻을 확률이며 따라서 GPS가 종양 유형을 인식할 가능성과 관련이 있으며, "특이도"는 종양 유형 없는 대상에서의 음성 결과의 확률이며 따라서 종양 유형 없이 대상을 인식하는, 즉, 종양 유형을 배제하는 GPS의 능력과 관련되고, PPV(Positive Predictive Value)는 관심 종양 유형에 대한 양성 결과를 갖는 대상에서 관심 종양 유형을 갖는 확률이며, 따라서 PPV는 양성 결과를 갖는 전체 대상 중 양성 테스트 결과를 갖는 환자의 일부분을 나타내며, NPV는 음성 테스트 결과를 갖는 대상에서의 종양 유형을 갖지 않을 확률이고, 따라서 음성 테스트 결과를 갖는 전체 대상에서 음성 테스트 결과를 갖는 종양 유형이 없는 대상의 일부분을 제공하고, 정확도는 텍스트 집단에서 참 양성과 참 음성의 비율을 나타내고, 콜 레이트(call rate)는 GPS가 예측을 제공할 수 있는 샘플의 비율이다.
Figure pct00175
예상 검증
592 NGS 유전자 패널을 사용하여 분자 프로파일링을 위해 들어오는 임상 샘플을 기반으로 GPS 점수 플랫폼에 의해 10,000개의 예상 샘플의 타깃이 평가되었다. 기관 그룹에 대한 GPS 점수는 2,857건의 케이스에 대해 >0.95였다. 그 중, 54건의 케이스는 GPS 점수는 들어오는 사례에 나열된 장기 그룹과 상이하며(즉, 주치의가 나열한 대로) 추가 병리학적 검토를 위해 플래그가 지정되었다. 병리학자는 이 54건의 케이스와 다양한 이유로 병리학자에 의해 요청된 GPS 점수 ≤0.95인 추가 12건의 케이스(0.95에 가까운 점수, 의심스러운 IHC 소견 등)를 검토했다. 병리학 검토에서 GPS 시스템을 통해 얻은 결과가 "합리적"인 것으로 43.9%(29/66) 응답이 있었다. 병리학 검토 결과 11건의 케이스에 대해 주치의가 원래 보고한 것에서 종양 유형이 변경되었다. 이 평가의 결과는 새로운 진단을 뒷받침하는 증거를 제공하기 위해 GPS 점수의 기능을 검증하기 위한 허용 기준을 초과했다. 이 허용 기준은 병리학자가 케이스의 25% 이상에서 정보를 합리적으로 간주하고 정보가 환자 치료에 영향을 미칠 수 있는 진단의 변경을 초래하는지 여부였다. 이러한 경우, 종양 기원의 변화가 이러한 치료에 영향을 미칠 수 있다. 따라서, GPS에 의한 불일치 종양 유형의 자동화된 표시는 상당한 수의 환자의 치료 과정에 긍정적인 영향을 미칠 수 있다.
CUP의 분석
개별 환자 수준에서 CUP 분석의 검증은 "진실"이 알려지지 않을 수 있기 때문에 근본적으로 어렵다. 그러나 모집단 기반 방법은 GPS 분류기의 성능에 대한 더 큰 통찰력을 얻고 일반적으로 성능을 검증하는 데 사용할 수 있다. 이를 달성하기 위해 우리는 알려진 환자 모집단에서 돌연변이의 빈도를 예측된 그룹의 빈도와 비교했다. 예를 들어, 알려진 환자 집단에서 결장암에서 BRAF 돌연변이의 빈도는 10.3%이고 모든 비결장암 환자에서 4.8%이다. 분류자가 결정을 호출한 CUP 케이스에서의 BRAF의 빈도는 10.3%이고 분류자가 비-결장을 호출한 CUP 케이스에서의 빈도는 4.9%이다. 이러한 방식으로 우리는 특정 암 유형으로 분류된 CUP 케이스의 모집단이 각각의 특정 종양 유형의 모집단과 일치함을 보여줄 수 있다. 이러한 방식으로 사용한 마커의 하위 집합이 표 134에 나와 있으며 GPS 예측 CUP 인구와 실제 인구의 유사성을 보여준다. 예측된 CUP 케이스에 대한 빈도와 훈련 세트 간 상관관계를 위한 데이터가, 이론에 구애 받지 않고, 단지 17건의 CUP 케이스만이 뇌로 예측되는 작은 샘플 크기 때문일 수 있기 때문에 뇌암을 제외하고 예측된 모집단이 실제 모집단과 가장 밀접하게 닮음을 보여준다. 이들 데이터는 함께 GPS가 모집단 수준에서 CUP를 종양의 다른 분자 특성과 일치하는 클래스로 분류할 수 있음을 보여준다.
Figure pct00176
* 결합된 훈련 및 테스트 데이터세트의 알려진 종양 유형 중 관찰된 값을 나타낸다.
** 각각의 행의 종양 유형으로 예측되는 CUP 케이스 중 관찰된 값을 나타낸다.
원발 부위 불명 암은 임상의와 환자 모두에게 실질적인 문제로 남아 있으며, 진단은 여기에 제공된 GPS 알고리즘으로 도움을 받을 수 있다. 종양 유형 예측자는 CUP 케이스에 대한 조직학적 진단을 제공하여 치료 정보를 제공하고 잠재적으로 결과를 개선할 수 있다. 종양에 대한 NGS 분석(실시예 1 참조) 및 GPS는 단일 테스트에서 환자 치료 전략을 최적화하는 진단 및 치료 정보를 모두 반환한다. 이 방법은 더 많은 조직을 필요로 하는 여러 테스트의 현재 표준에 비해 상당한 개선을 제공한다.
참조문헌(실시예의 텍스트에서 위 첨자 숫자로 표시됨)
1. Haskell CM외 Metastasis of unknown origin. Curr Probl Cancer. 1988 Jan-Feb;12(1):5-58. Review. PubMed PMID: 3067982.
2. Erlander MG외 Performance and clinical evaluation of the 92-gene real-time PCR assay for tumor classification. J Mol Diagn. 2011 Sep;13(5):493-503.doi: 10.1016/j.jmoldx.2011.04.004. Epub 2011 Jun 25.
3. Varadhachary. New Strategies for Carcinoma of Unknown Primary: the role of tissue of origin molecular profiling. Clin Cancer Res. 2013 Aug 1;19(15):4027-33. DOI: 10.1158/1078-0432.CCR-12-3030
4. Brown RW외 Immunohistochemical identification of tumor markers in metastatic adenocarcinoma: a diagnostic adjunct in the determination of primary site. Am J Clin Pathol 1997, 107:12e19
5. Dennis JL외 Markers of adenocarcinoma characteristic of the site of origin: development of a diagnostic algorithm. Clin Cancer Res 2005, 11:3766e3772
6. Gamble AR외 Use of tumour marker immunoreactivity to identify primary site of metastatic cancer. BMJ 1993, 306:295e298
7. Park SY외 Panels of immunohistochemical markers help determine primary sites of metastatic adenocarcinoma. Arch Pathol Lab Med 2007, 131:1561e1567
8. DeYoung BR, Wick MR. Immunohistologic evaluation of metastatic carcinomas of unknown origin: an algorithmic approach. Semin Diagn Pathol 2000, 17:184e193
9. Anderson GG, Weiss LM. Determining tissue of origin for metastatic cancers: meta-analysis and literature review of immunohistochemistry performance. Appl Immunohistochem Mol Morphol 2010, 18:3e8
10. Erlander MG외 Performance and clinical evaluation of the 92-gene real-time PCR assay for tumor classification. J Mol Diagn 2011, 13:493e503
11. Pillai R외 Validation and reproducibility of a microarray-based gene expression test for tumor identification in formalin-fixed, paraffin-embedded specimens. J Mol Diagn 2011, 13:48e56
12. Rosenwald S외 Validation of a microRNA-based qRT-PCR test for accurate identification of tumor tissue origin. Mod Pathol 2010, 23:814e823
13. Kerr SE외 Multisite validation study to determine performance characteristics of a 92-gene molecular cancer classifier. Clin Cancer Res 2012, 18:3952e3960
14. Kucab JE외 A Compendium of Mutational Signatures of Environmental Agents. Cell. 2019 May 2;177(4):821-836.e16.doi: 10.1016/j.cell.2019.03.001. Epub 2019 Apr 11. PubMed PMID: 30982602; PubMed Central PMCID: PMC6506336.
15. Hainsworth JD, et al, Molecular gene expression profiling to predict the tissue of origin and direct site-specific therapy in patients with carcinoma of unknown primary site: a prospective trial of the Sarah Cannon research institute. J Clin Oncol.2013 Jan 10;31(2):217-23.doi: 10.1200/JCO.2012.43.3755. Epub 2012 Oct 1.
16. Ross JS외 Comprehensive Genomic Profiling of Carcinoma of Unknown Primary Site New Routes to Targeted Therapies. JAMA Oncol.2015;1(1):40-49.doi:10.1001/jamaoncol.2014.216
실시예 3: 종양 속성을 정확하게 예측하기 위해 게놈 및 전사체 프로파일을 이용하는 머신 러닝 분석
본 개시내용은 게놈 DNA의 분석(예를 들어, 실시예 2 참조) 및 전사체의 분석을 기반으로 하는 종양 샘플의 기원 또는 TOO(기원 조직) 및 관련 속성을 예측하기 위한 머신 러닝 기반 분류기를 제공한다. 예를 들어, 도 4a, 표 117-120 및 첨부된 설명을 참조할 수 있다. 본 명세서에 언급된 바와 같이, DNA 및 RNA는 각각 생물학적 분석물로서 장점과 단점을 가진다. 이론에 얽매이지 않고, 우리는 게놈 DNA 분석과 RNA 전사체 분석의 조합이 최적의 결과를 제공할 수 있다고 가정했다. 고급 머신 러닝 분석은 각 분석 물질의 장점을 활용하면서 약점을 줄일 수 있다. 우리는 이 결합된 분류기를 "파노믹(panomic)" 예측기라고 지칭했다. 이 예는 이 예에서 "MI GPSai"라고 지칭될 수 있는 이 파노믹 분류기를 자세히 설명한다.
원발 부위 불명 암(CUP)은 표준 조직학적 진단 검사로 전이성 암의 기원을 결정할 수 없을 때 환자의 3-5%에서 발생한다. 일반적으로 CUP 진단은 경험적으로 치료되며 전체 생존 중앙값이 1년 미만으로 좋지 않은 결과를 보인다. 유전자 발현 프로파일링만으로도 기원 조직(TOO)을 식별하는 데 사용되었지만 식별이 가장 필요한 전이 부위에서 낮은 신생물 비율로 어려움을 겪고 있다. 이 예는 암 진단을 돕기 위해 머신 러닝과 결합된 DNA 시퀀싱 및 전체 전사체 데이터를 사용하는 "게놈 유병률 점수(Genomic Prevalence Score)" 또는 "GPS"를 제공한다. GPS를 구현한 시스템인 "MI GPSai"는 34,352건의 게놈 데이터와 23,137건의 게놈 및 전사체 데이터에 대해 훈련을 받았으며 19,555건에 대해 검증되었다. MI GPSai는 다음의 21가지 가능함 암 카테고리를 제정하면서 케이스의 94% 이상 93%의 정확도를 갖고 라벨링된 데이터 세트에서 종양 유형을 예측했다: 유방 선암종, 중추신경계 암, 자궁경부 선암종, 담관암, 결장 선암종, 위식도 선암종, 위장관기질종양(GIST), 간세포 암종, 폐 선암종, 흑색종, 수막종, 난소 과립막 세포 종양, 난소 및 나팔관 선암종, 췌장 선암종, 전립선 선암종, 신세포 암종, 편평세포암종, 갑상선암, 요로상피 암종, 자궁내막 선암종, 및 자궁 육종. 두 번째로 높은 예측까지 고려하면 정확도가 97%로 증가했다. 또한 MI GPSai는 CUP 케이스의 71.7%를 예측했습니다. 제출된 진단과 MI GPSai 예측 간의 불일치에 대한 병리학자 평가는 41.3%의 시간에서 진단의 변경을 초래했다. MI GPSai는 많은 CUP 케이스에서 임상적으로 의미 있는 정보를 제공하며 MI GPSai를 임상 루틴에 포함하면 진단 충실도가 향상될 수 있다. 또한, 치료 선택에 필수적인 모든 게놈 마커가 이 분석에서 평가되어, 단일 테스트 내에서 환자의 임상 유용성을 극대화한다.
소개
원발 부위 불명암(CUP: Carcinoma of Unknown Primary)은 광범위한 임상 및 병리학적 평가에도 불구하고 원발성 종양이 파악되지 않은 채 남아 있는, 임상적으로 해결하기 어려운 전이성 악성의 이종 그룹을 나타낸다. CUP는 전 세계 암 진단의 약 3~5%를 차지하며[1] 확실한 진단을 내리려는 노력은 진단 과정을 연장하고 치료 시작을 지연시킬 수 있다. 또한, CUP 종양이 추정되는 원발성 악성 종양의 생물학적 특성을 유지한다는 데 일반적으로 동의하기 때문에 CUP는 차선의 치료 중재의 사용으로 적어도 부분적으로 설명될 수 있는 좋지 않은 결과와 관련이 있다[1], [2]. 면역조직화학(IHC) 검사는 특히 저분화 또는 미분화 종양의 경우 종양 기원 부위를 진단하기 위한 황금 표준 방법으로 오랫동안 사용되어 왔다. 까다로운 케이스에서 IHC의 정확도를 평가하는 연구의 메타 분석은 전이성 종양의 특성화에서 60-70%의 정확도를 보고했다[3], [4], [5], [6]. 치료 요법은 진단에 따라 달라질 수 있으므로 CUP의 개선된 진단이 필요하다. 이러한 문제를 해결하기 위해 차등 유전자 발현 평가를 기반으로 하는 TOO(Tissue-of-Origin) 식별을 목표로 하는 분석이 개발되어 임상적으로 테스트되었다. 그러나, 이러한 분석을 임상에 포함시키는 것은 비교적 형편없는 성능 특성, 가령, 높은 분석률, 가령, 100%와 조합된 낮은 정확도 가령, < 90% 또는 낮은 분석률, 가령, < 90%와 조합된 높은 정확도, 가령, <~90% 및 제한된 샘플 가용성으로 인해 방해를 받는다. 표 135를 참조할 수 있다. 그럼에도, 초기 임상 연구는 분석[8]에 의해 예측된 종양 유형에 치료를 일치시키는 것이 가능한 이점을 보여준다. 포괄적인 분자 프로파일링 분석, 특히 차세대 DNA 시퀀싱의 가용성이 증가함에 따라 게놈 기능이 CUP 치료 전략에 통합되었다[9]. 이 접근법이 TOO의 명확한 식별을 위한 만병통치약은 아니지만 일부 환자에서 표적 가능한 분자 변경이 나타난다[9].
Figure pct00177
앞서 설명되고 이 실시예에서 더 자세히 설명했듯이, 우리는 둘 모두 루틴 분자 종양 프로파일링을 위해 광범위하게 사용되는 대규모 차세대 DNA 시퀀싱 패널의 데이터와 전장 전사체 시퀀싱의 데이터를 기반으로 머신 러닝 접근 방식을 사용하여 TOO 분류기를 구축했다. 예를 들어, 실시예 1을 참조할 수 있다. 이 파노믹 계산 분류 시스템은 현재 사용 가능한 다른 기술의 정확도를 훨씬 능가하는 정확도로 TOO를 식별했다. 표 135를 참조할 수 있다. 또한, 이 분석은 치료 선택을 안내하는 유전적 이상의 존재를 동시에 결정하므로 단일 테스트에서 상당한 임상적 유용성을 생성한다.
방법
차세대 시퀀싱(NGS) - DNA
게놈 DNA는 종양 순도를 풍부하게 하기 위해 미세 해부된 포르말린 고정 파라핀 포매(FFPE) 종양 샘플에서 분리되었다. FFPE 표본은 퍼센트 종양 함량 및 종양 크기를 측정하기 위해 병리학적 검토를 받았고, 미세 해부 영역에서 종양 함량의 최소 20%는 종양 특이적 DNA의 농축 및 추출을 가능하게 하는 임계값으로 설정되었다. 일치되는 정상 조직은 일상적으로 시퀀싱되지 않았다. 맞춤 설계된 SureSelect XT 분석은 592개 또는 전장 엑솜 전장 유전자 표적을 강화하는 데 사용되었다(Agilent Technologies, Santa Clara, CA). 자세한 내용은 실시예 1을 참조할 수 있다. 농축된 DNA는 NextSeq 플랫폼(Illumina, Inc., San Diego, CA)을 사용하여 NGS에 적용되었다. 모든 변이체는 대립유전자 빈도 및 프로브 패널 범위를 기반으로 > 99% 신뢰도로 검출되었으며, 평균 시퀀싱 범위는 > 500이고 분석 감도는 5%이다. 식별된 유전자 변이는 위원회 인증을 받은 분자 유전학자에 의해 해석되었으며 ACMG(American College of Medical Genetics 및 Genomics) 표준에 따라, '병원성', '병원성으로 추정', '의미 불명 변종', '양성으로 추정' 또는 '양성'으로 분류되었다. 개별 유전자의 돌연변이 빈도를 평가할 때, '병원성', '병원성으로 추정' 및 '유의성 불명 변이'는 돌연변이로 계산하고 '양성' 및 '양성으로 추정' 변이는 배제되었다. 복제 수 변경(CNA; 본 명세서에서 일반적으로 복제 수 변이(CNV)이라고도 함)은 게놈 유전자좌의 염기서열 분석 깊이와 게놈 유전자좌의 알려진 성능을 이배체 대조군과 비교함으로써 NGS에 의해 동시에 결정되었다. 6 복제수 이상의 계산된 이득은 증폭된 것으로 간주되었다.
차세대 시퀀싱 (NGS) - RNA
FFPE 표본은 종양 특이적 RNA의 농축 및 추출 전에 위에서 설명한 대로 미세 해부되었다. 추출에는 Qiagen RNA FFPE 조직 추출 키트(Qiagen LLC, Germantown, MD)가 사용되었으며 RNA 품질과 양은 Agilent TapeStation을 사용하여 결정되었다. Biotinylated RNA 미끼는 합성 및 정제된 cDNA 표적에 혼성화되었으며 미끼-표적 복합체는 포획 후 PCR 반응에서 증폭되었다. Illumina NovaSeq 6500을 사용하여 환자의 전장 전사체를 평균 60M 읽기까지 시퀀싱했다. 원시 데이터는 Illumina Dragen BioIT 가속기로 역다중화되고, 트리밍되고, 계산되고, PCR 중복이 제거되고 STAR 정렬기에 의해 인간 참조 게놈 hg19에 정렬되었다[14]. 전사 카운팅을 위해 연어 발현 파이프라인을 사용하여 분자 백만 당 전사물을 생성했다[15].
RNA 발현
전장 전사체 시퀀싱 분석(WTS; 실시예 1 참조)을 사용하여 연어 RNA 발현 파이프라인[15]의 백만 분의 전사체(transcript per million, TPM)로 정의된 RNA 발현은 5000건 이상의 인간 유방 선암종 사례의 IHC 결과를 사용하여 검증되었다. 단백질 양은 표준 정량적 IHC 분석을 사용하여 FDA 승인 항체에 의해 측정되었다. IHC 점수는 ER/ESR1(인간 에스트로겐 수용체), PR/PGR(인간 프로게스테론 수용체), AR(인간 안드로겐 수용체) 및 HER2/neu/ERBB2(인간 허셉틴, 수용체 티로신 키나제 CD340)에 대한 위원회 인증 병리학자의 조직병리학 검토에서 직접 제공되었다. 50개의 IHC '양성' 및 50개의 IHC '음성' 케이스를 사용하여 이들 4개 유전자에 대한 IHC 양성 및 IHC 음성에 해당하는 TPM 임계값을 결정했다. 임계값은 5197개의 독립적인 케이스에서 평가되었으며 4개의 마커 모두 85%에서 99% 범위의 특이도와 함께 > 86%의 민감도를 보였다. 검증 결과는 표 136 및 도 6a-d에 나타나 있으며, 이들은 표시된 바이오마커에 대한 WTS 발현으로부터 IHC 결과를 계산하기 위한 ROC 곡선을 보여준다.
Figure pct00178
또한 Illumina DASL Expression Microarray에 대한 WTS 발현 분석과 expO 프로젝트(Gene Expression Omnibus accession GSE2109)에서 공개적으로 사용 가능한 Affymetrix U133A 발현 어레이 간의 데이터를 교차 플랫폼 비교 방법으로 비교했다[33]. 우리는 진단된 IV기 자궁암종과 IV기 결장 선암종으로 진단된 10개의 케이스에서 각 데이터 세트에서 10개의 케이스를 선택했다. 우리는 이 세 가지 플랫폼에서 공통적인 14,473개의 유전자를 확인했다. 이들 케이스는 상이한 사람들로부터의 케이스지만 이론에 얽매이지 않고 우리는 과다 발현 및 과소 발현의 일반적인 패턴이 충분히 검출될 정도로 자궁 종양과 결장 종양의 유전자 발현 프로파일이 서로 충분히 상이하고 종양 유형 내에서 충분히 공통적이라고 가설을 세웠다. 이를 시각화하기 위해, 우리는 자궁(분자)과 결장(분모) 암 사이의 14,473개 유전자의 log2 비율을 취하여 비율을 플로팅했다. 도 6e-g는 R2에 대한 서로 플로팅된 비를 나타내며, 도 6e(WTS (X 축) 및 Illumina (Y 축)), 도 9f (Illumina (X 축) 및 Affymetrix (Y 축)) 및 도 9g (WTS (X 축) 및 Affymetrix (Y 축))이 도시되어 있다. 발현 데이터는 10명의 환자에 대해 평균을 냈다. 각각에 대한 피어슨 상관 계수는 각각 0.68, 0.75 및 0.73이다.
결과
환자
이 실시예의 환자를 식별하기 위해 실시예 1에 설명된 대로 2008년부터 2020년까지 분석된 200,000개 이상의 샘플 데이터베이스를 사용했다. 우리는 CUP를 포함한 사용 가능한 병리 진단으로 차세대 DNA 및 RNA 시퀀싱 결과를 가진 77,044개의 케이스를 식별했다. CUP 케이스는 "원발 부위 불명"의 원발성 종양 부위가 할당되고 제출 부위에 의해 "원발 부위 불명 암" 계통이 선택된 것으로 정의되었다. 제출된 병리학적 진단이 훈련 라벨로 사용됐다. 분류기의 후속적인 독립적인 검증은 원발 부위가 알려진 13,661건의 케이스와 일상적인 종양 프로파일링의 일부로 전향적으로 분석된 1,107건의 CUP 케이스를 포함하여 수행되었다. CONSORT 다이어그램(600)(www.consort-statement.org/consort-statement/flow-diagram)을 보여주는 도 6h를 참조할 수 있다. MI GPSai의 DNA 및 RNA 구성요소는 결합된 57,489명의 환자(601 + 602)를 사용하여 훈련(603)되었으며, 그 후 고정되고(604), 4,602건의 비-CUP에 대해 검증되고(605) 185건의 CUP 환자에 대해 검증(606)되어, 최정 성능 설정을 결정할 수 있었다. 이 평가에 따라 MI GPSai는 일상적으로 프로파일링된 케이스에 대한 예측을 제공하여 최종 예상 검증 세트(608) 및 CUP 케이스(609)를 생성했다.
인공 지능 훈련
57,489명의 환자로부터 얻은 분자 프로파일은 MI GPSai로 지정된 글로벌 종양 분류 알고리즘의 초기 훈련에 사용되었다. 이 파노믹 데이터세트는 게놈 데이터(도 6h의 601)가 있는 34,352건의 케이스와 게놈 및 전사체 데이터(도 6h의 602)가 있는 23,137건의 케이스로 구성되었다. MI GPSai는 본 명세서에 기재된 "심의 분석"(DEAN) 프레임워크를 활용하는 인공 지능 플랫폼을 사용하여 생성되었다. DEAN은 바이오마커 데이터를 랜덤 포레스트, 서포트 벡터 머신, 로지스틱 회귀, K-최근접 이웃, 인공 신경망, 나이브 베이즈, 2차 판별 분석 및 가우스 프로세스 모델을 포함한 300개 이상의 잘 정립된 머신 러닝 알고리즘 앙상블에 대한 기능 입력으로 사용했다. 여러 기능 선택 방법을 사용하여 성능을 평가하기 위해 훈련하는 동안 5중 교차 검증과 함께 모델을 구축했다. 고성능 모델은 최종 결과를 결정하기 위해 서로에 대해 숙고되었다. DNA의 경우, 115개의 구별되는 원발성 종양 부위 및 조직학 클래스의 세트가 정의되어 환자의 하위 집단을 생성하는 데 사용되었다. GPS 훈련을 위해, 115개 질병 유형 모두가 훈련 세트를 사용하여 서로에 대해 훈련되어 6,555개 모델 시그니처를 생성했고, 여기서, 각각의 시그니처가 질병 유형의 쌍을 구별하도록 구축된다. 시그니처는 구배 부스팅된 포레스트(Gradient Boosted Forest)를 사용하여 생성되었다. 6,555개의 모든 시그니처를 통해 각각의 테스트 케이스를 개별적으로 처리한 테스트 케이스를 사용하여 모델이 검증됨으로써 모든 케이스에 대한 모든 질병 유형 간의 쌍별 분석을 제공한다. 결과는 각각의 열과 각각의 행이 단일 질병 유형이고 교차점에 있는 셀이 케이스가 하나 또는 다른 질병 유형일 확률인 115 x 115 행렬에서 분석된다. 각각의 질병 유형에 대한 확률은 각각의 열에 대해 합산되어 해당 확률 합계와 함께 115개의 질병 유형을 도출한다. 이들 질병 유형은 확률 합계에 따라 순위가 매겨진다. 자세한 내용은 실시예 2 및 표 2-116 및 관련 논의를 참조할 수 있다. RNA의 경우, 암 유형, 장기 군 및 조직학을 별도로 결정하기 위해 RNA 전사체를 선택하여 구배 부스팅 포레스트가 훈련됐다. 추가 세부사항은 도 4a-b, 표 117-120 및 관련 설명을 참조할 수 있다.
도 4b에 설명된 방식이 사용되어 최종 예측을 획득할 수 있다. 앞서 설명한 115Х115 매트릭스는 DNA(416)를 평가하기 위한 중간 모델로 사용되며, 암 유형(412), 장기 군(413) 및 조직학(414)을 평가하기 위한 중간 모델을 구축하기 위해 표 117의 전사체에 구배 부스트 포레스트가 적용됐다. 구배 부스트 포레스트는 결과(415)를 동적으로 결합하기 위해 중간 모델의 출력에 적용되었다. 이 접근 방식을 이용해, 총 6,559 모델이 생성 및 사용되어 최종적인 원하는 암 카테고리 각각에 속하는 각각의 케이스에 대한 최종 확률(MI GPS 점수라고 명명됨)을 결정할 수 있다. 이들 MI GPS 점수는 각각의 암 카테고리에서 예측된 유병률을 결정하기 위해 분자 프로파일링 데이터베이스에서 경험적으로 평가된 다차원 시그니처로 클러스터링되었다. 유병률은 MI GPSai 머신 러닝 플랫폼(417)의 최종 출력이다. 원하는 암 카테고리는 까다로운 케이스에서 치료 선택을 지원하는 임상적으로 관련된 범주에 대해 가장 높은 예측력을 달성하기 위해 선택된 21개의 광범위한 암 범주로 구성되었다. 이들 21개의 암 카테고리는 유방 선암종, 중추신경계 암, 자궁경부 선암종, 담관암, 결장 선암종, 위식도 선암종, 위장관기질종양(GIST), 간세포 암종, 폐 선암종, 흑색종, 수막종, 난소 과립막 세포 종양, 난소 및 나팔관 선암종, 췌장 선암종, 전립선 선암종, 신세포 암종, 편평세포암종, 갑상선암, 요로상피 암종, 자궁내막 선암종, 및 자궁 육종을 포함한다.
21개의 암 카테고리 각각에 대해 만들어진 예측에 가장 많은 양의 정보를 제공하는 상위 DNA 및 RNA 특징이 도 6i-6ac에 나타나 있다. 각각의 도면에서, 가장 왼쪽에 있는 10개의 바이오마커가 DNA 분석을 기반으로 한 최고 기여자이고 가장 오른쪽에 있는 10개의 바이오마커는 RNA 분석을 기반으로 한 최고 기여자이다. 일부 경우에, 예를 들어, 도 6i의 유방 암종에서의 GATA3, 동일한 유전자가 DNA와 RNA 모두에 의해 최고 기여자로 식별되었다. 이론에 얽매이지 않고, DNA 결과의 대부분은 복제수 변경이고(가령, 표 2-116 참조), 복제수는 전사체 수준에 직접적인 영향을 미칠 수 있다.
이론에 얽매이지 않고, 도 6i-6ac의 바이오마커에 관해 여러 관찰이 이루어질 수 있다. 예를 들어, 다양한 표준 드라이버 돌연변이가 가장 많이 기여하는 바이오마커에서 발견된다. 예를 들어 신경교종에 대한 IDH1 및 EGFR, 위장관기질종양(GIST)에서 cKIT/PDGFRA, 흑색종에서 BRAF/NRAS, 췌장암에서 KRAS/CDKN2A, 유방암에서 GATA3 및 CDH1, 신세포 암종에서 VHL, 갑상선에서 BRAF, 자궁내막암에서 PTEN, 난소과립막세포종양에서는 FOXL2가 있다[16], [17], [18], [19], [20], [21]. 조직 계통에 상대적으로 특이적인 유전자의 발현은 위식도암에서 CDX2, GIST에서 KIT, 흑색종에서 MITF 및 전립선암에서 NKX3-1과 같이 상위 기여자 중 하나이다[22], [23], [24], [25]. 이론에 얽매이지 않고, 도면의 마커는 TOO를 구별하는 데 가장 유용했으며 이러한 목록에서 발견되었으며 BRCA1과 같은 표준 암 마커는 여러 암 카테고리에서 찾을 수 있으므로 머신 러닝에 대한 상위 10위 안에 들지 않는다. 특정 암 유형과 명시적으로 연관되지 않은 추가 바이오마커도 알고리즘에 포함되어 이전에 밝혀지지 않은 바이오마커 및 경로와의 연관성을 드러낸다. 머신 러닝 구성 및 입력에 대한 추가 세부 정보는 여기에 설명되어 있다[26].
독립적인 코호트에서 알고리즘 질병 분류 검증
알고리즘의 고정 이후(도 6h의 604) MI GPSai 플랫폼에 의한 예측은 암 범주가 알려진 4,602명의 환자(도 6h의 605)와 185명의 CUP 환자(도 6h의 606)의 세트에서 먼저 검증되었다. MI GPSai는 통화 신뢰도와 관련된 점수와 함께 각 사례에 대한 최고 예측을 제공했다. 점수와 상관없이 코호트의 모든 케이스에 대한 MI GPSai 상위 예측을 평가할 때 상위 예측은 케이스의 90.3%에서 병리학자가 지정한 질병 유형과 일치했다. 이 데이터세트의 점수의 평가에 의해 우리는 상위 예측의 정확도와 분석률(도출된 케이스의 퍼센티지)의 교점이었기 때문에 결과를 보고하기 위한 최소 점수로서 0.835의 임계값을 선택했고, 이는 정의된 원발부위를 갖는 케이스의 93.3% 및 CUP 케이스의 75.6%에서 93.3% 정확도를 도출했다. 독립적인 검증 세트에서 이 임계값의 선택을 보여주는 도 6ad를 보여준다. x축은 MI GPSai 점수 이상인 모든 케이스를 나타낸다. 비-CUP 케이스에서(N=4,602), 예측자는 선택된 임계값 0.835에서 케이스의 93.3%에 대해 93.3%의 민감도를 보여주며 상위 별표로 주석이 달렸다. CUP 케이스(N=185)에서, 케이스의 75.6%가 선택한 임계값을 초과했으며 아래 별표로 주석이 달렸다. 이 임계값에서 분석은 원발성 및 전이성 종양뿐만 아니라 다양한 범위의 종양 순도 내에서 강력했다. 예를 들어, 표 137을 참조할 수 있다.
Figure pct00179
예상 검증
후속적으로, 분석은 분자 프로파일링이 수행된 각각의 환자의 종양을 전향적으로 평가하기 위해 임상 시험에 사용되었다(도 6h의 607). 분석 결과 암 카테고리에 대해 >= 0.835의 MI GPSai 점수가 반환된 경우 병리학자에게 MI GPSai 점수 및 경험적 유병률 표를 통보했다. 13,661명의 비-CUP 환자의 종양을 전향적 검증 코호트로 알고리즘에 의해 평가했다. 민감도가 "Sens"로 약칭되는 표 138을 참조할 수 있다. 전체적으로 이 코호트는 초기 독립 검증 코호트(93.0% 대 93.3%)와 유사한 분석률을 보였고 더 높은 민감도(94.7% 대 93.3%)를 나타냈다. 분석의 민감도는 종양 순도에 관계없이 원발성 및 전이성 종양 모두에서 93% 이상으로 유지되었다(표 138).
Figure pct00180
이 전향적 데이터 세트를 통해 우리는 분석의 진단 제외력(즉, 음성 예측 값)을 평가할 수 있었다. 모든 환자에 대해 경험적 유병률 표는 각각의 MI GPSai 점수에 대해 환자당 관찰되지 않은(즉, 제외될 수 있는) 평균 17.6개의 암 카테고리를 산출했다. 올바른 암 카테고리는 모든 케이스의 98.9%에서 0이 아닌 경험적 확률을 가졌고, 실제 암 범주가 잘못 제외된 관찰의 1.1%는 제외된 전체 질병 유형의 0.1% 미만을 나타낸다. 따라서 제외 정확도는 99.9%를 초과한다.
21개의 암 범주 각각은 실제 종양 유형 및 가장 높은 예측과 관련하여 전향적 검증 데이터 세트에 표시되었다. 표 139를 참조할 수 있다. 21개 암 카테고리 중 16개는 관찰된 양성 예측 값(PPV)이 >= 90%이고 3개는 PPV가 >= 99%였다. 최소 제외 정확도는 98.0%였다. 5가지 암 카테고리(가령, 중추신경계 암, GIST, 흑색종, 수막종 및 전립선)는 각각 >99%의 민감도를 나타냈고 12개(가령, 유방암, 결장암, 위식도암, 간세포암, 폐 암, 두 가지 서브유형의 난소암, 췌장암, 신장암, 편평상피암, 자궁 선암종 및 자궁 육종)가 > 90% 민감도를 달성했다.
Figure pct00181
Figure pct00182
도 ae 및 af는 각각 암 카테고리에 대한 예측 및 진실에 대한 혼합 행렬을 보여준다. 도 ae는 전향적 검증 세트에서의 예측 행렬을 보여준다. 각각의 행은 MI GPSai가 > 0.835의 점수를 달성할 때 관찰된 실제 질병 유형의 퍼센티지를 보여준다. 대각선은 주어진 질병 유형에 대한 PPV를 나타낸다. 빈 셀은 0과 1 사이의 값을 가진다. 도 ae는 전향적 검증 세트의 혼합 행렬을 보여준다. 각각의 열은 MI GPSai가 > 0.835의 점수를 달성할 때 각각의 질병 유형에 대해 관찰된 예측을 보여준다. 대각선은 주어진 질병 유형에 대한 민감도를 나타낸다. 빈 셀은 0과 1 사이의 값을 가진다.
CUP의 분석
MI GPSai에서 분석한 1292개의 CUP 케이스 중, 71.7%가 보고 가능한 임계값을 초과하는 점수를 달성했다. CUP 케이스에서 MI GPSai 예측의 분포를 보여주는 도 6ag를 참조할 수 있다. 도면의 상단 패널은 점수 분포를 보여주며 케이스 중 71.7%가 보고 가능한 결과를 반환하고 하단 패널은 예측을 나타낸다. 개별 환자 수준에서 CUP 분석의 검증은 "진실"이 알려지지 않았기 때문에 근본적으로 불확실하다. 따라서, 돌연변이 빈도 측면에서 각각의 암 카테고리에 대한 MI GPSai에 의해 생성된 모집단을 원발 부위가 알려진 모집단에서 돌연변이 빈도에 비교함으로써 이들 모집단의 유사성의 통찰이 발생한다. MI GPSai에 의해 생성된 모집단의 빈도와 함께 다른 암 카테고리와 중복되지 않는 95% 신뢰 구간의 돌연변이 빈도를 갖는 유전자를 표 140에서 볼 수 있다. 표에서, "*"는 결합된 훈련 및 테스트 데이터 세트의 알려진 암 카테고리 중 관측된 값을 나타내며 "**"는 각각의 행의 암 카테고리로 예측되는 CUP 케이스 중 관찰된 값을 나타낸다. 병원성 돌연변이 빈도의 다수는 표지 및 CUP 예측 집단에서 유사했지만 전부는 아니다. 특히, 신세포 암종으로 분류된 18개의 CUP 케이스에서 VHL 병원성 돌연변이가 관찰되지 않았다. 이는 잠재적으로 CUP에서 투명 세포 암종의 비율이 낮기 때문일 수 있다[27].
Figure pct00183
Figure pct00184
임상적 유용성 및 사례
비제한적인 실제 사례에서, 우리는 분자 프로파일링을 위해 보내진 82세 남성의 사타구니 림프절 생검을 받았습니다(실시예 1 참조). 생검 당시, 혈청 PSA는 상승하지 않았고 정밀검사에서도 원발성 종양이 확인되지 않았다. 의뢰 병리학자의 평가에는 CK7, CK20, PSA, PSAP, CDX2, p40, GATA3, SOX10, 및 CD45에 대한 음성 IHC 염색이 포함되었다. 사이토케라틴 염색은 양성(AE1/3)이었고 케이스는 원발 부위 불명 암종으로 진단되었다. 특히, 이 암종은 PSA 및 PSAP IHC와 함께 전립선 혈통에 대해 적절하게 평가되었으며, 동시에 낮은 혈청 PSA를 감안할 때 전립선 선암종은 제외된 것으로 간주되었다.
MI GPSai는 샘플이 전립선 선암종일 확률이 높을 것으로 예측했으며(MI GPSai 점수 0.9998), 유전자 발현 데이터를 검토한 결과 안드로겐 수용체(AR)의 높은 발현이 나타났다. AR 단백질의 IHC가 수행되었고 AR이 높게 발현되어 MI GPSai 호출을 지원하는 것으로 나타났다. 환자는 전립선 선암종을 확인하는 전립선의 추적 생검을 받았다. 주치의와 상의한 후 진단은 CUP에서 전이성 전립선 선암종으로 변경되었다. 중요하게도, 환자의 분자 프로파일링은 BRCA2 및 PTEN에서 병원성 변이체도 식별하여 동일한 플랫폼에서 진단 및 바이오마커 분석의 유용성을 강조했다.
MI GPSai는 혈통을 할당하고 CUP 사례와 함께 바이오마커 데이터를 식별하는 것 외에도 병리학적 진단 충실도를 지원할 수 있다. 우리는 1292건에서 MI GPSai와 병리학자가 지정한 진단 사이의 불일치를 전향적으로 모니터링했다. 병리학자가 지정한 진단이 상위 MI GPSai 예측과 다르고 상위 예측에 대한 MI GPSai 점수가 0.999를 초과하는 경우 이러한 불일치를 경고하는 자동 이메일이 사례를 담당하는 병리학자에게 전송되었다. 병리학 그룹은 이전에 MI GPSai의 설계 및 성능에 대해 교육을 받았으며 불일치 사례를 의학적 판단으로 고려하도록 지시했다. 병리학자는 환자의 임상 병력, 가능한 경우 영상 결과를 검토하고, 면역조직화학을 주문하고, 의뢰한 종양 전문의 및/또는 병리학자와 케이스를 논의할 수 있었다.
병리학자에게 경고를 보낸 MI GPSai 점수가 0.999보다 큰 46건이 있었다. 추가 면역조직화학검사 및 담당의사와 상의한 결과 19 케이스(41.3%)에서 진단이 변경되었다. MI GPSai 예측에도 불구하고 제출된 진단이 변경되지 않은 11 케이스(23.9%)의 경우 예측 진단은 확인을 위한 특정 IHC 마커가 제한된 암인 췌장 선암종이었다. 모든 케이스는 예측을 검증하기 위한 진단 IHC의 부족(담관암 대 췌장 암종과 같은)에서 종양 전문의의 반응 부족에 이르기까지 다양한 이유로 진단 수정으로 이어지지 않았다.
한 가지 비제한적인 실제 사례에서 환자의 치료 과정은 MI GPSai를 기반으로 변경되었습니다. 도 6ah-al을 참조할 수 있다. 분자 프로파일링을 위해 61세 남성으로부터 경부 림프절을 받았다. 의뢰 병리학자는 저분화 편평 세포 암종의 진단을 할당했다(도 6ah). 환자는 전신 전이가 있었고 편평 세포 암종 지시 요법에 잘 반응하지 않았다. MI GPSai 예측 진단은 요로상피암이었다(MI GPSai 점수 0.9999). 우리의 전장 전사체 발현 데이터는 계통 할당을 위한 현재의 금 표준인 면역조직화학적 항체 선택을 안내하기 위해 계통 특이적 유전자 발현을 선택하는 데 사용되었다. 우리 데이터베이스의 요로상피암 사례의 Uroplakin II 및 GATA3의 평균 RNA 발현은 수많은 암에 걸친 WTS 데이터를 기반으로 상대적으로 높으며, 둘 다 요로상피암에 대해 비교적 특이적이고 편평 세포 암종에서는 일반적으로 발현되지 않았다. 도 6ai 및 9aj를 각각 참조할 수 있다. 따라서 환자 샘플은 이러한 단백질에 대한 항체로 조사되었다. 이 추가 IHC는 Uroplakin II 및 GATA3에 대해 양성이었다. 도 6ak 및 9al을 각각 참조할 수 있다. 중요한 것은, PD-L1 클론과 점수 시스템의 선택이 테스트 중인 암의 계보에 영향을 받았다는 것이다. 이 경우 의뢰한 병리학자이자 종양 전문의는 진단을 요로상피암으로 변경하고 아테졸리주맙의 라벨 표시에 따라 SP142 PD-L1 항체를 실행하도록 요청했다. 이 PD-L1 점수는 양성이었고 환자 요법이 변경되었다. 이들 비제한적인 실제 환자 케이스는 MI GPSai가 CUP 및 진단 충실도 모두에서 상당한 임상적 유용성을 가지고 있음을 보여준다.
논의
원발 부위 불명 암은 주요 임상 과제로 남아 있으며 결과는 좋지 않다. 종양 기원의 분자 예측자는 CUP 케이스에서 치료 결정을 알리고 잠재적으로 결과를 개선할 수 있는 중요한 정보를 제공함으로써 이 문제를 해결하는 데 도움이 될 수 있다. 여기에서 우리는 DNA 및 RNA 정보를 사용하여 광범위한 진단 클래스에 걸쳐 높은 정확도로 종양 유형을 예측하는 인공 지능 기반 파노믹 분자 분류기를 제공한다.
원발 부위 불명 암을 식별하기 위한 이전의 분자 분석은 종양이 전이 부위에서 유래하거나 종양 비율이 낮은 상황에서 성능이 저하되는 RNA 프로파일에 초점을 맞추었다[7]. 우리의 방법은 이러한 제한 사항에 강건하다. 이론에 얽매이지 않고 최소한 부분적으로는 미세 해부된 물질에서 핵산을 분리하여 종양 세포를 풍부하게 하고 DNA와 RNA의 결합 분석을 사용하여 정상 세포 오염의 영향에 대한 감수성을 더욱 감소시키기 때문이다. 위의 케이스 예에서 입증된 바와 같이, 돌연변이 및 유전자 발현 분석 데이터의 가용성은 진단 및 치료 관점에서 우리 접근 방식의 임상적 유용성을 더욱 향상시킨다.
MI GPSai의 정확도는 최근 보고된 DNA NGS 패널의 기원 조직 식별 또는 표적 및 면역 요법의 활용 안내를 능가한다[10], [28]. 또한, 이러한 접근 방식의 전체 정확도가 제한될 수 있다. 예를 들어, 468개 유전자 NGS 패널의 결과를 입력으로 사용하여 랜덤 포레스트 분류자에서 예측한 결과 전체 정확도는 74.1%였다[10]. 상업용 70-유전자 NGS 패널의 순환하는 종양 DNA 데이터를 분석한 결과 잠재적으로 표적화 가능한 돌연변이가 밝혀졌다. 그러나, 분석된 유전자의 수가 제한되었기 때문에, 기저의 TOO를 식별하려는 시도는 이루어지지 않았다[28]. 대조적으로, 게놈 전체에 걸친 DNA 메틸화의 분석은 CUP 케이스의 87%에서 원발성 종양을 예측하는 것으로 나타났기 때문에 위에서 언급한 분석에 추가 정보를 추가할 수 있다[29].
CUP를 이해하는 역할 외에도, MI GPSai는 병리학 실험실 워크플로에 통합할 수 있는 품질 관리 도구를 제공한다. MI GPSai에 대한 우리의 전향적 평가의 일환으로, 병리학자는 제출된 진단과 MI GPSai 예측 사이의 불일치에 대해 경고를 받았으며, 결과적으로 이러한 사례의 41.3%에서 진단이 변경되었다. 부정확한 진단의 비율이 3~9%임을 감안할 때[30] MI GPSai를 임상에 포함시키면 전반적으로 진단 충실도가 향상될 수 있다.
요약하면, MI GPSai는 전이성 및 낮은 비율의 종양을 모두 포함하는 13,661개의 케이스에서 일관된 CUP 케이스의 진단 정밀 검사에서 강력한 성능을 보여주었다. 동시에 MI GPSai는 해부학적 병리학 실험실의 품질 관리에서도 중요한 역할을 할 수 있다. MI GPSai 분석은 일상적인 임상 종양 프로파일링의 일부로 얻은 DNA 및 RNA 프로파일의 결과를 사용하기 때문에 단일 테스트에서 환자의 치료 전략을 최적화하는 진단 및 치료 정보를 모두 반환할 수 있다. 이 워크플로는 더 많은 조직과 증가된 처리 시간이 필요한 여러 테스트의 현재 표준을 개선하여 치료를 지연시킬 수 있다. 우리의 접근 방식은 바이오마커 지향 요법을 고려할 때 계통 할당으로 얻은 상황별 정보를 활용하는 것을 목표로 한다.
참고문헌 (대괄호 숫자 [#]가 이 실시예의 텍스트에서 사용된 것에 대응함)
[1] C.Massard외 Carcinomas of an unknown primary origin-diagnosis and treatment. Nat. Rev.Clin. Oncol., 8 (12) (2011), pp.701-710
[2] G.R. Varadhachary, M.N. Raber. Cancer of unknown primary site. N.Engl. J.Med., 371 (8) (2014), pp.757-765
[3] B.R. DeYoung, M.R. Wick. Immunohistologic evaluation of metastatic carcinomas of unknown origin: an algorithmic approach. Semin.Diagn. Pathol., 17 (3) (2000), pp.184-193
[4] G.G. Anderson, L.M. Weiss. Determining tissue of origin for metastatic cancers: meta-analysis and literature review of immunohistochemistry performance. Appl. Immunohistochem. Mol. Morphol., 18 (1) (2010), pp.3-8
[5] S.Y. Park외 Panels of immunohistochemical markers help determine primary sites of metastatic adenocarcinoma. Arch. Pathol. Lab. Med., 131 (10) (2007), pp.1561-1567
[6] R.W. Brown외 Immunohistochemical identification of tumor markers in metastatic adenocarcinoma. A diagnostic adjunct in the determination of primary site. Am. J.Clin. Pathol., 107 (1) (1997), pp.12-19
[7] M.G. Erlander외 Performance and clinical evaluation of the 92-gene real-time PCR assay for tumor classification. J.Mol. Diagn., 13 (5) (2011), pp.493-503
[8] J.D.Hainsworth외 Molecular gene expression profiling to predict the tissue of origin and direct site-specific therapy in patients with carcinoma of unknown primary site: a prospective trial of the Sarah Cannon research institute. J.Clin. Oncol., 31 (2) (2013), pp.217-223
[9] J.S. Ross외 Comprehensive genomic profiling of carcinoma of unknown primary site: new routes to targeted therapies. JAMA Oncol., 1 (1) (2015), pp.40-49
[10] A.Penson외 Development of genome-derived tumor type prediction to inform clinical cancer care. JAMA Oncol., 6 (1) (2019), pp.84-91
[11] G.A. Stancel외 Identification of tissue of origin in body fluid specimens using a gene expression microarray assay. Cancer Cytopathol., 120 (1) (2012), pp.62-70
[12] J.L. Dennis외 Markers of adenocarcinoma characteristic of the site of origin: development of a diagnostic algorithm. Clin. Cancer Res., 11 (10) (2005), pp.3766-3772
[13] A.R. Gamble외 Use of tumour marker immunoreactivity to identify primary site of metastatic cancer. BMJ, 306 (6873) (1993), pp.295-298
[14] A.Dobin외 STAR: ultrafast universal RNA-seq aligner. Bioinformatics, 29 (1) (2013), pp.15-21
[15] R.Patro외 Salmon provides fast and bias-aware quantification of transcript expression. Nat. Methods, 14 (4) (2017), pp.417-419
[16] C.W. Brennan외 The somatic genomic landscape of glioblastoma. Cell, 155 (2) (2013), pp.462-477
[17] S.P.Shah외 Mutation of FOXL2 in granulosa-cell tumors of the ovary. N.Engl. J.Med., 360 (26) (2009), pp.2719-2729
[18] ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium. Pan-cancer analysis of whole genomes. Nature, 578 (7793) (2020), pp.82-93
[19] F.Sanchez-Vega외 Oncogenic signaling pathways in the cancer genome atlas. Cell, 173 (2) (2018), pp.321-337.e10
[20] M.C.Heinrich외 Kinase mutations and imatinib response in patients with metastatic gastrointestinal stromal tumor. J.Clin. Oncol., 21 (23) (2003), pp.4342-4349
[21] Cancer Genome Atlas Network. Comprehensive molecular portraits of human breast tumours. Nature, 490 (7418) (2012), pp.61-70
[22] P.Tan외 Genetics and molecular pathogenesis of gastric adenocarcinoma. Gastroenterology, 149 (5) (2015), pp.1153-1162
[23] M.Miettinen외 Immunohistochemical spectrum of GISTs at different sites and their differential diagnosis with a reference to CD117 (KIT). Mod. Pathol., 13 (10) (2000), pp.1134-1142
[24] L.A. Garraway외 Integrative genomic analyses identify MITF as a lineage survival oncogene amplified in malignant melanoma. Nature, 436 (7047) (2005), pp.117-122
[25] M.C.Markowski외 Inflammatory cytokines induce phosphorylation and ubiquitination of prostate suppressor protein NKX3.1. Cancer Res., 68 (17) (2008), pp.6896-6901
[26] Abraham J.외 Genomic Profiling Similarity. WO2020146554.
[27] F.A. Greco, J.D.Hainsworth. Renal cell carcinoma presenting as carcinoma of unknown primary site: recognition of a treatable patient subset. Clin. Genitourin. Cancer, 16 (4) (2018), pp.e893-e898
[28] S.Kato외 Utility of genomic analysis in circulating tumor DNA from patients with carcinoma of unknown primary. Cancer Res., 77 (16) (2017), pp.4238-4246
[29] S.Moran외 Epigenetic profiling to classify cancer of unknown primary: a multicentre, retrospective analysis. Lancet Oncol., 17 (10) (2016), pp.1386-1395
[30] M.Peck외 Review of diagnostic error in anatomical pathology and the role and value of second opinions in error prevention. J.Clin. Pathol., 71 (11) (2018), pp.995-1000
[31] K.Bera외 Artificial intelligence in digital pathology - new tools for diagnosis and precision oncology. Nat. Rev.Clin. Oncol., 16 (11) (2019), pp.703-715
[32] W.Jiao, G.Atwal, P.Polak외 A deep learning system accurately classifies primary and metastatic cancers using passenger mutation patterns. Nat. Commun., 11 (2020), p.728
[33] P.Stafford, M.Brun. Three methods for optimization of cross-laboratory and cross-platform microarray expression data. Nucl. Acids Res., 35 (10) (2007), p.e72
[34] Haskell CM외 Metastasis of unknown origin. Curr Probl Cancer. 1988 Jan-Feb;12(1):5-58. Review. PubMed PMID: 3067982.
[35] Haigis KM외 Tissue-specificity in cancer: The rule, not the exception. Science. 2019 Mar 15;363(6432):1150-1151.doi: 10.1126/science.aaw3472. PubMed PMID: 30872507.
실시예 4: 분자 프로파일링 리포트 및 전이성 선암종이 있는 환자에 대한 사용
도 7a-p는 본 명세서에 제공된 시스템 및 방법에 따른 실생활 환자의 분자 프로파일링으로부터 익명화된 분자 프로파일링 리포트를 제시한다.
도 7a는 담당 의사의 테스트 요청에 보고된 표본이 간에서 채취되었고 원발성 종양 부위가 상행 결장임을 나타내는 리포트의 1페이지를 예시한다. 진단명은 전이성 선암종이었다. "치료 연관성을 갖는 결과" 섹션에서, 도 7a는 치료적 연관성에 대한 관련 바이오마커에 기초하여 효험 가능성과 관련된 치료법 및 효험 부재 가능성과 관련된 치료법의 요약을 추가로 표시한다. 여기에서, 리포트는 KRAS, NRAS 및 BRAF에서 돌연변이가 검출되지 않아, 세툭시맙 또는 파니투무맙의 잠재적인 효험을 나타냈다고 언급한다. 반대로, HER2 단백질의 발현 부족은 항-HER2 요법(라파티닙, 페르투주맙, 트라스투자맙)의 잠재적인 효험 부재를 나타낸다. "암 유형 관련 바이오마커" 섹션은 특히 관련 바이오마커에 대한 특정 분자 프로파일링 결과를 강조한다. "게놈 시그니처" 섹션은 미세위성 불안정성(MSI) 및 종양 돌연변이 부담(TMB)의 결과를 나타낸다. 두 가지 특성은 바로 전 섹션에서도 강조되었다. 이 환자는 MSI가 안정적이고 TMB가 낮은 것으로 나타났다.
도 7b는 리포트의 2페이지이며 표시된 분석으로부터의 바이오마커 결과의 요약을 나열한다. 참고로, APC 및 TP53은 종양 게놈 DNA의 시퀀싱을 통해 알려진 병원성 돌연변이를 갖는 것으로 밝혀졌다. "기타 발견 사항" 섹션에서는 적용 범위가 낮기 때문에 시퀀싱 결과가 불확실한 여러 유전자에 대해 설명한다.
도 7c는 리포트의 3페이지이며 게놈 DNA 시퀀싱(NGS에 의한)이 점 돌연변이, 삽입결실 또는 복제 수 증폭을 찾지 못한 유전자와 함께 "기타 발견 사항" 목록이 계속된다.
도 7d는 리포트의 4페이지이며 RNA 시퀀싱(NGS에 의한)이 변경을 찾지 못한(가령, 융합 유전자가 감지되지 않음) 유전자와 함께 "기타 발견 사항" 목록이 계속된다.
도 7e는 리포트의 5페이지이며 표본에 대해 수행된 본원에 제공된 게놈 프로파일링 유사성(GPS) 분석의 결과를 보여준다. 표본이 간에서 채취한 전이성 병변을 포함하고 주치의에 의해 상행 결장의 선암종으로 보고되었음을 상기해야 한다(도 7a 참조). 도면에 표시된 대로 리포트는 표본이 나열된 각각의 기관 그룹(즉, 방광; 뇌; 유방; 결장; 여성 생식기 및 복막; 위식도; 두부, 안면 또는 목, NOS; 신장; 간; 담낭; 담관; 폐; 흑색종/피부; 췌장; 전립선; 기타)에 속할 확률을 제공한다. 나타난 각각의 기관 유형에 대한 유사성이 수직 막대로 표시된다. 이 경우, GPS는 장기 유형 "Colon(결장)"에 97점을 할당했으며 별표 모양은 98% 이상의 정확한 일치 확률을 나타낸다. "범례" 상자를 참조할 수 있다. 위식도 장기 군은 유사도가 1이었고 원형 모양은 확률이 결정적이지 않음을 나타낸다. 다른 모든 장기는 1 또는 0 미만의 유사성을 가졌으며, 이는 해당 장기 군이 > 99% 확률로 제외되었음을 나타낸다.
도 7f는 리포트의 6페이지이며 프로파일링 결과를 기반으로 하는 사용 가능한 임상 시험 및 추가 표본 정보인 "중요한 노트"의 리스트를 제공한다.
도 7g는 리포트의 7페이지이며 분자 프로파일링 결과를 기반으로 환자에 대한 잠재적 임상 시험을 식별하는 "임상 시험 커넥터"를 제공한다. APC 유전자 돌연변이와 관련된 시도(도 7b 참조)가 주목된다.
도 7h는 면책 조항을 표시한다. 예를 들어, 환자 관리 및 치료에 대한 결정은 환자의 상태와 관련하여 사용 가능한 모든 정보를 고려하여 담당 의사의 독립적인 의학적 판단을 기반으로 해야 한다. 이 페이지로 리포트의 본문을 끝내고 부록으로 이어진다.
도 7i-m은 NGS(Next-Generation Sequencing)를 사용하여 얻은 결과에 대한 자세한 내용을 제공한다. 도 7i는 부록의 1페이지이며 TMB(Tumor Mutational Burden) 및 MSI(Microsatellite Instability) 분석 및 결과에 대한 정보를 제공한다. 리포트는 높은 돌연변이 부하가 면역 요법 반응의 잠재적 지표임을 지적한다(Le 외, PD-1 Blockade in Tumors with Mismatch-Repair Deficiency, N Engl J Med 2015; 372:2509-2520; Rizvi 외, Mutational landscape determines sensitivity to PD-1 blockade in non-small cell lung cancer.Science.2015 Apr 3; 348(6230): 124-128; Rosenberg 외, Atezolizumab in patients with locally advanced and metastatic urothelial carcinoma who have progressed following treatment with platinum-based chemotherapy: a single arm, phase 2 trial.Lancet.2016 May 7; 387(10031): 1909-1920; Snyder 외, Genetic Basis for Clinical Response to CTLA-4 Blockade in Melanoma.N Engl J Med.2014 Dec 4; 371(23): 2189-2199; 이들 모두 그 전체가 본 명세서에서 참조로서 포함된다). 도 7j는 부록의 2페이지이며 APC 및 TP53과 같은 변경을 포함하는 것으로 밝혀진 유전자에 대한 세부 정보를 나열한다. 또한 도 7b를 참조할 수 있다. 도 7k는 부록의 3페이지이며 일부 또는 모든 엑손에 대한 낮은 적용 범위로 인해 불확실한 결과 또는 감지된 돌연변이가 없는 NGS에 의해 테스트된 유전자를 기록한다. 도 7l은 부록의 4페이지이며 돌연변이가 감지되지 않은 상태에서 NGS에 의해 테스트된 유전자 목록을 계속하고 있으며 차세대 시퀀싱이 수행된 방법에 대한 추가 정보를 추가한다. 도 7m은 부록의 5페이지이며 NGS 분석 및 해당 방법에 의해 검출된 유전자 증폭과 같은 복제수 변경(CNA, 복제수 변이, CNV)에 대한 정보를 제공한다. 도 7n은 부록의 6페이지이며 RNA 시퀀싱 분석 및 해당 방법론에 의한 유전자 융합 및 전사체 변이체 검출에 대한 정보를 제공한다. 이 표본에서는 융합 또는 변이 전사체가 검출되지 않았다. 도 7o는 부록의 7페이지이며, 각각의 마커에 대한 염색 역치 및 결과와 같이 환자 표본에 대해 수행된 IHC 분석에 대한 추가 정보를 제공한다. 도 7p 및 도 7q는 각각 부록의 8페이지와 9페이지이며, 바이오마커의 증거 - 치료 권고안을 구성하는 데 사용되는 에이전트 연관 규칙 - 를 제공하는 데 사용되는 참조 목록을 제공한다.
실시예 5: 분자 프로파일링 리포트 - 전이성 난소 암종
도 8a-p는 본 명세서에 제공된 시스템 및 방법에 따른 실생활 환자의 분자 프로파일링으로부터 익명화된 또 다른 분자 프로파일링 리포트를 제시한다.
도 8a는 담당 의사의 테스트 요청에 보고된 표본이 상행 결장에서 채취되었고 원발성 종양 부위가 난소임을 나타내는 리포트의 1페이지를 예시한다. 진단명은 암종, NOS이었다. "치료 연관성을 갖는 결과" 섹션에서, 도 8a는 치료적 연관성에 대한 관련 바이오마커에 기초하여 효험 가능성과 관련된 치료법 및 효험 부재 가능성과 관련된 치료법의 요약을 추가로 표시한다. 여기서, 리포트는 샘플이 IHC에 의해 PD-L1 양성으로 식별되서 펨브롤리자맙의 잠재적인 효험을 나타냈다고 언급한다. 반대로, HER2 단백질의 발현 부족은 항-HER2 요법(페르투주맙 또는 트라스투자맙)의 잠재적인 효험 결여를 나타낸다. 섹션 "암 유형 관련도 바이오마커"이 특정 관련 바이오마커에 대한 특정 분자 프로파일링 결과, 가령, 다음의 다양한 분석물로부터의 결과를 강조한다: 게놈 DNA(미세부수체 불안정성(MSI), 불일치 복구 상태, 종양 돌연변이 부담(TMB), 및 ATM 및 BRCA1/2 상태); 전장 전사체 시퀀싱(NTRK1/2/3 융합); 및 IHC(ER/PR 단백질 상태). 샘플은 MSI 안정, MMR 능숙, 낮은 TMB, 검출된 NTRK 융합 없음, ATM 또는 BRCA1/2에서 검출된 돌연변이 없음, 및 ER/PR 음성인 것으로 밝혀졌다. "기타 발견 사항" 섹션에서는 게놈 DNA의 NGS에 의해 TP53 유전자에서 병원성 변이체가 발견되었음이 언급된다.
도 8b는 리포트의 2페이지이며 표시된 분석으로부터의 바이오마커 결과의 추가 요약을 나열한다. "게놈 시그니처"는 MSI 및 TMB 결과에 대한 추가 통찰을 제공한다. "병원성 또는 가능한 병원성 변형으로 테스트된 유전자"는 종양 게놈 DNA의 시퀀싱을 통해 검출된 TP53 병원성 돌연변이에 대한 추가 세부 정보를 제공한다. "면역조직화학 결과" 섹션은 단백질 발현 결과, 예를 들어 결과를 결정하는 데 사용된 기준 및 MMR 유전자(MLH1, MSH2, MSH6, PMS2)의 세부 결과에 대한 추가 세부사항을 제공한다. "종양 DNA 시퀀싱에 의해 불확실한 결과로 테스트된 유전자"는 일부 또는 모든 엑손의 낮은 시퀀싱 적용 범위로 인해 불확실한 결과를 가진 특정 관심 유전자에 대해 설명한다.
도 8c는 리포트의 페이지 3이고 표본에 대해 수행된 본원에 제공된 MI GPSai (GPS) 분석의 결과를 보여준다. 예를 들어, 실시예 3을 참조할 수 있다. 표본이 상행 결장에서 채취한 전이성 병변을 포함하고 주치의에 의해 난소 암종으로 보고되었음을 상기할 수 있다(도 8a 참조). 도 8c에 나타난 바와 같이, 리포트는 표본이 다음에 나열된 암 카테고리 각각으로부터 왔을 확률을 제공한다: 유방 선암종, 중추신경계 암, 자궁경부 선암종, 담관암, 결장 선암종, 위식도 선암종, 위장관기질종양(GIST), 간세포 암종, 폐 선암종, 흑색종, 수막종, 난소 과립막 세포 종양, 난소 및 나팔관 선암종, 췌장 선암종, 전립선 선암종, 신세포 암종, 편평세포암종, 갑상선암, 요로상피 암종, 자궁내막 선암종, 및 자궁 육종. 각각의 암 카테고리에 대한 예측된 유병률이 수평 막대로 나타난다. 이 경우, GPS가 96%의 유병률을 암 카테고리 "난소, 나팔관 선암종"에 할당했다. 암 카테고리 "자궁내막선암종"은 3%의 유병률을 가졌고 "자궁경부 선암종"은 <1%의 유병률을 가졌다. 그 밖의 다른 모든 카테고리는 ~0%의 유병률을 가졌다. 따라서, GPS 결과가 본래 진단과 일치했다.
도 8d는 리포트의 4 페이지이며 프로파일링 결과를 기반으로 하는 사용 가능한 임상 시험 및 추가 표본 정보인 "중요한 노트"의 리스트를 제공한다.
도 8e는 리포트의 5 페이지이며 분자 프로파일링 결과를 기반으로 환자에 대한 잠재적 임상 시험을 식별하는 "임상 시험 커넥터"를 제공한다. PD-L1 IHC 결과에 연결된 시도에 주목할 수 있다(도 8a 참조).
도 8f는 리포트의 6 페이지이며 권리포기를 나타낸다. 예를 들어, 환자 관리 및 치료에 대한 결정은 환자의 상태와 관련하여 사용 가능한 모든 정보를 고려하여 담당 의사의 독립적인 의학적 판단을 기반으로 해야 한다. 이 페이지로 리포트의 본문을 끝내고 부록으로 이어진다.
도 8g-i는 리포트의 7-9 페이지(및 부록의 1-3)이며 게놈 종양 DNA의 차세대 시퀀싱(NGS)을 이용해 획득된 결과에 대한 추가 세부사항을 제공한다. 도 8g는 부록의 1 페이지이며 TMB(Tumor Mutational Burden) 및 MSI(Microsatellite Instability) 분석 및 결과에 대한 정보를 제공하며, 변경, 여기서, TP53이 있는 유전자 돌연변이에 대한 세부사항을 제공한다. 도 8h는 부록의 3 페이지이며 일부 또는 모든 엑손에 대한 낮은 적용 범위로 인해 불확실한 결과를 갖는 NGS에 의해 테스트된 유전자를 기록하고 NGS 분석에 대한 세부사항을 제공한다. 도 8i은 부록의 3 페이지이며 NGS 분석 및 해당 방법에 의해 검출된 유전자 증폭과 같은 복제수 변경(CNA, 복제수 변이, CNV)에 대한 정보를 제공한다. 도 8j은 부록의 4 페이지이며 RNA 시퀀싱 분석 및 해당 방법론에 의한 유전자 융합 및 전사체 변이체 검출에 대한 정보를 제공한다. 이 표본에서는 융합 또는 변이 전사체가 검출되지 않았다. 도 8k-l는 부록의 5-6 페이지이며, 각각의 마커에 대한 염색 역치 및 결과와 같이 환자 표본에 대해 수행된 IHC 분석에 대한 추가 정보를 제공한다. 도 8m은 각각 부록의 7 페이지이며, 바이오마커의 증거 - 치료 권고안을 구성하는 데 사용되는 에이전트 연관 규칙 - 를 제공하는 데 사용되는 참조 목록을 제공한다.
실시예 6: 암에 대한 치료 선택
종양 전문의는 원발 부위 불명의 전이성 종양이 있는 암 환자를 치료하고 있으며 환자를 위한 치료 요법을 선택하는 데 도움이 되도록 종양 샘플에 대한 분자 프로파일링을 수행하기를 원한다. 생체 샘플은 후복막에 위치한 종양에서 수집된다. 종양 전문의의 병리 리포트는 표본이 원발 부위 불명의 선암종, NOS, 즉, CUP라고 서술한다. 종양 전문의는 종양 샘플에 대해 수행할 분자 프로파일링 패널을 요청한다. 샘플은 본 문서의 실시예 1에 따른 분자 테스트를 위해 우리의 실험실로 보내졌다.
우리는 종양 표본에 게놈 DNA의 NGS, RNA 전사체의 NGS, 및 IHC 분석을 포함하는 분자 프로파일링을 수행한다. 샘플에 대한 분자 프로필이 생성된다. 실시예 2-3에 기재된 머신 러닝 모델이 사용되어 종양의 원발 부위를 예측할 수 있다. 분류는 "난소, 나팔관, 후복막 선암종"에 강하게 치우친다. APC 및 TP53의 돌연변이가 식별된다. KRAS, BRAF 및 NRAS에는 돌연변이가 없다. HER2는 과발현되지 않는다. 분자 프로파일링 결과가 리포트, 가령, 상기의 실시예에 포함된다. 리포트는 항-HER2 요법이 아닌 세툭시맙 또는 파니투무맙을 사용한 치료를 제안한다. 리포트는 종양 전문의에게 제공된다. 종양 전문의는 보고서에 제공된 정보를 사용하여 환자의 치료 요법을 결정하는 데 도움을 준다.
기타 실시예
본 발명이 상세한 설명과 함께 설명되었지만, 상기의 설명은 첨부 된 청구 범위의 범위에 의해 정의되는 본 명세서에 설명된 범위를 제한하는 것이 아니라 예시하기위한 것임을 이해해야 한다. 또 다른 측면, 장점 및 수정은 다음의 청구 범위 내에 있다.

Claims (105)

  1. 생체 샘플의 적어도 하나의 속성을 예측하기 위해 머신 러닝 모델을 훈련하는 데 사용되기 위한 입력 데이터 구조를 생성하기 위한 데이터 처리 장치로서, 상기 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 그룹, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되고, 데이터 처리 장치는 하나 이상의 프로세서 및 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하는 명령을 저장하는 하나 이상의 저장 디바이스를 포함하고, 상기 동작은:
    데이터 처리 장치에 의해, 하나 이상의 바이오마커 데이터 구조 및 하나 이상의 샘플 데이터 구조를 획득하는 것,
    데이터 처리 장치에 의해, 하나 이상의 바이오마커 데이터 구조로부터 샘플과 연관된 하나 이상의 바이오마커를 나타내는 제1 데이터를 추출하고, 하나 이상의 샘플 데이터 구조로부터 샘플 데이터를 나타내는 제2 데이터를 추출하며, 예측된 적어도 하나의 속성을 나타내는 제3 데이터를 추출하는 것,
    데이터 처리 장치에 의해, 하나 이상의 바이오마커를 나타내는 제1 데이터 및 예측된 적어도 하나의 속성 및 샘플을 나타내는 제2 데이터에 기초하여 머신 러닝 모델로 입력되기 위한 데이터 구조를 생성하는 것,
    데이터 처리 장치에 의해, 머신 러닝 모델로의 입력으로서 생성된 데이터 구조를 제공하는 것,
    데이터 처리 장치에 의해, 생성된 데이터 구조의 머신 러닝 모델의 처리에 기초하여 머신 러닝 모델에 의해 생성된 출력을 획득하는 것,
    데이터 처리 장치에 의해, 샘플에 대한 예측된 적어도 하나의 속성을 나타내는 제3 데이터와 머신 러닝 모델에 의해 생성된 출력 간 차이를 결정하는 것, 및
    데이터 처리 장치에 의해, 샘플에 대한 예측된 적어도 하나의 속성을 나타내는 제3 데이터와 머신 러닝 모델에 의해 생성된 출력 간 차이에 기초하여 머신 러닝 모델의 하나 이상의 파라미터를 조정하는 것을 포함하는, 데이터 처리 장치.
  2. 제1항에 있어서, 하나 이상의 바이오마커의 세트는 표 121-129, 표 117-120의 임의의 것, INSM1, 표 2-116에서 선택된 임의의 표, 이들의 임의의 조합에 나열된 하나 이상의 바이오마커를 포함하고, 선택적으로, 하나 이상의 바이오마커의 세트가 표 117, 표 118, 표 119, 표 120, INSM1, 또는 이들의 임의의 조합 중 하나에 나열된 하나 이상의 바이오마커를 포함하는, 데이터 처리 장치.
  3. 제1항에 있어서, 하나 이상의 바이오마커의 세트는 청구항 2의 바이오마커 각각을 포함하는, 데이터 처리 장치.
  4. 제1항에 있어서, 하나 이상의 바이오마커의 세트는 청구항 2의 바이오마커 중 적어도 하나를 포함하고, 선택적으로, 하나 이상의 바이오마커의 세트는 표 118, 표 119, 표 120, 및 INSM1의 바이오마커 각각을 포함하고, 선택적으로 하나 이상의 바이오마커의 세트는 표 2-116로부터 선택된 임의의 표의 마커를 더 포함하는, 데이터 처리 장치.
  5. 생체 샘플의 적어도 하나의 속성을 예측하기 위해 머신 러닝 모델을 훈련하는 데 사용되기 위한 입력 데이터 구조를 생성하기 위한 데이터 처리 장치로서, 상기 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 그룹, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되고, 데이터 처리 장치는 하나 이상의 프로세서 및 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하는 명령을 저장하는 하나 이상의 저장 디바이스를 포함하고, 상기 동작은:
    데이터 처리 장치에 의해, 제1 분산 데이터 소스로부터 생물학적 샘플과 연관된 하나 이상의 바이오마커의 세트를 나타내는 데이터를 구조화하는 제1 데이터 구조를 획득하는 것 - 제1 데이터 구조는 샘플을 식별하는 키 값을 포함함 - ,
    상기 데이터 처리 장치에 의해, 하나 이상의 메모리 디바이스에 상기 제1 데이터 구조를 저장하는 것,
    데이터 처리 장치에 의해, 제2 분산 데이터 소스로부터 하나 이상의 바이오마커를 갖는 샘플에 대한 적어도 하나의 속성에 대한 데이터를 나타내는 데이터를 구조화하는 제2 데이터 구조를 획득하는 것 - 적어도 하나의 속성에 대한 데이터는 샘플을 식별하는 데이터, 적어도 하나의 속성, 및 예측된 적어도 하나의 속성의 지시자를 포함하며, 제2 데이터 구조는 샘플을 식별하는 키 값을 더 포함함 - ,
    상기 데이터 처리 장치에 의해, 하나 이상의 메모리 디바이스에 상기 제1 데이터 구조를 저장하는 것,
    데이터 처리 장치에 의해, 메모리 디바이스에 저장된 제1 데이터 구조 및 제2 데이터 구조를 이용해, (i) 하나 이상의 바이오마커의 세트 및 샘플을 나타내는 데이터, 및 (ii) 예측된 적어도 하나의 속성의 지시자를 제공하는 라벨을 포함하는 라벨링된 훈련 데이터 구조를 생성하는 것 - 데이터 처리 장치에 의해, 제1 데이터 구조 및 제2 데이터 구조를 이용해 생성하는 것은 샘플과 연관된 하나 이상의 바이오마커의 세트를 나타내는 데이터를 구조화하는 제1 데이터 구조를, 대상체를 식별하는 키 값에 기초하여 하나 이상의 바이오마커를 갖는 샘플에 대한 예측된 적어도 하나의 속성 데이터를 나타내는 제2 데이터 구조와 상관시키는 것을 포함함 - , 및
    상기 데이터 처리 장치에 의해, 생성된 라벨 훈련 데이터 구조를 이용해 머신 러닝 모델을 훈련하는 것 - 생성된 라벨링된 훈련 데이터 구조를 이용해 머신 러닝 모델을 훈련하는 것은 데이터 처리 장치에 의해 머신 러닝 모델로 생성된 라벨 훈련 데이터 구조를 머신 러닝 모델의 입력으로서 머신 러닝 모델로 제공하는 것을 포함함 - 을 포함하는, 데이터 처리 장치.
  6. 제5항에 있어서, 상기 동작은:
    데이터 처리 장치에 의해 머신 러닝 모델로부터, 생성된 라벨링된 훈련 데이터 구조의 머신 러닝 모델의 처리에 기초하여 머신 러닝 모델에 의해 생성된 출력을 획득하는 것, 및
    데이터 처리 장치에 의해, 머신 러닝 모델에 의해 생성된 출력과 예측된 적어도 하나의 속성의 지시자를 제공하는 라벨 간 차이를 결정하는 것을 더 포함하는, 데이터 처리 장치.
  7. 제6항에 있어서, 상기 동작은:
    데이터 처리 장치에 의해, 머신 러닝 모델에 의해 생성된 출력과 예측된 적어도 하나의 속성의 지시자를 제공하는 라벨 간 결정된 차이에 기초하여 머신 러닝 모델의 하나 이상의 파라미터를 조정하는 것을 더 포함하는, 데이터 처리 장치.
  8. 제5항에 있어서, 하나 이상의 바이오마커의 세트는 표 121-127, 표 117-120의 임의의 것, INSM1, 표 2-116에서 선택된 임의의 표, 이들의 임의의 조합에 나열된 하나 이상의 바이오마커를 포함하고, 선택적으로, 하나 이상의 바이오마커의 세트가 표 117, 표 118, 표 119, 표 120, INSM1, 또는 이들의 임의의 조합 중 하나에 나열된 하나 이상의 바이오마커를 포함하는, 데이터 처리 장치.
  9. 제5항에 있어서, 하나 이상의 바이오마커의 세트는 표 118, 표 119, 표 120, 및 INSM1의 바이오마커 각각을 포함하고, 선택적으로 하나 이상의 바이오마커의 세트는 표 2-116로부터 선택된 임의의 표의 마커를 더 포함하는, 데이터 처리 장치.
  10. 제5항에 있어서, 하나 이상의 바이오마커의 세트는 청구항 8의 바이오마커 중 적어도 하나를 포함하는, 데이터 처리 장치.
  11. 청구항 제1항 내지 제10항 중 어느 한 항의 동작에 대응하는 단계를 포함하는 방법.
  12. 하나 이상의 컴퓨터 및 상기 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 청구항 제1항 내지 제10항 중 어느 한 항에 기재된 동작을 수행하게 하는 명령을 저장하는 하나 이상의 저장 매체를 포함하는 시스템.
  13. 하나 이상의 컴퓨터에 의해 실행되는 명령을 포함하는 소프트웨어를 저장하는 비일시적 컴퓨터 판독형 매체로서, 상기 명령은 실행 시 하나 이상의 컴퓨터로 하여금 청구항 제1항 내지 제10항 중 어느 한 항에 기재된 동작을 수행하게 하는, 비일시적 컴퓨터 판독형 매체.
  14. 생체 샘플의 적어도 하나의 속성을 결정하기 위한 방법으로서, 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되며, 상기 방법은:
    샘플을 나타내는 수신된 입력 데이터와 적어도 하나의 속성 간 예측 동작을 수행하도록 훈련된 복수의 머신 러닝 모델의 각각의 특정 머신 러닝 모델에 대해:
    특정 머신 러닝 모델로 대상체의 샘플을 나타내는 입력 데이터를 제공하는 단계 - 샘플은 대상체의 조직 또는 장기로부터 획득되었음 - , 및
    제공된 입력 데이터에 의해 나타내어지는 샘플이 적어도 하나의 속성에 대응할 확률 또는 우도를 나타내는 제공된 입력 데이터의 특정 머신 러닝 모델의 처리에 기초하여 특정 머신 러닝 모델에 의해 생성된 출력 데이터를 획득하는 단계,
    투표 유닛으로, 복수의 머신 러닝 모델의 각각의 머신 러닝 모델에 대해 획득된 출력 데이터를 제공하는 단계 - 제공된 출력 데이터는 복수의 머신 러닝 모델의 각각의 머신 러닝 모델에 의해 결정된 초기 샘플 속성을 나타내는 데이터를 포함함 - , 및
    투표 유닛에 의해, 제공된 출력 데이터에 기초하여, 예측된 적어도 하나의 속성을 결정하는 단계를 포함하는, 방법.
  15. 제14항에 있어서, 제공된 출력 데이터에 다수결 규칙을 적용함으로써, 제공된 출력 데이터를 동적 투표 모델의 입력으로 사용함으로써, 또는 이들의 조합에 의해, 상기 예측된 적어도 하나의 속성이 결정되는, 방법.
  16. 제14항 또는 제15항에 있어서, 투표 유닛에 의해 상기 제공된 출력 데이터에 기초하여, 상기 예측된 적어도 하나의 속성을 결정하는 단계는:
    투표 유닛에 의해, 복수의 후보 속성 분류 중 각각의 초기 속성 분류의 등장 횟수를 결정하는 단계, 및
    투표 유닛에 의해, 가장 많은 등장 횟수를 갖는 다수의 후보 속성 중 초기 속성 분류를 선택하는 단계를 포함하는, 방법.
  17. 제14항 내지 제16항 중 어느 한 항에 있어서, 복수의 머신 러닝 모델의 각각의 머신 러닝 모델은 랜덤 포레스트 분류 알고리즘, 서포트 벡터 머신, 로지스틱 회귀, k-최근접 이웃 모델, 인공 신경망, 나이브 베이즈 모델, 2차 판별 분석, 가우시안 프로세스 모델, 또는 이들의 조합을 포함하는, 방법.
  18. 제14항 내지 제16항 중 어느 한 항에 있어서, 복수의 머신 러닝 모델의 각각의 머신 러닝 모델은 랜덤 포레스트 분류 알고리즘을 포함하는, 방법.
  19. 제14항 내지 제18항 중 어느 한 항에 있어서, 복수의 머신 러닝 모델은 동일한 유형의 분류 알고리즘의 복수의 표현을 포함하는, 방법.
  20. 제14항 내지 제18항 중 어느 한 항에 있어서, 입력 데이터는 (i) 샘플 속성 및 (ii) 기원의 기술을 나타내는, 방법.
  21. 제20항에 있어서, 복수의 후보 속성 분류는 전립선, 방광, 자궁경부, 복막, 위, 식도, 난소, 두정엽, 자궁경부, 자궁내막, 간, S상 결장, 유방의 상외사분면, 자궁, 췌장, 머리의 각각의 생체특징을 식별하는 데 사용되었습니다.췌장, 직장, 결장, 유방, 간내 담관, 맹장, 위식도 접합부, 전두엽, 신장, 췌장 꼬리, 상행 결장, 하행 결장, 담낭, 맹장, 직결장, 나팔관, 뇌, 폐, 측두엽, 식도의 하부 3분의 1, 유방의 상부 내측 사분면, 횡행 결장, 및 피부에 대한 적어도 하나의 분류를 포함하는, 방법.
  22. 제20항에 있어서, 복수의 후보 속성 분류는 위식도선암종, 위장관기질종양(GIST), 간세포암종, 폐선암종, 흑색종, 수막종, 난소 육아종 세포종양, 난소 및 나팔관 선암, 췌장 선암, 전립선 선암, 신세포암, 편평세포암, 갑상선암, 요로상피암, 자궁내막선암, 및 자궁육종 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 또는 21개 모두를 포함하는, 방법.
  23. 제20항 내지 제22항 중 어느 한 항에 있어서, 샘플 속성은 샘플에 대한 하나 이상의 바이오마커를 포함하고, 선택적으로, 하나 이상의 바이오마커는 표 121-127, 표 117-120의 임의의 것, INSM1, 표 2-116에서 선택된 임의의 표, 이들의 임의의 조합에 나열된 하나 이상의 바이오마커를 포함하고, 선택적으로, 하나 이상의 바이오마커의 세트가 표 117, 표 118, 표 119, 표 120, INSM1, 또는 이들의 임의의 조합 중 하나에 나열된 하나 이상의 바이오마커를 포함하는, 방법.
  24. 제23항에 있어서, 하나 이상의 바이오마커는 표 118, 표 119, 표 120, 및 INSM1의 바이오마커 각각을 포함하고, 선택적으로 하나 이상의 바이오마커의 세트는 표 2-116로부터 선택된 임의의 표의 마커를 더 포함하는, 방법.
  25. 제23항에 있어서, 하나 이상의 바이오마커는 샘플의 알려진 유전자의 일부인 유전자 패널을 포함하는, 방법.
  26. 제23항에 있어서, 하나 이상의 바이오마커는 샘플의 알려진 유전자의 전부인 유전자 패널을 포함하는, 방법.
  27. 제20항 내지 제26항 중 어느 한 항에 있어서, 입력 데이터는 샘플 및/또는 피험체에 대한 기술을 나타내는 데이터를 더 포함하는, 방법.
  28. 하나 이상의 컴퓨터 및 상기 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 청구항 제14항 내지 제27항 중 어느 한 항에 기재된 동작을 수행하게 하는 명령을 저장하는 하나 이상의 저장 매체를 포함하는 시스템.
  29. 하나 이상의 컴퓨터에 의해 실행되는 명령을 포함하는 소프트웨어를 저장하는 비일시적 컴퓨터 판독형 매체로서, 상기 명령은 실행 시 하나 이상의 컴퓨터로 하여금 청구항 제14항 내지 제27항 중 어느 한 항에 기재된 동작을 수행하게 하는, 비일시적 컴퓨터 판독형 매체.
  30. 생체 샘플을 분류하기 위한 방법으로서, 상기 방법은:
    하나 이상의 컴퓨터에 의해, 생체 샘플의 RNA 시퀀스에 기초하여 이전에 결정된 생체 샘플에 대한 하나 이상의 초기 분류를 나타내는 제1 데이터를 획득하는 단계,
    하나 이상의 컴퓨터에 의해, 생체 샘플의 RNA 시퀀스에 기초하여 이전에 결정된 생체 샘플에 대한 또 다른 초기 분류를 나타내는 제2 데이터를 획득하는 단계,
    하나 이상의 컴퓨터에 의해, 제1 데이터 및 제2 데이터의 적어도 일부분을 복수의 초기 생체 샘플 분류의 처리에 기초하여 타깃 생체 샘플 분류를 예측하도록 훈련된 동적 투표 엔진의 입력으로서 제공하는 단계,
    하나 이상의 컴퓨터에 의해, 동적 투표 엔진을 통해 제공된 입력 데이터를 처리하는 단계,
    하나 이상의 컴퓨터에 의해, 제공된 입력 데이터의 동적 투표 엔진의 처리에 기초하여 동적 투표 엔진에 의해 생성된 출력 데이터를 획득하는 단계, 및
    하나 이상의 컴퓨터에 의해, 획득된 출력 데이터에 기초하여 생체 샘플에 대한 타깃 생체 샘플 분류를 결정하는 단계를 포함하는, 방법.
  31. 제30항에 있어서,
    하나 이상의 컴퓨터에 의해, 생체 샘플의 RNA 시퀀스에 기초하여 이전에 결정된 생체 샘플에 대한 하나 이상의 초기 분류를 나타내는 제1 데이터를 획득하는 단계는:
    생체 샘플의 RNA 시퀀스에 기초하여 생체 샘플에 대한 암 유형 분류를 나타내는 데이터를 획득하는 단계,
    생체 샘플의 RNA 시퀀스에 기초하여 생체 샘플이 기원된 장기를 나타내는 데이터를 획득하는 단계, 및
    생체 샘플의 RNA 시퀀스에 기초하여 생체 샘플에 대한 조직을 나타내는 데이터를 획득하는 단계
    를 포함하고
    제1 데이터 및 제2 데이터의 적어도 일부분을 동적 투표 엔진의 입력으로서 제공하는 단계는
    암 유형 분류를 나타내는 획득된 데이터, 생체 샘플이 기원된 장기를 나타내는 획득된 데이터, 조직을 나타내는 획득된 데이터, 및 제2 데이터를 동적 투표 엔지의 입력으로서 제공하는 단계를 포함하는, 방법.
  32. 제30항에 있어서, 동적 투표 엔진은 하나 이상의 머신 러닝 모델을 포함하는, 방법.
  33. 제30항에 있어서, 동적 투표 엔진을 훈련하는 것은 (I) 암 분류 유형을 나타내는 데이터, 기원의 초기 장기를 나타내는 데이터, 조직학을 나타내는 데이터, 또는 DNA 분석 엔진의 출력을 나타내는 데이터를 포함하는 하나 이상의 초기 분류 및 (II) 타깃 생체 샘플 분류를 포함하는 라벨링된 훈련 데이터 아이템을 획득하는 것,
    획득된 훈련 데이터 아이템에 기초하여 동적 투표 엔진으로 입력될 훈련 입력 데이터를 생성하는 것,
    동적 투표 엔진을 통해 생성된 훈련 입력 데이터를 처리하는 것,
    생성된 훈련 입력 데이터의 동적 투표 엔진의 처리에 기초하여 동적 투표 엔진에 의해 생성된 출력 데이터를 획득하는 것, 및
    출력 데이터와 획득된 훈련 데이터 아이템의 라벨 간 유사성 수준에 기초하여 동적 투표 엔진의 하나 이상의 파라미터를 조정하는 것을 포함하는, 방법.
  34. 제30항에 있어서, 생체 샘플의 DNA 시퀀스에 기초하여 생체 샘플에 대한 초기 분류를 이전에 결정하는 것은
    하나 이상의 컴퓨터에 의해, 신체의 제1 부분의 암성 신생물로부터 획득된 생체 샘플을 나타내는 생체 시그니처를 수신하는 것 - 모델은 복수의 상이한 유형의 암성 생체 샘플의 각각에 대해 암성 생체 시그니처를 포함하고, 암성 생체 시그니처 각각은 하나 이상의 다른 신체의 제1 부분으로부터의 암성 생체 샘플의 분자 프로파일을 나타내는 적어도 제1 암성 생체 시그니처 및 하나 이상의 다른 신체의 제2 부분으로부터의 암성 생체 샘플의 분자 프로파일을 나타내는 제2 암성 생체 시그니처를 포함함 - ,
    하나 이상의 컴퓨터에 의해 쌍별 분석 모델(pairwise-analysis model)을 이용해, 제1 암성 생체 시그니처 및 제2 암성 생체 시그니처를 이용해 생체 시그니처의 쌍별 분석을 수행하는 것,
    하나 이상의 컴퓨터에 의해 수행된 쌍별 분석에 기초하여, 신체의 제1 부분에서의 암성 신생물이 신체의 제2 부분에서의 암에 의해 야기되었을 우도(likelihood)를 생성하는 것, 및
    하나 이상의 컴퓨터에 의해, 메모리 디바이스에 생성된 우도를 저장하는 것을 포함하는, 방법.
  35. 하나 이상의 컴퓨터 및 상기 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 청구항 제30항 내지 제34항 중 어느 한 항에 기재된 동작을 수행하게 하는 명령을 저장하는 하나 이상의 저장 매체를 포함하는 시스템.
  36. 하나 이상의 컴퓨터에 의해 실행되는 명령을 포함하는 소프트웨어를 저장하는 비일시적 컴퓨터 판독형 매체로서, 상기 명령은 실행 시 하나 이상의 컴퓨터로 하여금 청구항 제30항 내지 제34항 중 어느 한 항에 기재된 동작을 수행하게 하는, 비일시적 컴퓨터 판독형 매체.
  37. 방법으로서,
    (a) 암을 갖고 있는 대상체로부터 생체 샘플을 획득하는 단계,
    (b) 하나 이상의 바이오마커를 평가하도록 상기 샘플에 적어도 하나의 분석을 수행하여, 상기 샘플에 대한 바이오시그니처를 획득하는 단계,
    (c) 바이오시그니처를 암의 적어도 하나의 속성을 예측하도록 훈련된 모델로 제공하는 단계 - 상기 모델은 적어도 하나의 속성을 나타내는 적어도 하나의 지정 바이오시그니처를 포함하고, 암의 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합을 포함하는 군 중에서 선택됨 - ,
    (d) 하나 이상의 컴퓨터에 의해, 모델을 통해 제공된 바이오시그니처를 처리하는 단계, 및
    (e) 암의 적어도 하나의 속성의 예측을 모델로부터 출력하는 단계를 포함하는, 방법.
  38. 제37항에 있어서, 생체 샘플은 포르말린-고정 파라핀-포매(FFPE: formalin-fixed paraffin-embedded) 조직, 고정된 조직, 코어 바늘 생검, 미세 바늘 흡인물, 비염색 슬라이드, 신선 동결(FF: fresh frozen) 조직, 포르말린 샘플, 핵산 또는 단백질 분자를 보존하는 용액에 포함된 조직, 신선 샘플, 악성 유체, 체액, 종양 샘플, 조직 샘플, 또는 이들의 임의의 조합을 포함하는, 방법.
  39. 제37항 또는 제38항에 있어서, 생체 샘플은 고형 종양, 체액, 또는 이의 조합으로부터의 세포를 포함하는, 방법.
  40. 제38항 내지 제39항 중 어느 한 항에 있어서, 체액은 악성 유체, 흉수, 복막액, 또는 이들의 임의의 조합을 포함하는, 방법.
  41. 제38항 내지 제40항 중 어느 한 항에 있어서, 체액은 말초 혈액, 혈청, 혈장, 복수, 소변, 뇌척수액(CSF), 가래, 타액, 골수, 활액, 안방수, 양수, 귀지, 모유, 기관지폐포 세척액, 정액, 전립선액, 소액, 사정전액, 여성의 사정액, 땀, 대변, 눈물, 낭종액, 흉막액, 복막액, 심낭액, 림프액, 유미즙, 유미, 담즙, 간질액, 월경, 고름, 피지, 구토, 질 분비물, 점막 분비물, 대변 물, 췌장액, 부비동강 세척액, 기관지폐 흡인물, 배반포강액 또는 제대혈을 포함하는, 방법.
  42. 제37항 내지 제41항 중 어느 한 항에 있어서, 단계(b)에서의 적어도 하나의 분석을 수행하는 것은 하나 이상의 바이오머커 각각에 대한 단백질 또는 핵산의 존재여부, 레벨, 또는 상태를 결정하는 것을 포함하며, 선택적으로, 핵산은 DNA(deoxyribonucleic acid), RNA(ribonucleic acid), 또는 이들의 조합을 포함하는, 방법.
  43. 제42항에 있어서,
    i. 적어도 하나의 단백질의 존재여부, 레벨 또는 상태는 면역조직화학(IHC: immunohistochemistry), 유세포 분석, 면역분석, 항체 또는 기능 단면, 압타머, 질량 분석계, 또는 이들의 임의의 조합 중에서 선택된 기술을 이용해 결정되며, 선택적으로 모든 단백질의 존재여부, 레벨, 또는 상태가 상기 기술을 이용해 결정됨, 및/또는
    ii. 적어도 하나의 핵산의 존재여부, 레벨, 또는 상태가 PCR(polymerase chain reaction), 원위치 혼성화, 증폭, 혼성화, 마이크로어레이, 핵산 시퀀싱, 염료 종단 시퀀싱, 파이로시퀀싱, 차세대 시퀀싱(NGS; 고처리율 시퀀싱), 전장 엑솜 시퀀싱, 전장 게놈 시퀀싱, 전장 전사체 시퀀싱, 또는 이들의 임의의 조합 중에서 선택된 기술을 이용해 결정되며, 선택적으로, 모든 핵산의 존재여부, 레벨 또는 상태가 상기 기술을 이용해 결정되는, 방법.
  44. 제43항에 있어서, 핵산의 상태는 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 전좌, 융합, 절단, 복제, 증폭, 반복, 복제수, 복제수 변동(CNV; 복제수 변경; CNA), 또는 임의의 이들의 조합을 포함하는, 방법.
  45. 제44항에 있어서, 핵산의 상태는 복제수로 구성되거나 복제수를 포함하는, 방법.
  46. 제37항 내지 제45항 중 어느 한 항에 있어서, 적어도 하나의 분석은 차세대 시퀀싱을 포함하며, 선택적으로 차세대 시퀀싱은 i) 표 121-130 중 어느 하나의 유전자, 게놈 정보/시그니처, 및 융합 전사, 또는 이들의 임의의 조합, ii) 표 117-120에서 선택된 어느 표, INSM1, 및 이들의 임의의 조합의 유전자 및/또는 전사 중 적어도 하나, iii) 전장 엑솜, iv) 전장 전사체, v) 표 2-116에서 선택된 어느 한 표의 적어도 하나의 유전자, 및 이들의 임의의 조합, 또는 vi) 이들의 임의의 조합을 평가하도록 사용되는, 방법.
  47. 제37항 내지 제46항 중 어느 한 항에 있어서, 암의 적어도 하나의 속성을 예측하는 것은 속성이 이러한 복수의 속성의 각각의 구성원일 확률을 결정하고 가장 높은 확률을 갖는 속성을 선택하는 것을 포함하는, 방법.
  48. 제37항 내지 제47항 중 어느 한 항에 있어서,
    i. 하나의 원발 종양 기원 또는 복수의 원발 종양 기원은 전립선, 방광, 자궁 경부 내막, 복막, 위, 식도, 난소, 두정엽, 자궁 경부, 자궁 내막, 간, 구불 결장, 유방의 상부 외부 사분면, 자궁, 췌장, 췌장 머리, 직장, 결장, 유방, 간내 담관, 맹장, 위식도 접합부, 전두엽, 신장, 췌장 꼬리, 상행 결장, 하행 결장, 담낭, 충수돌기, 직장구불 결장, 나팔관, 뇌, 폐, 측두엽, 식도의 하부 1/3, 유방의 상부 내부 사분면, 횡행 결장 및 피부 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 또는 모든 38개로 구성되거나 포함함,
    ii. 하나의 원발 종양 기원 또는 복수의 원발 종양 기원은 위식도선암종, 위장관기질종양(GIST), 간세포암종, 폐선암종, 흑색종, 수막종, 난소 육아종 세포종양, 난소 및 나팔관 선암, 췌장 선암, 전립선 선암, 신세포암, 편평세포암, 갑상선암, 요로상피암, 자궁내막선암, 및 자궁육종 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 또는 모든 21개로 구성되거나 포함함,
    iii. 암/질병 유형은 부신 피질 암종; 담관, 담관암종; 유방암종; 중추신경계(CNS); 자궁경부암종; 결장암종; 자궁내막암종; 위장관 기질 종양(GIST); 위식도 암종; 신장 신세포 암종; 간 간세포 암종; 폐암종; 흑색종; 수막종; 메르켈(Merkel); 신경내분비; 난소 과립막 세포 종양; 난소, 나팔관, 복막; 췌장암종; 흉막 중피종; 전립선 선암종; 후복막; 타액 및 이하선; 소장 선암종; 편평 세포 암종; 갑상선암종; 요로상피암종; 자궁 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 또는 모든 28개로 구성되거나 포함함,
    iv. 장기 군은 부신; 방광; 뇌; 유방; 결장; 눈; 여성 생식기 및 복막(FGTP); 위식도; 두부, 안면 또는 경부, NOS; 신장; 간, 담낭, 담관; 폐; 췌장; 전립선; 피부; 소장; 갑상선 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 또는 모든 17개로 구성되거나 포함함, 및/또는
    v. 조직학(histology)은 선암종, 샘낭암종, 선편평암종, 부신피질암종, 성상세포종, 암종, 암육종, 담관암종, 투명세포암종, 유관상피내암종(DCIS), 교모세포종(GBM), GIST, 신경교종, 과립막세포종양, 침윤성 소엽 암종, 평활근육종, 지방육종, 흑색종, 수막종, 메르켈 세포 암종, 중피종, 신경내분비, 비소세포암종, 희소돌기아교종, 육종, 육종양암종, 장액, 소세포암종, 편평상피 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 또는 모든 29개로 구성되거나 포함하는, 방법.
  49. 제37항 내지 제48항 중 어느 한 항에 있어서, 암의 적어도 하나의 속성, 선택사항으로서 암/질병 유형을 나타내는 적어도 하나의 지정 바이오시그니처는 표 118에 따른 바이오마커의 선택을 포함하며, 선택적으로:
    i. 부신피질암종을 나타내는 지정 바이오시그니처는 INHA, MIB1, SYP, CDH1, NKX3-1, CALB2, KRT19, MUC1, S100A5, CD34, TMPRSS2, KRT8, NCAM2, ARG1, TG, NCAM1, SERPINA1, PSAP, TPM3, 및 ACVRL1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    ii. 담관, 담관암종을 나타내는 지정 바이오시그니처는 HNF1B, VIL1, SERPINA1, ESR1, ANO1, SOX2, MUC4, S100A2, KRT5, KRT7, CNN1, AR, ENO2, S100A9, NKX2-2, SATB2, PSAP, S100A6, CALB2, 및 TMPRSS2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    iii. 유방암종을 나타내는 지정 바이오시그니처는 GATA3, ANKRD30A, KRT15, KRT7, S100A2, PAX8, MUC4, KRT18, HNF1B, S100A1, PIP, SOX2, MDM2, MUC5AC, PMEL, TFF1, KRT16, KRT6B, S100A6, 및 SERPINB5로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    iv. 중추신경계를 나타내는 지정 바이오시그니처는 S100B, KRT18, KRT8, SOX2, ANO1, NCAM1, PDPN, NKX2-2, KRT19, S100A14, S100A11, S100A1, MSH2, CEACAM1, GPC3, ERBB2, TG, KRT7, CGB3, 및 S100A2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    v. 자궁경부암종을 나타내는 지정 바이오시그니처는 ESR1, CDKN2A, CCND1, LIN28A, PGR, SMARCB1, CEACAM4, S100B, FUT4, PSAP, MUC2, MDM2, NCAM1, SATB2, TNFRSF8, CD79A, S100A13, VHL, CD3G, 및 TPSAB1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    vi. 결장암종을 나타내는 지정 바이오시그니처는 CDX2, KRT7, MUC2, KRT20, MUC1, SATB2, VIL1, CEACAM5, CDH17, S100A6, CEACAM20, KRT6B, TFF3, FUT4, BCL2, KRT6A, KRT18, CEACAM18, TFF1, 및 MLH1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    vii. 자궁내막암종을 나타내는 지정 바이오시그니처는 PAX8, PGR, ESR1, VHL, CALD1, LIN28B, NAPSA, KRT5, S100A6, DES, FLI1, DSC3, S100P, CEACAM16, PDPN, ARG1, TLE1, WT1, BCL6, 및 MLH1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    viii. 위장관기질종양(GIST)을 나타내는 지정 바이오시그니처는 ANO1, SDC1, KRT19, MUC1, KRT8, ACVRL1, KIT, CDH1, S100A2, KRT7, ERBB2, S100A16, ENO2, S100A9, TPSAB1, KRT17, PAX8, PGR, ESR1, 및 VHL로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    ix. 위식도암종을 나타내는 지정 바이오시그니처는 FUT4, CDX2, SERPINB5, MUC5AC, AR, TFF1, NCAM2, TFF3, ISL1, ANO1, VIL1, PAX8, SOX2, CEACAM6, S100A13, ENO2, NAPSA, TPSAB1, S100B, 및 CD34로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    x. 신장 신세포 암종을 나타내는 지정 바이오시그니처는 PAX8, CDH1, CDKN2A, S100P, S100A14, HAVCR1, HNF1B, KL, KRT7, MUC1, POU5F1, VHL, PAX2, AMACR, BCL6, S100A13, CA9, MDM2, SALL4, 및 SYP로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xi. 간 간세포 암종을 나타내는 지정 바이오시그니처는 SERPINA1, CEACAM16, KRT19, AFP, MUC4, CEACAM5, MSH2, BCL6, DSC3, KRT15, S100A6, CEACAM20, GPC3, MUC1, CD34, VIL1, ERBB2, POU5F1, KRT18, 및 KRT16로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xii. 폐암종을 나타내는 지정 바이오시그니처는 NAPSA, SOX2, CEACAM7, KRT7, S100A10, CEACAM6, S100A1, PAX8, AR, VHL, S100A13, CD99L2, KRT5, MUC1, CEACAM1, SFTPA1, TMPRSS2, TFF1, KRT15, 및 MUC4로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xiii. 흑색종을 나타내는 지정 바이오시그니처는 S100B, KRT8, PMEL, KRT19, MUC1, MLANA, S100A14, S100A13, MITF, S100A1, VIM, CDKN2A, ACVRL1, MS4A1, POU5F1, TPM1, UPK3A, S100P, GATA3, 및 CEACAM1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xiv. 수막종을 나타내는 지정 바이오시그니처는 SDC1, KRT8, ANO1, VIM, S100A14, S100A2, CEACAM1, MSH2, PGR, KRT10, TP63, CD5, INHA, CDH1, CCND1, MDM2, KRT16, SPN, SMARCB1, 및 S100A9로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xv. 메르켈 세포 암종을 나타내는 지정 바이오시그니처는 ISL1, ERBB2, S100A12, S100A14, MYOG, SDC1, KRT7, S100PBP, MME, TMPRSS2, CEACAM5, CPS1, CR1, MUC4, CEACAM4, CA9, ENO2, FLI1, LIN28B, 및 MLANA로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xvi. 신경내분비를 나타내는 지정 바이오시그니처는 NCAM1, ISL1, ENO2, POU5F1, TFF3, SYP, TPM4, S100A1, S100Z, MUC4, MPO, DSC3, CEACAM4, S100A7, ERBB2, CDX2, S100A11, KRT10, CEACAM5, 및 CEACAM3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xvii. 난소 과립막 세포 종양을 나타내는 지정 바이오시그니처는 FOXL2, SDC1, MSH6, MUC1, KRT8, PGR, MME, SERPINA1, FLI1, S100B, CEACAM21, AMACR, KRT1, SFTPA1, TPM1, CALCA, S100A11, NCAM1, ISL1, 및 ENO2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xviii. 난소, 나팔관, 복막을 나타내는 지정 바이오시그니처는 WT1, PAX8, INHA, TFE3, S100A13, FOXL2, TLE1, MSLN, POU5F1, CEACAM3, ALPP, S100A10, FUT4, NKX3-1, CEACAM5, SOX2, ESR1, ENO2, ACVRL1, 및 SYP로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xix. 췌장암종을 나타내는 지정 바이오시그니처는 PDX1, GATA3, ANO1, SERPINA1, ISL1, MUC5AC, FUT4, SMAD4, CD5, CALB2, S100A4, SMN1, ESR1, HNF1B, AMACR, MSH2, PDPN, MSLN, TFF1, 및 KRT6C로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xx. 흉막중피종을 나타내는 지정 바이오시그니처는 UPK3B, CALB2, WT1, SMARCB1, PDPN, INHA, CEACAM1, MSLN, KRT5, CA9, S100A13, SF1, CDH1, CDKN2A, FLI1, SYP, CEACAM3, CPS1, SATB2, 및 BCL6로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxi. 전립선 선암종을 나타내는 지정 바이오시그니처는 KRT7, KLK3, NKX3-1, AMACR, S100A5, MUC1, MUC2, UPK3A, KL, CPS1, MSLN, PMEL, CNN1, SERPINA1, KRT2, CGB3, TMPRSS2, CEACAM6, SDC1, 및 AR로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxii. 후복막을 나타내는 지정 바이오시그니처는 KRT19, KRT18, KRT8, TPM1, S100A14, CD34, TPM4, CDH1, CNN1, SDC1, AR, MDM2, KIT, TLE1, CPS1, CDK4, UPK3A, TMPRSS2, TPM3, 및 CEACAM1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxiii. 침샘 및 이하선을 나타내는 지정 바이오시그니처는ENO2, PIP, TPM1, KRT14, S100A1, ERBB2, TFF1, ALPP, DSC3, CTNNB1, CALB2, SALL4, ANO1, CEACAM16, HNF1B, KIT, ARG1, CEACAM18, TMPRSS2, 및 HAVCR1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxiv. 소장 선암종을 나타내는 지정 바이오시그니처는 PDX1, DES, MUC2, CDH17, CEACAM5, SERPINA1, KRT20, HNF1B, ESR1, ARG1, CD5, TLE1, PMEL, SOX2, SFTPA1, MME, CD99L2, MPO, S100P, 및 CA9로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxv. 편평세포암종을 나타내는 지정 바이오시그니처는 TP63, SOX2, KRT6A, KRT17, S100A1, CD3G, SFTPA1, AR, KRT5, SDC1, KRT20, DSC3, CNN1, MSH2, ESR1, S100A2, SERPINB5, PDPN, S100A14, 및 TPM3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxvi. 갑상선 암종을 나타내는 지정 바이오시그니처는 TG, PAX8, CPS1, S100A2, TPSAB1, CALB2, HNF1B, INHA, ARG1, CNN1, CDK4, VIM, CEACAM5, TLE1, TFF3, KRT8, S100P, FOXL2, MUC1, 및 GATA3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxvii. 요로상피암종을 나타내는 지정 바이오시그니처는 GATA3, UPK2, KRT20, MUC1, S100A2, CPS1, TP63, CALB2, MITF, S100P, SERPINA1, DES, CTNNB1, MSLN, SALL4, VHL, KRT7, CD2, PAX8, 및 UPK3A로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, 및/또는
    xxviii. 자궁을 나타내는 지정 바이오시그니처는 KRT19, KRT18, NCAM1, DES, FOXL2, CD79A, S100A14, ESR1, MSLN, MITF, UPK3B, TPM1, ENO2, S100P, MLH1, KRT8, CDH1, TPM4, SATB2, 및 MDM2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함하는, 방법.
  50. 제37항 내지 제48항 중 어느 한 항에 있어서, 암의 적어도 하나의 속성, 선택사항으로서 장기 유형을 나타내는 적어도 하나의 지정 바이오시그니처는 표 119에 따른 바이오마커의 선택을 포함하며, 선택적으로:
    i. 부신을 나타내는 지정 바이오시그니처는 INHA, CDH1, SYP, MIB1, CALB2, KRT8, PSAP, KRT19, NCAM2, NKX3-1, ARG1, SERPINA1, CD34, TPM3, S100A7, ACVRL1, PMEL, CR1, ERG, 및 PECAM1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    ii. 방광을 나타내는 지정 바이오시그니처는 GATA3, KRT20, UPK2, CPS1, SALL4, SERPINA1, DES, CALB2, MUC1, S100A2, MSLN, MITF, PAX8, S100A10, CNN1, UPK3A, CD3G, NAPSA, CD2, 및 MME로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    iii. 뇌를 나타내는 지정 바이오시그니처는 KRT8, ANO1, S100B, S100A14, SOX2, PDPN, CEACAM1, S100A2, NCAM1, MSH2, KRT18, NKX2-2, WT1, S100A1, GPC3, TLE1, CD5, S100Z, S100A16, 및 PGR로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    iv. 유방을 나타내는 지정 바이오시그니처는 GATA3, ANKRD30A, KRT15, KRT7, S100A2, S100A1, MUC4, HNF1B, KRT18, SOX2, PIP, PAX8, MDM2, KRT16, MUC5AC, S100A6, TP63, TFF1, KRT5, 및 SERPINA1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    v. 결장을 나타내는 지정 바이오시그니처는 CDX2, KRT7, MUC2, KRT20, MUC1, CEACAM5, CDH17, TFF3, KRT18, KRT6B, VIL1, SATB2, S100A6, SOX2, S100A14, HAVCR1, FUT4, ERG, HNF1B, 및 PTPRC로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    vi. 눈을 나타내는 지정 바이오시그니처는 PMEL, MLANA, MITF, BCL2, S100A13, S100A2, S100A10, S100A1, MIB1, SOX2, ENO2, S100A16, VIM, VHL, PDPN, WT1, S100B, KRT7, KRT10, 및 PSAP로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    vii. 여성 생식기 및 복막(FGTP)을 나타내는 지정 바이오시그니처는 PAX8, ESR1, WT1, PGR, CDKN2A, FOXL2, KRT5, TPM4, SMARCB1, DES, TMPRSS2, CDK4, GATA3, AR, S100A13, MSH2, ANO1, CALB2, MS4A1, 및 CCND1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    viii. 위식도를 나타내는 지정 바이오시그니처는 CDX2, ANO1, FUT4, SERPINB5, SPN, NCAM2, VIL1, CD34, ENO2, TFF3, AR, S100A13, TPM1, CEACAM6, SOX2, PAX8, MUC5AC, CDH1, S100A11, 및 ISL1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    ix. 두부, 안면 또는 경부, NOS를 나타내는 지정 바이오시그니처는 KRT5, DSC3, TP63, HNF1B, MUC5AC, PAX5, KRT15, PGR, S100A6, TMPRSS2, MME, S100B, ENO2, CEACAM8, SALL4, ANO1, GATA3, LIN28B, CD99L2, 및 UPK3A로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    x. 신장을 나타내는 지정 바이오시그니처는 PAX8, CDH1, HNF1B, S100A14, HAVCR1, CDKN2A, S100P, KL, KRT7, S100A13, VHL, PAX2, POU5F1, MUC1, AMACR, ENO2, MDM2, WT1, SYP, 및 AR로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xi. 간, 담낭, 담관을 나타내는 지정 바이오시그니처는 SERPINA1, VIL1, HNF1B, ANO1, ESR1, SOX2, MUC4, S100A2, ENO2, CNN1, POU5F1, KRT5, S100A9, UPK3B, PSAP, KRT7, KL, TMPRSS2, SATB2, 및 S100A14로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xii. 폐를 나타내는 지정 바이오시그니처는 NAPSA, SOX2, SFTPA1, VHL, S100A1, S100A10, AR, TMPRSS2, CD99L2, CEACAM7, CEACAM6, KRT6A, KRT7, NCAM2, TP63, CEACAM1, MUC4, KRT20, CNN1, 및 ISL1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xiii. 췌장을 나타내는 지정 바이오시그니처는 PDX1, ANO1, SERPINA1, GATA3, ISL1, MUC5AC, SMAD4, FUT4, CD5, SMN1, NKX2-2, TFF1, AMACR, SOX2, HNF1B, S100Z, MSLN, DES, S100A4, 및 CALB2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xiv. 전립선을 나타내는 지정 바이오시그니처는KLK3, KRT7, NKX3-1, AMACR, CPS1, S100A5, UPK3A, KL, MUC1, CGB3, MUC2, TMPRSS2, MSLN, PMEL, S100A10, SERPINA1, KRT20, SFTPA1, BCL6, 및 TFF1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xv. 피부를 나타내는 지정 바이오시그니처는 S100B, KRT8, PMEL, KRT7, KRT19, GATA3, MDM2, AMACR, TPM1, TLE1, CEACAM19, CEACAM16, MLANA, TMPRSS2, AR, TFF3, BCL6, CR1, NCAM1, 및 MS4A1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xvi. 소장을 나타내는 지정 바이오시그니처는 MUC2, CDH17, FLI1, KRT20, CDX2, CD5, KRT7, MPO, CNN1, DSC3, DES, ANO1, S100A1, CALD1, TFF1, SPN, MITF, TMPRSS2, CALB2, 및 CEACAM16로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, 및/또는
    xvii. 갑상선을 나타내는 지정 바이오시그니처는 PAX8, TG, CPS1, SERPINB5, INHA, ARG1, CNN1, CEACAM5, TPSAB1, CALB2, HNF1B, VIM, CDK4, S100P, S100A2, LIN28B, TFF3, CGA, TLE1, 및 TPM3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함하는, 방법.
  51. 제37항 내지 제48항 중 어느 한 항에 있어서, 암의 적어도 하나의 속성, 선택사항으로서 조직학(histology)을 나타내는 적어도 하나의 지정 바이오시그니처는 표 120에 따른 바이오마커의 선택을 포함하며, 선택적으로:
    i. 선암종을 나타내는 지정 바이오시그니처는 TMPRSS2, HNF1B, KRT5, MUC1, CEACAM5, MUC5AC, CDH17, TP63, ALPP, GATA3, CEACAM1, TFF3, S100A1, KRT8, PDX1, KRT17, CDH1, KLK3, CPS1, 및 S100A2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    ii. 샘낭암종을 나타내는 지정 바이오시그니처는 KRT14, KIT, TPM3, CGA, SMAD4, CTNNB1, DSC3, S100A6, TP63, TPM1, CALD1, MIB1, CD2, CDH1, ANO1, ENO2, CD3G, TPM2, CEACAM1, 및 BCL2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    iii. 선편평암종을 나타내는 지정 바이오시그니처는 TP63, SFTPA1, OSCAR, KRT19, KRT15, NAPSA, GPC3, MS4A1, S100A12, ERG, CEACAM6, VHL, SOX2, SERPINA1, KRT6A, CDKN2A, CD3G, PIP, NCAM2, 및 CEACAM7로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    iv. 부신피질암종을 나타내는 지정 바이오시그니처는 MIB1, INHA, CDH1, SYP, CALB2, NKX3-1, KRT19, ERBB2, MUC1, ARG1, VIM, CD34, CALD1, S100A9, MSLN, S100A10, CD5, PMEL, SDC1, 및 TP63로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    v. 성상세포종을 나타내는 지정 바이오시그니처는 S100B, SOX2, NCAM1, MUC1, S100A4, KRT17, KRT8, S100A1, TPM4, CNN1, TPM2, OSCAR, AR, SDC1, SALL4, SMN1, SFTPA1, KIT, CA9, 및 S100A9로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    vi. 암종을 나타내는 지정 바이오시그니처는 GATA3, MITF, MUC5AC, PDPN, VIL1, CEACAM5, CDH1, CDH17, IL12B, S100P, KRT20, KRT7, SPN, TMPRSS2, ENO2, NKX2-2, PMEL, IMP3, BCL6, 및 S100A8로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    vii. 암육종을 나타내는 지정 바이오시그니처는 KRT6B, GPC3, MSLN, MUC1, S100A6, S100A2, MME, CDKN2A, CDH1, FOXL2, KRT7, CALB2, SFTPA1, ERG, PGR, KRT17, NAPSA, CALD1, LIN28B, 및 KIT로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    viii. 담관암종을 나타내는 지정 바이오시그니처는 SERPINA1, HNF1B, VIL1, TFF1, ENO2, NKX2-2, FUT4, MUC4, MLH1, TMPRSS2, WT1, KL, KRT7, ESR1, MDM2, SFTPA1, SMN1, KRT18, UPK3B, 및 COQ2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    ix. 투명세포암종을 나타내는 지정 바이오시그니처는 POU5F1, HAVCR1, CEACAM6, HNF1B, PAX8, NAPSA, CD34, MYOG, FOXL2, MITF, S100P, S100A9, S100A14, S100Z, WT1, CDH1, TTF1, SYP, MLH1, 및 KRT16로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    x. 상피내유관암(DCIS)을 나타내는 지정 바이오시그니처는 GATA3, HNF1B, DES, MME, ANKRD30A, SATB2, SOX2, NCAM2, PAX8, CEACAM4, PIP, MUC4, NKX3-1, SERPINA1, KRT20, KIT, NCAM1, KRT14, S100A2, 및 CDKN2A로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xi. 교모세포종(GBM)을 나타내는 지정 바이오시그니처는 S100B, KRT18, PDPN, NKX2-2, SOX2, NCAM1, KRT8, ERBB2, KRT15, KRT19, GATA3, CDKN2A, BCL6, S100A14, KRT10, UPK3A, SF1, CA9, CCND1, 및 KRT5로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xii. GIST을 나타내는 지정 바이오시그니처는 ANO1, SDC1, MUC1, KRT19, KRT8, ACVRL1, KIT, ERBB2, CDH1, CEACAM19, FUT4, TFF3, S100A16, S100A13, ISL1, S100A9, TPSAB1, KRT18, IMP3, 및 KRT3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xiii. 신경교종을 나타내는 지정 바이오시그니처는 KRT8, S100B, SYP, NCAM2, CD3G, SDC1, SOX2, CEACAM1, POU5F1, MIB1, SATB2, MDM2, NCAM1, KRT7, CGB3, CPS1, PDPN, CALCA, ERBB2, 및 TNFRSF8로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xiv. 과립막 세포 종양을 나타내는 지정 바이오시그니처는 FOXL2, SDC1, MSH6, KRT18, KRT8, MME, FLI1, S100A9, CALCA, S100B, CCND1, CEACAM21, TLE1, SERPINA1, S100A11, SFTPA1, SYP, NCAM2, CD3G, 및 SOX2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xv. 침윤성 소엽암을 나타내는 지정 바이오시그니처는 CDH1, GATA3, S100A1, TFF3, CA9, MUC1, NKX3-1, ANKRD30A, SOX2, S100A5, MUC4, KRT7, OSCAR, MME, SERPINA1, CDK4, AR, CEACAM3, BCL6, 및 KRT5로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xvi. 평활근육종을 나타내는 지정 바이오시그니처는 KRT19, KRT8, KRT18, CNN1, TPM4, FOXL2, TPM2, TPM1, CD79A, CALB2, SATB2, S100A5, DES, S100A14, KRT2, ERBB2, PDPN, ENO2, CD2, 및 CALD1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xvii. 지방육종을 나타내는 지정 바이오시그니처는 KRT18, MDM2, CDK4, CDH1, KRT19, KRT7, PDPN, CD34, TPM4, CR1, ACVRL1, MME, KRT8, AMACR, CEACAM5, S100B, OSCAR, LIN28A, S100A12, 및 SDC1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xviii. 흑색종을 나타내는 지정 바이오시그니처는 S100B, PMEL, KRT19, KRT8, MUC1, S100A14, MLANA, S100A13, TPM1, MITF, VIM, CEACAM19, POU5F1, SATB2, CPS1, CDKN2A, KRT10, AR, ACVRL1, 및 LIN28A로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xix. 수막종을 나타내는 지정 바이오시그니처는 SDC1, KRT8, S100A14, ANO1, CEACAM1, VIM, KRT10, PGR, MSH2, CD5, S100A2, CDH1, TP63, SMARCB1, KRT16, S100A10, S100A4, DSC3, CCND1, 및 GATA3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xx. 메르켈 세포 암종을 나타내는 지정 바이오시그니처는 ISL1, ERBB2, MME, MYOG, CPS1, KRT7, SALL4, S100A12, S100A14, S100PBP, CR1, SMAD4, CEACAM5, MUC4, CA9, KRT10, SYP, CCND1, MSLN, 및 MLANA로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxi. 중피종을 나타내는 지정 바이오시그니처는 UPK3B, CALB2, PDPN, SMARCB1, MSLN, KRT5, CEACAM3, WT1, INHA, CEACAM1, CA9, TLE1, SATB2, CDH1, MUC2, CDKN2A, CEACAM18, MSH2, DSC3, 및 PTPRC로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxii. 신경내분비를 나타내는 지정 바이오시그니처는ISL1, NCAM1, S100A11, ENO2, S100A1, SYP, MUC1, TFF3, S100Z, PAX8, ERBB2, ESR1, S100A10, CEACAM5, SDC1, MUC4, MPO, S100A4, S100A7, 및 TP63로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxiii. 비소세포 암종을 나타내는 지정 바이오시그니처는 ESR1, TMPRSS2, AR, S100A1, SFTPA1, MSLN, SOX2, ENO2, TP63, SMAD4, PTPRC, ISL1, CEACAM7, CEACAM20, S100Z, INHA, NCAM1, MUC2, TFF3, 및 PAX8로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxiv. 희소돌기아교종을 나타내는 지정 바이오시그니처는 NCAM1, KRT18, CD2, S100A11, SYP, CDH1, S100A4, S100A14, CEACAM1, S100PBP, SDC1, SALL4, UPK2, COQ2, TPM2, CD99L2, TTF1, CD79A, INHA, 및 VIM로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxv. 육종을 나타내는 지정 바이오시그니처는 NCAM1, KRT19, S100A14, NKX2-2, KRT2, KRT7, SATB2, MYOG, CALD1, CEACAM19, CA9, KRT15, CDKN2A, S100P, WT1, TMPRSS2, S100A7, SERPINB5, DSC3, 및 ENO2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxvi. 육종암종을 나타내는 지정 바이오시그니처는MME, VIM, S100A14, CD99L2, S100A11, NKX3-1, SATB2, CPS1, MSLN, SFTPA1, POU5F1, CDH1, OSCAR, S100A5, IMP3, CEACAM1, PMS2, NCAM2, KRT15, 및 S100A12로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxvii. 장액을 나타내는 지정 바이오시그니처는 WT1, PAX8, KRT7, CDKN2A, MSLN, ACVRL1, SATB2, CDK4, DSC3, AR, S100A16, ANO1, S100A5, SDC1, IMP3, SERPINA1, KRT4, ESR1, FOXL2, 및 KRT15로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함,
    xxviii. 소세포 암종을 나타내는 지정 바이오시그니처는 NCAM1, ISL1, PAX5, KIT, MUC4, S100A10, MUC1, CTNNB1, MITF, NKX2-2, S100A11, SMN1, MSLN, S100A6, BCL2, SYP, KL, CGB3, TPSAB1, TFF3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함함, 및/또는
    xxix. 편평(squamous)을 나타내는 지정 바이오시그니처는 TP63, KRT5, KRT17, SOX2, AR, CD3G, KRT6A, S100A1, DSC3, SERPINB5, HNF1B, SDC1, S100A6, TPSAB1, KRT20, HAVCR1, TTF1, MSH2, PMS2, 및 CNN1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 특징으로 구성되거나 포함하는, 방법.
  52. 제37항 내지 제51항 중 어느 한 항에 있어서, 암의 적어도 하나의 속성을 나타내는 적어도 하나의 지정 바이오시그니처는 청구항 제49항, 제50항 및/또는 제51항에 따른 바이오마커의 선택을 포함하는, 방법.
  53. 제49항 내지 제52항 중 어느 한 항에 있어서, 단계(b)에서 하나 이상의 바이오마커를 평가하기 위한 적어도 하나의 분석은 DNA 분석 및/또는 발현 분석을 이용해 적어도 하나의 지정 바이오시그니처에서 마커를 평가하는 것을 포함하며:
    i. 상기 DNA 분석은 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 전좌, 융합, 절단, 복제, 증폭, 반복, 복제수, 복제수 변동(CNV; 복제수 변경; CNA), 또는 임의의 이들의 조합으로 구성되거나 포함함,
    ii. 상기 DNA 분석은, PCR(polymerase chain reaction), 원위치 혼성화, 증폭, 혼성화, 마이크로어레이, 핵산 시퀀싱, 염료 종단 시퀀싱, 파이로시퀀싱, 차세대 시퀀싱(NGS; 고처리율 시퀀싱), 전장 엑솜 시퀀싱, 또는 이들의 임의의 조합을 이용해 결정됨, 및/또는
    iii. 발현 분석은 RNA의 분석으로 구성되거나 포함하며, 선택적으로:
    i. RNA 분석은 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 전좌, 융합, 절단, 복제, 증폭, 반복, 복제수, 양, 레벨, 발현 레벨, 존재여부, 또는 임의의 이들의 조합으로 구성되거나 포함함, 및/또는
    ii. RNA 분석은, PCR(polymerase chain reaction), 원위치 혼성화, 증폭, 혼성화, 마이크로어레이, 핵산 시퀀싱, 염료 종단 시퀀싱, 파이로시퀀싱, 차세대 시퀀싱(NGS; 고처리율 시퀀싱), 전장 전사체 시퀀싱, 또는 이들의 임의의 조합을 이용해 결정되고,
    iv. 발현 분석은 단백질의 분석으로 구성되거나 포함하며, 선택적으로:
    i. 단백질 분석은 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 융합, 증폭, 양, 레벨, 발현 레벨, 존재여부, 또는 임의의 이들의 조합으로 구성되거나 포함함, 및/또는
    ii. 단백질 분석은 IHC(immunohistochemistry), 유세포 분석, 면역분석, 항체 또는 기능 단면, 압타머, 질량 분석, 또는 이들의 임의의 조합을 이용해 수행되는, 방법.
  54. 제53항에 있어서, 단계(b)에서 하나 이상의 바이오마커를 평가하기 위한 분석을 수행하는 것은 DNA 분석 및 RNA 분석의 조합, DNA 분석 및 단백질 분식의 조합, RNA 분석 및 단백질 분석의 조합, 또는 DNA 분석, RNA 분석, 및 단백질 분석의 조합을 이용해 적어도 하나의 지정 바이오시그니처에서 마커를 평가하는 것을 포함하는, 방법.
  55. 제53항 또는 제54항에 있어서, 단계(b)에서 하나 이상의 바이오마커를 평가하기 위한 분석을 수행하는 것은 메신저 RNA 전사체의 RNA 분석을 포함하는, 방법.
  56. 제37항 내지 제55항 중 어느 한 항에 있어서, 암의 적어도 하나의 속성, 선택사항으로서 원발 종양 기원을 나타내는 적어도 하나의 지정 바이오시그니처는 표 6i-ac 중 적어도 하나에 따른 바이오마커의 선택을 포함하며, 선택적으로:
    i. 유방 선암종을 나타내는 지정 바이오시그니처는 GATA3, CDH1, PAX8, KRAS, ELK4, CCND1, MECOM, PBX1, CREBBP로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 GATA3, NY-BR-1, KRT15, CK7, S100A2, RCCMa, MUC4, CK18, HNF1B 및 S100A1에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    ii. 중추신경계 암을 나타내는 지정 바이오시그니처는 IDH1, SOX2, OLIG2, MYC, CREB3L2, SPECC1, EGFR, FGFR2, SETBP1, 및 ZNF217로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 S100B, CK18, CK8, SOX2, DOG1, CD56, PDPN, NKX2-2, CK19, 및 S100A14에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    iii. 자궁경부 선암종을 나타내는 지정 바이오시그니처는 TP53, MECOM, RPN1, U2AF1, GNAS, RAC1, KRAS, FL11, EXT1, 및 CDK6로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 ER, p16, CYCLIND1, LIN28A, PR, SMARCB1, CEACAM4, S100B, CD15, 및 PSAP에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    iv. 담관암을 나타내는 지정 바이오시그니처는 TP53, ARID1A, MAF, KRAS, CACNA1D, SPEN, SETBP1, CDK12, LHFPL6, 및 MDS2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 HNF1B, VILLIN, ANTITRYPSIN, ER, DOG1, SOX2, MUC4, S100A2, KRT5, 및 CK7에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    v. 결장 선암종을 나타내는 지정 바이오시그니처는 APC, CDX2, KRAS, SETBP1, FLT3, LHFPL6, CDKN2A, FLT1, ASXL1, 및 CDKN2B로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 CDX2, CK7, MUC2, CK20, MUC1, SATB2, VILLIN, CEACAM5, CDK17, 및 S100A6에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    vi. 위식도 선암을 나타내는 지정 바이오시그니처는 CDX2, ERG, TP53, KRAS, U2AF1, ZNF217, CREB3L2, IRF4, TCF7L2, 및 LHFPL6로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 CD15, CDX2, MASPIN, MUC5AC, AR, TFF1, NCAM2, TFF3, ISL1, 및 DOG1에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    vii. 위장관 기질 종양(GIST)을 나타내는 지정 바이오시그니처는 c-KIT (KIT), TP53, MAX, PDGFRA, TSHR, MSI2, SPEN, JAK1, SETBP1, 및 CDH11로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 DOG1, CD138, CK19, MUC1, CK8, ACVRL1, KIT, E-CADHERIN, S100A2, 및 CK7에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    viii. 간세포암을 나타내는 지정 바이오시그니처는 HLF, CACNA1D, HMGN2P46, KRAS, FANCF, PRCC, ERG, FLT1, FGFR1, 및 ACSL6로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 ANTITRYPSIN, CEACAM16, CK19, AFP, MUC4, CEACAM5, MSH2, BCL6, DSC3, 및 KRT15에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    ix. 폐선암종을 나타내는 지정 바이오시그니처는 NKX-2, KRAS, TP53, TPM4, CDX2, TERT, FOXA1, SETBP1, CDKN2A, 및 LHFPL6로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 Napsin A, SOX2, CEACAM7, CK7, S100A10, CEACAM6, S100A1, RCCMa, AR 및 VHL에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    x. 흑색종을 나타내는 지정 바이오시그니처는 IRF4, SOX10, TP53, BRAF, FGFR2, TRIM27, EP300, CDKN2A, LRP1B, 및 NRAS로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 S100B, CK8, HMB-45, CD19, MUC1, MLANA, S100A14, S100A13, MITF, 및 S100A1에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    xi. 수막종을 나타내는 지정 바이오시그니처는 CHEK2, TP53, MYCL, THRAP3, MPL, EBF1, EWSR1, PMS2, FLI1, 및 NTRK2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 CD138, CK8, DOG1, VIM, S100A14, S100A2, CEACAM1, MSH2, PR, 및 KRT10에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    xii. 난소 과립막 세포 종양을 나타내는 지정 바이오시그니처는 FOXL2, TP53, EWSR1, CBFB, SPECC1, BCL3, MYH9, TSHR, GID4, 및 SOX2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 FOXL2, CD138, MSH6, MUC1, CK8, PR, MME, ANTITRYPSIN, FLI1, 및 S100B에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    xiii. 난소 및 나팔관 선암종을 나타내는 지정 바이오시그니처는 TP53, MECOM, KRAS, TPM4, RAC1, ASXL1, EP300, CDX2, RPN1, 및 WT1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 WT1, RCCMa, INHIBIN-alpha, TFE3, S100A13, FOLX2, TLE1, MSLN, POU5F1, 및 CEACAM3에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    xiv. 췌장 선암종을 나타내는 지정 바이오시그니처는 KRAS, CDKN2A, CDKN2B, FANCF, IRF4, TP53, ASXL1, SETBP1, APC, 및 FOXO1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 PDX1, GATA3, DOG1, ANTITRYPSIN, ISL1, MUC5AC, CD15, SMAD4, CD5, 및 CALB2에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    xv. 전립선 선암종을 나타내는 지정 바이오시그니처는 FOXA1, PTEN, KLK2, FOXO1, GATA2, FANCA, LHFPL6, KRAS, ETV6, 및 ERCC3로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 CK7, PSA, NKX3-1, AMACR, S100A5, MUC1, MUC2, UPK3A, KL 및 HEPPAR-1에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    xvi. 신세포암종을 나타내는 지정 바이오시그니처는 VHL, TP53, EBF1, MAF, RAF1, CTNNA1, XPC, MUC1, KRAS, 및 BTG1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 RCCMa, E-CADHERIN, p16, S100P, S100A14, HAVCR1, HNF1B, KL, CK7, 및 MUC1에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    xvii. 편평 세포 암종을 나타내는 지정 바이오시그니처는 TP53, SOX2, KLHL6, CDKN2A, LPP, CACNA1D, TFRC, KRAS, RPN1, 및 CDX2로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 P63, SOX2, CK6, KRT17, S100A1, CD3G, SFTPA1, AR, KRT5, 및 CD138에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    xviii. 갑상선 암을 나타내는 지정 바이오시그니처는 BRAF, NKX2-1, TP53, MYC, KDSR, TRRAP, CDX2, KRAS, FHIT, 및 SETBP1로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 THYROGLOBULIN, RCCMa, HEPPAR-1, S100A2, TPSAB1, CALB2, HNF1B, INHIBIN-alpha, ARG1, 및 CNN1에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    xix. 요로상피암을 나타내는 지정 바이오시그니처는 GATA3, ASXL1, CDKN2B, TP53, CTNNA1, CDKN2A, KRAS, IL7R, CREBBP, 및 VHL로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 GATA3, UPII, CK20, MUC1, S100A2, HEPPAR-1, P63, CALB2, MITF, 및 S100P에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    xx. 자궁내막선암종을 나타내는 지정 바이오시그니처는 PTEN, PAX8, PIK3CA, CCNE1, TP53, MECOM, ESR1, CDX2, CDKN2A, 및 KRAS로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 RCCMa, PR, ER, VHL, CALD1, LIN28B, Napsin A, KRT5, S100A6, 및 DES에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함함,
    xxi. 자궁 육종을 나타내는 지정 바이오시그니처는 RB1, SPECC1, FANCC, TP53, CACNA1D, JAK1, ETV1, PRRX1, PTCH1, 및 HOXD13로부터 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 특징의 DNA 분석 및/또는 CK19, CK18, CD56, DES, FOXL2, CD79A, S100A14, ER, MSLN, 및 MITF에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 특징의 발현 분석을 포함하는, 방법.
  57. 제56항에 있어서,
    i. 상기 DNA 분석은 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 전좌, 융합, 절단, 복제, 증폭, 반복, 복제수, 복제수 변동(CNV; 복제수 변경; CNA), 또는 임의의 이들의 조합으로 구성되거나 포함함,
    ii. 상기 DNA 분석은, PCR(polymerase chain reaction), 원위치 혼성화, 증폭, 혼성화, 마이크로어레이, 핵산 시퀀싱, 염료 종단 시퀀싱, 파이로시퀀싱, 차세대 시퀀싱(NGS; 고처리율 시퀀싱), 전장 엑솜 시퀀싱, 또는 이들의 임의의 조합을 이용해 결정됨,
    iii. 발현 분석은 RNA의 분석으로 구성되거나 포함하며, 선택적으로:
    i. RNA 분석은 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 전좌, 융합, 절단, 복제, 증폭, 반복, 복제수, 양, 레벨, 발현 레벨, 존재여부, 또는 임의의 이들의 조합으로 구성되거나 포함함, 및/또는
    ii. RNA 분석은, PCR(polymerase chain reaction), 원위치 혼성화, 증폭, 혼성화, 마이크로어레이, 핵산 시퀀싱, 염료 종단 시퀀싱, 파이로시퀀싱, 차세대 시퀀싱(NGS; 고처리율 시퀀싱), 전장 전사체 시퀀싱, 또는 이들의 임의의 조합을 이용해 결정되고,
    iv. 발현 분석은 단백질의 분석으로 구성되거나 포함하며, 선택적으로:
    i. 단백질 분석은 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 융합, 증폭, 양, 레벨, 발현 레벨, 존재여부, 또는 임의의 이들의 조합으로 구성되거나 포함함, 및/또는
    ii. 단백질 분석은 IHC(immunohistochemistry), 유세포 분석, 면역분석, 항체 또는 기능 단면, 압타머, 질량 분석, 또는 이들의 임의의 조합을 이용해 수행되는, 방법.
  58. 제37항 내지 제57항 중 어느 한 항에 있어서, 적어도 하나의 지정 바이오시그니처는 DNA 분석을 이용해 평가된 표 2-116 중 임의의 하나에 따른 바이오마커의 선택을 포함하거나 더 포함하며, DNA 분석은:
    i. 서열, 돌연변이, 다형성, 결실, 삽입, 치환, 전좌, 융합, 절단, 복제, 증폭, 반복, 복제수, 복제수 변동(CNV; 복제수 변경; CNA), 또는 임의의 이들의 조합으로 구성되거나 포함함, 및/또는
    ii. 상기 DNA 분석은, PCR(polymerase chain reaction), 원위치 혼성화, 증폭, 혼성화, 마이크로어레이, 핵산 시퀀싱, 염료 종단 시퀀싱, 파이로시퀀싱, 차세대 시퀀싱(NGS; 고처리율 시퀀싱), 전장 엑솜 시퀀싱, 또는 이들의 임의의 조합을 이용해 결정되는, 방법.
  59. 제58항에 있어서, 표 2-116 중 임의의 하나에 따른 바이오마커의 선택을 포함하는 적어도 하나의 지정 바이오시그니처는:
    i. 부신 피질 상피암 기원을 나타내는 지정 바이오시그니처는 표 2에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    ii. 항문 편평 상피암종 기원을 나타내는 지정 바이오시그니처는 표 3에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    iii. 충수돌기 선암종 기원을 나타내는 지정 바이오시그니처는 표 4에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    iv. 충수돌기 점액성 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 5에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    v. 담관 NOS 기원을 나타내는 지정 바이오시그니처는 표 6에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    vi. 뇌 성상세포종 NOS 기원을 나타내는 지정 바이오시그니처는 표 7에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    vii. 뇌 성상세포종 역형성 기원을 나타내는 지정 바이오시그니처는 표 8에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    viii. 유방 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 9에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    ix. 유방 선종 NOS를 나타내는 지정 바이오시그니처는 표 10에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    x. 유방 침윤관 선암종 기원을 나타내는 지정 바이오시그니처는 표 11에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xi. 유방 침윤성 소엽 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 12에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xii. 유방 화생암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 13에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xiii. 자궁경부 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 14에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xiv. 자궁경부 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 15에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xv. 자궁경부 편평상피암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 16에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xvi. 결장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 17에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xvii. 결장 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 18에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xviii. 결장 점액성 선암종 기원을 나타내는 지정 바이오시그니처는 표 19에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xix. 결막 악성 흑색종 NOS 기원을 나타내는 지정 바이오시그니처는 표 20에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xx. 십이지장 및 팽대 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 21에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxi. 자궁내막양 선암종 기원을 나타내는 지정 바이오시그니처는 표 22에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxii. 자궁내막 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 23에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxiii. 자궁내막 암육종(endometrial carcinosarcoma) NOS 기원을 나타내는 지정 바이오시그니처는 표 24에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxiv. 자궁내막 장액성 암종 기원을 나타내는 지정 바이오시그니처는 표 25에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxv. 자궁내막 암종(endometrium carcinoma) NOS 기원을 나타내는 지정 바이오시그니처는 표 26에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxvi. 미분화 자궁내막 암종 기원을 나타내는 지정 바이오시그니처는 표 27에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxvii. 자궁내막 투명 세포 암종 기원을 나타내는 지정 바이오시그니처는 표 28에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxviii. 식도 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 29에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxix. 식도 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 30에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxx. 식도 편평 상피 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 31에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxxi. 간외 담낭성 담낭선암 NOS 기원을 나타내는 지정 바이오시그니처는 표 32에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxxii. 나팔관 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 33에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxxiii. 나팔관 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 34에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxxiv. 나팔관 암육종 NOS 기원을 나타내는 지정 바이오시그니처는 표 35에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxxv. 나팔관 장액성 암종 기원을 나타내는 지정 바이오시그니처는 표 36에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxxvi. 위 선암종 기원을 나타내는 지정 바이오시그니처는 표 37에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxxvii. 위식도 접합부 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 38에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxxviii. 교모세포종 기원을 나타내는 지정 바이오시그니처는 표 39에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xxxix. 신경교종 NOS 기원을 나타내는 지정 바이오시그니처는 표 40에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xl. 교육종 기원을 나타내는 지정 바이오시그니처는 표 41에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xli. 두부, 안면 또는 경부 NOS 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 42에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xlii. 간내 담관 담관암 기원을 나타내는 지정 바이오시그니처는 표 43에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xliii. 신장 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 44에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xliv. 신장 투명 세포 암종 기원을 나타내는 지정 바이오시그니처는 표 45에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xlv. 신장 유두상 신세포 암종 기원을 나타내는 지정 바이오시그니처는 표 46에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xlvi. 신장 신세포 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 47에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xlvii. 후두 NOS 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 48에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xlviii. 왼쪽 결장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 49에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xlix. 왼쪽 결장 점액성 선암종 기원을 나타내는 지정 바이오시그니처는 표 50에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    l. 간 간세포 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 51에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    li. 폐 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 52에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lii. 폐 선편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 53에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    liii. 폐 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 54에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    liv. 폐 점액성 암종 기원을 나타내는 지정 바이오시그니처는 표 55에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lv. 폐 신경내분비 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 56에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lvi. 폐 비소세포 암종 기원을 나타내는 지정 바이오시그니처는 표 57에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lvii. 폐 육종 암종 기원을 나타내는 지정 바이오시그니처는 표 58에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lviii. 폐 소세포 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 59에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lix. 폐 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 60에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lx. 수막 수막종 NOS 기원을 나타내는 지정 바이오시그니처는 표 61에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxi. 비인두 NOS 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 62에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxii. 희소돌기아교종 NOS 기원을 나타내는 지정 바이오시그니처는 표 63에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxiii. 재생불량성 희소돌기아교종 기원을 나타내는 지정 바이오시그니처는 표 64에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxiv. 난소 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 65에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxv. 난소 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 66에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxvi. 난소 암육종 기원을 나타내는 지정 바이오시그니처는 표 67에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxvii. 난소 투명 세포 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 68에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxviii. 난소 내막 선암종 기원을 나타내는 지정 바이오시그니처는 표 69에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxix. 난소 과립막 세포 종양 NOS 기원을 나타내는 지정 바이오시그니처는 표 70에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxx. 난소 고등급 장액성 암종 기원을 나타내는 지정 바이오시그니처는 표 71에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxi. 난소 저등급 장액성 암종 기원을 나타내는 지정 바이오시그니처는 표 72에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxii. 난소 점액성 선암종 기원을 나타내는 지정 바이오시그니처는 표 73에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxiii. 난소 장액성 암종 기원을 나타내는 지정 바이오시그니처는 표 74에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxiv. 췌장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 75에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxv. 췌장 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 76에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxvi. 췌장 점액성 선암종 기원을 나타내는 지정 바이오시그니처는 표 77에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxvii. 췌장 신경내분비암 NOS 기원을 나타내는 지정 바이오시그니처는 표 78에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxviii. 이하선 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 79에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxix. 복막 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 80에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxx. 복막 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 81에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxxi. 복막 장액성 암종 기원을 나타내는 지정 바이오시그니처는 표 82에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxxii. 흉막 중피종 NOS 기원을 나타내는 지정 바이오시그니처는 표 83에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxxiii. 전립선 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 84에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxxiv. 직장구불결장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 85에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxxv. 직장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 86에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxxvi. 직장 점액성 선암종 기원을 나타내는 지정 바이오시그니처는 표 87에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxxvii. 역분화 후복막 지방육종 기원을 나타내는 지정 바이오시그니처는 표 88에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxxviii. 후복막 평활근육종 NOS 기원을 나타내는 지정 바이오시그니처는 표 89에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    lxxxix. 오른쪽 결장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 90에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xc. 오른쪽 결장 점액성 선암종 기원을 나타내는 지정 바이오시그니처는 표 91에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xci. 침샘 낭성 암종 기원을 나타내는 지정 바이오시그니처는 표 92에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xcii. 피부 메르켈 세포 암종 기원을 나타내는 지정 바이오시그니처는 표 93에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xciii. 피부 결절 흑색종 기원을 나타내는 지정 바이오시그니처는 표94에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xciv. 피부 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 95에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xcv. 피부 흑색종 기원을 나타내는 지정 바이오시그니처는 표 96에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xcvi. 소장 위장관 기질 종양(GIST) NOS 기원을 나타내는 지정 바이오시그니처는 표 97에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xcvii. 소장 선암종 기원을 나타내는 지정 바이오시그니처는 표 98에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xcviii. 위 위장관 기질 종양(GIST) NOS 기원을 나타내는 지정 바이오시그니처는 표 99에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    xcix. 위 서명 고리 세포 선암종 기원을 나타내는 지정 바이오시그니처는 표 100에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    c. 갑상선 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 101에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    ci. 역형성 갑상선 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 102에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    cii. 갑상선 유두 암종 기원을 나타내는 지정 바이오시그니처는 표 103에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    ciii. 편도 구인두 혀 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 104에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    civ. 횡행 결장 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 105에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    cv. 요로상피 방광 선암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 106에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    cvi. 요로상피 방광 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 107에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    cvii. 요로상피 방광 편평 상피 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 108에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    cviii. 요로상피 암종 NOS 기원을 나타내는 지정 바이오시그니처는 표 109에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    cix. 자궁내막 기질 육종 NOS 기원을 나타내는 지정 바이오시그니처는 표 110에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    cx. 자궁 평활육종 NOS 기원을 나타내는 지정 바이오시그니처는 표 111에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    cxi. 자궁 육종 NOS 기원을 나타내는 지정 바이오시그니처는 표 112에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    cxii. 포도막 흑색종 기원을 나타내는 지정 바이오시그니처는 표 113에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    cxiii. 질 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 114에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    cxiv. 외음부 편평 상피 암종 기원을 나타내는 지정 바이오시그니처는 표 115에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함함,
    cxv. 피부 간 흑색종 기원을 나타내는 지정 바이오시그니처는 표 116에서 선택된 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개의 특징으로 구성되거나 포함하는, 방법.
  60. 제58항 또는 제59항에 있어서, 표 2-116 중 임의의 하나에 따른 바이오마커의 선택은:
    i. 대응하는 표에서 최고 중요도 값을 갖는 특징 바이오마커의 상위 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 41%, 42%, 43%, 44%, 45%, 46%, 47%, 48%, 49%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%,
    ii. 대응하는 표에서 최고 중요도 값을 갖는 상위 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49 또는 50개의 특징 바이오마커,
    iii. 대응하는 표에서 최고 중요도 값을 갖는 상위 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50개의 특징 바이오마커의 적어도 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 41%, 42%, 43%, 44%, 45%, 46%, 47%, 48%, 40%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%, 및/또는
    iv. 대응하는 표에서 최고 중요도 값을 갖는 상위 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 60, 65, 70, 75, 80, 85, 90, 95, 또는 100개의 특징 바이오마커의 적어도 50%, 60%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%를 포함하는, 방법.
  61. 제37항 내지 제60항 중 어느 한 항에 있어서,
    i. 단계 (b)는 바이오시그니처의 적어도 하나의 구성원에 대한 유전자 복제수를 결정하는 단계를 포함하고, 단계 (d)는 유전자 복제수를 처리하는 단계를 포함함,
    ii. 단계 (b)는 바이오시그니처의 적어도 하나의 구성원에 대한 서열을 결정하는 단계를 포함하고, 단계 (d)는 서열을 처리하는 단계를 포함함,
    iii. 단계 (b)는 바이오시그니처의 복수의 구성원에 대한 서열을 결정하는 단계를 포함하고, 단계 (d)는 상기 서열을 기준 서열(가령, 와일드형)에 비교하여 미세부수체 반복을 식별하는 단계, 및 미세부수체 불안정성(MSI)을 갖는 바이오시그니처의 구성원을 식별하는 단계를 포함함,
    iv. 단계 (b)는 바이오시그니처의 복수의 구성원에 대한 서열을 결정하는 단계를 포함하고, 단계 (d)는 상기 서열을 기준 서열(가령, 와일드형)에 비교하여 종양 돌연변이 부담(TMB)을 식별하는 단계를 포함함, 및/또는
    v. 단계 (b)는 표 117-120 중 임의의 것 및/또는 INSM1에서 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 적어도 50개 유전자에 대한 mRNA 전사체 레벨을 결정하는 단계를 포함하고, 단계(d)는 전사체 레벨을 처리하는 단계를 포함하는, 방법.
  62. 제61항에 있어서, 바이오시그니처에서 유전자의 유전자 복제수, CNV 또는 CNA가 상기 유전자의 적어도 하나의 근접 영역의 복제수를 측정함으로써 결정되며, 선택적으로 근접 영역은 상기 유전자가 위치하는 염색체의 동일한 서브-밴드, 밴드 또는 팔 내 적어도 하나의 위치를 포함하는, 방법.
  63. 제49항 내지 제62항 중 어느 한 항에 있어서, 바이오시그니처 내 하나 이상의 바이오마커는 대응하는 표에서 기재된 바와 같이 평가되는, 방법.
  64. 제37항 내지 제63항 중 어느 한 항에 있어서, 모델은 복수의 중간 모델을 포함하고, 복수의 중간 모델은 적어도 하나의 쌍별 비교 모듈 및/또는 적어도 하나의 멀티-클래스 분류 모델을 포함하는, 방법.
  65. 제37항 내지 제64항 중 어느 한 항에 있어서, 모델은 바이오시그니처가 적어도 하나의 지정 바이오시그니처의 적어도 하나에 대응하는 통계적 측정을 계산하는, 방법.
  66. 제65항에 있어서, 단계 (d)에서의 처리는:
    i. 후보 지정 바이오시그니처 간 쌍별 비교(pairwise comparison) - 바이오시그니처가 적어도 하나의 지정 바이오시그니처의 쌍들 중 어느 하나에 대응할 확률이 계산됨 - , 및/또는
    ii. 적어도 하나의 멀티-클래스 분류 모델을 이용해 바이오시그니처를 평가하는 것을 포함하는, 방법.
  67. 제66항에 있어서, 청구항 66의 i)의 두 개의 후보 원발 종양 기원 간 쌍별 비교 및/또는 청구항 66의 ii)의 멀티-클래스 분류 모델이 머신 러닝 분류 알고리즘을 이용해 결정되며, 선택적으로 머신 러닝 분류 알고리즘은 부스트 트리(boosted tree)를 포함하는, 방법.
  68. 제66항 또는 제67항에 있어서, 청구항 66의 i)의 두 개의 후보 원발 종양 기원 간 쌍별 비교가 청구항 58-60 중 어느 한 항에 따르는 적어도 하나의 지정 바이오시그니처에 적용, 및/또는 청구항 66의 ii)의 멀티-클래스 분류 모델이 청구항 49-57 중 어느 한 항에 따르는 적어도 하나의 지정 바이오시그니처에 적용되는, 방법.
  69. 제64항 내지 제68항 중 어느 한 항에 있어서, 중간 모델 예측을 결정하는 단계를 더 포함하며, 중간 모델 예측은:
    i. 청구항 58 또는 59에 따른 지정 바이오시그니처의 적어도 하나의 쌍 간 공동 쌍별 비교에 의해 결정되는 암 유형,
    ii. 청구항 49에 따른 적어도 하나의 지정 바이오시그니처에 적용된 중간 멀티-클래스 모델에 의해 결정되는 암/질병 유형 - 선택적으로, 중간 멀티-클래스 모델은 청구항 49에 따른 지정 바이오시그니처의 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 또는 28개에 적용됨 - ,
    iii. 청구항 50에 따른 적어도 하나의 지정 바이오시그니처에 적용된 중간 멀티-클래스 모델에 의해 결정된 장기 군 유형 - 선택적으로 중간 멀티-클래스 모델은 청구항 50에 따른 지정 바이오시그니처의 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 또는 27개에 적용됨 - , 및/또는
    iv. 청구항 51에 따른 적어도 하나의 지정 바이오시그니처에 적용된 중간 멀티-클래스 모델에 의해 결정되는 조직학 - 선택적으로, 중간 멀티-클래스 모델은 청구항 51에 따른 지정 바이오시그니처의 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 또는 29개에 적용됨 - 을 포함하는, 방법.
  70. 제69항에 있어서, 단계 (d)의 처리는 청구항 69의 i)-iv) 각각의 출력을 단계 (e)에서 예측을 제공하는 최종 예측자 모델로 입력하는 것을 포함하고, 선택적으로 최종 예측자 모델은 머신 러닝 알고리즘을 포함하고, 선택적으로 머신 러닝 알고리즘은 부스트 트리를 포함하는, 방법.
  71. 제70항에 있어서, 암의 예측된 적어도 하나의 속성은, 부신 피질 상피암; 항문 편평 상피 암종; 충수돌기 선암종, NOS; 충수돌기 점액상 선암종; 담관, NOS, 담관암종; 뇌 성상세포종 역형성; 뇌 성상세포종, NOS; 유방 선암종, NOS; 유방 암종, NOS; 유방 침윤관 선암종; 유방 침윤성 소엽 암종, NOS; 유방 화생암종, NOS; 자궁경부 선암종, NOS; 자궁경부 암종, NOS; 자궁경부 편평 상피 암종; 결장 선암종, NOS; 결장 암종, NOS; 결장 점액상 선암종; 결막 악성 흑색종, NOS; 십이지장 및 팽대 선암종, NOS; 자궁내막 선암종, NOS; 자궁내막 암육종; 자궁내막양 선암종; 자궁내막 장액성 암종; 자궁내막 암종, NOS; 미분화 자궁내막 암종; 자궁내막 투명 세포 암종; 식도 선암종, NOS; 식도 암종, NOS; 식도 편평 상피 암종; 간외 담낭성 담낭선암 선암종, NOS; 나팔관 선암종, NOS; 나팔관 암종, NOS; 나팔관 암육종, NOS; 나팔관 장액성 암종; 위 선암종; 위식도 접합부 선암종, NOS; 교모세포종; 신경교종, NOS; 교육종; 두부, 안면, 또는 경부, NOS 편평 상피 암종; 간내 담관 담관암; 신장 암종, NOS; 신장 투명 세포 암종; 신장 유두상 신세포 암종; 신장 신세포 암종, NOS; 후두 NOS 편평 상피 암종; 왼쪽 결장 선암종, NOS; 왼쪽 결장 점액상 선암종; 간 간세포 암종, NOS; 폐 선암종, NOS; 폐 선편평 상피 암종; 폐 암종, NOS; 폐 점액상 선암종; 폐 신경내분비 암종, NOS; 폐 비-소세포 암종; 폐 육종 암종; 폐 소세포 암종, NOS; 폐 편평 상피 암종; 수막 수막종, NOS; 비인두, NOS 편평 상피 암종; 역형성 희소돌기아교종; 희소돌기아교종, NOS; 난소 선암종, NOS; 난소 암종, NOS; 난소 암육종; 난소 투명 세포 암종; 난소 내막양 선암종; 난소 과립성 세포 종양, NOS; 난소 고등급 장액성 암종; 난소 저등급 장액성 암종; 난소 점액상 선암종; 난소 장액성 암종; 췌장 선암종, NOS; 췌장 암종, NOS; 췌장 점액상 선암종; 췌장 신경내분비 암종, NOS; 이하선 암종, NOS; 복막 선암종, NOS; 복막 암종, NOS; 복막 장액성 암종; 흉막 중피종, NOS; 전립선 선암종, NOS; 직장구불 선암종, NOS; 직장 선암종, NOS; 직장 점액상 선암종; 역분화 직장복막 지방종; 직장복막 펼활근육종, NOS; 오른쪽 결장 선암종, NOS; 오른쪽 결장 점액상 선암종; 침샘 낭성 암종; 피부 흑색종; 피부 흑색종; 피부 메르켈 세포 암종; 피부 결절 흑색종; 피부 편평 상피 암종; 피부 간 흑색종; 소장 선암종; 소장 위장관기질 종양, NOS; 위 위장관기질 종양, NOS; 위 서명 고리 세포 선암종; 역형성 갑상선 암종, NOS; 갑상선 암종, NOS; 갑상선의 갑상선 유두성 암종; 편도선, 구인두, 혀 편평 상피 암종; 횡행 결장 선암종, NOS; 요로상피 방광 선암종, NOS; 요로상피 방광 암종, NOS; 요로상피 방광 편평 상피 암종; 요로상피 암종, NOS; 자궁 자궁내막 기질 육종, NOS; 자궁 평활근육종, NOS; 자궁 육종, NOS; 포도막 흑색종; 질 편평 상피 암종; 외음부 편평 상피 암종; 및 이들의 임의의 조합 중 적어도 하나를 포함하는, 방법.
  72. 제70항에 있어서, 암의 예측된 적어도 하나의 속성은 유방 선암종, 중추신경계 암, 자궁경부 선암종, 담관암, 결장 선암종, 위식도 선암종, 위장관기질종양(GIST), 간세포 암종, 폐 선암종, 흑색종, 수막종, 난소 과립막 세포 종양, 난소 및 나팔관 선암종, 췌장 선암종, 전립선 선암종, 신세포 암종, 편평세포암종, 갑상선암, 요로상피 암종, 자궁내막 선암종, 및 자궁 육종 중 적어도 하나를 포함하는, 방법.
  73. 제70항에 있어서, 암의 예측된 적어도 하나의 속성은, 방광; 피부; 폐; 두부, 안면 또는 경부(NOS); 식도; 여성 생식기(FGT); 뇌; 결장; 전립선; 간, 담낭, 담관; 유방; 눈; 위; 신장; 및 췌장 중 적어도 하나를 포함하는, 방법.
  74. 제70항에 있어서, 암의 예측된 적어도 하나의 속성은 청구항 제48항에 나열된 적어도 하나의 속성에 따르는, 방법.
  75. 제37항 내지 제74항 중 어느 한 항에 있어서, 샘플은 원발 부위 불명 암(CUP)을 포함하는, 방법.
  76. 암의 적어도 하나의 속성을 예측하는 방법으로서, 상기 방법은:
    (a) 암을 갖고 있는 대상체로부터 생체 샘플을 획득하는 단계 - 상기 생체 샘플은 청구항 38 내지 41 중 어느 한 항에 따름 - ,
    (b) 생체 샘플 내 하나 이상의 바이오마커를 평가하기 위해 적어도 하나의 분석을 수행하여 샘플에 대한 바이오시그니처를 획득하는 단계 - 적어도 하나의 분석을 수행하는 것은 청구항 42-46 중 어느 하나에 따름 - ,
    (c) 암의 적어도 하나의 속성을 예측하도록 훈련된 모델로 바이오시그니처를 제공하는 단계 - 상기 모델은 적어도 하나의 중간 모델을 포함하고, 적어도 하나의 중간 모델은:
    (1) 청구항 59에 따른 지정 바이오시그니처를 이용해 DNA 데이터를 처리하도록 훈련된 제1 중간 모델,
    (2) 청구항 49에 따른 지정 바이오시그니처를 이용해 DNA 데이터를 처리하도록 훈련된 제2 중간 모델,
    (3) 청구항 50에 따른 지정 바이오시그니처를 이용해 DNA 데이터를 처리하도록 훈련된 제3 중간 모델, 및/또는
    (4) 청구항 51에 따른 지정 바이오시그니처를 이용해 DNA 데이터를 처리하도록 훈련된 제4 중간 모델을 포함함 - ,
    (d) 하나 이상의 컴퓨터에 의해, (c)에서 복수의 중간 모델의 각각을 통해 제공된 바이오시그니처를 처리하고, 복수의 중간 모델의 각각의 출력을 최종 예측자 모델로 제공하며, 하나 이상의 컴퓨터에 의해, 최종 예측자 모델을 통해 복수의 중간 모델의 각각의 출력을 처리하는 단계, 및
    (e) 암의 적어도 하나의 속성의 예측을 최종 예측자 모델로부터 출력하는 단계 - 암의 예측된 적어도 하나의 속성은 유방 선암종, 중추신경계 암, 자궁경부 선암종, 담관암, 결장 선암종, 위식도 선암종, 위장관기질종양(GIST), 간세포 암종, 폐 선암종, 흑색종, 수막종, 난소 과립막 세포 종양, 난소 및 나팔관 선암종, 췌장 선암종, 전립선 선암종, 신세포 암종, 편평세포암종, 갑상선암, 요로상피 암종, 자궁내막 선암종, 자궁 육종, 및 이들의 조합으로 구성된 군 중에서 선택된 기원 조직(tissue-of-origin)임 - 를 포함하는, 방법.
  77. 제76항에 있어서, 단계 (b)는 생체 샘플로부터 게놈 DNA를 시퀀싱함으로써 DNA 분석을 수행하는 단계 - DNA 분석은 표 2-116의 유전자에 대해 수행됨 - , 및 생체 샘플로부터 메신저 RNA 전사체를 시퀀싱함으로써 RNA 분석을 수행하는 단계 - RNA 분석은 표 117 또는 표 118-120의 유전자에 대해 수행됨 - 를 포함하는, 방법.
  78. 제76항 또는 제77항에 있어서, 적어도 하나의 중간 모델 및 최종 예측자 모델 중 적어도 하나가 머신 러닝 모듈을 포함하고, 선택적으로 머신 러닝 모듈은 랜덤 포레스트, 서포트 벡터 머신, 로지스틱 회귀, K-최근접 이웃, 인공 신경망, 나이브 베이즈 모델, 2차 판별 분석, 및 가우시안 프로세스 모델 중 하나 이상을 포함하고, 선택적으로, 머신 러닝 모듈은 XGBoost 결정-트리-기반 앙상블 머신 러닝 알고리즘을 포함하는, 방법.
  79. 제37항 내지 제78항 중 어느 한 항에 있어서, 암의 적어도 하나의 속성의 예측이 사용되어:
    i. 진단을 확인,
    ii. 진단을 변경,
    iii. 품질 체크를 수행, 및/또는
    iv. 수행될 추가 분자 테스트를 지시할 수 있는, 방법.
  80. 제37항 내지 제79항 중 어느 한 항에 있어서, 암의 예측된 적어도 하나의 속성이 정렬된 리스트를 포함하고, 선택적으로, 리스트는 통계 측정을 이용해 정렬되는, 방법.
  81. 제37항 내지 제80항 중 어느 한 항에 있어서, 적어도 하나의 속성의 예측이 임계 레벨을 충족하는지 여부를 결정하는 단계를 더 포함하고, 선택적으로 임계 레벨은 예측의 확률 및/또는 예측의 신뢰도와 관련되는, 방법.
  82. 제37항 내지 제81항 중 어느 한 항에 있어서, 바이오시그니처에서의 바이오마커의 존재여부, 레벨, 또는 상태, 가령, 각각의 바이오마커가 복제수 변경 및/또는 돌연변이를 갖는지 여부, 및/또는 TMB 레벨, MSI, LOH, 또는 MMR 상태, 및/또는 발현 레벨을 식별하는 분자 프로파일을 생성하는 단계를 더 포함하고, 발현 레벨은 적어도 하나의 전사체의 발현 레벨 및/또는 단백질 레벨을 포함하는, 방법.
  83. 제37항 내지 제82항 중 어느 한 항에 있어서, 암의 분류된 적어도 하나의 속성에 적어도 부분적으로 기초하여 환자에 대한 적어도 하나의 치료를 선택하는 단계를 더 포함하며, 선택적으로, 상기 치료는 면역요법, 화학요법, 또는 이들의 조합의 투여를 포함하는, 방법.
  84. 리포트를 생성하는 단계를 포함하는 방법으로서, 상기 리포트는 청구항 82에 따라 생성된 분자 프로파일의 요약 또는 개요를 포함하고, 리포트는 암의 분류된 적어도 하나의 속성을 식별하며, 선택적으로 리포트는 청구항 83에 따라 선택된 적어도 하나의 치료를 더 식별하는, 방법.
  85. 제84항에 있어서, 상기 리포트는 컴퓨터에 의해 생성되거나, 및/또는 인쇄 리포트 또는 컴퓨터 파일이거나, 및/또는 웹 포털에 의해 액세스 가능한, 방법.
  86. 하나 이상의 컴퓨터 및 상기 하나 이상의 컴퓨터에 의해 실행될 때 상기 하나 이상의 컴퓨터로 하여금 청구항 제37항 내지 제85항 중 어느 한 항에 기재된 동작을 수행하게 하는 명령을 저장하는 하나 이상의 저장 매체를 포함하는 시스템.
  87. 하나 이상의 컴퓨터에 의해 실행되는 명령을 포함하는 소프트웨어를 저장하는 비일시적 컴퓨터 판독형 매체로서, 상기 명령은 실행 시 하나 이상의 컴퓨터로 하여금 청구항 제37항 내지 제85항 중 어느 한 항에 기재된 동작을 수행하게 하는, 비일시적 컴퓨터 판독형 매체.
  88. 암의 속성을 식별하기 위한 시스템으로서, 상기 시스템은:
    (a) 적어도 하나의 호스트 서버,
    (b) 데이터를 액세스 및 입력하기 위해 적어도 하나의 호스트 서버를 액세스하기 위한 적어도 하나의 사용자 인터페이스,
    (c) 입력된 데이터를 처리하기 위한 적어도 하나의 프로세서,
    (d) 청구항 37 내지 85 중 어느 한 항에 대한 동작을 수행하기 위한 처리된 데이터 및 명령을 저장하기 위한 프로세서, 및
    (e) 암의 식별된 속성을 디스플레이하기 위한 적어도 하나의 디스플레이를 포함하는, 시스템.
  89. 제88항에 있어서, 처리된 데이터 및 청구항 제83항 내지 제85항 중 어느 한 항에 따른 선택 및/또는 생성을 위한 명령을 저장하기 위해 상기 프로세서에 연결된 적어도 하나의 메모리를 더 포함하는, 시스템.
  90. 제88항 또는 제89항에 있어서, 적어도 하나의 디스플레이는 암의 분류된 적어도 하나의 속성을 포함하는 리포트를 포함하는, 시스템.
  91. 신체로부터 획득된 샘플의 적어도 하나의 속성을 식별하기 위한 시스템으로서, 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되며, 상기 시스템은:
    하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하는 명령을 저장하는 하나 이상의 메모리 유닛을 포함하며, 상기 동작은
    시스템에 의해, 신체로부터 획득된 샘플을 나타내는 샘플 생체 시그니처를 획득하는 것 - 상기 샘플은 암 세포를 포함함 - ,
    시스템에 의해, 샘플 생체 시그니처를 모델로의 입력으로서 제공하는 것 -
    상기 모델은 샘플 생체 시그니처와 복수의 상이한 생체 시그니처 각각 간 분석을 수행하도록 구성되고, 복수의 상이한 생체 시그니처 각각은 상이한 속성에 대응함 -, 및/또는
    상기 모델은 클래스가 상이한 속성을 포함하는 멀티-클래스 모델임 - , 및
    시스템에 의해, 쌍별 분석에 기초하여 신체로부터 획득된 샘플의 가능도 속성을 나타내는 데이터를 나타내는 모델에 의해 생성되는 출력을 수신하는 것을 포함하는, 시스템.
  92. 신체로부터 획득된 샘플의 적어도 하나의 속성을 식별하기 위한 시스템으로서, 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되며, 상기 시스템은:
    하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하는 명령을 저장하는 하나 이상의 메모리 유닛을 포함하며, 상기 동작은
    시스템에 의해, 신체로부터 획득된 샘플을 나타내는 샘플 생체 시그니처를 획득하는 것,
    시스템에 의해, 샘플 생체 시그니처를 모델로의 입력으로서 제공하는 것 -
    상기 모델은 샘플 생체 시그니처와 복수의 상이한 생체 시그니처 각각 간 분석을 수행하도록 구성되고, 복수의 상이한 생체 시그니처 각각은 상이한 속성에 대응함 -, 및/또는
    상기 모델은 클래스가 상이한 속성을 포함하는 멀티-클래스 모델임 - , 및
    시스템에 의해, 특정 생체 시그니처에 의해 식별된 속성이 샘플의 가능도 속도를 식별할 확률을 나타내는 데이터를 표현하는 모델에 의해 생성된 출력을 수신하는 것을 포함하는, 시스템.
  93. 신체로부터 획득된 샘플의 적어도 하나의 속성을 식별하기 위한 시스템으로서, 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되며, 상기 시스템은:
    하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하는 명령을 저장하는 하나 이상의 메모리 유닛을 포함하며, 상기 동작은
    시스템에 의해, 신체의 제1 부분의 암 샘플로부터 획득된 생체 샘플을 나타내는 샘플 생체 시그니처를 획득하는 것 - 샘플 생체 시그니처는 생체 샘플의 복수의 특징을 기술하는 데이터를 포함하고, 복수의 특징은 신체의 제1 부분을 기술하는 데이터를 포함함 - ,
    시스템에 의해, 샘플 생체 시그니처를 모델로의 입력으로서 제공하는 것 -
    상기 모델은 샘플 생체 시그니처와 복수의 상이한 생체 시그니처 각각 간 분석을 수행하도록 구성되고, 복수의 상이한 생체 시그니처 각각은 상이한 속성에 대응함 -, 및/또는
    상기 모델은 클래스가 상이한 속성을 포함하는 멀티-클래스 모델임 - , 및
    시스템에 의해, 신체로부터 획득된 샘플의 가능도 속성을 나타내는 데이터를 나타내는 모델에 의해 생성되는 출력을 수신하는 것을 포함하는, 시스템.
  94. 제91항 내지 제93항 중 어느 한 항에 있어서, 신체로부터 획득된 샘플은 청구항 38 내지 41 중 어느 한 항에 따른 생체 샘플인, 시스템.
  95. 제91항 내지 제94항 중 어느 한 항에 있어서, 적어도 하나의 속성은 청구항 48에 나열된 속성인, 시스템.
  96. 제91항 내지 제94항 중 어느 한 항에 있어서, 샘플 생체 시그니처는 암 샘플 내 하나 이상의 바이오마커를 평가하기 위한 분석의 수행에 기초하여 획득된 특징을 나타내는 데이터를 포함하고, 선택적으로, 분석은 청구항 42 내지 46 중 어느 한 항의 적어도 하나의 분석에 따르는, 시스템.
  97. 제91항 내지 제96항 중 어느 한 항에 있어서, 동작은 모델에 의해 생성된 출력에 기초하여, 제안되는 암 치료를 결정하는 것을 더 포함하는, 시스템.
  98. 제91항 내지 제97항 중 어느 한 항에 있어서, 적어도 하나의 속성은 청구항 71 내지 74 중 어느 한 항에 따르는, 시스템.
  99. 제91항 내지 제98항 중 어느 한 항에 있어서, 복수의 상이한 생체 시그니처 각각은 청구항 49 내지 59 중 어느 한 항에 따른 사전 식별된 바이오시그니처를 포함하는, 시스템.
  100. 제91항 내지 제99항 중 어느 한 항에 있어서, 동작은:
    시스템에 의해, 신체의 제1 부분에서의 신체로부터 획득된 샘플이 신체의 제2 부분의 암으로부터 기원했을 우도를 나타내는 모델에 의해 생성된 출력을 수신하는 것을 더 포함하는, 시스템.
  101. 제100항에 있어서, 동작은
    시스템에 의해 수신된 출력에 기초하여, 모델에 의해 생성된 수신된 출력이 하나 이상의 지정 임계값을 만족하는지 여부를 결정하는 것, 및
    수신된 출력이 하나 이상의 지정 임계값을 만족한다는 시스템에 의한 결정에 기초하여, 시스템에 의해, 신체의 제1 부분의 암성 신생물이 신체의 제2 부분의 암으로부터 기원했다고 결정 또는 신체의 제1 부분의 암성 신생물이 신체의 제2 부분의 암으로부터 기원하지 않았다고 결정하는 것을 더 포함하는, 시스템.
  102. 제100항에 있어서,
    모델에 의해 생성된 수신된 출력이 행렬 데이터 구조를 포함하고,
    행렬 데이터 구조는 쌍별 모델에 의해 평가되는 복수의 특징 중 각각의 특징에 대해 하나씩의 셀을 포함하고, 각각의 세포는 대응하는 특징이 신체의 제1 부분의 암성 신생물이 제1 신체의 제2 부분의 암에 의해 야기됐음을 가리킬 확률을 기술하는 데이터를 포함하는, 시스템.
  103. 암의 적어도 하나의 속성을 식별하기 위한 시스템으로서, 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되며, 상기 시스템은:
    하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하는 명령을 저장하는 하나 이상의 메모리 유닛을 포함하며, 상기 동작은
    생체 시그니처의 분석을 수행하도록 구성된 모델을 저장하는 시스템에 의해, 신체의 제1 부분의 암성 신생물로부터 획득된 생체 샘플을 나타내는 샘플 생체 시그니처를 수신하는 것 - 모델은 복수의 상이한 유형의 암성 생체 샘플의 각각에 대한 암성 생체 시그니처를 포함하고, 암성 생체 시그니처는 하나 이사의 다른 신체의 제1 부분으로부터의 암성 생체 샘플의 분자 프로파일을 나타내는 적어도 제1 암성 생체 시그니처를 포함함 - ,
    시스템에 의해 모델을 이용함으로써, 암성 생체 시그니처를 이용해 샘플 생체 시그니처의 분석을 수행하는 것,
    시스템에 의해 수행된 분석에 기초하여, 신체의 제1 부분의 암성 신생물이 신체의 제2 부분의 암에 의해 야기되었을 우도를 생성하는 것,
    시스템에 의해, 생성된 우도를 다른 장치로 제공하여 상기 다른 장치 상에 디스플레이되게 하는 것을 포함하는, 시스템.
  104. 신체로부터 획득된 암 샘플의 적어도 하나의 속성을 식별하기 위한 분석 모델을 훈련하기 위한 시스템으로서, 적어도 하나의 속성은 원발 종양 기원, 암/질병 유형, 장기 군, 조직학, 및 이들의 임의의 조합으로 구성된 군 중에서 선택되며, 상기 시스템은:
    하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 동작을 수행하게 하는 명령을 저장하는 하나 이상의 메모리 유닛을 포함하며, 상기 동작은
    시스템에 의해, 분석 모델을 생성하는 것 - 분석 모델을 생성하는 것은 복수의 모델 시그니처를 생성하는 것을 포함하고, 각각의 모델 시그니처는 적어도 하나의 속성의 각각 내 적어도 하나의 속성을 구별하도록 구성됨 - ,
    시스템에 의해, 훈련 데이터 아이템의 세트를 획득하는 것 - 각각의 훈련 데이터 아이템은 DNA 또는 RNA 시퀀싱 결과를 나타내고 (i) 시퀀싱 결과에서 변형이 검출되었는지 여부 및 (ii) 시퀀싱 결과의 유전자 또는 전사체의 수를 나타내는 데이터를 포함함 - , 및
    시스템에 의해, 훈련 데이터 아이템의 획득된 세트를 이용해 분석 모델을 훈련하는 것을 포함하는, 시스템.
  105. 제104항에 있어서, 복수의 모델 시그니처는 랜덤 포레스트 모델을 이용해 생성되고, 선택적으로, 랜덤 포레스트 모델은 구배 부스팅된 포레스트(gradient boosted forest)를 포함하는, 시스템.

KR1020227028198A 2020-02-14 2021-02-16 파노믹 게놈 유병률 점수 KR20230011905A (ko)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US202062977015P 2020-02-14 2020-02-14
US62/977,015 2020-02-14
US202063014515P 2020-04-23 2020-04-23
US63/014,515 2020-04-23
US202063052363P 2020-07-15 2020-07-15
US63/052,363 2020-07-15
US202163145305P 2021-02-03 2021-02-03
US63/145,305 2021-02-03
PCT/US2021/018263 WO2021163706A1 (en) 2020-02-14 2021-02-16 Panomic genomic prevalence score

Publications (1)

Publication Number Publication Date
KR20230011905A true KR20230011905A (ko) 2023-01-25

Family

ID=77291680

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227028198A KR20230011905A (ko) 2020-02-14 2021-02-16 파노믹 게놈 유병률 점수

Country Status (8)

Country Link
US (1) US20230113092A1 (ko)
EP (1) EP4104174A4 (ko)
JP (1) JP2023515394A (ko)
KR (1) KR20230011905A (ko)
AU (1) AU2021221048A1 (ko)
IL (1) IL295641A (ko)
MX (1) MX2022009999A (ko)
WO (1) WO2021163706A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11579913B2 (en) * 2019-12-18 2023-02-14 Vmware, Inc. System and method for optimizing network topology in a virtual computing environment
EP4227948A1 (en) 2022-02-09 2023-08-16 Université de Genève Machine-learning based prediction of the survival potential of cells
WO2023168049A2 (en) * 2022-03-04 2023-09-07 Bostongene Corporation Cytokine gene expression signatures

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2865335A1 (en) * 2012-03-09 2013-09-12 Caris Life Sciences Luxembourg Holdings, S.A.R.L. Biomarker compositions and methods
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
EP3262417B1 (en) * 2015-02-23 2021-11-03 Cellanyx Diagnostics, LLC Cell imaging and analysis to differentiate clinically relevant sub-populations of cells
WO2016141169A1 (en) * 2015-03-03 2016-09-09 Caris Mpi, Inc. Molecular profiling for cancer
CN107980162A (zh) * 2015-03-03 2018-05-01 南托米克斯有限责任公司 基于组合的研究建议系统和方法

Also Published As

Publication number Publication date
AU2021221048A1 (en) 2022-09-08
MX2022009999A (es) 2023-01-19
EP4104174A1 (en) 2022-12-21
WO2021163706A1 (en) 2021-08-19
US20230113092A1 (en) 2023-04-13
JP2023515394A (ja) 2023-04-13
IL295641A (en) 2022-10-01
EP4104174A4 (en) 2024-03-13

Similar Documents

Publication Publication Date Title
JP7462632B2 (ja) 次世代分子プロファイリング
US11842805B2 (en) Pan-cancer platinum response predictor
CA3056896A1 (en) Genomic stability profiling
US20220093217A1 (en) Genomic profiling similarity
KR20230011905A (ko) 파노믹 게놈 유병률 점수
US20230178245A1 (en) Immunotherapy Response Signature
WO2015073949A1 (en) Method of subtyping high-grade bladder cancer and uses thereof
CA3167694A1 (en) Panomic genomic prevalence score
US20230368915A1 (en) Metastasis predictor
US20240177821A1 (en) Pan-cancer platinum response predictor