KR20230167070A - 국재화 정확도를 위한 조건부 기원 조직 리턴 - Google Patents
국재화 정확도를 위한 조건부 기원 조직 리턴 Download PDFInfo
- Publication number
- KR20230167070A KR20230167070A KR1020237037807A KR20237037807A KR20230167070A KR 20230167070 A KR20230167070 A KR 20230167070A KR 1020237037807 A KR1020237037807 A KR 1020237037807A KR 20237037807 A KR20237037807 A KR 20237037807A KR 20230167070 A KR20230167070 A KR 20230167070A
- Authority
- KR
- South Korea
- Prior art keywords
- cancer
- signal
- signals
- sample
- determining
- Prior art date
Links
- 230000004807 localization Effects 0.000 title claims abstract description 94
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 619
- 201000011510 cancer Diseases 0.000 claims abstract description 603
- 201000010099 disease Diseases 0.000 claims abstract description 232
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 232
- 238000000034 method Methods 0.000 claims abstract description 112
- 208000003837 Second Primary Neoplasms Diseases 0.000 claims abstract description 38
- 238000010801 machine learning Methods 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 29
- 238000003745 diagnosis Methods 0.000 claims description 22
- 241000701806 Human papillomavirus Species 0.000 claims description 16
- 210000004027 cell Anatomy 0.000 claims description 15
- 206010006187 Breast cancer Diseases 0.000 claims description 11
- 208000026310 Breast neoplasm Diseases 0.000 claims description 11
- 206010073073 Hepatobiliary cancer Diseases 0.000 claims description 10
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims description 10
- 206010041067 Small cell lung cancer Diseases 0.000 claims description 10
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 10
- 206010017758 gastric cancer Diseases 0.000 claims description 10
- 210000003494 hepatocyte Anatomy 0.000 claims description 10
- 201000005202 lung cancer Diseases 0.000 claims description 10
- 208000020816 lung neoplasm Diseases 0.000 claims description 10
- 208000000587 small cell lung carcinoma Diseases 0.000 claims description 10
- 201000011549 stomach cancer Diseases 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 208000008839 Kidney Neoplasms Diseases 0.000 claims description 8
- 206010038389 Renal cancer Diseases 0.000 claims description 8
- 201000010982 kidney cancer Diseases 0.000 claims description 8
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 claims description 7
- 206010008342 Cervix carcinoma Diseases 0.000 claims description 7
- 206010033128 Ovarian cancer Diseases 0.000 claims description 7
- 206010061535 Ovarian neoplasm Diseases 0.000 claims description 7
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 claims description 7
- 201000010881 cervical cancer Diseases 0.000 claims description 7
- 201000010536 head and neck cancer Diseases 0.000 claims description 7
- 208000014829 head and neck neoplasm Diseases 0.000 claims description 7
- 201000005249 lung adenocarcinoma Diseases 0.000 claims description 7
- 201000005243 lung squamous cell carcinoma Diseases 0.000 claims description 7
- 208000007860 Anus Neoplasms Diseases 0.000 claims description 6
- 206010009944 Colon cancer Diseases 0.000 claims description 6
- 208000034578 Multiple myelomas Diseases 0.000 claims description 6
- 206010061902 Pancreatic neoplasm Diseases 0.000 claims description 6
- 206010035226 Plasma cell myeloma Diseases 0.000 claims description 6
- 206010039491 Sarcoma Diseases 0.000 claims description 6
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 claims description 6
- 208000002495 Uterine Neoplasms Diseases 0.000 claims description 6
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 claims description 6
- 201000001441 melanoma Diseases 0.000 claims description 6
- 208000008443 pancreatic carcinoma Diseases 0.000 claims description 6
- 206010044412 transitional cell carcinoma Diseases 0.000 claims description 6
- 206010046766 uterine cancer Diseases 0.000 claims description 6
- 206010061424 Anal cancer Diseases 0.000 claims description 5
- 206010005003 Bladder cancer Diseases 0.000 claims description 5
- 208000000461 Esophageal Neoplasms Diseases 0.000 claims description 5
- 201000003741 Gastrointestinal carcinoma Diseases 0.000 claims description 5
- 206010017993 Gastrointestinal neoplasms Diseases 0.000 claims description 5
- 206010025323 Lymphomas Diseases 0.000 claims description 5
- 206010025537 Malignant anorectal neoplasms Diseases 0.000 claims description 5
- 206010030155 Oesophageal carcinoma Diseases 0.000 claims description 5
- 208000024770 Thyroid neoplasm Diseases 0.000 claims description 5
- 206010047741 Vulval cancer Diseases 0.000 claims description 5
- 208000004354 Vulvar Neoplasms Diseases 0.000 claims description 5
- 201000011165 anus cancer Diseases 0.000 claims description 5
- 208000029742 colonic neoplasm Diseases 0.000 claims description 5
- 210000000981 epithelium Anatomy 0.000 claims description 5
- 201000004101 esophageal cancer Diseases 0.000 claims description 5
- 201000002313 intestinal cancer Diseases 0.000 claims description 5
- 210000000244 kidney pelvis Anatomy 0.000 claims description 5
- 208000032839 leukemia Diseases 0.000 claims description 5
- 201000002120 neuroendocrine carcinoma Diseases 0.000 claims description 5
- 201000002528 pancreatic cancer Diseases 0.000 claims description 5
- 201000002510 thyroid cancer Diseases 0.000 claims description 5
- 201000005112 urinary bladder cancer Diseases 0.000 claims description 5
- 201000005102 vulva cancer Diseases 0.000 claims description 5
- 201000007270 liver cancer Diseases 0.000 claims description 4
- 208000014018 liver neoplasm Diseases 0.000 claims description 4
- 210000002307 prostate Anatomy 0.000 claims description 4
- 208000006990 cholangiocarcinoma Diseases 0.000 claims description 3
- 201000011519 neuroendocrine tumor Diseases 0.000 claims description 3
- 201000000963 pulmonary neuroendocrine tumor Diseases 0.000 claims description 3
- 210000000626 ureter Anatomy 0.000 claims description 3
- 208000003200 Adenoma Diseases 0.000 claims 2
- 206010001233 Adenoma benign Diseases 0.000 claims 2
- 206010052399 Neuroendocrine tumour Diseases 0.000 claims 2
- 208000036765 Squamous cell carcinoma of the esophagus Diseases 0.000 claims 2
- 208000007276 esophageal squamous cell carcinoma Diseases 0.000 claims 2
- 230000011132 hemopoiesis Effects 0.000 claims 2
- 230000001613 neoplastic effect Effects 0.000 claims 2
- 208000016065 neuroendocrine neoplasm Diseases 0.000 claims 2
- 210000003741 urothelium Anatomy 0.000 claims 2
- 150000007523 nucleic acids Chemical class 0.000 abstract description 32
- 102000039446 nucleic acids Human genes 0.000 abstract description 22
- 108020004707 nucleic acids Proteins 0.000 abstract description 22
- 239000000523 sample Substances 0.000 description 120
- 210000001519 tissue Anatomy 0.000 description 61
- 238000004458 analytical method Methods 0.000 description 53
- 230000011987 methylation Effects 0.000 description 51
- 238000007069 methylation reaction Methods 0.000 description 51
- 238000011282 treatment Methods 0.000 description 49
- 108020004414 DNA Proteins 0.000 description 48
- 230000000875 corresponding effect Effects 0.000 description 37
- 239000012634 fragment Substances 0.000 description 30
- 102000053602 DNA Human genes 0.000 description 25
- 108091029430 CpG site Proteins 0.000 description 24
- 238000012163 sequencing technique Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 19
- 238000012360 testing method Methods 0.000 description 18
- 239000013598 vector Substances 0.000 description 17
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 16
- 238000001514 detection method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 210000004369 blood Anatomy 0.000 description 10
- 239000008280 blood Substances 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 239000013074 reference sample Substances 0.000 description 10
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 9
- 230000001186 cumulative effect Effects 0.000 description 8
- 239000007787 solid Substances 0.000 description 8
- 238000001356 surgical procedure Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 238000007477 logistic regression Methods 0.000 description 7
- 125000003729 nucleotide group Chemical group 0.000 description 7
- 229940104302 cytosine Drugs 0.000 description 6
- 210000004072 lung Anatomy 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 239000002773 nucleotide Substances 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 5
- 230000036541 health Effects 0.000 description 5
- 239000003112 inhibitor Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000002560 therapeutic procedure Methods 0.000 description 5
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 4
- 206010061818 Disease progression Diseases 0.000 description 4
- 238000001574 biopsy Methods 0.000 description 4
- 235000010957 calcium stearoyl-2-lactylate Nutrition 0.000 description 4
- 230000005750 disease progression Effects 0.000 description 4
- 239000007788 liquid Substances 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000002271 resection Methods 0.000 description 4
- 210000003296 saliva Anatomy 0.000 description 4
- 230000001225 therapeutic effect Effects 0.000 description 4
- 229940035893 uracil Drugs 0.000 description 4
- 210000002700 urine Anatomy 0.000 description 4
- 230000007067 DNA methylation Effects 0.000 description 3
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 3
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 3
- 206010060862 Prostate cancer Diseases 0.000 description 3
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 3
- 208000007660 Residual Neoplasm Diseases 0.000 description 3
- 208000009956 adenocarcinoma Diseases 0.000 description 3
- 238000003556 assay Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 210000001124 body fluid Anatomy 0.000 description 3
- 239000010839 body fluid Substances 0.000 description 3
- 210000000481 breast Anatomy 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000011068 loading method Methods 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 210000000496 pancreas Anatomy 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 206010041823 squamous cell carcinoma Diseases 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical group N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 2
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 2
- 102000003964 Histone deacetylase Human genes 0.000 description 2
- 108090000353 Histone deacetylase Proteins 0.000 description 2
- 102000000588 Interleukin-2 Human genes 0.000 description 2
- 108010002350 Interleukin-2 Proteins 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 101710086015 RNA ligase Proteins 0.000 description 2
- 108010090804 Streptavidin Proteins 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000002512 chemotherapy Methods 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000002405 diagnostic procedure Methods 0.000 description 2
- 210000003238 esophagus Anatomy 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 210000000232 gallbladder Anatomy 0.000 description 2
- 239000002955 immunomodulating agent Substances 0.000 description 2
- 238000009169 immunotherapy Methods 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- GOTYRUGSSMKFNF-UHFFFAOYSA-N lenalidomide Chemical compound C1C=2C(N)=CC=CC=2C(=O)N1C1CCC(=O)NC1=O GOTYRUGSSMKFNF-UHFFFAOYSA-N 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 210000002381 plasma Anatomy 0.000 description 2
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 210000000664 rectum Anatomy 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 229960004641 rituximab Drugs 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 210000004243 sweat Anatomy 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- 210000002438 upper gastrointestinal tract Anatomy 0.000 description 2
- 210000003905 vulva Anatomy 0.000 description 2
- UEJJHQNACJXSKW-UHFFFAOYSA-N 2-(2,6-dioxopiperidin-3-yl)-1H-isoindole-1,3(2H)-dione Chemical compound O=C1C2=CC=CC=C2C(=O)N1C1CCC(=O)NC1=O UEJJHQNACJXSKW-UHFFFAOYSA-N 0.000 description 1
- SHGAZHPCJJPHSC-ZVCIMWCZSA-N 9-cis-retinoic acid Chemical compound OC(=O)/C=C(\C)/C=C/C=C(/C)\C=C\C1=C(C)CCCC1(C)C SHGAZHPCJJPHSC-ZVCIMWCZSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 108091093088 Amplicon Proteins 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 230000030914 DNA methylation on adenine Effects 0.000 description 1
- 230000030933 DNA methylation on cytosine Effects 0.000 description 1
- 206010061819 Disease recurrence Diseases 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 208000022072 Gallbladder Neoplasms Diseases 0.000 description 1
- NMJREATYWWNIKX-UHFFFAOYSA-N GnRH Chemical compound C1CCC(C(=O)NCC(N)=O)N1C(=O)C(CC(C)C)NC(=O)C(CC=1C2=CC=CC=C2NC=1)NC(=O)CNC(=O)C(NC(=O)C(CO)NC(=O)C(CC=1C2=CC=CC=C2NC=1)NC(=O)C(CC=1NC=NC=1)NC(=O)C1NC(=O)CC1)CC1=CC=C(O)C=C1 NMJREATYWWNIKX-UHFFFAOYSA-N 0.000 description 1
- 102000009465 Growth Factor Receptors Human genes 0.000 description 1
- 108010009202 Growth Factor Receptors Proteins 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 102000006992 Interferon-alpha Human genes 0.000 description 1
- 108010047761 Interferon-alpha Proteins 0.000 description 1
- 238000012773 Laboratory assay Methods 0.000 description 1
- 208000019693 Lung disease Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- 208000005228 Pericardial Effusion Diseases 0.000 description 1
- 102000004022 Protein-Tyrosine Kinases Human genes 0.000 description 1
- 108090000873 Receptor Protein-Tyrosine Kinases Proteins 0.000 description 1
- 101000857870 Squalus acanthias Gonadoliberin Proteins 0.000 description 1
- NAVMQTYZDKMPEU-UHFFFAOYSA-N Targretin Chemical compound CC1=CC(C(CCC2(C)C)(C)C)=C2C=C1C(=C)C1=CC=C(C(O)=O)C=C1 NAVMQTYZDKMPEU-UHFFFAOYSA-N 0.000 description 1
- 229940123237 Taxane Drugs 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 238000010306 acid treatment Methods 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 239000002671 adjuvant Substances 0.000 description 1
- 239000000556 agonist Substances 0.000 description 1
- 229960000548 alemtuzumab Drugs 0.000 description 1
- 229960001445 alitretinoin Drugs 0.000 description 1
- 229940100198 alkylating agent Drugs 0.000 description 1
- 239000002168 alkylating agent Substances 0.000 description 1
- SHGAZHPCJJPHSC-YCNIQYBTSA-N all-trans-retinoic acid Chemical compound OC(=O)\C=C(/C)\C=C\C=C(/C)\C=C\C1=C(C)CCCC1(C)C SHGAZHPCJJPHSC-YCNIQYBTSA-N 0.000 description 1
- 239000004037 angiogenesis inhibitor Substances 0.000 description 1
- 229940121369 angiogenesis inhibitor Drugs 0.000 description 1
- 229940045799 anthracyclines and related substance Drugs 0.000 description 1
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 230000002280 anti-androgenic effect Effects 0.000 description 1
- 229940046836 anti-estrogen Drugs 0.000 description 1
- 230000001833 anti-estrogenic effect Effects 0.000 description 1
- 230000000340 anti-metabolite Effects 0.000 description 1
- 230000000259 anti-tumor effect Effects 0.000 description 1
- 239000000051 antiandrogen Substances 0.000 description 1
- 229940030495 antiandrogen sex hormone and modulator of the genital system Drugs 0.000 description 1
- 229940088710 antibiotic agent Drugs 0.000 description 1
- 229940100197 antimetabolite Drugs 0.000 description 1
- 239000002256 antimetabolite Substances 0.000 description 1
- 210000000436 anus Anatomy 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 239000003886 aromatase inhibitor Substances 0.000 description 1
- 229940046844 aromatase inhibitors Drugs 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000003567 ascitic fluid Anatomy 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229960002938 bexarotene Drugs 0.000 description 1
- 210000000013 bile duct Anatomy 0.000 description 1
- 201000009036 biliary tract cancer Diseases 0.000 description 1
- 208000020790 biliary tract neoplasm Diseases 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 229960002685 biotin Drugs 0.000 description 1
- 235000020958 biotin Nutrition 0.000 description 1
- 239000011616 biotin Substances 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229940112129 campath Drugs 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 210000003679 cervix uteri Anatomy 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 239000012829 chemotherapy agent Substances 0.000 description 1
- 239000003246 corticosteroid Substances 0.000 description 1
- 229960001334 corticosteroids Drugs 0.000 description 1
- 229940127096 cytoskeletal disruptor Drugs 0.000 description 1
- 239000003534 dna topoisomerase inhibitor Substances 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 239000000262 estrogen Substances 0.000 description 1
- 229940011871 estrogen Drugs 0.000 description 1
- 239000000328 estrogen antagonist Substances 0.000 description 1
- 201000010175 gallbladder cancer Diseases 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000002489 hematologic effect Effects 0.000 description 1
- 230000003054 hormonal effect Effects 0.000 description 1
- 238000001794 hormone therapy Methods 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002519 immonomodulatory effect Effects 0.000 description 1
- 229940127121 immunoconjugate Drugs 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 229940043355 kinase inhibitor Drugs 0.000 description 1
- 229960004942 lenalidomide Drugs 0.000 description 1
- 238000012317 liver biopsy Methods 0.000 description 1
- 208000019423 liver disease Diseases 0.000 description 1
- 210000005228 liver tissue Anatomy 0.000 description 1
- 239000012160 loading buffer Substances 0.000 description 1
- 230000001926 lymphatic effect Effects 0.000 description 1
- 210000004324 lymphatic system Anatomy 0.000 description 1
- 208000019420 lymphoid neoplasm Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 210000002752 melanocyte Anatomy 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000012164 methylation sequencing Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 230000000394 mitotic effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002625 monoclonal antibody therapy Methods 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 210000004412 neuroendocrine cell Anatomy 0.000 description 1
- 210000001672 ovary Anatomy 0.000 description 1
- 210000004912 pericardial fluid Anatomy 0.000 description 1
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 1
- 239000003757 phosphotransferase inhibitor Substances 0.000 description 1
- 230000004962 physiological condition Effects 0.000 description 1
- 210000004180 plasmocyte Anatomy 0.000 description 1
- 229910052697 platinum Inorganic materials 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 239000000583 progesterone congener Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 125000000714 pyrimidinyl group Chemical group 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000000018 receptor agonist Substances 0.000 description 1
- 229940044601 receptor agonist Drugs 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 102000003702 retinoic acid receptors Human genes 0.000 description 1
- 108090000064 retinoic acid receptors Proteins 0.000 description 1
- 229940120975 revlimid Drugs 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 229960003433 thalidomide Drugs 0.000 description 1
- 229940124597 therapeutic agent Drugs 0.000 description 1
- 210000001685 thyroid gland Anatomy 0.000 description 1
- 229940044693 topoisomerase inhibitor Drugs 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 229960001727 tretinoin Drugs 0.000 description 1
- 210000004291 uterus Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/112—Disease subtyping, staging or classification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Theoretical Computer Science (AREA)
- Pathology (AREA)
- Immunology (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Oncology (AREA)
- Databases & Information Systems (AREA)
- Hospice & Palliative Care (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
Abstract
핵산 샘플을 사용하여 질병 상태의 국재화(예컨대, 암의 기원 조직)를 위한 시스템 및 방법이 본원에 개시된다. 일 실시형태에서, 방법은 일 샘플의 복수의 암 신호를 수신하는 단계를 포함하며, 각각의 암 신호는 해당 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타낸다. 방법은 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정한다. 제1 암 신호가 기준을 만족한다는 결정에 따라, 방법은 샘플을 제1 질병 상태와 연관시킨다. 제1 암 신호가 기준을 만족하지 않는다는 결정에 따라, 방법은 복수의 암 신호 중 두 번째로 큰 확률을 갖는 제2 암 신호를 결정하고, 샘플을 제1 질병 상태 및 제2 질병 상태와 연관시킨다.
Description
관련 출원의 교차 참조
본 출원은 2021년 4월 6일에 출원된 미국 임시출원 제63/171,355호에 대한 우선권을 주장하며, 이 미국 출원은 모든 목적을 위해 이의 전체 내용이 참조에 의해서 본 명세서에 포함된다.
1.
기술분야
본 개시내용은 전반적으로 질병 상태의 국재화(localization)를 위한 기원 조직(tissue of origin) 결정의 조건부 리턴(conditional return)에 관한 것이다.
2.
배경기술
모델은 의심되는 암의 기원 조직을 예측하도록 훈련될 수 있다. 그러나 생물학적 모호성으로 인해, 타당한 것 같은 기원 조직 예측이 둘 이상 있을 수 있다. 예를 들어, 암의 다양한 기원 조직들을 갖는 생물체의 샘플들은 유사한 특징들을 가질 수 있다. 의사나 다른 헬스 케어 제공자(health care provider)가 모호하거나 복잡한 암 신호들을 파싱(parse)하여 개인에 대한 진단을 결정하는 것은 어렵다. 낮은 종양 쉐딩(tumor shedding)(예컨대, 초기 단계 암들)을 갖는 샘플들은 또한, 정보를 제공하는 단편이 더 적기 때문에, 국재화하기가 어렵다.
핵산 샘플을 사용하여 질병 상태(예컨대, 암의 존재 또는 부재, 암 유형 및/또는 암 기원 조직(본원에서, "암 신호 기원"이라고도 함))의 국재화를 위한 방법이 본원에 개시된다. 본원에 개시된 실시형태는 비침습적 방법을 이용한 암 진단 및 암의 조기 검출의 분야에서 기존 기술에 대한 개선을 제공한다. 일 양태에서, 본 개시내용은 암 진단을 위한 방법을 제공하며, 이 방법은 제1 개인의 제1 샘플의 제1 복수의 암 신호를 수신하는 단계 - 제1 복수의 암 신호 중 각각의 암 신호는 제1 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계; 제1 암 신호가 기준을 만족한다고 결정하는 단계에 응답하여, 제1 샘플을 제1 암 신호에 대응하는 질병 상태와 연관시키는 단계; 제1 개인의 제1 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 제1 샘플과 연관된 제1 암 신호에 대응하는 질병 상태를 제공하는 단계; 제2 개인의 제2 샘플의 제2 복수의 암 신호를 수신하는 단계 - 제2 복수의 암 신호 중 각각의 암 신호는 제2 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 제2 복수의 암 신호 중 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 제2 암 신호가 기준을 만족하지 않는다고 결정하는 단계에 응답하여, 제2 샘플을 적어도 제2 암 신호를 포함하는 제2 복수의 암 신호의 일 서브세트에 대응하는 복수의 질병 상태의 일 서브세트와 연관시키는 단계; 및 제2 개인의 제2 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 제2 샘플과 연관된 제2 복수의 암 신호의 서브세트에 대응하는 복수의 질병 상태의 서브세트를 제공하는 단계를 포함한다.
일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 제2 복수의 암 신호 중에서 두 번째로 가장 큰 확률을 갖는 제3 암 신호를 결정하는 단계를 더 포함하되, 제2 복수의 암 신호의 서브세트는 제3 암 신호를 더 포함한다.
일부 실시형태에서, 기준은 확률 임계값이고, 제1 암 신호가 기준을 만족한다고 결정하는 단계는 제1 암 신호의 최대 확률이 확률 임계값보다 더 크다고 결정하는 단계를 포함한다. 일부 실시형태에서, 확률 임계값은 적어도 88%, 89%, 90%, 91% 또는 92%이다.
일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 위양성(false positives) 및 암 신호 확률들의 정확성에 기초하여 기준을 결정하는 단계를 더 포함한다.
일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 현재의 암이 샘플과 연관될 잔여 위험에 기초하여 기준을 결정하는 단계를 더 포함한다.
일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 제1 복수의 암 신호 중에서 n개의 가장 큰 확률을 갖는 제1 복수의 암 신호의 일 서브세트의 n개의 암 신호를 결정하는 단계; 및 제1 복수의 암 신호 중 적어도 임계 수의 서브세트가 일 카테고리의 질병 상태들과 연관되어 있다고 결정하는 단계에 응답하여, 제1 샘플을 카테고리의 질병 상태들의 각각의 질병 상태와 연관시키는 단계를 더 포함한다.
일부 실시형태에서, 일 카테고리의 질병 상태들은 인간 유두종 바이러스(HPV) 암이다. 일부 실시형태에서, 일 카테고리의 질병 상태들은 위암과 장암을 포함한다.
일부 실시형태에서, 복수의 질병 상태는 비-암(non-cancer) 상태를 포함한다.
일부 실시형태에서, 복수의 질병 상태는 항문암, 유방암, 자궁암, 자궁경부암, 난소암, 방광암, 신우 및 요관의 요로상피암, 요로상피 이외의 신장암, 전립선암, 항문직장암, 대장암, 식도의 편평상피세포암, 편평상피 이외의 식도암, 위암, 간세포로부터 발생한 간담도암, 간세포 이외의 세포로부터 발생한 간담도암, 췌장암, 인유두종바이러스 관련 두경부암, 인유두종바이러스와 관련되지 않은 두경부암, 폐선암종, 소세포폐암, 선암종 또는 소세포 폐암 이외의 폐암 및 편평 세포 폐암, 신경내분비암, 흑색종, 갑상선암, 육종, 다발성 골수종, 림프종, 백혈병, 신장암, 간암, 담관암, 혈질세포신생종암, 상부 위장관암, 외음부암, 폐 신경내분비 종양 및 기타 고도선종 신경내분비 종양을 포함하는 그룹으로부터 선택된 하나 이상의 유형의 암을 포함한다.
일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 제2 샘플과 연관된 복수의 질병 상태들의 서브세트에 대응하는 각각의 질병 상태의 그래픽적 비교를, 클라이언트 디바이스 상의 제시를 위해, 제공하는 단계를 더 포함한다. 일부 실시형태에서, 그래픽적 비교는 제2 복수의 암 신호의 확률들에 기초한 막대 그래프이다.
다른 양태에서, 본 개시내용은 컴퓨터 프로세서 및 메모리를 포함하는 시스템을 제공하며, 이 메모리는 컴퓨터 프로세서에 의해서 실행될 때 프로세서로 하여금 다음의 단계를 수행하게 하는 컴퓨터 프로그램 명령어를 저장하고, 다음의 단계는, 제1 개인의 제1 샘플의 제1 복수의 암 신호를 수신하는 단계 - 제1 복수의 암 신호 중 각각의 암 신호는 제1 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계; 제1 암 신호가 기준을 만족한다고 결정하는 단계에 응답하여, 제1 샘플을 제1 암 신호에 대응하는 질병 상태와 연관시키는 단계; 제1 개인의 제1 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 제1 샘플과 연관된 제1 암 신호에 대응하는 질병 상태를 제공하는 단계; 제2 개인의 제2 샘플의 제2 복수의 암 신호를 수신하는 단계 - 제2 복수의 암 신호 중 각각의 암 신호는 제2 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 제2 복수의 암 신호 중 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 제2 암 신호가 기준을 만족하지 않는다고 결정하는 단계에 응답하여, 제2 샘플을 적어도 제2 암 신호를 포함하는 제2 복수의 암 신호의 일 서브세트에 대응하는 복수의 질병 상태의 일 서브세트와 연관시키는 단계; 및 제2 개인의 제2 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 제2 샘플과 연관된 제2 복수의 암 신호의 서브세트에 대응하는 복수의 질병 상태의 서브세트를 제공하는 단계를 포함한다.
다른 양태에서, 본 개시내용은 하나 이상의 프로세서에 의해서 실행될 때, 하나 이상의 프로세서로 하여금 다음의 단계를 수행하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체를 제공하며, 다음의 단계는, 제1 개인의 제1 샘플의 제1 복수의 암 신호를 수신하는 단계 - 제1 복수의 암 신호 중 각각의 암 신호는 제1 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계; 제1 암 신호가 기준을 만족한다고 결정하는 단계에 응답하여, 제1 샘플을 제1 암 신호에 대응하는 질병 상태와 연관시키는 단계; 제1 개인의 제1 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 제1 샘플과 연관된 제1 암 신호에 대응하는 질병 상태를 제공하는 단계; 제2 개인의 제2 샘플의 제2 복수의 암 신호를 수신하는 단계 - 제2 복수의 암 신호 중 각각의 암 신호는 제2 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 제2 복수의 암 신호 중 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 제2 암 신호가 기준을 만족하지 않는다고 결정하는 단계에 응답하여, 제2 샘플을 적어도 제2 암 신호를 포함하는 제2 복수의 암 신호의 일 서브세트에 대응하는 복수의 질병 상태의 일 서브세트와 연관시키는 단계; 및 제2 개인의 제2 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 제2 샘플과 연관된 제2 복수의 암 신호의 서브세트에 대응하는 복수의 질병 상태의 서브세트를 제공하는 단계를 포함한다.
다른 양태에서, 본 개시내용은 암 신호 국재화를 위한 방법을 제공하며, 이 방법은 샘플의 복수의 암 신호를 수신하는 단계 - 복수의 암 신호 중 각각의 암 신호는 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계; 제1 암 신호가 기준을 만족한다는 결정에 따라, 샘플을 제1 암 신호에 대응하는 제1 질병 상태와 연관시키는 단계; 제1 암 신호가 기준을 충족하지 않는다는 결정에 따라: 복수의 암 신호 중 두 번째로 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 및 샘플을 제1 암 신호에 대응하는 질병 상태 및 제2 암 신호에 대응하는 제2 질병 상태와 연관시키는 단계를 포함한다.
일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 제1 암 신호가 기준을 만족한다는 결정에 따라, 샘플 내 암의 예측을 결정하기 위해 기계 학습 모델에 대한 입력으로서 제1 암 신호를 제공하는 단계; 및 제1 암 신호가 기준을 만족하지 않는다는 결정에 따라, 샘플 내 암의 예측을 결정하기 위해 기계 학습 모델에 대한 입력으로서 제1 암 신호 및 제2 암 신호를 제공하는 단계를 더 포함한다.
일부 실시형태에서, 본 개시내용의 방법, 시스템, 또는 비일시적 컴퓨터 판독 가능 매체는 제1 암 신호가 기준을 만족한다는 결정에 따라, 제1 암 신호에 대응하는 제1 질병 상태와 샘플의 연관성을 포함하는 제1 훈련 세트를 생성하여 암 신호 국재화를 위한 기계 학습 모델을 훈련시키는 단계; 및 제1 암 신호가 기준을 만족하지 않는다는 결정에 따라, 제1 암 신호에 대응하는 제1 질병 상태 및 제2 암 신호에 대응하는 제2 질병 상태와 샘플의 연관성을 포함하는 제2 훈련 세트를 생성하여 기계 학습 모델을 훈련시키는 단계를 더 포함한다.
다른 양태에서, 본 개시내용은 암 신호 국재화를 위한 방법을 제공하며, 이 방법은 샘플의 복수의 암 신호를 수신하는 단계 - 복수의 암 신호 중 각각의 암 신호는 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -; 복수의 암 신호 중 제1 암 신호가, 복수의 암 신호 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제1 조건부 확률을 결정하는 단계; 제1 조건부 확률이 기준을 만족한다고 결정하는 단계에 응답하여, 샘플을 제1 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계; 제1 암 신호를 제외한 복수의 암 신호의 일 서브세트를 결정하는 단계; 복수의 암 신호의 서브세트 중 제2 암 신호가, 복수의 암 신호의 서브세트 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제2 조건부 확률을 결정하는 단계; 및 제2 조건부 확률이 기준을 만족한다고 결정하는 단계에 응답하여, 샘플을 제2 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계를 포함한다.
다양한 실시형태에서, 시스템은 컴퓨터 프로세서 및 메모리를 포함하며, 메모리는 컴퓨터 프로세서에 의해서 실행될 때 프로세서로 하여금 본원에 설명된 방법들 중 어느 하나를 수행하게 하는 컴퓨터 프로그램 명령어를 저장한다. 다양한 실시형태에서, 비일시적 컴퓨터 판독 가능 매체는 하나 이상의 프로그램을 저장하며, 하나 이상의 프로그램은 프로세서를 포함하는 전자 디바이스에 의해 실행될 때 이 디바이스가 본원에 설명된 방법들 중 어느 하나를 수행하게 하는 명령어를 포함한다.
도 1a는 다양한 실시형태에 따른 암 신호 국재화를 위한 방법의 흐름도이다.
도 1b는 다양한 실시형태에 따른 암 신호 국재화를 위한 다른 방법의 흐름도이다.
도 2a는 다양한 실시형태에 따른 핵산 샘플을 시퀀싱하기 위한 시스템을 예시한다.
도 2b는 다양한 실시형태에 따른 암 신호 국재화를 위한 분석 시스템의 블록도이다.
도 3은 다양한 실시형태에 따른 핵산들을 시퀀싱하는 프로세스를 설명하는 흐름도이다.
도 4는 일 실시형태에 따른 암 신호 국재화 동안의 참양성 및 위양성의 실험 결과를 예시한다.
도 5는 다양한 실시형태에 따른 조건부 확률에 기초한 암 신호 국재화를 위한 방법의 흐름도이다.
도 6은 일 실시형태에 따른 암 신호 국재화의 실험 결과를 예시한다.
도 7은 일 실시형태에 따른 조건부 리턴에 기초한 암 신호 국재화의 실험 결과를 예시한다.
도 8은 일 실시형태에 따른 잠복성 암 샘플로부터의 암 신호 국재화의 실험 결과를 예시한다.
도 9는 일 실시형태에 따른 암 샘플의 서브샘플링을 예시하는 플롯이다.
도 10a 및 도 10b는 일 실시형태에 따른 예상되는 스크리닝 암 신호 강도와 매칭되도록 서브샘플링된 검출된 암 샘플을 예시한다.
도 11a 및 도 11b는 일부 실시형태에 따른 서브샘플링 전후의 암 유형별 암 신호 세기를 예시한다.
도 12는 일부 실시형태에 따른 서브샘플링 전후의 암 유형 및 단계에 따른 암 신호 세기를 예시한다.
도 13a 및 도 13b는 일부 실시형태에 따른, 제1, 제2, 제3 및 제4 CSL 콜(call)에 의해서 캡처된 CSL 신호의 비율과 같은 CSL 콜 확률의 분포의 막대 그래프를 포함한다.
도 14a 및 도 14b는 일부 실시형태에 따른, 실제 암 유형별로, 제1, 제2, 제3 및 제4 CSL 콜에 의해서 캡처된 CSL 신호의 비율과 같은 CSL 콜 확률의 분포의 막대 그래프를 포함한다.
도 15a, 도 15b 및 도 15c는 일부 실시형태에 따라 위양성과 참양성으로 구분된 중앙값 암 점수들의 막대 그래프들을 포함한다.
도 16은 일부 실시형태에 따른 누적 확률 점수를 예시한다.
도 17a 및 도 17b는 일부 실시형태에 따른 암 신호 국재화의 조건부 정확도를 예시한다.
도 18a 및 도 18b는 일부 실시형태에 따른, 고체 샘플 유형 및 액체 샘플 유형에 대한 암 신호 국재화의 조건부 정확도를 예시한다.
도 19a 및 도 19b는 일부 실시형태에 따른, 암 단계에 기반한 암 신호 국재화의 조건부 정확도를 예시한다.
도 20a 및 도 20b는 일부 실시형태에 따른 암 신호 국재화의 누적 정확도를 예시한다.
도 21a 및 도 21b는 일부 실시형태에 따른 위양성의 암 신호 국재화를 예시한다.
도 22a 및 도 22b는 일부 실시형태에 따른 암 유형에 기반한 위양성의 암 신호 국재화를 예시한다.
도 1b는 다양한 실시형태에 따른 암 신호 국재화를 위한 다른 방법의 흐름도이다.
도 2a는 다양한 실시형태에 따른 핵산 샘플을 시퀀싱하기 위한 시스템을 예시한다.
도 2b는 다양한 실시형태에 따른 암 신호 국재화를 위한 분석 시스템의 블록도이다.
도 3은 다양한 실시형태에 따른 핵산들을 시퀀싱하는 프로세스를 설명하는 흐름도이다.
도 4는 일 실시형태에 따른 암 신호 국재화 동안의 참양성 및 위양성의 실험 결과를 예시한다.
도 5는 다양한 실시형태에 따른 조건부 확률에 기초한 암 신호 국재화를 위한 방법의 흐름도이다.
도 6은 일 실시형태에 따른 암 신호 국재화의 실험 결과를 예시한다.
도 7은 일 실시형태에 따른 조건부 리턴에 기초한 암 신호 국재화의 실험 결과를 예시한다.
도 8은 일 실시형태에 따른 잠복성 암 샘플로부터의 암 신호 국재화의 실험 결과를 예시한다.
도 9는 일 실시형태에 따른 암 샘플의 서브샘플링을 예시하는 플롯이다.
도 10a 및 도 10b는 일 실시형태에 따른 예상되는 스크리닝 암 신호 강도와 매칭되도록 서브샘플링된 검출된 암 샘플을 예시한다.
도 11a 및 도 11b는 일부 실시형태에 따른 서브샘플링 전후의 암 유형별 암 신호 세기를 예시한다.
도 12는 일부 실시형태에 따른 서브샘플링 전후의 암 유형 및 단계에 따른 암 신호 세기를 예시한다.
도 13a 및 도 13b는 일부 실시형태에 따른, 제1, 제2, 제3 및 제4 CSL 콜(call)에 의해서 캡처된 CSL 신호의 비율과 같은 CSL 콜 확률의 분포의 막대 그래프를 포함한다.
도 14a 및 도 14b는 일부 실시형태에 따른, 실제 암 유형별로, 제1, 제2, 제3 및 제4 CSL 콜에 의해서 캡처된 CSL 신호의 비율과 같은 CSL 콜 확률의 분포의 막대 그래프를 포함한다.
도 15a, 도 15b 및 도 15c는 일부 실시형태에 따라 위양성과 참양성으로 구분된 중앙값 암 점수들의 막대 그래프들을 포함한다.
도 16은 일부 실시형태에 따른 누적 확률 점수를 예시한다.
도 17a 및 도 17b는 일부 실시형태에 따른 암 신호 국재화의 조건부 정확도를 예시한다.
도 18a 및 도 18b는 일부 실시형태에 따른, 고체 샘플 유형 및 액체 샘플 유형에 대한 암 신호 국재화의 조건부 정확도를 예시한다.
도 19a 및 도 19b는 일부 실시형태에 따른, 암 단계에 기반한 암 신호 국재화의 조건부 정확도를 예시한다.
도 20a 및 도 20b는 일부 실시형태에 따른 암 신호 국재화의 누적 정확도를 예시한다.
도 21a 및 도 21b는 일부 실시형태에 따른 위양성의 암 신호 국재화를 예시한다.
도 22a 및 도 22b는 일부 실시형태에 따른 암 유형에 기반한 위양성의 암 신호 국재화를 예시한다.
이제 여러 실시형태를 자세히 참조할 것이며, 이의 실시예는 첨부 도면에 예시된다. 실행 가능한 경우에 유사하거나 비슷한 참조 번호가 도면에 사용될 수 있으며 유사하거나 비슷한 기능을 나타낼 수 있다는 점에 유의한다. 또한, 본원에 언급된 모든 공개 자료(특허 출원, 특허, 논문, 회의록 등)의 내용은 그 전체가 본 명세서에 참조에 의해서 포함된다는 점에 유의한다.
I. 정의
다르게 정의되지 않는 한, 본원에 사용된 모든 기술 및 과학 용어는 본 설명이 속하는 기술분야에서 숙련된 사람에 의해서 일반적으로 이해되는 의미를 갖는다. 본원에서 사용되는 바와 같이, 다음 용어는 아래에서 다음 용어에 부여된 의미를 갖는다.
"개인"이라는 용어는 인간 개인을 지칭한다. "건강한 개인"이라는 용어는 암이나 질병이 없다고 추정되는 개인을 지칭한다.
"피험자"라는 용어는 DNA가 분석되고 있는 개인을 지칭한다. 피험자는 테스트 피험자로서, 이의 DNA가 그 사람이 질병 상태(예컨대, 암, 암의 유형, 또는 암 기원 조직)를 가지고 있는지 여부를 평가하기 위해 본원에 설명된 바와 같이 전체 게놈 시퀀싱 또는 표적 패널을 사용하여 평가될 수 있다. 피험자는 또한 암이나 다른 질병이 없는 것으로 알려진 대조군의 일부일 수 있다. 피험자는 또한 암 또는 다른 질병을 앓고 있는 것으로 알려진 암 그룹 또는 다른 질병 그룹의 일부일 수 있다. 대조군 및 암/질병 그룹은 표적 패널을 설계하거나 검증하는 것을 지원하기 위해서 사용될 수 있다.
"참조 샘플"이라는 용어는 질병 상태가 알려진 피험자로부터 얻은 샘플을 지칭한다.
"훈련 샘플"이라는 용어는 서열 판독(sequence read)을 생성하는 데 사용될 수 있는 알려진 질병 상태로부터 얻은 샘플을 지칭한다. 질병 상태 분류에 활용될 수 있는 특징을 생성하기 위해 훈련 샘플은 확률 모델에 적용될 수 있다.
"시험 샘플"이라는 용어는 질병 상태가 알려지지 않은 샘플을 지칭한다.
"서열 판독"이라는 용어는 개인으로부터 얻은 샘플로부터의 뉴클레오티드 서열 판독을 지칭한다. 서열 판독은 샘플의 핵산 단편으로부터 생성될 수 있다. 서열 판독은 단일 기원 핵산 분자로부터의 복수의 앰플리콘으로부터 유래된 복수의 서열 판독으로부터 생성된 붕괴된 서열 판독일 수 있다. 일부 실시형태에서, 서열 판독은 중복이 제거된 서열 판독일 수 있다. 서열 판독은 당업계에 공지된 다양한 방법을 통해 획득될 수 있다.
"질병 상태"라는 용어는 질병의 존재 또는 부재, 질병의 유형, 및/또는 질병 기원 조직 지칭한다. 예를 들어, 일 실시형태에서, 본 개시내용은 암(즉, 암의 존재 또는 부재), 암 유형, 또는 암 기원 조직을 검출하기 위한 방법, 시스템 및 비일시적 컴퓨터 판독 가능 매체를 제공한다.
"기원 조직" 또는 "TOO(tissue of origin)"라는 용어는 질병 상태가 발생하거나 기원할 수 있는 기관, 기관 그룹, 신체 부위 또는 세포 유형을 지칭한다. 예를 들어, 기원 조직 또는 암세포 유형의 식별은 일반적으로 추가적으로 진단하고, 병의 단계를 정하고, 치료를 결정하기 위한 적절한 다음 단계를 식별할 수 있다.
본원에 사용된 용어 "메틸화"는 메틸기가 DNA 분자에 첨가되는 화학적 프로세스를 지칭한다. DNA의 4개 염기 중 2개인 사이토신("C")과 아데닌("A")은 메틸화될 수 있다. 예를 들어, 사이토신 염기의 피리미딘 고리 상의 수소 원자기 메틸기로 변환되어 5-메틸사이토신을 형성할 수 있다. 메틸화는 본원에서 "CpG 부위"로 지칭되는 사이토신 및 구아닌의 디뉴클레오티드에서 발생하는 경향이 있다. 다른 예에서, 메틸화는 CpG 부위의 일부가 아닌 사이토신에서 또는 사이토신이 아닌 다른 뉴클레오티드에서 발생할 수 있으나, 이는 더 드물게 발생한다. 본 개시내용에서, 메틸화는 명확성을 위해서 CpG 부위와 관련하여 논의된다. 그러나 본원에서 설명되는 원리는 비-사이토신(non-cytosine) 메틸화를 포함하여 비-CpG 맥락에서의 메틸화의 검출을 위해 동일하게 적용 가능하다. 예를 들어, 아데닌 메틸화는 박테리아, 식물 및 포유류 DNA에서 관찰되었지만, 상당히 덜 주목을 받았다.
이러한 구현 예에서, 메틸화를 검출하기 위해 사용되는 습식 실험실 어세이(wet laboratory assay)는 당업계에 잘 알려진 바와 같이 본원에 기술된 것과 다를 수 있다. 또한, 메틸화 상태 벡터는 일반적으로 메틸화가 발생했거나 발생하지 않은 부위(해당 부위가 구체적으로 CpG 부위가 아니더라도)의 벡터인 요소를 포함할 수 있다. 이러한 치환으로, 본원에 기술된 프로세스의 나머지 부분은 동일하며, 결과적으로 본원에 기술된 본 발명의 개념은 이러한 다른 형태의 메틸화에 적용 가능하다.
"CpG 부위"라는 용어는 5'에서 3' 방향을 따른 염기의 선형 서열에서 사이토신 뉴클레오티드가 구아닌 뉴클레오티드에 의해서 추종되는 DNA 분자의 영역을 지칭한다. "CpG"는 단 하나의 인산기에 의해서 분리된 사이토신과 구아닌인 5'-C-포스페이트-G-3'의 약칭이며, 인산염은 DNA에서 임의의 두 개의 뉴클레오티드를 함께 링크한다. CpG 디뉴클레오티드의 사이토신은 메틸화되어 5-메틸사이토신을 형성할 수 있다.
"세포 유리 데옥시리보핵산", "세포 유리 DNA" 또는 "cfDNA"라는 용어는 혈액, 땀, 소변, 또는 타액과 같은 체액에서 순환하고 하나 이상의 건강한 세포로부터 그리고/또는 하나 이상의 암세포로부터 유래하는 데옥시리보핵산 단편을 지칭한다.
"순환 종양 DNA" 또는 "ctDNA"라는 용어는 종양 세포 또는 다른 유형의 암세포로부터 유래하는 데옥시리보핵산 단편을 지칭하며, 이는 죽어가는 세포의 아포토시스(apoptosis)나 네크로시스(necrosis)와 같은 생물학적 프로세스의 결과로 혈액, 땀, 소변, 타액과 같은 개인의 체액으로 방출되거나 생존 가능한 종양 세포에 의해서 능동적으로 방출될 수 있다.
II. 국재화 방법의 개요
도 1a는 다양한 실시형태에 따른 암 신호 국재화를 위한 방법(100)의 흐름도이다. 도 2b는 다양한 실시형태에 따른 암 신호 국재화를 위한 분석 시스템(200)의 블록도이다. 도 2b에 도시된 실시형태에서, 분석 시스템(200)은 서열 프로세서(210), 기계 학습 엔진(220), 확률론적 모델(230), 분류기(240), 및 국재화 엔진(250)을 포함한다. 다양한 실시형태에서, 분석 시스템(200)은 본원에 설명된 방법들 중 임의의 것을 수행한다. 방법(100)은 다음의 단계들을 포함하지만 이에 한정되지는 않는다.
단계 110에서, 국재화 엔진(250)은 제1 샘플의 제1 세트의 암 신호들을 수신한다. 암 신호는 또한 "확률 점수" 또는 "암 점수"라고 지칭될 수 있다. 제1 세트의 암 신호들 중 각각의 암 신호는 제1 샘플이 일 세트의 질병 상태들 중 상이한 질병 상태와 연관된 확률을 나타낸다. 암 신호(의 확률) 각각은 0% 내지 100%, 0 내지 100, 0 내지 1의 스케일 상에 있을 수 있다. 제1 세트 내의 암 신호들은 100%, 100 또는 1로 총계될 수 있다.
암 신호들은 하나 이상의 분류기(240)에 의해 생성될 수 있다. 다양한 실시형태에서, 분류기(240)는 샘플들의 서열 판독(sequence read)들을 프로세싱함으로써 암 신호들을 생성한다. 서열 프로세서(210)는 샘플들의 서열 판독들을 생성할 수 있다. 일부 실시형태에서, 신호들은 암 이외의 질병 상태들과 연관된다. 예를 들어, 질병 상태들은 의학적 또는 생리학적 질환(physiological condition)들, 유전적 장애(disorder)들, 건강 관련 메트릭(metrics) 및 기타 유형의 질병들을 포함할 수 있다.
다양한 실시형태에서, 분류기(240)는 21개의 상이한 암 유형에 대한 암 신호들과 하나의 비-암(non-cancer) 신호를 포함하는 일 세트의 22개의 암 신호를 생성한다. 21개의 상이한 암 유형은 다음을 포함한다: 항문; 방광 및 요로상피관; 유방; 자궁 경부; 결장 및 직장; 머리와 목; 신장; 간 및 담관; 폐; 폐 또는 기타 기관의 신경내분비 세포; 림프계통; 멜라닌 세포 계통; 골수 계통; 난소; 췌장 및 담낭; 혈장 세포 계통; 전립선; 뼈 및 연조직; 갑상선; 위와 식도; 자궁. 다른 실시형태에서, 분류기는 다른 수의 암 신호들을 포함하는 세트, 또는 상기 목록과 다른 유형의 질병 상태를 포함하는 세트를 생성한다.
단계 120에서, 국재화 엔진(250)은 제1 세트의 암 신호들 중 가장 큰 확률을 갖는 제1 암 신호를 결정한다. 단계 130에서, 제1 암 신호가 기준을 만족한다고 결정하는 것에 응답하여, 국재화 엔진(240)은 제1 샘플을 제1 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시킨다. 예를 들어, 국재화 엔진(250)은 제1 샘플이 질병 상태에 의해 표시된 기원 조직을 갖는 암과 연관되어 있다는 예측을 리포트할 수 있다. 일부 실시형태에서, 국재화 엔진(250)은 제1 암 신호에 대응하는 질병 상태만을 리포트한다; 즉, 국재화 엔진(250)은 제1 세트의 암 신호들 중 다른 암 신호에 대응하는 질병 상태의 예측을 리포트하지 않을 것이다. 기준이 만족될 때 하나의 질병 상태만을 리포트하는 것은 분석 시스템(200)에 의해 제공되는 출력의 복잡성을 감소시키는 데 도움이 될 수 있으며, 이는 의사의 업무를 지원할 수 있다.
다양한 실시형태에서, 기준은 양성 암 점수의 90% 확률 임계값이다. 즉, 국재화 엔진(250)은 분류기(240)가 90%의 암 신호 기원 조직 점수 매스(score mass)를 제1 암 신호(질병 상태에 대응함)에 할당하는지 여부를 결정한다. 일 세트의 암 신호들이 이전에 기술된 바와 같이 22개의 암 유형을 포함하는 일부 실시형태에서, 확률 임계값은 하나의 비-암 신호를 만족하지 않으며; 즉, 국재화 엔진(250)은 분류기(240)가 21개의 암 신호 중에서 90%의 암 신호 기원 조직 점수 매스를 제1 암 신호에 할당하는지 여부를 결정한다. 다른 실시형태에서, 확률 임계값은 암의 존재를 나타내는 암 신호뿐만 아니라 하나의 비-암 신호를 설명한다. 다른 실시형태에서, 기준은 미리 결정된 다른 확률 임계값, 예를 들어, 88%, 89%, 91%, 92% 등일 수 있다.
다양한 실시형태에서, 국재화 엔진(250)은 위양성(false positives) 및 암 신호 확률의 정확성에 기초하여 기준을 결정한다. 정확하게 검출된 참양성의 비율을 증가시키는 기준에 대한 확률 임계값을 선택하는 것은 또한 위양성, 즉, 실제로 암이 존재하지 않는 건강한 샘플에서 암의 존재를 잘못 예측하는 것의 수를 증가시킬 수 있다. 이러한 상충관계(trade-off)는 도 4에 예시된 플롯(400)에 예시된다. 더 낮은 확률 임계값에서, 참양성 검출을 위한 한계 이익률(marginal benefit)이 높다. 90%를 초과하는 더 큰 확률 임계값에서, 한계 이익률 참양성 검출은, 위양성의 증가된 비율 때문에, 감소된다. 일 실시형태에서, 국재화 엔진(250)은 참양성 대 위양성 검출의 플롯(400) 상에서 곡선의 변곡점을 결정함으로써 확률 임계값을 결정한다. 변곡점에 기초하여, 국재화 엔진(250)은, 확률 임계값을 사용하여 암 예측을 결정하는 것이 위양성 검출의 위험을 완화하면서 참양성 검출의 정확도를 향상시키기 때문에 확률 임계값, 예를 들어 90%가 최적이라고 결정한다. 확률 임계값은 참양성을 예측할 때 위양성의 위험을 고려하지 않는 기존 방법에 비해 더 우수한 것을 제공한다. 높은 비율의 위양성을 갖는 기존 방법은 전반적으로 더 낮은 예측 정확도로 귀결된다. 따라서, 확률 임계값은, 예를 들어, 수술이 필요할 수 있는 조직 생검 대신 혈액 샘플을 사용하는, 특히 비침습적 절차에서, 암 예측을 결정하는 유용한 응용분야에 대해 유리하다.
단계 140에서, 국재화 엔진(250)은 제2 샘플의 제2 세트의 암 신호들을 수신한다. 제1 샘플과 제2 샘플은 두 명의 상이한 환자 또는 동일한 환자로부터 유래된 것일 수 있다. 샘플들은 세포 유리(cell free) 핵산 샘플(예컨대, cfDNA), 고형 종양 샘플 및/또는 기타 유형의 생물학적 샘플 중 임의의 것을 포함할 수 있다. 제2 세트의 암 신호들 중 각각의 암 신호는 제2 샘플이 일 세트의 질병 상태들(예컨대, 제1 세트의 암 신호들에 대한 동일한 세트) 중 상이한 질병 상태와 연관된 확률을 나타낸다.
단계 150에서, 국재화 엔진(250)은 제2 세트의 암 신호들 중 가장 큰 확률을 갖는 제2 암 신호를 결정한다. 단계 160에서, 제2 암 신호가 기준을 만족하지 않는다고 결정하는 것에 응답하여, 국재화 엔진(250)은 제2 샘플을 제2 세트의 암 신호들의 서브세트에 대응하는 일 세트의 질병 상태들의 서브세트와 연관시킨다. 일부 실시형태에서, 제2 세트의 암 신호들의 서브세트는 제2 세트의 암 신호들 중에서 가장 큰 2개의 확률을 갖는 암 신호들을 포함할 수 있다. 다른 실시형태에서, 제2 세트의 암 신호들의 서브세트는 다양한 수의 암 신호, 예를 들어 3개, 4개, 5개 또는 6개 이상의 암 신호를 포함할 수 있다.
일부 실시형태에서, 국재화 엔진(250)은 제1 세트의 암 신호들 중에서 n개의 가장 큰 확률을 갖는 제1 세트의 암 신호들의 일 서브세트의 n개의 암 신호를 결정한다. 제1 세트의 암 신호들 중 적어도 임계 수의 서브세트가 일 카테고리의 질병 상태들과 연관되어 있다고 결정하는 것에 응답하여, 국재화 엔진(250)은 제1 샘플을 일 카테고리의 질병 상태들의 각각의 질병 상태와 연관시킨다. 예를 들어, 일 카테고리의 질병 상태들은 인간 유두종 바이러스(HPV) 암이다. 다른 실시예에서, 일 카테고리의 질병 상태들은 위암과 장암을 포함한다. 다른 실시형태에서, 일 카테고리의 질병 상태들은 하나 이상의 다른 유형의 암을 포함할 수 있다.
일부 실시형태에서, 국재화 엔진(250)은 현재 암이 샘플과 연관될 잔여 위험(개인이 암으로 진단될 위험)에 기초하여 기준을 결정할 수 있다. 예를 들어, 국재화 엔진(250)은 기원 조직 예측이 부정확하다고 가정하면, 암의 조건부 확률에 기초하여 추가 암 신호를 리포트하기로 결정하며, 여기서 v는 교정된 기원 조직 확률의 순위 지정된 정렬된 벡터이다.
국재화 엔진(250)은 제1 기원 조직에서 암이 검출되지 않은 암-양성 테스트 후에 개인이 암에 걸렸을 확률을 결정할 수 있으며; 암은 제2 또는 제3 기원 조직에서 검출될 수 있다.
국재화 엔진(250)은 다른 유형의 건강 관리 제공자들 중에서 의사, 내과의사 또는 임상의와 같은 사용자에게 질병 상태 결정(예컨대, 암 기원 조직 국재화)을 제시할 수 있다. 예를 들어, 국재화 엔진(250)은 클라이언트 디바이스 상에서의 제시를 위해 제1 샘플과 연관된 제1 암 신호에 대응하는 질병 상태를 사용자에게 제공한다. 국재화 엔진(250)은 제2 샘플과 연관된 일 세트의 질병 상태들의 서브세트에 대응하는 각각의 질병 상태의 그래픽적 비교를 제공할 수 있다. 다양한 실시형태에서, 그래픽적 비교는 제2 세트의 암 신호들의 확률들에 기초한 막대 그래프이다. 확률들의 시각적 표현을 제시함으로써, 사용자는 국재화 엔진(250)에 의해서 출력되는 정보를 직감적으로 해석할 수 있다. 예를 들어, 그래픽적 비교는 사용자가 검출된 암의 참양성 기원 조직일 가능성이 더 큰 기원 조직에 더 많은 가중치를 두는 것을 제안할 수 있다.
도 1b는 다양한 실시형태에 따른 암 신호 국재화를 위한 다른 방법(170)의 흐름도이다. 방법(170)은 다음의 단계들을 포함하지만 이에 한정되지는 않는다.
단계 172에서, 국재화 엔진(250)은 일 샘플의 일 세트의 암 신호들을 수신한다. 해당 세트의 암 신호들 중 각각의 암 신호는 해당 샘플이 일 세트의 질병 상태들 중 상이한 질병 상태와 연관된 확률을 나타낸다. 단계 174에서, 국재화 엔진(250)은 해당 세트의 암 신호들 중 가장 큰 확률을 갖는 제1 암 신호를 결정한다.
단계 176에서, 제1 암 신호가 기준(상술된 기준들 중 임의의 것과 같은)을 만족한다는 결정에 따라, 국재화 엔진(250)은 해당 샘플을 제1 암 신호에 대응하는 제1 질병 상태와 연관시킨다.
단계 178에서, 제1 암 신호가 해당 기준을 만족하지 않는다는 결정에 따라, 국재화 엔진(250)은 해당 세트의 암 신호들 중에서 두 번째로 큰 확률을 갖는 제2 암 신호를 결정하고; 단계 180에서, 국재화 엔진(250)은 해당 샘플을 제1 암 신호에 대응하는 질병 상태 및 제2 암 신호에 대응하는 제2 질병 상태와 연관시킨다. 다시 말해, 국재화 엔진(250)은 제2 세트의 암 신호들 중 2개의 가장 큰 확률을 갖는 암 신호와 해당 샘플을 연관시킨다.
도 5는 다양한 실시형태에 따른 조건부 확률에 기초한 암 신호 국재화를 위한 방법(500)의 흐름도이다. 미리 결정된 확률 임계값을 사용하는 대신, 국재화 엔진(250)은 이전 n-1개의 암 신호들이 부정확하다고 가정하면 n번째 암 신호가 정확할 조건부 확률에 기초하여 임계값을 결정할 수 있다. 이 경우, 국재화 엔진(250)은 P(n번째 암 신호 정확 | 이전 n-1개의 암 신호들 부정확)가 임계 확률 초과와 같이 기준을 만족하는 한 계속해서 암 신호들을 리턴할 수 있다. 방법(500)은 다음의 단계들을 포함하지만 이에 한정되지는 않는다.
단계 510에서, 국재화 엔진(250)은 일 샘플의 일 세트의 암 신호들을 수신한다. 암 신호들 중 각각은 해당 샘플이 일 세트의 질병 상태들 중 상이한 질병 상태와 연관된 확률을 나타낸다.
단계 520에서, 국재화 엔진(250)은 일 세트의 암 신호들 중 제1 암 신호가, 일 세트의 암 신호들 중 나머지 암 신호들이 부정확하다고 가정하면 참양성일 제1 조건부 확률을 결정한다. 단계 530에서, 제1 조건부 확률이 기준을 만족한다고 결정하는 것에 응답하여, 국재화 엔진(250)은 해당 샘플을 제1 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시킨다.
단계 540에서, 국재화 엔진은 제1 암 신호를 제외한 복수의 암 신호의 일 서브세트를 결정한다. 단계 550에서, 국재화 엔진은 일 서브세트의 암 신호들 중 제2 암 신호가, 일 서브세트의 암 신호들 중 나머지 암 신호들이 부정확하다고 가정하면 참양성일 제2 조건부 확률을 결정한다. 단계 560에서, 제2 조건부 확률이 해당 기준을 만족한다고 결정하는 것에 응답하여, 국재화 엔진(250)은 해당 샘플을 제2 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시킨다.
II.A. 어세이(assay) 프로토콜
도 3은 일 실시형태에 따른 핵산들을 시퀀싱하는 프로세스(300)를 설명하는 흐름도이다. 일부 실시형태에서, 프로세스(300)는 본원에 설명된 암 신호 국재화를 위한 방법들 중 어느 하나를 수행하기 위해 분석 시스템(200)에 의해서 사용되는 서열 판독을 생성하기 위해 수행된다.
단계 310에서, 핵산 샘플(예컨대, DNA 또는 RNA)이 피험자로부터 추출된다. 본 개시내용에서, DNA 및 RNA는 달리 명시되지 않는 한 상호교환적으로 사용될 수 있다. 즉, 본원에 설명된 실시형태는 DNA 및 RNA 유형의 핵산 서열 모두에 적용될 수 있다. 그러나, 본원에 설명된 실시예는 명확성 및 설명의 목적을 위해 DNA에 초점을 맞출 수 있다. 샘플은 전체 게놈을 포함하여, 임의의 서브세트의 인간 게놈으로부터 유래된 핵산 분자를 포함할 수 있다. 샘플은 혈액, 혈장, 혈청, 소변, 대변, 타액, 기타 유형의 체액 또는 이들의 조합을 포함할 수 있다. 일부 실시형태에서, 혈액 샘플을 채취하는 방법(예컨대, 주사기 또는 손가락 채혈(finger prick))은 수술을 필요로 할 수 있는 조직 생검을 얻기 위한 절차보다 덜 침습적일 수 있다. 추출된 샘플은 cfDNA 및/또는 ctDNA를 포함할 수 있다. 피험자가 암과 같은 질병 상태를 가지고 있는 경우, 피험자로부터 추출된 샘플 내의 세포 유리 핵산(예컨대, cfDNA)은 일반적으로 질병 상태를 평가하는 데 사용할 수 있는 검출 가능한 수준의 핵산을 포함한다.
단계 315에서, 추출된 핵산(예컨대, cfDNA 단편을 포함함)은 처리되어 비메틸화 사이토신을 우라실로 변환시킨다. 일부 실시형태에서, 방법(300)은, 메틸화된 사이토신을 변환시킴 없이 비메틸화된 사이토신을 우라실로 변환시키는 샘플의 술폰산 처리를 사용한다. 예를 들어, EZ DNA MethylationTM - Gold, EZ DNA MethylationTM - Direct 또는 EZ DNA MethylationTM - Lightning 키트(Zymo Research Corp(미국 캘리포니아주 어바인 소재)로부터 입수 가능)와 같은 상용 키트는 술폰산 변환을 위해서 사용된다. 다른 실시형태에서, 비메틸화된 사이토신의 우라실로의 변환은 효소 반응을 사용하여 달성된다. 예를 들어, 변환은 비메틸화된 사이토신을 우라실로 변환하기 위해 상업적으로 입수 가능한 키트, 예를 들어 APOBEC-Seq(NEBiolabs, 매사추세츠주 입스위치 소재)를 사용할 수 있다.
단계 320에서, 시퀀싱 라이브러리가 준비된다. 일부 실시형태에서, 해당 준비는 적어도 두 개의 단계를 포함한다. 제1 단계에서, ssDNA 어댑터는 ssDNA 결찰 반응을 사용하여 술폰산-변환 ssDNA 분자의 3'-OH 말단에 추가된다. 일부 실시형태에서, ssDNA 결찰 반응은 CircLigase II(Epicentre)를 사용하여 ssDNA 어댑터를 술폰산-변환 ssDNA 분자의 3'-OH 말단에 결찰하며, 여기서 어댑터의 5'-말단이 인산화되고 술폰산-변환 ssDNA가 탈인산화되었다(즉, 3' 말단이 수산기를 가지고 있음). 다른 실시형태에서, ssDNA 결찰 반응은 Thermostable 5' AppDNA/RNA 리가제(New England BioLabs(매사추세츠주 입스위치 소재)로부터 입수 가능)를 사용하여 ssDNA 어댑터를 술폰산-변환 ssDNA 분자의 3'-OH 말단에 결찰시킨다. 이러한 실시예에서, 제1 UMI 어댑터는 5'-말단에서 아데닐화되고, 3'-말단에서 차단된다. 다른 실시형태에서, ssDNA 결찰 반응은 T4 RNA 리가제(New England BioLabs로부터 입수 가능)를 사용하여 ssDNA 어댑터를 술폰산-변환 ssDNA 분자의 3'-OH 말단에 결찰시킨다.
제2 단계에서, 제2 가닥 DNA는 확장 반응(extension reaction)으로 합성된다. 예를 들어, ssDNA 어댑터에 포함된 프라이머 서열에 보합(hybridize)하는 확장 프라이머(extension primer)는 이중-가닥 술폰산-변환 DNA 분자를 형성하기 위해 프라이머 확장 반응에 사용된다. 선택적으로 일부 실시형태에서, 확장 반응은 술폰산-변환 주형 가닥의 우라실 잔기를 통해 판독할 수 있는 효소를 사용한다.
선택적으로, 제3 단계에서, dsDNA 어댑터는 이중-가닥 술폰산-변환 DNA 분자에 추가된다. 그런 다음, 이중-가닥 술폰산-변환 DNA는 증폭되어 시퀀싱 어댑터를 추가할 수 있다. 예를 들어, P5 서열을 포함하는 순방향 프라이머 및 P7 서열을 포함하는 역방향 프라이머를 사용하는 PCR 증폭은 술폰산-변환 DNA에 P5 서열 및 P7 서열을 추가하기 위해서 사용된다. 선택적으로, 라이브러리 준비 동안에, 고유 분자 식별자(UMI: unique molecular identifier)들은 어댑터 결찰을 통해 핵산 분자들(예컨대, DNA 분자)에 추가될 수 있다. UMI는 어댑터 결찰 동안에 DNA 단편들의 말단들에 추가되는 짧은 핵산 서열(예컨대, 4-10개의 염기쌍)이다. 일부 실시형태에서, UMI는 특정 DNA 단편으로부터 유래하는 서열 판독을 식별하는 데 사용될 수 있는 고유 태그 역할을 하는 축퇴 염기쌍이다. 어댑터 결찰 후 PCR 증폭 동안에, UMI는 부착된 DNA 단편과 함께 복제되며, 이는 다운스트림 분석에서 동일한 원본 단편으로부터 유래된 서열 판독을 식별하는 방법을 제공한다.
선택적인 단계 325에서, 핵산(예컨대, 단편)들이 보합될 수 있다. 보합 프로브(본원에서 "프로브"라고도 함)는 질병 상태들에 대한 정보를 제공하는 핵산 단편들을 표적화하고 끌어낼 수 있다. 특정한 작업 흐름에 대해, 프로브는 DNA 또는 RNA의 표적(상보적) 가닥에 어닐링(또는 보합)하도록 설계될 수 있다. 표적 가닥은 "양성" 가닥(예컨대, mRNA로 전사되고 이어서 단백질로 번역되는 가닥) 또는 상보적인 "음성" 가닥일 수 있다. 프로브는 길이가 10s, 100s 또는 1000s의 염기쌍일 수 있다. 또한, 프로브는 일 표적 영역의 중첩 부분들을 커버할 수 있다.
선택적인 단계 330에서, 보합된 핵산 단편들은 포획되어 농축, 예를 들어 PCR을 사용하여 증폭될 수 있다. 일부 실시형태에서, 표적화된 DNA 서열은 라이브러리로부터 농축될 수 있다. 이것은, 예를 들어, 표적화 패널 어세이가 샘플들에 대해 수행되는 경우에 사용된다. 예를 들어, 표적 서열은 농축되어 후속적으로 시퀀싱될 수 있는 농축된 서열을 얻을 수 있다. 일반적으로, 프로브 보합된 표적 핵산을 단리하고 농축하는 데에는 당업계에 공지된 임의의 방법이 사용될 수 있다. 예를 들어, 당업계에 널리 공지된 바와 같이, 스트렙타비딘 코팅된 표면(예컨대, 스트렙타비딘-코팅된 비드)을 사용하여 프로브에 보합된 표적 핵산의 단리를 용이하게 하기 위해 비오틴 모이어티가 프로브의 5'-말단에 첨가(즉, 비오티닐화)될 수 있다.
단계 335에서, 서열 판독은 핵산 샘플, 예를 들어, 농축된 서열로부터 생성된다. 시퀀싱 데이터는 당업계에 공지된 수단에 의해 농축된 DNA 서열로부터 획득될 수 있다. 예를 들어, 방법은, 합성 기술(Illumina), 파이로시퀀싱(454 Life Sciences), 이온 반도체 기술(Ion Torrent 시퀀싱), 단일 분자 실시간 시퀀싱(Pacific Biosciences), 결찰에 의한 시퀀싱(SOLiD 시퀀싱), 나노포어 시퀀싱(Oxford Nanopore Technologies) 또는 페어드-엔드(paired-end) 시퀀싱을 포함하는 차세대 염기시퀀싱(NGS: next generation sequencing) 기술을 포함할 수 있다. 일부 실시형태에서, 가역적 염료 종결자(reversible dye terminator)를 이용한 합성을 통한 시퀀싱(sequencing-by-synthesis)을 사용하여 대규모 병렬 시퀀싱이 수행된다.
II.B. 예시적인 시퀀서 및 분석 시스템
도 2a는 다양한 실시형태에 따른 핵산 샘플을 시퀀싱하기 위한 시스템을 예시한다. 이러한 예시적인 다이어그램은 시퀀서(270) 및 분석 시스템(200)과 같은 디바이스들을 포함한다. 시퀀서(270) 및 분석 시스템(200)은 본원에 설명된 프로세스들에서 하나 이상의 단계를 수행하기 위해 협력하여 작동할 수 있다.
다양한 실시형태에서, 시퀀서(270)는 농축된 핵산 샘플(260)을 수용한다. 도 2a에 도시된 바와 같이, 시퀀서(270)는 특정 작업들(예컨대, 시퀀싱 시작 또는 시퀀싱 종료)과의 사용자 상호작용을 가능하게 하는 그래픽 사용자 인터페이스(275)뿐만 아니라 농축된 단편 샘플들을 포함하는 시퀀싱 카트리지를 로딩하기 위한 그리고/또는 시퀀싱 어세이를 수행하기 위해 필요한 버퍼를 로딩하기 위한 하나 이상의 로딩 스테이션(280)을 포함할 수 있다. 따라서, 일단 시퀀서(270)의 사용자가 시퀀서(270)의 로딩 스테이션(280)에 필요한 시약 및 시퀀싱 카트리지를 제공하면, 사용자는 시퀀서(270)의 그래픽 사용자 인터페이스(275)와 상호작용함으로써 시퀀싱을 개시할 수 있다. 일단 개시되면, 시퀀서(270)는 시퀀싱을 수행하고, 핵산 샘플(260)로부터 농축된 단편들의 서열 판독을 출력한다.
일부 실시형태에서, 시퀀서(270)는 분석 시스템(200)과 통신 가능하게 결합된다. 분석 시스템(200)은 하나 이상의 CpG 부위에서의 메틸화 상태 평가, 변이체 호출 또는 품질 관리와 같은 다양한 애플리케이션에 대한 서열 판독을 프로세싱하기 위해 사용되는 컴퓨팅 디바이스들 중 일부를 포함한다. 시퀀서(270)는 분석 시스템(200)에 BAM 파일 형식의 서열 판독을 제공할 수 있다. 분석 시스템(200)은 무선 통신 기술, 유선 통신 기술, 또는 무선과 유선 통신 기술의 조합을 통해 시퀀서(270)에 통신 가능하게 결합될 수 있다. 일반적으로, 분석 시스템(200)은 프로세서 및 프로세서에 의해 실행될 때 프로세서가 서열 판독을 프로세싱하게 하거나 본원에 개시된 방법들 또는 프로세스들 중 어느 하나의 하나 이상의 단계를 수행하게 하는 컴퓨터 명령어를 저장하는 비일시적 컴퓨터 판독 가능 저장 매체로 구성된다.
일부 실시형태에서, 서열 판독은 정렬 위치 정보를 결정하기 위해 당업계에 공지된 방법을 사용하여 참조 게놈에 정렬될 수 있다. 정렬 위치는 일반적으로 특정한 서열 판독을 시작 뉴클레오티드 염기 및 끝 뉴클레오티드 염기에 해당하는 참조 게놈 내 영역의 시작 위치와 끝 위치를 설명할 수 있다. 메틸화 시퀀싱에 대응하여, 정렬 위치 정보는 참조 게놈에 대한 정렬에 따라 서열 판독에 포함된 첫 번째 CpG 부위 및 마지막 CpG 부위를 나타내도록 일반화될 수 있다. 정렬 위치 정보는 특정한 서열 판독에서 모든 CpG 부위의 위치 및 메틸화 상태를 추가로 나타낼 수 있다. 참조 게놈에서 일 영역은 유전자 또는 유전자의 세그먼트와 연관될 수 있으며, 따라서, 분석 시스템(200)은 서열 판독에 정렬되는 하나 이상의 유전자로 서열 판독을 라벨링할 수 있다. 일 실시형태에서, 단편 길이(또는 사이즈)는 시작 위치와 끝 위치로부터 결정된다.
다양한 실시형태에서, 예를 들어, 페어드-엔드 시퀀싱 프로세스가 사용되는 경우, 서열 판독은 R_1 및 R_2로 표시된 판독 쌍으로 구성된다. 예를 들어, 제1 판독 R_1은 이중-가닥 DNA(dsDNA) 분자의 제1 말단으로부터 시퀀싱될 수 있는 반면, 제2 판독 R_2는 이중-가닥 DNA(dsDNA) 분자의 제2 말단으로부터 시퀀싱될 수 있다. 따라서, 제1 판독 R_1 및 제2 판독 R_2의 뉴클레오티드 염기쌍들은 참조 게놈의 뉴클레오티드 염기들과 일관되게(예컨대, 반대 배향으로) 정렬될 수 있다. 판독 쌍 R_1 및 R_2로부터 도출된 정렬 위치 정보는 제1 판독의 일 단부(예컨대, R_1)에 대응하는 참조 게놈의 시작 위치 및 제2 판독의 일 단부(예컨대, R_2)에 대응하는 참조 게놈의 종료 위치를 포함할 수 있다. 다시 말해, 참조 게놈의 시작 위치와 종료 위치는 핵산 단편이 대응하는 참조 게놈 내의 가능한 위치를 나타냅니다. 일 실시형태에서, 판독 쌍 R_1 및 R_2는 단편 안으로 조립될 수 있고, 이 단편은 후속 분석 및/또는 분류를 위해서 사용될 수 있다. SAM(서열 정렬 맵) 형식 또는 BAM(이진) 형식을 갖는 출력 파일이 생성되어 추가 분석을 위해 출력될 수 있다.
이제 도 2b를 참조하면, 분석 시스템(200)은 DNA 샘플, 서열 판독, 또는 기타 정보를 분석하는 데 사용하기 위한 하나 이상의 컴퓨팅 디바이스 및/또는 하나 이상의 프로세서를 구현한다.
일부 실시형태에서, 서열 프로세서(210)는 샘플로부터 단편들에 대한 메틸화 상태 벡터들을 생성한다. 단편 상의 각각의 CpG 부위에서, 서열 프로세서(210)는, 메틸화, 비메틸화 또는 불확정 여부에 관계없이, 참조 게놈 내의 단편의 위치, 단편 내의 CpG 부위들의 수, 및 단편 내의 각각의 CpG 부위의 메틸화 상태를 특정하는 각각의 단편에 대한 메틸화 상태 벡터를 생성한다. 서열 프로세서(210)는 서열 데이터베이스(215) 내에 단편들에 대한 메틸화 상태 벡터들을 저장할 수 있다. 서열 데이터베이스(215) 내의 데이터는 샘플로부터의 메틸화 상태 벡터들이 서로 연관되도록 조직화될 수 있다.
또한, 다수의 다양한 모델들(230)은 모델 데이터베이스(225)에 저장되거나 테스트 샘플들과의 사용을 위해 검색될 수 있다. 일 실시예에서, 모델은 변칙적인 단편들로부터 파생된 특징 벡터를 사용하여 테스트 샘플에 대한 암 예측을 결정하기 위한 훈련된 암 분류기(240)이다. 암 분류기의 훈련 및 사용은 본원의 다른 곳에서 논의된다. 분석 시스템(200)은 하나 이상의 모델(230) 및/또는 하나 이상의 분류기(240)를 훈련시키고, 다양한 훈련된 매개변수들을 매개변수 데이터베이스(235)에 저장할 수 있다. 분석 시스템(200)은 기능들과 함께 모델들(230) 및/또는 분류기들(240)을 모델 데이터베이스(225)에 저장한다.
추론 동안, 기계 학습 엔진(220)은 출력을 리턴하기 위해 하나 이상의 모델(230) 및/또는 분류기(240)를 사용한다. 기계 학습 엔진은 매개변수 데이터베이스(235)로부터의 훈련된 매개변수와 함께 모델 데이터베이스(225) 내의 모델들(230) 및/또는 분류기들(240)에 액세스한다. 각각의 모델에 따라, 기계 학습 엔진(220)은 모델에 대한 적절한 입력을 수신하고, 수신된 입력, 매개변수들, 입력과 출력을 관련시키는 각각의 모델의 함수를 기반으로 출력을 계산한다. 일부 사용 사례에서, 기계 학습 엔진(220)은 모델로부터 계산된 출력의 신뢰도와 상관된 메트릭을 추가로 계산한다. 다른 사용 사례에서, 기계 학습 엔진(220)은 모델에서의 사용을 위한 다른 매개 값(intermediary value)을 계산한다.
III. 모델 기반 특성 공학 및 분류
III.A. 모델 기반 특성 공학
일 실시형태에 따르면, 본 개시내용은 질병 상태의 분류를 위해 유용한 특징을 도출하기 위한 모델 기반 특성 공학에 관한 것이다. 본원의 다른 곳에 설명된 바와 같이, 질병 상태는 질병의 존재 또는 부재, 질병의 유형, 및/또는 질병 기원 조직일 수 있다. 예를 들어, 본원에 설명된 바와 같이, 질병 상태는 암의 존재 또는 부재, 암의 유형, 및/또는 암의 기원 조직일 수 있다. 암의 유형 및/또는 암의 기원 조직은 다른 종류의 암 중에서 다음을 포함하는 그룹으로부터 선택될 수 있다: 유방암, 자궁암, 자궁경부암, 난소암, 방광암, 신우의 요로상피암, 요로상피 이외의 신장암, 전립선암, 항문직장암, 대장암, 식도암, 위암, 간세포로부터 발생된 간담도암, 간세포 이외의 세포로부터 발생된 간담도암, 췌장암, 상부 위장관의 편평상피 세포암, 편평상피 이외의 상부 위장관암, 두경부암, 폐암, 예컨대, 폐 선암종, 소세포 폐암, 편평상피 세포 폐암 및 선암종 또는 소세포 폐암 이외의 암, 신경내분비암, 흑색종, 갑상선암, 육종, 다발성 골수종, 림프종, 및 백혈병.
프로세스에서, 본원의 다른 곳에서 설명된 바와 같이, 제1 질병 상태를 갖는 제1 참조 샘플로부터 제1 복수의 서열 판독이 생성되고, 제2 질병 상태를 갖는 제2 참조 샘플로부터 제2 복수의 서열 판독이 생성된다. 제1 복수의 서열 판독 및/또는 제2 복수의 서열 판독은 10,000개 초과, 50,000개 초과, 100,000개 초과, 200,000개 초과, 500,000개 초과, 1,000,000개 초과, 2,000,000개 초과, 5,000,000개 초과, 또는 10,000,000개 초과의 서열 판독일 수 있다. 본원에 사용된 바와 같이, "참조 샘플"은 알려진 질병 상태를 갖는 피험자로부터 얻은 샘플이다. 일부 실시형태에서, 하나 이상의 알려진 질병 상태를 갖는 하나 이상의 참조 샘플은 하나 이상의 확률 모델을 훈련하는 데 사용될 수 있으며, 이는 다음으로 미지의 테스트 샘플의 질병 상태를 분류하기 위한 특징을 도출하는 데 사용될 수 있다. 샘플은 게놈 DNA(gDNA) 샘플 또는 세포 유리 DNA(cfDNA) 샘플일 수 있다. 참조 샘플은 혈액 샘플, 혈장 샘플, 혈청 샘플, 소변 샘플, 대변 샘플 및 타액 샘플일 수 있다. 대안적으로, 참조 샘플은 전혈, 혈액 분획(blood fraction), 조직 생검, 흉수, 심낭액, 뇌척수액 및 복막액일 수 있다. 일부 실시형태에서, 제1 참조 샘플은 암에 걸린 것으로 알려진 피험자로부터 획득되고, 제2 참조 샘플은 건강한 피험자 또는 비-암 피험자로부터 획득된다. 일부 실시형태에서, 제1 참조 샘플은 제1 유형의 암(예컨대, 폐암)을 갖는 것으로 알려진 피험자로부터 획득되고, 제2 참조 샘플은 제2 유형의 암(예컨대, 유방암)을 갖는 것으로 알려진 피험자로부터 획득된다. 또 다른 실시형태에서, 제1 참조 샘플은 제1 질병 기원 조직(예컨대, 폐 질환)을 갖는 것으로 알려진 피험자로부터 획득되고, 제2 참조 샘플은 제2 질병 상태 기원 조직(예컨대, 간 질환)으로부터 획득된다.
계속해서 프로세스를 진행하면서, 기계 학습 엔진(220)은 제1 복수의 서열 판독과 제2 복수의 서열 판독으로부터 각각 제1 확률 모델(230)과 제2 확률 모델(230)을 훈련시키며, 각각의 확률 모델은 하나 이상의 가능한 질병 상태들 중 상이한 질병 상태와 연관된다. 이전에 설명된 바와 같이, 질병 상태는 암의 존재 또는 부재, 암의 유형, 및/또는 암의 기원 조직일 수 있다. 다양한 실시형태에서, 훈련 데이터는 K-배수(K-fold) 교차 검증을 위해 K개의 서브세트(폴드)로 분할된다. 폴드는, 다른 인자들 중에서, 암/비-암 상태, 기원 조직, 암 단계, 연령(예컨대, 10년 버킷으로 그룹화), 성별, 민족, 및 흡연 상태에 대해 균형을 이룰 수 있다. K-1개의 폴드로부터의 데이터는 확률 모델들을 위한 훈련 데이터로서 사용될 수 있고, 헬드-아웃(held-out) 폴드는 테스트 데이터로서 사용될 수 있다.
기계 학습 엔진(220)은 확률 모델들(230) 각각을 제1 복수 및 제2 복수 서열 판독에 각각 피팅함으로써 제1 및 제2 질병 상태 각각에 대해 제1 및 제2 확률 모델(230)을 훈련시킨다. 예를 들어, 일 실시형태에서, 제1 확률 모델은 암에 걸린 것으로 알려진 피험자들로부터의 하나 이상의 샘플로부터 유래된 제1 복수의 서열 판독을 사용하여 피팅되고, 제2 확률 모델은 건강한 피험자들 또는 비-암 피험자들로부터의 하나 이상의 샘플로부터 유래된 제2 복수의 서열 판독을 사용하여 피팅된다. 다른 실시형태에서, 제1 확률 모델은 제1 유형의 암 또는 제1 기원 조직에 대해 훈련될 수 있고, 제2 확률 모델은 제2 유형의 암 또는 제2 기원 조직에 대해 훈련될 수 있다. 당업자가 이해하는 바와 같이, 임의의 수의 질병 상태 확률 모델은 다수의 가능한 질병 상태 중 임의의 하나를 갖는 피험자들로부터 채취한 하나 이상의 샘플로부터 유래된 서열 판독을 활용하여 훈련될 수 있다. 예를 들어, 일부 실시형태에서, 추가적인 암 특이적 확률 모델들(즉, 추가 유형의 암 및/또는 기원 조직 모델들의 경우)은, 본 명세서의 다른 곳에 기술된 바와 같이, 제3, 제4, 제5, 제6, 제7, 제8, 제9, 제10 등(예컨대, 최대 20개, 또는 30개 이상)의 특정 유형의 암에 대해 훈련될 수 있고, 일 훈련 세트 또는 미지의 암 유형으로부터의 서열 판독이 또 다른 암 유형(또는 암 기원 조직)보다 일 암 유형(또는 암 기원 조직)으로부터 유래될 가능성이 더 높을 확률을 결정하기 위해서 사용될 수 있다.
본원에서 사용되는 바와 같이, "확률 모델"은 서열 판독 상의 하나 이상의 부위에서의 메틸화 상태에 기초하여 서열 판독에 확률을 할당할 수 있는 임의의 수학적 모델이다. 훈련 동안에, 기계 학습 엔진(220)은 알려진 질병을 갖는 피험자들로부터의 하나 이상의 샘플로부터 유래된 서열 판독들을 피팅하고, 메틸화 정보 또는 메틸화 상태 벡터들을 활용하여 질병 상태를 나타내는 서열 판독 확률들을 결정하는 데 사용될 수 있다. 특히, 일 실시형태에서, 기계 학습 엔진(220)은 서열 판독 내의 각각의 CpG 부위에 대한 관찰된 메틸화의 비율을 결정한다. 메틸화의 비율은 CpG 부위 내에서 메틸화된 염기쌍의 비율 또는 백분율을 나타낸다. 훈련된 확률 모델(230)은 메틸화의 비율들의 곱에 의해 매개변수화될 수 있다. 일반적으로, 샘플로부터의 서열 판독들에 확률들을 할당하기 위한 임의의 알려진 확률 모델이 사용될 수 있다. 예를 들어, 확률 모델은, 핵산 단편 상의 모든 부위(예컨대, CpG 부위)에 메틸화 확률이 할당되는 이항 모델, 또는 일 부위에서의 메틸화가 핵산 단편 상의 하나 이상의 다른 부위의 메틸화에 대해 독립적인 것으로 가정되는 별개의 메틸화 확률에 의해 각각의 CpG의 메틸화가 지정되는 독립 부위 모델일 수 있다.
III.B. 질병 상태 기원 조직 분류
다양한 실시형태에 따르면, 기계 학습 엔진(220)은 확률 모델들(230)을 훈련시키며, 각각의 확률 모델은 일 세트의 다수의 질병 상태 중 다른 질병 상태와 연관된다. 이전에 설명된 바와 같이, 다양한 실시형태에서, 질병 상태는 암의 존재 또는 부재, 암의 유형, 및/또는 암의 기원 조직일 수 있다. 추가적으로, 질병 상태는 다른 유형의 질병(반드시 암과 연관될 필요는 없음) 또는 건강한 상태(암 또는 질병이 없음)와 연관될 수 있다.
기계 학습 엔진(220)은 하나 이상의 세트의 서열 판독들을 사용하여 확률 모델들(230)을 훈련시키며, 여기서 하나 이상의 세트의 서열 판독들 중 각각은 일 세트의 다수의 질병 상태들 중 상이한 질병 상태로부터 생성된다. 질병 상태는 다음을 포함하는 그룹으로부터 선택된 임의의 수의 유형의 암 또는 암 기원 조직을 포함할 수 있다: 유방암, 자궁암, 자궁경부암, 난소암, 방광암, 신우의 요로상피암, 요로상피 이외의 신장암, 전립선암, 항문직장암, 대장암, 식도암, 위암, 간세포로부터 발생된 간담도암, 간세포 이외의 세포로부터 발생된 간담도암, 췌장암, 상부 위장관의 편평상피 세포암, 편평상피 이외의 상부 위장관암, 두경부암, 폐암, 예컨대, 폐 선암종, 소세포 폐암, 편평상피 세포 폐암 및 선암종 또는 소세포 폐암 이외의 암, 신경내분비암, 흑색종, 갑상선암, 육종, 다발성 골수종, 림프종, 및 백혈병.
기계 학습 엔진(220)은 질병 상태들 중 각각에 대응하는 각각의 샘플로부터 유래하는 서열 판독들에 확률 모델(230)을 피팅함으로써 복수의 질병 상태 각각에 대해 확률 모델(230)을 훈련시킨다. 예를 들어, 일부 실시형태에서, 확률 모델들은 특정 유형들의 암에 대해 훈련될 수 있다. 이 실시형태에 따르면, 암-특이적 확률 모델들은 제1, 제2, 제3 등 특정 유형의 암에 대해 훈련될 수 있고, (예컨대, 미지의 테스트 샘플의) 암 유형을 평가하는 데 사용될 수 있다. 예를 들어, 폐암 특이적 확률 모델은 폐암과 연관된 하나 이상의 샘플로부터 유래하는 일 세트의 서열 판독들을 사용하여 피팅된다. 다른 예로서, 유방암 특이적 확률 모델은 유방암과 연관된 하나 이상의 샘플로부터 유래하는 일 세트의 서열 판독들을 사용하여 피팅된다. 일부 실시형태에서, 조직 특이적 확률 모델들은 제1, 제2, 제3 등의 조직 유형에 대해 훈련될 수 있고, 질병 상태 기원 조직을 평가하는 데 사용될 수 있다. 예를 들어, 제1 기원 조직 확률 모델은 제1 조직 유형으로부터(예컨대, 폐 생체검사와 같은 폐 조직 샘플로부터) 유래된 일 세트의 서열 판독들을 사용하여 피팅될 수 있고, 제2 기원 조직 확률 모델은 제2 조직 유형으로부터(예컨대, 간 생체검사와 같은 간 조직 샘플로부터) 유래된 일 세트의 서열 판독들을 사용하여 피팅될 수 있다. 대안적으로, 일부 실시형태에서, 암 확률 모델은 암에 걸린 것으로 알려진 피험자들로부터의 하나 이상의 샘플로부터 유래된 일 세트의 서열 판독들을 사용하여 피팅되고, 비-암 특이적 확률 모델은 건강한 피험자들 또는 비-암 피험자들로부터의 하나 이상의 샘플로부터 유래된 일 세트의 서열 판독들을 사용하여 피팅된다. 당업자가 이해하는 바와 같이, 임의의 수의 질병 상태 확률 모델은 다수의 가능한 질병 상태 중 임의의 하나를 갖는 피험자들로부터 채취한 하나 이상의 샘플로부터 유래된 서열 판독을 활용하여 훈련될 수 있다. 예를 들어, 일부 실시형태에서, 복수의 서열 판독은 상이한 질병 상태(예컨대, 다양한 유형의 암)를 갖는 하나 이상의 피험자들로부터 각각 획득된 3, 4, 5, 6, 7, 8, 9, 또는 10개 이상의 참조 샘플로부터 생성될 수 있고, 3, 4, 5, 6, 7, 8, 9, 또는 10개 이상의 확률 모델을 훈련시키기 위해서 사용된다.
훈련 동안, 기계 학습 엔진(220)은 메틸화 정보 또는 메틸화 상태 벡터들을 활용하여 질병 상태를 나타내는 서열 판독들에 대해 훈련될 수 있다. 특히, 기계 학습 엔진(220)은 서열 판독 내의 각각의 CpG 부위에 대한 관찰된 메틸화의 비율을 결정한다. 메틸화의 비율은 CpG 부위 내에서 메틸화된 염기쌍의 비율 또는 백분율을 나타낸다. 훈련된 확률 모델(230)은 메틸화의 비율들의 곱에 의해 매개변수화될 수 있다. 이전에 설명된 바와 같이, 샘플로부터의 서열 판독들에 확률들을 할당하기 위한 임의의 알려진 확률 모델이 사용될 수 있다. 예를 들어, 확률 모델은, 핵산 단편 상의 모든 부위(예컨대, CpG 부위)에 메틸화 확률이 할당되는 이항 모델, 또는 일 부위에서의 메틸화가 핵산 단편 상의 하나 이상의 다른 부위의 메틸화에 대해 독립적인 것으로 가정되는 별개의 메틸화 확률에 의해 각각의 CpG의 메틸화가 지정되는 독립 부위 모델일 수 있다.
일부 실시형태에서, 각각의 CpG 부위에서의 메틸화의 확률이 서열 판독 또는 서열 판독이 유래된 핵산 분자의 일부 선행 CpG 부위들에서의 메틸화 상태에 의존하는 마르코프(Markov) 모델이다. 예를 들어, 발명의 명칭이 "Anomalous Fragment Detection and Classification"이고, 2019년 3월 13일자로 출원된 미국 특허 출원 제16/352,602호를 참조한다.
일부 실시형태에서, 확률 모델(230)은 근원적인 모델들로부터의 구성요소들의 혼합을 사용하여 피팅된 "혼합 모델"이다. 예를 들어, 일부 실시형태에서, 혼합 구성요소들은 다수의 독립 부위 모델들을 사용하여 결정될 수 있으며, 여기서 각각의 CpG 부위에서의 메틸화(예컨대, 메틸화의 비율)는 다른 CpG 부위들에서의 메틸화에 대해 독립적인 것으로 가정된다. 독립적인 부위 모델을 활용하는, 서열 판독 또는 이로부터 유래하는 핵산 분자에 할당된 확률은 서열 판독이 메틸화된 각각의 CpG 부위에서의 메틸화 확률과 '1 마이너스 서열 판독이 비메틸화되는 각각의 CpG 부위에서의 메틸화 확률'의 곱이다. 본 실시형태에 따르면, 기계 학습 엔진(220)은 혼합 구성요소들 중 각각의 메틸화의 비율을 결정한다. 혼합물 모델은, 각각이 메틸화의 비율들의 곱과 연관된 혼합 구성요소들의 합에 의해서 매개변수화된다. n개의 혼합 구성요소들의 확률 모델 Pr은 다음과 같이 표현될 수 있다:
입력 단편의 경우, 은 참조 게놈의 위치 i에서 관찰된 단편의 메틸화 상태를 나타내며, 0은 비메틸화를 나타내고 1은 메틸화를 나타낸다. 각각의 혼합 구성요소 k에 대한 부분 할당(fractional assignment)은 이며, 여기서 이고 이다. 혼합 구성요소 k의 CpG 부위 내의 i 위치에서 메틸화의 확률은 이다. 따라서, 비메틸화의 확률은 이다. 혼합 구성요소들의 수 n은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 등이 될 수 있다.
일부 실시형태에서, 기계 학습 엔진(220)은 정규화 강도 r로 각각의 메틸화에 확률에 적용되는 정규화 패널티에 따라, 질병 상태로부터 유래하는 모든 단편들의 로그-우도(log-likelihood)를 최대화하는 일 세트의 매개변수 를 식별하기 위해 최대-우도(maximum-likelihood) 추정을 사용하여 확률 모델(230)을 피팅한다. N개의 총 단편에 대한 최대화된 수량은 다음과 같이 표현될 수 있다:
분석 시스템(200)은 확률 모델(230)을 적용하여 제2 세트의 서열 판독들의 각각의 서열 판독에 대한 값들을 계산한다. 값들은 적어도 확률 모델(230)의 질병 상태와 연관된 샘플로부터 기원된 서열 판독(및 대응하는 단편)의 확률에 기초하여 계산된다. 분석 시스템(200)은 상이한 확률 모델들(230) 각각에 대해 이러한 단계를 반복할 수 있다. 일부 실시형태에서, 분석 시스템(200)은 특정 질병 상태들과 연관된 피팅된 확률 모델들과 함께 로그 우도비(log-likelihood ratio) R을 사용하여 값을 계산한다. 구체적으로, 로그 우도비는 질병 상태와 연관된 샘플들 및 건강한 샘플들에 대한 단편 상의 메틸화 패턴을 관찰할 확률 Pr을 사용하여 계산될 수 있다.
다른 실시형태에서, 분석 시스템(200)은 다른 유형의 비율 또는 방정식을 사용하여 값을 계산할 수 있다. 기계 학습 엔진(220)은 다양한 질병 상태에 대해 고려된 로그 우도비 중 적어도 하나가 임계값을 초과하는지 여부에 기초하여 질병 상태(예컨대, 암)를 나타내는 단편을 결정할 수 있다.
III.C. 분류
다양한 실시형태에서, 분석 시스템(200)은 특징들을 사용하여 분류기(240)를 생성한다. 분류기(240)는 테스트 피험자의 테스트 샘플로부터의 입력 서열 판독에 대해 질병 상태와 연관된 기원 조직을 예측하도록 훈련된다. 분석 시스템(200)은, 예를 들어, 상호 정보 계산들 또는 다른 계산된 척도에 기초하여 분류기를 훈련하기 위해 질병 상태들의 각각의 쌍에 대해 미리 결정된 수(예컨대, 1024)의 상위 순위 특징을 선택할 수 있다. 미리 결정된 수는 교차 검증에서의 성능에 기초하여 선택된 하이퍼매개변수로서 취급될 수 있다. 분석 시스템(200)은 또한 한 쌍의 질병 상태를 구별하는 데 더 유익한 것으로 결정된 참조 게놈의 영역으로부터 특징들을 선택할 수 있다. 다양한 실시형태에서, 분석 시스템(200)은 각각의 영역에 대해 그리고 각각의 암 유형 쌍(음성 유형인 비-암을 포함함)에 대해 최선의 성능 티어(tier)를 유지한다.
일부 실시형태에서, 분석 시스템(200)은 특징 벡터를 갖는 훈련 샘플들의 세트들을 분류기(240) 안으로 입력함으로써 그리고 분류기(240)의 기능이 훈련 특징 벡터들을 그들의 대응 라벨과 정확하게 연관시키도록 분류 매개변수를 조정함으로써 분류기(240)를 훈련시킨다. 분석 시스템(200)은 분류기(240)의 반복적인 배치 훈련을 위해 훈련 샘플들을 하나 이상의 훈련 샘플들의 세트들로 그룹화할 수 있다. 훈련 특징 벡터들을 포함하는 훈련 샘플들의 모든 세트들을 입력하고 분류 매개변수를 조정한 후, 분류기(240)는 약간의 오차 한계 내에서 테스트 샘플들의 특징 벡터에 따라 테스트 샘플들을 라벨링하도록 충분히 훈련될 수 있다. 분석 시스템(200)은 다수의 방법들, 예를 들어, L1-정규화된 로지스틱 회귀 또는 L2-정규화된 로지스틱 회귀(예컨대, 로그 손실 함수 사용), 일반화 선형 모델(GLM: generalized linear model), 랜덤 포레스트, 다항 로지스틱 회귀, 다층 퍼셉트론(multilayer perceptron), 지원 벡터 머신, 신경망, 또는 임의의 기타 적합한 기계 학습 기술 중 어느 하나에 따라 분류기(240)를 훈련시킬 수 있다.
다양한 실시형태에서, 분석 시스템(200)은 폴드에 대한 훈련 데이터에 대해 다항 로지스틱 회귀 분류기를 훈련시키고, 헬드-아웃 데이터에 대한 예측을 생성한다. K개의 폴드들 각각에 대해, 분석 시스템(200)은 하이퍼매개변수들의 각각의 조합에 대해 하나의 로지스틱 회귀를 훈련시킨다. 예시적인 하이퍼매개변수는 L2 페널티, 즉 로지스틱 회귀의 가중치들에 적용되는 정규화의 형식이다. 또 다른 예시적인 하이퍼매개변수는 topK, 즉 각각의 조직 유형 쌍(비-암을 포함함)에 대해 유지할 상위 순위 영역들의 수이다. 예를 들어, topK = 16인 경우, 분석 시스템(200)은 본원에 설명된 상호 정보 절차에 의해서 순위가 매겨진 바와 같이 조직 유형 쌍당 상위 16개의 영역들을 유지한다. 이 절차를 따름으로써, 분석 시스템(200)은 분류기가 예측이 생성된 데이터에 대해 훈련되지 않도록 보장하면서 훈련 세트 내의 각각의 샘플에 대한 예측을 생성할 수 있다.
다양한 실시형태에서, 각각의 세트의 하이퍼매개변수들에 대해, 분석 시스템(200)은 전체 훈련 세트의 교차 검증된 예측들에 대한 성능을 평가하고, 분석 시스템(200)은 전체 훈련 세트에 대한 재훈련을 위한 최상의 성능을 갖는 일 세트의 하이퍼매개변수를 선택한다. 성능은 로그 손실 메트릭(log-loss metric)을 기반으로 결정될 수 있다. 분석 시스템(200)은 각각의 샘플에 대한 정확한 라벨을 위해 예측의 음의 로그를 취하고 다음으로 샘플들에 대해 합산함으로써 로그 손실을 계산할 수 있다. 예를 들어, 정확한 라벨을 위한 1.0의 완벽한 예측은 0의 로그 손실로 귀결될 것이다(낮을수록 더 정확함). 새로운 샘플에 대한 예측을 생성하기 위해, 분석 시스템(200)은 위에서 설명된 방법을 사용하여 특징 값들을 계산할 수 있지만, 선택된 topK 값 아래에서 선택된 특징들(지역/양성 클래스 조합들)로 한정된다. 분석 시스템(200)은 훈련된 로지스틱 회귀 모델을 사용하여 예측을 생성하기 위해 생성된 특징들을 사용할 수 있다.
다양한 실시형태에서, 분석 시스템(200)은 분류기(240)를 적용하여 테스트 샘플의 기원 조직을 예측하며, 여기서 기원 조직은 질병 상태들 중 하나와 연관된다. 일부 실시형태에서, 분류기(240)는 둘 이상의 질병 상태 또는 기원 조직에 대한 예측 또는 가능성을 리턴할 수 있다. 예를 들어, 분류기(240)는 테스트 샘플이 유방암 기원 조직을 가질 가능성이 65%, 폐암 기원 조직을 가질 가능성이 25%, 건강한 기원 조직을 가질 가능성이 10%라는 예측을 리턴할 수 있다. 분석 시스템(200)은 예측 값들을 추가로 프로세스하여 단일 질병 상태 결정을 생성할 수 있다.
IV. 실시예
도 6은 일 실시형태에 따른 암 신호 국재화(CSL: cancer signal localization)의 실험 결과를 예시한다. 실험 결과는 분석 시스템(200)이 1개의 암 신호(즉, 가장 큰 확률 점수를 갖는 암 신호), 2개의 암 신호(즉, 2개의 가장 큰 확률 점수를 갖는 암 신호), 및 3개의 암 신호(즉, 3개의 가장 큰 확률 점수를 갖는 암 신호)를 리포트할 때 암 검출들의 백분율을 나타낸다. 결과에 포함된 많은 유형의 암에 대해, 하나의 암 신호 대신 두 개의 암 신호를 리포트할 때 검출들의 백분율이 증가한다.
실험 결과는 일 세트의 450개의 샘플을 기반으로 한다. 이러한 샘플들은 잠재성 암들의 암 신호 강도의 예상 분포를 반영하도록 선택되었다. 잠복암들은 미진단 사전-임상(pre-clinical) 암이다. 항문, 방광 및 요로상피암과 같은 일부 암 유형에 대한 서브샘플 사이즈는 다른 암 유형의 서브샘플 사이즈에 비해 작다. 도 6은 처음 2개의 CSL이 부정확한 경우 세 번째 CSL이 5%의 경우에 검출 가능한 이점을 거의 제공하지 않는다는 것을 추가로 보여준다.
도 7은 일 실시형태에 따른 조건부 리턴에 기초한 암 신호 국재화의 실험 결과를 예시한다. 여기서, 분석 시스템(200)은 암 신호가 양성 암 신호 매스의 90% 이상의 확률 점수를 갖는 경우 하나의 암 신호(최상위 점수의 암 신호)를 리턴한다. 그렇지 않으면, 분석 시스템(200)은 2개의 가장 큰 확률 점수와 연관된, 최대 상위 2개의 암 신호를 리턴한다. 막대 그래프는 1개 및 2개의 암 신호를 리턴한 각각의 유형의 암에서 샘플의 비율을 예시한다. 예를 들어, 유방암 샘플들의 70%는 하나의 암 신호를 리턴하였고, 30%는 두 개의 암 신호를 리턴하였다. 다른 예로서, 난소암 샘플들의 50%는 하나의 암 신호를 리턴하였고, 50%는 두 개의 암 신호를 리턴하였다.
요약하면, 실험 결과는, 최상위 CSL이 약 90%의 경우에 정확한 반면, 제2 CSL은 최상위 CSL이 부정확한 때의 절반의 경우에 정확하다는 것을 나타낸다. 제3 CSL은 상위 2개가 부정확한 때의 약 80%의 경우에 부정확하고, 우연보다는 낫지만, 일부 경우에 리포트된다면, 의사나 기타 헬스 케어 제공자가 효과적인 판단을 내리는 데 유용하지 않을 수 있다. 따라서, 일부 실시형태에서, 다른 진단/분석 방법(예컨대, 전신 영상 촬영)이 착수되기 전에 최대 2번의 국재화 시도가 제공된다. 특히, 결과는 림프성 CSL 및 골수성 CSL이 매우 신뢰가능하게 국재화된다는 것, 및 대부분의 암이 처음 두 개의 CSL에서 국재화된다는 것을 나타낸다.
결정된 확률 임계값을 사용하여 상위 암 신호들을 리포트하는 것은 헬스 케어 제공자에게 하나 이상의 암 신호의 필터링된 서브세트가 제시되므로 기존 암 진단 프로세스에 개선을 제공한다. 헬스 케어 제공자는 부정확할 거 같거나(예컨대, 위양성) 신뢰할 수 없는 암 신호 국재화를 포함할 수 있는 더 큰 세트의 신호들을 파스(parse)할 필요가 없으므로 보다 정확하고 신속하게 진단을 내릴 수 있다. 이전에 설명된 바와 같이, 종양 쉐딩(tumor shedding)(예컨대, 초기 단계 암들)은 정보를 제공하는 단편이 더 적기 때문에 국재화하기가 어렵다. 따라서 비침습적 암 예측을 위한 기존 방법은 위양성 또는 신뢰할 수 없는 암 신호를 처리하는 데 어려움을 겪는다. 암 신호로부터 이러한 잡음을 감소시키는 것은 진단 프로세스의 복잡성을 감소시킨다. 암 신호 국재화의 향상된 정확도는 또한 암에 대해 위양성 진단을 받은 개인에 대한 불필요한 치료를 감소시킨다.
다양한 실시형태에서, 확률 임계값을 사용하여 암 신호를 필터링하는 것은, 또한 암 진단을 위한 방법이 후속 처리 단계에서 필터링된 암 신호들을 사용하기 때문에 컴퓨터 기능을 향상시킨다. 예를 들어, 분석 시스템(200)은 필터링된 (예컨대, 서브세트의) 암 신호들을 암 예측들을 출력하는 기계 학습 모델에 대한 입력으로서 사용한다. 다른 실시예로서, 분석 시스템(200)은 필터링된 암 신호들을 훈련 데이터로서 사용하여 기계 학습 모델을 훈련시켜 암 예측들, 예를 들어, 암의 존재가 샘플에서 검출되는 경우, 기원 조직을 결정한다. 이러한 실시예에서, 필터링된 암 신호들을 사용하는 것은 기계 학습 모델을 구현하는 컴퓨터에 의해서 요구되는 계산 리소스 또는 처리 시간을 감소시킨다. 컴퓨터는 필터링되지 않은 세트의 암 신호들 대신 상위 암 신호들(예컨대, 확률 임계값을 사용하여 필터링함으로써 결정된 서브세트의 하나 또는 두 개의 신호)을 처리함으로써 계산 시간을 절약한다. 필터링되지 않은 세트의 암 신호들은 도 7에 도시된 다양한 암 유형에 의해 명백한 바와 같이 10개 이상의 암 신호를 포함할 수 있다. 더욱이, 시간이 지남에 따라 추가적인 암 신호들이 식별됨에 따라 필터링되지 않은 세트의 암 신호들은 증가할 것이다. 다양한 실시형태에서, 분석 시스템(200)은 많은 개인에 대한 암 신호들을 프로세스한다. 큰 스케일에서, 분석 시스템(200)이 암의 예측들을 결정하기 위해 프로세스해야 하는 데이터의 큰 사이즈 때문에 컴퓨터 기능에 대한 개선이 증폭된다. 암 진단을 보다 효율적이고 신속하게 결정하는 것은 암의 더 이른 검출 및 치료를 가능하게 하며, 이는 개인의 건강과 예후에 매우 중요할 수 있다. 비침습적 방법을 사용하여 효율적이고 정확한 암의 예측을 달성하는 것은, 이러한 방법이 암 진단을 더 많은 사람들에게 접근 가능하게 할 수 있기 때문에 더욱 유익하다.
도 8은 일 실시형태에 따른 잠복성 암 샘플로부터의 암 신호 국재화의 실험 결과를 예시한다. x축은 제1 기원 조직 확률을 나타내고, y축은 제2 기원 조직 확률을 나타낸다. 잠재성 암 샘플들은 개인들로부터의 혈액 채취 동안에는 진단된 암을 갖지 않았지만, 해당 개인들은 나중에 암으로 진단되었다. 따라서, 잠재성 암 샘플로부터의 암 신호 강도는 이미 진단된 암을 갖는 샘플로부터의 신호에 비해 약하다. 잠재성 암 샘플로부터의 암 신호 강도는 또한 기원 조직 국재화의 정확성과 관련하여 더 큰 불확실성을 갖는다.
도 9는 일 실시형태에 따른 암 샘플의 서브샘플링을 예시하는 플롯이다. 잠재성 암 샘플들(900)에 대한 참양성 암 검출들의 비율은 일 세트의 진단된 암 샘플들(910)에 대한 참양성 암 검출들의 비율에 비해 더 낮다. 잠재성 암 샘플들(900)의 예상된 스크리닝 암 신호 강도를 더 밀접하게 반영하기 위해, 일 세트의 진단된 암 샘플들(910)(예컨대, 1876개의 샘플)이 일 서브세트의 진단된 암 샘플들(920)(예컨대, 450개의 샘플)로 다운샘플링되었다. 서브샘플링된 참양성들은, 잠재적 분포가 얼마나 잘 매칭하는지와 분석을 위해 충분한 수의 샘플들을 유지하는 것 사이의 트레이드오프의 균형을 유지하는 경험적으로 선택된 임계값과 함께, |Δnon_cancer 점수| < 0.05 또는 |상대 Δnon_cancer 점수| < 0.1 또는 |Δlogit(non_cancer 점수)| < 0.4 내에서 표적 잠재성 비-암 점수와의 매칭에 기반하여 선택되었다.
도 10a 및 도 10b는 예상되는 스크리닝 암 신호 강도와 매칭되도록 서브샘플링된 검출된 암 샘플(참양성)을 예시한다. 서브샘플링은 더 적은 수의 4기 암과 더 많은 수의 1기 및 2기 암을 위해 선택된다. 또한, 도 10a 및 도 10b는 암 단계에 따른 암 신호 세기를 도시하고, 암 단계가 1기로부터 4기로 진행될수록, 검출된 참양성의 비율이 전반적으로 증가하는 것을 도시한다. 그러나 두 개인 사이의 비교에서, 1기 암과 연관된 제1 개인으로부터의 샘플은 4기 암과 연관된 제2 개인으로부터의 샘플보다 더 큰 암 신호 세기를 가질 수 있었다.
도 11a 및 도 11b는 일부 실시형태에 따른 서브샘플링 전후의 암 유형별 암 신호 세기를 예시한다. 일부 암 유형(예컨대, 폐, 결장 및 직장, 췌장 및 담낭)의 경우, 서브샘플링 후 참양성 검출의 비율이 감소되었다. 다른 암 유형(예컨대, 림프계 종양(lymphoid neoplasms), 유방암, 자궁 및 전립선)의 경우, 서브샘플링 후 참양성 검출의 비율이 증가했다.
도 12는 일부 실시형태에 따른 서브샘플링 전후의 암 유형 및 단계에 따른 암 신호 세기를 예시한다. 도 12에 도시된 바와 같이, 가장 큰 변화는 4기 폐, 췌장_담낭, 대장_직장의 감소, 및 2기 유방 및 1기 자궁의 증가이다.
도 13a 및 도 13b는 일부 실시형태에 따른, 제1, 제2, 제3 및 제4 CSL 콜(call)에 의해서 캡처된 CSL 신호의 비율과 같은 CSL 콜 확률의 분포의 막대 그래프를 포함한다. 구체적으로, 도 13a는 상위 4개의 암 신호에 걸쳐 누적 및 한계 암 점수의 분포의 전체 그래프를 도시한다. 누적 막대들은 상위 1개, 2개, 3개 및/또는 4개의 암 신호에 대한 암 점수들의 합을 반영한다. 막대들은 중앙값이며, 하한 및 상한 오류는 10%와 90%이다.
도 13b는 다양한 암 단계에 걸쳐 누적 암 점수 및 한계 암 점수의 분포의 그래프를 도시한다. 막대 그래프들의 오차 막대들은 10번째 및 90번째 백분위수 암 점수들을 나타냅니다. 도 13a 및 도 13b에 도시된 바와 같이, 신호의 약 50-95%가 최상위 CSL에서 캡처되며, 중앙값은 약 90%이고 초기 단계에서는 약간 더 적다.
도 14a 및 도 14b는 일부 실시형태에 따른, 실제 암 유형별로, 제1, 제2, 제3 및 제4 CSL 콜에 의해서 캡처된 CSL 신호의 비율과 같은 CSL 콜 확률의 분포의 막대 그래프를 포함한다. 실험 결과에 의해서 예시되는 바와 같이, 항문 및 외음부와 같은 HPV-유발 암의 샘플은 다른 암 유형의 암 점수에 비해 더 낮은 암 점수를 갖는다.
일부 실시형태에서, 국재화 엔진(250)은, 카테고리 자체 내의 개별 유형의 암의 최상위 암 점수가 기준을 만족하지 않는 경우에도, 일 카테고리(예컨대, HPV-유발 암)로부터 다수의 암 기원 조직을 리턴한다. 예를 들어, 항문 샘플들의 최상위 암 신호는 암 점수가 45%이고, 외음부 샘플들의 최상위 암 점수는 암 점수가 60%이다. 암 점수가 모두 90% 확률 임계값을 만족하지 않더라도, 국재화 엔진(250)은 가장 큰 신호 세기를 갖는 일 세트의 암 신호들(예컨대, 상위 3개 암 신호) 내에 항문 암 신호 및 외음부 암 신호가 있는 경우 항문 암 신호 및 외음부 암 신호를 리턴하도록 결정할 수 있다. 국재화 엔진(250)은 다수의 유형의 암들(예컨대, 위암 및 장암)을 포함하는 다른 카테고리에 기초하여 암 신호들의 리턴을 컨디셔닝할 수 있다.
도 15a, 도 15b 및 도 15c는 일부 실시형태에 따라 위양성과 참양성으로 구분된 중앙값 암 점수들의 막대 그래프들을 포함한다. 도 15a에 도시된 위양성의 암 점수의 크기는 도 15b에 도시된 참양성의 암 점수의 크기보다 더 낮다. 따라서, 국재화 엔진(250)은 최상위 암 신호가 확률 임계값(예컨대, 90%)을 만족할 가능성이 적기 때문에 위양성에 대한 2개 이상의 암 신호를 더 자주 리턴한다.
도 16은 일부 실시형태에 따른 누적 확률 점수를 예시한다. 도 16에서의 플롯은, 누적 확률 점수가 임계 확률에 도달하는 국재화 엔진(250)에 의해서 리턴되어야 하는 암 신호들의 수를 도시한다. 예를 들어, 참양성 샘플들의 약 75%는 90%의 임계 확률을 누적하기 위해 리턴된 3개 미만의 암 신호(즉, 리턴된 1개 또는 2개의 암 신호)를 필요로 한다. 대조적으로, 위양성 샘플들의 50% 미만은 90%의 임계 확률을 축적하기 위해 리턴된 3개 미만의 암 신호를 필요로 할 것이다. 위양성의 암 점수가 참양성의 암 점수의 크기보다 더 낮은 경향이 있기 때문에 이러한 결과는 도 15a 내지 도 15c에 도시된 결과와 일치한다.
도 17a 및 도 17b는 일부 실시형태에 따른 암 신호 국재화의 조건부 정확도를 예시한다. 도 17b에 도시된 바와 같이, 최상위 암 신호(즉, 가장 큰 확률 점수를 갖는 제1 라벨)는 샘플들의 대략 90%에서 정확하다. 두 번째 암 신호(즉, 제2 라벨)는 최상위 암 신호가 부정확할 때 샘플들의 약 50%에서 정확하다. 세 번째 암 신호(즉, 제3 라벨)는 상위 두 개의 암 신호가 부정확할 때 샘플들의 약 20%에서 정확하다.
도 18a 및 도 18b는 일부 실시형태에 따른, 고체 샘플 유형 및 액체 샘플 유형에 대한 암 신호 국재화의 조건부 정확도를 예시한다. 도 19a 및 도 19b는 일부 실시형태에 따른, 암 단계에 기반한 암 신호 국재화의 조건부 정확도를 예시한다. 도 18a의 결과는 액체 샘플들의 암 신호 국재화들이 고체 샘플들의 것보다 더 정확하다는 것을 보여준다. 고체 샘플과 비교하여, 더 많은 수의 액체 샘플에 대해, 국재화 엔진(250)은 암 기원 조직의 정확한 국재화인 최상위 암 신호(즉, 제1 라벨)를 리턴했다. 대조적으로, 고체 샘플에 대한 정확한 국재화는 더 많은 암 신호(예컨대, 제2, 제3, 제4, 제5+ 라벨)가 리턴될 것을 요구했다.
도 20a 및 도 20b는 일부 실시형태에 따른 암 신호 국재화의 누적 정확도를 예시한다. 최상위 암 신호는 샘플들의 약 90%에서 기원 조직의 정확한 국재화이다. 제2, 제3, 제4 암 신호 국재화에 대해 누적 정확도는 각각 약 94%, 95%, 및 96%로 증가한다.
도 21a 및 도 21b는 일부 실시형태에 따른 위양성의 암 신호 국재화를 예시한다. 도 22a 및 도 22b는 일부 실시형태에 따른 암 유형에 기반한 위양성의 암 신호 국재화를 예시한다. 도 21a 및 도 21b에 도시된 결과는 위양성 기원 조직 국재화가 혈액학적(혈액) 기원 또는 고형(종양) 기원을 갖는 것으로 예측되는지 여부를 나타낸다. 위양성은 지배적으로 고체 국재화에 대해 예측된다.
V. 암 응용분야
일부 실시형태에서, 본 개시내용의 방법, 분석 시스템 및/또는 분류기는, 암의 존재(또는 부재)를 검출하고, 암 진행 또는 재발을 모니터링하고, 치료 반응 또는 유효성을 모니터링하고, 최소 잔여 질병(MRD: minimum residual disease)의 존재를 결정하거나 모니터링하거나, 또는 이들의 조합을 하는 데 사용될 수 있다. 일부 실시형태에서, 분석 시스템 및/또는 분류기는 암에 대한 기원 조직를 식별하는 데 사용될 수 있다. 예를 들어, 시스템 및/또는 분류기는 암을 다음 암 유형들 중 하나로 식별하는 데 사용될 수 있다: 두경부암, 간/담도암, 상부 GI암, 췌장/담낭암; 대장암, 난소암, 폐암, 다발성 골수종, 림프계 종양, 흑색종, 육종, 유방암, 및 자궁암. 예를 들어, 본원에 설명된 바와 같이, 분류기는 샘플 특징 벡터가 암을 앓는 피험자로부터 유래된 가능성 또는 확률 점수(예컨대, 0% 내지 100%, 또는 0 내지 100)를 생성하는 데 사용될 수 있다.
일부 실시형태에서, 확률 점수는 피험자가 암에 걸렸는지 여부를 결정하기 위해 임계 확률과 비교된다. 다른 실시형태에서, 가능성 또는 확률 점수는 질병 진행을 모니터링하기 위해 또는 치료 유효성(예컨대, 치료 효능)을 모니터링하기 위해 다양한 시점(예컨대, 치료 전 또는 후)에 평가될 수 있다. 또 다른 실시형태에서, 가능성 또는 확률 점수는 임상 결정(예컨대, 암 진단, 치료 선택, 치료 유효성 평가 등)을 내리기 위해 또는 이에 영향을 주기 위해 사용될 수 있다. 예를 들어, 일 실시형태에서, 가능성 또는 확률 점수가 임계값을 초과하는 경우, 의사는 적절한 치료를 처방할 수 있다. 일부 실시형태에서, 예를 들어, 환자가 질병 상태(예컨대, 암)를 갖고 있다는 확률 점수, 질병 유형(예컨대, 암의 유형) 및/또는 기원 조직(예컨대, 암의 기원 조직)을 포함하는 테스트 결과를 환자에게 제공하기 위해 테스트 보고서가 생성될 수 있다.
V.A. 암의 조기 검출
일부 실시형태에서, 본 개시내용의 방법 및/또는 분류기는 암에 걸린 것으로 의심되는 피험자에서 암의 존재 또는 부재를 검출하는 데 사용된다. 예를 들어, (본원에 설명된) 분류기는 샘플 특징 벡터가 암에 걸린 피험자로부터 유래된 가능성 또는 확률 점수를 결정하는 데 사용될 수 있다.
일 실시형태에서, 60 이상의 확률 점수는 피험자가 암에 걸렸다는 것을 나타낼 수 있다. 또 다른 실시형태에서, 65 이상, 70 이상, 75 이상, 80 이상, 85 이상, 90 이상, 또는 95 이상의 확률 점수는 피험자가 암에 걸렸다는 것을 나타내었다. 다른 실시형태에서, 확률 점수는 질병의 중증도를 나타낼 수 있다. 예를 들어, 확률 점수 80은 80 미만의 점수(예컨대, 70의 점수)에 비해 암의 더 심각한 형태 또는 더 후기 단계를 나타낼 수 있다. 유사하게, 시간 경과에 따른(예컨대, 제2, 이후 시점에) 확률 점수의 증가는 질병 진행을 나타낼 수 있고, 시간 경과에 따른(예컨대, 제2, 이후 시점에) 확률 점수의 감소는 성공적인 치료를 나타낼 수 있다.
다른 실시형태에서, 암 로그-오즈(log-odds) 비는, 본원에 설명된 바와 같이, 암이 될 확률 대 비-암이 될 확률의 비율(즉, 1에서 암이 될 확률을 뺀 값)의 로그를 취함으로써 시험 피험자에 대해 계산될 수 있다. 본 실시형태에 따르면, 1보다 큰 암 로그-오즈 비는 피험자가 암에 걸렸다는 것을 나타낼 수 있다. 또 다른 실시형태에서, 1.2 초과, 1.3 초과, 1.4 초과, 1.5 초과, 1.7 초과, 2 초과, 2.5 초과, 3 초과, 3.5 초과, 또는 4 초과의 암 로그-오즈는 피험자가 암에 걸렸다는 것을 나타낸다. 다른 실시형태에서, 암 로그-오즈 비는 질병의 중증도를 나타낼 수 있다. 예를 들어, 2보다 더 큰 암 로그-오즈 비는 2 미만의 점수(예컨대, 1의 점수)에 비해 암의 더 심각한 형태 또는 후기 단계를 나타낼 수 있다. 유사하게, 시간 경과에 따른(예컨대, 제2, 이후 시점에) 암 로그-오즈 비의 증가는 질병 진행을 나타낼 수 있고, 시간 경과에 따른(예컨대, 제2, 이후 시점에) 암 로그-오즈 비의 감소는 성공적인 치료를 나타낼 수 있다.
본 개시내용의 양태에 따르면, 본 개시내용의 방법 및 시스템은 다수의 암 징후들을 검출하거나 분류하도록 훈련될 수 있다. 예를 들어, 본 개시내용의 방법, 시스템 및 분류기는 한 개 이상, 두 개 이상, 세 개 이상, 다섯 개 이상, 또는 열 개 이상의 서로 다른 유형의 암의 존재를 검출하는 데 사용될 수 있다.
V.B. 암 및 치료 모니터링
특정 실시형태에서, 제1 시점은 암 치료 전(예컨대, 절제 수술 또는 치료적 중재(therapeutic intervention) 전)이고, 제2 시점은 암 치료 후(예컨대, 절제 수술 또는 치료적 중재 후)이고, 방법은 치료의 유효성을 모니터링하는 데 사용된다. 예를 들어, 제2 가능성 또는 확률 점수가 제1 가능성 또는 확률 점수에 비해 감소하면, 치료가 성공적인 것으로 간주된다. 그러나, 제2 가능성 또는 확률 점수가 제1 가능성 또는 확률 점수에 비해 증가하면, 치료가 성공적이지 않은 것으로 간주된다. 다른 실시형태에서, 제1 시점 및 제2 시점은 모두 암 치료 전(예컨대, 절제 수술 또는 치료적 중재 전)이다. 또 다른 실시형태에서, 제1 시점 및 제2 시점 둘 다는 암 치료 후(예컨대, 절제 수술 또는 치료적 중재 전)이고, 방법은 치료의 유효성 또는 치료의 유효성의 상실을 모니터링하는 데 사용된다. 또 다른 실시형태에서, cfDNA 샘플들은 제1 및 제2 시점에 한 명의 암 환자로부터 획득되고 분석되어, 예를 들어, 암 진행을 모니터링하거나, 암이 완화되었는지 결정하거나(예컨대, 치료 후), 잔여 질병 또는 질병의 재발을 모니터링 또는 검출하거나, 치료(예컨대, 치료) 효능을 모니터링할 수 있다.
당업자는 시험 샘플들이 임의의 원하는 세트의 시점들에 걸쳐 한 명의 암 환자로부터 획득될 수 있고 환자의 암 상태를 모니터링하기 위해 개시내용의 방법에 따라 분석될 수 있다는 것을 쉽게 인식할 것이다. 일부 실시형태에서, 제1 시점과 제2 시점은 약 15분 내지 약 30년 범위, 예를 들어 약 30분, 예를 들어 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 또는 약 24시간, 예를 들어 약 1, 2, 3, 4, 5, 10, 15, 20, 25 또는 약 30일, 또는 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 또는 12개월, 또는 약 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 10, 10.5, 11, 11.5, 12, 12.5, 13, 13.5, 14, 14.5, 15, 15.5, 16, 16.5, 17, 17.5, 18, 18.5, 19, 19.5, 20, 20.5, 21, 21.5, 22, 22.5, 23, 23.5, 24, 2 4.5, 25, 25.5, 26, 26.5, 27, 27.5, 28, 28.5, 29, 29.5 또는 약 30년의 범위 내의 시간의 양만큼 분리된다. 다른 실시형태에서, 시험 샘플들은 적어도 매 3개월에 한 번, 적어도 매 6개월에 한 번, 적어도 매 1년에 한 번, 적어도 매 2년에 한 번, 적어도 매 3년에 한 번, 적어도 매 4년에 한 번, 또는 적어도 매 5년에 한 번 해당 환자로부터 획득될 수 있다.
V.C. 치료
또 다른 실시형태에서, 본원에 설명된 임의의 방법으로부터 획득된 정보는 임상 결정(예컨대, 암 진단, 치료 선택, 치료 유효성 평가 등)을 내리기 위해 또는 이에 영향을 주기 위해 사용될 수 있다. 예를 들어, 일 실시형태에서, 가능성 또는 확률 점수가 임계값을 초과하는 경우, 의사는 적절한 치료(예컨대, 절제 수술, 방사선 요법, 화학 요법 및/또는 면역 요법)를 처방할 수 있다. 일부 실시형태에서, 가능성 또는 확률 점수와 같은 정보는 의사 또는 피험자에게 판독 정보로서 제공될 수 있다.
(본원에 설명된) 분류기는 샘플 특징 벡터가 암에 걸린 피험자로부터 유래된 가능성 또는 확률 점수를 결정하는 데 사용될 수 있다. 일 실시형태에서, 가능성 또는 확률이 임계값을 초과하는 경우 적절한 치료(예컨대, 절제 수술 또는 치료)가 처방된다. 예를 들어, 일 실시형태에서, 가능성 또는 확률 점수가 60 이상이면, 하나 이상의 적절한 치료법이 처방된다. 다른 실시형태에서, 가능성 또는 확률 점수가 65 이상, 70 이상, 75 이상, 80 이상, 85 이상, 90 이상, 또는 95 이상인 경우, 하나 이상의 적절한 치료법이 처방된다. 다른 실시형태에서, 암 로그-오즈 비는 암 치료의 유효성을 나타낼 수 있다. 예를 들어, 시간 경과에 따른(예컨대, 치료 후 제2 치료에서) 암 로그-오즈 비의 증가는 치료가 효과적이지 않았다는 것을 나타낼 수 있다. 마찬가지로, 시간 경과에 따른(예컨대, 치료 후 제2 치료에서) 암 로그-오즈 비의 감소는 성공적인 치료를 나타낼 수 있다. 또 다른 실시형태에서, 암 로그-오즈 비가 1 초과, 1.5 초과, 2 초과, 2.5 초과, 3 초과, 3.5 초과, 또는 4 초과인 경우, 하나 이상의 적절한 치료법이 처방된다.
일부 실시형태에서, 치료법은 화학요법제, 표적화된 암 치료 요법제, 분화(differentiating) 치료 요법제, 호르몬 치료 요법제, 및 면역요법제를 포함하는 그룹으로부터 선택된 하나 이상의 암 치료 요법제이다. 예를 들어, 치료법은 알킬화제, 항대사물질, 안트라사이클린, 항종양 항생제, 세포골격 교란물질(탁산), 토포이소머라제 억제제, 유사분열 억제제, 코르티코스테로이드, 키나제 억제제, 뉴클레오티드 유사체, 백금계-기반 제제 및 이들의 조합을 포함하는 그룹으로부터 선택된 하나 이상의 화학요법제일 수 있다. 일부 실시형태에서, 치료법은 신호 전달 억제제(예컨대, 티로신 키나제 및 성장 인자 수용체 억제제), 히스톤 데아세틸라제(HDAC: histone deacetylase) 억제제, 레티노산 수용체 작용제, 프로테오솜 억제제, 혈관신생 억제제 및 단일클론 항체 접합체를 포함하는 그룹으로부터 선택된 하나 이상의 표적 암 치료 요법제이다. 일부 실시형태에서, 치료법은 트레티노인, 알리트레티노인 및 벡사로텐과 같은 레티노이드를 포함하는 하나 이상의 분화 치료 요법제이다. 일부 실시형태에서, 치료법은 항에스트로겐, 아로마타제 억제제, 프로게스틴, 에스트로겐, 항안드로겐 및 GnRH 작용제 또는 유사체를 포함하는 그룹으로부터 선택된 하나 이상의 호르몬 치료 요법제이다. 일 실시형태에서, 치료법은 단클론 항체 요법, 예컨대, 리툭시맙(RITUXAN) 및 알렘투주맙(CAMPATH), 비특이적 면역요법 및 보조제, 예컨대, BCG, 인터루킨-2(IL-2), 및 인터페론-알파, 면역조절제, 예를 들어, 탈리도마이드 및 레날리도마이드(REVLIMID)를 포함하는 그룹으로부터 선택된 하나 이상의 면역요법제이다. 종양의 유형, 암의 단계, 암 치료 또는 치료제에 대한 이전 노출, 및 암의 다른 특성과 같은 특성을 기반으로 적절한 암 치료 요법제를 선택하는 것은 숙련된 의사 또는 종양학자의 능력 내에 있다.
VI. 추가 고려 사항
본 개시내용의 실시형태에 대한 전술한 설명은 예시의 목적으로 제시되었으며, 이는 총망라되도록 또는 개시된 정확한 형태로 본 발명을 한정하도록 의도되지 않는다. 관련 기술분야에서 숙련된 사람은 상기 개시내용을 고려하여 많은 수정예 및 변형예가 가능하다는 것을 이해할 수 있다.
본 설명의 일부 부분은 정보에 대한 동작의 알고리즘 및 기호 표현의 관점에서 본 개시내용의 실시형태를 설명한다. 이러한 알고리즘 설명 및 표현은 데이터 프로세싱 기술 분야의 숙련된 사람들에 의해서 자신의 작업의 내용을 해당 기술 분야에서 숙련된 다른 사람들에게 효과적으로 전달하기 위해 일반적으로 사용된다. 이러한 동작은, 기능적으로, 계산적으로, 또는 논리적으로 설명되지만, 컴퓨터 프로그램이나 등가의 전기 회로, 마이크로코드 등에 의해서 구현되는 것으로 이해된다. 더욱이, 일반성을 잃지 않으면서, 이러한 작업의 배열을 모듈로 지칭하는 것이 때로는 편리한 것으로 입증되었다. 설명된 작동 및 이와 연관된 모듈은 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 임의의 조합으로 구현될 수 있다.
본원에 설명된 단계, 동작, 또는 프로세스 중 어느 하나는 하나 이상의 하드웨어 또는 소프트웨어 모듈로, 단독으로 또는 다른 디바이스와 결합하여 수행되거나 구현될 수 있다. 일부 실시형태에서, 소프트웨어 모듈은 설명된 단계, 작동, 또는 프로세스 중 어느 하나 또는 전부를 수행하기 위한 컴퓨터 프로세서에 의해서 실행될 수 있는 컴퓨터 프로그램 코드를 포함하는 컴퓨터 판독 가능 비일시적 매체를 포함하는 컴퓨터 프로그램 제품으로 구현된다.
실시형태는 또한 본원에 설명된 컴퓨팅 프로세스에 의해서 생성되는 결과물과 관련될 수 있다. 이러한 결과물은 컴퓨팅 프로세스로부터 기인되는 정보를 포함할 수 있으며, 여기서 정보는 비일시적, 유형(tangible)의 컴퓨터 판독 가능 저장 매체 상에 저장되고, 컴퓨터 프로그램 제품 또는 본원에 설명된 기타 데이터 조합의 임의의 실시형태를 포함할 수 있다.
마지막으로, 본 명세서에 사용된 언어는 주로 가독성과 교육적인 목적을 위해 선택되었으며, 발명의 주제를 서술하거나 제한하기 위해 선택되었을 수 없다. 따라서, 본 발명의 범위는 이러한 상세한 설명에 의해서가 아니라 여기에 기초한 출원 상에서 나오는 임의의 청구범위에 의해서 제한되는 것으로 의도되었다. 따라서, 본원의 실시형태의 개시내용은 다음의 청구범위에 제시된 본 발명의 범위를 제한하는 것이 아니라 예시하기 위한 것이다.
Claims (34)
- 암 진단을 위한 방법으로서,
제1 개인의 제1 샘플의 제1 복수의 암 신호를 수신하는 단계 - 상기 제1 복수의 암 신호 중 각각의 암 신호는 상기 제1 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계;
상기 제1 암 신호가 기준을 만족한다고 결정하는 단계에 응답하여, 상기 제1 샘플을 상기 제1 암 신호에 대응하는 질병 상태와 연관시키는 단계;
상기 제1 개인의 제1 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 상기 제1 샘플과 연관된 상기 제1 암 신호에 대응하는 상기 질병 상태를 제공하는 단계;
제2 개인의 제2 샘플의 제2 복수의 암 신호를 수신하는 단계 - 상기 제2 복수의 암 신호 중 각각의 암 신호는 상기 제2 샘플이 상기 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 제2 복수의 암 신호 중 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계;
상기 제2 암 신호가 상기 기준을 만족하지 않는다고 결정하는 단계에 응답하여, 상기 제2 샘플을 적어도 상기 제2 암 신호를 포함하는 상기 제2 복수의 암 신호의 일 서브세트에 대응하는 상기 복수의 질병 상태의 일 서브세트와 연관시키는 단계; 및
상기 제2 개인의 제2 진단을 결정하기 위한 상기 클라이언트 디바이스 상의 제시를 위해, 상기 제2 샘플과 연관된 상기 제2 복수의 암 신호의 상기 서브세트에 대응하는 상기 복수의 질병 상태의 상기 서브세트를 제공하는 단계를 포함하는 방법. - 제1항에 있어서,
상기 방법은 상기 제2 복수의 암 신호 중에서 두 번째로 가장 큰 확률을 갖는 제3 암 신호를 결정하는 단계를 더 포함하되, 상기 제2 복수의 암 신호의 상기 서브세트는 상기 제3 암 신호를 더 포함하는, 방법. - 제1항 또는 제2항에 있어서, 상기 기준은 확률 임계값이고, 상기 제1 암 신호가 상기 기준을 만족한다고 결정하는 단계는,
상기 제1 암 신호의 최대 확률이 상기 확률 임계값보다 더 크다고 결정하는 단계를 포함하는, 방법. - 제3항에 있어서, 상기 확률 임계값은 적어도 90%인, 방법.
- 제1항 내지 제4항 중 어느 한 항에 있어서,
위양성(false positives) 및 암 신호 확률들의 정확성에 기초하여 상기 기준을 결정하는 단계를 더 포함하는 방법. - 제1항 내지 제5항 중 어느 한 항에 있어서,
현재의 암이 샘플과 연관될 잔여 위험에 기초하여 상기 기준을 결정하는 단계를 더 포함하는 방법. - 제1항 내지 제6항 중 어느 한 항에 있어서,
상기 제1 복수의 암 신호 중에서 n개의 가장 큰 확률을 갖는 상기 제1 복수의 암 신호의 일 서브세트의 n개의 암 신호를 결정하는 단계; 및
상기 제1 복수의 암 신호 중 적어도 임계 수의 상기 서브세트가 일 카테고리의 질병 상태들과 연관되어 있다고 결정하는 단계에 응답하여, 상기 제1 샘플을 상기 카테고리의 질병 상태들의 각각의 질병 상태와 연관시키는 단계를 더 포함하는 방법. - 제7항에 있어서, 상기 카테고리의 질병 상태들은 인간 유두종 바이러스(HPV: human papillomavirus) 암인, 방법.
- 제7항에 있어서, 상기 카테고리의 질병 상태들은 위암 및 장암을 포함하는, 방법.
- 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 복수의 질병 상태는 비-암(non-cancer) 상태를 포함하는, 방법.
- 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 복수의 질병 상태는 항문암, 유방암, 자궁암, 자궁경부암, 난소암, 방광암, 신우 및 요관의 요로상피암, 요로상피 이외의 신장암, 전립선암, 항문직장암, 대장암, 식도의 편평상피세포암, 편평상피 이외의 식도암, 위암, 간세포로부터 발생한 간담도암, 간세포 이외의 세포로부터 발생한 간담도암, 췌장암, 인유두종바이러스 관련 두경부암, 인유두종바이러스와 관련되지 않은 두경부암, 폐선암종, 소세포폐암, 선암종 또는 소세포 폐암 이외의 폐암 및 편평 세포 폐암, 신경내분비암, 흑색종, 갑상선암, 육종, 다발성 골수종, 림프종, 백혈병, 신장암, 간암, 담관암, 혈질세포신생종암, 상부 위장관암, 외음부암, 폐 신경내분비 종양 및 기타 고도선종 신경내분비 종양을 포함하는 그룹으로부터 선택된 하나 이상의 유형의 암을 포함하는, 방법.
- 제1항 내지 제11항 중 어느 한 항에 있어서,
상기 제2 샘플과 연관된 상기 복수의 질병 상태들의 상기 서브세트에 대응하는 각각의 질병 상태의 그래픽적 비교를, 상기 클라이언트 디바이스 상의 제시를 위해, 제공하는 단계를 더 포함하는 방법. - 제12항에 있어서, 상기 그래픽적 비교는 상기 제2 복수의 암 신호의 확률들에 기초한 막대 그래프인, 방법.
- 암 신호 국재화(localization)를 위한 방법으로서,
샘플의 복수의 암 신호를 수신하는 단계 - 상기 복수의 암 신호 중 각각의 암 신호는 상기 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계;
상기 제1 암 신호가 기준을 만족한다는 결정에 따라, 상기 샘플을 상기 제1 암 신호에 대응하는 제1 질병 상태와 연관시키는 단계;
상기 제1 암 신호가 상기 기준을 충족하지 않는다는 결정에 따라:
상기 복수의 암 신호 중 두 번째로 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 및
상기 샘플을 상기 제1 암 신호에 대응하는 상기 제1 질병 상태 및 상기 제2 암 신호에 대응하는 제2 질병 상태와 연관시키는 단계를 포함하는 방법. - 제14항에 있어서,
상기 제1 암 신호가 상기 기준을 만족한다는 결정에 따라, 상기 샘플 내 암의 예측을 결정하기 위해 기계 학습 모델에 대한 입력으로서 상기 제1 암 신호를 제공하는 단계; 및
상기 제1 암 신호가 상기 기준을 만족하지 않는다는 결정에 따라, 상기 샘플 내 암의 예측을 결정하기 위해 상기 기계 학습 모델에 대한 입력으로서 상기 제1 암 신호 및 상기 제2 암 신호를 제공하는 단계를 더 포함하는 방법. - 제14항에 있어서,
상기 제1 암 신호가 상기 기준을 만족한다는 결정에 따라, 상기 제1 암 신호에 대응하는 상기 제1 질병 상태와 상기 샘플의 연관성을 포함하는 제1 훈련 세트를 생성하여 암 신호 국재화를 위한 기계 학습 모델을 훈련시키는 단계; 및
상기 제1 암 신호가 상기 기준을 만족하지 않는다는 결정에 따라, 상기 제1 암 신호에 대응하는 상기 제1 질병 상태 및 상기 제2 암 신호에 대응하는 상기 제2 질병 상태와 상기 샘플의 연관성을 포함하는 제2 훈련 세트를 생성하여 상기 기계 학습 모델을 훈련시키는 단계를 더 포함하는 방법. - 제14항 내지 제16항 중 어느 한 항에 있어서, 상기 기준은 확률 임계값이고, 상기 제1 암 신호가 상기 기준을 만족한다는 결정은
상기 제1 암 신호의 최대 확률이 상기 확률 임계값보다 더 크다고 결정하는 단계를 포함하는, 방법. - 제14항 내지 제17항 중 어느 한 항에 있어서,
위양성 및 암 신호 확률들의 정확성에 기초하여 상기 기준을 결정하는 단계를 더 포함하는 방법. - 제14항 내지 제18항 중 어느 한 항에 있어서,
현재의 암이 샘플과 연관될 잔여 위험에 기초하여 상기 기준을 결정하는 단계를 더 포함하는 방법. - 제14항 내지 제19항 중 어느 한 항에 있어서,
상기 복수의 암 신호 중에서 n개의 가장 큰 확률을 갖는 상기 복수의 암 신호의 일 서브세트의 n개의 암 신호를 결정하는 단계; 및
상기 복수의 암 신호 중 적어도 임계 수의 상기 서브세트가 일 카테고리의 질병 상태들과 연관되어 있다고 결정하는 단계에 응답하여, 상기 샘플을 상기 카테고리의 질병 상태들의 각각의 질병 상태와 연관시키는 단계를 더 포함하는 방법. - 제20항에 있어서, 상기 카테고리의 질병 상태들은 인간 유두종 바이러스(HPV 암인, 방법.
- 제20항에 있어서, 상기 카테고리의 질병 상태들은 위암 및 장암을 포함하는, 방법.
- 제14항 내지 제22항 중 어느 한 항에 있어서, 상기 복수의 질병 상태는 비-암 상태를 포함하는, 방법.
- 제14항 내지 제23항 중 어느 한 항에 있어서, 상기 복수의 질병 상태는 항문암, 유방암, 자궁암, 자궁경부암, 난소암, 방광암, 신우 및 요관의 요로상피암, 요로상피 이외의 신장암, 전립선암, 항문직장암, 대장암, 식도의 편평상피세포암, 편평상피 이외의 식도암, 위암, 간세포로부터 발생한 간담도암, 간세포 이외의 세포로부터 발생한 간담도암, 췌장암, 인유두종바이러스 관련 두경부암, 인유두종바이러스와 관련되지 않은 두경부암, 폐선암종, 소세포폐암, 선암종 또는 소세포 폐암 이외의 폐암 및 편평 세포 폐암, 신경내분비암, 흑색종, 갑상선암, 육종, 다발성 골수종, 림프종, 백혈병, 신장암, 간암, 담관암, 혈질세포신생종암, 상부 위장관암, 외음부암, 폐 신경내분비 종양 및 기타 고도선종 신경내분비 종양을 포함하는 그룹으로부터 선택된 하나 이상의 유형의 암을 포함하는, 방법.
- 제14항 내지 제24항 중 어느 한 항에 있어서,
진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 상기 제1 샘플과 연관된 상기 제1 암 신호에 대응하는 상기 질병 상태를 제공하는 단계를 더 포함하는 방법. - 제14항 내지 제25항 중 어느 한 항에 있어서,
진단을 결정하기 위한 상기 클라이언트 디바이스 상의 제시를 위해, 상기 제2 샘플과 연관된 상기 복수의 질병 상태들의 상기 서브세트에 대응하는 각각의 질병 상태의 그래픽적 비교를 제공하는 단계를 더 포함하는 방법. - 제26항에 있어서, 상기 그래픽적 비교는 상기 제2 복수의 암 신호의 확률들에 기초한 막대 그래프인, 방법.
- 암 신호 국재화를 위한 방법으로서,
샘플의 복수의 암 신호를 수신하는 단계 - 상기 복수의 암 신호 중 각각의 암 신호는 상기 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 복수의 암 신호 중 제1 암 신호가, 상기 복수의 암 신호 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제1 조건부 확률을 결정하는 단계;
상기 제1 조건부 확률이 기준을 만족한다고 결정하는 단계에 응답하여, 상기 샘플을 상기 제1 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계;
상기 제1 암 신호를 제외한 상기 복수의 암 신호의 일 서브세트를 결정하는 단계;
상기 복수의 암 신호의 상기 서브세트 중 제2 암 신호가, 상기 복수의 암 신호의 상기 서브세트 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제2 조건부 확률을 결정하는 단계; 및
상기 제2 조건부 확률이 상기 기준을 만족한다고 결정하는 단계에 응답하여, 상기 샘플을 상기 제2 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계를 포함하는 방법. - 컴퓨터 프로세서 및 메모리를 포함하는 시스템으로서, 상기 메모리는 상기 컴퓨터 프로세서에 의해서 실행될 때 상기 프로세서로 하여금 다음의 단계를 수행하게 하는 컴퓨터 프로그램 명령어를 저장하고, 상기 다음의 단계는,
제1 개인의 제1 샘플의 제1 복수의 암 신호를 수신하는 단계 - 상기 제1 복수의 암 신호 중 각각의 암 신호는 상기 제1 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계;
상기 제1 암 신호가 기준을 만족한다고 결정하는 단계에 응답하여, 상기 제1 샘플을 상기 제1 암 신호에 대응하는 질병 상태와 연관시키는 단계;
상기 제1 개인의 제1 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 상기 제1 샘플과 연관된 상기 제1 암 신호에 대응하는 상기 질병 상태를 제공하는 단계;
제2 개인의 제2 샘플의 제2 복수의 암 신호를 수신하는 단계 - 상기 제2 복수의 암 신호 중 각각의 암 신호는 상기 제2 샘플이 상기 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 제2 복수의 암 신호 중 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계;
상기 제2 암 신호가 상기 기준을 만족하지 않는다고 결정하는 단계에 응답하여, 상기 제2 샘플을 적어도 상기 제2 암 신호를 포함하는 상기 제2 복수의 암 신호의 일 서브세트에 대응하는 상기 복수의 질병 상태의 일 서브세트와 연관시키는 단계; 및
상기 제2 개인의 제2 진단을 결정하기 위한 상기 클라이언트 디바이스 상의 제시를 위해, 상기 제2 샘플과 연관된 상기 제2 복수의 암 신호의 상기 서브세트에 대응하는 상기 복수의 질병 상태의 상기 서브세트를 제공하는 단계를 포함하는, 시스템. - 하나 이상의 프로세서에 의해서 실행될 때, 상기 하나 이상의 프로세서로 하여금 다음의 단계를 수행하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 상기 다음의 단계는,
제1 개인의 제1 샘플의 제1 복수의 암 신호를 수신하는 단계 - 상기 제1 복수의 암 신호 중 각각의 암 신호는 상기 제1 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 제1 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계;
상기 제1 암 신호가 기준을 만족한다고 결정하는 단계에 응답하여, 상기 제1 샘플을 상기 제1 암 신호에 대응하는 질병 상태와 연관시키는 단계;
상기 제1 개인의 제1 진단을 결정하기 위한 클라이언트 디바이스 상의 제시를 위해, 상기 제1 샘플과 연관된 상기 제1 암 신호에 대응하는 상기 질병 상태를 제공하는 단계;
제2 개인의 제2 샘플의 제2 복수의 암 신호를 수신하는 단계 - 상기 제2 복수의 암 신호 중 각각의 암 신호는 상기 제2 샘플이 상기 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 제2 복수의 암 신호 중 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계;
상기 제2 암 신호가 상기 기준을 만족하지 않는다고 결정하는 단계에 응답하여, 상기 제2 샘플을 적어도 상기 제2 암 신호를 포함하는 상기 제2 복수의 암 신호의 일 서브세트에 대응하는 상기 복수의 질병 상태의 일 서브세트와 연관시키는 단계; 및
상기 제2 개인의 제2 진단을 결정하기 위한 상기 클라이언트 디바이스 상의 제시를 위해, 상기 제2 샘플과 연관된 상기 제2 복수의 암 신호의 상기 서브세트에 대응하는 상기 복수의 질병 상태의 상기 서브세트를 제공하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 매체. - 컴퓨터 프로세서 및 메모리를 포함하는 시스템으로서, 상기 메모리는 상기 컴퓨터 프로세서에 의해서 실행될 때 상기 프로세서로 하여금 다음의 단계를 수행하게 하는 컴퓨터 프로그램 명령어를 저장하고, 상기 다음의 단계는,
샘플의 복수의 암 신호를 수신하는 단계 - 상기 복수의 암 신호 중 각각의 암 신호는 상기 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계;
상기 제1 암 신호가 기준을 만족한다는 결정에 따라, 상기 샘플을 상기 제1 암 신호에 대응하는 제1 질병 상태와 연관시키는 단계;
상기 제1 암 신호가 상기 기준을 충족하지 않는다는 결정에 따라:
상기 복수의 암 신호 중 두 번째로 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 및
상기 샘플을 상기 제1 암 신호에 대응하는 상기 제1 질병 상태 및 상기 제2 암 신호에 대응하는 제2 질병 상태와 연관시키는 단계를 포함하는, 시스템. - 하나 이상의 프로세서에 의해서 실행될 때, 상기 하나 이상의 프로세서로 하여금 다음의 단계를 수행하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 상기 다음의 단계는,
샘플의 복수의 암 신호를 수신하는 단계 - 상기 복수의 암 신호 중 각각의 암 신호는 상기 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 복수의 암 신호 중 가장 큰 확률을 갖는 제1 암 신호를 결정하는 단계;
상기 제1 암 신호가 기준을 만족한다는 결정에 따라, 상기 샘플을 상기 제1 암 신호에 대응하는 제1 질병 상태와 연관시키는 단계;
상기 제1 암 신호가 상기 기준을 충족하지 않는다는 결정에 따라:
상기 복수의 암 신호 중 두 번째로 가장 큰 확률을 갖는 제2 암 신호를 결정하는 단계; 및
상기 샘플을 상기 제1 암 신호에 대응하는 상기 제1 질병 상태 및 상기 제2 암 신호에 대응하는 제2 질병 상태와 연관시키는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 매체. - 컴퓨터 프로세서 및 메모리를 포함하는 시스템으로서, 상기 메모리는 상기 컴퓨터 프로세서에 의해서 실행될 때 상기 프로세서로 하여금 다음의 단계를 수행하게 하는 컴퓨터 프로그램 명령어를 저장하고, 상기 다음의 단계는,
샘플의 복수의 암 신호를 수신하는 단계 - 상기 복수의 암 신호 중 각각의 암 신호는 상기 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 복수의 암 신호 중 제1 암 신호가, 복수의 암 신호 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제1 조건부 확률을 결정하는 단계;
상기 제1 조건부 확률이 기준을 만족한다고 결정하는 단계에 응답하여, 상기 샘플을 상기 제1 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계;
상기 제1 암 신호를 제외한 상기 복수의 암 신호의 일 서브세트를 결정하는 단계;
상기 복수의 암 신호의 상기 서브세트 중 제2 암 신호가, 상기 복수의 암 신호의 상기 서브세트 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제2 조건부 확률을 결정하는 단계; 및
상기 제2 조건부 확률이 상기 기준을 만족한다고 결정하는 단계에 응답하여, 상기 샘플을 상기 제2 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계를 포함하는, 시스템. - 하나 이상의 프로세서에 의해서 실행될 때, 상기 하나 이상의 프로세서로 하여금 다음의 단계를 수행하게 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 상기 다음의 단계는,
샘플의 복수의 암 신호를 수신하는 단계 - 상기 복수의 암 신호 중 각각의 암 신호는 상기 샘플이 복수의 질병 상태 중 상이한 질병 상태와 연관될 확률을 나타냄 -;
상기 복수의 암 신호 중 제1 암 신호가, 복수의 암 신호 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제1 조건부 확률을 결정하는 단계;
상기 제1 조건부 확률이 기준을 만족한다고 결정하는 단계에 응답하여, 상기 샘플을 상기 제1 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계;
상기 제1 암 신호를 제외한 상기 복수의 암 신호의 일 서브세트를 결정하는 단계;
상기 복수의 암 신호의 상기 서브세트 중 제2 암 신호가, 상기 복수의 암 신호의 상기 서브세트 중 나머지 암 신호들이 부정확하다고 가정하면, 참양성일 제2 조건부 확률을 결정하는 단계; 및
상기 제2 조건부 확률이 상기 기준을 만족한다고 결정하는 단계에 응답하여, 상기 샘플을 상기 제2 암 신호에 대응하는 적어도 하나의 질병 상태와 연관시키는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163171355P | 2021-04-06 | 2021-04-06 | |
US63/171,355 | 2021-04-06 | ||
PCT/US2022/023555 WO2022216756A1 (en) | 2021-04-06 | 2022-04-05 | Conditional tissue of origin return for localization accuracy |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230167070A true KR20230167070A (ko) | 2023-12-07 |
Family
ID=81653506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020237037807A KR20230167070A (ko) | 2021-04-06 | 2022-04-05 | 국재화 정확도를 위한 조건부 기원 조직 리턴 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20220333209A1 (ko) |
EP (1) | EP4302299A1 (ko) |
JP (1) | JP2024513563A (ko) |
KR (1) | KR20230167070A (ko) |
CN (1) | CN117063238A (ko) |
AU (1) | AU2022255318A1 (ko) |
CA (1) | CA3207988A1 (ko) |
IL (1) | IL305894A (ko) |
WO (1) | WO2022216756A1 (ko) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3899952A1 (en) * | 2018-12-21 | 2021-10-27 | Grail, Inc. | Anomalous fragment detection and classification |
LT3914736T (lt) * | 2019-01-25 | 2024-06-10 | Grail, Llc | Vėžio, vėžinio audinio kilmės ir (arba) vėžinių ląstelių tipo aptikimas |
AU2020274348A1 (en) * | 2019-05-13 | 2021-12-09 | Grail, Llc | Model-based featurization and classification |
EP4029021A1 (en) * | 2019-10-11 | 2022-07-20 | Grail, LLC | Cancer classification with tissue of origin thresholding |
AU2021292311A1 (en) * | 2020-06-20 | 2023-02-16 | Grail, Llc | Detection and classification of human papillomavirus associated cancers |
-
2022
- 2022-04-05 JP JP2023561374A patent/JP2024513563A/ja active Pending
- 2022-04-05 WO PCT/US2022/023555 patent/WO2022216756A1/en active Application Filing
- 2022-04-05 AU AU2022255318A patent/AU2022255318A1/en active Pending
- 2022-04-05 IL IL305894A patent/IL305894A/en unknown
- 2022-04-05 CN CN202280024428.2A patent/CN117063238A/zh active Pending
- 2022-04-05 CA CA3207988A patent/CA3207988A1/en active Pending
- 2022-04-05 KR KR1020237037807A patent/KR20230167070A/ko unknown
- 2022-04-05 EP EP22723509.0A patent/EP4302299A1/en active Pending
- 2022-04-05 US US17/714,062 patent/US20220333209A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
AU2022255318A1 (en) | 2023-08-31 |
CN117063238A (zh) | 2023-11-14 |
CA3207988A1 (en) | 2022-10-13 |
EP4302299A1 (en) | 2024-01-10 |
IL305894A (en) | 2023-11-01 |
US20220333209A1 (en) | 2022-10-20 |
WO2022216756A1 (en) | 2022-10-13 |
JP2024513563A (ja) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200365229A1 (en) | Model-based featurization and classification | |
JP2021521536A (ja) | 生体試料の多検体アッセイのための機械学習実装 | |
US20210327534A1 (en) | Cancer classification using patch convolutional neural networks | |
US20210104297A1 (en) | Systems and methods for determining tumor fraction in cell-free nucleic acid | |
US20210102262A1 (en) | Systems and methods for diagnosing a disease condition using on-target and off-target sequencing data | |
CN114026255A (zh) | 侦测癌症、癌症来源组织及/或一癌症细胞类型 | |
US20210395841A1 (en) | Detection and classification of human papillomavirus associated cancers | |
US20210166813A1 (en) | Systems and methods for evaluating longitudinal biological feature data | |
CN116583904A (zh) | 用于癌症分类的样品确认 | |
US20220101135A1 (en) | Systems and methods for using a convolutional neural network to detect contamination | |
CA3092998A1 (en) | Anomalous fragment detection and classification | |
Kwon et al. | Advances in methylation analysis of liquid biopsy in early cancer detection of colorectal and lung cancer | |
US20230090925A1 (en) | Methylation fragment probabilistic noise model with noisy region filtration | |
KR20230167070A (ko) | 국재화 정확도를 위한 조건부 기원 조직 리턴 | |
WO2018077225A1 (en) | The primary site of metastatic cancer identification method and system thereof | |
US20240161867A1 (en) | Optimization of model-based featurization and classification | |
US20240209455A1 (en) | Analysis of fragment ends in dna |