TW202331734A - 甲基化生物標記選擇裝置及方法 - Google Patents
甲基化生物標記選擇裝置及方法 Download PDFInfo
- Publication number
- TW202331734A TW202331734A TW111135959A TW111135959A TW202331734A TW 202331734 A TW202331734 A TW 202331734A TW 111135959 A TW111135959 A TW 111135959A TW 111135959 A TW111135959 A TW 111135959A TW 202331734 A TW202331734 A TW 202331734A
- Authority
- TW
- Taiwan
- Prior art keywords
- biomarkers
- methylation
- candidate
- biomarker
- disease
- Prior art date
Links
- 239000000090 biomarker Substances 0.000 title claims abstract description 184
- 230000011987 methylation Effects 0.000 title claims abstract description 170
- 238000007069 methylation reaction Methods 0.000 title claims abstract description 170
- 238000000034 method Methods 0.000 title claims abstract description 31
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 209
- 239000000091 biomarker candidate Substances 0.000 claims abstract description 204
- 201000010099 disease Diseases 0.000 claims abstract description 204
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 43
- 125000000524 functional group Chemical group 0.000 claims description 57
- 238000013528 artificial neural network Methods 0.000 claims description 29
- 230000000306 recurrent effect Effects 0.000 claims description 29
- 230000007246 mechanism Effects 0.000 claims description 17
- 238000010187 selection method Methods 0.000 claims description 17
- 238000012935 Averaging Methods 0.000 claims description 12
- 238000012098 association analyses Methods 0.000 claims description 10
- 238000010219 correlation analysis Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 43
- 206010028980 Neoplasm Diseases 0.000 description 30
- 206010009944 Colon cancer Diseases 0.000 description 20
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 19
- 238000013518 transcription Methods 0.000 description 18
- 230000035897 transcription Effects 0.000 description 18
- 102000009572 RNA Polymerase II Human genes 0.000 description 17
- 108010009460 RNA Polymerase II Proteins 0.000 description 17
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 16
- 208000005718 Stomach Neoplasms Diseases 0.000 description 16
- 201000004101 esophageal cancer Diseases 0.000 description 16
- 206010017758 gastric cancer Diseases 0.000 description 16
- 230000037361 pathway Effects 0.000 description 16
- 201000011549 stomach cancer Diseases 0.000 description 16
- 230000004568 DNA-binding Effects 0.000 description 14
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 14
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 14
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 14
- 201000005202 lung cancer Diseases 0.000 description 14
- 208000020816 lung neoplasm Diseases 0.000 description 14
- 201000002528 pancreatic cancer Diseases 0.000 description 14
- 101001074380 Homo sapiens Inactive phospholipase D5 Proteins 0.000 description 13
- 201000011510 cancer Diseases 0.000 description 13
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 13
- 208000008443 pancreatic carcinoma Diseases 0.000 description 13
- 239000013598 vector Substances 0.000 description 13
- 206010006187 Breast cancer Diseases 0.000 description 12
- 208000026310 Breast neoplasm Diseases 0.000 description 12
- 108020004414 DNA Proteins 0.000 description 12
- 102100036182 Inactive phospholipase D5 Human genes 0.000 description 12
- 206010033128 Ovarian cancer Diseases 0.000 description 12
- 206010061535 Ovarian neoplasm Diseases 0.000 description 12
- 206010060862 Prostate cancer Diseases 0.000 description 12
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 12
- 239000000523 sample Substances 0.000 description 12
- 230000027455 binding Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 102100034132 Hydroxyacid-oxoacid transhydrogenase, mitochondrial Human genes 0.000 description 10
- 102000048238 Neuregulin-1 Human genes 0.000 description 10
- 108090000556 Neuregulin-1 Proteins 0.000 description 10
- 101150031702 adhfe1 gene Proteins 0.000 description 10
- 238000012795 verification Methods 0.000 description 10
- 102000051389 ADAMTS5 Human genes 0.000 description 9
- 108091005663 ADAMTS5 Proteins 0.000 description 9
- 102100024692 Double-stranded RNA-specific editase B2 Human genes 0.000 description 9
- 101000686486 Homo sapiens Double-stranded RNA-specific editase B2 Proteins 0.000 description 9
- 101001011441 Homo sapiens Interferon regulatory factor 4 Proteins 0.000 description 9
- 101000627851 Homo sapiens Matrix metalloproteinase-23 Proteins 0.000 description 9
- 101000994656 Homo sapiens Potassium voltage-gated channel subfamily KQT member 5 Proteins 0.000 description 9
- 102100030126 Interferon regulatory factor 4 Human genes 0.000 description 9
- 102100024130 Matrix metalloproteinase-23 Human genes 0.000 description 9
- 102100034365 Potassium voltage-gated channel subfamily KQT member 5 Human genes 0.000 description 9
- 230000010632 Transcription Factor Activity Effects 0.000 description 9
- 201000007270 liver cancer Diseases 0.000 description 9
- 208000014018 liver neoplasm Diseases 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 108091064138 miR-129-2 stem-loop Proteins 0.000 description 9
- 210000000170 cell membrane Anatomy 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000035945 sensitivity Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000002068 genetic effect Effects 0.000 description 7
- 210000004379 membrane Anatomy 0.000 description 7
- 239000012528 membrane Substances 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 230000003827 upregulation Effects 0.000 description 7
- 238000010606 normalization Methods 0.000 description 6
- 210000001519 tissue Anatomy 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 6
- 108010077544 Chromatin Proteins 0.000 description 5
- 208000008469 Peptic Ulcer Diseases 0.000 description 5
- 210000003483 chromatin Anatomy 0.000 description 5
- 208000035475 disorder Diseases 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 208000019423 liver disease Diseases 0.000 description 5
- 208000011906 peptic ulcer disease Diseases 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 102000005701 Calcium-Binding Proteins Human genes 0.000 description 4
- 108010045403 Calcium-Binding Proteins Proteins 0.000 description 4
- 208000007107 Stomach Ulcer Diseases 0.000 description 4
- 230000021164 cell adhesion Effects 0.000 description 4
- 230000007882 cirrhosis Effects 0.000 description 4
- 208000019425 cirrhosis of liver Diseases 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 201000005917 gastric ulcer Diseases 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 101000798377 Homo sapiens UDP-GlcNAc:betaGal beta-1,3-N-acetylglucosaminyltransferase-like protein 1 Proteins 0.000 description 3
- 102000018697 Membrane Proteins Human genes 0.000 description 3
- 108010052285 Membrane Proteins Proteins 0.000 description 3
- 108091093105 Nuclear DNA Proteins 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000005352 clarification Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 208000000718 duodenal ulcer Diseases 0.000 description 3
- 230000008482 dysregulation Effects 0.000 description 3
- 230000003394 haemopoietic effect Effects 0.000 description 3
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 3
- 230000002103 transcriptional effect Effects 0.000 description 3
- 102000016289 Cell Adhesion Molecules Human genes 0.000 description 2
- 108010067225 Cell Adhesion Molecules Proteins 0.000 description 2
- 102000010834 Extracellular Matrix Proteins Human genes 0.000 description 2
- 108010037362 Extracellular Matrix Proteins Proteins 0.000 description 2
- 102000013446 GTP Phosphohydrolases Human genes 0.000 description 2
- 108091006109 GTPases Proteins 0.000 description 2
- 208000012895 Gastric disease Diseases 0.000 description 2
- 208000012671 Gastrointestinal haemorrhages Diseases 0.000 description 2
- DFPAKSUCGFBDDF-UHFFFAOYSA-N Nicotinamide Chemical compound NC(=O)C1=CC=CN=C1 DFPAKSUCGFBDDF-UHFFFAOYSA-N 0.000 description 2
- 102000007999 Nuclear Proteins Human genes 0.000 description 2
- 108010089610 Nuclear Proteins Proteins 0.000 description 2
- 102100032289 UDP-GlcNAc:betaGal beta-1,3-N-acetylglucosaminyltransferase-like protein 1 Human genes 0.000 description 2
- 210000001015 abdomen Anatomy 0.000 description 2
- 230000031018 biological processes and functions Effects 0.000 description 2
- 206010006451 bronchitis Diseases 0.000 description 2
- 230000028956 calcium-mediated signaling Effects 0.000 description 2
- 238000011088 calibration curve Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 201000001883 cholelithiasis Diseases 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 210000000805 cytoplasm Anatomy 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000003828 downregulation Effects 0.000 description 2
- 210000001808 exosome Anatomy 0.000 description 2
- 208000030304 gastrointestinal bleeding Diseases 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 2
- 208000027866 inflammatory disease Diseases 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 229910021645 metal ion Inorganic materials 0.000 description 2
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 2
- 230000004879 molecular function Effects 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 210000003101 oviduct Anatomy 0.000 description 2
- 210000004197 pelvis Anatomy 0.000 description 2
- 238000003752 polymerase chain reaction Methods 0.000 description 2
- 229910001414 potassium ion Inorganic materials 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000019491 signal transduction Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 230000032258 transport Effects 0.000 description 2
- 230000004572 zinc-binding Effects 0.000 description 2
- 102100027962 2-5A-dependent ribonuclease Human genes 0.000 description 1
- 208000000884 Airway Obstruction Diseases 0.000 description 1
- 108700020463 BRCA1 Proteins 0.000 description 1
- 102000036365 BRCA1 Human genes 0.000 description 1
- 206010004146 Basal cell carcinoma Diseases 0.000 description 1
- 206010004433 Benign ovarian tumour Diseases 0.000 description 1
- 206010004446 Benign prostatic hyperplasia Diseases 0.000 description 1
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 1
- 208000003174 Brain Neoplasms Diseases 0.000 description 1
- 206010006237 Breast dysplasia Diseases 0.000 description 1
- 206010006458 Bronchitis chronic Diseases 0.000 description 1
- 201000009030 Carcinoma Diseases 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 208000032170 Congenital Abnormalities Diseases 0.000 description 1
- 208000001976 Endocrine Gland Neoplasms Diseases 0.000 description 1
- 201000009273 Endometriosis Diseases 0.000 description 1
- 208000000571 Fibrocystic breast disease Diseases 0.000 description 1
- 208000007882 Gastritis Diseases 0.000 description 1
- 206010019799 Hepatitis viral Diseases 0.000 description 1
- 101001080057 Homo sapiens 2-5A-dependent ribonuclease Proteins 0.000 description 1
- 241000700588 Human alphaherpesvirus 1 Species 0.000 description 1
- 208000008839 Kidney Neoplasms Diseases 0.000 description 1
- 101150011794 MMP23B gene Proteins 0.000 description 1
- 108700011259 MicroRNAs Proteins 0.000 description 1
- 102000002151 Microfilament Proteins Human genes 0.000 description 1
- 108010040897 Microfilament Proteins Proteins 0.000 description 1
- 208000029027 Musculoskeletal and connective tissue disease Diseases 0.000 description 1
- PVNIIMVLHYAWGP-UHFFFAOYSA-N Niacin Chemical compound OC(=O)C1=CC=CN=C1 PVNIIMVLHYAWGP-UHFFFAOYSA-N 0.000 description 1
- 102000043141 Nuclear RNA Human genes 0.000 description 1
- 108020003217 Nuclear RNA Proteins 0.000 description 1
- 208000030852 Parasitic disease Diseases 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 102000004257 Potassium Channel Human genes 0.000 description 1
- 208000004403 Prostatic Hyperplasia Diseases 0.000 description 1
- 206010038389 Renal cancer Diseases 0.000 description 1
- 208000000453 Skin Neoplasms Diseases 0.000 description 1
- 208000019498 Skin and subcutaneous tissue disease Diseases 0.000 description 1
- 206010046798 Uterine leiomyoma Diseases 0.000 description 1
- 230000004156 Wnt signaling pathway Effects 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 210000001766 X chromosome Anatomy 0.000 description 1
- 210000002593 Y chromosome Anatomy 0.000 description 1
- 206010048249 Yersinia infections Diseases 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 210000002867 adherens junction Anatomy 0.000 description 1
- 208000007502 anemia Diseases 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 230000030741 antigen processing and presentation Effects 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 201000007295 breast benign neoplasm Diseases 0.000 description 1
- 210000004190 broad ligament Anatomy 0.000 description 1
- 230000011496 cAMP-mediated signaling Effects 0.000 description 1
- 235000014633 carbohydrates Nutrition 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 210000000845 cartilage Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010252 chemokine signaling pathway Effects 0.000 description 1
- 230000035606 childbirth Effects 0.000 description 1
- 208000007451 chronic bronchitis Diseases 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 201000003146 cystitis Diseases 0.000 description 1
- 210000000172 cytosol Anatomy 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 230000001079 digestive effect Effects 0.000 description 1
- 210000002249 digestive system Anatomy 0.000 description 1
- 208000010643 digestive system disease Diseases 0.000 description 1
- 208000016097 disease of metabolism Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002124 endocrine Effects 0.000 description 1
- 201000011523 endocrine gland cancer Diseases 0.000 description 1
- 208000030172 endocrine system disease Diseases 0.000 description 1
- 208000028299 esophageal disease Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000002744 extracellular matrix Anatomy 0.000 description 1
- 201000010255 female reproductive organ cancer Diseases 0.000 description 1
- 230000000848 glutamatergic effect Effects 0.000 description 1
- 208000035474 group of disease Diseases 0.000 description 1
- 201000010536 head and neck cancer Diseases 0.000 description 1
- 208000014829 head and neck neoplasm Diseases 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000014617 hemorrhoid Diseases 0.000 description 1
- 201000006879 hepatobiliary system cancer Diseases 0.000 description 1
- 208000035414 hereditary 1 prostate cancer Diseases 0.000 description 1
- 208000026278 immune system disease Diseases 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 230000028709 inflammatory response Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000015788 innate immune response Effects 0.000 description 1
- 230000003914 insulin secretion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 201000010982 kidney cancer Diseases 0.000 description 1
- 201000010260 leiomyoma Diseases 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 208000029559 malignant endocrine neoplasm Diseases 0.000 description 1
- 208000016847 malignant urinary system neoplasm Diseases 0.000 description 1
- 102000006240 membrane receptors Human genes 0.000 description 1
- 108020004084 membrane receptors Proteins 0.000 description 1
- 230000009245 menopause Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012164 methylation sequencing Methods 0.000 description 1
- 238000007855 methylation-specific PCR Methods 0.000 description 1
- 210000003632 microfilament Anatomy 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000003007 myelin sheath Anatomy 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000002858 neurotransmitter agent Substances 0.000 description 1
- 235000005152 nicotinamide Nutrition 0.000 description 1
- 239000011570 nicotinamide Substances 0.000 description 1
- 229960003966 nicotinamide Drugs 0.000 description 1
- 235000001968 nicotinic acid Nutrition 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002611 ovarian Effects 0.000 description 1
- 201000008016 ovarian benign neoplasm Diseases 0.000 description 1
- 210000001672 ovary Anatomy 0.000 description 1
- 208000024691 pancreas disease Diseases 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000012464 peptidyl-serine phosphorylation Effects 0.000 description 1
- 210000004303 peritoneum Anatomy 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 108020001213 potassium channel Proteins 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 102000016914 ras Proteins Human genes 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 201000000849 skin cancer Diseases 0.000 description 1
- 208000017520 skin disease Diseases 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 210000002536 stromal cell Anatomy 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 210000002504 synaptic vesicle Anatomy 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000003708 urethra Anatomy 0.000 description 1
- 230000002485 urinary effect Effects 0.000 description 1
- 201000004435 urinary system cancer Diseases 0.000 description 1
- 210000001635 urinary tract Anatomy 0.000 description 1
- 210000002229 urogenital system Anatomy 0.000 description 1
- 201000007954 uterine fibroid Diseases 0.000 description 1
- 201000001862 viral hepatitis Diseases 0.000 description 1
- 230000004735 virus-associated carcinogenesis Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Abstract
甲基化生物標記選擇裝置及方法。一甲基化生物標記選擇裝置儲存複數個第一資料集與複數個第二資料集,其中各該第一資料集包含對應至複數個甲基化位點的複數個甲基化程度,且各該第二資料集包含至少一病歷。該甲基化生物標記選擇裝置根據該等甲基化程度從該等甲基化位點中識別出複數個可鑑別位點,藉此決定複數個主要生物標記,基於該等第二資料集識別出一目標疾病的複數個共病症與複數個關聯基因,藉此決定複數個次要生物標記,且基於該等主要生物標記及該等次要生物標記的一關聯分析而決定複數個候選生物標記。
Description
本發明係關於一種甲基化生物標記選擇裝置及方法。更具體而言,本發明係關於一種基於共病症分析以提供與一目標疾病相關的生物標記的甲基化生物標記選擇裝置及方法。
生物標記在醫學領域發揮極為重要的作用,例如:用於診斷疾病及研發藥物。針對一目標疾病,其理想的生物標記應具有高靈敏度及高特異性,以便在早期偵測出目標疾病並對預後進行評估。為找出與一目標疾病相關的生物標記,實務上慣用的方法為對患有目標疾病的患者的樣本進行研究。然而,這種慣用的方法所分析的樣本在數量及多樣性方面都極為有限,因此結果往往無法令人滿意(例如:獲得的一或多種生物標記不具高靈敏度及/或不具高特異性)且不足(例如:僅獲得很少數的生物標記)。
因此,本發明所屬技術領域仍亟需一種能夠針對一目標疾病提供足夠數量的具有高靈敏度及高特異性的生物標記的技術。
本發明的一目的在於提供一種甲基化生物標記選擇裝置。該甲基化生物標記選擇裝置包含一儲存器及一處理器,其中該處理器電性連接至該儲存器。該儲存器被配置為儲存複數個第一資料集,其中各該第一資料集包含對應至複數個甲基化位點的複數個甲基化程度。該儲存器還被配置為儲存複數個第二資料集,其中各該第二資料集包含至少一病歷。該處理器被配置為執行以下運作:(a)根據該等甲基化程度從該等甲基化位點中識別出複數個可鑑別位點,藉此決定複數個主要生物標記,(b)基於該等第二資料集識別出一目標疾病的複數個共病症與複數個關聯基因,藉此決定複數個次要生物標記,以及(c)基於該等主要生物標記及該等次要生物標記的一關聯分析而決定複數個候選生物標記。
本發明的另一目的在於提供一種適用於一電子裝置的甲基化生物標記選擇方法。該電子裝置儲存複數個第一資料集,其中各該第一資料集包含對應至複數個甲基化位點的複數個甲基化程度。該電子裝置還儲存複數個第二資料集,其中各該第二資料集包含至少一病歷。該甲基化生物標記選擇方法包含下列步驟:(a)根據該等甲基化程度從該等甲基化位點中識別出複數個可鑑別位點,藉此決定複數個主要生物標記,(b)基於該等第二資料集識別出一目標疾病的複數個共病症與複數個關聯基因,藉此決定複數個次要生物標記,以及(c)基於該等主要生物標記及該等次要生物標記的一關聯分析而決定複數個候選生物標記。
本發明所提供的甲基化生物標記選擇技術(至少包含甲基化生物標記選擇裝置及方法)利用兩種不同類型的資料集(即,該等第一資料集及該等第二資料集)來發現與一目標疾病相關的候選生物標記。該等第一資料集包含各種甲基化位點的甲基化程度,而第二資料集包含病歷。藉由利用第一資料集,本發明能識別出可鑑別位點作為與目標疾病相關的主要生物標記。藉由利用第二資料集,本發明能識別出目標疾病的共病症及其關聯基因以提供與目標疾病相關的次要生物標記。由於本發明一併地考量目標疾病的甲基化程度與共病症,因此本發明的甲基化生物標記選擇技術可提供對目標疾病具有高靈敏度及高特異性的候選生物標記。此外,由於候選生物標記係基於主要生物標記與次要生物標記的一關聯分析而決定的,因此本發明可提供足夠數量的候選生物標記。
以下結合圖式闡述本發明的詳細技術及實施方式,俾使本發明所屬技術領域中具有通常知識者能理解所請求保護的發明的技術特徵。
以下將透過實施方式來解釋本發明所提供的甲基化生物標記選擇裝置及方法,但該等實施方式並非用以限制本發明需在如該等實施方式所述的任何環境、應用或方式方能實施。關於以下實施方式的說明僅在於闡釋本發明的目的,而非用以限制本發明的範圍。應理解,在以下實施方式及圖式中,與本發明非直接相關的元件已省略而未描述或/及繪示。此外,圖式中各元件的尺寸及元件間的比例關係僅為便於繪示及說明,而非用以限制本發明的範圍。
第1圖例示在本發明的一些實施方式中的甲基化生物標記選擇裝置1的示意圖。甲基化生物標記選擇裝置1包含一儲存器11及一處理器13,其中儲存器11電性連接至處理器13。儲存器11可為一記憶體、一通用串列匯流排(Universal Serial Bus;USB)碟、一可攜式磁碟、一硬式磁碟機(Hard Disk Drive;HDD)或本發明所屬技術領域中具有通常知識者已知的能夠儲存資料的任何其他非暫時性儲存媒體、裝置或電路。處理器13可為各種處理器、中央處理單元(central processing unit;CPU)、微處理器單元(microprocessor unit;MPU)、數位訊號處理器(digital signal processor;DSP)或本發明所屬技術領域中具有通常知識者已知的其他計算裝置其中之一。
儲存器11儲存複數個第一資料集D1_1、……、D1_q,其中第一資料集D1_1、……、D1_q中的每一個包含對應至複數個甲基化位點(methylation loci)的複數個甲基化程度(methylation degrees)。需說明者,甲基化位點係指富含CG或缺乏CG的DNA區域的基因位點,其包含至少一個有差異地進行甲基化的區域。在一些實施方式中,甲基化位點包含CpG甲基化位點及非CpG甲基化位點。此外,儲存器11儲存複數個第二資料集D2_1、……、D2_r,其中第二資料集D2_1、……、D2_r中的每一個包含至少一個病歷。
甲基化生物標記選擇裝置1旨在基於甲基化程度及與目標疾病相關的共病症(comorbidity)而找出可能與一目標疾病高度相關的生物標記,其概括的資料處理流程如第2圖所示。具體而言,處理器13藉由根據記錄在第一資料集D1_1、……、D1_q中的甲基化程度從記錄在第一資料集D1_1、……、D1_q中的甲基化位點識別出複數個可鑑別位點(differentiable loci)而決定複數個主要生物標記PB_1、……、PB_m,藉由基於第二資料集D2_1、……、D2_r識別出一目標疾病的複數個共病症與其關聯基而決定複數個次要生物標記SB_1、……、SB_n,且基於主要生物標記PB_1、……、PB_m及次要生物標記SB_1、……、SB_n的一關聯分析而決定複數個候選生物標記CB_1、……、CB_k。候選生物標記CB_1、……、CB_k為可能與目標疾病高度相關的生物標記,因而其可用於目標疾病的進一步研究或/及評估。本文中所述的「共病症」係指一或多種引起目標疾病、由目標疾病所引起或與目標疾病共同發生的病症、症候群、疾病或障礙,且其可直接或間接與目標疾病相關。在一些實施方式中,第一資料集D1_1、……、D1_q係由甲基化陣列(methylation array)或甲基化定序(methylation sequencing)產生。在一些實施方式中,目標疾病包含但不限於腦癌、乳癌、大腸癌、內分泌腺癌、食道癌、女性生殖器官癌、頭頸癌、肝膽系統癌、腎癌、肺癌、間質細胞瘤、前列腺癌、皮膚癌、胃癌、外分泌胰腺腫瘤及泌尿系統癌。
以下詳細說明第一資料集D1_1、……、D1_q、第二資料集D2_1、……、D2_r以及處理器13在各實施方式中所執行的運作。
第一資料集
在一些實施方式中,甲基化生物標記選擇裝置1從甲基化陣列(例如:Illumina Infinium HumanMethylation450 BeadChip(450K晶片))所產生的資料檔案中獲得第一資料集D1_1、……、D1_q,且其資料處理流程如第3圖所示。在該些實施方式中,甲基化生物標記選擇裝置1安裝有Chip Analysis Methylation Pipeline(ChAMP)套裝軟體,且處理器13經由甲基化生物標記選擇裝置1的一收發介面(未繪示)自一第一資料庫(例如:癌症基因體圖譜(The Cancer Genome Atlas;TCGA))導入甲基化陣列的資料檔案F_1、……、F_o(例如:IDAT檔案)。導入的資料檔案F_1、……、F_o中的每一個包含對應至複數個甲基化位點的複數個甲基化程度(例如:
N個甲基化程度一對一地對應至
N個甲基化位點,且
N為大於1的正整數)。在由甲基化陣列所產生的資料檔案F_1、……、F_o中,甲基化程度被稱為一
值。接著,處理器13可藉由對導入的資料檔案F_1、……、F_o進行預處理來獲得第一資料集D1_1、……、D1_q,此過程通常包含品質控制、正規化及離群值(outlier)移除。
現提供一關於品質控制的具體範例。在此具體範例中,符合以下任一標準的探針會被排除:(1)在至少一個樣本中偵測值為
的探針,(2)在至少5%的樣本中磁珠計數(bead count)小於3的探針,(3)靶向非CpG位置的探針,(4)靶向單核苷酸多態性(single nucleotide polymorphism;SNP)位點的探針,(5)與多個位置對齊的探針,以及(6)位於X及Y染色體上的探針。在前述品質控制之後,僅對應至剩餘探針的甲基化位點被保留在導入的資料檔案中。
現提供關於正規化(normalization)的數個具體範例。由於甲基化陣列採用兩種不同類型的探針設計(即, Infinium 1型探針設計及Infinium 2型探針設計),因此上述導入的資料檔案中的甲基化程度存在偏差,是以,需要進行正規化來調整偏差。舉例而言,可使用β-混合分位數正規化(beta-mixture quantile normalization;BMIQ)、陣列內子集分位數正規化(subset-quantile within array normalization;SWAN)、基於峰值的校正(peak-based correction;PBC)或函數正規化(Functional normalization;FunNorm)。
現提供關於離群值移除的一具體範例。經過前述品質控制及正規化處理過後的導入資料檔案被區分為一正常主體群組(normal subject group)及一疾病主體群組(disease subject group)。正常主體群組包含與無目標疾病的主體相關的導入資料檔案,而疾病主體群組包含與患有目標疾病的主體相關的導入資料檔案。針對正常主體群組及疾病主體群組中每一主體群組的每個甲基化位點,採用四分位數間距(Interquartile Range;IQR)方法消除離群值。本發明所屬技術領域中具有通常知識者應熟悉IQR方法,故於本文中不再予以贅述。藉由移除離群值,正常主體群組及疾病主體群組中每一主體群組的每個甲基化位點的甲基化程度的分布呈一集中形式(concentrated form)。如此一來,可避免主要生物標記選擇期間的雜訊干擾。
經由前述品質控制、正規化及離群值移除處理後的導入資料檔案即為第一資料集D1_1、……、D1_q。需說明者,上述具體範例並非用以限制用於獲得第一資料集D1_1、……、D1_q的方法。在一些其他實施方式中,第一資料集D1_1、……、D1_q可自其他來源並藉由其他方法獲得,只要第一資料集D1_1、……、D1_q中的每一個包含對應至複數個甲基化位點的複數個甲基化程度即可。
主要生物標記選擇
如上所述,處理器13藉由根據記錄在第一資料集D1_1、……、D1_q中的甲基化程度自記錄在第一資料集D1_1、……、D1_q中的甲基化位點中識別出複數個可鑑別位點來決定複數個主要生物標記PB_1、……、PB_m。該等可鑑別位點為記錄在第一資料集D1_1、……、D1_q中的甲基化位點中較具可識別性的位點。
在一些實施方式中,對於各該甲基化位點,處理器13基於該甲基化位點的一平均甲基化程度差異或/及該甲基化位點的一p值來判斷該甲基化位點是否可被選為一可鑑別位點。一甲基化位點的平均甲基化程度差異反映出來自疾病主體的甲基化位點的甲基化程度偏離來自正常主體的甲基化位點的甲基化程度的幅度。一甲基化位點的p值為關於該甲基化位點與目標疾病相關此一虛無假設的一統計量測值。具體而言,處理器13自記錄在第一資料集D1_1、……、D1_q中的該等甲基化位點中選擇具有以下特徵的甲基化位點作為可鑑別位點:(i)符合一第一預設條件的平均甲基化程度差異(例如:平均甲基化程度差異大於一第一預設門檻值)或/及(ii)符合一第二預設條件的p值(例如:p值小於一第二預設門檻值)。該等可鑑別位點被決定為主要生物標記PB_1、……、PB_m。
現針對上述平均甲基化程度差異進行詳細說明。在一些實施方式中,第一資料集D1_1、……、D1_q被區分為一正常主體群組及一疾病主體群組。此即,正常主體群組中的各第一資料集與無目標疾病的一主體相關,而疾病主體群組中的各第一資料集與患有目標疾病的一主體相關。在該些實施方式中,處理器13藉由執行以下運作(a)及(b)來獲得一甲基化位點的平均甲基化程度差異。
在運作(a)中,處理器13根據正常主體群組中對應至該甲基化位點的該等甲基化程度來計算一平均正常值。在一具體範例中,平均正常值為正常主體群組中的該甲基化位點其甲基化程度的平均值,其可由以下方程式(1)表示:
(1)
在上述方程式(1)中,
代表平均正常值,
代表正常主體群組中的第
i個主體其對應至該甲基化位點的甲基化程度,且
n代表正常主體群組中的主體的數目(即,正常主體群組中,與該甲基化位點對應的甲基化程度的數目)。
在運作(b)中,處理器13根據平均正常值及來自疾病主體群組的該甲基化位點所對應的該等甲基化程度來計算平均甲基化程度差異。在一具體範例中,平均甲基化程度差異為複數個個別甲基化程度差異的平均值,其可由以下方程式(2)表示:
(2)
在上述方程式(2)中,
代表平均甲基化程度差異,
代表疾病主體群組中的第
j個主體其對應至該甲基化位點的甲基化程度,
表代表平均正常值,且
m代表疾病主體群組中主體的數目(即,疾病主體群組中,與該甲基化位點對應的甲基化程度的數目)。此外,值
代表個別甲基化程度差異。
前述用於獲得主要生物標記PB1、……、PB_m的方法已實施於數種目標疾病,其相關資訊及資料羅列於表1中。需說明者,來自TCGA的資料檔案之日期為2021年3月15日,而來自基因表達綜合(Gene Expression Omnibus;GEO)資料庫的資料檔案之日期為2021年10月30日。在表1中,變數
代表無目標疾病的主體的數目,且變數
代表患有目標疾病的主體的數目。
表 1
目標疾病 | 第一資料庫 | 主要生物標記的數目 | ||
大腸癌 | TCGA | 38/314 | 0.5 | 214,088 |
肺癌 | TCGA | 42/370 | 0.45 | 320,395 |
肝癌 | TCGA | 50/380 | 0.4 | 260,808 |
胰腺癌 | TCGA | 10/185 | 0.35 | 212,524 |
前列腺癌 | TCGA | 50/503 | 0.45 | 287,206 |
乳癌 | TCGA | 50/430 | 0.4 | 297,978 |
卵巢癌 | GEO | 7/114 | 0.55 | 123,796 |
食道癌 | TCGA | 16/186 | 0.45 | 154,709 |
胃癌 | TCGA | 2/395 | 0.35 | 10,470 |
第二資料集
在一些實施方式中,甲基化生物標記選擇裝置1經由甲基化生物標記選擇裝置1的一收發介面(未繪示)自一第二資料庫中獲得第二資料集D2_1、……、D2_r。舉例而言,第二資料庫可為包含複數個匿名電子病歷(electronic medical records;EMRs)的任何電子病歷資料庫(例如:台灣的全民健康保險研究資料庫(Taiwan’s National Health Insurance Research Database;NHIRD))。
儲存在第二資料庫中的病歷與複數個主體相關。患有目標疾病的主體被選擇作為一實驗組,而無目標疾病的主體被選擇作為一對照組。可藉由匹配年齡組及性別的方式來隨機地選擇對照組中的主體使其為實驗組中的主體的五倍。對於對照組,擷取每一主體的病歷。對於實驗組,擷取每一主體在一預定時間間隔(例如:首次診斷出目標疾病之前的3年、4年或5年)內的病歷。針對所有擷取到的病歷進行資料清理及整合,以產生第二資料集D2_1、……、D2_r,使得第二資料集D2_1、……、D2_r中的每一個對應至一個主體,且同一主體的病歷被包含在一個第二資料集中。
第二資料集D2_1、……、D2_r中的每一病歷具有一主體的診斷資訊。若一主體已被診斷患有一或多種疾病,則對應的病歷將記錄所診斷的疾病。需說明者,本發明未限制記錄所診斷的疾病的方式。在一些實施方式中,所診斷的疾病為一特定疾病,且可被記錄為遵循國際疾病分類(International Classification of Diseases;ICD)的一疾病代碼。在一些實施方式中,所診斷的疾病為一疾病群組,且可被記錄為遵循ICD的一疾病群組代碼。
在一些實施方式中,疾病代碼可為來自「國際疾病分類,第九修訂版,臨床修改(International Classification of Diseases, Ninth Revision, Clinical Modification,ICD-9-CM)」的代碼。在ICD-9-CM中已列出超過1,000種疾病,其如表2所示含有17個主要章節,且進一步地被分類為分別包含若干疾病的各種疾病群組。以ICD-9-CM的第2章(即,腫瘤)為例,其具有11個疾病群組。
表 2
章節 | 疾病名稱 | 代碼 |
1 | 傳染病及寄生蟲病 | 001-139 |
2 | 腫瘤 | 140-239 |
3 | 內分泌、營養及代謝疾病以及免疫疾病 | 240-279 |
4 | 血液及造血器官疾病 | 280-289 |
5 | 精神障礙 | 290-319 |
6 | 神經系統及感覺器官疾病 | 320-389 |
7 | 循環系統疾病 | 390-459 |
8 | 呼吸系統疾病 | 460-519 |
9 | 消化系統疾病 | 520-579 |
10 | 泌尿生殖系統疾病 | 580-629 |
11 | 妊娠、分娩及產褥期併發症 | 630-679 |
12 | 皮膚及皮下組織疾病 | 680-709 |
13 | 肌肉骨骼系統及結締組織疾病 | 710-739 |
14 | 先天異常 | 740-759 |
15 | 源於週產期的某些病症 | 760-779 |
16 | 症狀、病徵及不明確的情況 | 780-799 |
17 | 受傷及中毒 | 800-999 |
前述用於獲得第二資料集D2_1、……、D2_r的方法已實施於數種目標疾病,其相關資訊及資料羅列於表3中。需說明者,源自NHIRD的資料集的日期為2016年1月29日。疾病代碼為基於ICD-9-CM的代碼。此外,變數
代表實驗組中主體的數目,且變數
代表對照組中主體的數目。
表 3
目標疾病 | 第二資料庫 | 疾病代碼 | ||
大腸癌 | NHIRD | 6293 | 30653 | 153/154 |
肺癌 | NHIRD | 3351 | 16460 | 162 |
肝癌 | NHIRD | 4532 | 21970 | 155 |
胰腺癌 | NHIRD | 637 | 3142 | 157 |
前列腺癌 | NHIRD | 2310 | 11320 | 185 |
乳癌 | NHIRD | 3465 | 17083 | 174 |
卵巢癌 | NHIRD | 930 | 4596 | 183 |
食道癌 | NHIRD | 597 | 2971 | 150 |
胃癌 | NHIRD | 1116 | 5459 | 151 |
次要生物標記選擇
如上所述,處理器13藉由基於第二資料集D2_1、……、D2_r識別出目標疾病的複數個共病症及複數個關聯基因來決定複數個次要生物標記SB_1、……、SB_n。在一些實施方式中,處理器13自第二資料集D2_1、……、D2_r中識別出複數個不同診斷疾病,並藉由執行以下運作(c)、(d)及(e)來決定次要生物標記SB_1、……、SB_n。
在運作(c)中,處理器13針對各該不同診斷疾病計算表示與該目標疾病的關聯性的一關聯程度(association degree)。
在一些實施方式中,一診斷疾病與目標疾病之間的一關聯程度包含一勝算比、一p值及一支持率。對於該些實施方式,處理器13基於第二資料集D2_1、……、D2_r計算以下四個統計數字:(i)患有診斷疾病及目標疾病的主體的總數,其由變數
表示,(ii)患有診斷疾病但無目標疾病的主體的總數,其由變數
表示,(iii)無診斷疾病但患有目標疾病的主體的總數, 其由變數
表示,以及(iv)無診斷疾病且無目標疾病的主體的總數,其由變數
表示。利用此四個統計數字,處理器13可分別藉由以下方程式(3)及方程式(4)來計算勝算比及支持率:
(3)
(4)
需說明者,其他能夠反映兩種疾病之間的關聯性的指標亦可被採用為一關聯程度。舉例而言,在一些實施方式中,可使用一相對風險指標來作為一關聯程度。
在運作(d)中,從該等不同診斷疾病中,處理器13選擇關聯程度符合一第三預設條件的診斷疾病作為共病症。
針對一關聯程度包含一勝算比、一p值及一支持率的實施方式,第三預設條件包含分別針對勝算比、p值及支持率的三個子條件。作為一具體範例,所述三個子條件可為「勝算比大於2」、「p值小於0.05」以及「支持率大於10%」。
在運作(e)中,處理器13將對應至共病症的複數個基因決定為次要生物標記SB_1、……、SB_n。舉例而言,處理器13可經由甲基化生物標記選擇裝置1的一收發介面(未繪示)自一第三資料庫(例如:DisGeNET資料庫、線上人類孟德爾遺傳(Online Mendelian Inheritance in Man;OMIM)資料庫)擷取對應至共病症的基因。
已基於第三預設條件包含「勝算比大於2」、「p值小於0.05」以及「支持率大於10%」的條件下,將前述用於獲得次要生物標記SB_1、……、SB_n的方法實施於數種目標疾病。表4至表12羅列該等目標疾病的各種顯著共病症及相關資料。具體而言,表4係針對目標疾病「大腸癌」,表5係針對目標疾病「肺癌」,表6係針對目標疾病「肝癌」,表7係針對目標疾病「胰腺癌」,表8係針對目標疾病「前列腺癌」,表9係針對目標疾病「乳癌」,表10係針對目標疾病「卵巢癌」,表11係針對目標疾病「食道癌」,且表12係針對目標疾病「胃癌」。
表 4 (大腸癌的顯著共病症)
表 5 (肺癌的顯著共病症)
表 6 (肝癌的顯著共病症)
表 7 (胰腺癌的顯著共病症)
表 8 (前列腺癌的顯著共病症)
表 9 (乳癌的顯著共病症)
表 10 (卵巢癌的顯著共病症)
表 11 (食道癌的顯著共病症)
表 12 (胃癌的顯著共病症)
代碼 | 共病症 | 勝算比 | P 值 | 次要生物標記的數目 | ||||
578 | 胃腸道出血 | 717 | 987 | 5576 | 29666 | 3.864899722 | 1.10E-153 | 158 |
455 | 痔瘡 | 1257 | 2097 | 5036 | 28556 | 3.398979138 | 3.71E-218 | 33 |
564 | 未分類於他處的功能性消化障礙 | 3027 | 7911 | 3266 | 22742 | 2.664363719 | 8.56E-261 | 804 |
532 | 十二指腸潰瘍 | 638 | 1248 | 5655 | 29405 | 2.658242932 | 1.42E-82 | 120 |
536 | 胃功能紊亂 | 2539 | 7295 | 3754 | 23358 | 2.165602731 | 1.42E-156 | 118 |
533 | 消化性潰瘍部位不明 | 1871 | 5042 | 4422 | 25611 | 2.149209463 | 1.41E-129 | 168 |
789 | 涉及腹部及骨盆的其他症狀 | 2406 | 7028 | 3887 | 23625 | 2.080755957 | 3.51E-138 | 1025 |
代碼 | 共病症 | 勝算比 | P 值 | 次要生物標記的數目 | ||||
486 | 肺炎,有機體未明 | 534 | 748 | 2817 | 15712 | 3.981844379 | 1.88E-116 | 216 |
496 | 他處未分類的慢性氣道阻塞 | 458 | 766 | 2893 | 15694 | 3.243559903 | 3.17E-79 | 208 |
491 | 慢性支氣管炎 | 879 | 1638 | 2472 | 14822 | 3.217609386 | 8.51E-136 | 299 |
490 | 支氣管炎,未指明為急性或慢性 | 416 | 1031 | 2935 | 15429 | 2.121115604 | 2.11E-34 | 239 |
493 | 氣喘 | 541 | 1388 | 2810 | 15072 | 2.090606828 | 1.94E-41 | 2205 |
代碼 | 共病症 | 勝算比 | P 值 | 次要生物標記的數目 | ||||
571 | 慢性肝病及肝硬化 | 2582 | 2789 | 1950 | 19181 | 9.106350406 | 0 | 649 |
70 | 病毒性肝炎 | 1246 | 1090 | 3286 | 20880 | 7.26364281 | 0 | 1780 |
574 | 膽石病 | 456 | 665 | 4076 | 21305 | 3.584186177 | 7.59E-91 | 269 |
573 | 其他肝臟疾病 | 511 | 757 | 4021 | 21213 | 3.561172734 | 3.52E-100 | 1367 |
533 | 消化性潰瘍部位不明 | 1334 | 3144 | 3198 | 18826 | 2.497772542 | 3.84E-129 | 168 |
531 | 胃潰瘍 | 576 | 1357 | 3956 | 20613 | 2.211706815 | 2.55E-51 | 153 |
代碼 | 共病症 | 勝算比 | P 值 | 次要生物標記的數目 | ||||
577 | 胰腺疾病 | 91 | 23 | 546 | 3119 | 22.6014 | 3.13E-39 | 763 |
574 | 膽石病 | 101 | 96 | 536 | 3046 | 5.97882 | 9.49E-33 | 269 |
532 | 十二指腸潰瘍 | 101 | 142 | 536 | 3000 | 3.98098 | 1.77E-23 | 120 |
571 | 慢性肝病及肝硬化 | 246 | 434 | 391 | 2708 | 3.9257 | 1.15E-45 | 649 |
211 | 消化系統其他部位的良性腫瘤 | 68 | 95 | 569 | 3047 | 3.83306 | 4.30E-16 | 10169 |
533 | 消化性潰瘍部位不明 | 265 | 532 | 372 | 2610 | 3.49488 | 6.35E-41 | 168 |
531 | 胃潰瘍 | 129 | 241 | 508 | 2901 | 3.05673 | 7.13E-21 | 153 |
代碼 | 共病症 | 勝算比 | P 值 | 次要生物標記的數目 | ||||
600 | 前列腺增生症 | 1837 | 3542 | 473 | 7778 | 8.52839678 | 0 | 117 |
601 | 前列腺炎性疾病 | 350 | 393 | 1960 | 10927 | 4.965012723 | 5.09E-95 | 102 |
599 | 尿道及泌尿道的其他疾病 | 810 | 1765 | 1500 | 9555 | 2.923342776 | 2.75E-99 | 485 |
788 | 涉及泌尿系統的症狀 | 691 | 1624 | 1619 | 9696 | 2.548225049 | 2.51E-70 | 313 |
595 | 膀胱炎 | 257 | 591 | 2053 | 10729 | 2.272563036 | 1.37E-25 | 206 |
代碼 | 共病症 | 勝算比 | P 值 | 次要生物標記的數目 | ||||
217 | 乳房良性腫瘤 | 1211 | 747 | 2254 | 16336 | 11.74939094 | 0 | 10171 |
611 | 乳房的其他疾病 | 1869 | 1895 | 1596 | 15188 | 9.385724205 | 0 | 128 |
239 | 不明性質的腫瘤 | 355 | 291 | 3110 | 16792 | 6.586844344 | 1.69E-118 | 10206 |
610 | 良性乳腺發育不良 | 475 | 477 | 2990 | 16606 | 5.530559587 | 2.03E-140 | 174 |
代碼 | 共病症 | 勝算比 | P 值 | 次要生物標記的數目 | ||||
220 | 卵巢良性腫瘤 | 337 | 187 | 593 | 4409 | 13.3990405 | 3.20E-145 | 10170 |
620 | 卵巢輸卵管及闊韌帶的非炎症性疾病 | 234 | 170 | 696 | 4426 | 8.753245436 | 1.34E-88 | 5 |
617 | 子宮內膜異位 | 138 | 180 | 792 | 4416 | 4.274747475 | 5.57E-34 | 1242 |
218 | 子宮平滑肌瘤 | 194 | 398 | 736 | 4198 | 2.78024634 | 2.31E-26 | 10218 |
789 | 涉及腹部及骨盆的其他症狀 | 512 | 1582 | 418 | 3014 | 2.333621665 | 2.90E-31 | 1025 |
614 | 卵巢輸卵管盆腔細胞組織及腹膜的炎症性疾病 | 230 | 577 | 700 | 4019 | 2.288611042 | 5.47E-21 | 79 |
571 | 慢性肝病及肝硬化 | 123 | 321 | 807 | 4275 | 2.029844005 | 3.44E-10 | 649 |
代碼 | 共病症 | 勝算比 | P 值 | 次要生物標記的數目 | ||||
733 | 骨及軟骨的其他疾病 | 63 | 112 | 534 | 2859 | 3.011587079 | 1.99E-11 | 1203 |
627 | 更年期及絕經後疾病 | 93 | 210 | 504 | 2761 | 2.426048753 | 3.32E-11 | 10 |
530 | 食道疾病 | 129 | 309 | 468 | 2662 | 2.374616214 | 9.83E-14 | 1149 |
531 | 胃潰瘍 | 73 | 170 | 524 | 2801 | 2.29538617 | 1.89E-08 | 153 |
571 | 慢性肝病及肝硬化 | 133 | 371 | 464 | 2600 | 2.008783344 | 6.56E-10 | 649 |
533 | 消化性潰瘍部位不明 | 151 | 430 | 446 | 2541 | 2.000683074 | 1.17E-10 | 168 |
代碼 | 共病症 | 勝算比 | P 值 | 次要生物標記的數目 | ||||
531 | 胃潰瘍 | 360 | 444 | 756 | 5015 | 5.378592879 | 5.96E-96 | 153 |
578 | 胃腸道出血 | 153 | 187 | 963 | 5272 | 4.479184367 | 3.52E-39 | 158 |
533 | 消化性潰瘍部位不明 | 527 | 966 | 589 | 4493 | 4.161545167 | 4.14E-93 | 168 |
532 | 十二指腸潰瘍 | 157 | 241 | 959 | 5218 | 3.544606891 | 1.76E-31 | 120 |
285 | 其他及不明貧血 | 136 | 252 | 980 | 5207 | 2.867476514 | 4.98E-21 | 1055 |
536 | 胃功能紊亂 | 500 | 1385 | 616 | 4074 | 2.387594355 | 9.24E-38 | 118 |
535 | 胃炎及十二指腸炎 | 568 | 1715 | 548 | 3744 | 2.26276521 | 1.47E-34 | 232 |
候選生物標記選擇
在獲得主要生物標記PB_1、……、PB_m及次要生物標記SB_1、……、SB_n之後,處理器13基於主要生物標記PB_1、……、PB_m及次要生物標記SB_1、……、SB_n的一關聯分析而決定複數個候選生物標記CB_1、……、CB_k。在一些實施方式中,該關聯分析為主要生物標記與次要生物標記的交集(intersection)或聯集(union)。需說明者,在不同實施方式中可使用不同的關聯分析。
如上所述,主要生物標記PB_1、……、PB_m為關於一目標疾病的可鑑別位點,而次要生物標記SB_1、……、SB_n為對應至同一目標疾病的共病症的基因。因此,基於主要生物標記PB_1、……、PB_m及次要生物標記SB_1、……、SB_n的一關聯分析而決定的候選生物標記CB_1、……、CB_k提供令人滿意的結果。此即,可從候選生物標記CB_1、……、CB_k中找到對目標疾病而言為高度靈敏且高度特異的生物標記,且可將其用於關於目標疾病的進一步分析。
生物標記功能分群
不同的候選生物標記CB_1、……、CB_k代表不同的功能作用。如第4圖所示,在一些實施方式中,處理器13進一步地將候選生物標記CB_1、……、CB_k分群成複數個功能群組G_1、……、G_p。在第4圖中,每一黑點代表一個候選生物標記。同一功能群組內的候選生物標記在功能方面彼此接近(例如:調節相同的功能或相似的功能)。
基於基因距離的生物標記功能分群
在一些實施方式中,處理器13可基於候選生物標記CB_1、……、CB_k所能形成的每一配對的基因距離(gene distances),將候選生物標記CB_1、……、CB_k分群成功能群組G_1、……、G_p。需說明者,基因距離為能夠反映兩個基因之間在功能上的距離的值。
在一些實施方式中,可採用基因本體論(Gene Ontology;GO)的概念來計算基因距離。GO藉由複數個GO用語在一GO樹(GO tree)中描述基因功能,且GO用語被分類為包含生物過程(Biological Process;BP)、分子功能(Molecular Function;MF)以及細胞組成(Cellular Component;CC)的三個互補生物學概念。GO用語已妥善地註釋大多數人類基因的功能。在該些實施方式中,可參照一第四資料庫(例如:Ensembl版本104、Ensembl版本105、Ensembl版本106或Ensembl版本107),以至少一個GO用語對候選生物標記CB_1、……、CB_k的每一個進行註釋。
在該些實施方式中,處理器13計算候選生物標記CB_1、……、CB_k所能形成的每一配對的一基因距離。具體而言,處理器13可藉由以下運作(f)及(g)來計算一第一候選生物標記與一第二候選生物標記之間的一基因距離。
在運作(f)中,處理器13計算第一候選生物標記與第二候選生物標記之間的至少一個GO用語配對中的每一個的一GO用語距離(GO term distance)。需說明者,一GO用語距離為能夠反映二個GO用語之間在功能上的距離的值。
茲提供一具體範例以利了解。在此具體範例中,第一候選生物標記為基因「B3GNTL1」,且其被一GO用語「GO:0016757」註釋,而第二候選生物標記為基因「PLD5」,且其被三個GO用語「GO:0003824」、「GO:0008152」及「GO:0016021」註釋。在第一候選生物標記與第二候選生物標記之間可形成三個GO用語配對,包含(GO:0016757, GO:0003824)、(GO:0016757, GO:0008152)及(GO:0016757, GO:0016021)。處理器13針對所述三個GO用語配對的每一個計算一GO用語距離。
在運作(g)中,處理器13根據在運作(f)中獲得的GO用語距離來決定第一候選生物標記與第二候選生物標記之間的基因距離。在一些實施方式中,處理器13取該(等)GO用語距離的平均值作為第一候選生物標記與第二候選生物標記之間的基因距離。
為便於理解,茲延續前述具體範例詳細說明。對於第一候選生物標記「B3GNTL1」及第二候選生物標記「PLD5」,在運作(f)中已經計算出所述三個GO用語配對(GO:0016757, GO:0003824)、(GO:0016757, GO:0008152)及(GO:0016757, GO:0016021)各自的GO用語距離。因此,可藉由將三個GO用語距離進行平均來獲得第一候選生物標記「B3GNTL1」與第二候選生物標記「PLD5」之間的基因距離。
用於計算基因距離的
GO
用語距離
如上所述,一GO用語距離為能夠反映二個GO用語之間在功能上的距離的值。在一些實施方式中,處理器13基於對應的一資訊內容距離(information content distance)及對應的一Czekanowski-Dice距離(例如:對資訊內容距離及Czekanowski-Dice距離進行平均)來計算各GO用語距離。在計算資訊內容距離及Czekanowski-Dice距離之前,處理器13計算各GO用語的一權重值。一GO用語的權重值可被視為該GO用語在GO樹中所處位置的指標。
對於第
i個GO用語,其權重值被定義為由第
i個GO用語註釋的候選生物標記CB_1、……、CB_k的數目除以由所有GO用語註釋的非重複候選生物標記CB_1、……、CB_k的數目。相較於位於GO樹的較低層級的分支中的一GO用語,位於GO樹的較高層級中的一GO用語對應至更多的候選生物標記,且其對應的權重值相對地較高。
現提供二個具體範例,其假定70個候選生物標記由GO用語「GO:0016757」註釋,690個候選生物標記由GO用語「GO:0003824」註釋,且20,987個非重複候選生物標記由多個GO用語註釋。在該假定之下,GO用語「GO:0016757」的權重值約為0.003335(即,
),而GO用語「GO:0003824」的權重值約為0.032877(即,
)。
現詳述二個GO用語之間的資訊內容距離。若二個GO用語在GO樹中屬於不同的生物學概念,則它們之間的資訊內容距離被定義為1(即,代表最遠距離的一個值),因為它們不具有最低共用源始(Lowest Common Ancestor;LCA)。若二個GO用語在GO樹中屬於同一個生物學概念,則所述二個GO用語具有一或多個LCAs。若存在多於一個LCA,則選擇具有最低權重值的共同祖先。對於二個GO用語在GO樹中屬於同一個生物學概念的情形,該二個GO用語之間的資訊內容距離係基於該二個GO用語的權重值以及LCA的權重值來計算。任意二個GO用語的資訊內容距離的計算可由以下方程式(5)來表示。
(5)
在以上方程式(5)中,
代表第
i個GO用語,
代表第
j個GO用語,
代表第
i個GO用語與第
j個GO用語的LCA,
代表第
i個GO用語的權重值,
代表第
j個GO用語的權重值,
代表GO用語
的權重值,且
代表第
i個GO用語與第
j個GO用語之間的資訊內容距離。
現提供關於資訊內容距離的一具體範例。假定GO用語「GO:0016757」與GO用語「GO:0003824」具有權重值為0.036451的LCA。在此假定之下,GO用語「GO:0016757」與GO用語「GO:0003824」之間的資訊內容距離為0.03669(即,
)。
現詳述二個GO用語之間的Czekanowski-Dice距離。Czekanowski-Dice距離代表由二個GO用語註釋的候選生物標記的集合的相似性。假定
及
分別代表由第
i個GO用語及第
j個GO用語註釋的候選生物標記的集合。第
i個GO用語與第
j個GO用語之間的Czekanowski-Dice距離可基於以下方程式(6)來計算。
(6)
在上述方程式(6)中,
代表第
i個GO用語,
代表第
j個GO用語,
代表由第
i個GO用語註釋的候選生物標記的集合,
代表由第
j個GO用語註釋的候選生物標記的集合,且
代表第
i個GO用語與第
j個GO用語之間的Czekanowski-Dice距離。此外,
Δ
為集合
與集合
之間的對稱差(symmetrical difference),
為集合
與集合
的聯集,且
為集合
與集合
的交集。當第
i個GO用語與第
j個GO用語之間的獨特性候選生物標記(exclusive candidate biomarkers)的數目為高時,第
i個GO用語與第
j個GO用語之間的Czekanowski-Dice距離相對為大。
現提供關於Czekanowski-Dice距離的一具體範例。關於GO用語「GO:0016757」及GO用語「GO:0003824」,假定獨特性候選生物標記的數目為694,候選生物標記的聯集的數目係為694,且候選生物標記的交集的數目為0。在此種假定之下,GO用語「GO:0016757」與GO用語「GO:0003824」之間的Czekanowski-Dice距離為1。
用於生物標記功能分群的演算法
如上所述,在一些實施方式中,處理器13進一步地將候選生物標記CB_1、……、CB_k分群成功能群組G_1、……、G_p。
在一些實施方式中,處理器13採用一切割式分群(partition clustering)演算法(例如:K平均分群(K-means clustering)方法)來基於候選生物標記CB_1、……、CB_k所能形成的每一配對的基因距離將候選生物標記CB_1、……、CB_k分群成功能群組G_1、……、G_p。
表13至表21呈現使用K平均分群方法的數個具體範例的分群結果。具體而言,表13係針對目標疾病「大腸癌」,表14係針對目標疾病「肺癌」,表15係針對目標疾病「肝癌」,表16係針對目標疾病「胰腺癌」,表17係針對目標疾病「前列腺癌」,表18係針對目標疾病「乳癌」,表19係針對目標疾病「卵巢癌」,表20係針對目標疾病「食道癌」,且表21係針對目標疾病「胃癌」。在該等具體範例中,被分群的候選生物標記CB_1、……、CB_k為前述作為具體範例的主要生物標記PB_1、……、PB_m與前述作為具體範例的次要生物標記SB_1、……、SB_n的交集。
表 13 (針對目標疾病「大腸癌」的 K 平均分群結果)
表 14 (針對目標疾病「肺癌」的 K 平均分群結果)
表 15 (針對目標疾病「肝癌」的 K 平均分群結果)
表 16 (針對目標疾病「胰腺癌」的 K 平均分群結果)
表 17 (針對目標疾病「前列腺癌」的 K 平均分群結果)
表 18 (針對目標疾病「乳癌」的 K 平均分群結果)
表 19 (針對目標疾病「卵巢癌」的 K 平均分群結果)
表 20 (針對目標疾病「食道癌」的 K 平均分群結果)
表 21 (針對目標疾病「胃癌」的 K 平均分群結果)
K 平均 分群群組 | 候選生物標記的數目 | 代表性 KEGG 途徑 | 代表性 GO 用語 BP | 代表性 GO 用語 CC | 代表性 GO 用語 MF |
1 | 30 | 單純皰疹病毒1型感染 | 對自RNA聚合酶II啟動子的轉錄進行調節 | 核 | RNA聚合酶II轉錄因子活性,序列特異性DNA結合 |
2 | 65 | 耶爾森菌感染 | 對自RNA聚合酶II啟動子的轉錄進行正調節 | 染色質 | RNA聚合酶II轉錄因子活性,序列特異性DNA結合 |
3 | 42 | 神經活性配體-受體交互作用 | 鉀離子跨膜轉運 | 質膜 | 鉀通道活性 |
K 平均 分群群組 | 候選生物標記的數目 | 代表性 KEGG 途徑 | 代表性 GO 用語 BP | 代表性 GO 用語 CC | 代表性 GO 用語 MF |
1 | 17 | 癌症中的轉錄失調 | 對自RNA聚合酶II啟動子的轉錄進行調節 | 染色質 | RNA聚合酶II轉錄因子活性,序列特異性DNA結合 |
2 | 11 | 無 | 無 | 麩胺酸能突觸 | 無 |
3 | 40 | 趨化因子訊號傳遞路徑 | Wnt訊號傳遞路徑 | 高爾基膜 | 蛋白質自締合 |
4 | 8 | 無 | 無 | 無 | 無 |
5 | 52 | 調節幹細胞多能性的訊號傳遞路徑 | 對自RNA聚合酶II啟動子的轉錄進行調節 | 染色質 | RNA聚合酶II轉錄因子活性,序列特異性DNA結合 |
K 平均 分群群組 | 候選生物標記的數目 | 代表性 KEGG 途徑 | 代表性 GO 用語 BP | 代表性 GO 用語 CC | 代表性 GO 用語 MF |
1 | 57 | 癌症的途徑 | 對自RNA聚合酶II啟動子的轉錄進行正調節 | 核 | 序列特異性DNA結合 |
2 | 18 | 無 | 對鉀離子跨膜轉運進行調節 | 膜的完整組分 | 鈣離子結合 |
3 | 43 | 神經活性配體-受體交互作用 | 細胞黏附 | 質膜 | 鈣離子結合 |
4 | 58 | 鈣訊號傳遞路徑 | 炎症應答 | 質膜 | 蛋白結合 |
5 | 30 | 造血細胞譜系 | 轉錄調節,DNA模板 | 蛋白質細胞外基質 | 金屬離子結合 |
6 | 9 | 無 | 肽基絲胺酸磷酸化 | 細胞內 | 鋅離子結合 |
K 平均 分群群組 | 候選生物標記的數目 | 代表性 KEGG 途徑 | 代表性 GO 用語 BP | 代表性 GO 用語 CC | 代表性 GO 用語 MF |
1 | 28 | cAMP訊號傳遞路徑 | 對自RNA聚合酶II啟動子的轉錄進行調節 | 染色質 | RNA聚合酶II轉錄因子活性,序列特異性DNA結合 |
2 | 9 | 無 | 無 | 無 | 無 |
3 | 49 | 胰島素分泌 | 黏附連接組織 | 質膜 | 蛋白激酶C結合 |
4 | 18 | 無 | 對自RNA聚合酶II啟動子的轉錄進行調節 | 染色質 | RNA聚合酶II轉錄因子活性,序列特異性DNA結合 |
5 | 11 | 無 | 無 | 無 | 無 |
6 | 3 | 無 | 無 | 無 | 無 |
7 | 33 | 突觸囊泡循環 | 神經傳遞質分泌 | 質膜 | 鈣離子結合 |
K 平均 分群群組 | 候選生物標記的數目 | 代表性 KEGG 途徑 | 代表性 GO 用語 BP | 代表性 GO 用語 CC | 代表性 GO 用語 MF |
1 | 25 | 菸鹼酸鹽及菸鹼醯胺代謝 | 氧化還原過程 | 細胞外胞泌體 | 蛋白質同二聚活性 |
2 | 33 | 碳水化合物的消化及吸收 | 細胞外基質組織 | 質膜 | 鈣離子結合 |
3 | 15 | 無 | 無 | 細胞外胞泌體 | 無 |
4 | 26 | 癌症中的轉錄失調 | 自RNA聚合酶II啟動子的轉錄 | 胞液 | 蛋白結合 |
5 | 31 | 癌症的途徑 | 對自RNA聚合酶II啟動子的轉錄進行正調節 | 核 | DNA結合 |
K 平均 分群群組 | 候選生物標記的數目 | 代表性 KEGG 途徑 | 代表性 GO 用語 BP | 代表性 GO 用語 CC | 代表性 GO 用語 MF |
1 | 15 | 無 | 無 | 膜的完整組分 | 肌動蛋白結合 |
2 | 28 | 造血細胞譜系 | 抗原加工及呈遞,經由MHC類別Ib的外源性脂質抗原 | 蛋白質細胞外基質 | 鋅離子結合 |
3 | 78 | 癌症的途徑 | 對自RNA聚合酶II啟動子的轉錄進行正調節 | 核 | 轉錄因子活性,序列特異性DNA結合 |
4 | 76 | 鈣訊號傳遞路徑 | 轉錄,DNA模板 | 核 | 轉錄因子活性,序列特異性DNA結合 |
5 | 45 | 細胞黏附分子(CAM) | 細胞黏附 | 質膜 | 結構分子活性 |
K 平均分群群組 | 候選生物標記的數目 | 代表性 KEGG 途徑 | 代表性 GO 用語 BP | 代表性 GO 用語 CC | 代表性 GO 用語 MF |
1 | 3 | 無 | 無 | 無 | 無 |
2 | 61 | 病毒致癌作用 | 轉錄,DNA模板 | 核 | 蛋白結合 |
3 | 68 | 無 | 對神經元投射發育進行負調節 | 細胞質 | 相同蛋白結合 |
K 平均 分群群組 | 候選生物標記的數目 | 代表性 KEGG 途徑 | 代表性 GO 用語 BP | 代表性 GO 用語 CC | 代表性 GO 用語 MF |
1 | 31 | 神經活性配體-受體交互作用 | 細胞黏附 | 膜的完整組分 | 無 |
2 | 29 | 基底細胞癌 | 對自RNA聚合酶II啟動子的轉錄進行正調節 | 核 | DNA結合 |
3 | 19 | 無 | 轉錄,DNA模板 | 核 | DNA結合 |
4 | 23 | 癌症中的轉錄失調 | 轉錄,DNA模板 | 核 | 序列特異性DNA結合 |
5 | 48 | 神經活性配體-受體交互作用 | 對GTP酶活性進行正調節 | 質膜 | 受體結合 |
K 平均 分群群組 | 候選生物標記的數目 | 代表性 KEGG 途徑 | 代表性 GO 用語 BP | 代表性 GO 用語 CC | 代表性 GO 用語 MF |
1 | 36 | Ras訊號傳遞路徑 | 先天免疫反應 | 細胞內 | 金屬離子結合 |
2 | 68 | 癌症中的微小RNA | 對GTP酶活性進行正調節 | 細胞質 | 蛋白結合 |
3 | 44 | 癌症的途徑 | 對自RNA聚合酶II啟動子的轉錄進行負調節 | 核 | 轉錄因子活性,序列特異性DNA結合 |
4 | 36 | 無 | 細胞黏附 | 質膜 | 肌動蛋白絲結合 |
5 | 27 | 無 | 轉錄,DNA模板 | 核 | 蛋白結合 |
6 | 20 | 無 | 膜筏極化 | 膜的完整組分 | 髓鞘的結構成分 |
在一些實施例中,處理器13採用一階層分群(hierarchical clustering)演算法(例如:不加權算術平均連鎖法(unweighted pair-group method with arithmetic mean;UPGMA))來基於候選生物標記CB_1、……、CB_k所能形成的每一配對之間的基因距離而將候選生物標記CB_1、……、CB_k分群成功能群組G_1、……、G_p。
表22呈現使用UPGMA的數個具體範例的分群結果。在該等具體範例中,被分群的候選生物標記CB_1、……、CB_k為前述作為具體範例的主要生物標記PB_1、……、PB_m與前述作為具體範例的次要生物標記SB_1、……、SB_n的交集。
表 22 (九種目標疾病的 UPGMA 分群結果)
目標疾病 | UPGMA 分群群組 | 候選生物標記的數目 |
大腸癌 | 1 | 77 |
2 | 28 | |
3 | 31 | |
肺癌 | 1 | 24 |
2 | 104 | |
肝癌 | 1 | 106 |
2 | 109 | |
胰腺癌 | 1 | 94 |
2 | 54 | |
3 | 3 | |
前列腺癌 | 1 | 80 |
2 | 20 | |
3 | 29 | |
乳癌 | 1 | 166 |
2 | 73 | |
卵巢癌 | 1 | 106 |
2 | 23 | |
3 | 3 | |
食道癌 | 1 | 37 |
2 | 112 | |
胃癌 | 1 | 170 |
2 | 58 |
權重值計算及目標生物標記選擇
如上所述,不同的候選生物標記CB_1、……、CB_k代表不同的功能角色,且同一功能群組內的候選生物標記在功能上彼此接近。因此,為理解目標疾病與至少一類功能之間的關係,可對功能群組G_1、……、G_p的至少其中之一進行進一步研究。
在一些實施方式中,所有的功能群組G_1、……、G_p皆被進一步地研究。處理器13針對各功能群組G_1、……、G_p的各候選生物標記計算一權重值。一候選生物標記的權重值指出其在其所屬的功能群組中的重要性。在一功能群組中,權重值越高的候選生物標記對於該功能群組越具有代表性。
在一些實施例中,處理器13根據各功能群組G_1、……、G_p中的該等權重值自該等功能群組至少其中之一決定至少一個目標生物標記。如第4圖所示的具體範例,處理器13根據功能群組G_1中的候選生物標記的權重值,自功能群組G_1中決定二個目標生物標記Ta、Tb,但根據功能群組G_p中的候選生物標記的權重值,決定功能群組G_p未有任何目標生物標記。
處理器13可基於不同策略,根據各功能群組G_1、……、G_p中的該等權重值而自該等功能群組至少其中之一決定至少一個目標生物標記。在一些實施方式中,給定一功能群組,處理器13可選擇權重值大於一第三預設門檻值的候選生物標記作為目標生物標記。在一些實施方式中,處理器13可根據各功能群組G_1、……、G_p所對應的該等權重值,針對各功能群組G_1、……、G_p中的候選生物標記進行排序。對於該些實施方式,處理器13可根據對應的排序結果來決定各功能群組G_1、……、G_p的目標生物標記。
上述關於權重值計算及目標生物標記選擇的闡述係針對所有的功能群組G_1、……、G_p都會被進一步研究的情形。如前所述,僅針對功能群組G_1、……、G_p其中之一或其中一部分進一步研究亦為可行的。本發明所屬技術領域中具有通常知識者應能理解如何修改前述運作以適用於僅針對功能群組G_1、……、G_p其中之一或其中一部份進一步研究的情形,故不贅述。
用於權重值計算的遞迴神經網路
在一些實施方式中,處理器13執行一遞迴神經網路(recurrent neural network)M,且藉由遞迴神經網路M計算各功能群組G_1、……、G_p中的各候選生物標記的權重值。如第5圖所示,遞迴神經網路M為基於注意力(attention-based)的遞迴神經網路,且包含一編碼器(encoder)EN、一注意力機制(attention mechanism)AM及一解碼器(decoder)DE,其中注意力機制AM可為一雙層全連接網路。需說明者,遞迴神經網路M中僅有一個編碼器EN。儘管第5圖繪示出多於一個編碼器EN,但該等繪出的編碼器係用以表示編碼器EN執行了多次(詳述於後)。遞迴神經網路M可被訓練為能夠輸出關於一輸入的生物標記序列是否對應至患有目標疾病的一主體的預測P(詳述於後)。
在該些實施方式中,儲存器11儲存複數個候選生物標記序列D3_1、……、D3_s,其可經由甲基化生物標記選擇裝置1的收發介面(未繪示)自一第五資料庫擷取出。各候選生物標記序列D3_1、……、D3_s對應至候選生物標記CB_1、……、CB_k其中之一。候選生物標記序列D3_1、……、D3_s被區分為一正常主體群組及一疾病主體群組。正常主體群組包含與無目標疾病的主體相關的候選生物標記序列,而疾病主體群組包含與患有目標疾病的主體相關的候選生物標記序列。
在該些實施例中,處理器13藉由以下運作(h)、(i)、(j)、(k)及(l)來計算各功能群組G_1、……、G_p中的各候選生物標記的權重值。
在運作(h)中,處理器13藉由將對應至候選生物標記且屬於正常主體群組的候選生物標記序列輸入遞迴神經網路M以從注意力機制AM獲得複數個正常注意力權重值。
茲提供一具體範例以利了解。假定處理器13正在處理功能群組G_p,且功能群組G_p包含三個候選生物標記gp1、gp2、gp3。此外,假定包含在正常主體群組中的候選生物標記序列對應至
N個正常主體(即,
N個無目標疾病的主體),其中
N為正整數。對於
N個正常主體中的每一個,其分別對應至候選生物標記gp1、gp2、gp3的候選生物標記序列sg1、sg2、sg3被依序輸入至編碼器EN。如第5圖所示,編碼器EN因應於候選生物標記序列sg1而輸出一回饋向量ht1及一狀態向量hs1,因應於候選生物標記序列sg2及回饋向量ht1而輸出一回饋向量ht2及一狀態向量hs2,且因應於候選生物標記序列sg3及回饋向量ht2而輸出一回饋向量ht3及一狀態向量hs3。注意力機制AM因應於狀態向量hs1、hs2、hs3及回饋向量ht3而輸出正常注意力權重值aw1、aw2、aw3,其中正常注意力權重值aw1、aw2、aw3分別對應至候選生物標記gp1、gp2、gp3。在對所有
N個正常主體的候選生物標記序列進行處理後,即可獲得候選生物標記gp1、gp2、gp3各自的
N個正常注意力權重值。
儘管上述具體範例係針對功能群組G_p,但本發明所屬技術領域中具有通常知識者應理解可藉由相同的方法來獲得其餘的各功能群組的候選生物標記所對應的正常注意力權重值。因此,不再贅述其細節。
在運作(i)中,處理器13藉由將對應至候選生物標記且屬於疾病主體群組的候選生物標記序列輸入遞迴神經網路以從注意力機制AM獲得複數個疾病注意力權重值。運作(i)類似於運作(h),且二者間唯一的區別在於運作(i)係採用來自疾病主體群組的候選生物標記序列。本發明所屬技術領域中具有通常知識者可基於上述針對運作(h)的闡述來理解運作(i)的細節。
在運作(j)中,處理器13藉由將該等正常注意力權重值平均以計算出一平均正常權重值。以候選生物標記gp1為例,處理器13藉由將對應至候選生物標記gp1的該等正常注意力權重值平均來計算對應至候選生物標記gp1的平均正常權重值。需說明者,處理器13係針對各功能群組G_1、……、G_p中的各候選生物標記個別地計算一平均正常權重值。
在運作(k)中,處理器13藉由將該等疾病注意力權重值平均以計算出一平均疾病權重值。類似地,以候選生物標記gp1為例,處理器13藉由將對應至候選生物標記gp1的該等疾病注意力權重值平均來計算對應至候選生物標記gp1的平均疾病權重值。需說明者,處理器13係針對各功能群組G_1、……、G_p中的各候選生物標記個別地計算一平均疾病權重值。
在運作(l)中,處理器13根據平均正常權重值及平均疾病權重值來計算權重值。再次以候選生物標記gp1為例,處理器13根據候選生物標記gp1的平均正常權重值及候選生物標記gp1的平均疾病權重值來計算候選生物標記gp1的權重值。類似地,處理器13係針對各功能群組G_1、……、G_p中的各候選生物標記個別地計算一權重值。
使用遞迴神經網路M進行權重值計算的優點在於遞迴神經網路M擅長處理長資料序列。採用一傳統的神經網路(conventional neural network)模型通常會有缺乏足夠空間來儲存長資料序列的技術問題。遞迴神經網路M的注意力機制AM具有忽略不太重要的資料的能力。由於僅儲存更重要的資料,因此採用遞迴神經網路M進行權重值計算將不會面臨缺乏足夠空間來儲存資料此技術問題。
如上所述,遞迴神經網路M可被訓練為能輸出關於輸入的生物標記序列是否對應至患有目標疾病的一主體的預測P。在第5圖所示的具體範例(即,輸入的生物標記序列為候選生物標記序列sg1、sg2、sg3的具體範例)中,加權求和運算(weighted summation operation;OP)藉由利用正常注意力權重值aw1、aw2、aw3分別對狀態向量hs1、hs2、hs3進行加權再對其求和以產生一訊號,之後解碼器DE因應於來自加權求和運算OP的訊號來產生預測P。
候選生物標記驗證
在一些實施方式中,為達成更準確的結果,處理器13在進行生物標記功能分群之前會對候選生物標記CB_1、……、CB_k進行驗證,並排除那些驗證失敗的候選生物標記。候選生物標記驗證包含二個階段,所述二個階段包含最佳切點選擇(optimal cut-point selection)及候選生物標記篩選。
在第一階段中,處理器13藉由以下運作(m)、(n)、(o)及(p)而針對各候選生物標記CB_1、……、CB_k從複數個預設切點中決定一最佳切點。一候選生物標記的最佳切點可被視為用於判斷對應至此候選生物標記的甲基化程度是否嚴重的一門檻值。一預設切點可為介於0與甲基化程度的最大值之間的一個值。需說明者,本發明不限制預設切點的數目。然而,預設切點越多將使得最佳切點越精確。舉例而言,若甲基化程度的最大值為1,且需要99個預設切點,則可將99個預設切點的值設定為0.01、0.02、……及0.99。
在運作(m)中,處理器13根據第一資料集D1_1、……、D1_q的正常主體群組中對應至所關注的候選生物標記(例如:候選生物標記CB_1)的該等甲基化程度來計算一平均正常值。需說明者,若平均正常值已經被計算出(例如:已經執行前述運作(a)),則可省略運作(m)。
在運作(n)中,處理器13將記錄在第一資料集D1_1、……、D1_q中的與所關注的候選生物標記(例如:候選生物標記CB_1)對應的各該甲基化程度減去該平均正常值,藉此計算出複數個第一差值(difference values)。
在運作(o)中,處理器13根據對應至所關注的候選生物標記(例如:候選生物標記CB_1)的該等第一差值,針對各預設切點個別地產生一第一混淆矩陣(confusion matrix)。
茲提供一具體範例以利了解。相關於一所關注的候選生物標記(例如:候選生物標記CB_1)與一所關注的預設切點(例如:0.02)的第一混淆矩陣包含以下四個統計數字:(i)被預測為患有目標疾病且確實患有目標疾病的主體的總數,其由變數
表示,(ii)被預測為患有目標疾病但實際並未患有目標疾病的主體的總數,其由變數
表示,(iii)被預測為未患有目標疾病但確實患有目標疾病的主體的總數,其由變數
表示,以及(iv)被預測為未患有目標疾病且實際上亦未患有目標疾病的主體的總數,其由變數
表示。
對於一第一差值,若其大於所關注的預設切點(例如:0.02),則預測對應的主體患有目標疾病。此外,對應至一第一差值的一主體是否患有目標疾病為已知的,因為一第一差值係基於記錄在第一資料集D1_1、……、D1_q其中之一的一甲基化程度計算的,而第一資料集D1_1、……、D1_q的每一筆屬於正常主體群組或目標主體群組。
在運作(p)中,處理器13根據對應的該等第一混淆矩陣來選擇該等預設切點其中之一作為所關注的候選生物標記(例如:候選生物標記CB_1)的最佳切點。
對於一所關注的候選生物標記(例如:候選生物標記CB_1),在運作(o)中已產生各預設切點的一第一混淆矩陣。舉例而言,若存在99個預設切點,則會有99個第一混淆矩陣對應至所關注的候選生物標記。在一些實施方式中,對於各該第一混淆矩陣,處理器13可基於該第一混淆矩陣產生一靈敏度值(即,
)及一特異度值(即,
),再產生該靈敏度值與該特異度值的一彙總值。接著,處理器13選擇具有最大彙總值的預設切點作為所關注的候選生物標記的最佳切點。
現針對第二階段(即,候選生物標記篩選)詳細說明。為執行第二階段,儲存器11儲存複數個第三資料集D4_1、……、D4_t,且第三資料集D4_1、……、D4_t中的每一個包含對應至該等甲基化位點的複數個甲基化程度。甲基化生物標記選擇裝置1可經由甲基化生物標記選擇裝置1的一收發介面(未繪示)自一第六資料庫(例如:基因表達綜合(GEO)資料庫)獲得第三資料集D4_1、……、D4_t。
表23呈現用於九種目標疾病的第三資料集D4_1、……、D4_t的相關資訊的具體範例。需說明者,來自TCGA的資料檔案的日期為2021年3月15日,而來自GEO資料庫的資料檔案的日期為2021年10月30日。此外,變數
表示無目標疾病的主體的數目,且變數
表示有目標疾病的主體的數目。
表 23
目標疾病 | 第六資料庫 | / |
大腸癌 | GEO | 0/48 |
肺癌 | GEO | 19/164 |
肝癌 | GEO | 22/22 |
胰腺癌 | GEO | 29/167 |
前列腺癌 | GEO | 16/31 |
乳癌 | TCGA | 47/368 |
卵巢癌 | GEO | 10/10 |
食道癌 | GEO | 16/24 |
胃癌 | GEO | 12/12 |
處理器13藉由以下運作(q)、(r)、(s)及(t)來驗證候選生物標記CB_1、……、CB_k中的每一個。
在運作(q)中,處理器13藉由將第三資料集D4_1、……、D4_t中對應至該候選生物標記的各該甲基化程度減去該平均正常值來計算出複數個第二差值。
在運作(r)中,處理器13根據最佳切點及對應至該候選生物標記的該等第二差值來產生最佳切點的一第二混淆矩陣。類似地,第二混淆矩陣包含以下四個統計數字:(i)被預測為患有目標疾病且確實患有目標疾病的主體的總數,(ii)被預測為患有目標疾病但實際並未患有目標疾病的主體的總數,(iii)被預測為未患有目標疾病但確實患有目標疾病的主體的總數,以及(iv)被預測為未患有目標疾病且實際上亦未患有目標疾病的主體的總數。
在運作(s)中,處理器13根據第二混淆矩陣來產生一靈敏度值、一特異度值及一準確度值(即,預測正確的比率)。為更佳地理解,表24羅列九種目標疾病各自的候選生物標記的準確度值的統計數字。
表 24
目標疾病 | 候選生物標記的數目 | 前 10 名分類準確度平均值 | 前 20 名分類準確度平均值 | 總分類準確度平均值 |
大腸癌 | 141 | 0.933333 | 0.913542 | 0.8125 |
肺癌 | 135 | 0.933333 | 0.922677 | 0.759191 |
肝癌 | 222 | 0.659091 | 0.631818 | 0.539312 |
胰腺癌 | 156 | 0.960204 | 0.952296 | 0.85397 |
前列腺癌 | 131 | 0.993617 | 0.98617 | 0.907001 |
乳癌 | 246 | 0.934934 | 0.921928 | 0.836189 |
卵巢癌 | 135 | 0.97 | 0.955 | 0.739474 |
食道癌 | 157 | 0.95 | 0.9225 | 0.707643 |
胃癌 | 234 | 0.795833 | 0.76875 | 0.583511 |
在運作(t)中,處理器13根據準確度值及一第四預設門檻值來驗證候選生物標記。舉例而言,若一候選生物標記的準確度值低於第四預設門檻值,則排除該候選生物標記。
對於執行候選生物標記驗證的那些實施方式,僅通過驗證(即,未被排除)的候選生物標記將被進行功能分群。
第6圖繪示在本發明的一些實施方式中的甲基化生物標記選擇方法的主要流程圖。甲基化生物標記選擇方法適用於一電子裝置(例如:甲基化生物標記選擇裝置1)。該電子裝置儲存複數個第一資料集及複數個第二資料集,其中各該第一資料集包含對應至複數個甲基化位點的複數個甲基化程度,且各該第二資料集包含至少一病歷。該甲基化生物標記選擇方法包含以下步驟S601、S603及S605。
在步驟S601中,電子裝置根據該等第一資料集中的該等甲基化程度自該等甲基化位點中識別出複數個可鑑別位點,藉此決定複數個主要生物標記。在一些實施方式中,步驟S601包含以下步驟:從該等甲基化位點中選取滿足以下二個條件的至少其中之一者作為該等可鑑別位點:(i)具有符合一第一預設條件的一平均甲基化程度差異,以及(ii)具有符合一第二預設條件的一p值,其中該等可鑑別位點被決定為該等主要生物標記。
在步驟S603中,電子裝置基於該等第二資料集識別出一目標疾病的複數個共病症與複數個關聯基因,藉此決定複數個次要生物標記。在一些實施方式中,步驟S603包含以下步驟:針對複數個不同診斷疾病中的每一個計算一關聯程度以表示與該目標疾病的關聯性;從該等診斷疾病中選取滿足以下條件者作為該等共病症:該關聯程度符合一第三預設條件;以及將對應至該等共病症的複數個基因決定為該等次要生物標記。在一些實施例中,各該不同診斷疾病的該關聯程度包含一勝算比、一p值及一支持率。
在步驟S605中,電子裝置基於該等主要生物標記及該等次要生物標記的一關聯分析而決定複數個候選生物標記。需說明者,本發明未限制步驟S601及S603的執行順序。在一具體範例中,步驟S603可在步驟S601之前執行。在另一具體範例中,步驟S601與步驟S603可同時執行。
第7圖描繪在本發明的一些實施方式中的甲基化生物標記選擇方法的主要流程圖。在該些實施方式中,除了步驟S601、S603及S605之外,甲基化生物標記選擇方法更包含以下步驟S707、S709及S711。
在步驟S707中,電子裝置將該等候選生物標記分群為複數個功能群組。在一些實施方式中,步驟S707基於該等候選生物標記所能形成的每一配對的基因距離而將候選生物標記分群為功能群組。在該些實施方式中,步驟S707包含計算至少一個基因距離的步驟,而該步驟更包含以下步驟:計算一第一候選生物標記與一第二候選生物標記之間的至少一個GO用語配對的每一配對的一GO用語距離;以及根據該至少一GO用語距離決定該第一候選生物標記與該第二候選生物標記之間的該基因距離。在一些實施例中,各該GO用語距離係基於一資訊內容距離及一Czekanowski-Dice距離而計算。
在步驟S709中,電子裝置針對各該功能群組中的各該候選生物標記計算一權重值。在一些實施方式中,電子裝置執行包含一編碼器、一注意力機制及一解碼器的遞迴神經網路,且步驟S709由該遞迴神經網路達成。在該些實施方式中,複數個候選生物標記序列中的每一個屬於一正常主體群組或一疾病主體群組,各該候選生物標記序列對應至該等候選生物標記其中之一,且步驟S709包含如第8圖所示的步驟S801、S803、S805、S807及S809。
在步驟S801中,電子裝置藉由將對應至該候選生物標記且屬於該正常主體群組的該等候選生物標記序列輸入該遞迴神經網路以從該注意力機制獲得複數個正常注意力權重值。在步驟S803中,電子裝置藉由將對應至該候選生物標記且屬於該疾病主體群組的該等候選生物標記序列輸入該遞迴神經網路以從該注意力機制獲得複數個疾病注意力權重值。在步驟S805中,電子裝置藉由將該等正常注意力權重值平均以計算出一平均正常權重值。在步驟S807中,電子裝置藉由將該等疾病注意力權重值平均以計算出一平均疾病權重值。在步驟S809中,電子裝置根據該平均正常權重值及該平均疾病權重值計算出該權重值。需說明者,步驟S801、S803、S805及S807可以其他順序執行,只要步驟S801在步驟S803之前且步驟S805在步驟S807之前即可。
在步驟S711中,電子裝置根據各該功能群組中的該等權重值自該等功能群組至少其中之一中決定至少一個目標生物標記。在一些實施方式中,甲基化生物標記選擇方法更包含針對各該功能群組,根據對應的該等權重值排序對應的該等候選生物標記。在該些實施方式中,步驟S711可根據各該功能群組的排序結果自該等功能群組至少其中之一中決定該至少一個目標生物標記。
除了前述步驟之外,本發明所提供的甲基化生物標記選擇方法還可執行甲基化生物標記選擇裝置1所能執行的所有運作及步驟,具有與甲基化生物標記選擇裝置1相同的功能,且實現與甲基化生物標記選擇裝置1相同的技術效果。基於對甲基化生物標記選擇裝置1的上述闡釋,本發明所屬技術領域中具有通常知識者即能理解本發明所提供的甲基化生物標記選擇方法如何執行該等運作及步驟以具有與甲基化生物標記選擇裝置1相同的功能且實現與甲基化生物標記選擇裝置1相同的技術效果,故不再贅述。
上述實施方式中闡述的甲基化生物標記選擇方法可被實施為包含複數個程式指令的電腦程式。電腦程式儲存在一非暫態電腦可讀取儲存媒體中。在將電腦程式的程式指令載入一電子裝置(例如:甲基化生物標記選擇裝置1)後,電腦程式執行上述實施方式中的甲基化生物標記選擇方法。非暫態電腦可讀取儲存媒體可為一電子產品,例如:一唯讀記憶體(Read Only Memory;ROM)、一快閃記憶體、一軟磁碟、一硬磁碟、一光碟(Compact Disk;CD)、一數位多功能光碟(Digital Versatile Disc;DVD)、一行動磁碟、一可經由網路存取的資料庫或者具有相同功能且為本發明所屬技術領域中具有通常知識者所知的任何其他儲存媒體。
大腸癌目標生物標記的臨床驗證
為證實候選生物標記在臨床環境中的效用,使用自福馬林固定的石蠟包埋(formalin-fixed, paraffin-embedded;FFPE)腫瘤組織樣本中提取的DNA、利用甲基化特異性聚合酶鏈反應(Polymerase Chain Reaction;PCR)策略來完成對大腸癌的該等候選生物標記的臨床驗證。以大腸癌為例,自141個候選生物標記中選擇出10個目標生物標記,並為每一目標生物標記設計對應的定量甲基化特異性PCR(quantitative methylation-specific PCR,qMSP)引子。首先,使用市售的人類甲基化及非甲基化DNA標準品(Zymo research,類別(Cat.)#D5014)來測試引子效能並建立校準曲線,用於隨後評估臨床樣本中的甲基化程度。
接著,選擇99個臨床FFPE樣本,其包含跨越9種癌症類型的18個正常組織及81個腫瘤組織,以確定在各種癌症樣本中大腸癌的該等所選擇的10個目標生物標記的甲基化程度。使用EZ DNA Methylation-Lightning
TM試劑盒(Zymo research,Cat. #D5031)並遵循製造商的說明手冊對所提取的DNA進行亞硫酸氫鹽轉化。最後,對經亞硫酸氫鹽轉化的DNA進行qMSP測試,以使用校準曲線進一步地決定其甲基化程度。
第9圖及表25至表33呈現所有結果。在第9圖中,「CRC」代表大腸癌,「LC」代表肺癌,「BC」代表乳癌,「EC」代表食道癌,「GC」代表胃癌,「HCC」代表肝細胞癌,「OV」代表卵巢癌,「Pan」代表胰腺癌,且「Pros」代表前列腺癌。此外,表25係針對「大腸癌」,表26係針對「肺癌」,表27係針對「乳癌」,表28係針對「食道癌」,表29係針對「胃癌」,表30係針對「肝細胞癌」,表31係針對「卵巢癌」,表32係針對「胰腺癌」,且表33係針對「前列腺癌」。
結果顯示,相較於正常組織,在大腸癌腫瘤組織中大腸癌的目標生物標記的甲基化程度顯著上調(up-regulated)。此外,ADHFE1、PLD5及NRG1在胃癌(GC)、食道癌(EC)及胰腺癌(Pan)中具有較高的甲基化程度。相較之下,MMP23B基因的甲基化程度似乎在每種測試的癌症類型中皆有所升高。
表 25 (大腸癌的臨床驗證結果)
表 26 (肺癌的臨床驗證結果)
表 27 (乳癌的臨床驗證結果)
表 28 (食道癌的臨床驗證結果)
表 29 (胃癌的臨床驗證結果)
表 30 (肝細胞癌的臨床驗證結果)
表 31 (卵巢癌的臨床驗證結果)
表 32 (胰腺癌的臨床驗證結果)
表 33 (前列腺癌的臨床驗證結果)
組織 狀態 | n | 四分位數 | ADHFE1 | ADARB2 | EFS | ADAMTS5 | MMP23B | PLD5 | MIR129-2 | IRF4 | NRG1 | KCNQ5 |
正常 | 5 | 最大值 | 14.4% | 0.9% | 7.3% | 21.1% | 15.8% | 6.5% | 22.6% | 0.0% | 56.2% | 3.1% |
Q3 | 8.2% | 0.4% | 2.1% | 6.4% | 12.0% | 3.8% | 6.3% | 0.0% | 7.8% | 0.0% | ||
中位數 | 3.2% | 0.4% | 0.9% | 3.8% | 4.0% | 1.0% | 3.6% | 0.0% | 3.2% | 0.0% | ||
Q1 | 0.9% | 0.1% | 0.7% | 2.4% | 1.8% | 0.4% | 0.4% | 0.0% | 2.7% | 0.0% | ||
最小值 | 0.7% | 0.0% | 0.0% | 1.8% | 1.7% | 0.0% | 0.1% | 0.0% | 1.6% | 0.0% | ||
腫瘤 | 15 | 最大值 | 476.1% | 228.9% | 183.1% | 264.0% | 163.4% | 214.0% | 163.3% | 153.7% | 421.9% | 652.2% |
Q3 | 234.8% | 48.1% | 44.0% | 83.7% | 88.0% | 54.5% | 70.4% | 20.9% | 98.0% | 146.7% | ||
中位數 | 147.7% | 21.8% | 9.4% | 62.8% | 66.2% | 29.6% | 42.5% | 9.3% | 65.9% | 53.2% | ||
Q1 | 83.0% | 5.2% | 5.9% | 21.9% | 33.2% | 12.4% | 25.8% | 2.2% | 46.6% | 12.3% | ||
最小值 | 10.5% | 0.0% | 0.0% | 8.0% | 1.0% | 0.0% | 1.8% | 0.0% | 19.6% | 0.0% |
組織狀態 | n | 四分位數 | ADHFE1 | ADARB2 | EFS | ADAMTS5 | MMP23B | PLD5 | MIR129-2 | IRF4 | NRG1 | KCNQ5 |
正常 | 2 | 最大值 | 0.0% | 0.3% | 0.0% | 0.0% | 5.8% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% |
Q3 | 0.0% | 0.2% | 0.0% | 0.0% | 4.5% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | ||
中位數 | 0.0% | 0.1% | 0.0% | 0.0% | 3.2% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | ||
Q1 | 0.0% | 0.1% | 0.0% | 0.0% | 2.0% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | ||
最小值 | 0.0% | 0.0% | 0.0% | 0.0% | 0.7% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | ||
腫瘤 | 7 | 最大值 | 50.2% | 5.9% | 10.8% | 2.5% | 197.4% | 1.4% | 25.9% | 3.1% | 1.7% | 0.9% |
Q3 | 1.6% | 0.4% | 2.5% | 1.8% | 122.2% | 0.6% | 11.4% | 0.0% | 1.3% | 0.0% | ||
中位數 | 0.9% | 0.0% | 0.8% | 0.4% | 33.3% | 0.4% | 3.2% | 0.0% | 0.9% | 0.0% | ||
Q1 | 0.4% | 0.0% | 0.3% | 0.1% | 24.1% | 0.1% | 1.8% | 0.0% | 0.3% | 0.0% | ||
最小值 | 0.0% | 0.0% | 0.0% | 0.0% | 1.6% | 0.0% | 0.3% | 0.0% | 0.0% | 0.0% |
組織狀態 | n | 四分位數 | ADHFE1 | ADARB2 | EFS | ADAMTS5 | MMP23B | PLD5 | MIR129-2 | IRF4 | NRG1 | KCNQ5 |
正常 | 1 | 最大值 | 0.0% | 0.0% | 0.2% | 0.1% | 4.7% | 0.8% | 0.3% | 0.0% | 0.0% | 0.4% |
Q3 | 0.0% | 0.0% | 0.2% | 0.1% | 4.7% | 0.8% | 0.3% | 0.0% | 0.0% | 0.4% | ||
中位數 | 0.0% | 0.0% | 0.2% | 0.1% | 4.7% | 0.8% | 0.3% | 0.0% | 0.0% | 0.4% | ||
Q1 | 0.0% | 0.0% | 0.2% | 0.1% | 4.7% | 0.8% | 0.3% | 0.0% | 0.0% | 0.4% | ||
最小值 | 0.0% | 0.0% | 0.2% | 0.1% | 4.7% | 0.8% | 0.3% | 0.0% | 0.0% | 0.4% | ||
腫瘤 | 9 | 最大值 | 244.8% | 177.2% | 21.4% | 72.4% | 135.3% | 56.2% | 105.3% | 107.1% | 135.6% | 16.1% |
Q3 | 1.2% | 1.4% | 0.5% | 3.4% | 59.2% | 3.3% | 51.6% | 8.2% | 23.3% | 0.8% | ||
中位數 | 0.5% | 0.4% | 0.3% | 1.0% | 42.9% | 1.2% | 19.0% | 0.5% | 2.1% | 0.3% | ||
Q1 | 0.3% | 0.0% | 0.1% | 0.7% | 23.5% | 0.0% | 5.6% | 0.0% | 0.5% | 0.0% | ||
最小值 | 0.0% | 0.0% | 0.0% | 0.0% | 16.6% | 0.0% | 0.4% | 0.0% | 0.0% | 0.0% |
組織狀態 | n | 四分位數 | ADHFE1 | ADARB2 | EFS | ADAMTS5 | MMP23B | PLD5 | MIR129-2 | IRF4 | NRG1 | KCNQ5 |
腫瘤 | 10 | 最大值 | 135.8% | 245.6% | 65.6% | 135.0% | 105.7% | 149.0% | 96.8% | 148.3% | 356.7% | 46.3% |
Q3 | 98.7% | 31.1% | 44.7% | 73.3% | 58.9% | 59.1% | 51.7% | 24.5% | 108.8% | 8.7% | ||
中位數 | 50.1% | 10.4% | 11.3% | 34.8% | 33.6% | 25.4% | 39.3% | 7.5% | 40.5% | 4.3% | ||
Q1 | 6.1% | 0.7% | 2.7% | 13.2% | 25.0% | 2.1% | 11.7% | 0.6% | 9.3% | 0.0% | ||
最小值 | 0.0% | 0.0% | 0.1% | 0.0% | 6.7% | 0.0% | 0.1% | 0.0% | 0.0% | 0.0% |
組織狀態 | n | 四分位數 | ADHFE1 | ADARB2 | EFS | ADAMTS5 | MMP23B | PLD5 | MIR129-2 | IRF4 | NRG1 | KCNQ5 |
正常 | 1 | 最大值 | 0.3% | 0.0% | 0.1% | 0.2% | 6.1% | 0.0% | 0.1% | 0.0% | 0.1% | 0.0% |
Q3 | 0.3% | 0.0% | 0.1% | 0.2% | 6.1% | 0.0% | 0.1% | 0.0% | 0.1% | 0.0% | ||
中位數 | 0.3% | 0.0% | 0.1% | 0.2% | 6.1% | 0.0% | 0.1% | 0.0% | 0.1% | 0.0% | ||
Q1 | 0.3% | 0.0% | 0.1% | 0.2% | 6.1% | 0.0% | 0.1% | 0.0% | 0.1% | 0.0% | ||
最小值 | 0.3% | 0.0% | 0.1% | 0.2% | 6.1% | 0.0% | 0.1% | 0.0% | 0.1% | 0.0% | ||
腫瘤 | 9 | 最大值 | 229.6% | 91.9% | 122.0% | 118.2% | 119.4% | 95.5% | 96.8% | 55.9% | 234.0% | 68.6% |
Q3 | 155.4% | 46.6% | 61.2% | 95.8% | 97.8% | 67.2% | 73.0% | 21.6% | 161.9% | 42.4% | ||
中位數 | 46.4% | 19.2% | 17.6% | 65.6% | 52.8% | 17.6% | 58.9% | 5.1% | 86.1% | 15.9% | ||
Q1 | 10.9% | 0.3% | 8.9% | 41.9% | 28.1% | 3.8% | 37.7% | 1.7% | 56.5% | 12.1% | ||
最小值 | 1.4% | 0.1% | 2.0% | 17.2% | 13.9% | 2.0% | 12.6% | 0.5% | 2.8% | 1.2% |
組織狀態 | n | 四分位數 | ADHFE1 | ADARB2 | EFS | ADAMTS5 | MMP23B | PLD5 | MIR129-2 | IRF4 | NRG1 | KCNQ5 |
正常 | 2 | 最大值 | 0.2% | 0.2% | 0.1% | 0.8% | 12.9% | 0.2% | 0.0% | 0.0% | 1.1% | 0.1% |
Q3 | 0.2% | 0.2% | 0.1% | 0.6% | 12.1% | 0.1% | 0.0% | 0.0% | 0.9% | 0.0% | ||
中位數 | 0.1% | 0.1% | 0.0% | 0.4% | 11.3% | 0.1% | 0.0% | 0.0% | 0.6% | 0.0% | ||
Q1 | 0.1% | 0.1% | 0.0% | 0.2% | 10.4% | 0.0% | 0.0% | 0.0% | 0.4% | 0.0% | ||
最小值 | 0.0% | 0.0% | 0.0% | 0.0% | 9.6% | 0.0% | 0.0% | 0.0% | 0.1% | 0.0% | ||
腫瘤 | 8 | 最大值 | 11.8% | 0.2% | 0.7% | 2.1% | 87.2% | 1.1% | 34.5% | 3.4% | 24.6% | 0.2% |
Q3 | 1.5% | 0.0% | 0.4% | 1.0% | 60.8% | 0.1% | 5.6% | 1.7% | 2.8% | 0.0% | ||
中位數 | 0.1% | 0.0% | 0.3% | 0.5% | 35.7% | 0.0% | 2.7% | 0.1% | 1.5% | 0.0% | ||
Q1 | 0.0% | 0.0% | 0.1% | 0.0% | 18.8% | 0.0% | 2.0% | 0.0% | 0.9% | 0.0% | ||
最小值 | 0.0% | 0.0% | 0.0% | 0.0% | 17.2% | 0.0% | 0.0% | 0.0% | 0.2% | 0.0% |
組織狀態 | n | 四分位數 | ADHFE1 | ADARB2 | EFS | ADAMTS5 | MMP23B | PLD5 | MIR129-2 | IRF4 | NRG1 | KCNQ5 |
正常 | 2 | 最大值 | 0.0% | 0.0% | 0.2% | 0.3% | 1.9% | 0.0% | 0.4% | 0.2% | 0.4% | 0.0% |
Q3 | 0.0% | 0.0% | 0.1% | 0.2% | 1.9% | 0.0% | 0.3% | 0.1% | 0.4% | 0.0% | ||
中位數 | 0.0% | 0.0% | 0.1% | 0.1% | 1.8% | 0.0% | 0.2% | 0.1% | 0.4% | 0.0% | ||
Q1 | 0.0% | 0.0% | 0.0% | 0.1% | 1.8% | 0.0% | 0.1% | 0.0% | 0.4% | 0.0% | ||
最小值 | 0.0% | 0.0% | 0.0% | 0.0% | 1.8% | 0.0% | 0.0% | 0.0% | 0.4% | 0.0% | ||
腫瘤 | 8 | 最大值 | 135.1% | 17.7% | 107.0% | 0.0% | 112.4% | 0.1% | 86.7% | 14.1% | 103.9% | 42.0% |
Q3 | 30.2% | 0.4% | 51.9% | 0.0% | 97.9% | 0.0% | 22.8% | 0.5% | 4.4% | 0.0% | ||
中位數 | 0.1% | 0.0% | 0.2% | 0.0% | 78.7% | 0.0% | 1.1% | 0.0% | 0.3% | 0.0% | ||
Q1 | 0.0% | 0.0% | 0.0% | 0.0% | 54.3% | 0.0% | 0.1% | 0.0% | 0.1% | 0.0% | ||
最小值 | 0.0% | 0.0% | 0.0% | 0.0% | 24.9% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% |
組織狀態 | n | 四分位數 | ADHFE1 | ADARB2 | EFS | ADAMTS5 | MMP23B | PLD5 | MIR129-2 | IRF4 | NRG1 | KCNQ5 |
正常 | 1 | 最大值 | 0.3% | 0.4% | 0.7% | 0.8% | 44.5% | 0.6% | 0.1% | 0.0% | 0.4% | 0.0% |
Q3 | 0.3% | 0.4% | 0.7% | 0.8% | 44.5% | 0.6% | 0.1% | 0.0% | 0.4% | 0.0% | ||
中位數 | 0.3% | 0.4% | 0.7% | 0.8% | 44.5% | 0.6% | 0.1% | 0.0% | 0.4% | 0.0% | ||
Q1 | 0.3% | 0.4% | 0.7% | 0.8% | 44.5% | 0.6% | 0.1% | 0.0% | 0.4% | 0.0% | ||
最小值 | 0.3% | 0.4% | 0.7% | 0.8% | 44.5% | 0.6% | 0.1% | 0.0% | 0.4% | 0.0% | ||
腫瘤 | 9 | 最大值 | 159.3% | 49.6% | 85.0% | 127.9% | 122.1% | 82.2% | 273.2% | 59.4% | 161.8% | 5.3% |
Q3 | 1.7% | 15.2% | 27.0% | 30.0% | 112.1% | 47.2% | 50.6% | 5.4% | 105.3% | 3.6% | ||
中位數 | 0.0% | 4.5% | 5.1% | 21.1% | 36.7% | 28.3% | 44.0% | 2.9% | 89.4% | 0.0% | ||
Q1 | 0.0% | 0.1% | 0.1% | 11.0% | 29.5% | 0.8% | 15.4% | 0.0% | 31.9% | 0.0% | ||
最小值 | 0.0% | 0.0% | 0.0% | 0.0% | 15.4% | 0.0% | 0.0% | 0.0% | 0.3% | 0.0% |
組織狀態 | n | 四分位數 | ADHFE1 | ADARB2 | EFS | ADAMTS5 | MMP23B | PLD5 | MIR129-2 | IRF4 | NRG1 | KCNQ5 |
正常 | 4 | 最大值 | 0.5% | 0.1% | 1.8% | 0.7% | 4.4% | 0.0% | 0.2% | 0.1% | 0.6% | 0.4% |
Q3 | 0.2% | 0.0% | 1.0% | 0.6% | 3.1% | 0.0% | 0.1% | 0.0% | 0.5% | 0.4% | ||
中位數 | 0.1% | 0.0% | 0.6% | 0.3% | 2.7% | 0.0% | 0.0% | 0.0% | 0.3% | 0.3% | ||
Q1 | 0.0% | 0.0% | 0.4% | 0.1% | 2.4% | 0.0% | 0.0% | 0.0% | 0.1% | 0.2% | ||
最小值 | 0.0% | 0.0% | 0.3% | 0.0% | 1.6% | 0.0% | 0.0% | 0.0% | 0.0% | 0.0% | ||
腫瘤 | 6 | 最大值 | 234.5% | 0.1% | 258.1% | 84.8% | 94.2% | 1.7% | 143.2% | 17.8% | 80.6% | 401.1% |
Q3 | 24.5% | 0.0% | 154.3% | 8.2% | 77.5% | 0.1% | 43.2% | 1.4% | 16.2% | 61.3% | ||
中位數 | 0.5% | 0.0% | 70.4% | 0.3% | 52.0% | 0.0% | 12.9% | 0.0% | 3.8% | 32.1% | ||
Q1 | 0.1% | 0.0% | 37.5% | 0.1% | 21.1% | 0.0% | 3.2% | 0.0% | 0.1% | 1.0% | ||
最小值 | 0.0% | 0.0% | 29.9% | 0.0% | 6.5% | 0.0% | 1.7% | 0.0% | 0.0% | 0.3% |
需說明者,本發明專利說明書及申請專利範圍中的某些用語(例如:資料集、資料庫、預設條件、預設門檻值、候選生物標記、差值、混淆矩陣)前被冠以「第一」、「第二」、「第三」、「第四」、「第五」或「第六」等用語,該等「第一」、「第二」、「第三」、「第四」、「第五」及「第六」係用以區隔該等用語彼此不同。若未特別說明該等用語間具有順序,或前後文無法看出該等用語間具有順序,則該等用語的順序不受所冠以的「第一」、「第二」、「第三」、「第四」、「第五」或「第六」所限制。
此外,需說明者,前述正常主體及正常主體群組在不同的實施方式中可具有不同的含義。舉例而言,若甲基化生物標記選擇裝置或方法旨在找出特定種族的候選生物標記或/及目標生物標記,則前述正常主體及正常主體群組可縮小至與屬於該特定種族且無目標疾病的主體相關。
綜上所述,本發明所提供的甲基化生物標記選擇技術(至少包含甲基化生物標記選擇裝置及方法)利用兩種不同類型的資料集(即,該等第一資料集及該等第二資料集)來發現與一目標疾病相關的候選生物標記。該等第一資料集包含各種甲基化位點的甲基化程度,而第二資料集包含病歷。藉由利用第一資料集,本發明能識別出可鑑別位點作為與目標疾病相關的主要生物標記。藉由利用第二資料集,本發明能識別出目標疾病的共病症及其關聯基因以提供與目標疾病相關的次要生物標記。由於本發明一併地考量目標疾病的甲基化程度與共病症,因此本發明的甲基化生物標記選擇技術可提供對目標疾病具有高靈敏度及高特異性的候選生物標記。此外,由於候選生物標記係基於主要生物標記與次要生物標記的一關聯分析而決定的,因此本發明可提供足夠數量的候選生物標記。
本申請案主張於2021年9月28日提出申請的美國臨時專利申請案第63/261,780號的優先權,該美國臨時專利申請案的全部內容以引用方式併入本文中。
上述各實施方式係用以例示性地說明本發明的部分實施態樣,以及闡釋本發明的技術特徵,而非用來限制本發明的保護範疇及範圍。任何本發明所屬技術領域中具有通常知識者可輕易完成的改變或均等性的安排均屬於本發明所主張的範圍,本發明的權利保護範圍以申請專利範圍為準。
1:甲基化生物標記選擇裝置
11:儲存器
13:處理器
AM:注意力機制
aw1、aw2、aw3:正常注意力權重值
CB_1、CB_k:候選生物標記
D1_1、D1_q:第一資料集
D2_1、D2_r:第二資料集
D3_1、D3_s:候選生物標記序列
D4_1、D4_t:第三資料集
DE:解碼器
EN:編碼器
F_1、F_o:資料檔案
G_1、G_p:功能群組
hs1、hs2、hs3:狀態向量
ht1、ht2、ht3:回饋向量
gp1、gp2、gp3:候選生物標記
M:遞迴神經網路
OP:加權求和運算
P:預測
PB_1、PB_m:主要生物標記
S601、S603、S605:步驟
S707、S709、S711:步驟
S801、S803、S805、S807、S809:步驟
SB_1、SB_n:次要生物標記
sg1、sg2、sg3:候選生物標記序列
Ta、Tb:目標生物標記
第1圖例示在本發明的一些實施方式中的甲基化生物標記選擇裝置1的示意圖。
第2圖例示基於甲基化程度及與一目標疾病相關的共病症來找出候選生物標記的概括資料處理流程。
第3圖例示在本發明的一些實施方式中用於獲得第一資料集D1_1、……、D1_q的資料處理流程。
第4圖例示在本發明的一些實施方式中用於權重值計算及目標生物標記選擇的資料處理流程。
第5圖例示在本發明的一些實施方式中使用的一實例性遞迴神經網路的示意圖。
第6圖例示在本發明的一些實施方式中甲基化生物標記選擇方法的主要流程圖。
第7圖例示在本發明的一些實施方式中甲基化生物標記選擇方法的主要流程圖。
第8圖例示在本發明的一些實施方式中步驟S709的主要流程圖。
第9圖例示目標生物標記的臨床驗證的實例性結果。
無
S601、S603、S605:步驟
Claims (18)
- 一種甲基化生物標記選擇裝置,包含: 一儲存器,儲存複數個第一資料集與複數個第二資料集,其中各該第一資料集包含對應至複數個甲基化位點的複數個甲基化程度,且各該第二資料集包含至少一病歷;以及 一處理器,電性連接至該儲存器,且執行以下運作: (a) 根據該等甲基化程度從該等甲基化位點中識別出複數個可鑑別位點,藉此決定複數個主要生物標記, (b) 基於該等第二資料集識別出一目標疾病的複數個共病症與複數個關聯基因,藉此決定複數個次要生物標記,以及 (c) 基於該等主要生物標記及該等次要生物標記的一關聯分析而決定複數個候選生物標記。
- 如請求項1所述的甲基化生物標記選擇裝置,其中該處理器更執行以下運作: (d) 將該等候選生物標記分群為複數個功能群組, (e) 針對各該功能群組中的各該候選生物標記計算一權重值,以及 (f) 根據各該功能群組中的該等權重值,從該等功能群組中的至少一個決定至少一目標生物標記。
- 如請求項1所述的甲基化生物標記選擇裝置,其中該處理器係藉由執行以下運作以決定該等主要生物標記: 從該等甲基化位點中選取滿足以下二個條件的至少其中之一者作為該等可鑑別位點:(i)具有符合一第一預設條件的一平均甲基化程度差異,以及(ii)具有符合一第二預設條件的一p值, 其中,該等可鑑別位點被決定為該等主要生物標記。
- 如請求項1所述的甲基化生物標記選擇裝置,其中該處理器係藉由執行以下運作以決定該等次要生物標記: 針對複數個不同診斷疾病中的每一個,計算一關聯程度以表示與該目標疾病的關聯性, 從該等診斷疾病中選取滿足以下條件者作為該等共病症:該關聯程度符合一第三預設條件,以及 將對應至該等共病症的複數個基因決定為該等次要生物標記。
- 如請求項4所述的甲基化生物標記選擇裝置,其中各該不同診斷疾病的該關聯程度包含一勝算比、一p值及一支持率。
- 如請求項2所述的甲基化生物標記選擇裝置,其中該處理器更藉由執行以下運作以計算至少一基因距離: 計算一第一候選生物標記與一第二候選生物標記之間的至少一基因本體用語配對的每一配對的一基因本體用語距離,以及 根據該至少一基因本體用語距離決定該第一候選生物標記與該第二候選生物標記之間的該基因距離。
- 如請求項6所述的甲基化生物標記選擇裝置,其中各該基因本體用語距離係基於一資訊內容距離及一Czekanowski-Dice距離而計算。
- 如請求項2所述的甲基化生物標記選擇裝置,其中該處理器更執行一遞迴神經網路,該遞迴神經網路包含一編碼器、一注意力機制及一解碼器,複數個候選生物標記序列中的每一個屬於一正常主體群組及一疾病主體群組其中之一,各該候選生物標記序列對應至該等候選生物標記其中之一,且該處理器係藉由執行以下運作以計算各該功能群組中的各該候選生物標記的該權重值: 藉由將對應至該候選生物標記且屬於該正常主體群組的該等候選生物標記序列輸入該遞迴神經網路以從該注意力機制獲得複數個正常注意力權重值, 藉由將對應至該候選生物標記且屬於該疾病主體群組的該等候選生物標記序列輸入該遞迴神經網路以從該注意力機制獲得複數個疾病注意力權重值, 藉由將該等正常注意力權重值平均以計算出一平均正常權重值, 藉由將該等疾病注意力權重值平均以計算出一平均疾病權重值,以及 根據該平均正常權重值及該平均疾病權重值計算出該權重值。
- 如請求項2所述的甲基化生物標記選擇裝置,其中針對各該功能群組,該處理器還根據對應的該等權重值排序對應的該等候選生物標記。
- 一種甲基化生物標記選擇方法,適用於一電子裝置,該電子裝置儲存複數個第一資料集與複數個第二資料集,各該第一資料集包含對應至複數個甲基化位點的複數個甲基化程度,各該第二資料集包含至少一病歷,且該甲基化生物標記選擇方法包含下列步驟: (a) 根據該等甲基化程度從該等甲基化位點中識別出複數個可鑑別位點,藉此決定複數個主要生物標記; (b) 基於該等第二資料集識別出一目標疾病的複數個共病症與複數個關聯基因,藉此決定複數個次要生物標記;以及 (c) 基於該等主要生物標記及該等次要生物標記的一關聯分析而決定複數個候選生物標記。
- 如請求項10所述的甲基化生物標記選擇方法,更包含下列步驟: (d) 將該等候選生物標記分群為複數個功能群組; (e) 針對各該功能群組中的各該候選生物標記計算一權重值;以及 (f) 根據各該功能群組中的該等權重值,從該等功能群組中的至少一個決定至少一目標生物標記。
- 如請求項10所述的甲基化生物標記選擇方法,其中該步驟(a)包含下列步驟: 從該等甲基化位點中選取滿足以下二個條件的至少其中之一者作為該等可鑑別位點:(i)具有符合一第一預設條件的一平均甲基化程度差異,以及(ii)具有符合一第二預設條件的一p值; 其中,該等可鑑別位點被決定為該等主要生物標記。
- 如請求項10所述的甲基化生物標記選擇方法,其中該步驟(b)包含下列步驟: 針對複數個不同診斷疾病中的每一個,計算一關聯程度以表示與該目標疾病的關聯性; 從該等診斷疾病中選取滿足以下條件者作為該等共病症:該關聯程度符合一第三預設條件;以及 將對應至該等共病症的複數個基因決定為該等次要生物標記。
- 如請求項13所述的甲基化生物標記選擇方法,其中各該不同診斷疾病的該關聯程度包含一勝算比、一p值及一支持率。
- 如請求項11所述的甲基化生物標記選擇方法,更包含下列步驟: 計算至少一基因距離,包含下列步驟: 計算一第一候選生物標記與一第二候選生物標記之間的至少一基因本體用語配對的每一配對的一基因本體用語距離;以及 根據該至少一基因本體用語距離決定該第一候選生物標記與該第二候選生物標記之間的該基因距離。
- 如請求項15所述的甲基化生物標記選擇方法,其中各該基因本體用語距離係基於一資訊內容距離及一Czekanowski-Dice距離而計算。
- 如請求項11所述的甲基化生物標記選擇方法,其中該電子裝置更執行一遞迴神經網路,該遞迴神經網路包含一編碼器、一注意力機制及一解碼器,複數個候選生物標記序列中的每一個屬於一正常主體群組及一疾病主體群組其中之一,各該候選生物標記序列對應至該等候選生物標記其中之一,且該步驟(e)包含下列步驟: 藉由將對應至該候選生物標記且屬於該正常主體群組的該等候選生物標記序列輸入該遞迴神經網路以從該注意力機制獲得複數個正常注意力權重值; 藉由將對應至該候選生物標記且屬於該疾病主體群組的該等候選生物標記序列輸入該遞迴神經網路以從該注意力機制獲得複數個疾病注意力權重值; 藉由將該等正常注意力權重值平均以計算出一平均正常權重值; 藉由將該等疾病注意力權重值平均以計算出一平均疾病權重值;以及 根據該平均正常權重值及該平均疾病權重值計算出該權重值。
- 如請求項11所述的甲基化生物標記選擇方法,更包含下列步驟: 針對各該功能群組,根據對應的該等權重值排序對應的該等候選生物標記。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163261780P | 2021-09-28 | 2021-09-28 | |
US63/261,780 | 2021-09-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202331734A true TW202331734A (zh) | 2023-08-01 |
TWI832443B TWI832443B (zh) | 2024-02-11 |
Family
ID=85780474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111135959A TWI832443B (zh) | 2021-09-28 | 2022-09-22 | 甲基化生物標記選擇裝置及方法 |
Country Status (2)
Country | Link |
---|---|
TW (1) | TWI832443B (zh) |
WO (1) | WO2023052917A1 (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014046198A1 (ja) * | 2012-09-19 | 2014-03-27 | シスメックス株式会社 | 肝細胞癌に関する情報の取得方法、ならびに肝細胞癌に関する情報を取得するためのマーカーおよびキット |
KR20230145530A (ko) * | 2012-09-20 | 2023-10-17 | 더 차이니즈 유니버시티 오브 홍콩 | 혈장으로부터 태아 또는 종양 메틸롬의 비침습적 결정 |
CN104745575B (zh) * | 2014-08-08 | 2019-03-12 | 博诚研究中心 | 用于检测细胞增殖性异常或疾病程度分级的基因组合物及其用途 |
US20180166170A1 (en) * | 2016-12-12 | 2018-06-14 | Konstantinos Theofilatos | Generalized computational framework and system for integrative prediction of biomarkers |
CN107025387B (zh) * | 2017-03-29 | 2020-09-18 | 电子科技大学 | 一种用于癌症生物标志物识别的方法 |
TWI672503B (zh) * | 2017-03-31 | 2019-09-21 | 行動基因生技股份有限公司 | 致免疫性之癌症特異抗原決定位的排名系統 |
CN111378754B (zh) * | 2020-04-23 | 2020-11-17 | 嘉兴市第一医院 | 基于tcga数据库的乳腺癌甲基化生物标志物及其筛选方法 |
CN112927757B (zh) * | 2021-02-24 | 2022-09-02 | 河南大学 | 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法 |
CN113355406B (zh) * | 2021-05-24 | 2022-08-30 | 北京大学第六医院 | 抗精神病药物疗效预测相关的甲基化生物标记 |
-
2022
- 2022-09-22 TW TW111135959A patent/TWI832443B/zh active
- 2022-09-22 WO PCT/IB2022/058985 patent/WO2023052917A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
TWI832443B (zh) | 2024-02-11 |
WO2023052917A1 (en) | 2023-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tabib et al. | Big data in IBD: big progress for clinical practice | |
US11043304B2 (en) | Systems and methods for using sequencing data for pathogen detection | |
US20200342958A1 (en) | Methods and systems for assessing inflammatory disease with deep learning | |
US20200232046A1 (en) | Genomic sequencing classifier | |
Rahmioglu et al. | Genetics of endometriosis | |
CA3140365A1 (en) | Systems and methods for multi-label cancer classification | |
KR20200143462A (ko) | 생물학적 샘플의 다중 분석물 검정을 위한 기계 학습 구현 | |
US20230114581A1 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
EP3924502A1 (en) | An integrated machine-learning framework to estimate homologous recombination deficiency | |
Vadapalli et al. | Artificial intelligence and machine learning approaches using gene expression and variant data for personalized medicine | |
Daya et al. | Using multi-way admixture mapping to elucidate TB susceptibility in the South African Coloured population | |
EP3658689B1 (en) | A method for non-invasive prenatal detection of fetal chromosome aneuploidy from maternal blood based on bayesian network | |
An et al. | “3G” trial: an RNA editing signature to guide gastric cancer chemotherapy | |
Zheng et al. | Epimix is an integrative tool for epigenomic subtyping using dna methylation | |
JP2022530088A (ja) | マイクロサテライト解析のための方法およびシステム | |
TW202331734A (zh) | 甲基化生物標記選擇裝置及方法 | |
Xu et al. | Identification of key genes and microRNAs for multiple sclerosis using bioinformatics analysis | |
Oh et al. | Identification of signature gene set as highly accurate determination of metabolic dysfunction-associated steatotic liver disease progression | |
US20240043935A1 (en) | Epigenetics analysis of cell-free dna | |
Wright et al. | Pre-pregnancy gene expression signatures are associated with subsequent improvement/worsening of rheumatoid arthritis during pregnancy | |
Kori et al. | A 19-Gene Signature of Serous Ovarian Cancer Identified by Machine Learning and Systems Biology: Prospects for Diagnostics and Personalized Medicine | |
Ni et al. | Unraveling the underlying pathogenic factors driving nonalcoholic steatohepatitis and hepatocellular carcinoma: an in-depth analysis of prognostically relevant gene signatures in hepatocellular carcinoma | |
Liu et al. | Construction of Immune Infiltration-Related LncRNA Signatures Based on Machine Learning for the Prognosis in Colon Cancer | |
Huang et al. | Identification of KRAS mutation-associated gut microbiota in colorectal cancer and construction of predictive machine learning model | |
Benetti | Identifying host genetics risk factors for COVID-19 from Exome Sequencing |