TW202028745A - 用於預測或診斷癌症之方法及系統 - Google Patents

用於預測或診斷癌症之方法及系統 Download PDF

Info

Publication number
TW202028745A
TW202028745A TW108137148A TW108137148A TW202028745A TW 202028745 A TW202028745 A TW 202028745A TW 108137148 A TW108137148 A TW 108137148A TW 108137148 A TW108137148 A TW 108137148A TW 202028745 A TW202028745 A TW 202028745A
Authority
TW
Taiwan
Prior art keywords
otu
human
classifier
samples
sample
Prior art date
Application number
TW108137148A
Other languages
English (en)
Inventor
寧 呂
一友 陳
Original Assignee
中國大陸商杭州諾輝健康科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中國大陸商杭州諾輝健康科技有限公司 filed Critical 中國大陸商杭州諾輝健康科技有限公司
Publication of TW202028745A publication Critical patent/TW202028745A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57419Specifically defined cancers of colon
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Analytical Chemistry (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Microbiology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Cell Biology (AREA)
  • Food Science & Technology (AREA)

Abstract

本發明提供評估癌症風險之方法、系統、組合物及套組。該等方法及系統包含產生衍生自有需要之人類個體所收集之樣本的操作分類單位(Operational Taxonomic Unit,OTU)概況,及執行受過訓練之機器學習分類器,以基於該OTU概況來預測該人類個體患有癌症之機率。此外,亦提供診斷及治療處於患有癌症之風險下之人類個體的方法。

Description

用於預測或診斷癌症之方法及系統
出於診斷及治療病況之目的,本發明係關於用於偵測個體內之結腸直腸癌(CRC)及其疾病進展狀態的組合物及方法。
微生物相(microbiota)已與不同的代謝疾病(18,24)相關聯,且近年來與結腸直腸癌及其他類型之癌症(3、13、14、21、27)有關。微生物相誘發之致癌作用可歸因於諸如由於黏膜障壁破裂(15)而導致之DNA損傷、β -連環蛋白信號傳導改變及促炎性途徑參與之機制。
由於宿主免疫系統之動態變化,基因型以及在贅生性過程之不同階段中之微生物相之變化,僅有限數目之微生物為人類所熟知為致癌的。舉例而言,根據國際癌症研究機構(International Agency for Cancer Research),如HPV及HBV之病毒及如幽門螺旋桿菌(Helicobacter pylori )之細菌可直接造成癌症進展。近年來,若干細菌之前致癌作用之機制已展現於小鼠模型中。在家族性腺瘤性息肉病中,與具有任一細菌(10)之單定殖(monocolonization)相比,具有遺傳性突變、pks+ 大腸桿菌(E.coli )及腸毒性脆弱類桿菌(B. fragilis ;ETBF)共定殖(cocolonization)之CRC案例增加了結腸腫瘤發生。由若干觀測結果表明與單定殖相比,共定殖增強:較高的總黏膜IL-17產生細胞量、針對與ETBF共定殖之小鼠中之pks +大腸桿菌具有特異性的糞便IgA反應增加、增加的黏膜黏附性pks +大腸桿菌以及藉由ETBF之黏液分解促進增強的pks +大腸桿菌移生,但單獨的黏液分解不足以促進pks +大腸桿菌結腸癌發生。此等觀測結果與偶發性CRC一致,其中ApcMin 小鼠(6)中之ETBF研究展示脆弱類桿菌毒素對結腸上皮細胞起作用,且涉及三個主要促炎性信號傳導路徑(NF-κB、Stat3及IL-17R),其共同地觸發骨髓細胞依賴性遠端結腸腫瘤發生。髓源性免疫抑制細胞(MDSC)之積累可限制效應T細胞積累,其繼而可導致無效的免疫療法(19)。在CRC之普遍細菌物種的另一研究(4)中,梭桿菌屬(Fusobacterium) 已展示在原發性及匹配轉移性腫瘤中持續存在且與其他革蘭氏陰性厭氧菌(Gram-negative anaerobes)共存,該等厭氧菌包括脆弱類桿菌(Bacteriodes fragilis )、多形類桿菌(Bacteriodes thetaiotaomicron )、中間普雷沃菌(Prevotella intermedia )以及生痰月形單胞菌(Selenomonas sputigena )。
儘管此等研究開始揭示某些細菌物種之腫瘤發生機制,但藉由所關注目標微生物之存在來直接診斷CRC仍然具有挑戰性,此係因為此等微生物亦存在於正常個體中且其中之一些可能不存在於所有癌症患者中(1)。一個此類最近的研究(13)使用qPCR直接評估存在或不存在三種癌症相關聯之標記物,攜帶pks 致病性島之clbA+細菌、afaC +擴散黏附大腸桿菌afa1操縱子及具核梭桿菌(Fusobacterium nucleatum )。使用238名個體之群組,研究展示單獨使用clbA +或具核梭桿菌(F. nucleatum )分別具有81.5%特異性、76.9%敏感度以及76.9%特異性及69.2%敏感度。然而合併兩者得到63.1%特異性及84.6%敏感度。然而,需要單獨之獨立測試資料集以驗證經報導之準確度。
使用對照研究以檢測患病與正常對照組之間的微生物相組成中之差異的替代性策略在預測疾病狀態中更有前景。Baxter等人(3)結合糞便免疫化學測試(FIT)及微生物相以預測CRC及腺瘤。然而,描述於Baxter中之方法使用有限數目之選定操作分類單位(OTU)作為用於預測之區分特徵。方法未在獨立群組中驗證,且並未處理諸如年齡及性別之干擾因素。因此,需要進一步改良。
因此,仍需要提高偵測及分類CRC及其早期階段之能力,用以在更佳的敏感度、特異性及準確度下更好地治療及管理疾病。
本發明提供用於將人類個體分類為患有結腸直腸癌(CRC)或為正常(NM)之方法。
本發明亦提供用於將人類個體分類為患有結腸直腸癌(CRC)、結腸直腸腺瘤(AD)或為正常(NM)之方法。
本發明進一步提供用於將人類個體分類為患有結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)或為正常之方法。
在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)或為正常(NM)之方法包含(a)獲得取自該人類個體之糞便樣本。在一些實施例中,該等方法進一步包含(b)產生步驟(a)中樣本之操作分類單位(OTU)概況。在一些實施例中,該等方法進一步包含(c)向受過訓練之機器學習分類器提供該OTU概況。在一些實施例中,該等方法進一步包含(d)執行該受過訓練之機器學習分類器以預測該人類個體患有結腸直腸癌或為正常之機率。
在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)、結腸直腸腺瘤(AD)或為正常(NM)之方法包含(a)獲得取自該人類個體之糞便樣本。在一些實施例中,該等方法進一步包含(b)產生步驟(a)中樣本之操作分類單位(OTU)概況。在一些實施例中,該等方法進一步包含(c)向受過訓練之機器學習分類器提供該OTU概況。在一些實施例中,該等方法進一步包含(d)執行該受過訓練之機器學習分類器以預測該人類個體患有結腸直腸癌、結腸直腸腺瘤或為正常之機率。
在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)或為正常之方法包含(a)獲得取自該人類個體之糞便樣本。在一些實施例中,該等方法進一步包含(b)產生步驟(a)中樣本之操作分類單位(OTU)概況。在一些實施例中,該等方法進一步包含(c)向受過訓練之機器學習分類器提供該OTU概況。在一些實施例中,該等方法進一步包含(d)執行該受過訓練之機器學習分類器以預測該人類個體患有結腸直腸癌、息肉、非晚期腺瘤、晚期腺瘤(AA)或為正常之機率。
在一些實施例中,如本文中所描述之方法為電腦輔助之方法。在一些實施例中,方法包含使用儲存電腦可執行指令之電腦可讀儲存裝置,在由電腦執行時,該等指令控制電腦執行本文所揭示之方法。
在一些實施例中,本文所描述之方法包含基於所測試之糞便樣本產生操作分類單位(OTU)概況之步驟。在一些實施例中,OTU概況藉由定序及定量存在於該樣本中之微生物核酸序列之高變區來產生。在一些實施例中,該等方法包含(1)擴增一或多個存在於該樣本中之微生物核酸序列之高變區。在一些實施例中,該高變區為16S rRNA區。在一些實施例中,該16S rRNA高變區為V3-V4高變區。在一些實施例中,該等方法進一步包含(2)定序所擴增之序列。在一些實施例中,該定序步驟包含使用高通量方法,諸如次世代定序(Next Generation Sequencing;NGS)方法。在一些實施例中,該等方法進一步包含(3)基於步驟(2)之定序結果產生存在於該糞便樣本中之獨特微生物序列清單以形成該OTU概況。在一些實施例中,該清單包含各獨特微生物序列之豐度資訊。
在一些實施例中,產生於本文所描述之方法中之OTU概況包含一或多個微生物核酸序列之表現圖譜,該等微生物核酸序列與SEQ ID NO.1-345中之共同序列具有至少80%、85%、90%、95%、96%、97%、98%、99%一致性或更多。
在一些實施例中,用於本文所描述之方法中之機器學習分類器選自由以下組成之群:決策樹分類器、K-最近相鄰分類器(KNN)、邏輯回歸分類器、最近相鄰分類器、神經網路分類器、高斯混合模型(Gaussian mixture model;GMM)、支援向量機(SVM)分類器、最近質心分類器、線性回歸分類器以及隨機森林分類器。在一些實施例中,該機器學習分類器為隨機森林分類器。
在一些實施例中,機器學習分類器在其用於本文所描述之方法之前已受過訓練。在一些實施例中,訓練方法包含使用參考資料集合。在一些實施例中,參考資料自帶有已知標記(例如,鑑別為患有某一癌性病況或為正常)之人類個體群收集。在一些實施例中,參考資料自包含經鑑別之結腸直腸癌人類患者及正常人類個體之人類個體群收集。在一些實施例中,參考資料自包含經鑑別之結腸直腸癌人類患者、結腸直腸腺瘤人類患者以及正常人類個體之人類個體群收集。在一些實施例中,參考資料自包含經鑑別之結腸直腸癌人類患者、息肉人類患者、非晚期腺瘤人類患者、晚期腺瘤人類患者以及正常人類個體之人類個體群收集。
在一些實施例中,用於訓練機器學習分類器之參考資料由電腦輔助之方法產生。在一些實施例中,方法包含(a)獲得作為訓練樣本之人類個體糞便樣本之集合。在一些實施例中,訓練樣本自結腸直腸癌人類患者及正常人類個體收集。在一些實施例中,糞便樣本自結腸直腸癌人類患者、結腸直腸腺瘤人類患者以及正常人類個體收集。在一些實施例中,糞便樣本自結腸直腸癌、息肉、非晚期腺瘤、晚期腺瘤以及正常人類個體收集。
在一些實施例中,對於集合中之各糞便樣本,可實施如下文所描述之方法以產生用於訓練機器學習分類器之參考資料集。在一些實施例中,該等方法包含(i)擴增該樣本中之細菌核酸序列之16S rRNA高變區。在一些實施例中,該等方法進一步包含(ii)定序所擴增之序列。在一些實施例中,該等方法進一步包含(iii)產生存在於該樣本中之獨特微生物序列之清單。在一些實施例中,該清單包含各獨特微生物序列之豐度資訊。在一些實施例中,該方法包含將獲得之該等獨特微生物序列清單分組以形成作為參考資料集之參考OTU矩陣。在一些實施例中,該參考矩陣包含各糞便樣本之各獨特微生物序列之豐度資訊。在一些實施例中,該豐度資訊為各樣本中之各獨特微生物序列之相關豐度,諸如各獨特微生物序列在各樣本中之存在機率。
在一些實施例中,在參考OTU矩陣用於訓練機器學習分類器之前,將其標準化,使得各樣本之序列豐度之總和相同。在一些實施例中,各樣本之序列豐度之總和設定為預定數字,諸如整數。在一些實施例中,該整數約為1至1,000,000,諸如1,000至10,000、10,000至100,000、100,000至1,000,000或更多。在一些實施例中,整數為50,000。
在一些實施例中,參考OTU矩陣藉由經由特徵選擇來減少OTU之數目而簡化。在一些實施例中,該特徵選擇用以移除訓練樣本中之低豐度OTU。在一些實施例中,低豐度OTU為相關豐度小於0.05%、0.04%、0.03%、0.02%、0.01%或甚至更小之彼等OTU。
在一些實施例中,機器學習分類器為隨機森林分類器。在一些實施例中,該隨機森林之超參數使用交叉驗證方法來微調。在一些實施例中,該等待微調之超參數包含樹之數目、用於樹之各分枝的最大特徵之數目以及每片樹葉的最小樣本。
在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)或為正常(NM)之方法的準確度為至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多。
在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)、結腸直腸腺瘤(AD)或為正常(NM)之方法的準確度為至少60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多。
在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)或為正常之方法的準確度為至少45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多。
在一些實施例中,機器學習分類器自動判定OTU概況中與某一所關注之病況相關聯的大部分相關OTU之清單。在一些實施例中,該OTU概況包含一或多個選自由以下組成之群的OTU:
Otu 附注
Otu101 d:細菌,p:擬桿菌門(Bacteroidetes),c:擬桿菌綱(Bacteroidia),o:擬桿菌目(Bacteroidales),f:普雷沃菌科(Prevotellaceae),g:普雷沃氏菌屬(Prevotella),s:中間普雷沃氏菌(Prevotella_intermedia)   
Otu169 d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:卟啉單胞菌科(Porphyromonadaceae),g:卟啉單胞菌屬(Porphyromonas)   
Otu172 d:細菌,p:厚壁菌門(Firmicutes),c:梭菌綱(Clostridia),o:梭菌目(Clostridiales),f:消化鏈球菌科(Peptostreptococcaceae),g:消化鏈球菌屬(Peptostreptococcus),s:口消化鏈球菌(Peptostreptococcus_stomatis)   
Otu121 d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:擬桿菌科,g:擬桿菌屬(Bacteroides),S:諾迪擬桿菌(Bacteroides_nordii)   
Otu185 d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌屬未定地位XI (Clostridiales_Incertae_Sedis_XI),g:微單胞菌屬(Parvimonas),s:微米微單胞菌屬(Parvimonas_micra)   
Otu168 d:細菌,p:厚壁菌門,c:陰性壁菌綱(Negativicutes),o:硒基單細胞菌目(Selenomonadales),f:韋榮氏球菌科(Veillonellaceae),g:小桿菌屬(Dialister),s:害肺小桿菌(Dialister_pneumosintes)   
Otu147 d:細菌,p:梭桿菌門(Fusobacteria),c:梭桿菌綱(Fusobacteriia),o:梭桿菌目(Fusobacteriales),f:梭桿菌科(Fusobacteriaceae),g:梭桿菌屬(Fusobacterium)   
Otu47 d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:羅布斯塔菌屬(Romboutsia),s:沈澱性羅布斯塔菌(Romboutsia_sedimentorum)   
Otu142 d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:卟啉單胞菌科,g:卟啉單胞菌屬,s:牙髓卟啉單胞菌(Porphyromonas_endodontalis)   
Otu10 d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科(Lachnospiraceae)   
在一些實施例中,OTU概況包含一或多個選自SEQ ID NO. 1-345之OTU。在一些實施例中,OTU概況包含一或多個OTU,其與SEQ ID NO. 1-345之序列具有約70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的一致性。
在一些實施例中,人類個體糞便樣本之集合含有自至少約20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500名人類個體或更多人類個體所收集之樣本。
在一些實施例中,本文所描述之方法之定序步驟包含定序各糞便樣本之至少100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000個或更多個擴增片段。
本發明亦提供用於鑑別人類個體中結腸直腸腺瘤或結腸直腸癌增加之可能性的方法。在一些實施例中,方法為電腦輔助的。在一些實施例中,該等方法包含執行如本文中所描述之受過訓練之機器學習分類器以預測該人類個體患有結腸直腸腺瘤、結腸直腸癌之可能性增加的機率。
本發明亦提供用於偵測人類個體之糞便樣本之異常的方法。在一些實施例中,該等方法包含執行受過訓練之機器學習分類器以預測該患者之糞便樣本中存在或不存在異常。在一些實施例中,該等異常包括結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)。
本發明進一步提供用於為患有結腸直腸腺瘤或結腸直腸癌之人類個體生成個人化治療計劃之方法。在一些實施例中,該等方法包含(1)訂製該人類個體之糞便樣本之診斷測試。在一些實施例中,該測試包含(a)獲得取自該人類個體之糞便樣本。在一些實施例中,該測試進一步包含(b)產生步驟(a)中樣本之操作分類單位(OTU)概況。在一些實施例中,該測試進一步包含(c)向受過訓練之機器學習分類器提供該OTU概況。在一些實施例中,該測試進一步包含(d)執行該受過訓練之機器學習分類器以預測該人類個體患有結腸直腸腺瘤或結腸直腸癌之機率。在一些實施例中,該等方法包含(2)基於測試結果生成針對該人類患者之該個人化治療計劃。
本發明進一步提供用於診斷及治療處於結腸直腸腺瘤或結腸直腸癌風險下之人類個體之方法。在一些實施例中,該等方法包含(1)訂製該人類個體之糞便樣本之診斷測試。在一些實施例中,該測試包含(a)獲得取自該人類個體之糞便樣本。在一些實施例中,該測試進一步包含(b)產生步驟(a)中樣本之操作分類單位(OTU)概況。在一些實施例中,該測試進一步包含(c)向受過訓練之機器學習分類器提供該OTU概況。在一些實施例中,該測試進一步包含(d)執行該受過訓練之機器學習分類器以預測該人類個體患有結腸直腸腺瘤或結腸直腸癌之機率。在一些實施例中,該等方法進一步包含(2)基於步驟(1)之診斷測試結果來治療該人類個體。
在一些實施例中,該等方法包含監測人類個體中之結腸直腸腺瘤或結腸直腸癌進展之方法。在一些實施例中,該等方法包含(a)獲得取自該人類個體之糞便樣本。在一些實施例中,該等方法進一步包含(b)產生步驟(a)中樣本之操作分類單位(OTU)概況。在一些實施例中,該等方法進一步包含(c)向受過訓練之機器學習分類器提供該OTU概況。在一些實施例中,該等方法進一步包含(d)執行該受過訓練之機器學習分類器以預測該人類個體中之結腸直腸腺瘤或結腸直腸癌之階段。視情況,該等方法進一步包含(e)週期性地重複步驟(a)至(d)。
在一些實施例中,本發明亦提供用於區分結腸直腸癌(CRC)患者及正常人類個體之方法。在一些實施例中,本發明亦提供用於區分結腸直腸癌(CRC)患者、結腸直腸腺瘤患者以及正常人類個體之方法。在一些實施例中,本發明亦提供用於區分結腸直腸癌、結腸直腸息肉(PL)、非晚期結腸直腸腺瘤(NA)以及晚期結腸直腸腺瘤(AA)之方法。在一些實施例中,如本文中所提及之方法包含執行如本文中所描述之受過訓練之機器學習分類器。
相關申請案之交叉參考 本申請案主張2018年10月15日所申請之美國臨時專利申請案第62/745,955號之優先權及益處,該申請案以全文引用之方式併入本文中。有關以電子方式提交之正文檔案的說明
以電子方式提交之正文檔案的內容以全文引用之方式併入本文中:序列表之電腦可讀格式複本(文件名:NEEWH_002_01WO_SeqList_ST25.txt,記錄日期:2019年10月14日,檔案大小約251千位元組)。
在一些實施例中,本發明係關於癌症診斷及治療。更具體而言,本發明係關於(但非排他地)對人類個體中之消化系統相關之病況進行分類的方法及系統,諸如偵測癌性病況之存在、判定癌症階段或評估癌症風險。在一些實施例中,癌症為結腸直腸癌、腸癌、結腸癌、直腸癌、下胃腸道癌、盲腸癌、大腸癌等。
本發明之方法及系統可適用於任何有需要之人類個體。在一些實施例中,人類個體疑似患有癌症或處於患有癌症之風險下。在一些實施例中,人類個體經暴露於包括(但不限於)以下之風險因素:結腸直腸癌或息肉之個人或家族病史、富含紅肉及加工肉類之飲食、炎症性腸病(克羅恩氏病(Crohn's disease)或潰瘍性結腸炎)、諸如家族性腺瘤性息肉病及遺傳性非息肉結腸癌之遺傳性病況、肥胖、吸菸、身體活動不足、酗酒、2型糖尿病、非裔美國人、老年人、男性、高脂肪攝入或患有特定遺傳病症。在一些實施例中,人類個體具有一或多個關於結腸直腸癌之症狀,該等症狀包括(但不限於)排便習慣之持續變化(諸如便秘或腹瀉)、糞便上或中之血液、便秘惡化、腹部不適、原因不明的體重減輕、糞便口徑(厚度)減小、食慾不振以及噁心或嘔吐及貧血。在一些實施例中,人類個體適於定期健康檢查。
在一些實施例中,本發明之方法及系統可適用於任何有需要之人類個體,以僅基於自人類個體獲得之樣本的操作分類單位(OTU)概況而無需知曉其他資訊來進行癌症分類,使得分類器中之區分特徵僅由OTU組成。在一些實施例中,除某些品質對照以外,未手動篩選OTU,諸如旨在避免罕見OTU且減少潛在污染及改善模型偏差之彼等。在一些實施例中,方法及系統可與其他測試一起應用,該測試包括(但不限於)人類個體之基因測試、肉眼檢查、顯微鏡檢查、免疫化學、原位偵測以及顯微圖(諸如結腸鏡檢、糞便潛血測試以及可撓性乙狀結腸鏡檢(flexible sigmoidoscop))。
根據本發明之一些實施例,提供藉由分析目標個體之樣本來評估癌症風險(諸如結腸直腸癌)之方法及系統。在一些實施例中,對於結腸直腸癌,樣本為糞便樣本。用於糞便樣本收集及處理之非限制性例示性方法及裝置描述於美國專利第8008036號、第8053203號、第7449340號、第4333734號、第6727073號、第9410962號、第7816077號及第5344762號中,其中之各者出於所有目的以全文引用之方式併入本文中。
在一些實施例中,本發明之方法及系統包含一或多個機器學習分類器。此類分類器可根據本文中所描述之步驟而產生。
視情況,一或多個分類器適用於待測試之人類個體之一或多個特徵。視情況,選擇分類器以匹配待測試之人類個體之一或多個特徵。在此類實施例中,可根據因素(包括(但不限於)性別、年齡、種族、遺傳背景、生活方式、地理位置等)使用不同的分類器。
根據本發明之一些實施例,提供生成一或多個分類器之方法及系統,該等分類器可用於執行如本文所描述之任務,諸如分類有需要之人類個體之結腸直腸病況。在一些實施例中,生成分類器之方法及系統係基於複數個取樣個體之分析。資料集用以產生、訓練及輸出一或多個分類器。分類器可作為在用戶端上執行之模組提供,或用作基於自有需要之人類個體所收集之樣本來評估目標個體之癌症風險的線上服務。
可基於分類器之目的及/或在其生成後將使用分類器執行之任務來選擇用於生成及訓練分類器之取樣個體。
在一些實施例中,待執行之任務為將人類個體分類為患有結腸直腸癌或正常(亦即,非癌症)。在一些實施例中,作為參考人類個體群之用於生成及訓練分類器之取樣個體包含已鑑別為患有結腸直腸癌的人類個體及正常人類個體(例如,未患有結腸直腸癌)。可基於任務之目的及/或所需準確度來判定且最佳化取樣個體之群體大小。在一些實施例中,群體具有至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000人或更多。在一些實施例中,已鑑別為患有結腸直腸癌之人類個體與正常人類個體的比率為約1.0,諸如約1.1、1.2、1.3或約0.9、0.8、0.7,只要可達成所需準確度,則允許變化。在一些實施例中,已鑑別為患有結腸直腸癌之人類個體與正常人類個體的比率為約10:1、9:1、8:1、7:1、6:1、5:1、4:1、3:1、2:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9或1:10。只要達成所需預測準確度,則可使用不同的比率。
在一些實施例中,待執行之任務為將人類個體分類為患有結腸直腸癌(CRC)、結腸直腸腺瘤(AD)或正常(NM)。在一些實施例中,作為參考人類個體群之用於生成及訓練分類器之取樣個體包含已鑑別為患有結腸直腸癌之人類個體、已鑑別為患有結腸直腸腺瘤之人類個體以及正常人類個體(例如,未患有結腸直腸癌或結腸直腸腺瘤)。可基於任務之目的及/或所需準確度來判定且最佳化取樣個體之群體大小。在一些實施例中,群體具有至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000人或更多。在一些實施例中,已鑑別為患有結腸直腸癌之人類個體、已鑑別為患有CRC、AD之人類個體以及正常人類個體之間的比率為約1:1:1,但只要可達成所需準確度,則允許變化。
在一些實施例中,待執行之任務為將人類個體分類為患有結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)或正常。在一些實施例中,作為參考人類個體群之用於生成及訓練分類器之取樣個體包含已鑑別為患有結腸直腸癌之人類個體、已鑑別為患有息肉之人類個體、已鑑別為患有非晚期腺瘤之人類個體、已鑑別為患有晚期腺瘤之人類個體以及正常人類個體(例如,未患有CRC、PL、NA或AA)。可基於任務之目的及/或所需準確度來判定且最佳化取樣個體之群體大小。在一些實施例中,群體具有至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000人或更多。在一些實施例中,已鑑別為患有結腸直腸癌之人類個體、已鑑別為患有CRC、PL、NA、AA之人類個體以及正常人類個體之間的比率為約1:1:1:1:1,但只要可達成所需準確度,則允許變化。
在一些實施例中,對於本文所描述之方法,自參考人類個體群所收集之樣本與自目標個體(例如,其健康狀況待判定之有需要之人類個體)所收集的一或多個樣本一起處理(添加)。在一些實施例中,該處理步驟包含擴增及定序樣本中之微生物序列。在一些實施例中,該處理步驟包含簡化、標準化及/篩選定序結果。在一些實施例中,該處理步驟包含產生各樣本之OTU概況。在一些實施例中,自目標個體(例如,其健康病況待判定之有需要之人類個體)所收集之添加樣本佔待一起處理之總樣本的約1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%或更多。在一些實施例中,待一起處理之總樣本中之自目標個體(例如,其健康病況待判定之有需要之人類個體)所收集的添加樣本之數目為約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100個或更多。
OTU 本發明之系統之方法使用操作分類單位(OTU)概況。在一些實施例中,根據本文中所描述之步驟對癌症病況進行分類之OTU概況中的OTU包含由機器學習分類器所判定之OTU。在此情況下,機器學習分類器視為黑盒,且OTU之選擇不受任何外部因素操控。
由機器學習分類器選擇之此等OTU係關於癌症病況,且可用於癌症偵測或分類中。在一些實施例中,本發明之OTU包括序列表中之彼等核酸序列,諸如具有SEQ ID NO.1至345中之序列的核酸。應理解,此等序列之變體,諸如具有至少70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高一致性之彼等序列與序列表中之序列進行比較,或能夠在嚴格雜交條件下與序列表中之序列雜交。變體可為參考核苷酸序列之互補序列。變體亦可為與參考核苷酸序列或其互補序列實質上一致之核苷酸序列。變體亦可為在嚴格條件下與參考核苷酸序列、其互補序列或與其實質上一致之核苷酸序列雜交之核苷酸序列。
在一些實施例中,本發明之系統之方法包含可用於生成及訓練本發明之機器學習分類器的參考OTU概況。
為了產生參考OTU概況,獲得作為訓練樣本之人類個體樣本之集合。在一些實施例中,訓練樣本為糞便樣本。如本文中所使用,術語糞便樣本包括經處理或未經處理之取樣個體之糞便,只要微生物相之核酸組成經保存即可。在一些實施例中,訓練樣本足夠多樣化以獲取群組差異。
對於各糞便樣本,核糖體RNA (rRNA)基因序列用於判定樣本中之微生物相。在一些實施例中,可使用小次單元(SSU)及大次單元(LSU) rRNA基因及分隔兩種rRNA基因之內轉錄間隔序列(ITS)區。在一些實施例中,rRNA基因可為23S rRNA或16S RNA。在一些實施例中,使用16S RNA序列。
在一些實施例中,擴增樣本中之16S rRNA之整體或其一或多個部分。為了擴增16S RNA序列,可使用任何合適之引子對,諸如描述於Weisburg等人(Journal of Bacteriology . 173 (2): 697-703)中之27F及1492R,或涵蓋用於454定序之V1至V3的27F/8F-534R。更多實施例提供在下表中。應理解,亦可使用與列於以下之引子具有較高一致性之引子,諸如具有至少80%、85%、90%、95%或更多一致性的彼等引子。
引子名稱 序列(5'-3') SEQ ID NO.
341F CCTAYGGGRBGCASCAG 346
806R GGACTACNNGGGTATCTAAT 347
8F AGA GTT TGA TCC TGG CTC AG 348
U1492R GGT TAC CTT GTT ACG ACT T 349
928F TAA AAC TYA AAK GAA TTG ACG GG 350
336R ACT GCT GCS YCC CGT AGG AGT CT 351
1100F YAA CGA GCG CAA CCC 352
1100R GGG TTG CGC TCG TTG 353
337F GAC TCC TAC GGG AGG CWG CAG 354
907R CCG TCA ATT CCT TTR AGT TT 355
785F GGA TTA GAT ACC CTG GTA 356
805R GAC TAC CAG GGT ATC TAA TC 357
533F GTG CCA GCM GCC GCG GTA A 358
518R GTA TTA CCG CGG CTG G 359
27F AGA GTT TGA TCM TGG CTC AG 360
1492R CGG TTA CCT TGT TAC GAC TT 361
在一些實施例中,擴增且定序16S rRNA核酸序列之一或多個高變區。細菌16S基因含有九個長在約30-100個鹼基對之範圍內的高變區(V1-V9),該等高變區涉及小核糖體次單元之二級結構。理論上,其一或多個高變區可用於描述於本發明中之方法之目的。在一些實施例中,使用16S rRNA之V3、V4或V3-V4區之引子靶向片段。舉例而言,引子對包含341F (CCTAYGGGRBGCASCAG,SEQ ID NO. 346)及806R (GGACTACNNGGGTATCTAAT,SEQ ID NO. 347)。在一些實施例中,可使用靶向其他區之引子,諸如16S rRNA之V6區。應理解,對於某些細菌分類研究,物種可在16S基因中共享高達99%的序列相似性。在此類情況下,可引入除16S rRNA以外之序列。
可使用合適之定序方法。DNA定序技術包括使用經標記之終止子或引子之典型雙去氧定序反應(桑格法(Sanger method))及平板或毛細管中之凝膠分離;單分子定序;使用可逆終止經標記之核苷酸的合成定序;焦磷酸定序;454定序;依魯米那定序(Illumina sequencing);SMRT定序;奈米孔定序;化學過敏性場效電晶體陣列定序;用電子顯微鏡定序;與經標記寡核苷酸探針之文庫的對偶基因特異性雜交;藉由使用與經標記純系之文庫對偶基因特異性雜交的合成定序,隨後連接,在聚合步驟期間即時監測經標記核苷酸之併入;聚合酶選殖定序(polony sequencing)以及SOLiD定序。經分離分子之定序最近已藉由使用聚合酶或連接酶之連續或單一延伸反應以及藉由與探針文庫之單一或連續差分雜交而證實。
在一些實施例中,定序技術可每次運行產生至少1000次讀取、每次運行產生至少10,000次讀取、每次運行產生至少100,000次讀取、每次運行產生至少500,000次讀取或每次運行產生至少1,000,000次讀取。在一些實施例中,定序技術可每次讀取產生約30 bp、約40 bp、約50 bp、約60 bp、約70 bp、約80 bp、約90 bp、約100 bp、約110 bp、約120 bp,每次讀取產生約150 bp、約200 bp、約250 bp、約300 bp、約350 bp、約400 bp、約450 bp、約500 bp、約550 bp、或約600 bp。在一些實施例中,用於所提供之發明方法中的定序技術可每次讀取產生至少30、40、50、60、70、80、90、100、110、120、150、200、250、300、350、400、450、500、550或600 bp。在一些實施例中,用於所提供之發明方法中的定序技術可每次讀取產生至少100、200、300、400、500、600 bp、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000 bp或更多。
一旦獲得定序結果,則其可與一或多個16S rRNA資料庫相比以獲得處於不同分類等級之標註。此類資料庫包括(但不限於) SILVA (23)、核糖體資料庫項目(RDP) (7)、EzTaxon-e (Chun等人,International Journal of Systematic and Evolutionary Microbiology .57 (Pt 10): 2259-61, 2007)及GreenGenes (DeSantis等人,Applied and Environmental Microbiology .72 (7): 5069-72. 2006),以及NCBI。
在一些實施例中,當定序經擴增核酸時,亦可根據此項技術中已知之方法來判定各序列之豐度(例如,絕對豐度或相對豐度)。
對於各糞便樣本,在可獲得各擴增核酸之序列及豐度資訊之後,形成存在於樣本中之獨特微生物序列清單,該清單包含各獨特微生物序列之豐度資訊。因此,對於各個體之樣本,產生包含獨特微生物序列之身分資訊(例如,自其中衍生序列之微生物的分類資訊)及各獨特微生物序列之豐度資訊的清單。隨後衍生於複數個樣本之清單可合併以形成作為參考資料集之參考OTU矩陣。參考矩陣包含各糞便樣本之各獨特微生物序列之豐度資訊。典型參考矩陣可如下者所示:
Figure 02_image001
, 其中,矩陣之各列表示各糞便樣本中所給定之獨特微生物序列(OTU)之豐度。舉例而言,矩陣中之aij 表示樣本j中之OTUi之豐度。
在一些實施例中,定序結果通過篩選器以去除不合需要之定序結果。在一些實施例中,篩選器係基於定序質量。在一些實施例中,通過篩選器之片段進一步合併以形成獨特序列清單且獲得其豐度。在一些實施例中,使用預定相似性臨限值,諸如約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多來聚集獨特序列。對於各OTU,選擇共同序列。在一些實施例中,共同序列係選自SEQ ID NO. 1-345,或具有其高相似性。
為計算方便起見,矩陣可經標準化,使得各樣本j之序列豐度之總和將為相同的。可視需要選擇總和。在一些實施例中,所選擇之總和可接近經定序核酸群之總數。舉例而言,當自定序步驟獲得約50,000個序列時,經標準化矩陣之總和可設定為50,000。或者,可選擇不同的總和。
一旦可獲得參考OTU矩陣,則其可用以生成及訓練分類器,若所給定樣本與癌症相關,則該分類器最終可用以預測。
分類器 本發明亦提供機器學習分類器,若所給定樣本與癌性病況相關聯,則該等分類器可用於分類。此類機器學習分類器包括(但不限於)決策樹分類器、K-最近相鄰分類器(KNN)、邏輯回歸分類器、最近相鄰分類器、神經網路分類器、高斯混合模型(GMM)、支援向量機(SVM)分類器、最近質心分類器、線性回歸分類器以及隨機森林分類器。
在機器學習分類器用於執行如本文中所描述之任務之前,分類器可受過訓練。
在一些實施例中,各樣本由充當分類器中所使用之「特徵」的相對OTU豐度之向量表示。
在一些實施例中,分類器為隨機森林分類器。隨機森林分類器為採用觀測結果之子集及變量之子集以構建決策樹之集成工具。其構建多個此類決策樹且將其融合在一起以得到更準確及穩定的預測。此為一組獨立評審員之最多投票的直接結果,吾人可得到比最好評審員更好的最終預測。
對於實施方式,可使用含有隨機森林演算法之套裝軟體。此類套裝軟體包括(但不限於)由Breiman及Culter以Fortran編寫之原始RF;C#、C++、Pascal、VBA中之ALGLIB;基於R中之條件推理樹的實施方(party implementation);用於在R中分類及回歸之隨機森林;在scikit-learn中具有實例之Python實現;橙色資料採擷程式組(Orange data mining suite)包括隨機森林學習者且可將受過訓練森林視覺化;Matlab實現;SQP軟體根據問題之形式及語言特徵而使用隨機森林演算法以預測調查問題之質量;在Java程式庫及GUI中之Weka隨機森林;以及ranger (用於分類、回歸、機率以及殘存之隨機森林之C++實現)。
隨機森林中之超參數增強模型之預測能力抑或使其更易於訓練模型。視情況,在機器學習分類器用於執行如本文中所描述之任務之前,分類器之一或多個超參數可經微調。超參數微調方法係關於吾人如何可自可能的超參數值之空間取樣可能的模型架構候選。此通常稱為「搜索」超參數空間之最佳值。
在一些實施例中,根據待使用之套裝軟體,待微調之超參數包括(但不限於)樹之數目、用於樹之各分枝的最大特徵之數目、每片樹葉之最小樣本、多項式特徵之度、允許的最大深度、神經網路中之神經元數目、神經網路中之層數目、學習速率等。
在一些實施例中,當使用隨機森林分類器(諸如R中之隨機森林套裝軟體)時,某些值可經設定。
在一些實施例中,mtry經設定為總參數之平方根。
在一些實施例中,樹之數目經設定為約100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10,000或更多。在一些實施例中,各樹允許生長至全尺寸。在一些實施例中,各樹不允許生長至全尺寸。
在一些實施例中,隨機樹分類器中所使用之特徵減少。在一些實施例中,僅保留滿足某些準則之特徵。在一些實施例中,準則包括各特徵至少出現在相對豐度為至少f% (例如,f=0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0或更多)之p% (例如,p=1、2、3、4、5、6、7、8、9、10或更多)的樣本中。在一些實施例中,為了避免去除真實的可辨別信號,首先應用隨機置換以混洗樣本。在一些實施例中,特徵之數目在減少之後變得與訓練樣本之數目類似,此顯著減少了運行時間。
可以諸多方式使用根據本發明之分類器。在一些實施例中,用於輔助預測個體內癌症之方法係基於分類器中之一或多者單獨或與另一特徵概況(諸如症狀概況)組合。在某些實施例中,分類器為機器學習分類器。機器學習分類器可選自由以下組成之群:隨機森林(RF)、分類及回歸樹(C&RT)、提昇樹、神經網路(NN)、支援向量機(SVM)、通用卡方自動交互偵測器模型、交互樹、多自適應回歸仿樣、機器學習分類器及其組合。較佳地,學習統計分類器系統為基於樹之統計演算法(例如,RF、C&RT等)及/或NN (例如,人工NN等)。
除使用分類器來預測人類個體中之癌性病況之外,亦提供其他方法。舉例而言,提供用於識別人類個體中之癌症可能性增加之方法。在一些實施例中,提供鑑別為患有早期癌性病況之人類患者,且週期性地自該等人類患者收集樣本,諸如每年、每半年、每月、每週等,且亦向各樣本提供與癌症發展階段相關之資訊。根據本文中所描述之步驟處理樣本以產生參考資料集,該參考資料集用於訓練分類器以區分癌症病況惡化之人類個體及癌症病況未惡化之人類個體。在一些實施例中,方法包含執行受過訓練之機器學習分類器以預測人類個體患有結腸直腸腺瘤或結腸直腸癌之可能性增加之機率。
亦提供用於偵測人類個體之樣本中之異常的方法。如本文中所使用,術語異常係指健康人類個體未患有之任何病況。在一些實施例中,異常係關於消化系統。在一些實施例中,異常係關於結腸直腸部分。在一些實施例中,使用機器學習分類器,其中已使用鑑別為正常之人類個體及鑑別為具有至少一種異常之人類個體的樣本來訓練機器學習分類器。在一些實施例中,方法包含執行受過訓練之機器學習分類器以預測患者之糞便樣本中存在或不存在異常。
用於為患有癌症或處於患有癌症之風險下之人類個體生成個人化治療計劃的方法。該方法可由諸如醫生之開業醫師藉由進行人類個體之樣本的診斷測試來啟動。根據本文中所描述之步驟來處理樣本以產生個人化醫學資料檔。因此,受過訓練之機器學習分類器用於將個人化醫學資料檔分類為特定癌性或非癌性病況。基於所判定之病況,向人類患者推薦個人化治療計劃,諸如是否應開任何合適之治療處方。對於相同操作,亦提供用於診斷及治療處於癌症風險下之人類個體之方法,其中人類個體基於分類結果接受處方治療。個人化治療計劃有助於及時、有效及準確地應用癌症療法或其他治療模態。在一個實施例中,訓練資料集可劃分為至少兩個組,其包括彼等並未經受癌症復發之患者及彼等經受癌症復發之患者。在一個實施例中,訓練分類器以區分並未經受癌症復發之患者及彼等經受癌症復發之患者。因此,此分類器可用以處理自經歷癌症之人類患者所收集的樣本且預測該人類患者中是否存在癌症復發風險。在一個實施例中,臨限分數可經計算,使得一定百分比之復發患者具有小於臨限分數之定量風險分數。臨限分數可為使用者可調節的。因此,小於臨限分數之定量風險分數指示癌症復發之低風險,且實例方法及設備可在手術後為病患生成個人化治療計劃,該治療計劃指示輔助化療不應為治療計劃之部分。高於臨限分數之定量風險分數指明癌症復發之更高風險,表明輔助化療應為患者之個人化治療計劃之部分。因此,在一個實施例中,在偵測到小於臨限分數之定量風險分數時,產生指示不應向患者投與輔助化療之個人化治療計劃。在偵測到等於或大於臨限分數之定量風險分數時,產生指示應向患者投與輔助化療之個人化治療計劃。
亦提供用於監測人類個體中之癌症進展之方法。在一些實施例中,週期性地(諸如每年、每半年、每月、每週等)自人類個體採集樣本,且進行如本文中所描述之方法以產生人類個體之OTU概況之集合。藉由受過訓練之機器學習分類器分析概況以監測人類個體中之癌性病況的進展以判定患者之健康狀況是否改變。
亦提供用於預測人類個體之癌性病況復發之方法。在一些實施例中,週期性地(諸如每年、每半年、每月、每週等)自曾經患有癌性病況之人類個體採集樣本,且經受如本文中所描述之過程以產生人類個體之OTU概況之集合。藉由受過訓練之機器學習分類器分析概況以判定癌症復發是否發生。在一些實施例中,機器學習分類器至少部分地基於OTU概況來計算個體將經歷癌症復發之機率。
在一些實施例中,本發明之診斷測試可由同一實施方(party)預訂及執行。在一些實施例中,測試可由兩個或更多個不同實施方預訂及執行。在一些實施例中,測試可由個體自身、醫生、護士、測試實驗室、醫療保健提供者或任何其他能夠進行測試之實施方來預訂及/或執行。隨後,可藉由同一實施方或第二實施方(諸如個體自身、醫生、護士、測試實驗室、醫療保健提供者、醫師、臨床試驗人員、醫院、實驗室、研究機構或能夠使用如本文中所描述之方法來分析結果的任何其他實施方)來分析測試結果。
預測 在一些實施例中,一旦分類器受過訓練,則其可直接使用以預測自有需要之人類個體所收集的給定樣本是否與癌性病況或癌性病況之風險相關。在此情況下,將已知標記之參考樣本(例如,源於鑑別為患有癌性病況或正常之參考人類個體群之樣本)處理以獨立地產生訓練資料集,而無需自有需要之人類個體所收集的新樣本。
在一些實施例中,使用如本文中所描述之步驟,將自有需要之人類個體所收集之新樣本與已知標記的參考樣本(例如,源於鑑別為患有癌性病況或正常之參考人類個體群的樣本)一起處理。與參考人類個體群相關聯之結果用於訓練分類器,該分類器隨後用於進行預測。此方法給予新樣本相同的OTU標記集合作為用於建構分類器之樣本,且由於批次效應而增加預測準確度。
在一些實施例中,為了待測試之新樣本具有一致的OTU標記,新樣本對照與參考OTU矩陣對應之共同序列進行比較。在彼情況下,當現有OTU標記不存在於新樣本中時,其設定為空。
在一些實施例中,使用添加策略,其中將用於訓練分類器之具有已知標記之樣本(例如,自其中各者鑑別為患有癌症或為正常的參考人類個體群所收集之樣本)與一或多個有需要之人類個體(例如,其健康狀況待預測之人類個體)的新樣本一起處理(例如,擴增及定序)。參考人類個體群之結果用於訓練分類器。此種添加策略可控制批次效應且產生更高的預測準確度。在一些實施例中,至少1、2、3、4、5、6、7、8、9、10、15、20、25、20、35、40、45、50、55、60、65、70、75、80、85、90、95、100個或更多有需要之人類個體的新樣本與參考人類個體群一起處理(添加)。
就預測人類個體之結腸直腸癌性病況來說,本發明之分類器提供前所未有的高特異性及準確度,尤其係當OTU之豐度為分類器中所使用之唯一區分特徵時亦如此,而不需要包括待測試之人類個體的其他資訊。在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)或為正常(NM)之方法的準確度為至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多。在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)、結腸直腸腺瘤(AD)或為正常(NM)之方法的準確度為至少65%、70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多。在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)或為正常之方法的準確度為至少50%、55%、65%、70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多。
系統 亦提供使用本發明之分類器之系統。在一些實施例中,系統包括一或多個醫療記錄資料庫。在一些實施例中,系統經連接至醫療記錄資料庫介面。在一些實施例中,基於自人類個體所收集之個別樣本之分析,資料庫包括複數個個別人類個體之個人記錄。可基於系統之目的及由系統待執行之任務來選擇資料庫。在一些實施例中,資料庫包含複數個OTU向量,其中各OTU向量描述自具有經鑑別之健康狀況(例如,患有某一階段之癌症或為正常)之個別人類個體所收集的個別樣本中之OTU豐度。在一些實施例中,個別人類個體之癌性病況為已知的(經標記)。在一些實施例中,資料庫包含可用於或已用於訓練分類器之參考OTU矩陣。在一些實施例中,參考OTU矩陣由本文中所描述之方法產生。
在一些實施例中,本文中所描述之方法及系統涉及控制電腦輔助診斷(CADx)系統以對人類個體之結腸直腸狀況進行分類。舉例而言,用於分類的本發明之方法及/或系統的實現可涉及手動、自動或其組合來執行或完成所選擇之任務。此外,根據本發明之方法及/或系統之實施例的實際儀器及設備,可使用操作系統藉由硬體、軟體或韌體或其組合來實施若干所選擇之任務。
用於執行本發明之方法的硬體可實施為晶片或電路。作為軟體,根據本發明之實施例的所選擇之任務可實施為一或多個藉由電腦使用合適之操作系統來執行之軟體指令。在一些實施例中,如本文中所描述之方法中的一或多個步驟由資料處理器執行,該資料處理器諸如用於執行一或多個指令之計算平台。視情況,資料處理器包括用於儲存指令及/或資料之揮發性記憶體及/或用於儲存指令及/或資料之非揮發性儲存器,例如磁性硬碟及/或可移除媒體。視情況,亦提供網路連接。亦視情況提供顯示器及/或使用者輸入裝置(諸如鍵盤或滑鼠)。
在一些實施例中,本發明之方法及系統之實現包含使用一或多個分類器,諸如一或多個機器學習分類器。可根據如本文中所描述之方法產生機器學習分類器。在一些實施例中,分類器包括(但不限於),分類器演算法係選自由以下組成之群:決策樹分類器、K-最近相鄰分類器(KNN)、邏輯回歸分類器、最近相鄰分類器、神經網路分類器、高斯混合模型(GMM)、支援向量機(SVM)分類器、最近質心分類器、線性回歸分類器以及隨機森林分類器。
在一些實施例中,訓練分類器可包括自電腦記憶體獲取電子資料、經由電腦網絡接收電腦檔案或基於其他電腦或電子之動作。在一個實施例中,分類器為隨機森林分類器。在其他實施例中,可使用自動化深度學習分類器之其他類型、組合或組態。
在一些實施例中,分類器藉由介面單元輸出,視情況作為允許對有需要之人類個體進行分類之模組。在一些實施例中,根據人類個體之不同人口資料特徵(諸如年齡、性別、人種、基因突變等)生成且訓練一或多個分類器。
在一些實施例中,分類器可代管在接受有需要之人類個體之OTU資料的網頁伺服器中,使得使用分類器之模組可預測人類個體之癌性病況。可經由通信網路(諸如網際網路)自提供原始定序資料或OTU資料之用戶端(諸如膝上型電腦、桌上型電腦、智慧型電話、平板電腦和/或類似物)接收人類個體資料。可藉由使用者使用由使用者所選擇之介面(例如,圖形使用者介面),視情況使用介面手動輸入資料,且/或例如藉由電腦輔助診斷(CAD)模組及/或系統自動提供資料。
在一些實施例中,本發明之系統可包括處理器;記憶體;輸入/輸出(I/O)介面;一組電路以及連接處理器、記憶體、I/O介面及一組電路之介面。在一些實施例中,系統包括顯示電路。在一些實施例中,系統包括訓練電路。在一些實施例中,系統包括標準化電路。在一些實施例中,系統包含雙微處理器及其他多處理器架構。在一些實施例中,記憶體可包括揮發性記憶體及/或非揮發性記憶體。磁碟可經由例如輸入/輸出介面(例如,卡片,器件)及輸入/輸出埠可操作地連接至電腦。磁碟可包括(但不限於)如磁碟驅動機、磁帶驅動機、Zip驅動機、固態器件(SSD)、快閃記憶卡、疊瓦式磁性記錄(SMR)驅動機或記憶棒之器件。此外,磁碟可包括光學驅動機,如CD-ROM或數位視訊ROM驅動機(DVD ROM)。舉例而言,記憶體可儲存進程或資料。磁碟或記憶體可儲存控制及分配電腦之資源的操作系統。電腦可經由I/O介面及輸入/輸出埠與輸入/輸出器件進行交互作用。輸入/輸出埠可包括(但不限於)串行埠、並行埠或USB埠。電腦可在網路環境中操作且因此可經由I/O介面或I/O埠連接至網路器件。經由網路器件,電腦可與網絡交互作用。經由網絡,電腦可在邏輯上連接至遠程電腦。可與電腦交互作用之網路包括(但不限於)區域網路(LAN)、廣域網路(WAN)、WiFi網路或其他網路。
治療 在一些實施例中,本發明之方法包含在人類患者分類為患有結腸直腸癌或腺瘤之後治療有需要之人類患者。在一些實施例中,治療包括(但不限於)手術、化學治療、放射治療、免疫療法、緩解性護理、運動。
如本文中所使用,片語「治療方案」係指治療計劃,其規定向有需要之個體(例如,診斷患有病變之個體)提供治療類型、劑量、時間表及/或治療持續時間。所選擇之治療方案可為積極的,此預期會產生最佳臨床結果(例如,病變之徹底治癒)或更溫和的,其可減輕病變之症狀但導致病變之不完全治癒。將瞭解,在某些情況下,治療方案可與個體之某些不適或不良副作用(例如,對健康細胞或組織之損傷)相關聯。治療之類型可包括手術干預(例如,去除病灶、病變細胞、組織或器官)、細胞替代療法、以局部或全身模式投與治療藥物(例如,受體促效劑、拮抗劑、激素、化學治療劑)、暴露於使用外部源(例如,外部光束)及/或內部源(例如,近距放射療法)之放射治療及/或其任何組合。取決於病理之嚴重程度及所選擇之治療類型,治療之劑量、排程及持續時間可變化,且熟習此項技術者能夠用治療之劑量、排程及持續時間來調節治療類型。
在一些實施例中,治療包括(但不限於)氟尿嘧啶(fluorouracil)、卡培他濱(capecitabine)、奧沙利鉑(oxaliplatin)、伊立替康(irinotecan)、UFT、FOLFOX、FOLFOXIRI及FOLFIRI、諸如貝伐單抗(bevacizumab)之抗血管生成藥物以及表皮生長因子受體抑制劑(例如,西妥昔單抗(cetuximab)及帕尼單抗(panitumumab))。
套組 在本發明中亦提供用於預測有需要之人類個體中之癌症的套組。在一些實施例中,套組可包含本文中所描述之核酸以及以下任何或所有物質:分析試劑、緩衝液、探針及/或引子以及無菌生理鹽水或其他醫藥學上可接受之乳液及懸浮液基質。此外,套組可包括含有用於實踐本文中所描述之方法之指導(例如,方案)的教學材料。套組可進一步包含用於核酸概況之資料分析之套裝軟體。舉例而言,套組可包括可受訓練或已受過訓練的本發明之分類器。在一些實施例中,套組可包括本發明之參考OTU矩陣,及/或可用於根據如本文中所描述之方法產生參考OTU矩陣之樣本及試劑。
在一些實施例中,套組可為用於擴增、偵測、鑑別或量化樣本中之核酸序列之套組。套組可包含聚(T)引子、正向引子、反向引子及探針。
本文所描述之組合物中之任一者可包含於套組中。在一非限制性實例中,用於分離、標記及/或評估DNA及/或RNA群體之試劑包括於套組中。其亦可包括一或多種緩衝液(諸如反應緩衝液、標記緩衝液、洗滌緩衝液或雜交緩衝液)、用於製備DNA樣本之化合物、組分雜交及用於分離DNA之組分。
在一些實施例中,本發明之套組包括用於核酸概況(諸如自樣本獲得之OUT概況)之資料分析的套裝軟體。套裝軟體可包括機器學習分類器。機器學習分類器可已經藉由參考資料集訓練,或取決於套組之目的,套裝軟體包括一或多個合適之用於訓練機器學習分類器的參考資料集。
定義 隨機森林或隨機決策森林為用於分類、回歸及其他任務之集成學習方法,該方法藉由在訓練時間構建多個決策樹且輸出作為個別樹之類別(分類)或平均預測(回歸)之模式的類別來操作。隨機決策森林糾正決策樹之過度擬合其訓練集之習慣。隨機森林為平均多個深決策樹之方式,在相同訓練集之不同部分進行訓練,其目的為減少差異。用於使用隨機森林分類器之方法之非限制性實例描述於美國專利第9747527號、第8802599號、第10049770號、第9068232號、第9474490號、第10055839號、第9482672號、第9852501號、第9642586號、第9096906號、第9498138號、第9235278號、第9922269號、第8463721號、第9971959號、第9898811號、第9342794號、第9918686號、第9280724號、第8811666號、第9741116號、第10063582號、第9697472號、第9978142號、第9910986號、第9690938號、第9779492號、第9208323號、第9460367號、第9430829號、第9747687號、第9014422號、第9025863號、第9946936號、第9171403號、第9615878號、第9639902號、第10025819號、第9661025號、第9978425號、第9076056號、第9609904號、第9418310號、第9911219號及第10037603號中,其中各者出於所有目的以全文引用之方式併入本文中。
分類為預測給定資料點之類別,例如基於含有類別成員資格為吾人所知之觀測結果(或個例)之資料之訓練集來鑑別新觀測結果屬於類別集合之哪一類別(子群體)的過程。類有時稱為目標/標記或類別。分類預測建模為輸入變量(X)之映射函數(f)近似為離散輸出變量(y)之任務。
分類器為實施分類之演算法,尤其在具體實施中。術語「分類器」有時亦係指藉由將輸入資料映射至類別之分類演算法來實施之數學函數。分類器利用某些訓練資料以理解給定輸入變量如何與類相關。在一些實施例中,可使用之分類器演算法係選自由以下組成之群:決策樹分類器、K-最近相鄰分類器(KNN)、邏輯回歸分類器、最近相鄰分類器、神經網路分類器、高斯混合模型(GMM)、支援向量機(SVM)分類器、最近質心分類器、線性回歸分類器以及隨機森林分類器。
操作分類單位(OTU)係指藉由特定分類標記基因之DNA序列相似性分組之生物集群。換言之,在不存在可用於宏觀生物之傳統生物分類系統的情況下,OTU為在不同分類層級上之微生物「物種」之實用替代物。OTU已為微生物多樣性之最常用單位,尤其當分析小次單元16S或18S rRNA標記基因序列資料集時。序列可根據其彼此之間的相似性聚類,且基於由研究人員設定之相似性臨限值(例如,約90%、95%、96%、97%、98%、99%相似性或更多)來界定操作分類單位。典型地,OTU係基於相似的16S rRNA序列。當使用不同的演算法或臨限值時,可不同地計算OTU。
參考「一個實施例」、「一實施例」、「一個實例」以及「一實例」指明如此描述之一或多個實施例或實例可包括特定特徵、結構、表徵、特性、要素或限制,但並非每個實施例或實例必須包括特定特徵、結構、表徵、特性、要素或限制。此外,重複使用片語「在一個實施例中」未必係指同一實施例,儘管其可為同一實施例。
如本文中所使用,「電腦可讀儲存器件」係指儲存指令或資料之非暫時性電腦可讀媒體。「電腦可讀儲存器件」不係指傳播的信號。電腦可讀儲存器件可採取包括(但不限於)非揮發性媒體及揮發性媒體之形式。非揮發性媒體可包括例如光碟、磁碟、磁帶及其他媒體。揮發性媒體可包括例如半導體記憶體、動態記憶體及其他媒體。電腦可讀儲存器件之常見形式可包括(但不限於)軟碟、可撓性磁碟、硬碟、磁帶、其他磁性媒體、特殊應用積體電路(ASIC)、光碟(CD)、其他光學媒體、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、記憶體晶片或記憶體卡片、記憶體棒、資料儲存器件以及電腦、處理器或其他電子器件可自其中讀取之其他媒體。
如本文中所使用,「核酸」或「寡核苷酸」或「聚核苷酸」意謂共價連接在一起之至少兩個核苷酸。所指示單股亦定義互補股之序列。因此,核酸亦涵蓋所指示單股之互補股。核酸之諸多變體可用於與所指定核酸相同的目的。因此,核酸亦涵蓋實質上相同的核酸及其互補序列。單股提供可在嚴格雜交條件下與標靶序列雜交之探針。因此,核酸亦涵蓋在嚴格雜交條件下雜交之探針。核酸可為單股或雙股,或可含有雙股及單股序列之部分。核酸可為DNA、基因體及cDNA、RNA或雜合體,其中核酸可含有去氧核糖核苷酸與核糖核苷酸之組合,及包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鳥嘌呤、肌苷、黃嘌呤、次黃嘌呤、異胞嘧啶、及異鳥嘌呤核酸等鹼基之組合可由化學合成方法或重組方法獲得。
如本文中所使用,核酸提及之「變體」意謂(i)所提及之核苷酸序列之一部分;(ii)所提及之核苷酸序列或其部分之互補序列;(iii)與所提及之核酸或其互補序列實質上一致之核酸;或(iv)在嚴格條件下與所提及之核酸、其互補序列或與其實質上一致之序列雜交的核酸。
如本文中所使用,「嚴格雜交條件」意謂第一核酸序列(例如,探針)將與第二核酸序列(例如標靶)雜交之條件,諸如在複雜之核酸混合物中。嚴格條件與序列相關,且將隨不同情況而不同。嚴格條件可選擇為比特定序列在限定離子強度pH下之熱熔點(Tm )低約5-10℃。Tm (在限定的離子強度、pH及核酸濃度下)可為50%與標靶互補之探針與標靶序列雜交達平衡時的溫度(當標靶序列過量存在時,在Tm 下達平衡時,50%探針被佔據)。嚴格條件可為其中鹽濃度小於約1.0 M鈉離子,諸如在pH 7.0至8.3下約0.01-1.0 M鈉離子濃度(或其他鹽),且短探針(例如,約10-50個核苷酸)之溫度為至少約30℃且長探針(例如,大於約50個核苷酸)之溫度為至少約60℃之彼等條件。嚴格條件亦可藉由添加去穩定化劑(諸如甲醯胺)來達成。對於選擇性或特異性雜交,正信號可為背景雜交之至少2至10倍。例示性嚴格雜交條件包括如下:50%甲醯胺,5×SSC以及1% SDS,在42℃下培育;或5×SSC,1% SDS,在65℃下培育,在65℃下於0.2×SSC及0.1% SDS中洗滌。
如本文中所使用,「實質上互補」意謂第一序列在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100或更多個核苷酸之區域內與第二序列之互補序列至少60%、65%、70%、75%、80%、85%、90%、95%、97%、98%或99%相同,或兩種序列在嚴格雜交條件下雜交。
如本文中所使用,「實質上相同」意謂若第一序列與第二序列之互補序列實質上互補,則第一及第二序列在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100或更多個核苷酸或胺基酸之區域內或相對於核酸至少60%、65%、70%、75%、80%、85%、90%、95%、97%、98%或99%相同。
如本文中所使用,術語「診斷」係指將病變或症狀分類、判定病變之嚴重程度(例如,等級或階段)、監測病變進展、預測病變結果及/或恢復前景。
如本文中所使用,片語「有需要之個體」係指已知患有癌症,處於患有癌症風險下之動物或人類個體(例如,遺傳易患個體,具有癌症醫療及/或家族病史之個體,暴露於致癌物、職業風險、環境風險之個體)及/或表現出癌症之可疑臨床症狀(例如,便血或黑糞症、不明原因的疼痛、出汗、不明原因的發熱、不明原因的體重減輕直至食慾不振、排便習慣之變化(便秘及/或腹瀉)、裏急後重(排便不完全的感覺,尤其對於直腸癌)、貧血及/或全身無力)之個體。另外地或可替代地,有需要之個體可為進行常規健康檢查之健康人類個體。
如本文中所使用,術語「約」係指±10%。
片語「基本上由…組成」意謂組合物或方法可包括額外成分及/或步驟,但僅在額外成分及/或步驟不會實質上改變所主張組合物或方法之基本及新穎特性的情況下。
除非上下文另外明確規定,否則如本文中所使用,單數形式「一(a/an)」及「該(the)」包括複數個參考物。舉例而言,術語「一化合物」或「至少一種化合物」可包括複數種化合物,包括其混合物。
字組「例示性」在本文中使用以意謂「充當實例、個例或說明」。描述為「例示性」之任何實施例未必解釋為比其他實施例較佳或有利,及/或排除來自其他實施例之特徵的併入。
字組「視情況」在本文中使用以意謂「在一些實施例中提供且在其他實施例中不提供」。本發明之任何特定實施例可包括複數個「視情況選用之」特徵,除非此類特徵相矛盾。
如本文中所使用,「電腦可讀儲存器件」係指儲存指令或資料之非暫時性電腦可讀媒體。「電腦可讀儲存器件」不係指傳播的信號。電腦可讀儲存器件可採取包括(但不限於)非揮發性媒體及揮發性媒體之形式。非揮發性媒體可包括例如光碟、磁碟、磁帶及其他媒體。揮發性媒體可包括例如半導體記憶體、動態記憶體及其他媒體。電腦可讀儲存器件之常見形式可包括(但不限於)軟碟、可撓性磁碟、硬碟、磁帶、其他磁性媒體、特殊應用積體電路(ASIC)、光碟(CD)、其他光學媒體、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、記憶體晶片或記憶體卡片、記憶體棒、資料儲存器件以及電腦、處理器或其他電子器件可自其中讀取之其他媒體。
如本文中所使用,「電路」包括(但不限於)硬體、韌體、在機器上執行之軟體或各者之組合,以執行一或多個功能或一或多個動作或以引起來自另一電路、方法或系統之功能或動作。電路可包括軟體控制之微處理器、離散邏輯(例如,ASIC)、類比電路、數位電路、經程式化邏輯器件、含有指令之記憶體器件以及其他實體器件。電路可包括一或多個閘極、閘極之組合或其他電路組件。在描述多個邏輯電路之情況下,或許有可能將多個邏輯併入至一個實體邏輯或電路中。類似地,在描述單個邏輯電路之情況下,或許有可能在多個邏輯或電路之間分佈單個邏輯。
實例 人類微生物相已與多種代謝疾病有關,且近年來,某些微生物之導致腫瘤之機制已經鑑別。結腸直腸癌(CRC)在早期鑑別時可有效地治療。在中國,尤其在西南地區,CRC發病率高,此很可能係由於飲食偏好及不情願進行健康檢查。16S rRNA之可變區之擴增子定序在診斷CRC中展示高潛力。吾等自由正常個體及處於CRC之不同進展階段之患者組成之較大中國組群收集微生物相資訊。使用來自16S rRNA之V3-V4區之序列資訊,吾等研發以高準確度區分患有CRC之患者與正常個體的模型。在腺瘤組群中,吾等在缺少獨立組群之情況下已證實非常有前景的分類結果,且進一步揭示此種策略可受資料過度擬合之影響。由於研究中之小的樣本大小,此為常見問題。所有樣本用作訓練集,且測試集可來自相同批次之結果,且因此,減輕過度擬合(1)之影響為至關重要的。吾等進一步提出策略以部分地克服測試組群之難題,該測試組群可由於不同實驗運行之批次效應或污染而具有不同於訓練集的特性。使用非侵入性微生物相診斷CRC有希望成為預先篩選策略,其可引導具有預測高風險之個體進行CRC進一步檢查,且可由於早期偵測而幫助降低整體死亡率。
在本發明中,吾等正調查使用糞便微生物相作為非侵入性方法對結腸直腸腺瘤及CRC之疾病狀態分級的可能性,該方法補充其他類型之非侵入性方法,諸如FIT (20)。與大多數現有策略(1、8、26)類似,吾等亦使用16S rRNA定序(V3-V4區),用於調查微生物相含量及理解種層級解析度可能不會達成之限制。為避免不同參考資料庫之標註中之差異(2),吾等使用操作分類單位(OTU)之相對豐度作為分類特徵。不同於多細菌預測模型,吾等不預選大多數預測OTU作為吾等之下游分類的特徵,而使用所有通過品質控制準則之OTU。隨著擷取資料中之非線性關係為吾人所知,吾等使用隨機森林分類器作為吾等模型。
獨立測試組群已用以報導吾等預測之敏感度、特異性及整體準確度。對於癌症及非癌症組群,吾等已在訓練及獨立測試集中證實分類的類似效能。如諸多在未使用獨立測試集時之現有策略,吾等亦同樣能夠獲得區分腺瘤及健康組群之高度準確的結果。吾等進一步展示此類良好準確度可由資料之過度擬合引起,且獨立驗證為驗證模型之必須。吾等證實使用微生物相資料區分腺瘤患者與正常個體更難以實現,此可能係由於此等群組之間的許多較弱判別信號、訓練樣本數目不足以及其他實驗變化,諸如批次效應及污染。 然而,在診斷設定中,可藉由用帶有未知標記之樣本再定序一定數目之已知樣本來部分地克服此類侷限性。
總而言之,吾等研發可用於以高準確度預測癌症與非癌症樣本之類別標記之模型,且證實了實際策略以模擬批次效應且預測患有腺瘤之患者。吾等亦證實,由隨機森林模型使用之諸多頂級可辨別OTU經標註為先前在CRC中之相關研究中發現的種或屬。
材料及方法糞便樣本收集及儲存
使用糞便預處理設備(New Horizon Health Technology Co., Ltd. Beijing, China)在中國的兩個地點:The Second Affiliated Hospital,Zhejiang University School of Medicine,Zhejiang及Jiashan Tumour Prevention & Cure Station,Jiaxing收集糞便樣本。當前研究中之患者之納入標準包括(1)年齡在40-75歲之間、(2)可獲得結腸鏡活檢及病理檢查結果,以及(3)未應用任何臨床治療,諸如手術、化學治療。
在結腸鏡檢篩選之前,自空腹個體獲得糞便樣本。對於結腸鏡檢篩選後但未移除結腸息肉之個體,在篩選後至少一週及在去除步驟之前收集樣本。小心避免尿液污染。對於各個體,獲得5g糞便樣本且保存在具有防腐劑緩衝液之試管中,該緩衝液保持細菌存活但不生長。糞便樣本在處理之前允許儲存在室溫下最多七天。為了長期儲存,糞便樣本儲存在-80℃下。所有患者已簽署研究同意書。
樣本分組 儘管疾病以連續方式發展,但根據以下組織病理學準則按以下次序將其分為自正常至嚴重形式之五個縝密群組:正常(NM)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)以及結腸直腸癌(CR),組織病理學準則為:CR定義為結腸直腸癌之所有階段(特異性階段尚未定義);AA定義為高度發育不良之腺瘤或大小≥1cm 之腺瘤或具有≥25%的顯著絨毛狀生長圖案,大小≥1. 0cm 之鋸齒狀的病灶;NA定義為>3個腺瘤,大小<10 mm,非晚期的;PL定義為1或2個腺瘤,大小≤5mm ,非晚期的;正常定義為無贅生性發現。樣本以三個批次收集,其中每批之群組數目給出在表1中。在第1批中,僅獲得CR及NM樣本,且在第二及第三批中,吾等以平衡的數目收集所有五個組。此外,吾等在第三批中獲得具有已知混合物之ZymoBIOMICSTM微生物群落DNA標準作為陽性對照組(圖5)。
1. 樣本數目收集在各組三個批次中。樣本以三個批次定序,其中第1批僅具有癌症(CR)及正常(NM)樣本,第2批及第3批由另外三個更大的群組組成:息肉(PL)、非晚期腺瘤(NA)及晚期腺瘤(AA)。此外,吾等在第3批中包括三個陽性對照樣本。
批次 #CR #AA #NA #PL #NM # 陽性對照
1 57 - - - 129 -
2 102 96 106 96 100 -
3 100 100 100 100 99 3
程式庫製備及定序 使用核酸萃取及純化套組(New Horizon Health Technology Co., Ltd., Beijing, China)萃取且純化糞便樣本之總基因體DNA。在1%瓊脂糖凝膠(1%,w/v)上量測DNA濃度及純度且使用無菌水稀釋至1ng/µl
使用引子對341F (CCTAYGGGRBGCASCAG,SEQ ID NO. 346)及806R (GGACTACNNGGGTATCTAAT,SEQ ID NO. 347)擴增16S rRNA基因之V3-V4高變區。用15µl Phusion® High-Fidelity PCR Master Mix (New England Biolabs);0.2µM 正向及反向引子及約10ng模版DNA在30µl 反應物中實施PCR反應。熱循環條件係由以下組成:最初在98℃下變性1 min;隨後在98℃下變性10s循環30次;在50℃下黏合30s;及在72℃下延長30s以及最後在72℃下延長5 min。
PCR產物在瓊脂糖凝膠(2%,w/v)中藉由電泳分離,且選擇具有400-500bp之間的明亮主條帶之樣本以等密度比合併,隨後用GeneJET凝膠萃取套組(Thermo Scientific)純化。遵循製造商之建議,使用TruSeq® DNA PCR-Free樣本製備套組(Illumina)來製備定序庫。經由Qubit® 2.0螢光計(Thermo Scientific)及Agilent Bioanalyzer 2100系統來評估程式庫質量。藉由Novogene Bioinformatics Technology Co., Ltd. (Beijing, China)使用250PE方案在Illumina HiSeq2500上以三個批次定序程式庫。各批次之樣本之數目及類型在表1中給出。每個樣本之目標平均片段數目為50K。
管線 分析管線由公共可用程式及內部程式之組合組成以減少運行時間及記憶體利用率。吾等在桌上型電腦(3 GHz Intel Core i5 CPU,16GB 2400 MHz DDR4 RAM)上進行所有樣本之處理及分析。
簡言之,各輸入樣本由成對FASTQ gz檔案組成。使用FLASH v2.2.00 (https://ccb.jhu.edu/software/FLASH/)以將各讀取對合併為片段,從而允許最小重疊10bp。各所得片段表示V3-V4區之序列。使用usearch程式v10.0.240基於品質篩選片段(12)。通過篩選片段進一步合併以形成獨特序列且獲得其豐度。使用97%相似性臨限值來聚類獨特序列產生操作分類單位(OTU)之最終叢集,同時使用UParse(12)篩選出嵌合序列。對於各OTU,選擇共同序列。鑒於所構建之OTU共同序列,隨後藉由將原始序列與共同序列進行比較來再處理輸入樣本,以生成表示每個樣本的相對OTU豐度之OTU表/矩陣。在OTU表中,各列指示獨特OTU標記且各行對應於樣本。OTU錶針對定序深度之差異而標準化(預設為50,000)。
所得OTU表進一步由SINTAX (11)程式處理以使用作為參考資料庫之SILVA (23)或RDP (7) (預設)中之一者來獲得不同分類等級之標註。對於在群組之間的比較,吾等使用線性判別分析效應大小(LEfSe) (25)工具以鑑別不同分類層級上之可辨別的生物標記物。
分類 由於隨機森林分類器獲取資料中之非線性關係及處理與樣本數目相比更大數目之特徵的能力,其已成功地應用於基因體應用(例如,(3,5)),作為基因組學應用中之典型情形。簡言之,藉由構建決策樹來開始方法,其中各樹由來自訓練集之樣本子集建構。當考慮到分裂內部節點時,僅考慮總特徵中之特徵子集。各給定樣本之分類結果視為由森林中之所有樹進行決策的多數議決。隨機森林藉由在保持低偏差的同時減少差異來顯著提高決策樹之效能。
在當前上下文中,吾等藉由充當特徵之相對OTU豐度之向量來表示各樣本。當特徵之數目與樣本之數目相比可為較大的數量級且特徵與疾病病況之間的關係可為非線性時,隨機森林充當合理的分類模型。為了量測模型準確度,吾等使用約80%資料作為訓練集且在剩餘的測試集上報導預測準確度,而非借助於交叉驗證,此係因為隨機森林模型為集成學習方法。
對於實施,R中之「隨機森林」套裝軟體(v4.6-12)與以下值一起使用:mtry設定為總參數之平方根,樹之數目設定為1000,且吾等允許各樹生長至全尺寸。如結果中可見,袋外資料誤差通常在達至1000棵樹之前穩定。即使在一些情況下,吾等具有超過5,000個特徵,這看起來很大,但模型能夠就其自身而言選擇相關特徵,此係因為諸多OTU可對應於相同種或屬且因此未完全獨立。吾等亦觀測到多數特徵僅存在於小數目樣本中,此很可能係由於如由陽性對照組之分析所指示之批次效應或污染。因此,吾等僅保留滿足以下準則之特徵:各特徵至少出現在相對豐度至少為f % (預設f = 0. 05)之p % (預設p = 3) 的樣本中。然而,當此類特徵不斷地存在於單個群組中時,可能為真實的可辨別信號。為了避免錯誤地移除此類特徵,首先應用隨機置換以混洗樣本,且吾等應用以上準則且按輸入樣本之比例(例如,一半)來識別此等特徵。在特徵減少之後,特徵之數目變得與訓練樣本之數目類似且運行時間顯著減少。
預測 獨立驗證 模型之通用效能需要與用於模型構建之樣本不相關聯之獨立測試集。
為了預測新樣本之類別標記,存在兩種可行解決方案。可使用管線將新樣本與已知標記之樣本一起再處理,使得新樣本將具有與用於建構分類器之樣本相同的OTU標記之集合。隨後需要使用相同的已知樣本集合來重建隨機森林模型,且可隨後對新樣本進行預測。然而,此方法之主要不足之處為由OTU表構建步驟控制的運行時間。吾人可注意,隨機森林模型可依據所包括之樣本而略微變化,然而,只要訓練集足夠多樣化以擷取群組差異,效能將不會受影響。可替代地,吾等可直接使用用於預測之訓練集來應用隨機森林模型建構。為了新樣本具有一致OTU標記,吾等將新樣本與用於分類器之OTU表生產之共同序列進行比較,且在現有OTU標記不存在於新樣本中時,其設定為空的。
如同任何機器學習方法之一般情況一樣,預測準確度取決於建構模型之差異及偏差。在當前應用中,前者取決於OTU相對豐度是否可充當不同群組之可辨別信號,且後者取決於樣本大小及其他技術變量(諸如分析再生性),其為微生物群研究領域中之已知問題,其中在由不同的設備、不同的計算管線以及其他技術性難題(諸如批次效應及污染)處理時,相同樣本集之結果可不同。在一些情況下,偏差實際上難以克服,且當技術性變化(為簡單起見稱為批次效應)為強烈的,尤其用於多組分類時,用於預測之兩個前述策略難以一般化為獨立樣本。此等批次效應可能幾乎不可由計算方法(16)來校正。在彼等情況中,可使用添加策略以引入具有已知標記之樣本,該等樣本與新樣本再定序且根據模型獲取批次效應所需之樣本數目來鑑別模型效能。
結果 定序及元資料 儘管目標定序深度為50K,但吾等已獲得每個樣本平均80K片段(圖1)。在合併及品質篩選之後的片段之數目及百分比展示於圖1中。吾等獲得用於下游分析之平均超過60K有效片段。
由於年齡及性別為可影響微生物相組成且使分類結果失真之因素,吾等在圖2中概括所有三個批次之此等兩個因素。不同組之平均年齡集中在約60歲,且總體而言,吾等取樣之男性多於女性。對於第3批,吾等明確地控制年齡及性別之匹配,因此,與第1批及第2批相比,此等兩個因素較好地平衡。鑒於所觀測到之分佈,吾等不會期望其干擾分類結果。
由陽性對照樣本揭示之批次效應 吾等藉由比較陽性對照樣本之定序結果來量測批次效應。主要地,吾等量測標註屬/種之相對豐度、與實況重疊之屬/種之數目以及污染率的皮爾森相關性。詳細結果概述於以下中。總而言之,與在種層級下量測時相比,在屬層級下之所有度量值較好。在屬層級下,吾等觀測到皮爾森相關性在0.64至0.95範圍內(圖6A及圖6B)。與理論值8相比,所觀測到之屬之數目介於22-35範圍內(圖7A及圖7B)。觀測到三個層級之污染率:0.1%、9.1%及樣本中之一者中之非常高水準29.3%,此係由於主要污染物為擬桿菌屬(圖8)。儘管附注方法及所使用之資料庫之限制亦可為促成因素,但此等度量值與真實值之偏差似乎主要由於樣本中之污染。應注意,污染量測不會證明運行範圍內之污染現象,但的確在實踐中反映此事件之盛行率及嚴重性。
分類 癌症 (CR) 及正常 (NM) 由於吾等具有相對大量的正常及癌症樣本,吾等可量測給定不同數目之訓練樣本之分類準確度。此為吾等在區分兩組時可具有充分樣本數目以獲取可辨別信號時提供指導。吾等自三個定序批次彙集所有CR (259)及NM (328)樣本,且獲得使用80%、60%、40%及20%隨機所選擇之比例作為訓練資料及剩餘部分作為測試資料之結果。在訓練及測試資料內,正常及癌症樣本之比率與整體分佈一致。敏感度、特異性及準確度報導於表2中,其中敏感度 為正確鑑別之癌症患者之比例,特異性 為正確鑑別之正常患者之比例,且準確度 為正確預測的樣本之比例。
2. 對具有用作訓練集之不同數目之樣本的CR及NM組之測試集的分類結果。
訓練    測試            
# CR #NM # CR #NM 敏感度 特異性 準確度
207 271 52 57 0.981 1.000 0.991
160 201 99 127 0.990 0.992 0.991
99 127 160 201 0.981 1.000 0.992
52 57 207 271 0.986 0.993 0.990
即使當CR及NM之訓練樣本之數目減小至約50s時,吾等觀測到測試集中所有度量值之類似效能。此觀測結果指示良好的可辨別信號已經由癌症與正常組之間的OTU擷取。細節可於下文發現。
三個批次之 CR/JK 微生物群樣本之分類 背景
吾等對自三個批次之定序資料所彙集之CR(癌症)及JK(正常)樣本進行分類。首先,吾等使用各種類的80%來建立CR及JK之分類器,隨後對剩餘的20%進行測試。應用特徵選擇。
使用經標準化 OTU 表之隨機森林分類 1.將輸入tsv檔案轉換為適當格式且指定類別標記。 ## [1] "路徑:2018-03-23_cr_jk_c_b1_b2/otutab_norm.txt" ## ## ## | 樣本大小|OTU數目| ## |:-----------:|:--------:| ## |     587     |   5260   | ## ## 表:樣本及OTU之總數
2.特徵選擇 吾等選擇滿足相對豐度>0.05%之至少3%的樣本中出現的OTU。在每個樣本之經標準化計數為50,000之條件下,後者為> 25的計數。 ## ## ## |樣本大小|OTU數目| ## |:-----------:|:--------:| ## |     587     |   374    | ## ## 表:在特徵選擇之後,樣本及OTU之總數
3.製備訓練及測試資料 ## ## ## |樣本標記 | 樣本數目| ## |:-------------:|:-----------:| ## |訓練資料|     478     | ## | 測試資料 |     109     | ## ## 表:CR-JK訓練及測試樣本之數目
4.模型及訓練結果之資訊 ## ## 訪問: ##隨機森林(式=類型~ .,資料=訓練資料,重要性=TRUE,樹之數目=1000) ##               隨機森林之類型:分類 ##                      樹之數目:1000 ## 在各分枝下嘗試之變量數目:19 ## ##         OOB評估之錯誤率:0.84% ## 混淆矩陣: ##     CR  JK類別.誤差 ## CR 204   3 0.014492754 ## JK   1 270 0.003690037 ## ## ## |  CR   |  JK   |平均降低準確度 | 平均降低基尼 | Otu名稱 | ## |:-----:|:-----:|:--------------------:|:----------------:|:-------:| ## | 14.8  | 18.07 |        19.11         |      15.72       | Otu169  | ## | 14.65 | 16.76 |        17.61         |      18.74       | Otu101  | ## | 12.95 | 15.68 |         17.2         |      13.09       | Otu172  | ## | 12.39 | 14.22 |        15.57         |      11.17       | Otu147  | ## | 11.5  | 14.29 |        15.49         |      13.16       | Otu185  | ## | 12.26 | 12.66 |        14.65         |      8.406       | Otu121  | ## | 10.92 | 12.86 |        14.64         |      9.293       | Otu168  | ## | 10.32 | 13.37 |        13.64         |      8.828       | Otu142  | ## | 7.594 | 11.44 |        12.11         |      5.452       | Otu269  | ## | 9.924 | 6.921 |        10.43         |      4.488       | Otu309  | ## ##表:平均降低準確度之前10個最重要變量 (亦參見圖9及圖10)
5.對剩餘20%測試CR JK資料進行預測 ## ## ## | | CR | JK | ## |:------:|:--:|:--:| ## | **CR** | 51 | 0  | ## | **JK** | 1  | 57 | ## ## 表:對測試CR、JK樣本進行預測 ## ## ## |   度量指標   | 值 | ## |:-----------:|:-----:| ## |  準確度   | 0.991 | ## | 敏感度 | 0.981 | ## | 特異性 | 1.000 | ## ## 表:準確度
6.量測訓練樣本大小對分類結果之影響: 出於相對於所使用之樣本數目來量測準確度之目的,吾等使用80%、60%、40%及20%原始輸入樣本,且隨後量測效能。 ##對訓練集減少取樣至分數: 0.6 ## ## | 樣本大小 | OTU數目 | ## |:-----------:|:--------:| ## |     587     |   374    | ## ## 表:樣本及OUT之總數 ## ## ## ## |        | 訓練數目 | 測試數目 | ## |:------------:|:------:|:-----:| ## | **cr.FALSE** |  160   |  99   | ## | **jk.TRUE**  |  201   |  127  | ## ## 表:訓練數目及樣本之測試數目 ## ## ## ## | 樣本標記| 樣本數目 | ## |:-------------:|:-----------:| ## | 訓練資料 |     361     | ## |   測試資料   |     226     | ## ## 表:CR-JK訓練及測試樣本之數目 ## ## ## ## |  CR   |  JK   | 平均降低準確度 | 平均降低基尼 | Otu名稱 | ## |:-----:|:-----:|:--------------------:|:----------------:|:-------:| ## | 14.13 | 17.26 |        18.09         |      13.94       | Otu101  | ## | 13.77 |  17   |        17.67         |      13.53       | Otu169  | ## | 10.6  | 14.86 |        15.64         |      11.29       | Otu172  | ## | 11.89 | 13.4  |        15.04         |      7.694       | Otu147  | ## | 10.78 | 12.05 |        13.76         |      7.281       | Otu185  | ## | 11.3  | 11.4  |        13.02         |      6.595       | Otu121  | ## | 8.432 | 12.64 |        12.72         |      6.704       | Otu142  | ## | 9.79  | 10.73 |         11.9         |      7.317       | Otu168  | ## | 7.176 | 10.57 |        11.18         |      4.067       | Otu269  | ## | 8.04  | 9.096 |        10.34         |       3.59       | Otu848  | ## ## 表:平均降低準確度之前10個最重要變量 ## ## ## ## | | CR | JK  | ## |:------:|:--:|:---:| ## | **CR** | 98 |  1  | ## | **JK** | 1  | 126 | ## ## 表:對測試CR、JK樣本進行預測 ## ## ## ## |   度量指標   | 值 | ## |:-----------:|:-----:| ## |  準確度   | 0.991 | ## | 敏感度 | 0.990 | ## | 特異性 | 0.992 | ## ## 表:準確度 ## ##對訓練集減少取樣至分數:0.4 ## ## | 樣本大小 | OTU數目 | ## |:-----------:|:--------:| ## |     587     |   374    | ## ## 表:樣本及OTU之總數 ## ## ## ## |        | 訓練數目 | 測試數目| ## |:------------:|:------:|:-----:| ## | **cr.FALSE** |   99   |  160  | ## | **jk.TRUE**  |  127   |  201  | ## ## 表:訓練數目及樣本之測試數目 ## ## ## ## | 樣本大小 | 樣本數目 | ## |:-------------:|:-----------:| ## | 訓練資料|     226     | ## |   測試資料   |     361     | ## ## 表:CR-JK訓練及測試樣本之數目 ## ## ## ## |  CR   |  JK   | 平均降低準確度 | 平均降低基尼 | Otu名稱 | ## |:-----:|:-----:|:--------------------:|:----------------:|:-------:| ## | 11.99 | 13.75 |        14.44         |       7.69       | Otu101  | ## | 10.79 | 13.05 |        13.54         |      5.687       | Otu172  | ## | 10.54 | 12.95 |        13.31         |      5.934       | Otu169  | ## | 9.98  | 11.41 |         12.9         |      4.598       | Otu168  | ## | 8.909 | 11.33 |        12.08         |      4.178       | Otu185  | ## | 9.39  | 10.99 |        11.94         |      3.899       | Otu121  | ## | 8.232 | 11.49 |        11.56         |      4.031       | Otu142  | ## | 10.73 | 10.27 |        11.51         |      4.626       | Otu147  | ## | 8.56  | 6.709 |        9.224         |      2.004       | Otu309  | ## | 6.566 | 7.512 |        8.611         |      1.992       |  Otu10  | ## ## 表:平均降低準確度之前10個最重要變量 ## ## ## ## | | CR  | JK  | ## |:------:|:---:|:---:| ## | **CR** | 157 |  0  | ## | **JK** |  3  | 201 | ## ## 表:對測試CR、JK樣本進行預測 ## ## ## ## |   度量標準   | 值 | ## |:-----------:|:-----:| ## |  準確度   | 0.992 | ## | 敏感度 | 0.981 | ## | 特異性 | 1.000 | ## ## 表:準確度 ## ##對訓練集減少取樣至分數: 0.2 ## ## | 樣本大小 | OTU數目 | ## |:-----------:|:--------:| ## |     587     |   374    | ## ## 表:樣本及OTU之總數 ## ## ## ## |        | 訓練數目| 測試數目| ## |:------------:|:------:|:-----:| ## | **cr.FALSE** |   52   |  207  | ## | **jk.TRUE**  |   57   |  271  | ## ## 表:訓練數目及樣本之測試數目 ## ## ## ## | 樣本標記| 樣本數目| ## |:-------------:|:-----------:| ## | 訓練資料 |     109     | ## |  測試資料   |     478     | ## ## 表:CR-JK訓練及測試樣本之數目 ## ## ## ## |  CR   |  JK   | 平均降低準確度 | 平均降低基尼 | Otu名稱 | ## |:-----:|:-----:|:--------------------:|:----------------:|:-------:| ## | 9.483 | 11.55 |        11.79         |      3.107       | Otu169  | ## | 8.626 | 10.52 |        10.62         |      2.916       | Otu101  | ## | 7.899 | 9.749 |        10.04         |      2.255       | Otu172  | ## | 7.981 | 9.202 |        9.839         |      2.057       | Otu168  | ## | 7.313 | 9.554 |        9.755         |       2.25       | Otu185  | ## | 8.626 | 8.475 |        9.192         |      2.261       | Otu147  | ## | 6.588 | 8.642 |        8.809         |      1.642       | Otu121  | ## | 6.953 | 7.696 |        8.642         |      1.614       |  Otu47  | ## | 4.057 | 7.326 |        7.357         |      0.8975      | Otu142  | ## | 5.312 | 6.891 |        7.279         |      1.118       |  Otu10  | ## ## 表:平均降低準確度之前10個最重要變量 ## ## ## ## | | CR  | JK  | ## |:------:|:---:|:---:| ## | **CR** | 204 |  2  | ## | **JK** |  3  | 269 | ## ## 表:對測試CR、JK樣本進行預測 ## ## ## ## |   度量標準   | 值 | ## |:-----------:|:-----:| ## |  準確度   | 0.990 | ## | 敏感度 | 0.986 | ## | 特異性 | 0.993 | ## ## 表:準確度
預測 CR NM 第2批及第3批樣本在單獨的時間點獨立地定序,充當獨立測試集。吾等使用完整的第2批或第3批樣本中之一者來建構分類器,且使用分類器以預測另一批次上之類別標記。此移除潛在的批次效應及其他技術雜訊,諸如可能會干擾模型效能之污染。如表3中所展示,自第2批或第3批建構之分類器之效能為類似的。如所預期,在與使用彙集資料相比時,敏感度、特異性及準確度皆減小2-3% (表2)。當樣本彙集在一起時,效能很可能略微較好,此係由於批次效應由模型擷取。然而,真實生物信號與批次效應相比更強,使得達成預測任務之良好結果。預測之細節可於下文發現。 3. 具有來自獨立定序批次之訓練及測試資料之CR及NM的分類結果。
訓練 測試         
# CR # CR 敏感度 特異性 準確度
第2批 第3批    0.9600 0.9600 0.9596 0.9600
第3批 第2批    0.9600 0.9608 0.9600 0.9604
使用 CR/JK 、五個組、三個組、 CR/NC AD/NM 分類器之預測 1.對Flemer2017樣本之預測 ## 混淆矩陣及統計資料 ## ##           參考 ## 預測CR JK ##         CR  6  0 ##         JK 37 37 ## ##                準確度: 0.5375 ##                  95% CI : (0.4224, 0.6497) ##     無資訊率:0.5375 ##     P-值[Acc > NIR] : 0.5457 ## ##                   κ:0.1304 ##  Mcnemar之測試P-值: 3.252e-09 ## ##             敏感度:0.1395 ##             特異性: 1.0000 ##          正預測值: 1.0000 ##          負預測值: 0.5000 ##              盛行率: 0.5375 ##          偵測速率: 0.0750 ##    偵測速率: 0.0750 ##       平衡準確度:0.5698 ## ##        「正」類別:CR ##
2.使用由b1建構之分類器對b2樣本進行CR/JK預測。 ## 混淆矩陣及統計資料 ## ##           參考 ## 預測CR JK ##         CR 96  4 ##         JK  4 95 ## ##                準確度0.9598 ##                  95% CI : (0.9223, 0.9825) ##     無資訊率:0.5025 ##     P-值 [Acc > NIR] : <2e-16 ## ##                   κ:0.9196 ##  Mcnemar之測試P-值: 1 ## ##             敏感度: 0.9600 ##             特異性: 0.9596 ##          正預測值:0.9600 ##          負預測值:0.9596 ##              盛行率:0.5025 ##          偵測速率: 0.4824 ##    偵測盛行率:0.5025 ##       平衡準確度: 0.9598 ## ##        「正」類別:CR ##
3.使用由b2建構之分類器對b1樣本進行CR/JK預測。 ## 混淆矩陣及統計資料 ## ##           參考 ## 預測CR JK ##         CR 98  4 ##         JK  4 96 ## ##                準確度:0.9604 ##                  95% CI : (0.9235, 0.9827) ##     無資訊率: 0.505 ##     P-值 [Acc > NIR] : <2e-16 ## ##                   κ: 0.9208 ##  Mcnemar之測試P-值: 1 ## ##             敏感度:0.9608 ##             特異性: 0.9600 ##          正預測值: 0.9608 ##          負預測值: 0.9600 ##              盛行率: 0.5050 ##          偵測速率: 0.4851 ##    偵測盛行率: 0.5050 ##       平衡準確度: 0.9604 ## ##        「正」類別:CR ##
4.使用由b1樣本建構之三組分類器對b2樣本進行CR/JK預測。 ## 混淆矩陣及統計資料 ## ##           參考 ## 預測 CR S1_XR_JK S2_JZ_FJ ##   CR        90        3        7 ##   S1_XR_JK   1       31       14 ##   S2_JZ_FJ   9      165      179 ## ## 整體統計資料 ## ##                準確度:0.6012 ##                  95% CI : (0.5567, 0.6445) ##     無資訊率: 0.4008 ##     P-值 [Acc > NIR] : < 2.2e-16 ## ##                   κ:0.3764 ##  Mcnemar之測試P-值: < 2.2e-16 ## ## 類別之統計資料: ## ##                      類別: CR類別: S1_XR_JK 類別: S2_JZ_FJ ## 敏感度            0.9000         0.15578          0.8950 ## 特異性             0.9749         0.95000          0.4181 ## 正預測值          0.9000         0.67391          0.5071 ##負預測值          0.9749         0.62914          0.8562 ## 盛行率              0.2004         0.39880          0.4008 ## 偵測速率          0.1804         0.06212          0.3587 ##偵測盛行率    0.2004         0.09218          0.7074 ## 平衡準確度       0.9375         0.55289          0.6565
5.使用由所彙集之b1及B2樣本之一半建構的三組分類器對另一半進行預測。 ## 混淆矩陣及統計資料 ## ##          參考 ## 預測 CR S1_XR_JK S2_JZ_FJ ##   CR        73        2        3 ##   S1_XR_JK   3      130       63 ##   S2_JZ_FJ  26       64      133 ## ## 整體統計資料 ## ##                準確度: 0.6761 ##                  95% CI : (0.633, 0.7171) ##     無資訊率:0.4004 ##     P-值 [Acc > NIR] : < 2.2e-16 ## ##                   κ:0.4879 ##  Mcnemar之測試P-值:0.0003553 ## ## 類別之統計資料: ## ##                      類別:CR類別: S1_XR_JK類別: S2_JZ_FJ ## 敏感度             0.7157          0.6633          0.6683 ## 特異性             0.9873          0.7807          0.6980 ## 正預測值         0.9359          0.6633          0.5964 ##負預測值          0.9308          0.7807          0.7591 ## 盛行率             0.2052          0.3944          0.4004 ## 偵測速率          0.1469          0.2616          0.2676 ##偵測盛行率    0.1569          0.3944          0.4487 ## 平衡準確度       0.8515          0.7220          0.6832
6.使用由b1建構之分類器對b2樣本進行CR/NC預測。 ## 混淆矩陣及統計資料 ## ##           參考 ## 預測  CR  NC ##         CR  91   7 ##         NC   9 193 ## ##                準確度: 0.9467 ##                  95% CI : (0.9148, 0.9692) ##     無資訊率:0.6667 ##     P-值 [Acc > NIR] : <2e-16 ## ##                   κ: 0.8794 ##  Mcnemar之測試P-值: 0.8026 ## ##             敏感度: 0.9100 ##             特異性: 0.9650 ##          正預測值:0.9286 ##          負預測值:0.9554 ##              盛行率:0.3333 ##          偵測速率:0.3033 ##    偵測盛行率0.3267 ##       平衡準確度:0.9375 ## ##        「正」類別:CR ##
7.使用由b1建構之分類器對b2樣本進行CR/NM預測。 ## 混淆矩陣及統計資料 ## ##           參考 ## 預測  AD  NM ##         AD 183 165 ##         NM  17  34 ## ##                準確度:0.5439 ##                  95% CI : (0.4936, 0.5935) ##     無資訊率:0.5013 ##     P-值 [Acc > NIR] : 0.04919 ## ##                   κ:0.086 ##  Mcnemar之測試P-值: < 2e-16 ## ##             敏感度: 0.9150 ##             特異性:0.1709 ##          正預測值:0.5259 ##          負預測值:0.6667 ##              盛行率:0.5013 ##          偵測速率:0.4586 ##    偵測盛行率:0.8722 ##       平衡準確度:0.5429 ## ##        「正」類別:AD ##
干擾因素 干擾因素可能使分類結果產生偏差或甚至無效。在微生物群研究中,年齡及性別為兩種主要干擾因素(1)。儘管吾等在第3批中特別控制且平衡此等兩個因素(圖2),但整體分佈在合併之資料集中仍然失真。因此,吾等使用所有資料單獨使用此等兩個因素來實施癌症及正常分類,且圖3中之結果展示37%之較大袋外資料誤差率,其再次確保吾等模型之良好效能未受年齡或性別干擾。
CR NM 之間的 大多數可辨別 OTU 之標註 吾等分析由隨機森林分類器模型中之平均降低準確度值之遞減次序排列之OTU的分類標註。此度量值指示特徵在判定模型準確度中之重要性。因此,其充當合理的量度以判斷OTU之相對顯著性。僅考慮任意選擇之截斷值為1%的OTU。因此,三種不同模型(亦即使用80%所彙集之第2批及第3批樣本進行訓練)中之OTU數目分別為295、270及276。三者中共享172個OTU。隨後根據RDP資料庫標註此等OTU,且結果可見於序列表中。
出於說明之目的,吾等僅將具有平均降低準確度之最高平均值的前十個OTU包括於表4中。在該表中,第一行指示OTU ID,第二行指示RDP標註,且第三行指示如下文所描述之文獻索引。
4. 在使用80%所彙集之第2批及第3批樣本訓練之三個模型中共享前十個最可辨別OTU之標註。OTU按平均降低準確度之遞減平均值排序。o、f、g、s代表目、科、屬及物種。若經指定,則最後一行指明依據Amitay等人(1)表3在評論文章中所列舉之相對應之Otu的最低分類等級。Otu 標註 文獻
Otu101   d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:普雷沃菌科,g:普雷沃菌屬,s:中間普雷沃菌                                                                                                  -
Otu169   d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:卟啉單胞菌科,g:卟啉單胞菌屬                                                                                                                            g
Otu172d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:消化鏈球菌屬,s:口消化鏈球菌                                                                                                  s
Otu121   d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:擬桿菌科,g:擬桿菌屬,s:諾迪擬桿菌                                                                                                              g
Otu185    d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌屬未定地位XI,g:微單胞菌屬,s:微米微單胞菌屬                                                                                              s
Otu168   d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,G:小桿菌屬,s:害肺小桿菌                                                                                            f
Otu147   d:細菌,p:梭桿菌門,c:梭桿菌綱,o:梭桿菌目,f:梭桿菌科,g:梭桿菌屬                                                                                                                                            g
Otu47     d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:羅布斯塔菌屬(Romboutsia),s:沈澱性羅布斯塔菌(Romboutsia sedimentorum)                      f
Otu142   d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:卟啉單胞菌科,g:卟啉單胞菌屬,s:牙髓卟啉單胞菌                                                                                      g
Otu10     d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科                    o
額外OTU提供於下表4.1中。 表4.1 Otu 名稱 & 標註 & 平均降低準確度 & 平均降低基尼 Otu101 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:中間普雷沃菌& 13.7943412899552 & 9.83248647017192 Otu169 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:卟啉單胞菌屬& 13.7600435495905 & 8.12128975132281 Otu172 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:消化鏈球菌屬,s:口消化鏈球菌& 13.6778234428472 & 7.36773046283307 Otu121 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:諾迪擬桿菌& 12.602462030566 & 5.40850402965016 Otu185 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌目未定地位_XI,g:微單胞菌屬,s:微米微單胞菌屬& 11.761749579234 & 6.96865363352588 Otu168 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,g:小桿菌屬,s:害肺小桿菌& 11.2576402472093 & 4.90345046638003 Otu147 &d:細菌,p:「梭桿菌門」,c:梭桿菌綱,o:「梭桿菌目」,f:「梭桿菌科」,g:梭桿菌屬& 10.9798502944643 & 5.53237578286622 Otu47 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:羅布斯塔菌屬,s:沈澱性羅布斯塔菌& 10.1753917813117 & 3.81119243257835 Otu142 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:卟啉單胞菌屬,s:牙髓卟啉單胞菌& 10.1416113538782 & 4.65257117837514 Otu10 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 9.69010898213964 & 3.46458888547762 Otu269 &d:細菌,p:厚壁菌門,c:芽孢桿菌綱(Bacilli),o:芽孢桿菌目(Bacillales),f:芽孢桿菌目未定地位_XI,g:孿生球菌屬(Gemella)& 8.47014884120977 & 2.43732800289972 Otu72 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌科_1,g:狹義梭菌屬(Clostridium_sensu_stricto)& 7.89194137307301 & 2.50748599176825 Otu848 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:瘤胃球菌屬2(Ruminococcus2),s:扭鏈瘤胃球菌(Ruminococcus_torques)& 7.80390019103822 & 2.46576850165491 Otu141 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:毛螺菌科未定地位,s:霍氏真桿菌(Eubacterium_hallii)& 7.73321972215815 & 2.51220647076684 Otu309 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:丁酸球菌屬(Butyricicoccus),s:普利堪克姆丁酸球菌(Butyricicoccus_pullicaecorum)& 7.6800820554995 & 2.24980167781013 Otu85 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:臭氣桿菌屬(Odoribacter),s:內臟臭氣桿菌(Odoribacter_splanchnicus)& 7.35446389470393 & 1.3979364158731 Otu111 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:副擬桿菌屬(Parabacteroides),s:戈德斯坦副擬桿菌(Parabacteroides_goldsteinii)& 7.30192582164287 & 1.67450745344268 Otu84 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVb& 7.27172325900029 & 1.80487391969814 Otu59 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 6.44853680333582 & 1.32138594220709 Otu52 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 6.4160996927843 & 1.16261064298115 Otu423 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:副擬桿菌屬& 6.25151810459073 & 1.33645322210194 Otu173 &d:細菌,p:「梭桿菌門」,c:梭桿菌綱,o:「梭桿菌目」,f:「梭桿菌科」,g:梭桿菌屬,s:馬梭桿菌(Fusobacterium_equinum)& 6.24608499354993 & 0.891834073083887 Otu26 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:布勞特氏菌(Blautia),s:韋克斯勒布勞特氏菌(Blautia_wexlerae)& 6.12695291174358 & 1.10524243371151 Otu271 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:卟啉單胞菌屬,s:梭形卟啉單胞菌(Porphyromonas_somerae)& 5.96932923671922 & 0.809478873317209 Otu20 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:脆弱擬桿菌(Bacteroides_fragilis)& 5.9646209916872 & 1.31438877628573 Otu33 &d:細菌,p:「疣微菌門(Verrucomicrobia)」,c:疣微菌綱,o:疣微菌目,f:疣微菌科,g:阿克曼氏菌屬(Akkermansia),s:嗜黏蛋白阿克曼氏菌(Akkermansia_muciniphila)& 5.8989902784533 & 1.1344669200008 Otu81 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 5.82374608835491 & 1.54889847520407 Otu2745 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:糞普雷沃菌(Prevotella_stercorea)& 5.66871908025159 & 1.28437240850829 Otu4384 & d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:胺基酸球菌科(Acidaminococcaceae),g:考拉桿菌屬(Phascolarctobacterium),s:糞考拉桿菌(Phascolarctobacterium_faecium)& 5.52043749491481 & 0.420271701946243 Otu148 & d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:腸桿狀菌屬(Intestinibacter),s:巴特利特氏腸桿狀菌(Intestinibacter_bartlettii)& 5.41945049407486 & 0.842883283253836 Otu1777 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:人體普雷沃菌(Prevotella_copri)& 5.33503317698889 & 0.648348328905093 Otu4342 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:泰瑞孢子菌屬(Terrisporobacter),s:甘油利用泰瑞孢子菌(Terrisporobacter_glycolicus)& 5.33274424863514 & 0.710046587499439 Otu76 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:胺基酸球菌科,g:考拉桿菌屬,s:嗜琥珀酸考拉桿菌(Phascolarctobacterium_succinatutens)& 5.32415139654529 & 1.07287902798243 Otu155 &d:細菌,p:「互養菌門」,c:互養菌綱,o:互養菌目,f:互養菌科,g:錐形桿菌屬(Pyramidobacter),s:魚腥味錐形桿菌(Pyramidobacter_piscolens)& 5.30041145292807 & 0.532092720378172 Otu106 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:薩利爾斯氏擬桿菌(Bacteroides_salyersiae)& 5.27691156894213 & 0.704064927855818 Otu82 &d:細菌,p:「變形菌門(Proteobacteria)」,c:β變形菌綱(Betaproteobacteria),o:伯克霍爾德氏菌目(Burkholderiales),f:薩特菌科(Sutterellaceae),g:薩特菌屬& 5.2437877972519 & 0.916433764419022 Otu35 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「理研菌科(Rikenellaceae)」,g:另枝菌屬(Alistipes),s:德東克另枝菌(Alistipes_onderdonkii)& 5.18360405074251 & 0.76182460502378 Otu3312 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌科_1,g:狹義梭菌屬& 5.12448018510061 & 1.2995460402096 Otu253 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:瘤胃球菌屬,s:黃化瘤胃球菌(Ruminococcus_flavefaciens)& 5.01593910842362 & 0.950489489552967 Otu351 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:丁酸弧菌屬(Butyricimonas),s:人臉丁酸弧菌(Butyricimonas_faecihominis)& 4.94622364446024 & 0.772092262070063 Otu98 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「理研菌科」,g:另枝菌屬,s:薩希另枝菌(Alistipes_shahii)& 4.9265290619132 & 0.484605626680004 Otu77 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬& 4.86175121992317 & 1.20142046245559 Otu317 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:丁酸弧菌屬,s:副丁酸弧菌(Butyricimonas_paravirosa)& 4.78124294124035 & 1.08675849249154 Otu153 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 4.77621244980273 & 0.505182479173224 Otu83 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:糞球菌屬(Coprococcus),s:一致糞球菌(Coprococcus_eutactus)& 4.62649902286053 & 0.579988780285664 Otu60 &d:細菌,p:「變形菌門」,c:變形菌綱(Deltaproteobacteria),o:脫硫弧菌目(Desulfovibrionales),f:脫硫弧菌科(Desulfovibrionaceae),g:嗜膽菌屬(Bilophila),s:沃氏嗜膽菌(Bilophila_wadsworthia)& 4.58228432357164 & 0.482910634332228 Otu287 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:顫桿菌克屬(Oscillibacter)& 4.3480408468567 & 0.627989174153698 Otu78 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 4.25273477261076 & 0.345090535435327 Otu2074 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 4.19168565814693 & 0.833783613563489 Otu118 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:布勞特氏菌屬(Blautia)& 4.10119372513613 & 0.393811168404519 Otu23 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 4.1001842535131 & 0.422732522859675 Otu18 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「理研菌科」,g:另枝菌屬& 4.05704708781915 & 0.467682866630194 Otu264 &d:細菌,p:「放線菌門(Actinobacteria)」,c:放線菌綱,o:放線菌目,f:諾卡氏菌科(Nocardiaceae),g:諾卡氏菌屬,s:空腔諾卡氏菌(Nocardia_coeliaca)& 4.04731217339991 & 0.828711662376662 Otu218 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:糞普雷沃菌& 4.02023860335542 & 0.604243441207422 Otu97 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVa & 3.90813842505155 & 0.387375128776727 Otu191 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:厭氧桿菌屬(Anaerotruncus),s:人類大腸厭氧桿菌(Anaerotruncus_colihominis)& 3.89915867132865 & 0.570306115817279 Otu175 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 3.89077367715736 & 0.38844488215353 Otu265 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:瘤胃球菌屬& 3.88089562006944 & 0.344105771852526 Otu727 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 3.8758534592987 & 0.484685400173847 Otu266 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」& 3.86783248378869 & 0.19799633775168 Otu723 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 3.85242756965532 & 0.282801172808673 Otu7 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:單形擬桿菌(Bacteroides_uniformis)& 3.8065043922493 & 0.329438846721559 Otu21 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:毛螺菌科未定地位,s:挑剔真桿菌(Eubacterium_eligens)& 3.80126351761255 & 0.444516015697381 Otu22 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,g:巨單胞菌屬(Megamonas),s:單形巨單胞菌(Megamonas_funiformis)& 3.71766759392569 & 0.195933894693333 Otu224 &d:細菌,p:厚壁菌門,c:芽孢桿菌綱,o:乳桿菌目,f:鏈球菌科,g:鏈球菌屬& 3.71020513681508 & 0.25581950882642 Otu2109 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 3.70216652149231 & 0.365839982738123 Otu2060 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 3.69633802060259 & 0.395815871333106 Otu90 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 3.65702177036977 & 0.299636570294157 Otu348 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:丁酸弧菌屬& 3.65525080958422 & 0.222183262159006 Otu3254 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「理研菌科」,g:另枝菌屬,s:芬戈爾德氏另枝菌(Alistipes_finegoldii)& 3.64447212313583 & 0.338448240628326 Otu316 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:木糖降解擬桿菌(Bacteroides_xylanisolvens)& 3.64238523653699 & 0.53266003775059 Otu1264 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 3.58565897976223 & 0.460049748834728 Otu164 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 3.51368756410499 & 0.514723500523881 Otu15 & d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:多形擬桿菌(Bacteroides_thetaiotaomicron)& 3.44288627468682 & 0.52939450434855 Otu1168 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 3.38497643190079 & 0.215602689462476 Otu105 &d:細菌,p:「放線菌門」,c:放線菌綱,o:雙歧桿菌目(Bifidobacteriales),f:雙歧桿菌科,g:雙岐桿菌屬& 3.37211346365296 & 0.327187921839971 Otu248 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 3.32214409123697 & 0.425238478381044 Otu410 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 3.30288192561728 & 0.125663216048697 Otu177 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬& 3.27044511626177 & 0.223118179430504 Otu274 &d:細菌& 3.16780822565938 & 0.0803245187481717 Otu704 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 3.15847365410314 & 0.1451100410588 Otu36 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:糞擬桿菌& 3.15801571908562 & 0.185221033755153 Otu160 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,g:韋榮氏球菌屬,s:大型韋榮氏球菌(Veillonella_magna)& 3.12333106757157 & 0.084711377604504 Otu336 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬& 3.09684587237006 & 0.112261991219131 Otu235 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」& 3.09438367534219 & 0.232199026269785 Otu2231 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:厭氧桿菌屬,s:人類大腸厭氧桿菌& 3.04296587460515 & 0.158223508241415 Otu107 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:丁酸弧菌屬,s:龐大真桿菌(Eubacterium_hadrum)& 2.98593610168943 & 0.232812008400764 Otu96 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:毛螺菌科未定地位& 2.98225575498437 & 0.105427685386433 Otu79 &d:細菌,p:厚壁菌門& 2.98120624114534 & 0.106896245872236 Otu93 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」& 2.9479410810479 & 0.2765692890981 Otu89 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:真桿菌科,g:真桿菌屬,s:產糞甾醇真桿菌(Eubacterium_coprostanoligenes)& 2.93433072901629 & 0.254358672819042 Otu16 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 2.92181685324236 & 0.148790353205781 Otu3 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:人體普雷沃菌& 2.90120890308239 & 0.278575486425403 Otu174 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:瘤胃球菌屬,s:香檳氏瘤胃球菌(Ruminococcus_champanellensis)& 2.86991039022236 & 0.161845949318228 Otu34 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 2.86277209414093 & 0.136104587463048 Otu450 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:丁酸弧菌屬& 2.84990574675875 & 0.104419029056058 Otu4397 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:普通擬桿菌(Bacteroides_plebeius)& 2.83725087022718 & 0.182106886898651 Otu122 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌科_1,g:狹義梭菌屬& 2.82856887827566 & 0.108670043639969 Otu967 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬& 2.80817869556781 & 0.173643923405744 Otu1944 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌科_1,g:狹義梭菌屬,s:類腐敗梭菌(Clostridium_paraputrificum)& 2.71023404713693 & 0.100466624560385 Otu1941 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.69838743711004 & 0.142278127176266 Otu39 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:糞普雷沃菌& 2.63842518186387 & 0.141027507352634 Otu135 &d:細菌,p:「梭桿菌門」,c:梭桿菌綱,o:「梭桿菌目」,f:「梭桿菌科」,g:鯨桿菌屬(Cetobacterium),s:梭形鯨桿菌(Cetobacterium_somerae)& 2.61968268548529 & 0.0831505189137432 Otu2059 &d:細菌,p:厚壁菌門,c:芽孢桿菌綱,o:乳桿菌目,f:鏈球菌科,g:鏈球菌屬& 2.61413664120766 & 0.175922168709985 Otu2666 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 2.58883232060338 & 0.112654703184687 Otu6 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.58310675012197 & 0.177798986648724 Otu1226 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVa,s:奧德氏梭菌(Clostridium_aldenense)& 2.55929498462539 & 0.221048689629986 Otu1013 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.55055552177418 & 0.143658469390376 Otu12 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:糞便擬桿菌(Bacteroides_stercoris)& 2.51708008793652 & 0.103915012493887 Otu3144 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.51673692049532 & 0.165227082965755 Otu237 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬& 2.51117802646258 & 0.226025083820349 Otu279 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:副擬桿菌屬,s:戈登氏副擬桿菌(Parabacteroides_gordonii)& 2.48048095113267 & 0.100806236371619 Otu64 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:副普雷沃氏菌屬(Paraprevotella),s:克拉氏副普雷沃氏菌(Paraprevotella_clara)& 2.46395765375973 & 0.0690878515368844 Otu25 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.45023659597359 & 0.214516967460789 Otu19 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:副擬桿菌屬,s:糞副擬桿菌(Parabacteroides_merdae)& 2.44204192953914 & 0.152688966441248 Otu2406 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:糞球菌屬,s:一致糞球菌& 2.388647764166 & 0.179625343318508 Otu2441 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:糞普雷沃菌& 2.36221022347778 & 0.0860287788041391 Otu4383 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」& 2.30917215168753 & 0.169677409577486 Otu785 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 2.2979764524382 & 0.120920186197908 Otu184 &d:細菌,p:「變形菌門」,c:α變形菌綱& 2.2953335860093 & 0.125357854092819 Otu529 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 2.28626290793623 & 0.0591800476336016 Otu211 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬& 2.27530944518009 & 0.0825446930662444 Otu1285 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「理研菌科」,g:另枝菌屬& 2.27216170398856 & 0.10048598114358 Otu154 &d:細菌,p:「變形菌門(Proteobacteria)」,c:β變形菌綱,o:伯克霍爾德氏菌目,f:薩特菌科,g:薩特菌屬,s:沃茲沃思薩特菌(Sutterella_wadsworthensis)& 2.26681317274378 & 0.095794761955645 Otu73 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:埃氏擬桿菌(Bacteroides_eggerthii)& 2.23490099723446 & 0.100177500333695 Otu110 &d:細菌,p:厚壁菌門,c:丹毒絲菌綱(Erysipelotrichia),o:丹毒絲菌目,f:丹毒絲菌科,g:霍爾德曼氏菌屬(Holdemanella),s:兩形霍爾德曼氏菌(Holdemanella_biformis)& 2.21687067076921 & 0.0810713870408617 Otu323 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬& 2.21189156399316 & 0.0498167164045447 Otu30 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.20972306269567 & 0.124888017222478 Otu197 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:瘤胃球菌屬& 2.19787510012812 & 0.0688095464180803 Otu325 &d:細菌,p:厚壁菌門& 2.19765719927231 & 0.0724881781650027 Otu92 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 2.19754290190436 & 0.0977614715791891 Otu137 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:氟擬桿菌(Bacteroides_fluxus)& 2.19259587590723 & 0.0957227663704627 Otu398 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVb,s:乳酸醱酵梭菌(Clostridium_lactatifermentans)& 2.16619612097008 & 0.13243012390506 Otu24 & d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:殼梭桿菌屬(Fusicatenibacter),s:沙卡林殼梭桿菌(Fusicatenibacter_saccharivorans)& 2.13601207826098 & 0.109004618099555 Otu1310 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVa,s:拉瓦氏梭菌(Clostridium_lavalense)& 2.10031266330233 & 0.0681859590894292 Otu61 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 2.06621226238679 & 0.0812814627693076 Otu341 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬& 2.05394025479534 & 0.0660563999551188 Otu181 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 2.04844656233313 & 0.0571401007980638 Otu143 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:丁酸弧菌屬,s:惡臭丁酸弧菌(Butyricimonas_virosa)& 2.03243584288693 & 0.0970020028567559 Otu67 &d:細菌,p:「變形菌門」,c:β變形菌綱,o:伯克霍爾德氏菌目,f:薩特菌科,g:副薩特菌屬,s:人類糞便副薩特菌(Parasutterella_excrementihominis)& 2.03180324746581 & 0.0936881467159242 Otu252 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:丁酸弧菌屬& 2.02940489409138 & 0.070616655927486 Otu492 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬& 2.02849125631133 & 0.0961577655297611 Otu102 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 2.02671995711953 & 0.0547494767351553 Otu844 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.01976446057376 & 0.103854802087175 Otu167 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:瘤胃球菌屬,s:伶俐瘤胃球菌(Ruminococcus_callidus)& 2.00637176738852 & 0.0686186701834018 Otu268 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:糞桿菌屬(Coprobacter),s:苛求糞桿菌(Coprobacter_fastidiosus)& 1.99552235062283 & 0.12422248748126 Otu53 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:黃桿菌屬,s:普氏黃桿菌(Flavonifractor_plautii)& 1.98477602820225 & 0.154388346573957 Otu134 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:瘤胃球菌屬,s:布氏瘤胃球菌(Ruminococcus_bromii)& 1.943819299683 & 0.078283004968428 Otu162 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 1.90030595960624 & 0.0563884110984546 Otu100 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 1.82797703408088 & 0.0738899503135034 Otu4152 &d:細菌,p:「放線菌門」,c:放線菌綱,o:雙歧桿菌目,f:雙歧桿菌科,g:雙岐桿菌屬,s:兩岐雙岐桿菌(Bifidobacterium_bifidum)& 1.82566704030467 & 0.099354472367359 Otu777 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:副擬桿菌屬& 1.7657225582824 & 0.0325864924110219 Otu54 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:顫桿菌克屬& 1.7519877374647 & 0.0847745772082939 Otu1438 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:毛螺菌科未定地位& 1.73280842049184 & 0.0526217992535465 Otu51 &d:細菌,p:「變形菌門」,c:β變形菌綱,o:伯克霍爾德氏菌目& 1.72804826925365 & 0.12269085994415 Otu1111 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:糞球菌屬,s:陪伴糞球菌(Coprococcus_comes)& 1.71550934616673 & 0.144405921174456 Otu405 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:巴恩斯氏擬桿菌(Bacteroides_barnesiae)& 1.70880833677066 & 0.0246207576224092 Otu213 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,g:小桿菌屬,s:嗜琥珀酸小桿菌(Dialister_succinatiphilus)& 1.70144938188134 & 0.0816118396027724 Otu2399 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 1.69365497194395 & 0.041528439217283 Otu40 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:瘤胃球菌屬2,s:糞瘤胃球菌(Ruminococcus_faecis)& 1.68166001885592 & 0.106539911906408 Otu115 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,g:巨型球菌屬(Megasphaera)& 1.64501381637878 & 0.0824926787147221 Otu1576 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,g:巨單胞菌屬,s:單形巨單胞菌& 1.61456104357672 & 0.066220021010319 Otu1214 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:副擬桿菌屬,s:戈登氏副擬桿菌& 1.60397148374387 & 0.053135067964 Otu128 &d:細菌,p:「變形菌門」,c:α變形菌綱& 1.60113768726192 & 0.047269458772049 Otu32 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:嗜糞擬桿菌(Bacteroides_coprophilus)& 1.5704063903467 & 0.0688575737639849 Otu1386 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 1.53353997109029 & 0.0442083115662555 Otu2 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:糞桿菌屬,s:普氏糞桿菌(Faecalibacterium_prausnitzii)& 1.51051364783698 & 0.0746406775857877 Otu1841 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVa& 1.50471587369414 & 0.0457896807308778 Otu123 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:副普雷沃菌屬,s:嗜木糖副普雷沃菌(Paraprevotella_xylaniphila)& 1.45542839323159 & 0.03049862573998 Otu346 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 1.38676304035384 & 0.014614966160068 Otu156 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 1.36952366127748 & 0.0474515503949865 Otu144 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVa& 1.33968420287925 & 0.0568146633936392
與現有研究一致,已發現g:梭桿菌屬為最可辨別特徵中之一者。儘管表中未展示,但脆弱類桿菌具有第25個最大的平均降低準確度(MeanDecreaseAccuracy)值。為了證實表中所示其餘者的相關性,吾等將此等標註與由Amitay等人(1)綜合說明之細菌清單進行比較。在其研究中,進行綜合調查,以儘可能概述更多研究CRC與正常對照組之間的微生物相組成中差異的相關文獻。其等記錄細菌清單及出現在此類文獻研究中之至少兩者中的標註,且已發現可以區別。
該比較顯示一致的結果,記錄在表4第三欄中。當指定分類等級時,分類等級指示兩者之間最低的一致性標註。除了Otu101之外,已發現所有Otu。值得注意地,Otu101 (標註為g:普雷沃菌屬)鑑別為當前研究中之最可辨別特徵中之一,但不存在於Amitay等人研究之概述清單中。隨著進一步研究,吾等鑑別多個證實g:普雷沃菌屬與CRC之相關性的近期研究。在試圖探討微生物相與CRC之不同分子亞型之關聯性的過程中(22),普雷沃菌屬已顯示與CMS2 (CRC患者中盛行率為37%之主要亞型中之一者)密切相關。中間普雷沃菌亦已在匹配及轉移性腫瘤中顯示與梭桿菌屬共存(4)。且在四個不同組群中之最新研究(9),已鑑別中間普雷沃菌為七個富含CRC之生物標記物中之一者。接著,吾等探討Amitay等人研究中之概述清單是否可在當前組群中鑑別。在屬類的層級下,除羅氏菌屬(Roseburia)、纖毛菌屬(Leptotrichia)、奇異菌屬(Atopobium)之外,所有菌屬已出現在表4.1中。
分類 多組 假定吾等在第2批及第3批二者中收集平衡的樣本數目,吾等僅使用此等兩個批次用於多組分類。
吾等首先使用由癌症(CR)及正常(NM)建構之分類器來產生三個中間組(AA、NA、PL)的分類。使用80%之CR及NM樣本來建構分類器,且對剩餘部分進行分類。 5. 在CR、NM上訓練模型之情況下,CR、NM、AA、NA、PL之分類結果
預測      CR      AA      NA        PL      NM
CR   41    45    1      3      0
NM  2      151  205  193  35
如表5中所展示,對癌症及正常樣本之分類如先前所發現的類似。對於其他三組,約四分之一的晚期腺瘤(AA)樣本標記為癌症,然而幾乎所有來自非晚期腺瘤(NA)及息肉(PL)之樣本標記為非癌症。此結果指示AA組之微生物群組成可與癌症具有較高類似性,且較少晚期疾病組與正常具有更多類似性。此亦可指示微生物群組成在達至嚴重疾病狀態時發生變化。
接著,吾等產生所有五個組之分類結果,且最後根據疾病狀態,吾等將來自AA及NA之樣本合併為腺瘤組(AD),且將PL及NM合併為未患病組(NP),且對此等三個組應用分類。結果概括在表6中。
6. 多組分類結果。各組為單獨的。合併之三個組視為癌症(CR)、由AD (AA、NA)表示之腺瘤以及由NP (NM、PL)表示之非腺瘤。
群組 類別 敏感度 特異性 準確度
CR|AA|NA      CR   0.954       0.962       0.890
PL|NM            AA 0.714       0.974   
NA  0.889       0.951   
PL   0.949       0.994   
NM  1.000       0.982   
CR   AD CR   0.954       0.968       0.935
NP   (AA, NA)     0.894       0.983   
(PL, NM) 0.972       0.953   
吾等達成五個組分類之89%的整體準確度及三個組分類之93.5%的準確度。詳細檢測揭示,對於五個組,AA及NA之靈敏度與其他組相比低很多,此很大程度上係由於自AA至CR及NA,及NA至AA的諸多錯分類情況。此觀測支撐重疊信號在不同的疾病狀態之間共享的想法,且如由錯分類主要存在於鄰近狀態之間的觀測所指示,疾病進展可以連續方式發生。因此,如所預期,當根據組織病理學準則使用較大量分組時,準確鑑別患者處於何種疾病進展狀態更具有挑戰性。詳細分類結果可發現在下文。
合併第 2 批及第 3 批糞便微生物群樣本之 NuoHui 999 分類 1.背景 已經收集兩個獨立批次之糞便微生物群樣本。對於各批次,五個類別已經界定:CR (癌症)、JZ (進展)、FJ (未進展)、XR (息肉)、JK (正常),其中各類別具有約100個樣本。首先,吾等使用80% CR/JK樣本構建分類器,隨後對剩餘20% CR/JK樣本進行預測。隨後使用相同模型,吾等對JZ/FJ/XR樣本進行預測。接著,吾等使用80%之資料構建五組分類器,隨後對剩餘20%應用驗證。最後,吾等將五個組合併為三個組:癌症(CR)、腺瘤(JZ/FJ)、正常(XR/JK),且使用相同的80%及20%用於訓練及驗證。 ## [1] "輸入:  2018-03-01_nhb1-b2-999 /otutab_norm.txt" ## ## ## | 樣本大小 | OTU數目 | ## |:-----------:|:--------:| ## |     999     |   6269   | ## ## 表:樣本及OTU之總數
特徵選擇 吾等選擇滿足至少3%的相對豐度> 0.05%之樣本中出現的OTU。在每個樣本之經標準化計數為50,000之條件下,後者為> 25的計數。 ## ## ## | 樣本大小 | OTU數目 | ## |:-----------:|:--------:| ## |     999     |   341    | ## ## 表:在特徵選擇之後,樣本及OTU之總數
2.使用癌症(CR)及正常(JK)之隨機森林分類 使用80%之CR/JK資料來建構隨機森林模型,隨後對(1) 20%之剩餘CR/JK資料及(2)所有非CR/JK資料進行分類。 製備訓練及測試資料 ## ## |               |     | ## |:-------------:|:---:| ## | 訓練資料| 323 | ## |   測試資料   | 78  | ## ## 表:訓練及測試樣本之數目 ## ## |               |     | ## |:-------------:|:---:| ## | 非crjk資料 | 598 | ## ## 表:非CR-JK樣本之數目 對於CR、JK之訓練及測試 ## ## 訪問: ## 隨機森林(式=類型~ .,資料=訓練資料,重要性=TRUE,樹之數目=1000) ##                隨機森林之類型:分類 ##                      樹之數目: 1000 ## 在各分枝下嘗試之變量數目: 18 ## ##         OOB評估之錯誤率:0.62% ## 混淆矩陣: ##     CR  JK類別.誤差 ## CR 158   1 0.006289308 ## JK   1 163 0.006097561
Figure 02_image003
(亦參見圖11及圖12) ## ## ## |  CR   |  JK   | 平均降低準確度 | 平均降低基尼 | Otu名稱 | ## |:-----:|:-----:|:--------------------:|:----------------:|:-------:| ## | 13.04 | 12.6  |        15.15         |      8.844       | Otu140  | ## | 11.98 | 14.52 |        15.08         |      10.21       | Otu136  | ## | 10.69 | 13.32 |        14.16         |      8.076       | Otu225  | ## | 10.26 | 12.64 |        13.97         |      7.762       | Otu187  | ## | 11.16 | 12.67 |        13.71         |      7.897       | Otu221  | ## | 10.65 | 12.54 |        13.39         |      6.114       |  Otu41  | ## | 11.23 | 10.82 |         12.5         |      6.209       | Otu204  | ## | 9.551 | 11.24 |        12.32         |      5.577       |  Otu9   | ## | 7.822 | 11.59 |        11.49         |      5.013       | Otu166  | ## | 9.476 |  10   |        11.45         |      5.014       | Otu198  | ## ## 表:平均降低準確度之前10個最重要變量 ## 混淆矩陣及統計資料 ## ##           參考 ## 預測CR JK ##         CR 41  0 ##         JK  2 35 ## ##                準確度:0.9744 ##                  95% CI : (0.9104, 0.9969) ##     無資訊率: 0.5513 ##     P-值[Acc > NIR] : <2e-16 ## ##                   κ:0.9484 ##  Mcnemar之測試P-值: 0.4795 ## ##             敏感度:0.9535 ##             特異性1.0000 ##          正預測值:1.0000 ##          負預測值:0.9459 ##              盛行率:: 0.5513 ##          偵測速率:0.5256 ##    偵測盛行率:0.5256 ##       平衡準確度:0.9767 ## ##       「正」類別:CR ## ## ## ##       CR      JK      標記     預測 ## --------- ------- ------- ---------- ------------ ##   **5**    0.978   0.022    CR005         CR ##   **9**    0.912   0.088    CR009         CR ##  **12**    0.97    0.03     CR012         CR ##  **13**    0.966   0.034    CR013         CR ##  **19**    0.94    0.06     CR019         CR ##  **33**    0.727   0.273    CR033         CR ##  **34**    0.94    0.06     CR034         CR ##  **43**    0.957   0.043    CR043         CR ##  **46**    0.899   0.101    CR046         CR ##  **54**    0.861   0.139    CR054         CR ##  **63**    0.981   0.019    CR063         CR ##  **76**    0.887   0.113    CR076         CR ##  **83**    0.981   0.019    CR083         CR ##  **87**    0.922   0.078    CR087         CR ##  **90**    0.897   0.103    CR090         CR ##  **92**    0.935   0.065    CR092         CR ##  **94**    0.796   0.204    CR094         CR ##  **98**    0.938   0.062    CR098         CR ##  **99**    0.883   0.117    CR099         CR ##  **100**   0.201   0.799    CR100         JK ##  **117**   0.86    0.14    CR_CRB07       CR ##  **120**   0.789   0.211   CR_CRB10       CR ##  **129**   0.992   0.008   CR_CRC09       CR ##  **130**   0.817   0.183   CR_CRC10       CR ##  **132**   0.926   0.074   CR_CRD02       CR ##  **135**   0.916   0.084   CR_CRD05       CR ##  **136**   0.753   0.247   CR_CRD06       CR ##  **137**   0.861   0.139   CR_CRD07       CR ##  **146**   0.742   0.258   CR_CRE06       CR ##  **153**   0.961   0.039   CR_CRF03       CR ##  **160**   0.893   0.107   CR_CRF10       CR ##  **162**   0.947   0.053   CR_CRG02       CR ##  **164**   0.942   0.058   CR_CRG04       CR ##  **168**   0.956   0.044   CR_CRG08       CR ##  **169**   0.896   0.104   CR_CRG09       CR ##  **170**   0.916   0.084   CR_CRG10       CR ##  **177**   0.929   0.071   CR_CRH07       CR ##  **179**   0.931   0.069   CR_CRH09       CR ##  **184**   0.818   0.182   CR_CRI04       CR ##  **190**   0.898   0.102   CR_CRI10       CR ##  **196**   0.949   0.051   CR_CRJ06       CR ##  **199**   0.959   0.041   CR_CRJ09       CR ##  **202**   0.071   0.929    JK002         JK ##  **208**   0.209   0.791    JK008         JK ##  **210**   0.102   0.898    JK010         JK ##  **213**   0.069   0.931    JK013         JK ##  **219**   0.057   0.943    JK019         JK ##  **223**   0.072   0.928    JK023         JK ##  **233**   0.045   0.955    JK033         JK ##  **236**   0.102   0.898    JK036         JK ##  **241**   0.105   0.895    JK041         JK ##  **248**   0.027   0.973    JK048         JK ##  **261**   0.188   0.812    JK061         JK ##  **264**   0.059   0.941    JK064         JK ##  **267**   0.024   0.976    JK067         JK ##  **269**   0.026   0.974    JK069         JK ##  **277**   0.065   0.935    JK077         JK ##  **280**   0.068   0.932    JK080         JK ##  **291**   0.056   0.944    JK091         JK ##  **298**   0.03    0.97     JK098         JK ##  **300**   0.028   0.972   JK_JKA01       JK ##  **303**   0.022   0.978   JK_JKA04       JK ##  **318**   0.133   0.867   JK_JKB09       JK ##  **319**   0.021   0.979   JK_JKB10       JK ##  **323**   0.061   0.939   JK_JKC04       JK ##  **340**   0.03    0.97    JK_JKE01       JK ##  **341**   0.028   0.972   JK_JKE02       JK ##  **342**   0.035   0.965   JK_JKE03       JK ##  **345**   0.063   0.937   JK_JKE06       JK ##  **347**   0.055   0.945   JK_JKE08       JK ##  **351**   0.059   0.941   JK_JKF02       JK ##  **358**   0.069   0.931   JK_JKF09       JK ##  **370**   0.094   0.906   JK_JKH01       JK ##  **376**   0.05    0.95    JK_JKH07       JK ##  **381**   0.126   0.874   JK_JKI02       JK ##  **388**   0.063   0.937   JK_JKI09       JK ##  **395**   0.085   0.915   JK_JKJ06       JK ##  **401**   0.23    0.77    CR_JZD03       JK ## ## 表:預測之細節 使用CR/JK分類器對JZ、FJ、XR之分類 ## ## ##     FJ    JZ    XR ## -------- ----- ----- ----- ##  **CR**    1    45     3 ##  **JK**   205   151   193 ## ## 表:預測 ## ## ## ##   CR      JK      標記     預測 ## ------- ------- ---------- ------------ ##  0.314   0.686    FJ001         JK ##  0.244   0.756    FJ002         JK ##  0.228   0.772    FJ003         JK ##  0.112   0.888    FJ004         JK ##  0.166   0.834    FJ005         JK ##  0.118   0.882    FJ006         JK ##  0.205   0.795    FJ007         JK ##  0.119   0.881    FJ008         JK ##  0.076   0.924    FJ009         JK ##  0.112   0.888    FJ010         JK ##  0.203   0.797    FJ011         JK ##  0.182   0.818    FJ012         JK ##  0.128   0.872    FJ013         JK ##  0.08    0.92     FJ014         JK ##  0.155   0.845    FJ015         JK ##  0.222   0.778    FJ016         JK ##  0.177   0.823    FJ017         JK ##  0.194   0.806    FJ018         JK ##  0.164   0.836    FJ019         JK ##  0.196   0.804    FJ020         JK ##  0.201   0.799    FJ021         JK ##  0.225   0.775    FJ022         JK ##  0.171   0.829    FJ023         JK ##  0.095   0.905    FJ024         JK ##  0.086   0.914    FJ025         JK ##  0.183   0.817    FJ026         JK ##  0.193   0.807    FJ027         JK ##  0.143   0.857    FJ028         JK ##  0.181   0.819    FJ029         JK ##  0.099   0.901    FJ030         JK ##  0.234   0.766    FJ031         JK ##  0.192   0.808    FJ032         JK ##  0.163   0.837    FJ033         JK ##  0.154   0.846    FJ034         JK ##  0.119   0.881    FJ035         JK ##  0.118   0.882    FJ036         JK ##  0.169   0.831    FJ037         JK ##  0.069   0.931    FJ038         JK ##  0.107   0.893    FJ039         JK ##  0.075   0.925    FJ040         JK ##  0.131   0.869    FJ041         JK ##  0.173   0.827    FJ042         JK ##  0.108   0.892    FJ043         JK ##  0.062   0.938    FJ044         JK ##  0.166   0.834    FJ045         JK ##  0.067   0.933    FJ046         JK ##  0.114   0.886    FJ047         JK ##  0.172   0.828    FJ048         JK ##  0.125   0.875    FJ049         JK ##  0.114   0.886    FJ050         JK ##  0.082   0.918    FJ051         JK ##  0.13    0.87     FJ052         JK ##  0.169   0.831    FJ053         JK ##  0.229   0.771    FJ054         JK ##  0.185   0.815    FJ055         JK ##  0.047   0.953    FJ056         JK ##  0.139   0.861    FJ057         JK ##  0.214   0.786    FJ058         JK ##  0.166   0.834    FJ059         JK ##  0.166   0.834    FJ060         JK ##  0.144   0.856    FJ061         JK ##  0.218   0.782    FJ062         JK ##  0.092   0.908    FJ063         JK ##  0.233   0.767    FJ064         JK ##  0.233   0.767    FJ065         JK ##  0.123   0.877    FJ066         JK ##  0.086   0.914    FJ067         JK ##  0.236   0.764    FJ068         JK ##  0.155   0.845    FJ069         JK ##  0.217   0.783    FJ070         JK ##  0.217   0.783    FJ071         JK ##  0.272   0.728    FJ072         JK ##  0.184   0.816    FJ073         JK ##  0.169   0.831    FJ074         JK ##  0.373   0.627    FJ075         JK ##  0.269   0.731    FJ076         JK ##  0.125   0.875    FJ077         JK ##  0.353   0.647    FJ078         JK ##  0.211   0.789    FJ079         JK ##  0.279   0.721    FJ080         JK ##  0.228   0.772    FJ081         JK ##  0.43    0.57     FJ082         JK ##  0.311   0.689    FJ083         JK ##  0.351   0.649    FJ084         JK ##  0.331   0.669    FJ085         JK ##  0.088   0.912    FJ086         JK ##  0.099   0.901    FJ087         JK ##  0.19    0.81     FJ088         JK ##  0.105   0.895    FJ089         JK ##  0.206   0.794    FJ090         JK ##  0.089   0.911    FJ091         JK ##  0.119   0.881    FJ092         JK ##  0.211   0.789    FJ093         JK ##  0.059   0.941    FJ094         JK ##  0.301   0.699    FJ095         JK ##  0.176   0.824    FJ096         JK ##  0.093   0.907    FJ097         JK ##  0.167   0.833    FJ098         JK ##  0.09    0.91     FJ099         JK ##  0.159   0.841    FJ100         JK ##   0.2     0.8    FJ_FJA01       JK ##  0.224   0.776   FJ_FJA02       JK ##  0.262   0.738   FJ_FJA03       JK ##  0.301   0.699   FJ_FJA04       JK ##  0.239   0.761   FJ_FJA05       JK ##  0.169   0.831   FJ_FJA06       JK ##  0.112   0.888   FJ_FJA07       JK ##  0.116   0.884   FJ_FJA08       JK ##  0.124   0.876   FJ_FJA09       JK ##  0.058   0.942   FJ_FJA10       JK ##  0.146   0.854   FJ_FJB01       JK ##  0.138   0.862   FJ_FJB02       JK ##  0.113   0.887   FJ_FJB03       JK ##  0.124   0.876   FJ_FJB04       JK ##  0.097   0.903   FJ_FJB05       JK ##  0.09    0.91    FJ_FJB06       JK ##  0.115   0.885   FJ_FJB07       JK ##  0.079   0.921   FJ_FJB08       JK ##  0.088   0.912   FJ_FJB09       JK ##  0.068   0.932   FJ_FJB10       JK ##  0.088   0.912   FJ_FJC02       JK ##  0.095   0.905   FJ_FJC03       JK ##  0.13    0.87    FJ_FJC04       JK ##  0.096   0.904   FJ_FJC05       JK ##  0.102   0.898   FJ_FJC06       JK ##  0.095   0.905   FJ_FJC07       JK ##  0.077   0.923   FJ_FJC08       JK ##  0.069   0.931   FJ_FJC09       JK ##  0.045   0.955   FJ_FJC10       JK ##  0.096   0.904   FJ_FJD01       JK ##  0.06    0.94    FJ_FJD02       JK ##  0.13    0.87    FJ_FJD03       JK ##  0.092   0.908   FJ_FJD04       JK ##  0.051   0.949   FJ_FJD05       JK ##  0.103   0.897   FJ_FJD06       JK ##  0.143   0.857   FJ_FJD07       JK ##  0.12    0.88    FJ_FJD08       JK ##  0.134   0.866   FJ_FJD09       JK ##  0.055   0.945   FJ_FJD10       JK ##  0.148   0.852   FJ_FJE01       JK ##  0.201   0.799   FJ_FJE02       JK ##  0.145   0.855   FJ_FJE03       JK ##  0.182   0.818   FJ_FJE04       JK ##  0.108   0.892   FJ_FJE05       JK ##  0.076   0.924   FJ_FJE06       JK ##  0.126   0.874   FJ_FJE07       JK ##  0.119   0.881   FJ_FJE08       JK ##  0.066   0.934   FJ_FJE09       JK ##  0.061   0.939   FJ_FJE10       JK ##  0.088   0.912   FJ_FJF01       JK ##  0.116   0.884   FJ_FJF02       JK ##  0.083   0.917   JZ_FJF03       JK ##  0.122   0.878   FJ_FJF04       JK ##  0.084   0.916   FJ_FJF05       JK ##  0.466   0.534   FJ_FJF06       JK ##  0.503   0.497   FJ_FJF07       CR ##  0.224   0.776   FJ_FJF08       JK ##  0.253   0.747   FJ_FJF09       JK ##  0.301   0.699   FJ_FJF10       JK ##  0.048   0.952   FJ_FJG01       JK ##  0.046   0.954   FJ_FJG02       JK ##  0.047   0.953   FJ_FJG03       JK ##  0.12    0.88    FJ_FJG04       JK ##  0.116   0.884   FJ_FJG05       JK ##  0.069   0.931   FJ_FJG06       JK ##  0.065   0.935   FJ_FJG07       JK ##  0.081   0.919   FJ_FJG08       JK ##  0.478   0.522   FJ_FJG09       JK ##  0.08    0.92    FJ_FJG10       JK ##  0.123   0.877   FJ_FJH01       JK ##  0.177   0.823   FJ_FJH02       JK ##  0.146   0.854   FJ_FJH03       JK ##  0.179   0.821   FJ_FJH04       JK ##  0.24    0.76    FJ_FJH05       JK ##  0.127   0.873   FJ_FJH06       JK ##  0.124   0.876   FJ_FJH07       JK ##  0.081   0.919   FJ_FJH08       JK ##  0.343   0.657   FJ_FJH09       JK ##  0.153   0.847   FJ_FJH10       JK ##  0.126   0.874   FJ_FJI01       JK ##  0.163   0.837   FJ_FJI02       JK ##  0.114   0.886   FJ_FJI03       JK ##  0.265   0.735   FJ_FJI04       JK ##  0.252   0.748   FJ_FJI05       JK ##  0.118   0.882   FJ_FJI06       JK ##  0.158   0.842   FJ_FJI07       JK ##  0.205   0.795   FJ_FJI08       JK ##  0.321   0.679   FJ_FJI09       JK ##  0.159   0.841   FJ_FJI10       JK ##  0.128   0.872   FJ_FJJ01       JK ##  0.221   0.779   FJ_FJJ02       JK ##   0.1     0.9    FJ_FJJ03       JK ##  0.17    0.83    FJ_FJJ04       JK ##  0.153   0.847   FJ_FJJ05       JK ##  0.166   0.834   FJ_FJJ06       JK ##  0.14    0.86    JZ_FJJ07       JK ##  0.093   0.907   FJ_FJJ08       JK ##  0.483   0.517   FJ_FJJ09       JK ##  0.147   0.853   FJ_FJJ10       JK ##  0.286   0.714   FJ_FJK01       JK ##  0.175   0.825    JZ001         JK ##  0.21    0.79     JZ002         JK ##  0.35    0.65     JZ003         JK ##  0.145   0.855    JZ004         JK ##  0.305   0.695    JZ005         JK ##  0.305   0.695    JZ006         JK ##  0.197   0.803    JZ007         JK ##  0.824   0.176    JZ008         CR ##  0.782   0.218    JZ009         CR ##  0.361   0.639    JZ010         JK ##  0.204   0.796    JZ011         JK ##  0.328   0.672    JZ012         JK ##  0.526   0.474    JZ013         CR ##  0.691   0.309    JZ014         CR ##  0.436   0.564    JZ015         JK ##  0.477   0.523    JZ016         JK ##  0.361   0.639    JZ017         JK ##  0.445   0.555    JZ018         JK ##  0.399   0.601    JZ019         JK ##  0.477   0.523    JZ020         JK ##  0.393   0.607    JZ021         JK ##  0.655   0.345    JZ022         CR ##  0.282   0.718    JZ023         JK ##  0.076   0.924    JZ024         JK ##  0.313   0.687    JZ025         JK ##  0.353   0.647    JZ026         JK ##  0.133   0.867    JZ027         JK ##  0.246   0.754    JZ028         JK ##   0.2     0.8     JZ029         JK ##  0.283   0.717    JZ030         JK ##  0.252   0.748    JZ031         JK ##  0.228   0.772    JZ032         JK ##  0.406   0.594    JZ033         JK ##  0.164   0.836    JZ034         JK ##  0.321   0.679    JZ035         JK ##  0.327   0.673    JZ036         JK ##  0.16    0.84     JZ037         JK ##  0.365   0.635    JZ038         JK ##  0.233   0.767    JZ039         JK ##  0.203   0.797    JZ040         JK ##  0.246   0.754    JZ041         JK ##  0.249   0.751    JZ042         JK ##  0.068   0.932    JZ043         JK ##  0.168   0.832    JZ044         JK ##  0.106   0.894    JZ045         JK ##  0.202   0.798    JZ046         JK ##  0.202   0.798    JZ047         JK ##  0.484   0.516    JZ048         JK ##  0.303   0.697    JZ049         JK ##  0.133   0.867    JZ050         JK ##  0.184   0.816    JZ051         JK ##  0.281   0.719    JZ052         JK ##  0.141   0.859    JZ053         JK ##  0.188   0.812    JZ054         JK ##  0.101   0.899    JZ055         JK ##  0.276   0.724    JZ056         JK ##  0.187   0.813    JZ057         JK ##  0.345   0.655    JZ058         JK ##  0.243   0.757    JZ059         JK ##  0.261   0.739    JZ060         JK ##  0.283   0.717    JZ061         JK ##  0.327   0.673    JZ062         JK ##  0.135   0.865    JZ063         JK ##  0.207   0.793    JZ064         JK ##  0.181   0.819    JZ065         JK ##  0.281   0.719    JZ066         JK ##  0.234   0.766    JZ067         JK ##  0.458   0.542    JZ068         JK ##  0.216   0.784    JZ069         JK ##  0.133   0.867    JZ070         JK ##  0.097   0.903    JZ071         JK ##  0.211   0.789    JZ072         JK ##  0.075   0.925    JZ073         JK ##  0.053   0.947    JZ074         JK ##  0.119   0.881    JZ075         JK ##  0.138   0.862    JZ076         JK ##  0.127   0.873    JZ077         JK ##  0.318   0.682    JZ078         JK ##  0.221   0.779    JZ079         JK ##  0.136   0.864    JZ080         JK ##  0.113   0.887    JZ081         JK ##  0.184   0.816    JZ082         JK ##  0.113   0.887    JZ083         JK ##  0.12    0.88     JZ084         JK ##  0.125   0.875    JZ085         JK ##  0.153   0.847    JZ086         JK ##  0.128   0.872    JZ087         JK ##  0.602   0.398    JZ088         CR ##  0.677   0.323    JZ089         CR ##  0.574   0.426    JZ090         CR ##  0.753   0.247    JZ091         CR ##  0.603   0.397    JZ092         CR ##  0.633   0.367    JZ093         CR ##  0.754   0.246    JZ094         CR ##  0.813   0.187    JZ095         CR ##  0.629   0.371    JZ096         CR ##  0.375   0.625    JZ097         JK ##  0.847   0.153    JZ098         CR ##  0.804   0.196    JZ099         CR ##  0.924   0.076    JZ100         CR ##  0.63    0.37    JZ_JZA01       CR ##  0.575   0.425   JZ_JZA02       CR ##  0.536   0.464   JZ_JZA03       CR ##  0.358   0.642   JZ_JZA04       JK ##  0.658   0.342   JZ_JZA05       CR ##  0.608   0.392   JZ_JZA06       CR ##  0.606   0.394   JZ_JZA07       CR ##  0.567   0.433   JZ_JZA08       CR ##  0.733   0.267   JZ_JZA09       CR ##  0.486   0.514   JZ_JZA10       JK ##  0.146   0.854   JZ_JZB01       JK ##  0.118   0.882   JZ_JZB02       JK ##  0.07    0.93    JZ_JZB03       JK ##  0.255   0.745   JZ_JZB04       JK ##  0.146   0.854   JZ_JZB05       JK ##  0.171   0.829   JZ_JZB06       JK ##  0.129   0.871   JZ_JZB07       JK ##  0.112   0.888   JZ_JZB08       JK ##  0.378   0.622   JZ_JZB09       JK ##  0.122   0.878   FJ_JZB10       JK ##  0.079   0.921   JZ_JZC01       JK ##  0.12    0.88    JZ_JZC02       JK ##  0.137   0.863   FJ_JZC03       JK ##  0.09    0.91    JZ_JZC04       JK ##  0.117   0.883   JZ_JZC06       JK ##  0.11    0.89    JZ_JZC07       JK ##  0.095   0.905   JZ_JZC08       JK ##  0.46    0.54    JZ_JZC09       JK ##  0.167   0.833   JZ_JZC10       JK ##  0.066   0.934   JZ_JZD01       JK ##  0.199   0.801   JZ_JZD02       JK ##  0.235   0.765   JZ_JZD04       JK ##  0.236   0.764   JZ_JZD05       JK ##   0.2     0.8    JZ_JZD06       JK ##  0.25    0.75    JZ_JZD07       JK ##  0.12    0.88    JZ_JZD08       JK ##  0.276   0.724   JZ_JZD10       JK ##  0.154   0.846   JZ_JZE01       JK ##  0.283   0.717   JZ_JZE02       JK ##  0.22    0.78    JZ_JZE03       JK ##  0.638   0.362   JZ_JZE04       CR ##  0.322   0.678   JZ_JZE05       JK ##  0.115   0.885   JZ_JZE06       JK ##  0.216   0.784   JZ_JZE07       JK ##  0.432   0.568   JZ_JZE08       JK ##  0.662   0.338   JZ_JZE09       CR ##  0.166   0.834   JZ_JZE10       JK ##  0.156   0.844   JZ_JZF01       JK ##  0.248   0.752   JZ_JZF02       JK ##  0.115   0.885   JZ_JZF03       JK ##  0.547   0.453   JZ_JZF04       CR ##  0.145   0.855   JZ_JZF05       JK ##  0.188   0.812   JZ_JZF06       JK ##  0.131   0.869   JZ_JZF07       JK ##  0.286   0.714   JZ_JZF08       JK ##  0.578   0.422   JZ_JZF09       CR ##  0.203   0.797   JZ_JZF10       JK ##  0.269   0.731   JZ_JZG01       JK ##  0.337   0.663   FJ_JZG02       JK ##  0.225   0.775   JZ_JZG03       JK ##  0.627   0.373   JZ_JZG04       CR ##  0.372   0.628   JZ_JZG05       JK ##  0.193   0.807   JZ_JZG06       JK ##  0.285   0.715   JZ_JZG07       JK ##  0.462   0.538   JZ_JZG08       JK ##  0.579   0.421   JZ_JZG09       CR ##  0.232   0.768   JZ_JZG10       JK ##  0.154   0.846   FJ_JZH01       JK ##  0.121   0.879   JZ_JZH03       JK ##  0.589   0.411   JZ_JZH04       CR ##  0.212   0.788   JZ_JZH05       JK ##  0.131   0.869   JZ_JZH06       JK ##  0.128   0.872   JZ_JZH07       JK ##  0.441   0.559   JZ_JZH08       JK ##  0.618   0.382   JZ_JZH09       CR ##  0.168   0.832   JZ_JZH10       JK ##  0.725   0.275   JZ_JZI01       CR ##  0.657   0.343   JZ_JZI02       CR ##  0.723   0.277   JZ_JZI03       CR ##  0.743   0.257   JZ_JZI04       CR ##  0.777   0.223   JZ_JZI05       CR ##  0.637   0.363   JZ_JZI07       CR ##  0.777   0.223   JZ_JZI08       CR ##  0.735   0.265   JZ_JZI09       CR ##  0.628   0.372   JZ_JZI10       CR ##  0.34    0.66    JZ_JZJ01       JK ##  0.418   0.582   JZ_JZJ02       JK ##  0.261   0.739   JZ_JZJ03       JK ##  0.714   0.286   JZ_JZJ04       CR ##  0.415   0.585   JZ_JZJ05       JK ##  0.148   0.852   JZ_JZJ06       JK ##  0.332   0.668   JZ_JZJ07       JK ##  0.605   0.395   JZ_JZJ08       CR ##  0.679   0.321   JZ_JZJ09       CR ##  0.19    0.81    JZ_JZJ10       JK ##  0.435   0.565   JZ_JZK01       JK ##  0.232   0.768   JZ_JZK02       JK ##  0.195   0.805   JZ_JZK03       JK ##  0.129   0.871    XR001         JK ##  0.086   0.914    XR002         JK ##  0.217   0.783    XR003         JK ##  0.168   0.832    XR004         JK ##  0.111   0.889    XR005         JK ##  0.141   0.859    XR006         JK ##  0.216   0.784    XR007         JK ##  0.235   0.765    XR008         JK ##  0.077   0.923    XR009         JK ##  0.116   0.884    XR010         JK ##  0.133   0.867    XR011         JK ##  0.123   0.877    XR012         JK ##  0.18    0.82     XR013         JK ##  0.195   0.805    XR014         JK ##  0.132   0.868    XR015         JK ##  0.153   0.847    XR016         JK ##  0.284   0.716    XR017         JK ##  0.27    0.73     XR018         JK ##  0.074   0.926    XR019         JK ##  0.686   0.314    XR020         CR ##  0.129   0.871    XR021         JK ##  0.137   0.863    XR022         JK ##  0.233   0.767    XR023         JK ##  0.136   0.864    XR024         JK ##  0.131   0.869    XR025         JK ##  0.178   0.822    XR026         JK ##  0.273   0.727    XR027         JK ##  0.298   0.702    XR028         JK ##  0.154   0.846    XR029         JK ##  0.149   0.851    XR030         JK ##  0.26    0.74     XR031         JK ##  0.225   0.775    XR032         JK ##  0.306   0.694    XR033         JK ##  0.639   0.361    XR034         CR ##  0.205   0.795    XR035         JK ##  0.318   0.682    XR036         JK ##  0.261   0.739    XR037         JK ##  0.351   0.649    XR038         JK ##  0.21    0.79     XR039         JK ##  0.217   0.783    XR040         JK ##  0.131   0.869    XR041         JK ##  0.14    0.86     XR042         JK ##  0.21    0.79     XR043         JK ##  0.148   0.852    XR044         JK ##  0.091   0.909    XR045         JK ##  0.219   0.781    XR046         JK ##  0.197   0.803    XR047         JK ##  0.335   0.665    XR048         JK ##  0.132   0.868    XR049         JK ##  0.092   0.908    XR050         JK ##  0.248   0.752    XR051         JK ##  0.096   0.904    XR052         JK ##  0.129   0.871    XR053         JK ##  0.135   0.865    XR054         JK ##  0.126   0.874    XR055         JK ##  0.223   0.777    XR056         JK ##  0.252   0.748    XR057         JK ##  0.09    0.91     XR058         JK ##  0.194   0.806    XR059         JK ##  0.127   0.873    XR060         JK ##  0.188   0.812    XR061         JK ##  0.11    0.89     XR062         JK ##  0.149   0.851    XR063         JK ##  0.118   0.882    XR064         JK ##  0.118   0.882    XR065         JK ##  0.194   0.806    XR066         JK ##  0.213   0.787    XR067         JK ##  0.134   0.866    XR068         JK ##  0.248   0.752    XR069         JK ##  0.108   0.892    XR070         JK ##  0.246   0.754    XR071         JK ##  0.125   0.875    XR072         JK ##  0.135   0.865    XR073         JK ##  0.089   0.911    XR074         JK ##  0.748   0.252    XR075         CR ##  0.211   0.789    XR076         JK ##  0.249   0.751    XR077         JK ##  0.065   0.935    XR078         JK ##  0.193   0.807    XR079         JK ##  0.103   0.897    XR080         JK ##  0.234   0.766    XR081         JK ##  0.084   0.916    XR082         JK ##  0.21    0.79     XR083         JK ##  0.122   0.878    XR084         JK ##  0.071   0.929    XR085         JK ##  0.289   0.711    XR086         JK ##  0.358   0.642    XR087         JK ##  0.073   0.927    XR088         JK ##  0.248   0.752    XR089         JK ##  0.167   0.833    XR090         JK ##  0.261   0.739    XR091         JK ##  0.069   0.931    XR092         JK ##  0.154   0.846    XR093         JK ##  0.134   0.866    XR094         JK ##  0.154   0.846    XR095         JK ##  0.199   0.801    XR096         JK ##  0.25    0.75     XR097         JK ##  0.179   0.821    XR098         JK ##  0.277   0.723    XR099         JK ##  0.206   0.794    XR100         JK ##  0.192   0.808   XR_XRA01       JK ##  0.054   0.946   XR_XRA02       JK ##  0.105   0.895   FJ_XRA03       JK ##  0.055   0.945   XR_XRA04       JK ##  0.16    0.84    XR_XRA05       JK ##  0.087   0.913   XR_XRA06       JK ##  0.048   0.952   XR_XRA07       JK ##  0.05    0.95    XR_XRA08       JK ##  0.026   0.974   XR_XRA09       JK ##  0.125   0.875   XR_XRA10       JK ##  0.206   0.794   XR_XRB01       JK ##  0.067   0.933   XR_XRB02       JK ##  0.095   0.905   XR_XRB03       JK ##  0.132   0.868   XR_XRB06       JK ##  0.15    0.85    XR_XRB07       JK ##  0.097   0.903   XR_XRB08       JK ##  0.073   0.927   XR_XRB09       JK ##  0.181   0.819   XR_XRB10       JK ##  0.272   0.728   XR_XRC01       JK ##  0.123   0.877   XR_XRC02       JK ##  0.221   0.779   XR_XRC03       JK ##  0.115   0.885   XR_XRC04       JK ##  0.191   0.809   XR_XRC05       JK ##  0.187   0.813   XR_XRC06       JK ##  0.117   0.883   XR_XRC07       JK ##  0.172   0.828   XR_XRC08       JK ##  0.151   0.849   XR_XRC09       JK ##  0.148   0.852   XR_XRC10       JK ##  0.297   0.703   XR_XRD01       JK ##  0.125   0.875   XR_XRD02       JK ##  0.201   0.799   XR_XRD03       JK ##  0.11    0.89    XR_XRD04       JK ##  0.227   0.773   XR_XRD05       JK ##  0.107   0.893   XR_XRD06       JK ##  0.109   0.891   XR_XRD07       JK ##  0.122   0.878   XR_XRD08       JK ##  0.109   0.891   XR_XRD09       JK ##  0.13    0.87    XR_XRD10       JK ##  0.213   0.787   XR_XRE01       JK ##  0.132   0.868   XR_XRE04       JK ##  0.179   0.821   XR_XRE05       JK ##  0.085   0.915   XR_XRE06       JK ##  0.064   0.936   XR_XRE07       JK ##  0.061   0.939   FJ_XRE08       JK ##  0.075   0.925   XR_XRE09       JK ##  0.082   0.918   XR_XRE10       JK ##  0.158   0.842   XR_XRF01       JK ##  0.063   0.937   XR_XRF02       JK ##  0.077   0.923   XR_XRF03       JK ##  0.042   0.958   XR_XRF04       JK ##  0.161   0.839   XR_XRF05       JK ##  0.128   0.872   XR_XRF07       JK ##  0.159   0.841   XR_XRF08       JK ##  0.143   0.857   XR_XRF09       JK ##  0.198   0.802   XR_XRF10       JK ##  0.391   0.609   XR_XRG01       JK ##  0.215   0.785   XR_XRG02       JK ##  0.263   0.737   XR_XRG03       JK ##  0.124   0.876   XR_XRG04       JK ##  0.253   0.747   XR_XRG05       JK ##   0.1     0.9    XR_XRG06       JK ##  0.095   0.905   XR_XRG07       JK ##  0.088   0.912   XR_XRG08       JK ##  0.051   0.949   XR_XRG09       JK ##  0.092   0.908   XR_XRG10       JK ##  0.192   0.808   XR_XRH01       JK ##  0.099   0.901   XR_XRH02       JK ##  0.079   0.921   XR_XRH03       JK ##  0.064   0.936   XR_XRH04       JK ##  0.184   0.816   XR_XRH05       JK ##  0.132   0.868   XR_XRH06       JK ##  0.112   0.888   XR_XRH07       JK ##  0.123   0.877   XR_XRH08       JK ##  0.053   0.947   XR_XRH09       JK ##  0.054   0.946   XR_XRH10       JK ##  0.097   0.903   XR_XRI01       JK ##  0.08    0.92    XR_XRI02       JK ##  0.091   0.909   XR_XRI03       JK ##  0.121   0.879   XR_XRI04       JK ##  0.064   0.936   XR_XRI05       JK ##  0.168   0.832   XR_XRI06       JK ##  0.104   0.896   XR_XRI07       JK ##  0.154   0.846   XR_XRI08       JK ##  0.097   0.903   XR_XRI09       JK ##  0.081   0.919   XR_XRI10       JK ##  0.166   0.834   FJ_XRJ01       JK ##  0.145   0.855   XR_XRJ02       JK ##  0.167   0.833   XR_XRJ03       JK ##  0.121   0.879   XR_XRJ04       JK ##  0.083   0.917   XR_XRJ05       JK ##  0.151   0.849   XR_XRJ06       JK ##  0.157   0.843   XR_XRJ07       JK ##  0.188   0.812   XR_XRJ08       JK ##  0.191   0.809   FJ_XRJ09       JK ##  0.092   0.908   XR_XRJ10       JK ##  0.308   0.692   XR_XRK01       JK ##  0.213   0.787   XR_XRK02       JK ##  0.267   0.733   XR_XRK03       JK ##  0.316   0.684   XR_XRK04       JK ##  0.236   0.764   XR_XRK05       JK ## ## 表:預測之細節
3.多類別分類 吾等首先對進展之五個階段的分類進行測試,隨後根據疾病進展將資料進一步摺疊為三個階段:正常(JK)、中間階段(FJ、XR)及晚期階段(JZ、CR)。 CR、JZ、FJ、XR、JK資料之訓練及驗證 ## ## |               |     | ## |:-------------:|:---:| ## | 訓練資料| 799 | ## |   測試資料   | 200 | ## ## 表:訓練及測試樣本之數目 ## ## 訪問: ##  隨機森林(式=類型~ .,資料=訓練資料,重要性=TRUE,樹之數目=1000) ##                隨機森林之類型:分類 ##                      樹之數目:1000 ##在各分枝下嘗試之變量數目:18 ## ##         OOB評估之錯誤率:9.26% ##混淆矩陣: ##     CR  FJ  JK  JZ  XR類別.錯誤 ## CR 158   1   0   0   0 0.006289308 ## FJ   0 155   0  10   5 0.088235294 ## JK   1   2 156   2   5 0.060240964 ## JZ  13  15   4 115   0 0.217687075 ## XR   3  13   0   0 141 0.101910828
Figure 02_image003
(亦參見圖13及圖14) ## ## ## |  CR   |  FJ   |  JK   |  JZ   |  XR   |平均降低準確度|平均降低基尼| Otu名稱 | ## |:-----:|:-----:|:-----:|:-----:|:-----:|:--------------------:|:----------------:|:-------:| ## | 15.82 | 11.88 | 9.794 | 2.011 | 7.585 |        17.31         |      10.61       | Otu140  | ## | 16.3  | 10.31 | 9.811 | 5.654 | 8.971 |        16.49         |      10.91       | Otu225  | ## | 15.08 | 12.82 | 13.13 | 6.126 | 13.01 |        16.09         |      12.52       | Otu136  | ## | 13.88 | 10.27 | 8.091 | 7.046 | 11.67 |        15.04         |      8.425       | Otu204  | ## | 12.88 | 11.83 | 12.01 | 4.788 | 11.85 |        14.63         |      9.096       | Otu187  | ## | 12.74 | 12.43 | 11.08 | 2.788 | 12.3  |        14.37         |      8.706       | Otu221  | ## | 2.237 | 11.36 | 9.023 | 6.609 | 10.98 |        14.11         |      4.832       | Otu241  | ## | 4.546 | 8.48  | 10.98 | 5.508 | 10.06 |        13.58         |      5.267       | Otu1360 | ## | 12.7  | 6.367 | 9.19  | 6.733 | 10.19 |        12.75         |      8.329       | Otu166  | ## | 10.26 | 5.843 | 11.74 | 2.113 | 6.641 |        12.73         |      6.474       |  Otu41  | ## ##表:平均降低準確度之前10個最重要變量 ##混淆矩陣及統計資料 ## ##           參考 ## 預測CR FJ JK JZ XR ##         CR 41  0  0  6  0 ##         FJ  0 32  0  6  2 ##         JK  1  1 33  1  0 ##         JZ  1  3  0 35  0 ##         XR  0  0  0  1 37 ## ## 整體統計資料 ## ##                準確度:0.89 ##                  95% CI : (0.8382, 0.9298) ##     無資料率:0.245 ##     P-值 [Acc > NIR] : < 2.2e-16 ## ##                   κ:0.8623 ##  Mcnemar之測試P-值:NA ## ##類別之統計資料: ## ##                      類別:CR 類別:FJ 類別:JK 類別:JZ 類別:XR ## 敏感度             0.9535    0.8889    1.0000    0.7143    0.9487 ## 特異性             0.9618    0.9512    0.9820    0.9735    0.9938 ## 正預測值          0.8723    0.8000    0.9167    0.8974    0.9737 ## 負預測值          0.9869    0.9750    1.0000    0.9130    0.9877 ## 盛行率              0.2150    0.1800    0.1650    0.2450    0.1950 ## 偵測速率          0.2050    0.1600    0.1650    0.1750    0.1850 ## 偵測盛行率    0.2350    0.2000    0.1800    0.1950    0.1900 ##平衡準確度       0.9576    0.9201    0.9910    0.8439    0.9713 ## ## ##            CR      FJ      JK      JZ      XR      標記     預測 ## -------------- ------- ------- ------- ------- ------- ---------- ------------ ##   **CR005**     0.875   0.008   0.021   0.081   0.015    CR005         CR ##   **CR009**     0.707   0.053   0.029   0.195   0.016    CR009         CR ##   **CR012**     0.844   0.017   0.021   0.088   0.03     CR012         CR ##   **CR013**     0.826   0.029   0.019   0.097   0.029    CR013         CR ##   **CR019**     0.82    0.023   0.017   0.109   0.031    CR019         CR ##   **CR033**     0.408   0.145   0.086   0.242   0.119    CR033         CR ##   **CR034**     0.77    0.028   0.032   0.154   0.016    CR034         CR ##   **CR043**     0.815   0.022   0.03    0.104   0.029    CR043         CR ##   **CR046**     0.713   0.051   0.078   0.089   0.069    CR046         CR ##   **CR054**     0.581   0.092   0.077   0.159   0.091    CR054         CR ##   **CR063**     0.889   0.025   0.018   0.057   0.011    CR063         CR ##   **CR076**     0.806   0.04    0.045   0.068   0.041    CR076         CR ##   **CR083**     0.892   0.017   0.017   0.058   0.016    CR083         CR ##   **CR087**     0.824   0.027   0.035   0.095   0.019    CR087         CR ##   **CR090**     0.777   0.036   0.036   0.11    0.041    CR090         CR ##   **CR092**     0.824   0.034   0.031   0.074   0.037    CR092         CR ##   **CR094**     0.577   0.093   0.072   0.173   0.085    CR094         CR ##   **CR098**     0.824   0.022   0.045   0.08    0.029    CR098         CR ##   **CR099**     0.714   0.074   0.05    0.097   0.065    CR099         CR ##   **CR100**     0.095   0.164   0.319   0.311   0.111    CR100         JK ##  **CR_CRB07**   0.583   0.079   0.072   0.18    0.086   CR_CRB07       CR ##  **CR_CRB10**   0.547   0.065   0.107   0.219   0.062   CR_CRB10       CR ##  **CR_CRC09**   0.932   0.016   0.009   0.03    0.013   CR_CRC09       CR ##  **CR_CRC10**   0.527   0.109   0.07    0.173   0.121   CR_CRC10       CR ##  **CR_CRD02**   0.824   0.032   0.032   0.09    0.022   CR_CRD02       CR ##  **CR_CRD05**   0.811   0.033   0.029   0.102   0.025   CR_CRD05       CR ##  **CR_CRD06**   0.563   0.109   0.075   0.143   0.11    CR_CRD06       CR ##  **CR_CRD07**   0.62    0.074   0.068   0.156   0.082   CR_CRD07       CR ##  **CR_CRE06**   0.51    0.159   0.071   0.162   0.098   CR_CRE06       CR ##  **CR_CRF03**   0.921   0.01    0.013   0.039   0.017   CR_CRF03       CR ##  **CR_CRF10**   0.695   0.075   0.051   0.105   0.074   CR_CRF10       CR ##  **CR_CRG02**   0.86    0.027   0.029   0.071   0.013   CR_CRG02       CR ##  **CR_CRG04**   0.837   0.027   0.038   0.071   0.027   CR_CRG04       CR ##  **CR_CRG08**   0.877   0.021   0.025   0.055   0.022   CR_CRG08       CR ##  **CR_CRG09**   0.705   0.053   0.044   0.171   0.027   CR_CRG09       CR ##  **CR_CRG10**   0.759   0.06    0.04    0.109   0.032   CR_CRG10       CR ##  **CR_CRH07**   0.807   0.046   0.034   0.087   0.026   CR_CRH07       CR ##  **CR_CRH09**   0.839   0.021   0.048   0.068   0.024   CR_CRH09       CR ##  **CR_CRI04**   0.718   0.046   0.054   0.132   0.05    CR_CRI04       CR ##  **CR_CRI10**   0.732   0.065   0.042   0.105   0.056   CR_CRI10       CR ##  **CR_CRJ06**   0.859   0.022   0.034   0.06    0.025   CR_CRJ06       CR ##  **CR_CRJ09**   0.858   0.026   0.025   0.07    0.021   CR_CRJ09       CR ##   **FJ002**     0.023   0.39    0.125   0.121   0.341    FJ002         FJ ##   **FJ008**     0.02    0.589   0.127   0.121   0.143    FJ008         FJ ##   **FJ010**     0.014   0.585   0.115   0.126   0.16     FJ010         FJ ##   **FJ013**     0.001   0.577   0.124   0.145   0.153    FJ013         FJ ##   **FJ019**     0.039   0.434   0.181   0.163   0.183    FJ019         FJ ##   **FJ023**     0.026   0.427   0.179   0.133   0.235    FJ023         FJ ##   **FJ033**     0.03    0.397   0.172   0.167   0.234    FJ033         FJ ##   **FJ036**     0.026   0.551   0.11    0.133   0.18     FJ036         FJ ##   **FJ041**     0.016   0.64    0.112   0.103   0.129    FJ041         FJ ##   **FJ048**     0.02    0.611   0.11    0.135   0.124    FJ048         FJ ##   **FJ061**     0.039   0.44    0.218   0.131   0.172    FJ061         FJ ##   **FJ064**     0.075   0.331   0.201   0.255   0.138    FJ064         FJ ##   **FJ067**     0.021   0.505   0.172   0.19    0.112    FJ067         FJ ##   **FJ069**     0.013   0.495   0.185   0.151   0.156    FJ069         FJ ##   **FJ077**     0.021   0.603   0.106   0.192   0.078    FJ077         FJ ##   **FJ080**     0.056   0.494   0.126   0.167   0.157    FJ080         FJ ##   **FJ091**     0.035   0.335   0.318   0.129   0.183    FJ091         FJ ##   **FJ098**     0.028   0.308   0.15    0.356   0.158    FJ098         JZ ##   **FJ100**     0.027   0.317   0.151   0.307   0.198    FJ100         FJ ##  **FJ_FJA03**   0.03    0.415   0.137   0.176   0.242   FJ_FJA03       FJ ##  **FJ_FJB08**   0.022   0.458   0.148   0.073   0.299   FJ_FJB08       FJ ##  **FJ_FJB09**   0.017   0.496   0.175   0.099   0.213   FJ_FJB09       FJ ##  **FJ_FJC04**   0.031   0.449   0.159   0.102   0.259   FJ_FJC04       FJ ##  **FJ_FJE01**   0.026   0.675   0.113   0.089   0.097   FJ_FJE01       FJ ##  **FJ_FJE02**   0.019   0.611   0.131   0.09    0.149   FJ_FJE02       FJ ##  **FJ_FJE03**   0.017   0.463   0.173   0.166   0.181   FJ_FJE03       FJ ##  **FJ_FJE06**   0.038   0.445   0.182   0.111   0.224   FJ_FJE06       FJ ##  **FJ_FJE08**   0.016   0.492   0.145   0.095   0.252   FJ_FJE08       FJ ##  **FJ_FJF02**   0.029   0.598   0.112   0.098   0.163   FJ_FJF02       FJ ##  **FJ_FJF09**   0.062   0.252   0.297   0.166   0.223   FJ_FJF09       JK ##  **FJ_FJH01**   0.024   0.354   0.221   0.148   0.253   FJ_FJH01       FJ ##  **FJ_FJH07**   0.044   0.437   0.19    0.183   0.146   FJ_FJH07       FJ ##  **FJ_FJI02**   0.04    0.48    0.131   0.194   0.155   FJ_FJI02       FJ ##  **FJ_FJI09**   0.105   0.248   0.174   0.253   0.22    FJ_FJI09       JZ ##  **FJ_FJJ06**   0.063   0.381   0.195   0.205   0.156   FJ_FJJ06       FJ ##   **JK001**     0.098   0.151   0.317   0.251   0.183    JK001         JK ##   **JK006**     0.069   0.152   0.384   0.241   0.154    JK006         JK ##   **JK007**     0.149   0.161   0.35    0.23    0.11     JK007         JK ##   **JK009**     0.044   0.188   0.389   0.168   0.211    JK009         JK ##   **JK010**     0.03    0.152   0.495   0.187   0.136    JK010         JK ##   **JK015**     0.057   0.154   0.497   0.135   0.157    JK015         JK ##   **JK024**     0.028   0.176   0.513   0.138   0.145    JK024         JK ##   **JK031**     0.101   0.228   0.391   0.17    0.11     JK031         JK ##   **JK032**     0.086   0.244   0.383   0.21    0.077    JK032         JK ##   **JK034**     0.074   0.236   0.367   0.215   0.108    JK034         JK ##   **JK036**     0.077   0.233   0.37    0.177   0.143    JK036         JK ##   **JK038**     0.068   0.242   0.378   0.203   0.109    JK038         JK ##   **JK040**     0.033   0.207   0.474   0.144   0.142    JK040         JK ##   **JK056**     0.059   0.159   0.472   0.138   0.172    JK056         JK ##   **JK057**     0.02    0.204   0.544   0.091   0.141    JK057         JK ##   **JK060**     0.041   0.173   0.451   0.161   0.174    JK060         JK ##   **JK074**     0.06    0.109   0.489   0.175   0.167    JK074         JK ##   **JK088**     0.019   0.113    0.7    0.079   0.089    JK088         JK ##  **JK_JKB02**   0.013   0.163   0.597   0.115   0.112   JK_JKB02       JK ##  **JK_JKB05**   0.023   0.126   0.599   0.123   0.129   JK_JKB05       JK ##  **JK_JKB06**   0.013   0.219   0.563   0.095   0.11    JK_JKB06       JK ##  **JK_JKB07**   0.024   0.187   0.627   0.088   0.074   JK_JKB07       JK ##  **JK_JKC08**   0.061   0.153   0.451   0.151   0.184   JK_JKC08       JK ##  **JK_JKD01**   0.014   0.128   0.628   0.089   0.141   JK_JKD01       JK ##  **JK_JKD08**   0.012   0.157   0.578   0.14    0.113   JK_JKD08       JK ##  **JK_JKE03**   0.017   0.128   0.629   0.096   0.13    JK_JKE03       JK ##  **JK_JKF04**   0.053   0.217   0.416   0.153   0.161   JK_JKF04       JK ##  **JK_JKF10**   0.052   0.186   0.384   0.195   0.183   JK_JKF10       JK ##  **JK_JKG04**   0.015   0.196   0.519   0.13    0.14    JK_JKG04       JK ##  **JK_JKH06**   0.007   0.131   0.601   0.095   0.166   JK_JKH06       JK ##  **JK_JKH07**   0.016   0.18    0.588   0.093   0.123   JK_JKH07       JK ##  **JK_JKI06**   0.07    0.174   0.311   0.207   0.238   JK_JKI06       JK ##  **JK_JKJ01**   0.068   0.24    0.336   0.203   0.153   JK_JKJ01       JK ##   **JZ003**     0.093   0.229   0.083   0.388   0.207    JZ003         JZ ##   **JZ016**     0.065   0.136   0.056   0.699   0.044    JZ016         JZ ##   **JZ022**     0.382   0.088   0.18    0.183   0.167    JZ022         CR ##   **JZ023**     0.066   0.226   0.114   0.349   0.245    JZ023         JZ ##   **JZ024**     0.02    0.282   0.127   0.375   0.196    JZ024         JZ ##   **JZ027**     0.023   0.234   0.154   0.423   0.166    JZ027         JZ ##   **JZ028**     0.035   0.194   0.118   0.533   0.12     JZ028         JZ ##   **JZ032**     0.023   0.279   0.129    0.4    0.169    JZ032         JZ ##   **JZ033**     0.095   0.252   0.096   0.343   0.214    JZ033         JZ ##   **JZ045**     0.025   0.153   0.179   0.492   0.151    JZ045         JZ ##   **JZ058**     0.142   0.115   0.172   0.411   0.16     JZ058         JZ ##   **JZ062**     0.072   0.148   0.103   0.535   0.142    JZ062         JZ ##   **JZ064**     0.027   0.172   0.176   0.46    0.165    JZ064         JZ ##   **JZ066**     0.042   0.173   0.098   0.509   0.178    JZ066         JZ ##   **JZ072**     0.062   0.16    0.183   0.426   0.169    JZ072         JZ ##   **JZ075**     0.046   0.178   0.237   0.357   0.182    JZ075         JZ ##   **JZ076**     0.039   0.271   0.155   0.37    0.165    JZ076         JZ ##   **JZ078**     0.166   0.15    0.162   0.367   0.155    JZ078         JZ ##   **JZ090**     0.271   0.124   0.132   0.344   0.129    JZ090         JZ ##   **JZ091**     0.452   0.116   0.087   0.256   0.089    JZ091         CR ##   **JZ095**     0.575   0.059   0.085   0.206   0.075    JZ095         CR ##   **JZ097**     0.188    0.2    0.156   0.327   0.129    JZ097         JZ ##   **JZ098**     0.549   0.051   0.07    0.258   0.072    JZ098         CR ##  **JZ_JZA02**   0.246   0.188   0.086   0.383   0.097   JZ_JZA02       JZ ##  **JZ_JZA04**   0.09    0.301   0.095   0.42    0.094   JZ_JZA04       JZ ##  **JZ_JZA09**   0.362   0.137   0.077   0.357   0.067   JZ_JZA09       CR ##  **JZ_JZB04**   0.071   0.273   0.169   0.273   0.214   JZ_JZB04       FJ ##  **JZ_JZB06**   0.047   0.381   0.139   0.282   0.151   JZ_JZB06       FJ ##  **JZ_JZB08**   0.062   0.271   0.257   0.23    0.18    JZ_JZB08       FJ ##  **JZ_JZC01**   0.037   0.301   0.256   0.256   0.15    JZ_JZC01       FJ ##  **JZ_JZC06**   0.023   0.375   0.145   0.332   0.125   JZ_JZC06       FJ ##  **JZ_JZC08**   0.036   0.308   0.259   0.269   0.128   JZ_JZC08       FJ ##  **JZ_JZD01**   0.025   0.288   0.234   0.297   0.156   JZ_JZD01       JZ ##  **CR_JZD03**   0.073   0.237    0.2    0.262   0.228   CR_JZD03       JZ ##  **JZ_JZE02**   0.102   0.171   0.288   0.343   0.096   JZ_JZE02       JZ ##  **JZ_JZE09**   0.332   0.122   0.115   0.345   0.086   JZ_JZE09       JZ ##  **JZ_JZF01**   0.056   0.266   0.199   0.358   0.121   JZ_JZF01       JZ ##  **JZ_JZF02**   0.09    0.248   0.183   0.361   0.118   JZ_JZF02       JZ ##  **JZ_JZF03**   0.051   0.177   0.332   0.257   0.183   JZ_JZF03       JK ##  **JZ_JZF04**   0.184   0.134   0.136   0.48    0.066   JZ_JZF04       JZ ##  **FJ_JZG02**   0.094   0.249   0.155   0.337   0.165   FJ_JZG02       JZ ##  **JZ_JZG03**   0.076   0.194   0.223   0.351   0.156   JZ_JZG03       JZ ##  **JZ_JZH08**   0.17    0.108   0.174   0.433   0.115   JZ_JZH08       JZ ##  **JZ_JZI05**   0.386   0.08    0.077   0.396   0.061   JZ_JZI05       JZ ##  **JZ_JZI08**   0.473   0.083   0.063   0.323   0.058   JZ_JZI08       CR ##  **JZ_JZI09**   0.403   0.095   0.056   0.412   0.034   JZ_JZI09       JZ ##  **JZ_JZI10**   0.301   0.09     0.1    0.413   0.096   JZ_JZI10       JZ ##  **JZ_JZJ05**   0.214   0.195   0.122   0.381   0.088   JZ_JZJ05       JZ ##  **JZ_JZJ06**   0.036   0.207   0.271   0.307   0.179   JZ_JZJ06       JZ ##  **JZ_JZJ09**   0.335   0.125   0.075   0.392   0.073   JZ_JZJ09       JZ ##  **JZ_JZK02**   0.062   0.256   0.155   0.257   0.27    JZ_JZK02       XR ##   **XR007**     0.027   0.215   0.084   0.126   0.548    XR007         XR ##   **XR024**     0.028   0.19    0.135   0.174   0.473    XR024         XR ##   **XR026**     0.068   0.134   0.237   0.132   0.429    XR026         XR ##   **XR029**     0.039   0.219   0.162   0.158   0.422    XR029         XR ##   **XR033**     0.083   0.153   0.094   0.138   0.532    XR033         XR ##   **XR041**     0.029   0.138   0.181   0.119   0.533    XR041         XR ##   **XR048**     0.048   0.15    0.085   0.177   0.54     XR048         XR ##   **XR053**     0.021   0.175   0.165   0.11    0.529    XR053         XR ##   **XR055**     0.015   0.23    0.229   0.105   0.421    XR055         XR ##   **XR056**     0.055   0.196   0.15    0.169   0.43     XR056         XR ##   **XR062**     0.019   0.162   0.214   0.105    0.5     XR062         XR ##   **XR074**     0.012   0.194   0.177   0.13    0.487    XR074         XR ##   **XR078**     0.007   0.148   0.198   0.116   0.531    XR078         XR ##   **XR080**     0.037   0.157   0.153   0.121   0.532    XR080         XR ##   **XR084**     0.031   0.205   0.146   0.14    0.478    XR084         XR ##   **XR095**     0.037   0.182   0.285   0.118   0.378    XR095         XR ##   **XR096**     0.023   0.378   0.174   0.131   0.294    XR096         FJ ##  **XR_XRA09**   0.011   0.129   0.28    0.079   0.501   XR_XRA09       XR ##  **XR_XRB06**   0.013   0.128   0.134   0.081   0.644   XR_XRB06       XR ##  **XR_XRB07**   0.012   0.121   0.146   0.082   0.639   XR_XRB07       XR ##  **XR_XRC01**   0.051   0.127   0.112   0.11     0.6    XR_XRC01       XR ##  **XR_XRC02**   0.019   0.128   0.163   0.107   0.583   XR_XRC02       XR ##  **XR_XRC08**   0.031   0.186   0.174   0.101   0.508   XR_XRC08       XR ##  **XR_XRC09**   0.03    0.126   0.191   0.085   0.568   XR_XRC09       XR ##  **XR_XRD01**   0.087   0.123   0.098   0.088   0.604   XR_XRD01       XR ##  **XR_XRD05**   0.049   0.136   0.14    0.088   0.587   XR_XRD05       XR ##  **XR_XRE04**   0.026   0.112   0.196   0.069   0.597   XR_XRE04       XR ##  **XR_XRE10**   0.016   0.218   0.192   0.134   0.44    XR_XRE10       XR ##  **XR_XRF03**   0.017   0.301   0.201   0.122   0.359   XR_XRF03       XR ##  **XR_XRF04**   0.014   0.154   0.243   0.098   0.491   XR_XRF04       XR ##  **XR_XRG01**   0.116   0.099   0.099   0.124   0.562   XR_XRG01       XR ##  **XR_XRG03**   0.049   0.175   0.133   0.133   0.51    XR_XRG03       XR ##  **XR_XRG04**   0.02    0.105   0.212   0.092   0.571   XR_XRG04       XR ##  **XR_XRG09**   0.009   0.09    0.233   0.066   0.602   XR_XRG09       XR ##  **XR_XRH02**   0.016   0.148   0.133   0.101   0.602   XR_XRH02       XR ##  **XR_XRI04**   0.012   0.231   0.138   0.088   0.531   XR_XRI04       XR ##  **XR_XRI10**   0.017   0.326   0.152   0.117   0.388   XR_XRI10       XR ##  **XR_XRJ08**   0.026   0.417   0.105   0.14    0.312   XR_XRJ08       FJ ##  **XR_XRK02**   0.029   0.281   0.177   0.199   0.314   XR_XRK02       XR ## ##表:預測之細節 比較腺瘤(JZ/FJ)與剩餘部分 ## ## |               |     | ## |:-------------:|:---:| ## | 訓練資料| 799 | ## |   測試資料   | 200 | ## ##表:訓練及測試樣本之數目 ## ## 訪問: ##隨機森林(式=類型~ .,資料=訓練資料,重要性=TRUE,樹之數目=1000) ##                隨機森林之類型:分類 ##                      樹之數目:1000 ##在各分枝下嘗試之變量數目:18 ## ##         OOB評估之錯誤率:9.26% ##混淆矩陣: ##         G1_N_AD G2_AD類別.誤差 ## G1_N_AD     464    18   0.0373444 ## G2_AD        56   261   0.1766562
Figure 02_image003
(亦參見圖15及圖16) ## ## ## | G1_N_AD | G2_AD |平均降低準確度|平均降低基尼| Otu名稱 | ## |:-------:|:-----:|:--------------------:|:----------------:|:-------:| ## |  10.95  | 14.37 |        15.32         |      7.281       | Otu241  | ## |  9.829  | 11.58 |        13.07         |      5.045       | Otu143  | ## |  9.079  | 11.09 |        12.78         |      5.198       |  Otu88  | ## |  7.33   | 12.49 |        12.59         |      4.773       | Otu1360 | ## |  10.48  | 9.765 |        12.29         |      4.874       |  Otu80  | ## |  6.764  | 12.82 |        11.93         |      4.201       | Otu191  | ## |  9.579  | 11.29 |        11.92         |      5.096       | Otu1372 | ## |  7.774  | 10.49 |        10.94         |      4.783       | Otu217  | ## |  8.404  |  10   |        10.82         |      3.997       |  Otu23  | ## |  7.807  | 9.471 |        10.64         |      3.382       | Otu860  | ## ##表:平均降低準確度之前10個最重要變量 ##混淆矩陣及統計資料 ## ##           參考 ## 預測G1_N_AD G2_AD ##    G1_N_AD     112    23 ##    G2_AD         3    62 ## ##                準確度:0.87 ##                  95% CI : (0.8153, 0.9133) ##     無資訊率:0.575 ##     P-值 [Acc > NIR] : < 2.2e-16 ## ##                   κ:0.7256 ##  Mcnemar之測試P-值:0.0001944 ## ##             敏感度:0.9739 ##             特異性:0.7294 ##          正預測值:0.8296 ##          負預測值:0.9538 ##              盛行率:0.5750 ##          偵測速率:0.5600 ##    偵測盛行率:0.6750 ##       平衡準確度:0.8517 ## ##        「正」類別:G1_N_AD ## ## ## ##           G1_N_AD   G2_AD    標記     預測 ## -------------- --------- ------- ---------- ------------ ##   **CR005**      0.872    0.128    CR005      G1_N_AD ##   **CR009**      0.755    0.245    CR009      G1_N_AD ##   **CR012**      0.855    0.145    CR012      G1_N_AD ##   **CR013**      0.81     0.19     CR013      G1_N_AD ##   **CR019**      0.823    0.177    CR019      G1_N_AD ##   **CR033**      0.645    0.355    CR033      G1_N_AD ##   **CR034**      0.77     0.23     CR034      G1_N_AD ##   **CR043**      0.872    0.128    CR043      G1_N_AD ##   **CR046**      0.902    0.098    CR046      G1_N_AD ##   **CR054**      0.73     0.27     CR054      G1_N_AD ##   **CR063**      0.865    0.135    CR063      G1_N_AD ##   **CR076**      0.891    0.109    CR076      G1_N_AD ##   **CR083**      0.882    0.118    CR083      G1_N_AD ##   **CR087**      0.851    0.149    CR087      G1_N_AD ##   **CR090**      0.792    0.208    CR090      G1_N_AD ##   **CR092**      0.877    0.123    CR092      G1_N_AD ##   **CR094**      0.773    0.227    CR094      G1_N_AD ##   **CR098**      0.874    0.126    CR098      G1_N_AD ##   **CR099**      0.846    0.154    CR099      G1_N_AD ##   **CR100**      0.489    0.511    CR100       G2_AD ##  **CR_CRB07**    0.826    0.174   CR_CRB07    G1_N_AD ##  **CR_CRB10**    0.688    0.312   CR_CRB10    G1_N_AD ##  **CR_CRC09**    0.89     0.11    CR_CRC09    G1_N_AD ##  **CR_CRC10**    0.766    0.234   CR_CRC10    G1_N_AD ##  **CR_CRD02**    0.879    0.121   CR_CRD02    G1_N_AD ##  **CR_CRD05**    0.879    0.121   CR_CRD05    G1_N_AD ##  **CR_CRD06**    0.821    0.179   CR_CRD06    G1_N_AD ##  **CR_CRD07**    0.813    0.187   CR_CRD07    G1_N_AD ##  **CR_CRE06**    0.735    0.265   CR_CRE06    G1_N_AD ##  **CR_CRF03**    0.921    0.079   CR_CRF03    G1_N_AD ##  **CR_CRF10**    0.803    0.197   CR_CRF10    G1_N_AD ##  **CR_CRG02**    0.843    0.157   CR_CRG02    G1_N_AD ##  **CR_CRG04**    0.92     0.08    CR_CRG04    G1_N_AD ##  **CR_CRG08**    0.902    0.098   CR_CRG08    G1_N_AD ##  **CR_CRG09**    0.772    0.228   CR_CRG09    G1_N_AD ##  **CR_CRG10**    0.851    0.149   CR_CRG10    G1_N_AD ##  **CR_CRH07**    0.861    0.139   CR_CRH07    G1_N_AD ##  **CR_CRH09**    0.858    0.142   CR_CRH09    G1_N_AD ##  **CR_CRI04**    0.822    0.178   CR_CRI04    G1_N_AD ##  **CR_CRI10**    0.869    0.131   CR_CRI10    G1_N_AD ##  **CR_CRJ06**    0.912    0.088   CR_CRJ06    G1_N_AD ##  **CR_CRJ09**    0.881    0.119   CR_CRJ09    G1_N_AD ##   **FJ002**      0.51     0.49     FJ002      G1_N_AD ##   **FJ008**      0.29     0.71     FJ008       G2_AD ##   **FJ010**      0.245    0.755    FJ010       G2_AD ##   **FJ013**      0.286    0.714    FJ013       G2_AD ##   **FJ019**      0.39     0.61     FJ019       G2_AD ##   **FJ023**      0.475    0.525    FJ023       G2_AD ##   **FJ033**      0.492    0.508    FJ033       G2_AD ##   **FJ036**      0.283    0.717    FJ036       G2_AD ##   **FJ041**      0.264    0.736    FJ041       G2_AD ##   **FJ048**       0.2      0.8     FJ048       G2_AD ##   **FJ061**      0.446    0.554    FJ061       G2_AD ##   **FJ064**      0.429    0.571    FJ064       G2_AD ##   **FJ067**      0.261    0.739    FJ067       G2_AD ##   **FJ069**      0.336    0.664    FJ069       G2_AD ##   **FJ077**      0.19     0.81     FJ077       G2_AD ##   **FJ080**      0.285    0.715    FJ080       G2_AD ##   **FJ091**      0.556    0.444    FJ091      G1_N_AD ##   **FJ098**      0.249    0.751    FJ098       G2_AD ##   **FJ100**      0.297    0.703    FJ100       G2_AD ##  **FJ_FJA03**    0.48     0.52    FJ_FJA03     G2_AD ##  **FJ_FJB08**    0.508    0.492   FJ_FJB08    G1_N_AD ##  **FJ_FJB09**    0.392    0.608   FJ_FJB09     G2_AD ##  **FJ_FJC04**    0.443    0.557   FJ_FJC04     G2_AD ##  **FJ_FJE01**    0.236    0.764   FJ_FJE01     G2_AD ##  **FJ_FJE02**    0.326    0.674   FJ_FJE02     G2_AD ##  **FJ_FJE03**    0.376    0.624   FJ_FJE03     G2_AD ##  **FJ_FJE06**    0.482    0.518   FJ_FJE06     G2_AD ##  **FJ_FJE08**    0.436    0.564   FJ_FJE08     G2_AD ##  **FJ_FJF02**    0.318    0.682   FJ_FJF02     G2_AD ##  **FJ_FJF09**    0.545    0.455   FJ_FJF09    G1_N_AD ##  **FJ_FJH01**    0.466    0.534   FJ_FJH01     G2_AD ##  **FJ_FJH07**    0.288    0.712   FJ_FJH07     G2_AD ##  **FJ_FJI02**    0.347    0.653   FJ_FJI02     G2_AD ##  **FJ_FJI09**    0.471    0.529   FJ_FJI09     G2_AD ##  **FJ_FJJ06**    0.367    0.633   FJ_FJJ06     G2_AD ##   **JK001**      0.67     0.33     JK001      G1_N_AD ##   **JK006**      0.666    0.334    JK006      G1_N_AD ##   **JK007**      0.598    0.402    JK007      G1_N_AD ##   **JK009**      0.659    0.341    JK009      G1_N_AD ##   **JK010**      0.682    0.318    JK010      G1_N_AD ##   **JK015**      0.737    0.263    JK015      G1_N_AD ##   **JK024**      0.725    0.275    JK024      G1_N_AD ##   **JK031**      0.606    0.394    JK031      G1_N_AD ##   **JK032**      0.51     0.49     JK032      G1_N_AD ##   **JK034**      0.578    0.422    JK034      G1_N_AD ##   **JK036**      0.606    0.394    JK036      G1_N_AD ##   **JK038**      0.598    0.402    JK038      G1_N_AD ##   **JK040**      0.717    0.283    JK040      G1_N_AD ##   **JK056**      0.758    0.242    JK056      G1_N_AD ##   **JK057**      0.69     0.31     JK057      G1_N_AD ##   **JK060**      0.708    0.292    JK060      G1_N_AD ##   **JK074**      0.762    0.238    JK074      G1_N_AD ##   **JK088**      0.855    0.145    JK088      G1_N_AD ##  **JK_JKB02**    0.695    0.305   JK_JKB02    G1_N_AD ##  **JK_JKB05**    0.728    0.272   JK_JKB05    G1_N_AD ##  **JK_JKB06**    0.623    0.377   JK_JKB06    G1_N_AD ##  **JK_JKB07**    0.703    0.297   JK_JKB07    G1_N_AD ##  **JK_JKC08**    0.734    0.266   JK_JKC08    G1_N_AD ##  **JK_JKD01**    0.81     0.19    JK_JKD01    G1_N_AD ##  **JK_JKD08**    0.736    0.264   JK_JKD08    G1_N_AD ##  **JK_JKE03**    0.811    0.189   JK_JKE03    G1_N_AD ##  **JK_JKF04**    0.578    0.422   JK_JKF04    G1_N_AD ##  **JK_JKF10**    0.601    0.399   JK_JKF10    G1_N_AD ##  **JK_JKG04**    0.626    0.374   JK_JKG04    G1_N_AD ##  **JK_JKH06**    0.734    0.266   JK_JKH06    G1_N_AD ##  **JK_JKH07**    0.724    0.276   JK_JKH07    G1_N_AD ##  **JK_JKI06**    0.672    0.328   JK_JKI06    G1_N_AD ##  **JK_JKJ01**    0.58     0.42    JK_JKJ01    G1_N_AD ##   **JZ003**      0.47     0.53     JZ003       G2_AD ##   **JZ016**      0.136    0.864    JZ016       G2_AD ##   **JZ022**      0.821    0.179    JZ022      G1_N_AD ##   **JZ023**      0.45     0.55     JZ023       G2_AD ##   **JZ024**      0.226    0.774    JZ024       G2_AD ##   **JZ027**      0.269    0.731    JZ027       G2_AD ##   **JZ028**      0.224    0.776    JZ028       G2_AD ##   **JZ032**      0.24     0.76     JZ032       G2_AD ##   **JZ033**       0.4      0.6     JZ033       G2_AD ##   **JZ045**      0.316    0.684    JZ045       G2_AD ##   **JZ058**      0.621    0.379    JZ058      G1_N_AD ##   **JZ062**      0.345    0.655    JZ062       G2_AD ##   **JZ064**      0.351    0.649    JZ064       G2_AD ##   **JZ066**      0.25     0.75     JZ066       G2_AD ##   **JZ072**      0.49     0.51     JZ072       G2_AD ##   **JZ075**      0.445    0.555    JZ075       G2_AD ##   **JZ076**      0.273    0.727    JZ076       G2_AD ##   **JZ078**      0.667    0.333    JZ078      G1_N_AD ##   **JZ090**      0.574    0.426    JZ090      G1_N_AD ##   **JZ091**      0.648    0.352    JZ091      G1_N_AD ##   **JZ095**      0.75     0.25     JZ095      G1_N_AD ##   **JZ097**      0.565    0.435    JZ097      G1_N_AD ##   **JZ098**      0.726    0.274    JZ098      G1_N_AD ##  **JZ_JZA02**    0.382    0.618   JZ_JZA02     G2_AD ##  **JZ_JZA04**    0.264    0.736   JZ_JZA04     G2_AD ##  **JZ_JZA09**    0.52     0.48    JZ_JZA09    G1_N_AD ##  **JZ_JZB04**    0.485    0.515   JZ_JZB04     G2_AD ##  **JZ_JZB06**    0.342    0.658   JZ_JZB06     G2_AD ##  **JZ_JZB08**    0.483    0.517   JZ_JZB08     G2_AD ##  **JZ_JZC01**    0.382    0.618   JZ_JZC01     G2_AD ##  **JZ_JZC06**    0.258    0.742   JZ_JZC06     G2_AD ##  **JZ_JZC08**    0.369    0.631   JZ_JZC08     G2_AD ##  **JZ_JZD01**    0.452    0.548   JZ_JZD01     G2_AD ##  **CR_JZD03**    0.499    0.501   CR_JZD03     G2_AD ##  **JZ_JZE02**    0.564    0.436   JZ_JZE02    G1_N_AD ##  **JZ_JZE09**    0.566    0.434   JZ_JZE09    G1_N_AD ##  **JZ_JZF01**    0.302    0.698   JZ_JZF01     G2_AD ##  **JZ_JZF02**    0.425    0.575   JZ_JZF02     G2_AD ##  **JZ_JZF03**    0.543    0.457   JZ_JZF03    G1_N_AD ##  **JZ_JZF04**    0.367    0.633   JZ_JZF04     G2_AD ##  **FJ_JZG02**    0.421    0.579   FJ_JZG02     G2_AD ##  **JZ_JZG03**    0.467    0.533   JZ_JZG03     G2_AD ##  **JZ_JZH08**    0.54     0.46    JZ_JZH08    G1_N_AD ##  **JZ_JZI05**    0.535    0.465   JZ_JZI05    G1_N_AD ##  **JZ_JZI08**    0.576    0.424   JZ_JZI08    G1_N_AD ##  **JZ_JZI09**    0.46     0.54    JZ_JZI09     G2_AD ##  **JZ_JZI10**    0.547    0.453   JZ_JZI10    G1_N_AD ##  **JZ_JZJ05**    0.434    0.566   JZ_JZJ05     G2_AD ##  **JZ_JZJ06**    0.52     0.48    JZ_JZJ06    G1_N_AD ##  **JZ_JZJ09**    0.61     0.39    JZ_JZJ09    G1_N_AD ##  **JZ_JZK02**    0.552    0.448   JZ_JZK02    G1_N_AD ##   **XR007**      0.669    0.331    XR007      G1_N_AD ##   **XR024**      0.701    0.299    XR024      G1_N_AD ##   **XR026**      0.835    0.165    XR026      G1_N_AD ##   **XR029**      0.742    0.258    XR029      G1_N_AD ##   **XR033**      0.716    0.284    XR033      G1_N_AD ##   **XR041**      0.741    0.259    XR041      G1_N_AD ##   **XR048**      0.704    0.296    XR048      G1_N_AD ##   **XR053**      0.723    0.277    XR053      G1_N_AD ##   **XR055**      0.682    0.318    XR055      G1_N_AD ##   **XR056**      0.655    0.345    XR056      G1_N_AD ##   **XR062**      0.795    0.205    XR062      G1_N_AD ##   **XR074**      0.704    0.296    XR074      G1_N_AD ##   **XR078**      0.756    0.244    XR078      G1_N_AD ##   **XR080**      0.731    0.269    XR080      G1_N_AD ##   **XR084**      0.675    0.325    XR084      G1_N_AD ##   **XR095**      0.708    0.292    XR095      G1_N_AD ##   **XR096**      0.518    0.482    XR096      G1_N_AD ##  **XR_XRA09**    0.804    0.196   XR_XRA09    G1_N_AD ##  **XR_XRB06**    0.823    0.177   XR_XRB06    G1_N_AD ##  **XR_XRB07**    0.796    0.204   XR_XRB07    G1_N_AD ##  **XR_XRC01**    0.82     0.18    XR_XRC01    G1_N_AD ##  **XR_XRC02**    0.807    0.193   XR_XRC02    G1_N_AD ##  **XR_XRC08**    0.765    0.235   XR_XRC08    G1_N_AD ##  **XR_XRC09**    0.843    0.157   XR_XRC09    G1_N_AD ##  **XR_XRD01**    0.856    0.144   XR_XRD01    G1_N_AD ##  **XR_XRD05**    0.855    0.145   XR_XRD05    G1_N_AD ##  **XR_XRE04**    0.81     0.19    XR_XRE04    G1_N_AD ##  **XR_XRE10**    0.67     0.33    XR_XRE10    G1_N_AD ##  **XR_XRF03**    0.635    0.365   XR_XRF03    G1_N_AD ##  **XR_XRF04**    0.773    0.227   XR_XRF04    G1_N_AD ##  **XR_XRG01**    0.851    0.149   XR_XRG01    G1_N_AD ##  **XR_XRG03**    0.782    0.218   XR_XRG03    G1_N_AD ##  **XR_XRG04**    0.867    0.133   XR_XRG04    G1_N_AD ##  **XR_XRG09**    0.839    0.161   XR_XRG09    G1_N_AD ##  **XR_XRH02**    0.787    0.213   XR_XRH02    G1_N_AD ##  **XR_XRI04**    0.692    0.308   XR_XRI04    G1_N_AD ##  **XR_XRI10**    0.545    0.455   XR_XRI10    G1_N_AD ##  **XR_XRJ08**    0.579    0.421   XR_XRJ08    G1_N_AD ##  **XR_XRK02**    0.448    0.552   XR_XRK02     G2_AD ## ##表:預測之細節 比較腺瘤(JZ/FJ)與未患病(JK/XR) ## ## |               |     | ## |:-------------:|:---:| ## | 訓練資料| 637 | ## |   測試資料   | 160 | ## ##表:訓練及測試樣本之數目 ## ## 訪問: ##  隨機森林(式=類型~ .,資料=訓練資料,重要性=TRUE,樹之數目=1000) ##                隨機森林之類型:分類 ##                      樹之數目:1000 ##在各分枝下嘗試之變量數目:18 ## ##         OOB評估之錯誤率:4.71% ##混淆矩陣: ##       G1_H G2_AD類別.誤差 ## G1_H   293    18  0.05787781 ## G2_AD   12   314  0.03680982
Figure 02_image003
(亦參見圖17及圖18) ## ## ## | G1_H  | G2_AD |平均降低準確度|平均降低基尼| Otu名稱 | ## |:-----:|:-----:|:--------------------:|:----------------:|:-------:| ## | 11.49 | 13.59 |        15.38         |       7.3        | Otu241  | ## | 11.8  | 9.956 |        13.61         |      5.848       |  Otu23  | ## | 11.28 | 11.53 |        13.61         |      4.946       |  Otu61  | ## | 11.29 | 9.249 |        12.83         |      4.604       | Otu860  | ## | 9.019 | 9.619 |        11.99         |      3.636       | Otu143  | ## | 9.243 | 11.09 |        11.85         |      2.599       | Otu188  | ## | 10.44 | 9.803 |        11.62         |      4.609       | Otu2227 | ## | 9.124 | 9.901 |        11.58         |      3.602       |  Otu88  | ## | 10.29 | 8.351 |        11.54         |       4.16       |  Otu49  | ## | 8.66  | 9.76  |        10.86         |      3.935       | Otu1432 | ## ##表:平均降低準確度之前10個最重要變量 ##混淆矩陣及統計資料 ## ##           參考 ## 預測G1_H G2_AD ##      G1_H    74     4 ##      G2_AD   10    72 ## ##                準確度:0.9125 ##                  95% CI : (0.8575, 0.9513) ##     無資訊率:0.525 ##     P-值 [Acc > NIR] : <2e-16 ## ##                   κ:0.8252 ##  Mcnemar之測試P-值:0.1814 ## ##             敏感度:0.8810 ##             特異性:0.9474 ##          正預測值:0.9487 ##          負預測值:0.8780 ##              盛行率:0.5250 ##          偵測速率:0.4625 ##    偵測盛行率:0.4875 ##      平衡準確度: 0.9142 ## ##        「正」類別:G1_H ## ## ## ##      G1_H    G2_AD    標記     預測 ## --------- ------- ------- ---------- ------------ ##   **5**    0.337   0.663    FJ005       G2_AD ##   **9**    0.28    0.72     FJ009       G2_AD ##  **12**    0.206   0.794    FJ012       G2_AD ##  **13**    0.284   0.716    FJ013       G2_AD ##  **19**    0.322   0.678    FJ019       G2_AD ##  **33**    0.394   0.606    FJ033       G2_AD ##  **34**    0.293   0.707    FJ034       G2_AD ##  **43**    0.329   0.671    FJ043       G2_AD ##  **46**    0.268   0.732    FJ046       G2_AD ##  **54**    0.312   0.688    FJ054       G2_AD ##  **63**    0.305   0.695    FJ063       G2_AD ##  **76**    0.195   0.805    FJ076       G2_AD ##  **83**     0.2     0.8     FJ083       G2_AD ##  **87**    0.242   0.758    FJ087       G2_AD ##  **90**    0.24    0.76     FJ090       G2_AD ##  **92**    0.367   0.633    FJ092       G2_AD ##  **94**    0.328   0.672    FJ094       G2_AD ##  **98**    0.305   0.695    FJ098       G2_AD ##  **99**    0.362   0.638    FJ099       G2_AD ##  **100**   0.334   0.666    FJ100       G2_AD ##  **117**   0.403   0.597   FJ_FJB07     G2_AD ##  **120**   0.422   0.578   FJ_FJB10     G2_AD ##  **129**   0.472   0.528   FJ_FJC10     G2_AD ##  **130**   0.366   0.634   FJ_FJD01     G2_AD ##  **132**   0.423   0.577   FJ_FJD03     G2_AD ##  **135**   0.54    0.46    FJ_FJD06      G1_H ##  **136**   0.404   0.596   FJ_FJD07     G2_AD ##  **137**   0.385   0.615   FJ_FJD08     G2_AD ##  **146**   0.364   0.636   FJ_FJE07     G2_AD ##  **153**   0.242   0.758   FJ_FJF04     G2_AD ##  **160**   0.432   0.568   FJ_FJG01     G2_AD ##  **162**   0.502   0.498   FJ_FJG03      G1_H ##  **164**    0.5     0.5    FJ_FJG05      G1_H ##  **168**   0.472   0.528   FJ_FJG09     G2_AD ##  **169**   0.415   0.585   FJ_FJG10     G2_AD ##  **170**   0.539   0.461   FJ_FJH01      G1_H ##  **177**   0.275   0.725   FJ_FJH08     G2_AD ##  **179**   0.279   0.721   FJ_FJH10     G2_AD ##  **184**   0.28    0.72    FJ_FJI05     G2_AD ##  **190**   0.438   0.562   FJ_FJJ01     G2_AD ##  **196**   0.25    0.75    JZ_FJJ07     G2_AD ##  **199**   0.308   0.692   FJ_FJJ10     G2_AD ##  **202**   0.54    0.46     JK002        G1_H ##  **208**   0.605   0.395    JK008        G1_H ##  **210**   0.74    0.26     JK010        G1_H ##  **213**   0.741   0.259    JK013        G1_H ##  **219**   0.79    0.21     JK019        G1_H ##  **223**   0.72    0.28     JK023        G1_H ##  **233**   0.648   0.352    JK033        G1_H ##  **236**   0.701   0.299    JK036        G1_H ##  **241**   0.663   0.337    JK041        G1_H ##  **248**   0.591   0.409    JK048        G1_H ##  **261**   0.695   0.305    JK061        G1_H ##  **264**   0.721   0.279    JK064        G1_H ##  **267**   0.771   0.229    JK067        G1_H ##  **269**   0.726   0.274    JK069        G1_H ##  **277**   0.716   0.284    JK077        G1_H ##  **280**   0.738   0.262    JK080        G1_H ##  **291**   0.749   0.251    JK091        G1_H ##  **298**   0.843   0.157    JK098        G1_H ##  **300**   0.693   0.307   JK_JKA01      G1_H ##  **303**   0.499   0.501   JK_JKA04     G2_AD ##  **318**   0.747   0.253   JK_JKB09      G1_H ##  **319**   0.726   0.274   JK_JKB10      G1_H ##  **323**   0.685   0.315   JK_JKC04      G1_H ##  **340**   0.799   0.201   JK_JKE01      G1_H ##  **341**   0.733   0.267   JK_JKE02      G1_H ##  **342**   0.799   0.201   JK_JKE03      G1_H ##  **345**   0.733   0.267   JK_JKE06      G1_H ##  **347**   0.731   0.269   JK_JKE08      G1_H ##  **351**   0.634   0.366   JK_JKF02      G1_H ##  **358**   0.62    0.38    JK_JKF09      G1_H ##  **370**   0.702   0.298   JK_JKH01      G1_H ##  **376**   0.702   0.298   JK_JKH07      G1_H ##  **381**   0.686   0.314   JK_JKI02      G1_H ##  **388**   0.74    0.26    JK_JKI09      G1_H ##  **395**   0.813   0.187   JK_JKJ06      G1_H ##  **401**   0.264   0.736    JZ002       G2_AD ##  **406**   0.254   0.746    JZ007       G2_AD ##  **407**   0.439   0.561    JZ008       G2_AD ##  **409**   0.273   0.727    JZ010       G2_AD ##  **410**   0.363   0.637    JZ011       G2_AD ##  **415**   0.102   0.898    JZ016       G2_AD ##  **424**   0.199   0.801    JZ025       G2_AD ##  **431**   0.308   0.692    JZ032       G2_AD ##  **432**   0.23    0.77     JZ033       G2_AD ##  **434**   0.193   0.807    JZ035       G2_AD ##  **436**   0.263   0.737    JZ037       G2_AD ##  **438**   0.369   0.631    JZ039       G2_AD ##  **440**   0.174   0.826    JZ041       G2_AD ##  **456**   0.355   0.645    JZ057       G2_AD ##  **457**   0.414   0.586    JZ058       G2_AD ##  **460**   0.146   0.854    JZ061       G2_AD ##  **474**   0.344   0.656    JZ075       G2_AD ##  **488**   0.233   0.767    JZ089       G2_AD ##  **511**   0.35    0.65    JZ_JZB02     G2_AD ##  **514**   0.432   0.568   JZ_JZB05     G2_AD ##  **515**   0.296   0.704   JZ_JZB06     G2_AD ##  **516**   0.408   0.592   JZ_JZB07     G2_AD ##  **527**   0.356   0.644   JZ_JZC09     G2_AD ##  **530**   0.288   0.712   JZ_JZD02     G2_AD ##  **537**   0.306   0.694   JZ_JZE01     G2_AD ##  **542**   0.306   0.694   JZ_JZE06     G2_AD ##  **553**   0.256   0.744   JZ_JZF07     G2_AD ##  **559**   0.332   0.668   JZ_JZG03     G2_AD ##  **563**   0.218   0.782   JZ_JZG07     G2_AD ##  **575**   0.377   0.623   JZ_JZH10     G2_AD ##  **576**   0.186   0.814   JZ_JZI01     G2_AD ##  **585**   0.474   0.526   JZ_JZJ01     G2_AD ##  **590**   0.421   0.579   JZ_JZJ06     G2_AD ##  **602**   0.604   0.396    XR005        G1_H ##  **615**   0.616   0.384    XR018        G1_H ##  **621**   0.623   0.377    XR024        G1_H ##  **622**   0.565   0.435    XR025        G1_H ##  **623**   0.739   0.261    XR026        G1_H ##  **626**   0.668   0.332    XR029        G1_H ##  **627**   0.551   0.449    XR030        G1_H ##  **631**   0.424   0.576    XR034       G2_AD ##  **632**   0.51    0.49     XR035        G1_H ##  **644**   0.563   0.437    XR047        G1_H ##  **657**   0.709   0.291    XR060        G1_H ##  **661**   0.715   0.285    XR064        G1_H ##  **663**   0.775   0.225    XR066        G1_H ##  **665**   0.666   0.334    XR068        G1_H ##  **671**   0.727   0.273    XR074        G1_H ##  **674**   0.673   0.327    XR077        G1_H ##  **675**   0.769   0.231    XR078        G1_H ##  **677**   0.672   0.328    XR080        G1_H ##  **689**   0.755   0.245    XR092        G1_H ##  **690**   0.74    0.26     XR093        G1_H ##  **694**   0.261   0.739    XR097       G2_AD ##  **696**   0.433   0.567    XR099       G2_AD ##  **697**   0.413   0.587    XR100       G2_AD ##  **701**   0.863   0.137   XR_XRA04      G1_H ##  **703**   0.755   0.245   XR_XRA06      G1_H ##  **708**   0.832   0.168   XR_XRB01      G1_H ##  **713**   0.83    0.17    XR_XRB08      G1_H ##  **715**   0.812   0.188   XR_XRB10      G1_H ##  **717**   0.798   0.202   XR_XRC02      G1_H ##  **720**   0.835   0.165   XR_XRC05      G1_H ##  **725**   0.853   0.147   XR_XRC10      G1_H ##  **727**   0.781   0.219   XR_XRD02      G1_H ##  **730**   0.817   0.183   XR_XRD05      G1_H ##  **732**   0.873   0.127   XR_XRD07      G1_H ##  **740**   0.543   0.457   XR_XRE07      G1_H ##  **747**   0.817   0.183   XR_XRF04      G1_H ##  **749**   0.847   0.153   XR_XRF07      G1_H ##  **750**   0.785   0.215   XR_XRF08      G1_H ##  **751**   0.843   0.157   XR_XRF09      G1_H ##  **752**   0.816   0.184   XR_XRF10      G1_H ##  **760**   0.689   0.311   XR_XRG08      G1_H ##  **761**   0.841   0.159   XR_XRG09      G1_H ##  **775**   0.696   0.304   XR_XRI03      G1_H ##  **782**   0.567   0.433   XR_XRI10      G1_H ##  **784**   0.34    0.66    XR_XRJ02     G2_AD ##  **785**   0.48    0.52    XR_XRJ03     G2_AD ##  **786**   0.377   0.623   XR_XRJ04     G2_AD ##  **791**   0.401   0.599   FJ_XRJ09     G2_AD ##  **792**   0.391   0.609   XR_XRJ10     G2_AD ##  **795**   0.409   0.591   XR_XRK03     G2_AD ## ##表:預測之細節
預測 多組 類似於對CR及NM之預測,吾等僅使用第2批來建構多組分類器,且產生經獨立獲得之第3批樣本之預測結果。分類器之效能自分類中之0.935顯著下降至0.601的整體準確度(表6)。CR、AD及NP之靈敏度分別下降至0.9、0.156及0.9,且特異性下降至0.975、0.950及0.418。
當應用於獨立樣本時,多組分類器之效能顯著下降與具有低偏差之CR及NM分類器形成驚人對比。實際上,將腺瘤與癌症及正常區分通常為更困難的問題(17)。除此之外,吾等具有少量樣本以構建分類器且具有如早期所展示之相對大的批次效應。當樣本合併在一起用於多組分類時,高準確度最可能歸因於分類器能夠獲取批次效應之事實,其為與表示生物信號之特徵相比更主要的可辨別特徵。
為了解決批次效應之問題,吾等應用最近開發的方法(16),該方法特異性地靶向用於病例對照微生物群研究之批次效應。令人遺憾地,該方法在當前研究中收效甚微。
接著,受多組分類研究啟發,吾等研究添加策略之可行性,其中吾等使用一定數目之具有已知標記之樣本與待預測之新樣本一起處理。依此方式,吾等可直接包括吾等模型中之批次效應。圖4展示包括各組之增加的樣本數目對整體準確度之影響。CR組之準確度始終高,且NM及PL預測持續地變得更好,且每組樣本中之效能穩定在約60個添加。此結果展示解決批次效應之問題的潛在方法,其代價為將一定數目之樣本與各批次之新樣本一起再定序。添加實驗之詳細分析在下文給出。
使用獨立訓練及測試樣本之多組預測 1.使用otutab_norm.txt進行隨機森林分類,使用第一批來建構模型,隨後對第二批進行預測: ## ## |                     | ## |:-------------------:| ## | batch1_otu_norm.txt | ## ##表:經標準化OTU表路徑 ## ## ## | 樣本大小 | OTU數目 | ## |:-----------:|:--------:| ## |     500     |   341    | ## ##表:在特徵選擇之後,樣本及OTU之總數 ## ##訪問: ##隨機森林(式=類型~ .,資料=訓練資料,重要性=TRUE,樹之數目=1000,鄰近度=TRUE) ##                隨機森林之類型:分類 ##                      樹之數目1000 ##在各分枝下嘗試之變量數目:18 ## ##         OOB評估之錯誤率:3% ##混淆矩陣: ##    CR  JK  JZ 類別.誤差 ## CR 97   0   3        0.03 ## JK  0 190  10        0.05 ## JZ  0   2 198        0.01 ##           敏感度 特異性 正預測值 負預測值 精確度 ## 類別:CR   0.9100000   0.9699248      0.8834951      0.9772727 0.8834951 ##類別:JK   0.1809045   0.9300000      0.6315789      0.6312217 0.6315789 ##類別: JZ   0.8600000   0.4414716      0.5073746      0.8250000 0.5073746 ##              再訪問        F1盛行率 偵測速率 ##類別:CR 0.9100000 0.8965517  0.2004008     0.18236473 ##類別:JK 0.1809045 0.2812500  0.3987976     0.07214429 ##類別:JZ 0.8600000 0.6382189  0.4008016     0.34468938 ##           偵測盛行率 平衡準確度 ##類別:CR            0.2064128         0.9399624 ##類別:JK            0.1142285         0.5554523 ##類別: JZ            0.6793587         0.6507358 (亦參見圖19)
2.添加預測 在第二批之五個組(CR、JZ、FJ、XR、JK)中之各者添加十個額外樣本的增量之情況下,使用第一批建構模型,隨後對第二批中之剩餘樣本進行預測。此量測由模型擷取批次效應之影響。
敏感度變化、特異性變化及整體準確度變化分別展示於圖20至圖22中。
論述 在此研究中,吾等僅基於OTU組合物來開發CRC與健康之二進位分類器,且證實此分類器在獨立資料上運行良好,達成96%的準確度。同時,吾等展示此結果未受可為研究中之干擾因子之年齡及性別的干擾。此等結果在三個態樣中不同於大多數前述研究:特徵僅由OTU組成,且除某些品質控制以外未手動篩選,旨在避免罕見的OTU且減少污染的可能性(從而改善模型偏差);在完全獨立的資料上測試分類器;且吾等控制明顯的干擾因子。吾等進一步分析大多數可辨別OTU之分類標註,該等標註大部分與文獻發現一致。
吾等進一步展示,當不同批次之資料合併在一起時,多組分類器達成高準確度。但吾等進一步展示,此受批次效應干擾,在當前情形下,該等批次效應超過真實生物信號。此結果指示,與癌症與正常之間的二進制分類相比,其為更困難的,且其次,除此之外,吾等可能需要更多樣本以適當地訓練分類器,存在由陽性對照樣本之分析反映出之顯著批次效應。
分析再現性及批次效應為微生物群研究中之常見問題,且有時批次效應不容易校正。吾等提出添加策略以藉由將已知樣本之集合與待預測的各新批次之樣本一起處理來解決批次效應,但此策略必然會提高處理成本。吾等承認此策略需要進一步驗證。
總而言之,分析再現性及消除批次效應為使用微生物群成分之診斷中之至關重要的因素,且任何分類方法需要獨立驗證以避免過度擬合的結果。隨著分析穩定性之提高,吾等提出策略充當用於偵測CRC及其早期階段之有前景的方法。
除非另外規定,否則本文中之所有技術及科學術語具有與一般熟習此項技術者中之一者通常所理解的相同的含義。儘管可使用與本文中所描述之方法及材料類似或等效的任何方法及材料實踐或測試本發明,但在本文中描述較佳方法及材料。出於所有目的,所引用之所有公開案、專利及專利公開案均以全文引用之方式併入本文中。
本文中論述之公開案僅僅提供在本申請案之申請日之前的揭示內容。本文不應解釋為承認本發明無權先於藉助於先前發明之此類公開案。
儘管本發明已結合其特定實施例進行描述,但應瞭解,其能夠進行進一步修改,且本申請案意欲涵蓋本發明之任何變化、使用或修改,其通常遵循本發明之原理且包括在關於本發明之此項技術內已知或慣用實踐範圍內出現的與本發明的此類偏離,且可應用於上文闡述之基本特徵,且遵循所附申請專利範圍之範疇。
參考文獻 1.  E. L. Amitay, A. Krilaviciute, and H. Brenner. Systematic review: Gut microbiota in fecal samples and detection of colorectal neoplasms.Gut microbes , pages 1-25, Mar. 2018. 2.  M. Balvociute and D. H. Huson. Silva, rdp, greengenes, ncbi and ott - how do these taxonomies compare?BMC genomics , 18:114, Mar. 2017. 3.  N.  T. Baxter,  M.  T. Ruffin,  M.  A.   M.   Rogers,   and   P.   D. Schloss. Microbiota-based model improves the sensitivity of fecal immunochemical test for detecting colonic lesions.Genome medicine , 8:37, Apr. 2016. 4.  S.  Bullman,  C.  S.  Pedamallu,  E.  Sicinska,  T.  E.  Clancy,  X. Zhang, D. Cai, D. Neuberg, K. Huang, F.  Guevara, T.  Nelson, O.    Chipashvili, T.   Hagan,  M.  Walker,   A.  Ramachandran,  B.  Diosdado,  G.     Serna, N. Mulet, S. Landolfi, S. Ramon Y Cajal, R. Fasani, A. J. Aguirre, K. Ng, E. lez, S. Ogino, J. Tabernero, C. S. Fuchs, W. C. Hahn, P. Nuciforo,  and M. Meyerson. Analysis of fusobacterium persistence and antibiotic response in colorectal cancer.Science (New York, N.Y.) , 358:1443-1448, Dec. 2017. 5.  D. Capper, D. T. W. Jones, M. Sill, V. Hovestadt, D. Schrimpf, andet al. DNA methylation-based classification of central nervous system tumours.Nature , 555:469-474, Mar. 2018. 6.  L. Chung, E. T. Orberg, A. L. Geis, J. L. Chan,  K.  Fu,  C.  E.  DeStefano Shields, C. M. Dejea, P. Fathi, J. Chen, B. B. Finard, A. J. Tam, F. McAllister, H. Fan, X. Wu, S. Ganguly, A. Lebid, P. Metz, S. W. Van Meerbeke, D. L. Huso, E. C. Wick, D. M. Pardoll, F.  Wan,    S. Wu, C. L. Sears, and F. Housseau. Bacteroides fragilis toxin coordinates a pro-carcinogenic inflammatory cascade via targeting of colonic epithelial cells.Cell host & microbe , 23:421, Mar. 2018. 7.  J. R. Cole, Q. Wang, J. A. Fish, B. Chai, D. M. McGarrell, Y. Sun, C. T. Brown, A. Porras-Alfaro, C. R. Kuske, and J. M. Tiedje. Ribosomal database project: data and tools for high throughput rrna analysis.Nucleic acids research , 42:D633-D642, Jan. 2014. 8.  H. M. P. Consortium. Structure, function and diversity of the healthy human microbiome.Nature , 486:207-214, June 2012. 9.  Z. Dai, O. O. Coker, G. Nakatsu, W.  K. K. Wu, L. Zhao, Z. Chen, F. K. L. Chan, K. Kristiansen, J. J. Y. Sung, S. H. Wong, and J. Yu. Multi-cohort analysis of colorectal cancer metagenome identified altered bacteria across populations and universal bacterial markers.Microbiome , 6:70, Apr. 2018. 10.        C. M. Dejea, P. Fathi, J. M.  Craig,  A.  Boleij,  R.  Taddese,  A.  L.  Geis, X. Wu, C. E. DeStefano Shields, E. M. Hechenbleikner, D. L. Huso, R. A. Anders, F.  M. Giardiello, E. C. Wick, H. Wang, S. Wu, D. M. Pardoll, F. Housseau, and C. L. Sears. Patients with familial adenomatous polyposis harbor colonic biofilms containing tumorigenic bacteria.Science (New York, N.Y.) , 359:592-597, Feb. 2018. 11.        R. Edgar. Sintax: a simple non-bayesian taxonomy classifier for 16s and its sequences. Technical report, 2016. 12.        R. C. Edgar. Uparse: highly accurate otu sequences from microbial amplicon reads.Nature methods , 10:996-998, Oct. 2013. 13.        V.   Eklof,  A.  Lofgren-Burstrom,  C.  Zingmark,  S.  Edin,  P.     Larsson, P. Karling, O. Alexeyev, J. Rutegard, M. L. Wikberg, and R. Palmqvist. Cancer-associated fecal microbial markers in colorectal cancer detection.International journal of cancer , 141:2528-2536, Dec. 2017. 14.        R.  M.  Ferreira,  J.  Pereira-Marques,  I.  Pinto-Ribeiro,  J.  L.       Costa, F. Carneiro, J. C. Machado, and C. Figueiredo. Gastric microbial community profiling reveals a dysbiotic cancer-associated microbiota.Gut , 67:226-236, Feb. 2018. 15.        W. S. Garrett. Cancer and the microbiota.Science (New York, N.Y.) , 348:80-86, Apr. 2015. 16.        S. M. Gibbons, C. Duvallet, and E. J.  Alm.  Correcting  for  batch effects in case-control microbiome studies.PLoS computational biology , 14:e1006102, Apr. 2018. 17.        V. L. Hale, J. Chen, S. Johnson, S. C. Harrington, T. C. Yab, T. C. Smyrk, H. Nelson, L. A.  Boardman, B. R. Druliner, T.  R.  Levin,  D. K.     Rex, 18.        D. J. Ahnen, P. Lance, D. A. Ahlquist, and N. Chia. Shifts in the fecal microbiota associated with adenomatous polyps.Cancer epidemiology, biomarkers & prevention : a publication of the American Association  for Cancer Research, cosponsored by the American Society of Preventive 19.        J. A. Joyce and D. T. Fearon. T cell exclusion, immune privilege, and  the tumor microenvironment.Science (New York, N.Y.) , 348:74-80, Apr. 2015. 20.        J. S. Lin, M. A. Piper, L. A. Perdue, C. M. Rutter, E. M. Webber,E. O'Connor, N. Smith, and E. P. Whitlock. Screening for colorectal cancer: Updated evidence report and systematic review for the us preventive services task force.JAMA , 315:2576-2594, June 2016. 21.        G. Nakatsu, X. Li, H. Zhou, J. Sheng, S. H. Wong, W. K. K. Wu, S. C. Ng, H. Tsoi, Y. Dong, N. Zhang, Y. He, Q. Kang, L. Cao, K. Wang, J. Zhang, Q. Liang, J. Yu, and J. J. Y. Sung. Gut mucosal microbiome across stages of colorectal carcinogenesis.Nature communications , 6:8727, Oct. 2015. 22.        R. V. Purcell, M. Visnovska, P. J. Biggs, S. Schmeier, and F. A. Frizelle. Distinct gut microbiome patterns associate with consensus molecular subtypes of colorectal cancer.Scientific reports , 7:11590, Sept. 2017. 23.        C. Quast, E. Pruesse, P. Yilmaz, J. Gerken, T. Schweer, P. Yarza, J. Peplies, and F. O. Glckner. The silva ribosomal rna gene database project: improved data processing and web-based tools.Nucleic acids research , 41:D590-D596, Jan. 2013. 24.        Y. Sanz, M. Olivares, A´ . Moya-Pe´rez, and C. Agostoni.   Understanding the role of gut microbiome in metabolic disease risk.Pediatric research , 77(1-2):236, 2014. 25.        N. Segata, J. Izard, L. Waldron, D. Gevers, L. Miropolsky, W. S. Garrett, and C. Huttenhower. Metagenomic biomarker discovery and explanation.Genome biology , 12:R60, June 2011. 26.        L. R. Thompson, J. G. Sanders, D. McDonald, A. Amir, J. Ladau, andet al . A communal catalogue reveals earth's multiscale microbial diversity.Nature , 551:457-463, Nov. 2017. 27.        C. Urbaniak, G. B. Gloor, M. Brackstone, L. Scott, M. Tangney, and G. Reid. The microbiota of breast tissue and its association with breast cancer.Applied and environmental microbiology , 82:5039-5048, Aug. 2016.
1 描繪輸入時、合併及品質篩選步驟之後之序列片段的數目及百分比。 2A 及圖 2B 描繪在所有三個批次中之五個組中的年齡(圖2A)及性別(圖2B)分佈。 3 描繪使用年齡及性別之CR及NM分類。袋外資料(Out-of-bag;OOB)誤差由中線表明,而個別群組之錯分類誤差由其他線表示。 4 描繪具有添加(spike-in)之多組預測之準確度。分類器由第一批(第2批樣本)加上來自第二批(第3批樣本)之添加樣本之增加數目(由x軸指定)建構。對第二批中之剩餘樣本進行預測。 5 描繪用作陽性對照組的具有已知混合物之ZymoBIOMICSTM微生物群落DNA標準(ZymoBIOMICSTM Microbial Community DNA Standard)之理論組成。 6A 描繪三種樣本在屬層級上之皮爾森(Pearson)及斯皮爾曼(Spearman)相關性。 6B 描繪三種樣本在種層級上之皮爾森及斯皮爾曼相關性。 7A 描繪所觀測到之屬及種之數目,及在屬層級上與實況(最後一行)的重疊。 7B 描繪所觀測到之屬及種之數目,及在種層級上與實況(最後一行)的重疊。 8 描繪污染物之定序資料相對豐度在屬及種層級上之污染。 9 描繪當不同數目之樹用於訓練用以預測CR及NM之分類器時個別群組之錯分類誤差。 10 描繪與由用以預測CR及NM之受過訓練之分類器選擇的OTU相關聯之平均降低準確度及基尼係數(Gini Coefficient)的平均降低。基尼係數之平均降低為各變量如何影響所得隨機森林中之節點及樹葉之均質性的度量。導致節點純度更高之變量具有下降更多的基尼係數。 11 描繪當不同數目之樹用於訓練分類器時個別群組之錯分類誤差,該分類器用於預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之CR (癌症)及JK (正常)。 12 描繪與由受過訓練之分類器所選擇之OTU相關聯的平均降低準確度及基尼係數之平均降低,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之CR (癌症)及JK (正常)。 13 描繪當不同數目之樹用於訓練分類器時的個別群組之錯分類誤差,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之CR (癌症)、JZ (進展)、FJ (未進展)、XR (息肉)以及JK (正常)。 14 描繪與由受過訓練之分類器所選擇之OTU相關聯的平均降低準確度及基尼係數之平均降低,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之CR (癌症)、JZ (進展)、FJ (未進展)、XR (息肉)以及JK (正常)。 15 描繪當不同數目之樹用於訓練分類器時個別群組之錯分類誤差,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之腺瘤(包括JZ (進展)及FJ (未進展))與其餘群組(CR (癌症)、XR (息肉)及JK (正常))。 16 描繪與由受過訓練之分類器所選擇之OTU相關聯的平均降低準確度及基尼係數之平均降低,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之腺瘤(包括JZ (進展)及FJ (未進展))與剩餘部分。 17 描繪當不同數目之樹用於訓練分類器時個別群組之錯分類誤差,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之腺瘤(包括JZ (進展)及FJ (未進展))與未患病群組(XR (息肉)及JK (正常))。 18 描繪與由受過訓練之分類器所選擇之OTU相關聯的平均降低準確度及基尼係數之平均降低,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之腺瘤(包括JZ (進展)及FJ (未進展))與未患病群組(XR (息肉)及JK (正常))。 19 描繪使用獨立訓練及測試樣本之多組預測中之隨機森林相似度矩陣(Proximity Matrix)的多維尺度圖(MDSplot)。JZ (進展)、CR (癌症)、JK (正常)。 20 描繪當第二批中各五個組(CR、JZ、FJ、XR、JK)之不同數目的樣本添加有第一批(參考批次)中之樣本時敏感度之變化。 21 描繪當第二批中各五個組(CR、JZ、FJ、XR、JK)之不同數目的樣本添加有第一批(參考批次)中之樣本時特異性之變化。 22 描繪當第二批中各五個組(CR、JZ、FJ、XR、JK)之不同數目的樣本添加有第一批(參考批次)中之樣本時準確度之變化。
 
Figure 12_A0101_SEQ_0001
Figure 12_A0101_SEQ_0002
Figure 12_A0101_SEQ_0003
Figure 12_A0101_SEQ_0004
Figure 12_A0101_SEQ_0005
Figure 12_A0101_SEQ_0006
Figure 12_A0101_SEQ_0007
Figure 12_A0101_SEQ_0008
Figure 12_A0101_SEQ_0009
Figure 12_A0101_SEQ_0010
Figure 12_A0101_SEQ_0011
Figure 12_A0101_SEQ_0012
Figure 12_A0101_SEQ_0013
Figure 12_A0101_SEQ_0014
Figure 12_A0101_SEQ_0015
Figure 12_A0101_SEQ_0016
Figure 12_A0101_SEQ_0017
Figure 12_A0101_SEQ_0018
Figure 12_A0101_SEQ_0019
Figure 12_A0101_SEQ_0020
Figure 12_A0101_SEQ_0021
Figure 12_A0101_SEQ_0022
Figure 12_A0101_SEQ_0023
Figure 12_A0101_SEQ_0024
Figure 12_A0101_SEQ_0025
Figure 12_A0101_SEQ_0026
Figure 12_A0101_SEQ_0027
Figure 12_A0101_SEQ_0028
Figure 12_A0101_SEQ_0029
Figure 12_A0101_SEQ_0030
Figure 12_A0101_SEQ_0031
Figure 12_A0101_SEQ_0032
Figure 12_A0101_SEQ_0033
Figure 12_A0101_SEQ_0034
Figure 12_A0101_SEQ_0035
Figure 12_A0101_SEQ_0036
Figure 12_A0101_SEQ_0037
Figure 12_A0101_SEQ_0038
Figure 12_A0101_SEQ_0039
Figure 12_A0101_SEQ_0040
Figure 12_A0101_SEQ_0041
Figure 12_A0101_SEQ_0042
Figure 12_A0101_SEQ_0043
Figure 12_A0101_SEQ_0044
Figure 12_A0101_SEQ_0045
Figure 12_A0101_SEQ_0046
Figure 12_A0101_SEQ_0047
Figure 12_A0101_SEQ_0048
Figure 12_A0101_SEQ_0049
Figure 12_A0101_SEQ_0050
Figure 12_A0101_SEQ_0051
Figure 12_A0101_SEQ_0052
Figure 12_A0101_SEQ_0053
Figure 12_A0101_SEQ_0054
Figure 12_A0101_SEQ_0055
Figure 12_A0101_SEQ_0056
Figure 12_A0101_SEQ_0057
Figure 12_A0101_SEQ_0058
Figure 12_A0101_SEQ_0059
Figure 12_A0101_SEQ_0060
Figure 12_A0101_SEQ_0061
Figure 12_A0101_SEQ_0062
Figure 12_A0101_SEQ_0063
Figure 12_A0101_SEQ_0064
Figure 12_A0101_SEQ_0065
Figure 12_A0101_SEQ_0066
Figure 12_A0101_SEQ_0067
Figure 12_A0101_SEQ_0068
Figure 12_A0101_SEQ_0069
Figure 12_A0101_SEQ_0070
Figure 12_A0101_SEQ_0071
Figure 12_A0101_SEQ_0072
Figure 12_A0101_SEQ_0073
Figure 12_A0101_SEQ_0074
Figure 12_A0101_SEQ_0075
Figure 12_A0101_SEQ_0076
Figure 12_A0101_SEQ_0077
Figure 12_A0101_SEQ_0078
Figure 12_A0101_SEQ_0079
Figure 12_A0101_SEQ_0080
Figure 12_A0101_SEQ_0081
Figure 12_A0101_SEQ_0082
Figure 12_A0101_SEQ_0083
Figure 12_A0101_SEQ_0084
Figure 12_A0101_SEQ_0085
Figure 12_A0101_SEQ_0086
Figure 12_A0101_SEQ_0087
Figure 12_A0101_SEQ_0088
Figure 12_A0101_SEQ_0089
Figure 12_A0101_SEQ_0090
Figure 12_A0101_SEQ_0091
Figure 12_A0101_SEQ_0092
Figure 12_A0101_SEQ_0093
Figure 12_A0101_SEQ_0094
Figure 12_A0101_SEQ_0095
Figure 12_A0101_SEQ_0096
Figure 12_A0101_SEQ_0097
Figure 12_A0101_SEQ_0098
Figure 12_A0101_SEQ_0099
Figure 12_A0101_SEQ_0100
Figure 12_A0101_SEQ_0101
Figure 12_A0101_SEQ_0102
Figure 12_A0101_SEQ_0103
Figure 12_A0101_SEQ_0104
Figure 12_A0101_SEQ_0105
Figure 12_A0101_SEQ_0106
Figure 12_A0101_SEQ_0107
Figure 12_A0101_SEQ_0108
Figure 12_A0101_SEQ_0109
Figure 12_A0101_SEQ_0110
Figure 12_A0101_SEQ_0111
Figure 12_A0101_SEQ_0112
Figure 12_A0101_SEQ_0113
Figure 12_A0101_SEQ_0114
Figure 12_A0101_SEQ_0115
Figure 12_A0101_SEQ_0116
Figure 12_A0101_SEQ_0117
Figure 12_A0101_SEQ_0118
Figure 12_A0101_SEQ_0119
Figure 12_A0101_SEQ_0120
Figure 12_A0101_SEQ_0121
Figure 12_A0101_SEQ_0122
Figure 12_A0101_SEQ_0123
Figure 12_A0101_SEQ_0124
Figure 12_A0101_SEQ_0125
Figure 12_A0101_SEQ_0126
Figure 12_A0101_SEQ_0127
Figure 12_A0101_SEQ_0128
Figure 12_A0101_SEQ_0129
Figure 12_A0101_SEQ_0130
Figure 12_A0101_SEQ_0131
Figure 12_A0101_SEQ_0132
Figure 12_A0101_SEQ_0133
Figure 12_A0101_SEQ_0134
Figure 12_A0101_SEQ_0135
Figure 12_A0101_SEQ_0136
Figure 12_A0101_SEQ_0137
Figure 12_A0101_SEQ_0138
Figure 12_A0101_SEQ_0139
Figure 12_A0101_SEQ_0140
Figure 12_A0101_SEQ_0141
Figure 12_A0101_SEQ_0142
Figure 12_A0101_SEQ_0143
Figure 12_A0101_SEQ_0144
Figure 12_A0101_SEQ_0145
Figure 12_A0101_SEQ_0146
Figure 12_A0101_SEQ_0147
Figure 12_A0101_SEQ_0148
Figure 12_A0101_SEQ_0149
Figure 12_A0101_SEQ_0150
Figure 12_A0101_SEQ_0151
Figure 12_A0101_SEQ_0152
Figure 12_A0101_SEQ_0153
Figure 12_A0101_SEQ_0154
Figure 12_A0101_SEQ_0155
Figure 12_A0101_SEQ_0156
Figure 12_A0101_SEQ_0157
Figure 12_A0101_SEQ_0158
Figure 12_A0101_SEQ_0159
Figure 12_A0101_SEQ_0160
Figure 12_A0101_SEQ_0161
Figure 12_A0101_SEQ_0162
Figure 12_A0101_SEQ_0163
Figure 12_A0101_SEQ_0164
Figure 12_A0101_SEQ_0165
Figure 12_A0101_SEQ_0166
Figure 12_A0101_SEQ_0167
Figure 12_A0101_SEQ_0168
Figure 12_A0101_SEQ_0169
Figure 12_A0101_SEQ_0170
Figure 12_A0101_SEQ_0171
Figure 12_A0101_SEQ_0172
Figure 12_A0101_SEQ_0173
Figure 12_A0101_SEQ_0174
Figure 12_A0101_SEQ_0175
Figure 12_A0101_SEQ_0176

Claims (31)

  1. 一種將有需要之人類個體分類為患有結腸直腸癌(CRC)或為正常(NM)的電腦輔助之方法,該方法包含以下步驟: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體患有結腸直腸癌或為正常之機率。
  2. 一種將有需要之人類個體分類為患有結腸直腸癌(CRC)、結腸直腸腺瘤(AD)或為正常(NM)的電腦輔助之方法,該方法包含以下步驟: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體患有結腸直腸癌、結腸直腸腺瘤或為正常之機率。
  3. 一種將有需要之人類個體分類為患有結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)或為正常(NM)的電腦輔助之方法,該方法包含以下步驟: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體患有結腸直腸癌、息肉、非晚期腺瘤、晚期腺瘤或為正常之機率。
  4. 如請求項1至3中任一項之方法,其中該OTU概況藉由以下來產生:(1)擴增存在於該樣本中之微生物核酸序列之16S rRNA高變區;(2)定序所擴增之序列;(3)基於步驟(2)之定序結果,產生存在於該糞便樣本中之獨特微生物序列清單,以形成該OTU概況,其中該清單包含各獨特微生物序列之豐度資訊。
  5. 如請求項4之方法,其中該16S rRNA高變區為V3-V4高變區。
  6. 如請求項1至3中任一項之方法,其中步驟(b)之該OTU概況包含一或多個微生物核酸序列之表現圖譜,其與SEQ ID NO. 1-345中之共同序列具有至少95%一致性。
  7. 如請求項1至3中任一項之方法,其中該機器學習分類器係選自由以下組成之群:決策樹分類器、K-最近相鄰分類器(KNN)、邏輯回歸分類器、最近相鄰分類器、神經網路分類器、高斯混合模型(Gaussian mixture model;GMM)、支援向量機(SVM)分類器、最近質心分類器、線性回歸分類器以及隨機森林分類器。
  8. 如請求項1之方法,其中該機器學習分類器已使用包含結腸直腸癌人類患者及正常人類個體之參考人類個體群之參考資料集合來訓練。
  9. 如請求項2之方法,其中該機器學習分類器已使用包含結腸直腸癌人類患者、結腸直腸腺瘤人類患者及正常人類個體之參考人類個體群之參考資料集合來訓練。
  10. 如請求項3之方法,其中該機器學習分類器已使用包含結腸直腸癌、息肉、非晚期腺瘤、晚期腺瘤及正常人類個體之參考人類個體群之參考資料集合來訓練。
  11. 如請求項8之方法,其中該參考資料藉由包含以下步驟之方法來產生: (1)獲得作為訓練樣本之人類個體糞便樣本之集合,其中該等糞便樣本自結腸直腸癌人類患者及正常人類個體收集; (2)對於該集合中之各糞便樣本, (i)擴增細菌核酸序列之16S rRNA高變區, (ii)定序所擴增之序列;及 (iii)產生存在於該樣本中之獨特微生物序列清單,其中該清單包含各獨特微生物序列之豐度資訊; (3)將在步驟(2)中所獲得之該等獨特微生物序列清單分組,以形成作為該參考資料的參考OTU矩陣,其中該參考矩陣包含各糞便樣本之各獨特微生物序列之豐度資訊。
  12. 如請求項9之方法,其中該參考資料藉由包含以下步驟之方法來產生: (1)獲得作為訓練樣本之人類個體糞便樣本之集合,其中該等糞便樣本自結腸直腸癌人類患者、結腸直腸腺瘤人類患者及正常人類個體收集; (2)對於該集合中之各糞便樣本, (i)擴增細菌核酸序列之16S rRNA高變區, (ii)定序所擴增之序列;及 (iii)產生存在於該樣本中之獨特微生物序列清單,其中該清單包含各獨特微生物序列之豐度資訊; (3)將在步驟(2)中所獲得之該等獨特微生物序列清單分組,以形成作為該參考資料的參考OTU矩陣,其中該參考矩陣包含各糞便樣本之各獨特微生物序列之豐度資訊。
  13. 如請求項10之方法,其中該參考資料藉由包含以下步驟之方法來產生: (1)獲得作為訓練樣本之人類個體糞便樣本之集合,其中該等糞便樣本自結腸直腸癌、息肉、非晚期腺瘤、晚期腺瘤及正常人類個體收集; (2)對於該集合中之各糞便樣本, (i)擴增細菌核酸序列之16S rRNA高變區, (ii)定序所擴增之序列;及 (iii)產生存在於該樣本中之獨特微生物序列清單,其中該清單包含各獨特微生物序列之豐度資訊; (3)將在步驟(2)中所獲得之該等獨特微生物序列清單分組,以形成作為該參考資料的參考OTU矩陣,其中該參考矩陣包含各糞便樣本之各獨特微生物序列之豐度資訊。
  14. 如請求項9至11中任一項之方法,其中該參考OTU矩陣經標準化,使得各樣本之序列豐度之總和為相同。
  15. 如請求項9至11中任一項之方法,其中該參考OTU矩陣藉由經由特徵選擇來減少OTU之數目而簡化。
  16. 如請求項15之方法,其中該特徵選擇係移除訓練樣本中之低豐度OTU。
  17. 如請求項1至3中任一項之方法,其中該機器學習分類器為隨機森林分類器。
  18. 如請求項17之方法,其中該隨機森林之超參數使用交叉驗證方法來微調。
  19. 如請求項18之方法,其中該等待微調之超參數包含樹之數目、用於樹之各分枝的最大特徵之數目、及每片樹葉的最小樣本。
  20. 如請求項1之方法,其中該分類方法具有至少95%之準確度。
  21. 如請求項2之方法,其中該分類方法具有至少80%之準確度。
  22. 如請求項3之方法,其中該分類方法具有至少60%之準確度。
  23. 如請求項1之方法,其中該OTU概況包含一或多個選自由以下組成之群的OTU:
  24. 如請求項9至11中任一項之方法,其中該人類個體糞便樣本之集合含有從至少約50名人類個體收集之樣本。
  25. 如請求項4之方法,其中該定序步驟包含定序各糞便樣本之至少5,000個擴增片段。
  26. 一種鑑別人類個體中之結腸直腸腺瘤或結腸直腸癌的增加可能性之方法,其包含以下步驟: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體患有結腸直腸腺瘤、結腸直腸癌之可能性增加的機率。
  27. 一種偵測人類個體之糞便樣本中之異常的方法,其包含以下步驟: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測患者之糞便樣本中存在或不存在異常。
  28. 一種為患有結腸直腸腺瘤或結腸直腸癌之人類個體產生個人化治療計劃之方法,該方法包含以下步驟: (1)訂製人類個體之糞便樣本之診斷測試,其中該測試包含: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體患有結腸直腸腺瘤或結腸直腸癌之機率; (2)基於該等測試結果,產生針對該人類患者之該個人化治療計劃。
  29. 一種診斷及治療處於結腸直腸腺瘤或結腸直腸癌之風險下之人類個體的方法,其包含以下步驟: (1)訂製人類個體之糞便樣本之診斷測試,其中該測試包含: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體患有結腸直腸腺瘤或結腸直腸癌之機率; (2)基於步驟(1)之該等診斷結果來治療該人類個體。
  30. 一種監測人類個體中之結腸直腸腺瘤或結腸直腸癌之進展的方法,其包含以下步驟: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體中之結腸直腸腺瘤或結腸直腸癌之階段; (e)視情況,週期性地重複步驟(a)至(d)。
  31. 如請求項8至10中任一項之方法,其中將從參考人類個體群收集之樣本中之核酸序列與從有需要之人類個體所收集用於擴增及定序之樣本一起處理,以產生用於訓練該分類器之參考資料集合。
TW108137148A 2018-10-15 2019-10-15 用於預測或診斷癌症之方法及系統 TW202028745A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862745955P 2018-10-15 2018-10-15
US62/745,955 2018-10-15

Publications (1)

Publication Number Publication Date
TW202028745A true TW202028745A (zh) 2020-08-01

Family

ID=70284779

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108137148A TW202028745A (zh) 2018-10-15 2019-10-15 用於預測或診斷癌症之方法及系統

Country Status (3)

Country Link
US (1) US20200194119A1 (zh)
TW (1) TW202028745A (zh)
WO (1) WO2020081445A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI827043B (zh) * 2022-05-10 2023-12-21 中山醫學大學 一種以預測模型與視覺化方式建立大腸直腸癌發生第二原發癌症臨床決策支援系統的方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114300116B (zh) * 2021-11-10 2023-11-28 安徽大学 一种基于在线分类算法的鲁棒性病症检测方法
CN116344040B (zh) * 2023-05-22 2023-09-22 北京卡尤迪生物科技股份有限公司 用于肠道菌群检测的集成模型的构建方法及其检测装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018515426A (ja) * 2015-03-12 2018-06-14 ザ ユニヴァーシティ オブ ブリティッシュ コロンビア 細菌組成物およびその使用方法
US20180100858A1 (en) * 2016-10-07 2018-04-12 Applied Proteomics, Inc. Protein biomarker panels for detecting colorectal cancer and advanced adenoma

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI827043B (zh) * 2022-05-10 2023-12-21 中山醫學大學 一種以預測模型與視覺化方式建立大腸直腸癌發生第二原發癌症臨床決策支援系統的方法

Also Published As

Publication number Publication date
US20200194119A1 (en) 2020-06-18
WO2020081445A1 (en) 2020-04-23

Similar Documents

Publication Publication Date Title
Liss et al. Metabolic biosynthesis pathways identified from fecal microbiome associated with prostate cancer
Li et al. Implication of the gut microbiome composition of type 2 diabetic patients from northern China
Osman et al. Parvimonas micra, Peptostreptococcus stomatis, Fusobacterium nucleatum and Akkermansia muciniphila as a four-bacteria biomarker panel of colorectal cancer
Purcell et al. Distinct gut microbiome patterns associate with consensus molecular subtypes of colorectal cancer
Morgan et al. Associations between host gene expression, the mucosal microbiome, and clinical outcome in the pelvic pouch of patients with inflammatory bowel disease
Ma et al. mtDNA haplogroup and single nucleotide polymorphisms structure human microbiome communities
Hoggard et al. Evidence of microbiota dysbiosis in chronic rhinosinusitis
US20210057046A1 (en) Methods and systems for analyzing microbiota
JP2022532897A (ja) マルチラベルがん分類のためのシステムおよび方法
Gupta et al. Gut microbial determinants of clinically important improvement in patients with rheumatoid arthritis
Tang et al. Prospective study reveals a microbiome signature that predicts the occurrence of post-operative enterocolitis in Hirschsprung disease (HSCR) patients
CN108138233A (zh) Dna混合物中组织的单倍型的甲基化模式分析
TW202028745A (zh) 用於預測或診斷癌症之方法及系統
CN108064263A (zh) 用于类风湿性关节炎的生物标记物及其用途
US20210324473A1 (en) Indices of Microbial Diversity Relating To Health
Chung et al. Comparisons of oral, intestinal, and pancreatic bacterial microbiomes in patients with pancreatic cancer and other gastrointestinal diseases
Mo et al. Early detection of molecular residual disease and risk stratification for stage I to III colorectal cancer via circulating tumor DNA methylation
Rejeski et al. The impact of a Mediterranean diet on the gut microbiome in healthy human subjects: a pilot study
Kwak et al. Development of a NOVEL metagenomic biomarker for prediction of upper gastrointestinal tract involvement in patients with Crohn’s disease
Kim et al. Crosstalk between mucosal microbiota, host gene expression, and sociomedical factors in the progression of colorectal cancer
Cai et al. The potential roles of gut microbiome in anal fistula
Tanmoy et al. Paratype: a genotyping tool for Salmonella Paratyphi A reveals its global genomic diversity
Kwon et al. Advances in methylation analysis of liquid biopsy in early cancer detection of colorectal and lung cancer
Rubinstein et al. Cancer screening with multicancer detection tests: A translational science review
Wu et al. Multi-omics approaches to studying gastrointestinal microbiome in the context of precision medicine and machine learning