TW202028745A - 用於預測或診斷癌症之方法及系統 - Google Patents
用於預測或診斷癌症之方法及系統 Download PDFInfo
- Publication number
- TW202028745A TW202028745A TW108137148A TW108137148A TW202028745A TW 202028745 A TW202028745 A TW 202028745A TW 108137148 A TW108137148 A TW 108137148A TW 108137148 A TW108137148 A TW 108137148A TW 202028745 A TW202028745 A TW 202028745A
- Authority
- TW
- Taiwan
- Prior art keywords
- otu
- human
- classifier
- samples
- sample
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57407—Specifically defined cancers
- G01N33/57419—Specifically defined cancers of colon
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Biotechnology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Urology & Nephrology (AREA)
- Hematology (AREA)
- Analytical Chemistry (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Microbiology (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Cell Biology (AREA)
- Food Science & Technology (AREA)
Abstract
本發明提供評估癌症風險之方法、系統、組合物及套組。該等方法及系統包含產生衍生自有需要之人類個體所收集之樣本的操作分類單位(Operational Taxonomic Unit,OTU)概況,及執行受過訓練之機器學習分類器,以基於該OTU概況來預測該人類個體患有癌症之機率。此外,亦提供診斷及治療處於患有癌症之風險下之人類個體的方法。
Description
出於診斷及治療病況之目的,本發明係關於用於偵測個體內之結腸直腸癌(CRC)及其疾病進展狀態的組合物及方法。
微生物相(microbiota)已與不同的代謝疾病(18,24)相關聯,且近年來與結腸直腸癌及其他類型之癌症(3、13、14、21、27)有關。微生物相誘發之致癌作用可歸因於諸如由於黏膜障壁破裂(15)而導致之DNA損傷、β
-連環蛋白信號傳導改變及促炎性途徑參與之機制。
由於宿主免疫系統之動態變化,基因型以及在贅生性過程之不同階段中之微生物相之變化,僅有限數目之微生物為人類所熟知為致癌的。舉例而言,根據國際癌症研究機構(International Agency for Cancer Research),如HPV及HBV之病毒及如幽門螺旋桿菌(Helicobacter pylori
)之細菌可直接造成癌症進展。近年來,若干細菌之前致癌作用之機制已展現於小鼠模型中。在家族性腺瘤性息肉病中,與具有任一細菌(10)之單定殖(monocolonization)相比,具有遺傳性突變、pks+
大腸桿菌(E.coli
)及腸毒性脆弱類桿菌(B. fragilis
;ETBF)共定殖(cocolonization)之CRC案例增加了結腸腫瘤發生。由若干觀測結果表明與單定殖相比,共定殖增強:較高的總黏膜IL-17產生細胞量、針對與ETBF共定殖之小鼠中之pks
+大腸桿菌具有特異性的糞便IgA反應增加、增加的黏膜黏附性pks
+大腸桿菌以及藉由ETBF之黏液分解促進增強的pks
+大腸桿菌移生,但單獨的黏液分解不足以促進pks
+大腸桿菌結腸癌發生。此等觀測結果與偶發性CRC一致,其中ApcMin
小鼠(6)中之ETBF研究展示脆弱類桿菌毒素對結腸上皮細胞起作用,且涉及三個主要促炎性信號傳導路徑(NF-κB、Stat3及IL-17R),其共同地觸發骨髓細胞依賴性遠端結腸腫瘤發生。髓源性免疫抑制細胞(MDSC)之積累可限制效應T細胞積累,其繼而可導致無效的免疫療法(19)。在CRC之普遍細菌物種的另一研究(4)中,梭桿菌屬(Fusobacterium)
已展示在原發性及匹配轉移性腫瘤中持續存在且與其他革蘭氏陰性厭氧菌(Gram-negative anaerobes)共存,該等厭氧菌包括脆弱類桿菌(Bacteriodes fragilis
)、多形類桿菌(Bacteriodes thetaiotaomicron
)、中間普雷沃菌(Prevotella intermedia
)以及生痰月形單胞菌(Selenomonas sputigena
)。
儘管此等研究開始揭示某些細菌物種之腫瘤發生機制,但藉由所關注目標微生物之存在來直接診斷CRC仍然具有挑戰性,此係因為此等微生物亦存在於正常個體中且其中之一些可能不存在於所有癌症患者中(1)。一個此類最近的研究(13)使用qPCR直接評估存在或不存在三種癌症相關聯之標記物,攜帶pks
致病性島之clbA+細菌、afaC
+擴散黏附大腸桿菌afa1操縱子及具核梭桿菌(Fusobacterium nucleatum
)。使用238名個體之群組,研究展示單獨使用clbA
+或具核梭桿菌(F. nucleatum
)分別具有81.5%特異性、76.9%敏感度以及76.9%特異性及69.2%敏感度。然而合併兩者得到63.1%特異性及84.6%敏感度。然而,需要單獨之獨立測試資料集以驗證經報導之準確度。
使用對照研究以檢測患病與正常對照組之間的微生物相組成中之差異的替代性策略在預測疾病狀態中更有前景。Baxter等人(3)結合糞便免疫化學測試(FIT)及微生物相以預測CRC及腺瘤。然而,描述於Baxter中之方法使用有限數目之選定操作分類單位(OTU)作為用於預測之區分特徵。方法未在獨立群組中驗證,且並未處理諸如年齡及性別之干擾因素。因此,需要進一步改良。
因此,仍需要提高偵測及分類CRC及其早期階段之能力,用以在更佳的敏感度、特異性及準確度下更好地治療及管理疾病。
本發明提供用於將人類個體分類為患有結腸直腸癌(CRC)或為正常(NM)之方法。
本發明亦提供用於將人類個體分類為患有結腸直腸癌(CRC)、結腸直腸腺瘤(AD)或為正常(NM)之方法。
本發明進一步提供用於將人類個體分類為患有結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)或為正常之方法。
在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)或為正常(NM)之方法包含(a)獲得取自該人類個體之糞便樣本。在一些實施例中,該等方法進一步包含(b)產生步驟(a)中樣本之操作分類單位(OTU)概況。在一些實施例中,該等方法進一步包含(c)向受過訓練之機器學習分類器提供該OTU概況。在一些實施例中,該等方法進一步包含(d)執行該受過訓練之機器學習分類器以預測該人類個體患有結腸直腸癌或為正常之機率。
在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)、結腸直腸腺瘤(AD)或為正常(NM)之方法包含(a)獲得取自該人類個體之糞便樣本。在一些實施例中,該等方法進一步包含(b)產生步驟(a)中樣本之操作分類單位(OTU)概況。在一些實施例中,該等方法進一步包含(c)向受過訓練之機器學習分類器提供該OTU概況。在一些實施例中,該等方法進一步包含(d)執行該受過訓練之機器學習分類器以預測該人類個體患有結腸直腸癌、結腸直腸腺瘤或為正常之機率。
在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)或為正常之方法包含(a)獲得取自該人類個體之糞便樣本。在一些實施例中,該等方法進一步包含(b)產生步驟(a)中樣本之操作分類單位(OTU)概況。在一些實施例中,該等方法進一步包含(c)向受過訓練之機器學習分類器提供該OTU概況。在一些實施例中,該等方法進一步包含(d)執行該受過訓練之機器學習分類器以預測該人類個體患有結腸直腸癌、息肉、非晚期腺瘤、晚期腺瘤(AA)或為正常之機率。
在一些實施例中,如本文中所描述之方法為電腦輔助之方法。在一些實施例中,方法包含使用儲存電腦可執行指令之電腦可讀儲存裝置,在由電腦執行時,該等指令控制電腦執行本文所揭示之方法。
在一些實施例中,本文所描述之方法包含基於所測試之糞便樣本產生操作分類單位(OTU)概況之步驟。在一些實施例中,OTU概況藉由定序及定量存在於該樣本中之微生物核酸序列之高變區來產生。在一些實施例中,該等方法包含(1)擴增一或多個存在於該樣本中之微生物核酸序列之高變區。在一些實施例中,該高變區為16S rRNA區。在一些實施例中,該16S rRNA高變區為V3-V4高變區。在一些實施例中,該等方法進一步包含(2)定序所擴增之序列。在一些實施例中,該定序步驟包含使用高通量方法,諸如次世代定序(Next Generation Sequencing;NGS)方法。在一些實施例中,該等方法進一步包含(3)基於步驟(2)之定序結果產生存在於該糞便樣本中之獨特微生物序列清單以形成該OTU概況。在一些實施例中,該清單包含各獨特微生物序列之豐度資訊。
在一些實施例中,產生於本文所描述之方法中之OTU概況包含一或多個微生物核酸序列之表現圖譜,該等微生物核酸序列與SEQ ID NO.1-345中之共同序列具有至少80%、85%、90%、95%、96%、97%、98%、99%一致性或更多。
在一些實施例中,用於本文所描述之方法中之機器學習分類器選自由以下組成之群:決策樹分類器、K-最近相鄰分類器(KNN)、邏輯回歸分類器、最近相鄰分類器、神經網路分類器、高斯混合模型(Gaussian mixture model;GMM)、支援向量機(SVM)分類器、最近質心分類器、線性回歸分類器以及隨機森林分類器。在一些實施例中,該機器學習分類器為隨機森林分類器。
在一些實施例中,機器學習分類器在其用於本文所描述之方法之前已受過訓練。在一些實施例中,訓練方法包含使用參考資料集合。在一些實施例中,參考資料自帶有已知標記(例如,鑑別為患有某一癌性病況或為正常)之人類個體群收集。在一些實施例中,參考資料自包含經鑑別之結腸直腸癌人類患者及正常人類個體之人類個體群收集。在一些實施例中,參考資料自包含經鑑別之結腸直腸癌人類患者、結腸直腸腺瘤人類患者以及正常人類個體之人類個體群收集。在一些實施例中,參考資料自包含經鑑別之結腸直腸癌人類患者、息肉人類患者、非晚期腺瘤人類患者、晚期腺瘤人類患者以及正常人類個體之人類個體群收集。
在一些實施例中,用於訓練機器學習分類器之參考資料由電腦輔助之方法產生。在一些實施例中,方法包含(a)獲得作為訓練樣本之人類個體糞便樣本之集合。在一些實施例中,訓練樣本自結腸直腸癌人類患者及正常人類個體收集。在一些實施例中,糞便樣本自結腸直腸癌人類患者、結腸直腸腺瘤人類患者以及正常人類個體收集。在一些實施例中,糞便樣本自結腸直腸癌、息肉、非晚期腺瘤、晚期腺瘤以及正常人類個體收集。
在一些實施例中,對於集合中之各糞便樣本,可實施如下文所描述之方法以產生用於訓練機器學習分類器之參考資料集。在一些實施例中,該等方法包含(i)擴增該樣本中之細菌核酸序列之16S rRNA高變區。在一些實施例中,該等方法進一步包含(ii)定序所擴增之序列。在一些實施例中,該等方法進一步包含(iii)產生存在於該樣本中之獨特微生物序列之清單。在一些實施例中,該清單包含各獨特微生物序列之豐度資訊。在一些實施例中,該方法包含將獲得之該等獨特微生物序列清單分組以形成作為參考資料集之參考OTU矩陣。在一些實施例中,該參考矩陣包含各糞便樣本之各獨特微生物序列之豐度資訊。在一些實施例中,該豐度資訊為各樣本中之各獨特微生物序列之相關豐度,諸如各獨特微生物序列在各樣本中之存在機率。
在一些實施例中,在參考OTU矩陣用於訓練機器學習分類器之前,將其標準化,使得各樣本之序列豐度之總和相同。在一些實施例中,各樣本之序列豐度之總和設定為預定數字,諸如整數。在一些實施例中,該整數約為1至1,000,000,諸如1,000至10,000、10,000至100,000、100,000至1,000,000或更多。在一些實施例中,整數為50,000。
在一些實施例中,參考OTU矩陣藉由經由特徵選擇來減少OTU之數目而簡化。在一些實施例中,該特徵選擇用以移除訓練樣本中之低豐度OTU。在一些實施例中,低豐度OTU為相關豐度小於0.05%、0.04%、0.03%、0.02%、0.01%或甚至更小之彼等OTU。
在一些實施例中,機器學習分類器為隨機森林分類器。在一些實施例中,該隨機森林之超參數使用交叉驗證方法來微調。在一些實施例中,該等待微調之超參數包含樹之數目、用於樹之各分枝的最大特徵之數目以及每片樹葉的最小樣本。
在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)或為正常(NM)之方法的準確度為至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多。
在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)、結腸直腸腺瘤(AD)或為正常(NM)之方法的準確度為至少60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多。
在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)或為正常之方法的準確度為至少45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多。
在一些實施例中,機器學習分類器自動判定OTU概況中與某一所關注之病況相關聯的大部分相關OTU之清單。在一些實施例中,該OTU概況包含一或多個選自由以下組成之群的OTU:
Otu | 附注 | |
Otu101 | d:細菌,p:擬桿菌門(Bacteroidetes),c:擬桿菌綱(Bacteroidia),o:擬桿菌目(Bacteroidales),f:普雷沃菌科(Prevotellaceae),g:普雷沃氏菌屬(Prevotella),s:中間普雷沃氏菌(Prevotella_intermedia) | |
Otu169 | d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:卟啉單胞菌科(Porphyromonadaceae),g:卟啉單胞菌屬(Porphyromonas) | |
Otu172 | d:細菌,p:厚壁菌門(Firmicutes),c:梭菌綱(Clostridia),o:梭菌目(Clostridiales),f:消化鏈球菌科(Peptostreptococcaceae),g:消化鏈球菌屬(Peptostreptococcus),s:口消化鏈球菌(Peptostreptococcus_stomatis) | |
Otu121 | d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:擬桿菌科,g:擬桿菌屬(Bacteroides),S:諾迪擬桿菌(Bacteroides_nordii) | |
Otu185 | d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌屬未定地位XI (Clostridiales_Incertae_Sedis_XI),g:微單胞菌屬(Parvimonas),s:微米微單胞菌屬(Parvimonas_micra) | |
Otu168 | d:細菌,p:厚壁菌門,c:陰性壁菌綱(Negativicutes),o:硒基單細胞菌目(Selenomonadales),f:韋榮氏球菌科(Veillonellaceae),g:小桿菌屬(Dialister),s:害肺小桿菌(Dialister_pneumosintes) | |
Otu147 | d:細菌,p:梭桿菌門(Fusobacteria),c:梭桿菌綱(Fusobacteriia),o:梭桿菌目(Fusobacteriales),f:梭桿菌科(Fusobacteriaceae),g:梭桿菌屬(Fusobacterium) | |
Otu47 | d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:羅布斯塔菌屬(Romboutsia),s:沈澱性羅布斯塔菌(Romboutsia_sedimentorum) | |
Otu142 | d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:卟啉單胞菌科,g:卟啉單胞菌屬,s:牙髓卟啉單胞菌(Porphyromonas_endodontalis) | |
Otu10 | d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科(Lachnospiraceae) |
在一些實施例中,OTU概況包含一或多個選自SEQ ID NO. 1-345之OTU。在一些實施例中,OTU概況包含一或多個OTU,其與SEQ ID NO. 1-345之序列具有約70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的一致性。
在一些實施例中,人類個體糞便樣本之集合含有自至少約20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500名人類個體或更多人類個體所收集之樣本。
在一些實施例中,本文所描述之方法之定序步驟包含定序各糞便樣本之至少100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000個或更多個擴增片段。
本發明亦提供用於鑑別人類個體中結腸直腸腺瘤或結腸直腸癌增加之可能性的方法。在一些實施例中,方法為電腦輔助的。在一些實施例中,該等方法包含執行如本文中所描述之受過訓練之機器學習分類器以預測該人類個體患有結腸直腸腺瘤、結腸直腸癌之可能性增加的機率。
本發明亦提供用於偵測人類個體之糞便樣本之異常的方法。在一些實施例中,該等方法包含執行受過訓練之機器學習分類器以預測該患者之糞便樣本中存在或不存在異常。在一些實施例中,該等異常包括結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)。
本發明進一步提供用於為患有結腸直腸腺瘤或結腸直腸癌之人類個體生成個人化治療計劃之方法。在一些實施例中,該等方法包含(1)訂製該人類個體之糞便樣本之診斷測試。在一些實施例中,該測試包含(a)獲得取自該人類個體之糞便樣本。在一些實施例中,該測試進一步包含(b)產生步驟(a)中樣本之操作分類單位(OTU)概況。在一些實施例中,該測試進一步包含(c)向受過訓練之機器學習分類器提供該OTU概況。在一些實施例中,該測試進一步包含(d)執行該受過訓練之機器學習分類器以預測該人類個體患有結腸直腸腺瘤或結腸直腸癌之機率。在一些實施例中,該等方法包含(2)基於測試結果生成針對該人類患者之該個人化治療計劃。
本發明進一步提供用於診斷及治療處於結腸直腸腺瘤或結腸直腸癌風險下之人類個體之方法。在一些實施例中,該等方法包含(1)訂製該人類個體之糞便樣本之診斷測試。在一些實施例中,該測試包含(a)獲得取自該人類個體之糞便樣本。在一些實施例中,該測試進一步包含(b)產生步驟(a)中樣本之操作分類單位(OTU)概況。在一些實施例中,該測試進一步包含(c)向受過訓練之機器學習分類器提供該OTU概況。在一些實施例中,該測試進一步包含(d)執行該受過訓練之機器學習分類器以預測該人類個體患有結腸直腸腺瘤或結腸直腸癌之機率。在一些實施例中,該等方法進一步包含(2)基於步驟(1)之診斷測試結果來治療該人類個體。
在一些實施例中,該等方法包含監測人類個體中之結腸直腸腺瘤或結腸直腸癌進展之方法。在一些實施例中,該等方法包含(a)獲得取自該人類個體之糞便樣本。在一些實施例中,該等方法進一步包含(b)產生步驟(a)中樣本之操作分類單位(OTU)概況。在一些實施例中,該等方法進一步包含(c)向受過訓練之機器學習分類器提供該OTU概況。在一些實施例中,該等方法進一步包含(d)執行該受過訓練之機器學習分類器以預測該人類個體中之結腸直腸腺瘤或結腸直腸癌之階段。視情況,該等方法進一步包含(e)週期性地重複步驟(a)至(d)。
在一些實施例中,本發明亦提供用於區分結腸直腸癌(CRC)患者及正常人類個體之方法。在一些實施例中,本發明亦提供用於區分結腸直腸癌(CRC)患者、結腸直腸腺瘤患者以及正常人類個體之方法。在一些實施例中,本發明亦提供用於區分結腸直腸癌、結腸直腸息肉(PL)、非晚期結腸直腸腺瘤(NA)以及晚期結腸直腸腺瘤(AA)之方法。在一些實施例中,如本文中所提及之方法包含執行如本文中所描述之受過訓練之機器學習分類器。
相關申請案之交叉參考
本申請案主張2018年10月15日所申請之美國臨時專利申請案第62/745,955號之優先權及益處,該申請案以全文引用之方式併入本文中。有關以電子方式提交之正文檔案的說明
以電子方式提交之正文檔案的內容以全文引用之方式併入本文中:序列表之電腦可讀格式複本(文件名:NEEWH_002_01WO_SeqList_ST25.txt,記錄日期:2019年10月14日,檔案大小約251千位元組)。
在一些實施例中,本發明係關於癌症診斷及治療。更具體而言,本發明係關於(但非排他地)對人類個體中之消化系統相關之病況進行分類的方法及系統,諸如偵測癌性病況之存在、判定癌症階段或評估癌症風險。在一些實施例中,癌症為結腸直腸癌、腸癌、結腸癌、直腸癌、下胃腸道癌、盲腸癌、大腸癌等。
本發明之方法及系統可適用於任何有需要之人類個體。在一些實施例中,人類個體疑似患有癌症或處於患有癌症之風險下。在一些實施例中,人類個體經暴露於包括(但不限於)以下之風險因素:結腸直腸癌或息肉之個人或家族病史、富含紅肉及加工肉類之飲食、炎症性腸病(克羅恩氏病(Crohn's disease)或潰瘍性結腸炎)、諸如家族性腺瘤性息肉病及遺傳性非息肉結腸癌之遺傳性病況、肥胖、吸菸、身體活動不足、酗酒、2型糖尿病、非裔美國人、老年人、男性、高脂肪攝入或患有特定遺傳病症。在一些實施例中,人類個體具有一或多個關於結腸直腸癌之症狀,該等症狀包括(但不限於)排便習慣之持續變化(諸如便秘或腹瀉)、糞便上或中之血液、便秘惡化、腹部不適、原因不明的體重減輕、糞便口徑(厚度)減小、食慾不振以及噁心或嘔吐及貧血。在一些實施例中,人類個體適於定期健康檢查。
在一些實施例中,本發明之方法及系統可適用於任何有需要之人類個體,以僅基於自人類個體獲得之樣本的操作分類單位(OTU)概況而無需知曉其他資訊來進行癌症分類,使得分類器中之區分特徵僅由OTU組成。在一些實施例中,除某些品質對照以外,未手動篩選OTU,諸如旨在避免罕見OTU且減少潛在污染及改善模型偏差之彼等。在一些實施例中,方法及系統可與其他測試一起應用,該測試包括(但不限於)人類個體之基因測試、肉眼檢查、顯微鏡檢查、免疫化學、原位偵測以及顯微圖(諸如結腸鏡檢、糞便潛血測試以及可撓性乙狀結腸鏡檢(flexible sigmoidoscop))。
根據本發明之一些實施例,提供藉由分析目標個體之樣本來評估癌症風險(諸如結腸直腸癌)之方法及系統。在一些實施例中,對於結腸直腸癌,樣本為糞便樣本。用於糞便樣本收集及處理之非限制性例示性方法及裝置描述於美國專利第8008036號、第8053203號、第7449340號、第4333734號、第6727073號、第9410962號、第7816077號及第5344762號中,其中之各者出於所有目的以全文引用之方式併入本文中。
在一些實施例中,本發明之方法及系統包含一或多個機器學習分類器。此類分類器可根據本文中所描述之步驟而產生。
視情況,一或多個分類器適用於待測試之人類個體之一或多個特徵。視情況,選擇分類器以匹配待測試之人類個體之一或多個特徵。在此類實施例中,可根據因素(包括(但不限於)性別、年齡、種族、遺傳背景、生活方式、地理位置等)使用不同的分類器。
根據本發明之一些實施例,提供生成一或多個分類器之方法及系統,該等分類器可用於執行如本文所描述之任務,諸如分類有需要之人類個體之結腸直腸病況。在一些實施例中,生成分類器之方法及系統係基於複數個取樣個體之分析。資料集用以產生、訓練及輸出一或多個分類器。分類器可作為在用戶端上執行之模組提供,或用作基於自有需要之人類個體所收集之樣本來評估目標個體之癌症風險的線上服務。
可基於分類器之目的及/或在其生成後將使用分類器執行之任務來選擇用於生成及訓練分類器之取樣個體。
在一些實施例中,待執行之任務為將人類個體分類為患有結腸直腸癌或正常(亦即,非癌症)。在一些實施例中,作為參考人類個體群之用於生成及訓練分類器之取樣個體包含已鑑別為患有結腸直腸癌的人類個體及正常人類個體(例如,未患有結腸直腸癌)。可基於任務之目的及/或所需準確度來判定且最佳化取樣個體之群體大小。在一些實施例中,群體具有至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000人或更多。在一些實施例中,已鑑別為患有結腸直腸癌之人類個體與正常人類個體的比率為約1.0,諸如約1.1、1.2、1.3或約0.9、0.8、0.7,只要可達成所需準確度,則允許變化。在一些實施例中,已鑑別為患有結腸直腸癌之人類個體與正常人類個體的比率為約10:1、9:1、8:1、7:1、6:1、5:1、4:1、3:1、2:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9或1:10。只要達成所需預測準確度,則可使用不同的比率。
在一些實施例中,待執行之任務為將人類個體分類為患有結腸直腸癌(CRC)、結腸直腸腺瘤(AD)或正常(NM)。在一些實施例中,作為參考人類個體群之用於生成及訓練分類器之取樣個體包含已鑑別為患有結腸直腸癌之人類個體、已鑑別為患有結腸直腸腺瘤之人類個體以及正常人類個體(例如,未患有結腸直腸癌或結腸直腸腺瘤)。可基於任務之目的及/或所需準確度來判定且最佳化取樣個體之群體大小。在一些實施例中,群體具有至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000人或更多。在一些實施例中,已鑑別為患有結腸直腸癌之人類個體、已鑑別為患有CRC、AD之人類個體以及正常人類個體之間的比率為約1:1:1,但只要可達成所需準確度,則允許變化。
在一些實施例中,待執行之任務為將人類個體分類為患有結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)或正常。在一些實施例中,作為參考人類個體群之用於生成及訓練分類器之取樣個體包含已鑑別為患有結腸直腸癌之人類個體、已鑑別為患有息肉之人類個體、已鑑別為患有非晚期腺瘤之人類個體、已鑑別為患有晚期腺瘤之人類個體以及正常人類個體(例如,未患有CRC、PL、NA或AA)。可基於任務之目的及/或所需準確度來判定且最佳化取樣個體之群體大小。在一些實施例中,群體具有至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000人或更多。在一些實施例中,已鑑別為患有結腸直腸癌之人類個體、已鑑別為患有CRC、PL、NA、AA之人類個體以及正常人類個體之間的比率為約1:1:1:1:1,但只要可達成所需準確度,則允許變化。
在一些實施例中,對於本文所描述之方法,自參考人類個體群所收集之樣本與自目標個體(例如,其健康狀況待判定之有需要之人類個體)所收集的一或多個樣本一起處理(添加)。在一些實施例中,該處理步驟包含擴增及定序樣本中之微生物序列。在一些實施例中,該處理步驟包含簡化、標準化及/篩選定序結果。在一些實施例中,該處理步驟包含產生各樣本之OTU概況。在一些實施例中,自目標個體(例如,其健康病況待判定之有需要之人類個體)所收集之添加樣本佔待一起處理之總樣本的約1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%或更多。在一些實施例中,待一起處理之總樣本中之自目標個體(例如,其健康病況待判定之有需要之人類個體)所收集的添加樣本之數目為約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100個或更多。
OTU
本發明之系統之方法使用操作分類單位(OTU)概況。在一些實施例中,根據本文中所描述之步驟對癌症病況進行分類之OTU概況中的OTU包含由機器學習分類器所判定之OTU。在此情況下,機器學習分類器視為黑盒,且OTU之選擇不受任何外部因素操控。
由機器學習分類器選擇之此等OTU係關於癌症病況,且可用於癌症偵測或分類中。在一些實施例中,本發明之OTU包括序列表中之彼等核酸序列,諸如具有SEQ ID NO.1至345中之序列的核酸。應理解,此等序列之變體,諸如具有至少70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高一致性之彼等序列與序列表中之序列進行比較,或能夠在嚴格雜交條件下與序列表中之序列雜交。變體可為參考核苷酸序列之互補序列。變體亦可為與參考核苷酸序列或其互補序列實質上一致之核苷酸序列。變體亦可為在嚴格條件下與參考核苷酸序列、其互補序列或與其實質上一致之核苷酸序列雜交之核苷酸序列。
在一些實施例中,本發明之系統之方法包含可用於生成及訓練本發明之機器學習分類器的參考OTU概況。
為了產生參考OTU概況,獲得作為訓練樣本之人類個體樣本之集合。在一些實施例中,訓練樣本為糞便樣本。如本文中所使用,術語糞便樣本包括經處理或未經處理之取樣個體之糞便,只要微生物相之核酸組成經保存即可。在一些實施例中,訓練樣本足夠多樣化以獲取群組差異。
對於各糞便樣本,核糖體RNA (rRNA)基因序列用於判定樣本中之微生物相。在一些實施例中,可使用小次單元(SSU)及大次單元(LSU) rRNA基因及分隔兩種rRNA基因之內轉錄間隔序列(ITS)區。在一些實施例中,rRNA基因可為23S rRNA或16S RNA。在一些實施例中,使用16S RNA序列。
在一些實施例中,擴增樣本中之16S rRNA之整體或其一或多個部分。為了擴增16S RNA序列,可使用任何合適之引子對,諸如描述於Weisburg等人(Journal of Bacteriology
. 173 (2): 697-703)中之27F及1492R,或涵蓋用於454定序之V1至V3的27F/8F-534R。更多實施例提供在下表中。應理解,亦可使用與列於以下之引子具有較高一致性之引子,諸如具有至少80%、85%、90%、95%或更多一致性的彼等引子。
引子名稱 | 序列(5'-3') | SEQ ID NO. |
341F | CCTAYGGGRBGCASCAG | 346 |
806R | GGACTACNNGGGTATCTAAT | 347 |
8F | AGA GTT TGA TCC TGG CTC AG | 348 |
U1492R | GGT TAC CTT GTT ACG ACT T | 349 |
928F | TAA AAC TYA AAK GAA TTG ACG GG | 350 |
336R | ACT GCT GCS YCC CGT AGG AGT CT | 351 |
1100F | YAA CGA GCG CAA CCC | 352 |
1100R | GGG TTG CGC TCG TTG | 353 |
337F | GAC TCC TAC GGG AGG CWG CAG | 354 |
907R | CCG TCA ATT CCT TTR AGT TT | 355 |
785F | GGA TTA GAT ACC CTG GTA | 356 |
805R | GAC TAC CAG GGT ATC TAA TC | 357 |
533F | GTG CCA GCM GCC GCG GTA A | 358 |
518R | GTA TTA CCG CGG CTG G | 359 |
27F | AGA GTT TGA TCM TGG CTC AG | 360 |
1492R | CGG TTA CCT TGT TAC GAC TT | 361 |
在一些實施例中,擴增且定序16S rRNA核酸序列之一或多個高變區。細菌16S基因含有九個長在約30-100個鹼基對之範圍內的高變區(V1-V9),該等高變區涉及小核糖體次單元之二級結構。理論上,其一或多個高變區可用於描述於本發明中之方法之目的。在一些實施例中,使用16S rRNA之V3、V4或V3-V4區之引子靶向片段。舉例而言,引子對包含341F (CCTAYGGGRBGCASCAG,SEQ ID NO. 346)及806R (GGACTACNNGGGTATCTAAT,SEQ ID NO. 347)。在一些實施例中,可使用靶向其他區之引子,諸如16S rRNA之V6區。應理解,對於某些細菌分類研究,物種可在16S基因中共享高達99%的序列相似性。在此類情況下,可引入除16S rRNA以外之序列。
可使用合適之定序方法。DNA定序技術包括使用經標記之終止子或引子之典型雙去氧定序反應(桑格法(Sanger method))及平板或毛細管中之凝膠分離;單分子定序;使用可逆終止經標記之核苷酸的合成定序;焦磷酸定序;454定序;依魯米那定序(Illumina sequencing);SMRT定序;奈米孔定序;化學過敏性場效電晶體陣列定序;用電子顯微鏡定序;與經標記寡核苷酸探針之文庫的對偶基因特異性雜交;藉由使用與經標記純系之文庫對偶基因特異性雜交的合成定序,隨後連接,在聚合步驟期間即時監測經標記核苷酸之併入;聚合酶選殖定序(polony sequencing)以及SOLiD定序。經分離分子之定序最近已藉由使用聚合酶或連接酶之連續或單一延伸反應以及藉由與探針文庫之單一或連續差分雜交而證實。
在一些實施例中,定序技術可每次運行產生至少1000次讀取、每次運行產生至少10,000次讀取、每次運行產生至少100,000次讀取、每次運行產生至少500,000次讀取或每次運行產生至少1,000,000次讀取。在一些實施例中,定序技術可每次讀取產生約30 bp、約40 bp、約50 bp、約60 bp、約70 bp、約80 bp、約90 bp、約100 bp、約110 bp、約120 bp,每次讀取產生約150 bp、約200 bp、約250 bp、約300 bp、約350 bp、約400 bp、約450 bp、約500 bp、約550 bp、或約600 bp。在一些實施例中,用於所提供之發明方法中的定序技術可每次讀取產生至少30、40、50、60、70、80、90、100、110、120、150、200、250、300、350、400、450、500、550或600 bp。在一些實施例中,用於所提供之發明方法中的定序技術可每次讀取產生至少100、200、300、400、500、600 bp、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000 bp或更多。
一旦獲得定序結果,則其可與一或多個16S rRNA資料庫相比以獲得處於不同分類等級之標註。此類資料庫包括(但不限於) SILVA (23)、核糖體資料庫項目(RDP) (7)、EzTaxon-e (Chun等人,International Journal of Systematic and Evolutionary Microbiology
.57
(Pt 10): 2259-61, 2007)及GreenGenes (DeSantis等人,Applied and Environmental Microbiology
.72
(7): 5069-72. 2006),以及NCBI。
在一些實施例中,當定序經擴增核酸時,亦可根據此項技術中已知之方法來判定各序列之豐度(例如,絕對豐度或相對豐度)。
對於各糞便樣本,在可獲得各擴增核酸之序列及豐度資訊之後,形成存在於樣本中之獨特微生物序列清單,該清單包含各獨特微生物序列之豐度資訊。因此,對於各個體之樣本,產生包含獨特微生物序列之身分資訊(例如,自其中衍生序列之微生物的分類資訊)及各獨特微生物序列之豐度資訊的清單。隨後衍生於複數個樣本之清單可合併以形成作為參考資料集之參考OTU矩陣。參考矩陣包含各糞便樣本之各獨特微生物序列之豐度資訊。典型參考矩陣可如下者所示:,
其中,矩陣之各列表示各糞便樣本中所給定之獨特微生物序列(OTU)之豐度。舉例而言,矩陣中之aij
表示樣本j中之OTUi之豐度。
在一些實施例中,定序結果通過篩選器以去除不合需要之定序結果。在一些實施例中,篩選器係基於定序質量。在一些實施例中,通過篩選器之片段進一步合併以形成獨特序列清單且獲得其豐度。在一些實施例中,使用預定相似性臨限值,諸如約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多來聚集獨特序列。對於各OTU,選擇共同序列。在一些實施例中,共同序列係選自SEQ ID NO. 1-345,或具有其高相似性。
為計算方便起見,矩陣可經標準化,使得各樣本j之序列豐度之總和將為相同的。可視需要選擇總和。在一些實施例中,所選擇之總和可接近經定序核酸群之總數。舉例而言,當自定序步驟獲得約50,000個序列時,經標準化矩陣之總和可設定為50,000。或者,可選擇不同的總和。
一旦可獲得參考OTU矩陣,則其可用以生成及訓練分類器,若所給定樣本與癌症相關,則該分類器最終可用以預測。
分類器
本發明亦提供機器學習分類器,若所給定樣本與癌性病況相關聯,則該等分類器可用於分類。此類機器學習分類器包括(但不限於)決策樹分類器、K-最近相鄰分類器(KNN)、邏輯回歸分類器、最近相鄰分類器、神經網路分類器、高斯混合模型(GMM)、支援向量機(SVM)分類器、最近質心分類器、線性回歸分類器以及隨機森林分類器。
在機器學習分類器用於執行如本文中所描述之任務之前,分類器可受過訓練。
在一些實施例中,各樣本由充當分類器中所使用之「特徵」的相對OTU豐度之向量表示。
在一些實施例中,分類器為隨機森林分類器。隨機森林分類器為採用觀測結果之子集及變量之子集以構建決策樹之集成工具。其構建多個此類決策樹且將其融合在一起以得到更準確及穩定的預測。此為一組獨立評審員之最多投票的直接結果,吾人可得到比最好評審員更好的最終預測。
對於實施方式,可使用含有隨機森林演算法之套裝軟體。此類套裝軟體包括(但不限於)由Breiman及Culter以Fortran編寫之原始RF;C#、C++、Pascal、VBA中之ALGLIB;基於R中之條件推理樹的實施方(party implementation);用於在R中分類及回歸之隨機森林;在scikit-learn中具有實例之Python實現;橙色資料採擷程式組(Orange data mining suite)包括隨機森林學習者且可將受過訓練森林視覺化;Matlab實現;SQP軟體根據問題之形式及語言特徵而使用隨機森林演算法以預測調查問題之質量;在Java程式庫及GUI中之Weka隨機森林;以及ranger (用於分類、回歸、機率以及殘存之隨機森林之C++實現)。
隨機森林中之超參數增強模型之預測能力抑或使其更易於訓練模型。視情況,在機器學習分類器用於執行如本文中所描述之任務之前,分類器之一或多個超參數可經微調。超參數微調方法係關於吾人如何可自可能的超參數值之空間取樣可能的模型架構候選。此通常稱為「搜索」超參數空間之最佳值。
在一些實施例中,根據待使用之套裝軟體,待微調之超參數包括(但不限於)樹之數目、用於樹之各分枝的最大特徵之數目、每片樹葉之最小樣本、多項式特徵之度、允許的最大深度、神經網路中之神經元數目、神經網路中之層數目、學習速率等。
在一些實施例中,當使用隨機森林分類器(諸如R中之隨機森林套裝軟體)時,某些值可經設定。
在一些實施例中,mtry經設定為總參數之平方根。
在一些實施例中,樹之數目經設定為約100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10,000或更多。在一些實施例中,各樹允許生長至全尺寸。在一些實施例中,各樹不允許生長至全尺寸。
在一些實施例中,隨機樹分類器中所使用之特徵減少。在一些實施例中,僅保留滿足某些準則之特徵。在一些實施例中,準則包括各特徵至少出現在相對豐度為至少f% (例如,f=0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0或更多)之p% (例如,p=1、2、3、4、5、6、7、8、9、10或更多)的樣本中。在一些實施例中,為了避免去除真實的可辨別信號,首先應用隨機置換以混洗樣本。在一些實施例中,特徵之數目在減少之後變得與訓練樣本之數目類似,此顯著減少了運行時間。
可以諸多方式使用根據本發明之分類器。在一些實施例中,用於輔助預測個體內癌症之方法係基於分類器中之一或多者單獨或與另一特徵概況(諸如症狀概況)組合。在某些實施例中,分類器為機器學習分類器。機器學習分類器可選自由以下組成之群:隨機森林(RF)、分類及回歸樹(C&RT)、提昇樹、神經網路(NN)、支援向量機(SVM)、通用卡方自動交互偵測器模型、交互樹、多自適應回歸仿樣、機器學習分類器及其組合。較佳地,學習統計分類器系統為基於樹之統計演算法(例如,RF、C&RT等)及/或NN (例如,人工NN等)。
除使用分類器來預測人類個體中之癌性病況之外,亦提供其他方法。舉例而言,提供用於識別人類個體中之癌症可能性增加之方法。在一些實施例中,提供鑑別為患有早期癌性病況之人類患者,且週期性地自該等人類患者收集樣本,諸如每年、每半年、每月、每週等,且亦向各樣本提供與癌症發展階段相關之資訊。根據本文中所描述之步驟處理樣本以產生參考資料集,該參考資料集用於訓練分類器以區分癌症病況惡化之人類個體及癌症病況未惡化之人類個體。在一些實施例中,方法包含執行受過訓練之機器學習分類器以預測人類個體患有結腸直腸腺瘤或結腸直腸癌之可能性增加之機率。
亦提供用於偵測人類個體之樣本中之異常的方法。如本文中所使用,術語異常係指健康人類個體未患有之任何病況。在一些實施例中,異常係關於消化系統。在一些實施例中,異常係關於結腸直腸部分。在一些實施例中,使用機器學習分類器,其中已使用鑑別為正常之人類個體及鑑別為具有至少一種異常之人類個體的樣本來訓練機器學習分類器。在一些實施例中,方法包含執行受過訓練之機器學習分類器以預測患者之糞便樣本中存在或不存在異常。
用於為患有癌症或處於患有癌症之風險下之人類個體生成個人化治療計劃的方法。該方法可由諸如醫生之開業醫師藉由進行人類個體之樣本的診斷測試來啟動。根據本文中所描述之步驟來處理樣本以產生個人化醫學資料檔。因此,受過訓練之機器學習分類器用於將個人化醫學資料檔分類為特定癌性或非癌性病況。基於所判定之病況,向人類患者推薦個人化治療計劃,諸如是否應開任何合適之治療處方。對於相同操作,亦提供用於診斷及治療處於癌症風險下之人類個體之方法,其中人類個體基於分類結果接受處方治療。個人化治療計劃有助於及時、有效及準確地應用癌症療法或其他治療模態。在一個實施例中,訓練資料集可劃分為至少兩個組,其包括彼等並未經受癌症復發之患者及彼等經受癌症復發之患者。在一個實施例中,訓練分類器以區分並未經受癌症復發之患者及彼等經受癌症復發之患者。因此,此分類器可用以處理自經歷癌症之人類患者所收集的樣本且預測該人類患者中是否存在癌症復發風險。在一個實施例中,臨限分數可經計算,使得一定百分比之復發患者具有小於臨限分數之定量風險分數。臨限分數可為使用者可調節的。因此,小於臨限分數之定量風險分數指示癌症復發之低風險,且實例方法及設備可在手術後為病患生成個人化治療計劃,該治療計劃指示輔助化療不應為治療計劃之部分。高於臨限分數之定量風險分數指明癌症復發之更高風險,表明輔助化療應為患者之個人化治療計劃之部分。因此,在一個實施例中,在偵測到小於臨限分數之定量風險分數時,產生指示不應向患者投與輔助化療之個人化治療計劃。在偵測到等於或大於臨限分數之定量風險分數時,產生指示應向患者投與輔助化療之個人化治療計劃。
亦提供用於監測人類個體中之癌症進展之方法。在一些實施例中,週期性地(諸如每年、每半年、每月、每週等)自人類個體採集樣本,且進行如本文中所描述之方法以產生人類個體之OTU概況之集合。藉由受過訓練之機器學習分類器分析概況以監測人類個體中之癌性病況的進展以判定患者之健康狀況是否改變。
亦提供用於預測人類個體之癌性病況復發之方法。在一些實施例中,週期性地(諸如每年、每半年、每月、每週等)自曾經患有癌性病況之人類個體採集樣本,且經受如本文中所描述之過程以產生人類個體之OTU概況之集合。藉由受過訓練之機器學習分類器分析概況以判定癌症復發是否發生。在一些實施例中,機器學習分類器至少部分地基於OTU概況來計算個體將經歷癌症復發之機率。
在一些實施例中,本發明之診斷測試可由同一實施方(party)預訂及執行。在一些實施例中,測試可由兩個或更多個不同實施方預訂及執行。在一些實施例中,測試可由個體自身、醫生、護士、測試實驗室、醫療保健提供者或任何其他能夠進行測試之實施方來預訂及/或執行。隨後,可藉由同一實施方或第二實施方(諸如個體自身、醫生、護士、測試實驗室、醫療保健提供者、醫師、臨床試驗人員、醫院、實驗室、研究機構或能夠使用如本文中所描述之方法來分析結果的任何其他實施方)來分析測試結果。
預測
在一些實施例中,一旦分類器受過訓練,則其可直接使用以預測自有需要之人類個體所收集的給定樣本是否與癌性病況或癌性病況之風險相關。在此情況下,將已知標記之參考樣本(例如,源於鑑別為患有癌性病況或正常之參考人類個體群之樣本)處理以獨立地產生訓練資料集,而無需自有需要之人類個體所收集的新樣本。
在一些實施例中,使用如本文中所描述之步驟,將自有需要之人類個體所收集之新樣本與已知標記的參考樣本(例如,源於鑑別為患有癌性病況或正常之參考人類個體群的樣本)一起處理。與參考人類個體群相關聯之結果用於訓練分類器,該分類器隨後用於進行預測。此方法給予新樣本相同的OTU標記集合作為用於建構分類器之樣本,且由於批次效應而增加預測準確度。
在一些實施例中,為了待測試之新樣本具有一致的OTU標記,新樣本對照與參考OTU矩陣對應之共同序列進行比較。在彼情況下,當現有OTU標記不存在於新樣本中時,其設定為空。
在一些實施例中,使用添加策略,其中將用於訓練分類器之具有已知標記之樣本(例如,自其中各者鑑別為患有癌症或為正常的參考人類個體群所收集之樣本)與一或多個有需要之人類個體(例如,其健康狀況待預測之人類個體)的新樣本一起處理(例如,擴增及定序)。參考人類個體群之結果用於訓練分類器。此種添加策略可控制批次效應且產生更高的預測準確度。在一些實施例中,至少1、2、3、4、5、6、7、8、9、10、15、20、25、20、35、40、45、50、55、60、65、70、75、80、85、90、95、100個或更多有需要之人類個體的新樣本與參考人類個體群一起處理(添加)。
就預測人類個體之結腸直腸癌性病況來說,本發明之分類器提供前所未有的高特異性及準確度,尤其係當OTU之豐度為分類器中所使用之唯一區分特徵時亦如此,而不需要包括待測試之人類個體的其他資訊。在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)或為正常(NM)之方法的準確度為至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多。在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)、結腸直腸腺瘤(AD)或為正常(NM)之方法的準確度為至少65%、70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多。在一些實施例中,用於將人類個體分類為患有結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)或為正常之方法的準確度為至少50%、55%、65%、70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多。
系統
亦提供使用本發明之分類器之系統。在一些實施例中,系統包括一或多個醫療記錄資料庫。在一些實施例中,系統經連接至醫療記錄資料庫介面。在一些實施例中,基於自人類個體所收集之個別樣本之分析,資料庫包括複數個個別人類個體之個人記錄。可基於系統之目的及由系統待執行之任務來選擇資料庫。在一些實施例中,資料庫包含複數個OTU向量,其中各OTU向量描述自具有經鑑別之健康狀況(例如,患有某一階段之癌症或為正常)之個別人類個體所收集的個別樣本中之OTU豐度。在一些實施例中,個別人類個體之癌性病況為已知的(經標記)。在一些實施例中,資料庫包含可用於或已用於訓練分類器之參考OTU矩陣。在一些實施例中,參考OTU矩陣由本文中所描述之方法產生。
在一些實施例中,本文中所描述之方法及系統涉及控制電腦輔助診斷(CADx)系統以對人類個體之結腸直腸狀況進行分類。舉例而言,用於分類的本發明之方法及/或系統的實現可涉及手動、自動或其組合來執行或完成所選擇之任務。此外,根據本發明之方法及/或系統之實施例的實際儀器及設備,可使用操作系統藉由硬體、軟體或韌體或其組合來實施若干所選擇之任務。
用於執行本發明之方法的硬體可實施為晶片或電路。作為軟體,根據本發明之實施例的所選擇之任務可實施為一或多個藉由電腦使用合適之操作系統來執行之軟體指令。在一些實施例中,如本文中所描述之方法中的一或多個步驟由資料處理器執行,該資料處理器諸如用於執行一或多個指令之計算平台。視情況,資料處理器包括用於儲存指令及/或資料之揮發性記憶體及/或用於儲存指令及/或資料之非揮發性儲存器,例如磁性硬碟及/或可移除媒體。視情況,亦提供網路連接。亦視情況提供顯示器及/或使用者輸入裝置(諸如鍵盤或滑鼠)。
在一些實施例中,本發明之方法及系統之實現包含使用一或多個分類器,諸如一或多個機器學習分類器。可根據如本文中所描述之方法產生機器學習分類器。在一些實施例中,分類器包括(但不限於),分類器演算法係選自由以下組成之群:決策樹分類器、K-最近相鄰分類器(KNN)、邏輯回歸分類器、最近相鄰分類器、神經網路分類器、高斯混合模型(GMM)、支援向量機(SVM)分類器、最近質心分類器、線性回歸分類器以及隨機森林分類器。
在一些實施例中,訓練分類器可包括自電腦記憶體獲取電子資料、經由電腦網絡接收電腦檔案或基於其他電腦或電子之動作。在一個實施例中,分類器為隨機森林分類器。在其他實施例中,可使用自動化深度學習分類器之其他類型、組合或組態。
在一些實施例中,分類器藉由介面單元輸出,視情況作為允許對有需要之人類個體進行分類之模組。在一些實施例中,根據人類個體之不同人口資料特徵(諸如年齡、性別、人種、基因突變等)生成且訓練一或多個分類器。
在一些實施例中,分類器可代管在接受有需要之人類個體之OTU資料的網頁伺服器中,使得使用分類器之模組可預測人類個體之癌性病況。可經由通信網路(諸如網際網路)自提供原始定序資料或OTU資料之用戶端(諸如膝上型電腦、桌上型電腦、智慧型電話、平板電腦和/或類似物)接收人類個體資料。可藉由使用者使用由使用者所選擇之介面(例如,圖形使用者介面),視情況使用介面手動輸入資料,且/或例如藉由電腦輔助診斷(CAD)模組及/或系統自動提供資料。
在一些實施例中,本發明之系統可包括處理器;記憶體;輸入/輸出(I/O)介面;一組電路以及連接處理器、記憶體、I/O介面及一組電路之介面。在一些實施例中,系統包括顯示電路。在一些實施例中,系統包括訓練電路。在一些實施例中,系統包括標準化電路。在一些實施例中,系統包含雙微處理器及其他多處理器架構。在一些實施例中,記憶體可包括揮發性記憶體及/或非揮發性記憶體。磁碟可經由例如輸入/輸出介面(例如,卡片,器件)及輸入/輸出埠可操作地連接至電腦。磁碟可包括(但不限於)如磁碟驅動機、磁帶驅動機、Zip驅動機、固態器件(SSD)、快閃記憶卡、疊瓦式磁性記錄(SMR)驅動機或記憶棒之器件。此外,磁碟可包括光學驅動機,如CD-ROM或數位視訊ROM驅動機(DVD ROM)。舉例而言,記憶體可儲存進程或資料。磁碟或記憶體可儲存控制及分配電腦之資源的操作系統。電腦可經由I/O介面及輸入/輸出埠與輸入/輸出器件進行交互作用。輸入/輸出埠可包括(但不限於)串行埠、並行埠或USB埠。電腦可在網路環境中操作且因此可經由I/O介面或I/O埠連接至網路器件。經由網路器件,電腦可與網絡交互作用。經由網絡,電腦可在邏輯上連接至遠程電腦。可與電腦交互作用之網路包括(但不限於)區域網路(LAN)、廣域網路(WAN)、WiFi網路或其他網路。
治療
在一些實施例中,本發明之方法包含在人類患者分類為患有結腸直腸癌或腺瘤之後治療有需要之人類患者。在一些實施例中,治療包括(但不限於)手術、化學治療、放射治療、免疫療法、緩解性護理、運動。
如本文中所使用,片語「治療方案」係指治療計劃,其規定向有需要之個體(例如,診斷患有病變之個體)提供治療類型、劑量、時間表及/或治療持續時間。所選擇之治療方案可為積極的,此預期會產生最佳臨床結果(例如,病變之徹底治癒)或更溫和的,其可減輕病變之症狀但導致病變之不完全治癒。將瞭解,在某些情況下,治療方案可與個體之某些不適或不良副作用(例如,對健康細胞或組織之損傷)相關聯。治療之類型可包括手術干預(例如,去除病灶、病變細胞、組織或器官)、細胞替代療法、以局部或全身模式投與治療藥物(例如,受體促效劑、拮抗劑、激素、化學治療劑)、暴露於使用外部源(例如,外部光束)及/或內部源(例如,近距放射療法)之放射治療及/或其任何組合。取決於病理之嚴重程度及所選擇之治療類型,治療之劑量、排程及持續時間可變化,且熟習此項技術者能夠用治療之劑量、排程及持續時間來調節治療類型。
在一些實施例中,治療包括(但不限於)氟尿嘧啶(fluorouracil)、卡培他濱(capecitabine)、奧沙利鉑(oxaliplatin)、伊立替康(irinotecan)、UFT、FOLFOX、FOLFOXIRI及FOLFIRI、諸如貝伐單抗(bevacizumab)之抗血管生成藥物以及表皮生長因子受體抑制劑(例如,西妥昔單抗(cetuximab)及帕尼單抗(panitumumab))。
套組
在本發明中亦提供用於預測有需要之人類個體中之癌症的套組。在一些實施例中,套組可包含本文中所描述之核酸以及以下任何或所有物質:分析試劑、緩衝液、探針及/或引子以及無菌生理鹽水或其他醫藥學上可接受之乳液及懸浮液基質。此外,套組可包括含有用於實踐本文中所描述之方法之指導(例如,方案)的教學材料。套組可進一步包含用於核酸概況之資料分析之套裝軟體。舉例而言,套組可包括可受訓練或已受過訓練的本發明之分類器。在一些實施例中,套組可包括本發明之參考OTU矩陣,及/或可用於根據如本文中所描述之方法產生參考OTU矩陣之樣本及試劑。
在一些實施例中,套組可為用於擴增、偵測、鑑別或量化樣本中之核酸序列之套組。套組可包含聚(T)引子、正向引子、反向引子及探針。
本文所描述之組合物中之任一者可包含於套組中。在一非限制性實例中,用於分離、標記及/或評估DNA及/或RNA群體之試劑包括於套組中。其亦可包括一或多種緩衝液(諸如反應緩衝液、標記緩衝液、洗滌緩衝液或雜交緩衝液)、用於製備DNA樣本之化合物、組分雜交及用於分離DNA之組分。
在一些實施例中,本發明之套組包括用於核酸概況(諸如自樣本獲得之OUT概況)之資料分析的套裝軟體。套裝軟體可包括機器學習分類器。機器學習分類器可已經藉由參考資料集訓練,或取決於套組之目的,套裝軟體包括一或多個合適之用於訓練機器學習分類器的參考資料集。
定義
隨機森林或隨機決策森林為用於分類、回歸及其他任務之集成學習方法,該方法藉由在訓練時間構建多個決策樹且輸出作為個別樹之類別(分類)或平均預測(回歸)之模式的類別來操作。隨機決策森林糾正決策樹之過度擬合其訓練集之習慣。隨機森林為平均多個深決策樹之方式,在相同訓練集之不同部分進行訓練,其目的為減少差異。用於使用隨機森林分類器之方法之非限制性實例描述於美國專利第9747527號、第8802599號、第10049770號、第9068232號、第9474490號、第10055839號、第9482672號、第9852501號、第9642586號、第9096906號、第9498138號、第9235278號、第9922269號、第8463721號、第9971959號、第9898811號、第9342794號、第9918686號、第9280724號、第8811666號、第9741116號、第10063582號、第9697472號、第9978142號、第9910986號、第9690938號、第9779492號、第9208323號、第9460367號、第9430829號、第9747687號、第9014422號、第9025863號、第9946936號、第9171403號、第9615878號、第9639902號、第10025819號、第9661025號、第9978425號、第9076056號、第9609904號、第9418310號、第9911219號及第10037603號中,其中各者出於所有目的以全文引用之方式併入本文中。
分類為預測給定資料點之類別,例如基於含有類別成員資格為吾人所知之觀測結果(或個例)之資料之訓練集來鑑別新觀測結果屬於類別集合之哪一類別(子群體)的過程。類有時稱為目標/標記或類別。分類預測建模為輸入變量(X)之映射函數(f)近似為離散輸出變量(y)之任務。
分類器為實施分類之演算法,尤其在具體實施中。術語「分類器」有時亦係指藉由將輸入資料映射至類別之分類演算法來實施之數學函數。分類器利用某些訓練資料以理解給定輸入變量如何與類相關。在一些實施例中,可使用之分類器演算法係選自由以下組成之群:決策樹分類器、K-最近相鄰分類器(KNN)、邏輯回歸分類器、最近相鄰分類器、神經網路分類器、高斯混合模型(GMM)、支援向量機(SVM)分類器、最近質心分類器、線性回歸分類器以及隨機森林分類器。
操作分類單位(OTU)係指藉由特定分類標記基因之DNA序列相似性分組之生物集群。換言之,在不存在可用於宏觀生物之傳統生物分類系統的情況下,OTU為在不同分類層級上之微生物「物種」之實用替代物。OTU已為微生物多樣性之最常用單位,尤其當分析小次單元16S或18S rRNA標記基因序列資料集時。序列可根據其彼此之間的相似性聚類,且基於由研究人員設定之相似性臨限值(例如,約90%、95%、96%、97%、98%、99%相似性或更多)來界定操作分類單位。典型地,OTU係基於相似的16S rRNA序列。當使用不同的演算法或臨限值時,可不同地計算OTU。
參考「一個實施例」、「一實施例」、「一個實例」以及「一實例」指明如此描述之一或多個實施例或實例可包括特定特徵、結構、表徵、特性、要素或限制,但並非每個實施例或實例必須包括特定特徵、結構、表徵、特性、要素或限制。此外,重複使用片語「在一個實施例中」未必係指同一實施例,儘管其可為同一實施例。
如本文中所使用,「電腦可讀儲存器件」係指儲存指令或資料之非暫時性電腦可讀媒體。「電腦可讀儲存器件」不係指傳播的信號。電腦可讀儲存器件可採取包括(但不限於)非揮發性媒體及揮發性媒體之形式。非揮發性媒體可包括例如光碟、磁碟、磁帶及其他媒體。揮發性媒體可包括例如半導體記憶體、動態記憶體及其他媒體。電腦可讀儲存器件之常見形式可包括(但不限於)軟碟、可撓性磁碟、硬碟、磁帶、其他磁性媒體、特殊應用積體電路(ASIC)、光碟(CD)、其他光學媒體、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、記憶體晶片或記憶體卡片、記憶體棒、資料儲存器件以及電腦、處理器或其他電子器件可自其中讀取之其他媒體。
如本文中所使用,「核酸」或「寡核苷酸」或「聚核苷酸」意謂共價連接在一起之至少兩個核苷酸。所指示單股亦定義互補股之序列。因此,核酸亦涵蓋所指示單股之互補股。核酸之諸多變體可用於與所指定核酸相同的目的。因此,核酸亦涵蓋實質上相同的核酸及其互補序列。單股提供可在嚴格雜交條件下與標靶序列雜交之探針。因此,核酸亦涵蓋在嚴格雜交條件下雜交之探針。核酸可為單股或雙股,或可含有雙股及單股序列之部分。核酸可為DNA、基因體及cDNA、RNA或雜合體,其中核酸可含有去氧核糖核苷酸與核糖核苷酸之組合,及包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鳥嘌呤、肌苷、黃嘌呤、次黃嘌呤、異胞嘧啶、及異鳥嘌呤核酸等鹼基之組合可由化學合成方法或重組方法獲得。
如本文中所使用,核酸提及之「變體」意謂(i)所提及之核苷酸序列之一部分;(ii)所提及之核苷酸序列或其部分之互補序列;(iii)與所提及之核酸或其互補序列實質上一致之核酸;或(iv)在嚴格條件下與所提及之核酸、其互補序列或與其實質上一致之序列雜交的核酸。
如本文中所使用,「嚴格雜交條件」意謂第一核酸序列(例如,探針)將與第二核酸序列(例如標靶)雜交之條件,諸如在複雜之核酸混合物中。嚴格條件與序列相關,且將隨不同情況而不同。嚴格條件可選擇為比特定序列在限定離子強度pH下之熱熔點(Tm
)低約5-10℃。Tm
(在限定的離子強度、pH及核酸濃度下)可為50%與標靶互補之探針與標靶序列雜交達平衡時的溫度(當標靶序列過量存在時,在Tm
下達平衡時,50%探針被佔據)。嚴格條件可為其中鹽濃度小於約1.0 M鈉離子,諸如在pH 7.0至8.3下約0.01-1.0 M鈉離子濃度(或其他鹽),且短探針(例如,約10-50個核苷酸)之溫度為至少約30℃且長探針(例如,大於約50個核苷酸)之溫度為至少約60℃之彼等條件。嚴格條件亦可藉由添加去穩定化劑(諸如甲醯胺)來達成。對於選擇性或特異性雜交,正信號可為背景雜交之至少2至10倍。例示性嚴格雜交條件包括如下:50%甲醯胺,5×SSC以及1% SDS,在42℃下培育;或5×SSC,1% SDS,在65℃下培育,在65℃下於0.2×SSC及0.1% SDS中洗滌。
如本文中所使用,「實質上互補」意謂第一序列在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100或更多個核苷酸之區域內與第二序列之互補序列至少60%、65%、70%、75%、80%、85%、90%、95%、97%、98%或99%相同,或兩種序列在嚴格雜交條件下雜交。
如本文中所使用,「實質上相同」意謂若第一序列與第二序列之互補序列實質上互補,則第一及第二序列在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100或更多個核苷酸或胺基酸之區域內或相對於核酸至少60%、65%、70%、75%、80%、85%、90%、95%、97%、98%或99%相同。
如本文中所使用,術語「診斷」係指將病變或症狀分類、判定病變之嚴重程度(例如,等級或階段)、監測病變進展、預測病變結果及/或恢復前景。
如本文中所使用,片語「有需要之個體」係指已知患有癌症,處於患有癌症風險下之動物或人類個體(例如,遺傳易患個體,具有癌症醫療及/或家族病史之個體,暴露於致癌物、職業風險、環境風險之個體)及/或表現出癌症之可疑臨床症狀(例如,便血或黑糞症、不明原因的疼痛、出汗、不明原因的發熱、不明原因的體重減輕直至食慾不振、排便習慣之變化(便秘及/或腹瀉)、裏急後重(排便不完全的感覺,尤其對於直腸癌)、貧血及/或全身無力)之個體。另外地或可替代地,有需要之個體可為進行常規健康檢查之健康人類個體。
如本文中所使用,術語「約」係指±10%。
片語「基本上由…組成」意謂組合物或方法可包括額外成分及/或步驟,但僅在額外成分及/或步驟不會實質上改變所主張組合物或方法之基本及新穎特性的情況下。
除非上下文另外明確規定,否則如本文中所使用,單數形式「一(a/an)」及「該(the)」包括複數個參考物。舉例而言,術語「一化合物」或「至少一種化合物」可包括複數種化合物,包括其混合物。
字組「例示性」在本文中使用以意謂「充當實例、個例或說明」。描述為「例示性」之任何實施例未必解釋為比其他實施例較佳或有利,及/或排除來自其他實施例之特徵的併入。
字組「視情況」在本文中使用以意謂「在一些實施例中提供且在其他實施例中不提供」。本發明之任何特定實施例可包括複數個「視情況選用之」特徵,除非此類特徵相矛盾。
如本文中所使用,「電腦可讀儲存器件」係指儲存指令或資料之非暫時性電腦可讀媒體。「電腦可讀儲存器件」不係指傳播的信號。電腦可讀儲存器件可採取包括(但不限於)非揮發性媒體及揮發性媒體之形式。非揮發性媒體可包括例如光碟、磁碟、磁帶及其他媒體。揮發性媒體可包括例如半導體記憶體、動態記憶體及其他媒體。電腦可讀儲存器件之常見形式可包括(但不限於)軟碟、可撓性磁碟、硬碟、磁帶、其他磁性媒體、特殊應用積體電路(ASIC)、光碟(CD)、其他光學媒體、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、記憶體晶片或記憶體卡片、記憶體棒、資料儲存器件以及電腦、處理器或其他電子器件可自其中讀取之其他媒體。
如本文中所使用,「電路」包括(但不限於)硬體、韌體、在機器上執行之軟體或各者之組合,以執行一或多個功能或一或多個動作或以引起來自另一電路、方法或系統之功能或動作。電路可包括軟體控制之微處理器、離散邏輯(例如,ASIC)、類比電路、數位電路、經程式化邏輯器件、含有指令之記憶體器件以及其他實體器件。電路可包括一或多個閘極、閘極之組合或其他電路組件。在描述多個邏輯電路之情況下,或許有可能將多個邏輯併入至一個實體邏輯或電路中。類似地,在描述單個邏輯電路之情況下,或許有可能在多個邏輯或電路之間分佈單個邏輯。
實例
人類微生物相已與多種代謝疾病有關,且近年來,某些微生物之導致腫瘤之機制已經鑑別。結腸直腸癌(CRC)在早期鑑別時可有效地治療。在中國,尤其在西南地區,CRC發病率高,此很可能係由於飲食偏好及不情願進行健康檢查。16S rRNA之可變區之擴增子定序在診斷CRC中展示高潛力。吾等自由正常個體及處於CRC之不同進展階段之患者組成之較大中國組群收集微生物相資訊。使用來自16S rRNA之V3-V4區之序列資訊,吾等研發以高準確度區分患有CRC之患者與正常個體的模型。在腺瘤組群中,吾等在缺少獨立組群之情況下已證實非常有前景的分類結果,且進一步揭示此種策略可受資料過度擬合之影響。由於研究中之小的樣本大小,此為常見問題。所有樣本用作訓練集,且測試集可來自相同批次之結果,且因此,減輕過度擬合(1)之影響為至關重要的。吾等進一步提出策略以部分地克服測試組群之難題,該測試組群可由於不同實驗運行之批次效應或污染而具有不同於訓練集的特性。使用非侵入性微生物相診斷CRC有希望成為預先篩選策略,其可引導具有預測高風險之個體進行CRC進一步檢查,且可由於早期偵測而幫助降低整體死亡率。
在本發明中,吾等正調查使用糞便微生物相作為非侵入性方法對結腸直腸腺瘤及CRC之疾病狀態分級的可能性,該方法補充其他類型之非侵入性方法,諸如FIT (20)。與大多數現有策略(1、8、26)類似,吾等亦使用16S rRNA定序(V3-V4區),用於調查微生物相含量及理解種層級解析度可能不會達成之限制。為避免不同參考資料庫之標註中之差異(2),吾等使用操作分類單位(OTU)之相對豐度作為分類特徵。不同於多細菌預測模型,吾等不預選大多數預測OTU作為吾等之下游分類的特徵,而使用所有通過品質控制準則之OTU。隨著擷取資料中之非線性關係為吾人所知,吾等使用隨機森林分類器作為吾等模型。
獨立測試組群已用以報導吾等預測之敏感度、特異性及整體準確度。對於癌症及非癌症組群,吾等已在訓練及獨立測試集中證實分類的類似效能。如諸多在未使用獨立測試集時之現有策略,吾等亦同樣能夠獲得區分腺瘤及健康組群之高度準確的結果。吾等進一步展示此類良好準確度可由資料之過度擬合引起,且獨立驗證為驗證模型之必須。吾等證實使用微生物相資料區分腺瘤患者與正常個體更難以實現,此可能係由於此等群組之間的許多較弱判別信號、訓練樣本數目不足以及其他實驗變化,諸如批次效應及污染。 然而,在診斷設定中,可藉由用帶有未知標記之樣本再定序一定數目之已知樣本來部分地克服此類侷限性。
總而言之,吾等研發可用於以高準確度預測癌症與非癌症樣本之類別標記之模型,且證實了實際策略以模擬批次效應且預測患有腺瘤之患者。吾等亦證實,由隨機森林模型使用之諸多頂級可辨別OTU經標註為先前在CRC中之相關研究中發現的種或屬。
材料及方法糞便樣本收集及儲存
使用糞便預處理設備(New Horizon Health Technology Co., Ltd. Beijing, China)在中國的兩個地點:The Second Affiliated Hospital,Zhejiang University School of Medicine,Zhejiang及Jiashan Tumour Prevention & Cure Station,Jiaxing收集糞便樣本。當前研究中之患者之納入標準包括(1)年齡在40-75歲之間、(2)可獲得結腸鏡活檢及病理檢查結果,以及(3)未應用任何臨床治療,諸如手術、化學治療。
在結腸鏡檢篩選之前,自空腹個體獲得糞便樣本。對於結腸鏡檢篩選後但未移除結腸息肉之個體,在篩選後至少一週及在去除步驟之前收集樣本。小心避免尿液污染。對於各個體,獲得5g糞便樣本且保存在具有防腐劑緩衝液之試管中,該緩衝液保持細菌存活但不生長。糞便樣本在處理之前允許儲存在室溫下最多七天。為了長期儲存,糞便樣本儲存在-80℃下。所有患者已簽署研究同意書。
樣本分組
儘管疾病以連續方式發展,但根據以下組織病理學準則按以下次序將其分為自正常至嚴重形式之五個縝密群組:正常(NM)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)以及結腸直腸癌(CR),組織病理學準則為:CR定義為結腸直腸癌之所有階段(特異性階段尚未定義);AA定義為高度發育不良之腺瘤或大小≥1cm
之腺瘤或具有≥25%的顯著絨毛狀生長圖案,大小≥1.
0cm
之鋸齒狀的病灶;NA定義為>3個腺瘤,大小<10 mm,非晚期的;PL定義為1或2個腺瘤,大小≤5mm
,非晚期的;正常定義為無贅生性發現。樣本以三個批次收集,其中每批之群組數目給出在表1中。在第1批中,僅獲得CR及NM樣本,且在第二及第三批中,吾等以平衡的數目收集所有五個組。此外,吾等在第三批中獲得具有已知混合物之ZymoBIOMICSTM微生物群落DNA標準作為陽性對照組(圖5)。
表 1.
樣本數目收集在各組三個批次中。樣本以三個批次定序,其中第1批僅具有癌症(CR)及正常(NM)樣本,第2批及第3批由另外三個更大的群組組成:息肉(PL)、非晚期腺瘤(NA)及晚期腺瘤(AA)。此外,吾等在第3批中包括三個陽性對照樣本。
批次 | #CR | #AA | #NA | #PL | #NM | # 陽性對照 |
1 | 57 | - | - | - | 129 | - |
2 | 102 | 96 | 106 | 96 | 100 | - |
3 | 100 | 100 | 100 | 100 | 99 | 3 |
程式庫製備及定序
使用核酸萃取及純化套組(New Horizon Health Technology Co., Ltd., Beijing, China)萃取且純化糞便樣本之總基因體DNA。在1%瓊脂糖凝膠(1%,w/v)上量測DNA濃度及純度且使用無菌水稀釋至1ng/µl
。
使用引子對341F (CCTAYGGGRBGCASCAG,SEQ ID NO. 346)及806R (GGACTACNNGGGTATCTAAT,SEQ ID NO. 347)擴增16S rRNA基因之V3-V4高變區。用15µl
Phusion® High-Fidelity PCR Master Mix (New England Biolabs);0.2µM
正向及反向引子及約10ng模版DNA在30µl
反應物中實施PCR反應。熱循環條件係由以下組成:最初在98℃下變性1 min;隨後在98℃下變性10s循環30次;在50℃下黏合30s;及在72℃下延長30s以及最後在72℃下延長5 min。
PCR產物在瓊脂糖凝膠(2%,w/v)中藉由電泳分離,且選擇具有400-500bp之間的明亮主條帶之樣本以等密度比合併,隨後用GeneJET凝膠萃取套組(Thermo Scientific)純化。遵循製造商之建議,使用TruSeq® DNA PCR-Free樣本製備套組(Illumina)來製備定序庫。經由Qubit® 2.0螢光計(Thermo Scientific)及Agilent Bioanalyzer 2100系統來評估程式庫質量。藉由Novogene Bioinformatics Technology Co., Ltd. (Beijing, China)使用250PE方案在Illumina HiSeq2500上以三個批次定序程式庫。各批次之樣本之數目及類型在表1中給出。每個樣本之目標平均片段數目為50K。
管線
分析管線由公共可用程式及內部程式之組合組成以減少運行時間及記憶體利用率。吾等在桌上型電腦(3 GHz Intel Core i5 CPU,16GB 2400 MHz DDR4 RAM)上進行所有樣本之處理及分析。
簡言之,各輸入樣本由成對FASTQ gz檔案組成。使用FLASH v2.2.00 (https://ccb.jhu.edu/software/FLASH/)以將各讀取對合併為片段,從而允許最小重疊10bp。各所得片段表示V3-V4區之序列。使用usearch程式v10.0.240基於品質篩選片段(12)。通過篩選片段進一步合併以形成獨特序列且獲得其豐度。使用97%相似性臨限值來聚類獨特序列產生操作分類單位(OTU)之最終叢集,同時使用UParse(12)篩選出嵌合序列。對於各OTU,選擇共同序列。鑒於所構建之OTU共同序列,隨後藉由將原始序列與共同序列進行比較來再處理輸入樣本,以生成表示每個樣本的相對OTU豐度之OTU表/矩陣。在OTU表中,各列指示獨特OTU標記且各行對應於樣本。OTU錶針對定序深度之差異而標準化(預設為50,000)。
所得OTU表進一步由SINTAX (11)程式處理以使用作為參考資料庫之SILVA (23)或RDP (7) (預設)中之一者來獲得不同分類等級之標註。對於在群組之間的比較,吾等使用線性判別分析效應大小(LEfSe) (25)工具以鑑別不同分類層級上之可辨別的生物標記物。
分類
由於隨機森林分類器獲取資料中之非線性關係及處理與樣本數目相比更大數目之特徵的能力,其已成功地應用於基因體應用(例如,(3,5)),作為基因組學應用中之典型情形。簡言之,藉由構建決策樹來開始方法,其中各樹由來自訓練集之樣本子集建構。當考慮到分裂內部節點時,僅考慮總特徵中之特徵子集。各給定樣本之分類結果視為由森林中之所有樹進行決策的多數議決。隨機森林藉由在保持低偏差的同時減少差異來顯著提高決策樹之效能。
在當前上下文中,吾等藉由充當特徵之相對OTU豐度之向量來表示各樣本。當特徵之數目與樣本之數目相比可為較大的數量級且特徵與疾病病況之間的關係可為非線性時,隨機森林充當合理的分類模型。為了量測模型準確度,吾等使用約80%資料作為訓練集且在剩餘的測試集上報導預測準確度,而非借助於交叉驗證,此係因為隨機森林模型為集成學習方法。
對於實施,R中之「隨機森林」套裝軟體(v4.6-12)與以下值一起使用:mtry設定為總參數之平方根,樹之數目設定為1000,且吾等允許各樹生長至全尺寸。如結果中可見,袋外資料誤差通常在達至1000棵樹之前穩定。即使在一些情況下,吾等具有超過5,000個特徵,這看起來很大,但模型能夠就其自身而言選擇相關特徵,此係因為諸多OTU可對應於相同種或屬且因此未完全獨立。吾等亦觀測到多數特徵僅存在於小數目樣本中,此很可能係由於如由陽性對照組之分析所指示之批次效應或污染。因此,吾等僅保留滿足以下準則之特徵:各特徵至少出現在相對豐度至少為f
% (預設f
= 0.
05)之p
% (預設p
= 3) 的樣本中。然而,當此類特徵不斷地存在於單個群組中時,可能為真實的可辨別信號。為了避免錯誤地移除此類特徵,首先應用隨機置換以混洗樣本,且吾等應用以上準則且按輸入樣本之比例(例如,一半)來識別此等特徵。在特徵減少之後,特徵之數目變得與訓練樣本之數目類似且運行時間顯著減少。
預測 : 獨立驗證
模型之通用效能需要與用於模型構建之樣本不相關聯之獨立測試集。
為了預測新樣本之類別標記,存在兩種可行解決方案。可使用管線將新樣本與已知標記之樣本一起再處理,使得新樣本將具有與用於建構分類器之樣本相同的OTU標記之集合。隨後需要使用相同的已知樣本集合來重建隨機森林模型,且可隨後對新樣本進行預測。然而,此方法之主要不足之處為由OTU表構建步驟控制的運行時間。吾人可注意,隨機森林模型可依據所包括之樣本而略微變化,然而,只要訓練集足夠多樣化以擷取群組差異,效能將不會受影響。可替代地,吾等可直接使用用於預測之訓練集來應用隨機森林模型建構。為了新樣本具有一致OTU標記,吾等將新樣本與用於分類器之OTU表生產之共同序列進行比較,且在現有OTU標記不存在於新樣本中時,其設定為空的。
如同任何機器學習方法之一般情況一樣,預測準確度取決於建構模型之差異及偏差。在當前應用中,前者取決於OTU相對豐度是否可充當不同群組之可辨別信號,且後者取決於樣本大小及其他技術變量(諸如分析再生性),其為微生物群研究領域中之已知問題,其中在由不同的設備、不同的計算管線以及其他技術性難題(諸如批次效應及污染)處理時,相同樣本集之結果可不同。在一些情況下,偏差實際上難以克服,且當技術性變化(為簡單起見稱為批次效應)為強烈的,尤其用於多組分類時,用於預測之兩個前述策略難以一般化為獨立樣本。此等批次效應可能幾乎不可由計算方法(16)來校正。在彼等情況中,可使用添加策略以引入具有已知標記之樣本,該等樣本與新樣本再定序且根據模型獲取批次效應所需之樣本數目來鑑別模型效能。
結果 定序及元資料
儘管目標定序深度為50K,但吾等已獲得每個樣本平均80K片段(圖1)。在合併及品質篩選之後的片段之數目及百分比展示於圖1中。吾等獲得用於下游分析之平均超過60K有效片段。
由於年齡及性別為可影響微生物相組成且使分類結果失真之因素,吾等在圖2中概括所有三個批次之此等兩個因素。不同組之平均年齡集中在約60歲,且總體而言,吾等取樣之男性多於女性。對於第3批,吾等明確地控制年齡及性別之匹配,因此,與第1批及第2批相比,此等兩個因素較好地平衡。鑒於所觀測到之分佈,吾等不會期望其干擾分類結果。
由陽性對照樣本揭示之批次效應
吾等藉由比較陽性對照樣本之定序結果來量測批次效應。主要地,吾等量測標註屬/種之相對豐度、與實況重疊之屬/種之數目以及污染率的皮爾森相關性。詳細結果概述於以下中。總而言之,與在種層級下量測時相比,在屬層級下之所有度量值較好。在屬層級下,吾等觀測到皮爾森相關性在0.64至0.95範圍內(圖6A及圖6B)。與理論值8相比,所觀測到之屬之數目介於22-35範圍內(圖7A及圖7B)。觀測到三個層級之污染率:0.1%、9.1%及樣本中之一者中之非常高水準29.3%,此係由於主要污染物為擬桿菌屬(圖8)。儘管附注方法及所使用之資料庫之限制亦可為促成因素,但此等度量值與真實值之偏差似乎主要由於樣本中之污染。應注意,污染量測不會證明運行範圍內之污染現象,但的確在實踐中反映此事件之盛行率及嚴重性。
分類 : 癌症 (CR) 及正常 (NM)
由於吾等具有相對大量的正常及癌症樣本,吾等可量測給定不同數目之訓練樣本之分類準確度。此為吾等在區分兩組時可具有充分樣本數目以獲取可辨別信號時提供指導。吾等自三個定序批次彙集所有CR (259)及NM (328)樣本,且獲得使用80%、60%、40%及20%隨機所選擇之比例作為訓練資料及剩餘部分作為測試資料之結果。在訓練及測試資料內,正常及癌症樣本之比率與整體分佈一致。敏感度、特異性及準確度報導於表2中,其中敏感度
為正確鑑別之癌症患者之比例,特異性
為正確鑑別之正常患者之比例,且準確度
為正確預測的樣本之比例。
表 2.
對具有用作訓練集之不同數目之樣本的CR及NM組之測試集的分類結果。
訓練 | 測試 | |||||
# CR | #NM | # CR | #NM | 敏感度 | 特異性 | 準確度 |
207 | 271 | 52 | 57 | 0.981 | 1.000 | 0.991 |
160 | 201 | 99 | 127 | 0.990 | 0.992 | 0.991 |
99 | 127 | 160 | 201 | 0.981 | 1.000 | 0.992 |
52 | 57 | 207 | 271 | 0.986 | 0.993 | 0.990 |
即使當CR及NM之訓練樣本之數目減小至約50s時,吾等觀測到測試集中所有度量值之類似效能。此觀測結果指示良好的可辨別信號已經由癌症與正常組之間的OTU擷取。細節可於下文發現。
三個批次之
CR/JK
微生物群樣本之分類
背景
吾等對自三個批次之定序資料所彙集之CR(癌症)及JK(正常)樣本進行分類。首先,吾等使用各種類的80%來建立CR及JK之分類器,隨後對剩餘的20%進行測試。應用特徵選擇。
使用經標準化 OTU 表之隨機森林分類
1.將輸入tsv檔案轉換為適當格式且指定類別標記。
## [1] "路徑:2018-03-23_cr_jk_c_b1_b2/otutab_norm.txt"
##
##
## | 樣本大小|OTU數目|
## |:-----------:|:--------:|
## | 587 | 5260 |
##
## 表:樣本及OTU之總數
2.特徵選擇
吾等選擇滿足相對豐度>0.05%之至少3%的樣本中出現的OTU。在每個樣本之經標準化計數為50,000之條件下,後者為> 25的計數。
##
##
## |樣本大小|OTU數目|
## |:-----------:|:--------:|
## | 587 | 374 |
##
## 表:在特徵選擇之後,樣本及OTU之總數
3.製備訓練及測試資料
##
##
## |樣本標記 | 樣本數目|
## |:-------------:|:-----------:|
## |訓練資料| 478 |
## | 測試資料 | 109 |
##
## 表:CR-JK訓練及測試樣本之數目
4.模型及訓練結果之資訊
##
## 訪問:
##隨機森林(式=類型~ .,資料=訓練資料,重要性=TRUE,樹之數目=1000)
## 隨機森林之類型:分類
## 樹之數目:1000
## 在各分枝下嘗試之變量數目:19
##
## OOB評估之錯誤率:0.84%
## 混淆矩陣:
## CR JK類別.誤差
## CR 204 3 0.014492754
## JK 1 270 0.003690037
##
##
## | CR | JK |平均降低準確度 | 平均降低基尼 | Otu名稱 |
## |:-----:|:-----:|:--------------------:|:----------------:|:-------:|
## | 14.8 | 18.07 | 19.11 | 15.72 | Otu169 |
## | 14.65 | 16.76 | 17.61 | 18.74 | Otu101 |
## | 12.95 | 15.68 | 17.2 | 13.09 | Otu172 |
## | 12.39 | 14.22 | 15.57 | 11.17 | Otu147 |
## | 11.5 | 14.29 | 15.49 | 13.16 | Otu185 |
## | 12.26 | 12.66 | 14.65 | 8.406 | Otu121 |
## | 10.92 | 12.86 | 14.64 | 9.293 | Otu168 |
## | 10.32 | 13.37 | 13.64 | 8.828 | Otu142 |
## | 7.594 | 11.44 | 12.11 | 5.452 | Otu269 |
## | 9.924 | 6.921 | 10.43 | 4.488 | Otu309 |
##
##表:平均降低準確度之前10個最重要變量
(亦參見圖9及圖10)
5.對剩餘20%測試CR JK資料進行預測
##
##
## | | CR | JK |
## |:------:|:--:|:--:|
## | **CR** | 51 | 0 |
## | **JK** | 1 | 57 |
##
## 表:對測試CR、JK樣本進行預測
##
##
## | 度量指標 | 值 |
## |:-----------:|:-----:|
## | 準確度 | 0.991 |
## | 敏感度 | 0.981 |
## | 特異性 | 1.000 |
##
## 表:準確度
6.量測訓練樣本大小對分類結果之影響:
出於相對於所使用之樣本數目來量測準確度之目的,吾等使用80%、60%、40%及20%原始輸入樣本,且隨後量測效能。
##對訓練集減少取樣至分數: 0.6
##
## | 樣本大小 | OTU數目 |
## |:-----------:|:--------:|
## | 587 | 374 |
##
## 表:樣本及OUT之總數
##
##
##
## | | 訓練數目 | 測試數目 |
## |:------------:|:------:|:-----:|
## | **cr.FALSE** | 160 | 99 |
## | **jk.TRUE** | 201 | 127 |
##
## 表:訓練數目及樣本之測試數目
##
##
##
## | 樣本標記| 樣本數目 |
## |:-------------:|:-----------:|
## | 訓練資料 | 361 |
## | 測試資料 | 226 |
##
## 表:CR-JK訓練及測試樣本之數目
##
##
##
## | CR | JK | 平均降低準確度 | 平均降低基尼 | Otu名稱 |
## |:-----:|:-----:|:--------------------:|:----------------:|:-------:|
## | 14.13 | 17.26 | 18.09 | 13.94 | Otu101 |
## | 13.77 | 17 | 17.67 | 13.53 | Otu169 |
## | 10.6 | 14.86 | 15.64 | 11.29 | Otu172 |
## | 11.89 | 13.4 | 15.04 | 7.694 | Otu147 |
## | 10.78 | 12.05 | 13.76 | 7.281 | Otu185 |
## | 11.3 | 11.4 | 13.02 | 6.595 | Otu121 |
## | 8.432 | 12.64 | 12.72 | 6.704 | Otu142 |
## | 9.79 | 10.73 | 11.9 | 7.317 | Otu168 |
## | 7.176 | 10.57 | 11.18 | 4.067 | Otu269 |
## | 8.04 | 9.096 | 10.34 | 3.59 | Otu848 |
##
## 表:平均降低準確度之前10個最重要變量
##
##
##
## | | CR | JK |
## |:------:|:--:|:---:|
## | **CR** | 98 | 1 |
## | **JK** | 1 | 126 |
##
## 表:對測試CR、JK樣本進行預測
##
##
##
## | 度量指標 | 值 |
## |:-----------:|:-----:|
## | 準確度 | 0.991 |
## | 敏感度 | 0.990 |
## | 特異性 | 0.992 |
##
## 表:準確度
##
##對訓練集減少取樣至分數:0.4
##
## | 樣本大小 | OTU數目 |
## |:-----------:|:--------:|
## | 587 | 374 |
##
## 表:樣本及OTU之總數
##
##
##
## | | 訓練數目 | 測試數目|
## |:------------:|:------:|:-----:|
## | **cr.FALSE** | 99 | 160 |
## | **jk.TRUE** | 127 | 201 |
##
## 表:訓練數目及樣本之測試數目
##
##
##
## | 樣本大小 | 樣本數目 |
## |:-------------:|:-----------:|
## | 訓練資料| 226 |
## | 測試資料 | 361 |
##
## 表:CR-JK訓練及測試樣本之數目
##
##
##
## | CR | JK | 平均降低準確度 | 平均降低基尼 | Otu名稱 |
## |:-----:|:-----:|:--------------------:|:----------------:|:-------:|
## | 11.99 | 13.75 | 14.44 | 7.69 | Otu101 |
## | 10.79 | 13.05 | 13.54 | 5.687 | Otu172 |
## | 10.54 | 12.95 | 13.31 | 5.934 | Otu169 |
## | 9.98 | 11.41 | 12.9 | 4.598 | Otu168 |
## | 8.909 | 11.33 | 12.08 | 4.178 | Otu185 |
## | 9.39 | 10.99 | 11.94 | 3.899 | Otu121 |
## | 8.232 | 11.49 | 11.56 | 4.031 | Otu142 |
## | 10.73 | 10.27 | 11.51 | 4.626 | Otu147 |
## | 8.56 | 6.709 | 9.224 | 2.004 | Otu309 |
## | 6.566 | 7.512 | 8.611 | 1.992 | Otu10 |
##
## 表:平均降低準確度之前10個最重要變量
##
##
##
## | | CR | JK |
## |:------:|:---:|:---:|
## | **CR** | 157 | 0 |
## | **JK** | 3 | 201 |
##
## 表:對測試CR、JK樣本進行預測
##
##
##
## | 度量標準 | 值 |
## |:-----------:|:-----:|
## | 準確度 | 0.992 |
## | 敏感度 | 0.981 |
## | 特異性 | 1.000 |
##
## 表:準確度
##
##對訓練集減少取樣至分數: 0.2
##
## | 樣本大小 | OTU數目 |
## |:-----------:|:--------:|
## | 587 | 374 |
##
## 表:樣本及OTU之總數
##
##
##
## | | 訓練數目| 測試數目|
## |:------------:|:------:|:-----:|
## | **cr.FALSE** | 52 | 207 |
## | **jk.TRUE** | 57 | 271 |
##
## 表:訓練數目及樣本之測試數目
##
##
##
## | 樣本標記| 樣本數目|
## |:-------------:|:-----------:|
## | 訓練資料 | 109 |
## | 測試資料 | 478 |
##
## 表:CR-JK訓練及測試樣本之數目
##
##
##
## | CR | JK | 平均降低準確度 | 平均降低基尼 | Otu名稱 |
## |:-----:|:-----:|:--------------------:|:----------------:|:-------:|
## | 9.483 | 11.55 | 11.79 | 3.107 | Otu169 |
## | 8.626 | 10.52 | 10.62 | 2.916 | Otu101 |
## | 7.899 | 9.749 | 10.04 | 2.255 | Otu172 |
## | 7.981 | 9.202 | 9.839 | 2.057 | Otu168 |
## | 7.313 | 9.554 | 9.755 | 2.25 | Otu185 |
## | 8.626 | 8.475 | 9.192 | 2.261 | Otu147 |
## | 6.588 | 8.642 | 8.809 | 1.642 | Otu121 |
## | 6.953 | 7.696 | 8.642 | 1.614 | Otu47 |
## | 4.057 | 7.326 | 7.357 | 0.8975 | Otu142 |
## | 5.312 | 6.891 | 7.279 | 1.118 | Otu10 |
##
## 表:平均降低準確度之前10個最重要變量
##
##
##
## | | CR | JK |
## |:------:|:---:|:---:|
## | **CR** | 204 | 2 |
## | **JK** | 3 | 269 |
##
## 表:對測試CR、JK樣本進行預測
##
##
##
## | 度量標準 | 值 |
## |:-----------:|:-----:|
## | 準確度 | 0.990 |
## | 敏感度 | 0.986 |
## | 特異性 | 0.993 |
##
## 表:準確度
預測 : CR 及 NM
第2批及第3批樣本在單獨的時間點獨立地定序,充當獨立測試集。吾等使用完整的第2批或第3批樣本中之一者來建構分類器,且使用分類器以預測另一批次上之類別標記。此移除潛在的批次效應及其他技術雜訊,諸如可能會干擾模型效能之污染。如表3中所展示,自第2批或第3批建構之分類器之效能為類似的。如所預期,在與使用彙集資料相比時,敏感度、特異性及準確度皆減小2-3% (表2)。當樣本彙集在一起時,效能很可能略微較好,此係由於批次效應由模型擷取。然而,真實生物信號與批次效應相比更強,使得達成預測任務之良好結果。預測之細節可於下文發現。表 3.
具有來自獨立定序批次之訓練及測試資料之CR及NM的分類結果。
訓練 | 測試 | |||
# CR | # CR | 敏感度 | 特異性 | 準確度 |
第2批 | 第3批 0.9600 | 0.9600 | 0.9596 | 0.9600 |
第3批 | 第2批 0.9600 | 0.9608 | 0.9600 | 0.9604 |
使用 CR/JK 、五個組、三個組、 CR/NC 及 AD/NM 分類器之預測
1.對Flemer2017樣本之預測
## 混淆矩陣及統計資料
##
## 參考
## 預測CR JK
## CR 6 0
## JK 37 37
##
## 準確度: 0.5375
## 95% CI : (0.4224, 0.6497)
## 無資訊率:0.5375
## P-值[Acc > NIR] : 0.5457
##
## κ:0.1304
## Mcnemar之測試P-值: 3.252e-09
##
## 敏感度:0.1395
## 特異性: 1.0000
## 正預測值: 1.0000
## 負預測值: 0.5000
## 盛行率: 0.5375
## 偵測速率: 0.0750
## 偵測速率: 0.0750
## 平衡準確度:0.5698
##
## 「正」類別:CR
##
2.使用由b1建構之分類器對b2樣本進行CR/JK預測。
## 混淆矩陣及統計資料
##
## 參考
## 預測CR JK
## CR 96 4
## JK 4 95
##
## 準確度0.9598
## 95% CI : (0.9223, 0.9825)
## 無資訊率:0.5025
## P-值 [Acc > NIR] : <2e-16
##
## κ:0.9196
## Mcnemar之測試P-值: 1
##
## 敏感度: 0.9600
## 特異性: 0.9596
## 正預測值:0.9600
## 負預測值:0.9596
## 盛行率:0.5025
## 偵測速率: 0.4824
## 偵測盛行率:0.5025
## 平衡準確度: 0.9598
##
## 「正」類別:CR
##
3.使用由b2建構之分類器對b1樣本進行CR/JK預測。
## 混淆矩陣及統計資料
##
## 參考
## 預測CR JK
## CR 98 4
## JK 4 96
##
## 準確度:0.9604
## 95% CI : (0.9235, 0.9827)
## 無資訊率: 0.505
## P-值 [Acc > NIR] : <2e-16
##
## κ: 0.9208
## Mcnemar之測試P-值: 1
##
## 敏感度:0.9608
## 特異性: 0.9600
## 正預測值: 0.9608
## 負預測值: 0.9600
## 盛行率: 0.5050
## 偵測速率: 0.4851
## 偵測盛行率: 0.5050
## 平衡準確度: 0.9604
##
## 「正」類別:CR
##
4.使用由b1樣本建構之三組分類器對b2樣本進行CR/JK預測。
## 混淆矩陣及統計資料
##
## 參考
## 預測 CR S1_XR_JK S2_JZ_FJ
## CR 90 3 7
## S1_XR_JK 1 31 14
## S2_JZ_FJ 9 165 179
##
## 整體統計資料
##
## 準確度:0.6012
## 95% CI : (0.5567, 0.6445)
## 無資訊率: 0.4008
## P-值 [Acc > NIR] : < 2.2e-16
##
## κ:0.3764
## Mcnemar之測試P-值: < 2.2e-16
##
## 類別之統計資料:
##
## 類別: CR類別: S1_XR_JK 類別: S2_JZ_FJ
## 敏感度 0.9000 0.15578 0.8950
## 特異性 0.9749 0.95000 0.4181
## 正預測值 0.9000 0.67391 0.5071
##負預測值 0.9749 0.62914 0.8562
## 盛行率 0.2004 0.39880 0.4008
## 偵測速率 0.1804 0.06212 0.3587
##偵測盛行率 0.2004 0.09218 0.7074
## 平衡準確度 0.9375 0.55289 0.6565
5.使用由所彙集之b1及B2樣本之一半建構的三組分類器對另一半進行預測。
## 混淆矩陣及統計資料
##
## 參考
## 預測 CR S1_XR_JK S2_JZ_FJ
## CR 73 2 3
## S1_XR_JK 3 130 63
## S2_JZ_FJ 26 64 133
##
## 整體統計資料
##
## 準確度: 0.6761
## 95% CI : (0.633, 0.7171)
## 無資訊率:0.4004
## P-值 [Acc > NIR] : < 2.2e-16
##
## κ:0.4879
## Mcnemar之測試P-值:0.0003553
##
## 類別之統計資料:
##
## 類別:CR類別: S1_XR_JK類別: S2_JZ_FJ
## 敏感度 0.7157 0.6633 0.6683
## 特異性 0.9873 0.7807 0.6980
## 正預測值 0.9359 0.6633 0.5964
##負預測值 0.9308 0.7807 0.7591
## 盛行率 0.2052 0.3944 0.4004
## 偵測速率 0.1469 0.2616 0.2676
##偵測盛行率 0.1569 0.3944 0.4487
## 平衡準確度 0.8515 0.7220 0.6832
6.使用由b1建構之分類器對b2樣本進行CR/NC預測。
## 混淆矩陣及統計資料
##
## 參考
## 預測 CR NC
## CR 91 7
## NC 9 193
##
## 準確度: 0.9467
## 95% CI : (0.9148, 0.9692)
## 無資訊率:0.6667
## P-值 [Acc > NIR] : <2e-16
##
## κ: 0.8794
## Mcnemar之測試P-值: 0.8026
##
## 敏感度: 0.9100
## 特異性: 0.9650
## 正預測值:0.9286
## 負預測值:0.9554
## 盛行率:0.3333
## 偵測速率:0.3033
## 偵測盛行率0.3267
## 平衡準確度:0.9375
##
## 「正」類別:CR
##
7.使用由b1建構之分類器對b2樣本進行CR/NM預測。
## 混淆矩陣及統計資料
##
## 參考
## 預測 AD NM
## AD 183 165
## NM 17 34
##
## 準確度:0.5439
## 95% CI : (0.4936, 0.5935)
## 無資訊率:0.5013
## P-值 [Acc > NIR] : 0.04919
##
## κ:0.086
## Mcnemar之測試P-值: < 2e-16
##
## 敏感度: 0.9150
## 特異性:0.1709
## 正預測值:0.5259
## 負預測值:0.6667
## 盛行率:0.5013
## 偵測速率:0.4586
## 偵測盛行率:0.8722
## 平衡準確度:0.5429
##
## 「正」類別:AD
##
干擾因素
干擾因素可能使分類結果產生偏差或甚至無效。在微生物群研究中,年齡及性別為兩種主要干擾因素(1)。儘管吾等在第3批中特別控制且平衡此等兩個因素(圖2),但整體分佈在合併之資料集中仍然失真。因此,吾等使用所有資料單獨使用此等兩個因素來實施癌症及正常分類,且圖3中之結果展示37%之較大袋外資料誤差率,其再次確保吾等模型之良好效能未受年齡或性別干擾。
CR 與 NM 之間的 大多數可辨別 OTU 之標註
吾等分析由隨機森林分類器模型中之平均降低準確度值之遞減次序排列之OTU的分類標註。此度量值指示特徵在判定模型準確度中之重要性。因此,其充當合理的量度以判斷OTU之相對顯著性。僅考慮任意選擇之截斷值為1%的OTU。因此,三種不同模型(亦即使用80%所彙集之第2批及第3批樣本進行訓練)中之OTU數目分別為295、270及276。三者中共享172個OTU。隨後根據RDP資料庫標註此等OTU,且結果可見於序列表中。
出於說明之目的,吾等僅將具有平均降低準確度之最高平均值的前十個OTU包括於表4中。在該表中,第一行指示OTU ID,第二行指示RDP標註,且第三行指示如下文所描述之文獻索引。
表 4.
在使用80%所彙集之第2批及第3批樣本訓練之三個模型中共享前十個最可辨別OTU之標註。OTU按平均降低準確度之遞減平均值排序。o、f、g、s代表目、科、屬及物種。若經指定,則最後一行指明依據Amitay等人(1)表3在評論文章中所列舉之相對應之Otu的最低分類等級。Otu 標註 文獻
Otu101 d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:普雷沃菌科,g:普雷沃菌屬,s:中間普雷沃菌 - |
Otu169 d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:卟啉單胞菌科,g:卟啉單胞菌屬 g |
Otu172d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:消化鏈球菌屬,s:口消化鏈球菌 s |
Otu121 d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:擬桿菌科,g:擬桿菌屬,s:諾迪擬桿菌 g |
Otu185 d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌屬未定地位XI,g:微單胞菌屬,s:微米微單胞菌屬 s |
Otu168 d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,G:小桿菌屬,s:害肺小桿菌 f |
Otu147 d:細菌,p:梭桿菌門,c:梭桿菌綱,o:梭桿菌目,f:梭桿菌科,g:梭桿菌屬 g |
Otu47 d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:羅布斯塔菌屬(Romboutsia),s:沈澱性羅布斯塔菌(Romboutsia sedimentorum) f |
Otu142 d:細菌,p:擬桿菌門,c:擬桿菌綱,o:擬桿菌目,f:卟啉單胞菌科,g:卟啉單胞菌屬,s:牙髓卟啉單胞菌 g |
Otu10 d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科 o |
額外OTU提供於下表4.1中。
表4.1 Otu 名稱 & 標註 & 平均降低準確度 & 平均降低基尼
Otu101 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:中間普雷沃菌& 13.7943412899552 & 9.83248647017192
Otu169 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:卟啉單胞菌屬& 13.7600435495905 & 8.12128975132281
Otu172 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:消化鏈球菌屬,s:口消化鏈球菌& 13.6778234428472 & 7.36773046283307
Otu121 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:諾迪擬桿菌& 12.602462030566 & 5.40850402965016
Otu185 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌目未定地位_XI,g:微單胞菌屬,s:微米微單胞菌屬& 11.761749579234 & 6.96865363352588
Otu168 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,g:小桿菌屬,s:害肺小桿菌& 11.2576402472093 & 4.90345046638003
Otu147 &d:細菌,p:「梭桿菌門」,c:梭桿菌綱,o:「梭桿菌目」,f:「梭桿菌科」,g:梭桿菌屬& 10.9798502944643 & 5.53237578286622
Otu47 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:羅布斯塔菌屬,s:沈澱性羅布斯塔菌& 10.1753917813117 & 3.81119243257835
Otu142 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:卟啉單胞菌屬,s:牙髓卟啉單胞菌& 10.1416113538782 & 4.65257117837514
Otu10 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 9.69010898213964 & 3.46458888547762
Otu269 &d:細菌,p:厚壁菌門,c:芽孢桿菌綱(Bacilli),o:芽孢桿菌目(Bacillales),f:芽孢桿菌目未定地位_XI,g:孿生球菌屬(Gemella)& 8.47014884120977 & 2.43732800289972
Otu72 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌科_1,g:狹義梭菌屬(Clostridium_sensu_stricto)& 7.89194137307301 & 2.50748599176825
Otu848 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:瘤胃球菌屬2(Ruminococcus2),s:扭鏈瘤胃球菌(Ruminococcus_torques)& 7.80390019103822 & 2.46576850165491
Otu141 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:毛螺菌科未定地位,s:霍氏真桿菌(Eubacterium_hallii)& 7.73321972215815 & 2.51220647076684
Otu309 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:丁酸球菌屬(Butyricicoccus),s:普利堪克姆丁酸球菌(Butyricicoccus_pullicaecorum)& 7.6800820554995 & 2.24980167781013
Otu85 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:臭氣桿菌屬(Odoribacter),s:內臟臭氣桿菌(Odoribacter_splanchnicus)& 7.35446389470393 & 1.3979364158731
Otu111 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:副擬桿菌屬(Parabacteroides),s:戈德斯坦副擬桿菌(Parabacteroides_goldsteinii)& 7.30192582164287 & 1.67450745344268
Otu84 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVb& 7.27172325900029 & 1.80487391969814
Otu59 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 6.44853680333582 & 1.32138594220709
Otu52 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 6.4160996927843 & 1.16261064298115
Otu423 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:副擬桿菌屬& 6.25151810459073 & 1.33645322210194
Otu173 &d:細菌,p:「梭桿菌門」,c:梭桿菌綱,o:「梭桿菌目」,f:「梭桿菌科」,g:梭桿菌屬,s:馬梭桿菌(Fusobacterium_equinum)& 6.24608499354993 & 0.891834073083887
Otu26 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:布勞特氏菌(Blautia),s:韋克斯勒布勞特氏菌(Blautia_wexlerae)& 6.12695291174358 & 1.10524243371151
Otu271 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:卟啉單胞菌屬,s:梭形卟啉單胞菌(Porphyromonas_somerae)& 5.96932923671922 & 0.809478873317209
Otu20 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:脆弱擬桿菌(Bacteroides_fragilis)& 5.9646209916872 & 1.31438877628573
Otu33 &d:細菌,p:「疣微菌門(Verrucomicrobia)」,c:疣微菌綱,o:疣微菌目,f:疣微菌科,g:阿克曼氏菌屬(Akkermansia),s:嗜黏蛋白阿克曼氏菌(Akkermansia_muciniphila)& 5.8989902784533 & 1.1344669200008
Otu81 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 5.82374608835491 & 1.54889847520407
Otu2745 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:糞普雷沃菌(Prevotella_stercorea)& 5.66871908025159 & 1.28437240850829
Otu4384 & d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:胺基酸球菌科(Acidaminococcaceae),g:考拉桿菌屬(Phascolarctobacterium),s:糞考拉桿菌(Phascolarctobacterium_faecium)& 5.52043749491481 & 0.420271701946243
Otu148 & d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:腸桿狀菌屬(Intestinibacter),s:巴特利特氏腸桿狀菌(Intestinibacter_bartlettii)& 5.41945049407486 & 0.842883283253836
Otu1777 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:人體普雷沃菌(Prevotella_copri)& 5.33503317698889 & 0.648348328905093
Otu4342 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:消化鏈球菌科,g:泰瑞孢子菌屬(Terrisporobacter),s:甘油利用泰瑞孢子菌(Terrisporobacter_glycolicus)& 5.33274424863514 & 0.710046587499439
Otu76 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:胺基酸球菌科,g:考拉桿菌屬,s:嗜琥珀酸考拉桿菌(Phascolarctobacterium_succinatutens)& 5.32415139654529 & 1.07287902798243
Otu155 &d:細菌,p:「互養菌門」,c:互養菌綱,o:互養菌目,f:互養菌科,g:錐形桿菌屬(Pyramidobacter),s:魚腥味錐形桿菌(Pyramidobacter_piscolens)& 5.30041145292807 & 0.532092720378172
Otu106 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:薩利爾斯氏擬桿菌(Bacteroides_salyersiae)& 5.27691156894213 & 0.704064927855818
Otu82 &d:細菌,p:「變形菌門(Proteobacteria)」,c:β變形菌綱(Betaproteobacteria),o:伯克霍爾德氏菌目(Burkholderiales),f:薩特菌科(Sutterellaceae),g:薩特菌屬& 5.2437877972519 & 0.916433764419022
Otu35 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「理研菌科(Rikenellaceae)」,g:另枝菌屬(Alistipes),s:德東克另枝菌(Alistipes_onderdonkii)& 5.18360405074251 & 0.76182460502378
Otu3312 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌科_1,g:狹義梭菌屬& 5.12448018510061 & 1.2995460402096
Otu253 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:瘤胃球菌屬,s:黃化瘤胃球菌(Ruminococcus_flavefaciens)& 5.01593910842362 & 0.950489489552967
Otu351 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:丁酸弧菌屬(Butyricimonas),s:人臉丁酸弧菌(Butyricimonas_faecihominis)& 4.94622364446024 & 0.772092262070063
Otu98 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「理研菌科」,g:另枝菌屬,s:薩希另枝菌(Alistipes_shahii)& 4.9265290619132 & 0.484605626680004
Otu77 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬& 4.86175121992317 & 1.20142046245559
Otu317 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:丁酸弧菌屬,s:副丁酸弧菌(Butyricimonas_paravirosa)& 4.78124294124035 & 1.08675849249154
Otu153 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 4.77621244980273 & 0.505182479173224
Otu83 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:糞球菌屬(Coprococcus),s:一致糞球菌(Coprococcus_eutactus)& 4.62649902286053 & 0.579988780285664
Otu60 &d:細菌,p:「變形菌門」,c:變形菌綱(Deltaproteobacteria),o:脫硫弧菌目(Desulfovibrionales),f:脫硫弧菌科(Desulfovibrionaceae),g:嗜膽菌屬(Bilophila),s:沃氏嗜膽菌(Bilophila_wadsworthia)& 4.58228432357164 & 0.482910634332228
Otu287 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:顫桿菌克屬(Oscillibacter)& 4.3480408468567 & 0.627989174153698
Otu78 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 4.25273477261076 & 0.345090535435327
Otu2074 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 4.19168565814693 & 0.833783613563489
Otu118 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:布勞特氏菌屬(Blautia)& 4.10119372513613 & 0.393811168404519
Otu23 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 4.1001842535131 & 0.422732522859675
Otu18 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「理研菌科」,g:另枝菌屬& 4.05704708781915 & 0.467682866630194
Otu264 &d:細菌,p:「放線菌門(Actinobacteria)」,c:放線菌綱,o:放線菌目,f:諾卡氏菌科(Nocardiaceae),g:諾卡氏菌屬,s:空腔諾卡氏菌(Nocardia_coeliaca)& 4.04731217339991 & 0.828711662376662
Otu218 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:糞普雷沃菌& 4.02023860335542 & 0.604243441207422
Otu97 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVa & 3.90813842505155 & 0.387375128776727
Otu191 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:厭氧桿菌屬(Anaerotruncus),s:人類大腸厭氧桿菌(Anaerotruncus_colihominis)& 3.89915867132865 & 0.570306115817279
Otu175 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 3.89077367715736 & 0.38844488215353
Otu265 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:瘤胃球菌屬& 3.88089562006944 & 0.344105771852526
Otu727 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 3.8758534592987 & 0.484685400173847
Otu266 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」& 3.86783248378869 & 0.19799633775168
Otu723 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 3.85242756965532 & 0.282801172808673
Otu7 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:單形擬桿菌(Bacteroides_uniformis)& 3.8065043922493 & 0.329438846721559
Otu21 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:毛螺菌科未定地位,s:挑剔真桿菌(Eubacterium_eligens)& 3.80126351761255 & 0.444516015697381
Otu22 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,g:巨單胞菌屬(Megamonas),s:單形巨單胞菌(Megamonas_funiformis)& 3.71766759392569 & 0.195933894693333
Otu224 &d:細菌,p:厚壁菌門,c:芽孢桿菌綱,o:乳桿菌目,f:鏈球菌科,g:鏈球菌屬& 3.71020513681508 & 0.25581950882642
Otu2109 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 3.70216652149231 & 0.365839982738123
Otu2060 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 3.69633802060259 & 0.395815871333106
Otu90 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 3.65702177036977 & 0.299636570294157
Otu348 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:丁酸弧菌屬& 3.65525080958422 & 0.222183262159006
Otu3254 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「理研菌科」,g:另枝菌屬,s:芬戈爾德氏另枝菌(Alistipes_finegoldii)& 3.64447212313583 & 0.338448240628326
Otu316 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:木糖降解擬桿菌(Bacteroides_xylanisolvens)& 3.64238523653699 & 0.53266003775059
Otu1264 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 3.58565897976223 & 0.460049748834728
Otu164 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 3.51368756410499 & 0.514723500523881
Otu15 & d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:多形擬桿菌(Bacteroides_thetaiotaomicron)& 3.44288627468682 & 0.52939450434855
Otu1168 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 3.38497643190079 & 0.215602689462476
Otu105 &d:細菌,p:「放線菌門」,c:放線菌綱,o:雙歧桿菌目(Bifidobacteriales),f:雙歧桿菌科,g:雙岐桿菌屬& 3.37211346365296 & 0.327187921839971
Otu248 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 3.32214409123697 & 0.425238478381044
Otu410 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 3.30288192561728 & 0.125663216048697
Otu177 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬& 3.27044511626177 & 0.223118179430504
Otu274 &d:細菌& 3.16780822565938 & 0.0803245187481717
Otu704 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 3.15847365410314 & 0.1451100410588
Otu36 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:糞擬桿菌& 3.15801571908562 & 0.185221033755153
Otu160 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,g:韋榮氏球菌屬,s:大型韋榮氏球菌(Veillonella_magna)& 3.12333106757157 & 0.084711377604504
Otu336 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬& 3.09684587237006 & 0.112261991219131
Otu235 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」& 3.09438367534219 & 0.232199026269785
Otu2231 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:厭氧桿菌屬,s:人類大腸厭氧桿菌& 3.04296587460515 & 0.158223508241415
Otu107 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:丁酸弧菌屬,s:龐大真桿菌(Eubacterium_hadrum)& 2.98593610168943 & 0.232812008400764
Otu96 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:毛螺菌科未定地位& 2.98225575498437 & 0.105427685386433
Otu79 &d:細菌,p:厚壁菌門& 2.98120624114534 & 0.106896245872236
Otu93 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」& 2.9479410810479 & 0.2765692890981
Otu89 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:真桿菌科,g:真桿菌屬,s:產糞甾醇真桿菌(Eubacterium_coprostanoligenes)& 2.93433072901629 & 0.254358672819042
Otu16 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 2.92181685324236 & 0.148790353205781
Otu3 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:人體普雷沃菌& 2.90120890308239 & 0.278575486425403
Otu174 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:瘤胃球菌屬,s:香檳氏瘤胃球菌(Ruminococcus_champanellensis)& 2.86991039022236 & 0.161845949318228
Otu34 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 2.86277209414093 & 0.136104587463048
Otu450 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:丁酸弧菌屬& 2.84990574675875 & 0.104419029056058
Otu4397 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:普通擬桿菌(Bacteroides_plebeius)& 2.83725087022718 & 0.182106886898651
Otu122 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌科_1,g:狹義梭菌屬& 2.82856887827566 & 0.108670043639969
Otu967 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬& 2.80817869556781 & 0.173643923405744
Otu1944 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:梭菌科_1,g:狹義梭菌屬,s:類腐敗梭菌(Clostridium_paraputrificum)& 2.71023404713693 & 0.100466624560385
Otu1941 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.69838743711004 & 0.142278127176266
Otu39 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:糞普雷沃菌& 2.63842518186387 & 0.141027507352634
Otu135 &d:細菌,p:「梭桿菌門」,c:梭桿菌綱,o:「梭桿菌目」,f:「梭桿菌科」,g:鯨桿菌屬(Cetobacterium),s:梭形鯨桿菌(Cetobacterium_somerae)& 2.61968268548529 & 0.0831505189137432
Otu2059 &d:細菌,p:厚壁菌門,c:芽孢桿菌綱,o:乳桿菌目,f:鏈球菌科,g:鏈球菌屬& 2.61413664120766 & 0.175922168709985
Otu2666 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 2.58883232060338 & 0.112654703184687
Otu6 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.58310675012197 & 0.177798986648724
Otu1226 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVa,s:奧德氏梭菌(Clostridium_aldenense)& 2.55929498462539 & 0.221048689629986
Otu1013 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.55055552177418 & 0.143658469390376
Otu12 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:糞便擬桿菌(Bacteroides_stercoris)& 2.51708008793652 & 0.103915012493887
Otu3144 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.51673692049532 & 0.165227082965755
Otu237 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬& 2.51117802646258 & 0.226025083820349
Otu279 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:副擬桿菌屬,s:戈登氏副擬桿菌(Parabacteroides_gordonii)& 2.48048095113267 & 0.100806236371619
Otu64 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:副普雷沃氏菌屬(Paraprevotella),s:克拉氏副普雷沃氏菌(Paraprevotella_clara)& 2.46395765375973 & 0.0690878515368844
Otu25 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.45023659597359 & 0.214516967460789
Otu19 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:副擬桿菌屬,s:糞副擬桿菌(Parabacteroides_merdae)& 2.44204192953914 & 0.152688966441248
Otu2406 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:糞球菌屬,s:一致糞球菌& 2.388647764166 & 0.179625343318508
Otu2441 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬,s:糞普雷沃菌& 2.36221022347778 & 0.0860287788041391
Otu4383 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」& 2.30917215168753 & 0.169677409577486
Otu785 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 2.2979764524382 & 0.120920186197908
Otu184 &d:細菌,p:「變形菌門」,c:α變形菌綱& 2.2953335860093 & 0.125357854092819
Otu529 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 2.28626290793623 & 0.0591800476336016
Otu211 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬& 2.27530944518009 & 0.0825446930662444
Otu1285 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「理研菌科」,g:另枝菌屬& 2.27216170398856 & 0.10048598114358
Otu154 &d:細菌,p:「變形菌門(Proteobacteria)」,c:β變形菌綱,o:伯克霍爾德氏菌目,f:薩特菌科,g:薩特菌屬,s:沃茲沃思薩特菌(Sutterella_wadsworthensis)& 2.26681317274378 & 0.095794761955645
Otu73 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:埃氏擬桿菌(Bacteroides_eggerthii)& 2.23490099723446 & 0.100177500333695
Otu110 &d:細菌,p:厚壁菌門,c:丹毒絲菌綱(Erysipelotrichia),o:丹毒絲菌目,f:丹毒絲菌科,g:霍爾德曼氏菌屬(Holdemanella),s:兩形霍爾德曼氏菌(Holdemanella_biformis)& 2.21687067076921 & 0.0810713870408617
Otu323 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:普雷沃菌屬& 2.21189156399316 & 0.0498167164045447
Otu30 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.20972306269567 & 0.124888017222478
Otu197 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:瘤胃球菌屬& 2.19787510012812 & 0.0688095464180803
Otu325 &d:細菌,p:厚壁菌門& 2.19765719927231 & 0.0724881781650027
Otu92 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 2.19754290190436 & 0.0977614715791891
Otu137 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:氟擬桿菌(Bacteroides_fluxus)& 2.19259587590723 & 0.0957227663704627
Otu398 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVb,s:乳酸醱酵梭菌(Clostridium_lactatifermentans)& 2.16619612097008 & 0.13243012390506
Otu24 & d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:殼梭桿菌屬(Fusicatenibacter),s:沙卡林殼梭桿菌(Fusicatenibacter_saccharivorans)& 2.13601207826098 & 0.109004618099555
Otu1310 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVa,s:拉瓦氏梭菌(Clostridium_lavalense)& 2.10031266330233 & 0.0681859590894292
Otu61 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 2.06621226238679 & 0.0812814627693076
Otu341 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬& 2.05394025479534 & 0.0660563999551188
Otu181 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 2.04844656233313 & 0.0571401007980638
Otu143 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:丁酸弧菌屬,s:惡臭丁酸弧菌(Butyricimonas_virosa)& 2.03243584288693 & 0.0970020028567559
Otu67 &d:細菌,p:「變形菌門」,c:β變形菌綱,o:伯克霍爾德氏菌目,f:薩特菌科,g:副薩特菌屬,s:人類糞便副薩特菌(Parasutterella_excrementihominis)& 2.03180324746581 & 0.0936881467159242
Otu252 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:丁酸弧菌屬& 2.02940489409138 & 0.070616655927486
Otu492 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬& 2.02849125631133 & 0.0961577655297611
Otu102 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 2.02671995711953 & 0.0547494767351553
Otu844 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 2.01976446057376 & 0.103854802087175
Otu167 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:瘤胃球菌屬,s:伶俐瘤胃球菌(Ruminococcus_callidus)& 2.00637176738852 & 0.0686186701834018
Otu268 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:糞桿菌屬(Coprobacter),s:苛求糞桿菌(Coprobacter_fastidiosus)& 1.99552235062283 & 0.12422248748126
Otu53 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:黃桿菌屬,s:普氏黃桿菌(Flavonifractor_plautii)& 1.98477602820225 & 0.154388346573957
Otu134 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:瘤胃球菌屬,s:布氏瘤胃球菌(Ruminococcus_bromii)& 1.943819299683 & 0.078283004968428
Otu162 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科& 1.90030595960624 & 0.0563884110984546
Otu100 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 1.82797703408088 & 0.0738899503135034
Otu4152 &d:細菌,p:「放線菌門」,c:放線菌綱,o:雙歧桿菌目,f:雙歧桿菌科,g:雙岐桿菌屬,s:兩岐雙岐桿菌(Bifidobacterium_bifidum)& 1.82566704030467 & 0.099354472367359
Otu777 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:副擬桿菌屬& 1.7657225582824 & 0.0325864924110219
Otu54 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:顫桿菌克屬& 1.7519877374647 & 0.0847745772082939
Otu1438 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:毛螺菌科未定地位& 1.73280842049184 & 0.0526217992535465
Otu51 &d:細菌,p:「變形菌門」,c:β變形菌綱,o:伯克霍爾德氏菌目& 1.72804826925365 & 0.12269085994415
Otu1111 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:糞球菌屬,s:陪伴糞球菌(Coprococcus_comes)& 1.71550934616673 & 0.144405921174456
Otu405 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:巴恩斯氏擬桿菌(Bacteroides_barnesiae)& 1.70880833677066 & 0.0246207576224092
Otu213 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,g:小桿菌屬,s:嗜琥珀酸小桿菌(Dialister_succinatiphilus)& 1.70144938188134 & 0.0816118396027724
Otu2399 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 1.69365497194395 & 0.041528439217283
Otu40 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:瘤胃球菌屬2,s:糞瘤胃球菌(Ruminococcus_faecis)& 1.68166001885592 & 0.106539911906408
Otu115 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,g:巨型球菌屬(Megasphaera)& 1.64501381637878 & 0.0824926787147221
Otu1576 &d:細菌,p:厚壁菌門,c:陰性壁菌綱,o:硒基單細胞菌目,f:韋榮氏菌科,g:巨單胞菌屬,s:單形巨單胞菌& 1.61456104357672 & 0.066220021010319
Otu1214 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「卟啉單胞菌科」,g:副擬桿菌屬,s:戈登氏副擬桿菌& 1.60397148374387 & 0.053135067964
Otu128 &d:細菌,p:「變形菌門」,c:α變形菌綱& 1.60113768726192 & 0.047269458772049
Otu32 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:擬桿菌科,g:擬桿菌屬,s:嗜糞擬桿菌(Bacteroides_coprophilus)& 1.5704063903467 & 0.0688575737639849
Otu1386 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 1.53353997109029 & 0.0442083115662555
Otu2 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:瘤胃菌科,g:糞桿菌屬,s:普氏糞桿菌(Faecalibacterium_prausnitzii)& 1.51051364783698 & 0.0746406775857877
Otu1841 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVa& 1.50471587369414 & 0.0457896807308778
Otu123 &d:細菌,p:「擬桿菌門」,c:「擬桿菌綱」,o:「擬桿菌目」,f:「普雷沃菌科」,g:副普雷沃菌屬,s:嗜木糖副普雷沃菌(Paraprevotella_xylaniphila)& 1.45542839323159 & 0.03049862573998
Otu346 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目& 1.38676304035384 & 0.014614966160068
Otu156 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科& 1.36952366127748 & 0.0474515503949865
Otu144 &d:細菌,p:厚壁菌門,c:梭菌綱,o:梭菌目,f:毛螺菌科,g:梭菌屬_XlVa& 1.33968420287925 & 0.0568146633936392
與現有研究一致,已發現g:梭桿菌屬為最可辨別特徵中之一者。儘管表中未展示,但脆弱類桿菌具有第25個最大的平均降低準確度(MeanDecreaseAccuracy)值。為了證實表中所示其餘者的相關性,吾等將此等標註與由Amitay等人(1)綜合說明之細菌清單進行比較。在其研究中,進行綜合調查,以儘可能概述更多研究CRC與正常對照組之間的微生物相組成中差異的相關文獻。其等記錄細菌清單及出現在此類文獻研究中之至少兩者中的標註,且已發現可以區別。
該比較顯示一致的結果,記錄在表4第三欄中。當指定分類等級時,分類等級指示兩者之間最低的一致性標註。除了Otu101之外,已發現所有Otu。值得注意地,Otu101 (標註為g:普雷沃菌屬)鑑別為當前研究中之最可辨別特徵中之一,但不存在於Amitay等人研究之概述清單中。隨著進一步研究,吾等鑑別多個證實g:普雷沃菌屬與CRC之相關性的近期研究。在試圖探討微生物相與CRC之不同分子亞型之關聯性的過程中(22),普雷沃菌屬已顯示與CMS2 (CRC患者中盛行率為37%之主要亞型中之一者)密切相關。中間普雷沃菌亦已在匹配及轉移性腫瘤中顯示與梭桿菌屬共存(4)。且在四個不同組群中之最新研究(9),已鑑別中間普雷沃菌為七個富含CRC之生物標記物中之一者。接著,吾等探討Amitay等人研究中之概述清單是否可在當前組群中鑑別。在屬類的層級下,除羅氏菌屬(Roseburia)、纖毛菌屬(Leptotrichia)、奇異菌屬(Atopobium)之外,所有菌屬已出現在表4.1中。
分類 : 多組
假定吾等在第2批及第3批二者中收集平衡的樣本數目,吾等僅使用此等兩個批次用於多組分類。
吾等首先使用由癌症(CR)及正常(NM)建構之分類器來產生三個中間組(AA、NA、PL)的分類。使用80%之CR及NM樣本來建構分類器,且對剩餘部分進行分類。表 5.
在CR、NM上訓練模型之情況下,CR、NM、AA、NA、PL之分類結果
預測 | CR | AA | NA | PL | NM |
CR | 41 | 45 | 1 | 3 | 0 |
NM | 2 | 151 | 205 | 193 | 35 |
如表5中所展示,對癌症及正常樣本之分類如先前所發現的類似。對於其他三組,約四分之一的晚期腺瘤(AA)樣本標記為癌症,然而幾乎所有來自非晚期腺瘤(NA)及息肉(PL)之樣本標記為非癌症。此結果指示AA組之微生物群組成可與癌症具有較高類似性,且較少晚期疾病組與正常具有更多類似性。此亦可指示微生物群組成在達至嚴重疾病狀態時發生變化。
接著,吾等產生所有五個組之分類結果,且最後根據疾病狀態,吾等將來自AA及NA之樣本合併為腺瘤組(AD),且將PL及NM合併為未患病組(NP),且對此等三個組應用分類。結果概括在表6中。
表 6.
多組分類結果。各組為單獨的。合併之三個組視為癌症(CR)、由AD (AA、NA)表示之腺瘤以及由NP (NM、PL)表示之非腺瘤。
群組 | 類別 | 敏感度 | 特異性 | 準確度 |
CR|AA|NA | CR | 0.954 | 0.962 | 0.890 |
PL|NM | AA | 0.714 | 0.974 | |
NA | 0.889 | 0.951 | ||
PL | 0.949 | 0.994 | ||
NM | 1.000 | 0.982 | ||
CR AD | CR | 0.954 | 0.968 | 0.935 |
NP | (AA, NA) | 0.894 | 0.983 | |
(PL, NM) | 0.972 | 0.953 |
吾等達成五個組分類之89%的整體準確度及三個組分類之93.5%的準確度。詳細檢測揭示,對於五個組,AA及NA之靈敏度與其他組相比低很多,此很大程度上係由於自AA至CR及NA,及NA至AA的諸多錯分類情況。此觀測支撐重疊信號在不同的疾病狀態之間共享的想法,且如由錯分類主要存在於鄰近狀態之間的觀測所指示,疾病進展可以連續方式發生。因此,如所預期,當根據組織病理學準則使用較大量分組時,準確鑑別患者處於何種疾病進展狀態更具有挑戰性。詳細分類結果可發現在下文。
合併第 2 批及第 3 批糞便微生物群樣本之 NuoHui 999 的 分類
1.背景
已經收集兩個獨立批次之糞便微生物群樣本。對於各批次,五個類別已經界定:CR (癌症)、JZ (進展)、FJ (未進展)、XR (息肉)、JK (正常),其中各類別具有約100個樣本。首先,吾等使用80% CR/JK樣本構建分類器,隨後對剩餘20% CR/JK樣本進行預測。隨後使用相同模型,吾等對JZ/FJ/XR樣本進行預測。接著,吾等使用80%之資料構建五組分類器,隨後對剩餘20%應用驗證。最後,吾等將五個組合併為三個組:癌症(CR)、腺瘤(JZ/FJ)、正常(XR/JK),且使用相同的80%及20%用於訓練及驗證。
## [1] "輸入: 2018-03-01_nhb1-b2-999 /otutab_norm.txt"
##
##
## | 樣本大小 | OTU數目 |
## |:-----------:|:--------:|
## | 999 | 6269 |
##
## 表:樣本及OTU之總數
特徵選擇
吾等選擇滿足至少3%的相對豐度> 0.05%之樣本中出現的OTU。在每個樣本之經標準化計數為50,000之條件下,後者為> 25的計數。
##
##
## | 樣本大小 | OTU數目 |
## |:-----------:|:--------:|
## | 999 | 341 |
##
## 表:在特徵選擇之後,樣本及OTU之總數
2.使用癌症(CR)及正常(JK)之隨機森林分類
使用80%之CR/JK資料來建構隨機森林模型,隨後對(1) 20%之剩餘CR/JK資料及(2)所有非CR/JK資料進行分類。
製備訓練及測試資料
##
## | | |
## |:-------------:|:---:|
## | 訓練資料| 323 |
## | 測試資料 | 78 |
##
## 表:訓練及測試樣本之數目
##
## | | |
## |:-------------:|:---:|
## | 非crjk資料 | 598 |
##
## 表:非CR-JK樣本之數目
對於CR、JK之訓練及測試
##
## 訪問:
## 隨機森林(式=類型~ .,資料=訓練資料,重要性=TRUE,樹之數目=1000)
## 隨機森林之類型:分類
## 樹之數目: 1000
## 在各分枝下嘗試之變量數目: 18
##
## OOB評估之錯誤率:0.62%
## 混淆矩陣:
## CR JK類別.誤差
## CR 158 1 0.006289308
## JK 1 163 0.006097561(亦參見圖11及圖12)
##
##
## | CR | JK | 平均降低準確度 | 平均降低基尼 | Otu名稱 |
## |:-----:|:-----:|:--------------------:|:----------------:|:-------:|
## | 13.04 | 12.6 | 15.15 | 8.844 | Otu140 |
## | 11.98 | 14.52 | 15.08 | 10.21 | Otu136 |
## | 10.69 | 13.32 | 14.16 | 8.076 | Otu225 |
## | 10.26 | 12.64 | 13.97 | 7.762 | Otu187 |
## | 11.16 | 12.67 | 13.71 | 7.897 | Otu221 |
## | 10.65 | 12.54 | 13.39 | 6.114 | Otu41 |
## | 11.23 | 10.82 | 12.5 | 6.209 | Otu204 |
## | 9.551 | 11.24 | 12.32 | 5.577 | Otu9 |
## | 7.822 | 11.59 | 11.49 | 5.013 | Otu166 |
## | 9.476 | 10 | 11.45 | 5.014 | Otu198 |
##
## 表:平均降低準確度之前10個最重要變量
## 混淆矩陣及統計資料
##
## 參考
## 預測CR JK
## CR 41 0
## JK 2 35
##
## 準確度:0.9744
## 95% CI : (0.9104, 0.9969)
## 無資訊率: 0.5513
## P-值[Acc > NIR] : <2e-16
##
## κ:0.9484
## Mcnemar之測試P-值: 0.4795
##
## 敏感度:0.9535
## 特異性1.0000
## 正預測值:1.0000
## 負預測值:0.9459
## 盛行率:: 0.5513
## 偵測速率:0.5256
## 偵測盛行率:0.5256
## 平衡準確度:0.9767
##
## 「正」類別:CR
##
##
##
## CR JK 標記 預測
## --------- ------- ------- ---------- ------------
## **5** 0.978 0.022 CR005 CR
## **9** 0.912 0.088 CR009 CR
## **12** 0.97 0.03 CR012 CR
## **13** 0.966 0.034 CR013 CR
## **19** 0.94 0.06 CR019 CR
## **33** 0.727 0.273 CR033 CR
## **34** 0.94 0.06 CR034 CR
## **43** 0.957 0.043 CR043 CR
## **46** 0.899 0.101 CR046 CR
## **54** 0.861 0.139 CR054 CR
## **63** 0.981 0.019 CR063 CR
## **76** 0.887 0.113 CR076 CR
## **83** 0.981 0.019 CR083 CR
## **87** 0.922 0.078 CR087 CR
## **90** 0.897 0.103 CR090 CR
## **92** 0.935 0.065 CR092 CR
## **94** 0.796 0.204 CR094 CR
## **98** 0.938 0.062 CR098 CR
## **99** 0.883 0.117 CR099 CR
## **100** 0.201 0.799 CR100 JK
## **117** 0.86 0.14 CR_CRB07 CR
## **120** 0.789 0.211 CR_CRB10 CR
## **129** 0.992 0.008 CR_CRC09 CR
## **130** 0.817 0.183 CR_CRC10 CR
## **132** 0.926 0.074 CR_CRD02 CR
## **135** 0.916 0.084 CR_CRD05 CR
## **136** 0.753 0.247 CR_CRD06 CR
## **137** 0.861 0.139 CR_CRD07 CR
## **146** 0.742 0.258 CR_CRE06 CR
## **153** 0.961 0.039 CR_CRF03 CR
## **160** 0.893 0.107 CR_CRF10 CR
## **162** 0.947 0.053 CR_CRG02 CR
## **164** 0.942 0.058 CR_CRG04 CR
## **168** 0.956 0.044 CR_CRG08 CR
## **169** 0.896 0.104 CR_CRG09 CR
## **170** 0.916 0.084 CR_CRG10 CR
## **177** 0.929 0.071 CR_CRH07 CR
## **179** 0.931 0.069 CR_CRH09 CR
## **184** 0.818 0.182 CR_CRI04 CR
## **190** 0.898 0.102 CR_CRI10 CR
## **196** 0.949 0.051 CR_CRJ06 CR
## **199** 0.959 0.041 CR_CRJ09 CR
## **202** 0.071 0.929 JK002 JK
## **208** 0.209 0.791 JK008 JK
## **210** 0.102 0.898 JK010 JK
## **213** 0.069 0.931 JK013 JK
## **219** 0.057 0.943 JK019 JK
## **223** 0.072 0.928 JK023 JK
## **233** 0.045 0.955 JK033 JK
## **236** 0.102 0.898 JK036 JK
## **241** 0.105 0.895 JK041 JK
## **248** 0.027 0.973 JK048 JK
## **261** 0.188 0.812 JK061 JK
## **264** 0.059 0.941 JK064 JK
## **267** 0.024 0.976 JK067 JK
## **269** 0.026 0.974 JK069 JK
## **277** 0.065 0.935 JK077 JK
## **280** 0.068 0.932 JK080 JK
## **291** 0.056 0.944 JK091 JK
## **298** 0.03 0.97 JK098 JK
## **300** 0.028 0.972 JK_JKA01 JK
## **303** 0.022 0.978 JK_JKA04 JK
## **318** 0.133 0.867 JK_JKB09 JK
## **319** 0.021 0.979 JK_JKB10 JK
## **323** 0.061 0.939 JK_JKC04 JK
## **340** 0.03 0.97 JK_JKE01 JK
## **341** 0.028 0.972 JK_JKE02 JK
## **342** 0.035 0.965 JK_JKE03 JK
## **345** 0.063 0.937 JK_JKE06 JK
## **347** 0.055 0.945 JK_JKE08 JK
## **351** 0.059 0.941 JK_JKF02 JK
## **358** 0.069 0.931 JK_JKF09 JK
## **370** 0.094 0.906 JK_JKH01 JK
## **376** 0.05 0.95 JK_JKH07 JK
## **381** 0.126 0.874 JK_JKI02 JK
## **388** 0.063 0.937 JK_JKI09 JK
## **395** 0.085 0.915 JK_JKJ06 JK
## **401** 0.23 0.77 CR_JZD03 JK
##
## 表:預測之細節
使用CR/JK分類器對JZ、FJ、XR之分類
##
##
## FJ JZ XR
## -------- ----- ----- -----
## **CR** 1 45 3
## **JK** 205 151 193
##
## 表:預測
##
##
##
## CR JK 標記 預測
## ------- ------- ---------- ------------
## 0.314 0.686 FJ001 JK
## 0.244 0.756 FJ002 JK
## 0.228 0.772 FJ003 JK
## 0.112 0.888 FJ004 JK
## 0.166 0.834 FJ005 JK
## 0.118 0.882 FJ006 JK
## 0.205 0.795 FJ007 JK
## 0.119 0.881 FJ008 JK
## 0.076 0.924 FJ009 JK
## 0.112 0.888 FJ010 JK
## 0.203 0.797 FJ011 JK
## 0.182 0.818 FJ012 JK
## 0.128 0.872 FJ013 JK
## 0.08 0.92 FJ014 JK
## 0.155 0.845 FJ015 JK
## 0.222 0.778 FJ016 JK
## 0.177 0.823 FJ017 JK
## 0.194 0.806 FJ018 JK
## 0.164 0.836 FJ019 JK
## 0.196 0.804 FJ020 JK
## 0.201 0.799 FJ021 JK
## 0.225 0.775 FJ022 JK
## 0.171 0.829 FJ023 JK
## 0.095 0.905 FJ024 JK
## 0.086 0.914 FJ025 JK
## 0.183 0.817 FJ026 JK
## 0.193 0.807 FJ027 JK
## 0.143 0.857 FJ028 JK
## 0.181 0.819 FJ029 JK
## 0.099 0.901 FJ030 JK
## 0.234 0.766 FJ031 JK
## 0.192 0.808 FJ032 JK
## 0.163 0.837 FJ033 JK
## 0.154 0.846 FJ034 JK
## 0.119 0.881 FJ035 JK
## 0.118 0.882 FJ036 JK
## 0.169 0.831 FJ037 JK
## 0.069 0.931 FJ038 JK
## 0.107 0.893 FJ039 JK
## 0.075 0.925 FJ040 JK
## 0.131 0.869 FJ041 JK
## 0.173 0.827 FJ042 JK
## 0.108 0.892 FJ043 JK
## 0.062 0.938 FJ044 JK
## 0.166 0.834 FJ045 JK
## 0.067 0.933 FJ046 JK
## 0.114 0.886 FJ047 JK
## 0.172 0.828 FJ048 JK
## 0.125 0.875 FJ049 JK
## 0.114 0.886 FJ050 JK
## 0.082 0.918 FJ051 JK
## 0.13 0.87 FJ052 JK
## 0.169 0.831 FJ053 JK
## 0.229 0.771 FJ054 JK
## 0.185 0.815 FJ055 JK
## 0.047 0.953 FJ056 JK
## 0.139 0.861 FJ057 JK
## 0.214 0.786 FJ058 JK
## 0.166 0.834 FJ059 JK
## 0.166 0.834 FJ060 JK
## 0.144 0.856 FJ061 JK
## 0.218 0.782 FJ062 JK
## 0.092 0.908 FJ063 JK
## 0.233 0.767 FJ064 JK
## 0.233 0.767 FJ065 JK
## 0.123 0.877 FJ066 JK
## 0.086 0.914 FJ067 JK
## 0.236 0.764 FJ068 JK
## 0.155 0.845 FJ069 JK
## 0.217 0.783 FJ070 JK
## 0.217 0.783 FJ071 JK
## 0.272 0.728 FJ072 JK
## 0.184 0.816 FJ073 JK
## 0.169 0.831 FJ074 JK
## 0.373 0.627 FJ075 JK
## 0.269 0.731 FJ076 JK
## 0.125 0.875 FJ077 JK
## 0.353 0.647 FJ078 JK
## 0.211 0.789 FJ079 JK
## 0.279 0.721 FJ080 JK
## 0.228 0.772 FJ081 JK
## 0.43 0.57 FJ082 JK
## 0.311 0.689 FJ083 JK
## 0.351 0.649 FJ084 JK
## 0.331 0.669 FJ085 JK
## 0.088 0.912 FJ086 JK
## 0.099 0.901 FJ087 JK
## 0.19 0.81 FJ088 JK
## 0.105 0.895 FJ089 JK
## 0.206 0.794 FJ090 JK
## 0.089 0.911 FJ091 JK
## 0.119 0.881 FJ092 JK
## 0.211 0.789 FJ093 JK
## 0.059 0.941 FJ094 JK
## 0.301 0.699 FJ095 JK
## 0.176 0.824 FJ096 JK
## 0.093 0.907 FJ097 JK
## 0.167 0.833 FJ098 JK
## 0.09 0.91 FJ099 JK
## 0.159 0.841 FJ100 JK
## 0.2 0.8 FJ_FJA01 JK
## 0.224 0.776 FJ_FJA02 JK
## 0.262 0.738 FJ_FJA03 JK
## 0.301 0.699 FJ_FJA04 JK
## 0.239 0.761 FJ_FJA05 JK
## 0.169 0.831 FJ_FJA06 JK
## 0.112 0.888 FJ_FJA07 JK
## 0.116 0.884 FJ_FJA08 JK
## 0.124 0.876 FJ_FJA09 JK
## 0.058 0.942 FJ_FJA10 JK
## 0.146 0.854 FJ_FJB01 JK
## 0.138 0.862 FJ_FJB02 JK
## 0.113 0.887 FJ_FJB03 JK
## 0.124 0.876 FJ_FJB04 JK
## 0.097 0.903 FJ_FJB05 JK
## 0.09 0.91 FJ_FJB06 JK
## 0.115 0.885 FJ_FJB07 JK
## 0.079 0.921 FJ_FJB08 JK
## 0.088 0.912 FJ_FJB09 JK
## 0.068 0.932 FJ_FJB10 JK
## 0.088 0.912 FJ_FJC02 JK
## 0.095 0.905 FJ_FJC03 JK
## 0.13 0.87 FJ_FJC04 JK
## 0.096 0.904 FJ_FJC05 JK
## 0.102 0.898 FJ_FJC06 JK
## 0.095 0.905 FJ_FJC07 JK
## 0.077 0.923 FJ_FJC08 JK
## 0.069 0.931 FJ_FJC09 JK
## 0.045 0.955 FJ_FJC10 JK
## 0.096 0.904 FJ_FJD01 JK
## 0.06 0.94 FJ_FJD02 JK
## 0.13 0.87 FJ_FJD03 JK
## 0.092 0.908 FJ_FJD04 JK
## 0.051 0.949 FJ_FJD05 JK
## 0.103 0.897 FJ_FJD06 JK
## 0.143 0.857 FJ_FJD07 JK
## 0.12 0.88 FJ_FJD08 JK
## 0.134 0.866 FJ_FJD09 JK
## 0.055 0.945 FJ_FJD10 JK
## 0.148 0.852 FJ_FJE01 JK
## 0.201 0.799 FJ_FJE02 JK
## 0.145 0.855 FJ_FJE03 JK
## 0.182 0.818 FJ_FJE04 JK
## 0.108 0.892 FJ_FJE05 JK
## 0.076 0.924 FJ_FJE06 JK
## 0.126 0.874 FJ_FJE07 JK
## 0.119 0.881 FJ_FJE08 JK
## 0.066 0.934 FJ_FJE09 JK
## 0.061 0.939 FJ_FJE10 JK
## 0.088 0.912 FJ_FJF01 JK
## 0.116 0.884 FJ_FJF02 JK
## 0.083 0.917 JZ_FJF03 JK
## 0.122 0.878 FJ_FJF04 JK
## 0.084 0.916 FJ_FJF05 JK
## 0.466 0.534 FJ_FJF06 JK
## 0.503 0.497 FJ_FJF07 CR
## 0.224 0.776 FJ_FJF08 JK
## 0.253 0.747 FJ_FJF09 JK
## 0.301 0.699 FJ_FJF10 JK
## 0.048 0.952 FJ_FJG01 JK
## 0.046 0.954 FJ_FJG02 JK
## 0.047 0.953 FJ_FJG03 JK
## 0.12 0.88 FJ_FJG04 JK
## 0.116 0.884 FJ_FJG05 JK
## 0.069 0.931 FJ_FJG06 JK
## 0.065 0.935 FJ_FJG07 JK
## 0.081 0.919 FJ_FJG08 JK
## 0.478 0.522 FJ_FJG09 JK
## 0.08 0.92 FJ_FJG10 JK
## 0.123 0.877 FJ_FJH01 JK
## 0.177 0.823 FJ_FJH02 JK
## 0.146 0.854 FJ_FJH03 JK
## 0.179 0.821 FJ_FJH04 JK
## 0.24 0.76 FJ_FJH05 JK
## 0.127 0.873 FJ_FJH06 JK
## 0.124 0.876 FJ_FJH07 JK
## 0.081 0.919 FJ_FJH08 JK
## 0.343 0.657 FJ_FJH09 JK
## 0.153 0.847 FJ_FJH10 JK
## 0.126 0.874 FJ_FJI01 JK
## 0.163 0.837 FJ_FJI02 JK
## 0.114 0.886 FJ_FJI03 JK
## 0.265 0.735 FJ_FJI04 JK
## 0.252 0.748 FJ_FJI05 JK
## 0.118 0.882 FJ_FJI06 JK
## 0.158 0.842 FJ_FJI07 JK
## 0.205 0.795 FJ_FJI08 JK
## 0.321 0.679 FJ_FJI09 JK
## 0.159 0.841 FJ_FJI10 JK
## 0.128 0.872 FJ_FJJ01 JK
## 0.221 0.779 FJ_FJJ02 JK
## 0.1 0.9 FJ_FJJ03 JK
## 0.17 0.83 FJ_FJJ04 JK
## 0.153 0.847 FJ_FJJ05 JK
## 0.166 0.834 FJ_FJJ06 JK
## 0.14 0.86 JZ_FJJ07 JK
## 0.093 0.907 FJ_FJJ08 JK
## 0.483 0.517 FJ_FJJ09 JK
## 0.147 0.853 FJ_FJJ10 JK
## 0.286 0.714 FJ_FJK01 JK
## 0.175 0.825 JZ001 JK
## 0.21 0.79 JZ002 JK
## 0.35 0.65 JZ003 JK
## 0.145 0.855 JZ004 JK
## 0.305 0.695 JZ005 JK
## 0.305 0.695 JZ006 JK
## 0.197 0.803 JZ007 JK
## 0.824 0.176 JZ008 CR
## 0.782 0.218 JZ009 CR
## 0.361 0.639 JZ010 JK
## 0.204 0.796 JZ011 JK
## 0.328 0.672 JZ012 JK
## 0.526 0.474 JZ013 CR
## 0.691 0.309 JZ014 CR
## 0.436 0.564 JZ015 JK
## 0.477 0.523 JZ016 JK
## 0.361 0.639 JZ017 JK
## 0.445 0.555 JZ018 JK
## 0.399 0.601 JZ019 JK
## 0.477 0.523 JZ020 JK
## 0.393 0.607 JZ021 JK
## 0.655 0.345 JZ022 CR
## 0.282 0.718 JZ023 JK
## 0.076 0.924 JZ024 JK
## 0.313 0.687 JZ025 JK
## 0.353 0.647 JZ026 JK
## 0.133 0.867 JZ027 JK
## 0.246 0.754 JZ028 JK
## 0.2 0.8 JZ029 JK
## 0.283 0.717 JZ030 JK
## 0.252 0.748 JZ031 JK
## 0.228 0.772 JZ032 JK
## 0.406 0.594 JZ033 JK
## 0.164 0.836 JZ034 JK
## 0.321 0.679 JZ035 JK
## 0.327 0.673 JZ036 JK
## 0.16 0.84 JZ037 JK
## 0.365 0.635 JZ038 JK
## 0.233 0.767 JZ039 JK
## 0.203 0.797 JZ040 JK
## 0.246 0.754 JZ041 JK
## 0.249 0.751 JZ042 JK
## 0.068 0.932 JZ043 JK
## 0.168 0.832 JZ044 JK
## 0.106 0.894 JZ045 JK
## 0.202 0.798 JZ046 JK
## 0.202 0.798 JZ047 JK
## 0.484 0.516 JZ048 JK
## 0.303 0.697 JZ049 JK
## 0.133 0.867 JZ050 JK
## 0.184 0.816 JZ051 JK
## 0.281 0.719 JZ052 JK
## 0.141 0.859 JZ053 JK
## 0.188 0.812 JZ054 JK
## 0.101 0.899 JZ055 JK
## 0.276 0.724 JZ056 JK
## 0.187 0.813 JZ057 JK
## 0.345 0.655 JZ058 JK
## 0.243 0.757 JZ059 JK
## 0.261 0.739 JZ060 JK
## 0.283 0.717 JZ061 JK
## 0.327 0.673 JZ062 JK
## 0.135 0.865 JZ063 JK
## 0.207 0.793 JZ064 JK
## 0.181 0.819 JZ065 JK
## 0.281 0.719 JZ066 JK
## 0.234 0.766 JZ067 JK
## 0.458 0.542 JZ068 JK
## 0.216 0.784 JZ069 JK
## 0.133 0.867 JZ070 JK
## 0.097 0.903 JZ071 JK
## 0.211 0.789 JZ072 JK
## 0.075 0.925 JZ073 JK
## 0.053 0.947 JZ074 JK
## 0.119 0.881 JZ075 JK
## 0.138 0.862 JZ076 JK
## 0.127 0.873 JZ077 JK
## 0.318 0.682 JZ078 JK
## 0.221 0.779 JZ079 JK
## 0.136 0.864 JZ080 JK
## 0.113 0.887 JZ081 JK
## 0.184 0.816 JZ082 JK
## 0.113 0.887 JZ083 JK
## 0.12 0.88 JZ084 JK
## 0.125 0.875 JZ085 JK
## 0.153 0.847 JZ086 JK
## 0.128 0.872 JZ087 JK
## 0.602 0.398 JZ088 CR
## 0.677 0.323 JZ089 CR
## 0.574 0.426 JZ090 CR
## 0.753 0.247 JZ091 CR
## 0.603 0.397 JZ092 CR
## 0.633 0.367 JZ093 CR
## 0.754 0.246 JZ094 CR
## 0.813 0.187 JZ095 CR
## 0.629 0.371 JZ096 CR
## 0.375 0.625 JZ097 JK
## 0.847 0.153 JZ098 CR
## 0.804 0.196 JZ099 CR
## 0.924 0.076 JZ100 CR
## 0.63 0.37 JZ_JZA01 CR
## 0.575 0.425 JZ_JZA02 CR
## 0.536 0.464 JZ_JZA03 CR
## 0.358 0.642 JZ_JZA04 JK
## 0.658 0.342 JZ_JZA05 CR
## 0.608 0.392 JZ_JZA06 CR
## 0.606 0.394 JZ_JZA07 CR
## 0.567 0.433 JZ_JZA08 CR
## 0.733 0.267 JZ_JZA09 CR
## 0.486 0.514 JZ_JZA10 JK
## 0.146 0.854 JZ_JZB01 JK
## 0.118 0.882 JZ_JZB02 JK
## 0.07 0.93 JZ_JZB03 JK
## 0.255 0.745 JZ_JZB04 JK
## 0.146 0.854 JZ_JZB05 JK
## 0.171 0.829 JZ_JZB06 JK
## 0.129 0.871 JZ_JZB07 JK
## 0.112 0.888 JZ_JZB08 JK
## 0.378 0.622 JZ_JZB09 JK
## 0.122 0.878 FJ_JZB10 JK
## 0.079 0.921 JZ_JZC01 JK
## 0.12 0.88 JZ_JZC02 JK
## 0.137 0.863 FJ_JZC03 JK
## 0.09 0.91 JZ_JZC04 JK
## 0.117 0.883 JZ_JZC06 JK
## 0.11 0.89 JZ_JZC07 JK
## 0.095 0.905 JZ_JZC08 JK
## 0.46 0.54 JZ_JZC09 JK
## 0.167 0.833 JZ_JZC10 JK
## 0.066 0.934 JZ_JZD01 JK
## 0.199 0.801 JZ_JZD02 JK
## 0.235 0.765 JZ_JZD04 JK
## 0.236 0.764 JZ_JZD05 JK
## 0.2 0.8 JZ_JZD06 JK
## 0.25 0.75 JZ_JZD07 JK
## 0.12 0.88 JZ_JZD08 JK
## 0.276 0.724 JZ_JZD10 JK
## 0.154 0.846 JZ_JZE01 JK
## 0.283 0.717 JZ_JZE02 JK
## 0.22 0.78 JZ_JZE03 JK
## 0.638 0.362 JZ_JZE04 CR
## 0.322 0.678 JZ_JZE05 JK
## 0.115 0.885 JZ_JZE06 JK
## 0.216 0.784 JZ_JZE07 JK
## 0.432 0.568 JZ_JZE08 JK
## 0.662 0.338 JZ_JZE09 CR
## 0.166 0.834 JZ_JZE10 JK
## 0.156 0.844 JZ_JZF01 JK
## 0.248 0.752 JZ_JZF02 JK
## 0.115 0.885 JZ_JZF03 JK
## 0.547 0.453 JZ_JZF04 CR
## 0.145 0.855 JZ_JZF05 JK
## 0.188 0.812 JZ_JZF06 JK
## 0.131 0.869 JZ_JZF07 JK
## 0.286 0.714 JZ_JZF08 JK
## 0.578 0.422 JZ_JZF09 CR
## 0.203 0.797 JZ_JZF10 JK
## 0.269 0.731 JZ_JZG01 JK
## 0.337 0.663 FJ_JZG02 JK
## 0.225 0.775 JZ_JZG03 JK
## 0.627 0.373 JZ_JZG04 CR
## 0.372 0.628 JZ_JZG05 JK
## 0.193 0.807 JZ_JZG06 JK
## 0.285 0.715 JZ_JZG07 JK
## 0.462 0.538 JZ_JZG08 JK
## 0.579 0.421 JZ_JZG09 CR
## 0.232 0.768 JZ_JZG10 JK
## 0.154 0.846 FJ_JZH01 JK
## 0.121 0.879 JZ_JZH03 JK
## 0.589 0.411 JZ_JZH04 CR
## 0.212 0.788 JZ_JZH05 JK
## 0.131 0.869 JZ_JZH06 JK
## 0.128 0.872 JZ_JZH07 JK
## 0.441 0.559 JZ_JZH08 JK
## 0.618 0.382 JZ_JZH09 CR
## 0.168 0.832 JZ_JZH10 JK
## 0.725 0.275 JZ_JZI01 CR
## 0.657 0.343 JZ_JZI02 CR
## 0.723 0.277 JZ_JZI03 CR
## 0.743 0.257 JZ_JZI04 CR
## 0.777 0.223 JZ_JZI05 CR
## 0.637 0.363 JZ_JZI07 CR
## 0.777 0.223 JZ_JZI08 CR
## 0.735 0.265 JZ_JZI09 CR
## 0.628 0.372 JZ_JZI10 CR
## 0.34 0.66 JZ_JZJ01 JK
## 0.418 0.582 JZ_JZJ02 JK
## 0.261 0.739 JZ_JZJ03 JK
## 0.714 0.286 JZ_JZJ04 CR
## 0.415 0.585 JZ_JZJ05 JK
## 0.148 0.852 JZ_JZJ06 JK
## 0.332 0.668 JZ_JZJ07 JK
## 0.605 0.395 JZ_JZJ08 CR
## 0.679 0.321 JZ_JZJ09 CR
## 0.19 0.81 JZ_JZJ10 JK
## 0.435 0.565 JZ_JZK01 JK
## 0.232 0.768 JZ_JZK02 JK
## 0.195 0.805 JZ_JZK03 JK
## 0.129 0.871 XR001 JK
## 0.086 0.914 XR002 JK
## 0.217 0.783 XR003 JK
## 0.168 0.832 XR004 JK
## 0.111 0.889 XR005 JK
## 0.141 0.859 XR006 JK
## 0.216 0.784 XR007 JK
## 0.235 0.765 XR008 JK
## 0.077 0.923 XR009 JK
## 0.116 0.884 XR010 JK
## 0.133 0.867 XR011 JK
## 0.123 0.877 XR012 JK
## 0.18 0.82 XR013 JK
## 0.195 0.805 XR014 JK
## 0.132 0.868 XR015 JK
## 0.153 0.847 XR016 JK
## 0.284 0.716 XR017 JK
## 0.27 0.73 XR018 JK
## 0.074 0.926 XR019 JK
## 0.686 0.314 XR020 CR
## 0.129 0.871 XR021 JK
## 0.137 0.863 XR022 JK
## 0.233 0.767 XR023 JK
## 0.136 0.864 XR024 JK
## 0.131 0.869 XR025 JK
## 0.178 0.822 XR026 JK
## 0.273 0.727 XR027 JK
## 0.298 0.702 XR028 JK
## 0.154 0.846 XR029 JK
## 0.149 0.851 XR030 JK
## 0.26 0.74 XR031 JK
## 0.225 0.775 XR032 JK
## 0.306 0.694 XR033 JK
## 0.639 0.361 XR034 CR
## 0.205 0.795 XR035 JK
## 0.318 0.682 XR036 JK
## 0.261 0.739 XR037 JK
## 0.351 0.649 XR038 JK
## 0.21 0.79 XR039 JK
## 0.217 0.783 XR040 JK
## 0.131 0.869 XR041 JK
## 0.14 0.86 XR042 JK
## 0.21 0.79 XR043 JK
## 0.148 0.852 XR044 JK
## 0.091 0.909 XR045 JK
## 0.219 0.781 XR046 JK
## 0.197 0.803 XR047 JK
## 0.335 0.665 XR048 JK
## 0.132 0.868 XR049 JK
## 0.092 0.908 XR050 JK
## 0.248 0.752 XR051 JK
## 0.096 0.904 XR052 JK
## 0.129 0.871 XR053 JK
## 0.135 0.865 XR054 JK
## 0.126 0.874 XR055 JK
## 0.223 0.777 XR056 JK
## 0.252 0.748 XR057 JK
## 0.09 0.91 XR058 JK
## 0.194 0.806 XR059 JK
## 0.127 0.873 XR060 JK
## 0.188 0.812 XR061 JK
## 0.11 0.89 XR062 JK
## 0.149 0.851 XR063 JK
## 0.118 0.882 XR064 JK
## 0.118 0.882 XR065 JK
## 0.194 0.806 XR066 JK
## 0.213 0.787 XR067 JK
## 0.134 0.866 XR068 JK
## 0.248 0.752 XR069 JK
## 0.108 0.892 XR070 JK
## 0.246 0.754 XR071 JK
## 0.125 0.875 XR072 JK
## 0.135 0.865 XR073 JK
## 0.089 0.911 XR074 JK
## 0.748 0.252 XR075 CR
## 0.211 0.789 XR076 JK
## 0.249 0.751 XR077 JK
## 0.065 0.935 XR078 JK
## 0.193 0.807 XR079 JK
## 0.103 0.897 XR080 JK
## 0.234 0.766 XR081 JK
## 0.084 0.916 XR082 JK
## 0.21 0.79 XR083 JK
## 0.122 0.878 XR084 JK
## 0.071 0.929 XR085 JK
## 0.289 0.711 XR086 JK
## 0.358 0.642 XR087 JK
## 0.073 0.927 XR088 JK
## 0.248 0.752 XR089 JK
## 0.167 0.833 XR090 JK
## 0.261 0.739 XR091 JK
## 0.069 0.931 XR092 JK
## 0.154 0.846 XR093 JK
## 0.134 0.866 XR094 JK
## 0.154 0.846 XR095 JK
## 0.199 0.801 XR096 JK
## 0.25 0.75 XR097 JK
## 0.179 0.821 XR098 JK
## 0.277 0.723 XR099 JK
## 0.206 0.794 XR100 JK
## 0.192 0.808 XR_XRA01 JK
## 0.054 0.946 XR_XRA02 JK
## 0.105 0.895 FJ_XRA03 JK
## 0.055 0.945 XR_XRA04 JK
## 0.16 0.84 XR_XRA05 JK
## 0.087 0.913 XR_XRA06 JK
## 0.048 0.952 XR_XRA07 JK
## 0.05 0.95 XR_XRA08 JK
## 0.026 0.974 XR_XRA09 JK
## 0.125 0.875 XR_XRA10 JK
## 0.206 0.794 XR_XRB01 JK
## 0.067 0.933 XR_XRB02 JK
## 0.095 0.905 XR_XRB03 JK
## 0.132 0.868 XR_XRB06 JK
## 0.15 0.85 XR_XRB07 JK
## 0.097 0.903 XR_XRB08 JK
## 0.073 0.927 XR_XRB09 JK
## 0.181 0.819 XR_XRB10 JK
## 0.272 0.728 XR_XRC01 JK
## 0.123 0.877 XR_XRC02 JK
## 0.221 0.779 XR_XRC03 JK
## 0.115 0.885 XR_XRC04 JK
## 0.191 0.809 XR_XRC05 JK
## 0.187 0.813 XR_XRC06 JK
## 0.117 0.883 XR_XRC07 JK
## 0.172 0.828 XR_XRC08 JK
## 0.151 0.849 XR_XRC09 JK
## 0.148 0.852 XR_XRC10 JK
## 0.297 0.703 XR_XRD01 JK
## 0.125 0.875 XR_XRD02 JK
## 0.201 0.799 XR_XRD03 JK
## 0.11 0.89 XR_XRD04 JK
## 0.227 0.773 XR_XRD05 JK
## 0.107 0.893 XR_XRD06 JK
## 0.109 0.891 XR_XRD07 JK
## 0.122 0.878 XR_XRD08 JK
## 0.109 0.891 XR_XRD09 JK
## 0.13 0.87 XR_XRD10 JK
## 0.213 0.787 XR_XRE01 JK
## 0.132 0.868 XR_XRE04 JK
## 0.179 0.821 XR_XRE05 JK
## 0.085 0.915 XR_XRE06 JK
## 0.064 0.936 XR_XRE07 JK
## 0.061 0.939 FJ_XRE08 JK
## 0.075 0.925 XR_XRE09 JK
## 0.082 0.918 XR_XRE10 JK
## 0.158 0.842 XR_XRF01 JK
## 0.063 0.937 XR_XRF02 JK
## 0.077 0.923 XR_XRF03 JK
## 0.042 0.958 XR_XRF04 JK
## 0.161 0.839 XR_XRF05 JK
## 0.128 0.872 XR_XRF07 JK
## 0.159 0.841 XR_XRF08 JK
## 0.143 0.857 XR_XRF09 JK
## 0.198 0.802 XR_XRF10 JK
## 0.391 0.609 XR_XRG01 JK
## 0.215 0.785 XR_XRG02 JK
## 0.263 0.737 XR_XRG03 JK
## 0.124 0.876 XR_XRG04 JK
## 0.253 0.747 XR_XRG05 JK
## 0.1 0.9 XR_XRG06 JK
## 0.095 0.905 XR_XRG07 JK
## 0.088 0.912 XR_XRG08 JK
## 0.051 0.949 XR_XRG09 JK
## 0.092 0.908 XR_XRG10 JK
## 0.192 0.808 XR_XRH01 JK
## 0.099 0.901 XR_XRH02 JK
## 0.079 0.921 XR_XRH03 JK
## 0.064 0.936 XR_XRH04 JK
## 0.184 0.816 XR_XRH05 JK
## 0.132 0.868 XR_XRH06 JK
## 0.112 0.888 XR_XRH07 JK
## 0.123 0.877 XR_XRH08 JK
## 0.053 0.947 XR_XRH09 JK
## 0.054 0.946 XR_XRH10 JK
## 0.097 0.903 XR_XRI01 JK
## 0.08 0.92 XR_XRI02 JK
## 0.091 0.909 XR_XRI03 JK
## 0.121 0.879 XR_XRI04 JK
## 0.064 0.936 XR_XRI05 JK
## 0.168 0.832 XR_XRI06 JK
## 0.104 0.896 XR_XRI07 JK
## 0.154 0.846 XR_XRI08 JK
## 0.097 0.903 XR_XRI09 JK
## 0.081 0.919 XR_XRI10 JK
## 0.166 0.834 FJ_XRJ01 JK
## 0.145 0.855 XR_XRJ02 JK
## 0.167 0.833 XR_XRJ03 JK
## 0.121 0.879 XR_XRJ04 JK
## 0.083 0.917 XR_XRJ05 JK
## 0.151 0.849 XR_XRJ06 JK
## 0.157 0.843 XR_XRJ07 JK
## 0.188 0.812 XR_XRJ08 JK
## 0.191 0.809 FJ_XRJ09 JK
## 0.092 0.908 XR_XRJ10 JK
## 0.308 0.692 XR_XRK01 JK
## 0.213 0.787 XR_XRK02 JK
## 0.267 0.733 XR_XRK03 JK
## 0.316 0.684 XR_XRK04 JK
## 0.236 0.764 XR_XRK05 JK
##
## 表:預測之細節
3.多類別分類
吾等首先對進展之五個階段的分類進行測試,隨後根據疾病進展將資料進一步摺疊為三個階段:正常(JK)、中間階段(FJ、XR)及晚期階段(JZ、CR)。
CR、JZ、FJ、XR、JK資料之訓練及驗證
##
## | | |
## |:-------------:|:---:|
## | 訓練資料| 799 |
## | 測試資料 | 200 |
##
## 表:訓練及測試樣本之數目
##
## 訪問:
## 隨機森林(式=類型~ .,資料=訓練資料,重要性=TRUE,樹之數目=1000)
## 隨機森林之類型:分類
## 樹之數目:1000
##在各分枝下嘗試之變量數目:18
##
## OOB評估之錯誤率:9.26%
##混淆矩陣:
## CR FJ JK JZ XR類別.錯誤
## CR 158 1 0 0 0 0.006289308
## FJ 0 155 0 10 5 0.088235294
## JK 1 2 156 2 5 0.060240964
## JZ 13 15 4 115 0 0.217687075
## XR 3 13 0 0 141 0.101910828(亦參見圖13及圖14)
##
##
## | CR | FJ | JK | JZ | XR |平均降低準確度|平均降低基尼| Otu名稱 |
## |:-----:|:-----:|:-----:|:-----:|:-----:|:--------------------:|:----------------:|:-------:|
## | 15.82 | 11.88 | 9.794 | 2.011 | 7.585 | 17.31 | 10.61 | Otu140 |
## | 16.3 | 10.31 | 9.811 | 5.654 | 8.971 | 16.49 | 10.91 | Otu225 |
## | 15.08 | 12.82 | 13.13 | 6.126 | 13.01 | 16.09 | 12.52 | Otu136 |
## | 13.88 | 10.27 | 8.091 | 7.046 | 11.67 | 15.04 | 8.425 | Otu204 |
## | 12.88 | 11.83 | 12.01 | 4.788 | 11.85 | 14.63 | 9.096 | Otu187 |
## | 12.74 | 12.43 | 11.08 | 2.788 | 12.3 | 14.37 | 8.706 | Otu221 |
## | 2.237 | 11.36 | 9.023 | 6.609 | 10.98 | 14.11 | 4.832 | Otu241 |
## | 4.546 | 8.48 | 10.98 | 5.508 | 10.06 | 13.58 | 5.267 | Otu1360 |
## | 12.7 | 6.367 | 9.19 | 6.733 | 10.19 | 12.75 | 8.329 | Otu166 |
## | 10.26 | 5.843 | 11.74 | 2.113 | 6.641 | 12.73 | 6.474 | Otu41 |
##
##表:平均降低準確度之前10個最重要變量
##混淆矩陣及統計資料
##
## 參考
## 預測CR FJ JK JZ XR
## CR 41 0 0 6 0
## FJ 0 32 0 6 2
## JK 1 1 33 1 0
## JZ 1 3 0 35 0
## XR 0 0 0 1 37
##
## 整體統計資料
##
## 準確度:0.89
## 95% CI : (0.8382, 0.9298)
## 無資料率:0.245
## P-值 [Acc > NIR] : < 2.2e-16
##
## κ:0.8623
## Mcnemar之測試P-值:NA
##
##類別之統計資料:
##
## 類別:CR 類別:FJ 類別:JK 類別:JZ 類別:XR
## 敏感度 0.9535 0.8889 1.0000 0.7143 0.9487
## 特異性 0.9618 0.9512 0.9820 0.9735 0.9938
## 正預測值 0.8723 0.8000 0.9167 0.8974 0.9737
## 負預測值 0.9869 0.9750 1.0000 0.9130 0.9877
## 盛行率 0.2150 0.1800 0.1650 0.2450 0.1950
## 偵測速率 0.2050 0.1600 0.1650 0.1750 0.1850
## 偵測盛行率 0.2350 0.2000 0.1800 0.1950 0.1900
##平衡準確度 0.9576 0.9201 0.9910 0.8439 0.9713
##
##
## CR FJ JK JZ XR 標記 預測
## -------------- ------- ------- ------- ------- ------- ---------- ------------
## **CR005** 0.875 0.008 0.021 0.081 0.015 CR005 CR
## **CR009** 0.707 0.053 0.029 0.195 0.016 CR009 CR
## **CR012** 0.844 0.017 0.021 0.088 0.03 CR012 CR
## **CR013** 0.826 0.029 0.019 0.097 0.029 CR013 CR
## **CR019** 0.82 0.023 0.017 0.109 0.031 CR019 CR
## **CR033** 0.408 0.145 0.086 0.242 0.119 CR033 CR
## **CR034** 0.77 0.028 0.032 0.154 0.016 CR034 CR
## **CR043** 0.815 0.022 0.03 0.104 0.029 CR043 CR
## **CR046** 0.713 0.051 0.078 0.089 0.069 CR046 CR
## **CR054** 0.581 0.092 0.077 0.159 0.091 CR054 CR
## **CR063** 0.889 0.025 0.018 0.057 0.011 CR063 CR
## **CR076** 0.806 0.04 0.045 0.068 0.041 CR076 CR
## **CR083** 0.892 0.017 0.017 0.058 0.016 CR083 CR
## **CR087** 0.824 0.027 0.035 0.095 0.019 CR087 CR
## **CR090** 0.777 0.036 0.036 0.11 0.041 CR090 CR
## **CR092** 0.824 0.034 0.031 0.074 0.037 CR092 CR
## **CR094** 0.577 0.093 0.072 0.173 0.085 CR094 CR
## **CR098** 0.824 0.022 0.045 0.08 0.029 CR098 CR
## **CR099** 0.714 0.074 0.05 0.097 0.065 CR099 CR
## **CR100** 0.095 0.164 0.319 0.311 0.111 CR100 JK
## **CR_CRB07** 0.583 0.079 0.072 0.18 0.086 CR_CRB07 CR
## **CR_CRB10** 0.547 0.065 0.107 0.219 0.062 CR_CRB10 CR
## **CR_CRC09** 0.932 0.016 0.009 0.03 0.013 CR_CRC09 CR
## **CR_CRC10** 0.527 0.109 0.07 0.173 0.121 CR_CRC10 CR
## **CR_CRD02** 0.824 0.032 0.032 0.09 0.022 CR_CRD02 CR
## **CR_CRD05** 0.811 0.033 0.029 0.102 0.025 CR_CRD05 CR
## **CR_CRD06** 0.563 0.109 0.075 0.143 0.11 CR_CRD06 CR
## **CR_CRD07** 0.62 0.074 0.068 0.156 0.082 CR_CRD07 CR
## **CR_CRE06** 0.51 0.159 0.071 0.162 0.098 CR_CRE06 CR
## **CR_CRF03** 0.921 0.01 0.013 0.039 0.017 CR_CRF03 CR
## **CR_CRF10** 0.695 0.075 0.051 0.105 0.074 CR_CRF10 CR
## **CR_CRG02** 0.86 0.027 0.029 0.071 0.013 CR_CRG02 CR
## **CR_CRG04** 0.837 0.027 0.038 0.071 0.027 CR_CRG04 CR
## **CR_CRG08** 0.877 0.021 0.025 0.055 0.022 CR_CRG08 CR
## **CR_CRG09** 0.705 0.053 0.044 0.171 0.027 CR_CRG09 CR
## **CR_CRG10** 0.759 0.06 0.04 0.109 0.032 CR_CRG10 CR
## **CR_CRH07** 0.807 0.046 0.034 0.087 0.026 CR_CRH07 CR
## **CR_CRH09** 0.839 0.021 0.048 0.068 0.024 CR_CRH09 CR
## **CR_CRI04** 0.718 0.046 0.054 0.132 0.05 CR_CRI04 CR
## **CR_CRI10** 0.732 0.065 0.042 0.105 0.056 CR_CRI10 CR
## **CR_CRJ06** 0.859 0.022 0.034 0.06 0.025 CR_CRJ06 CR
## **CR_CRJ09** 0.858 0.026 0.025 0.07 0.021 CR_CRJ09 CR
## **FJ002** 0.023 0.39 0.125 0.121 0.341 FJ002 FJ
## **FJ008** 0.02 0.589 0.127 0.121 0.143 FJ008 FJ
## **FJ010** 0.014 0.585 0.115 0.126 0.16 FJ010 FJ
## **FJ013** 0.001 0.577 0.124 0.145 0.153 FJ013 FJ
## **FJ019** 0.039 0.434 0.181 0.163 0.183 FJ019 FJ
## **FJ023** 0.026 0.427 0.179 0.133 0.235 FJ023 FJ
## **FJ033** 0.03 0.397 0.172 0.167 0.234 FJ033 FJ
## **FJ036** 0.026 0.551 0.11 0.133 0.18 FJ036 FJ
## **FJ041** 0.016 0.64 0.112 0.103 0.129 FJ041 FJ
## **FJ048** 0.02 0.611 0.11 0.135 0.124 FJ048 FJ
## **FJ061** 0.039 0.44 0.218 0.131 0.172 FJ061 FJ
## **FJ064** 0.075 0.331 0.201 0.255 0.138 FJ064 FJ
## **FJ067** 0.021 0.505 0.172 0.19 0.112 FJ067 FJ
## **FJ069** 0.013 0.495 0.185 0.151 0.156 FJ069 FJ
## **FJ077** 0.021 0.603 0.106 0.192 0.078 FJ077 FJ
## **FJ080** 0.056 0.494 0.126 0.167 0.157 FJ080 FJ
## **FJ091** 0.035 0.335 0.318 0.129 0.183 FJ091 FJ
## **FJ098** 0.028 0.308 0.15 0.356 0.158 FJ098 JZ
## **FJ100** 0.027 0.317 0.151 0.307 0.198 FJ100 FJ
## **FJ_FJA03** 0.03 0.415 0.137 0.176 0.242 FJ_FJA03 FJ
## **FJ_FJB08** 0.022 0.458 0.148 0.073 0.299 FJ_FJB08 FJ
## **FJ_FJB09** 0.017 0.496 0.175 0.099 0.213 FJ_FJB09 FJ
## **FJ_FJC04** 0.031 0.449 0.159 0.102 0.259 FJ_FJC04 FJ
## **FJ_FJE01** 0.026 0.675 0.113 0.089 0.097 FJ_FJE01 FJ
## **FJ_FJE02** 0.019 0.611 0.131 0.09 0.149 FJ_FJE02 FJ
## **FJ_FJE03** 0.017 0.463 0.173 0.166 0.181 FJ_FJE03 FJ
## **FJ_FJE06** 0.038 0.445 0.182 0.111 0.224 FJ_FJE06 FJ
## **FJ_FJE08** 0.016 0.492 0.145 0.095 0.252 FJ_FJE08 FJ
## **FJ_FJF02** 0.029 0.598 0.112 0.098 0.163 FJ_FJF02 FJ
## **FJ_FJF09** 0.062 0.252 0.297 0.166 0.223 FJ_FJF09 JK
## **FJ_FJH01** 0.024 0.354 0.221 0.148 0.253 FJ_FJH01 FJ
## **FJ_FJH07** 0.044 0.437 0.19 0.183 0.146 FJ_FJH07 FJ
## **FJ_FJI02** 0.04 0.48 0.131 0.194 0.155 FJ_FJI02 FJ
## **FJ_FJI09** 0.105 0.248 0.174 0.253 0.22 FJ_FJI09 JZ
## **FJ_FJJ06** 0.063 0.381 0.195 0.205 0.156 FJ_FJJ06 FJ
## **JK001** 0.098 0.151 0.317 0.251 0.183 JK001 JK
## **JK006** 0.069 0.152 0.384 0.241 0.154 JK006 JK
## **JK007** 0.149 0.161 0.35 0.23 0.11 JK007 JK
## **JK009** 0.044 0.188 0.389 0.168 0.211 JK009 JK
## **JK010** 0.03 0.152 0.495 0.187 0.136 JK010 JK
## **JK015** 0.057 0.154 0.497 0.135 0.157 JK015 JK
## **JK024** 0.028 0.176 0.513 0.138 0.145 JK024 JK
## **JK031** 0.101 0.228 0.391 0.17 0.11 JK031 JK
## **JK032** 0.086 0.244 0.383 0.21 0.077 JK032 JK
## **JK034** 0.074 0.236 0.367 0.215 0.108 JK034 JK
## **JK036** 0.077 0.233 0.37 0.177 0.143 JK036 JK
## **JK038** 0.068 0.242 0.378 0.203 0.109 JK038 JK
## **JK040** 0.033 0.207 0.474 0.144 0.142 JK040 JK
## **JK056** 0.059 0.159 0.472 0.138 0.172 JK056 JK
## **JK057** 0.02 0.204 0.544 0.091 0.141 JK057 JK
## **JK060** 0.041 0.173 0.451 0.161 0.174 JK060 JK
## **JK074** 0.06 0.109 0.489 0.175 0.167 JK074 JK
## **JK088** 0.019 0.113 0.7 0.079 0.089 JK088 JK
## **JK_JKB02** 0.013 0.163 0.597 0.115 0.112 JK_JKB02 JK
## **JK_JKB05** 0.023 0.126 0.599 0.123 0.129 JK_JKB05 JK
## **JK_JKB06** 0.013 0.219 0.563 0.095 0.11 JK_JKB06 JK
## **JK_JKB07** 0.024 0.187 0.627 0.088 0.074 JK_JKB07 JK
## **JK_JKC08** 0.061 0.153 0.451 0.151 0.184 JK_JKC08 JK
## **JK_JKD01** 0.014 0.128 0.628 0.089 0.141 JK_JKD01 JK
## **JK_JKD08** 0.012 0.157 0.578 0.14 0.113 JK_JKD08 JK
## **JK_JKE03** 0.017 0.128 0.629 0.096 0.13 JK_JKE03 JK
## **JK_JKF04** 0.053 0.217 0.416 0.153 0.161 JK_JKF04 JK
## **JK_JKF10** 0.052 0.186 0.384 0.195 0.183 JK_JKF10 JK
## **JK_JKG04** 0.015 0.196 0.519 0.13 0.14 JK_JKG04 JK
## **JK_JKH06** 0.007 0.131 0.601 0.095 0.166 JK_JKH06 JK
## **JK_JKH07** 0.016 0.18 0.588 0.093 0.123 JK_JKH07 JK
## **JK_JKI06** 0.07 0.174 0.311 0.207 0.238 JK_JKI06 JK
## **JK_JKJ01** 0.068 0.24 0.336 0.203 0.153 JK_JKJ01 JK
## **JZ003** 0.093 0.229 0.083 0.388 0.207 JZ003 JZ
## **JZ016** 0.065 0.136 0.056 0.699 0.044 JZ016 JZ
## **JZ022** 0.382 0.088 0.18 0.183 0.167 JZ022 CR
## **JZ023** 0.066 0.226 0.114 0.349 0.245 JZ023 JZ
## **JZ024** 0.02 0.282 0.127 0.375 0.196 JZ024 JZ
## **JZ027** 0.023 0.234 0.154 0.423 0.166 JZ027 JZ
## **JZ028** 0.035 0.194 0.118 0.533 0.12 JZ028 JZ
## **JZ032** 0.023 0.279 0.129 0.4 0.169 JZ032 JZ
## **JZ033** 0.095 0.252 0.096 0.343 0.214 JZ033 JZ
## **JZ045** 0.025 0.153 0.179 0.492 0.151 JZ045 JZ
## **JZ058** 0.142 0.115 0.172 0.411 0.16 JZ058 JZ
## **JZ062** 0.072 0.148 0.103 0.535 0.142 JZ062 JZ
## **JZ064** 0.027 0.172 0.176 0.46 0.165 JZ064 JZ
## **JZ066** 0.042 0.173 0.098 0.509 0.178 JZ066 JZ
## **JZ072** 0.062 0.16 0.183 0.426 0.169 JZ072 JZ
## **JZ075** 0.046 0.178 0.237 0.357 0.182 JZ075 JZ
## **JZ076** 0.039 0.271 0.155 0.37 0.165 JZ076 JZ
## **JZ078** 0.166 0.15 0.162 0.367 0.155 JZ078 JZ
## **JZ090** 0.271 0.124 0.132 0.344 0.129 JZ090 JZ
## **JZ091** 0.452 0.116 0.087 0.256 0.089 JZ091 CR
## **JZ095** 0.575 0.059 0.085 0.206 0.075 JZ095 CR
## **JZ097** 0.188 0.2 0.156 0.327 0.129 JZ097 JZ
## **JZ098** 0.549 0.051 0.07 0.258 0.072 JZ098 CR
## **JZ_JZA02** 0.246 0.188 0.086 0.383 0.097 JZ_JZA02 JZ
## **JZ_JZA04** 0.09 0.301 0.095 0.42 0.094 JZ_JZA04 JZ
## **JZ_JZA09** 0.362 0.137 0.077 0.357 0.067 JZ_JZA09 CR
## **JZ_JZB04** 0.071 0.273 0.169 0.273 0.214 JZ_JZB04 FJ
## **JZ_JZB06** 0.047 0.381 0.139 0.282 0.151 JZ_JZB06 FJ
## **JZ_JZB08** 0.062 0.271 0.257 0.23 0.18 JZ_JZB08 FJ
## **JZ_JZC01** 0.037 0.301 0.256 0.256 0.15 JZ_JZC01 FJ
## **JZ_JZC06** 0.023 0.375 0.145 0.332 0.125 JZ_JZC06 FJ
## **JZ_JZC08** 0.036 0.308 0.259 0.269 0.128 JZ_JZC08 FJ
## **JZ_JZD01** 0.025 0.288 0.234 0.297 0.156 JZ_JZD01 JZ
## **CR_JZD03** 0.073 0.237 0.2 0.262 0.228 CR_JZD03 JZ
## **JZ_JZE02** 0.102 0.171 0.288 0.343 0.096 JZ_JZE02 JZ
## **JZ_JZE09** 0.332 0.122 0.115 0.345 0.086 JZ_JZE09 JZ
## **JZ_JZF01** 0.056 0.266 0.199 0.358 0.121 JZ_JZF01 JZ
## **JZ_JZF02** 0.09 0.248 0.183 0.361 0.118 JZ_JZF02 JZ
## **JZ_JZF03** 0.051 0.177 0.332 0.257 0.183 JZ_JZF03 JK
## **JZ_JZF04** 0.184 0.134 0.136 0.48 0.066 JZ_JZF04 JZ
## **FJ_JZG02** 0.094 0.249 0.155 0.337 0.165 FJ_JZG02 JZ
## **JZ_JZG03** 0.076 0.194 0.223 0.351 0.156 JZ_JZG03 JZ
## **JZ_JZH08** 0.17 0.108 0.174 0.433 0.115 JZ_JZH08 JZ
## **JZ_JZI05** 0.386 0.08 0.077 0.396 0.061 JZ_JZI05 JZ
## **JZ_JZI08** 0.473 0.083 0.063 0.323 0.058 JZ_JZI08 CR
## **JZ_JZI09** 0.403 0.095 0.056 0.412 0.034 JZ_JZI09 JZ
## **JZ_JZI10** 0.301 0.09 0.1 0.413 0.096 JZ_JZI10 JZ
## **JZ_JZJ05** 0.214 0.195 0.122 0.381 0.088 JZ_JZJ05 JZ
## **JZ_JZJ06** 0.036 0.207 0.271 0.307 0.179 JZ_JZJ06 JZ
## **JZ_JZJ09** 0.335 0.125 0.075 0.392 0.073 JZ_JZJ09 JZ
## **JZ_JZK02** 0.062 0.256 0.155 0.257 0.27 JZ_JZK02 XR
## **XR007** 0.027 0.215 0.084 0.126 0.548 XR007 XR
## **XR024** 0.028 0.19 0.135 0.174 0.473 XR024 XR
## **XR026** 0.068 0.134 0.237 0.132 0.429 XR026 XR
## **XR029** 0.039 0.219 0.162 0.158 0.422 XR029 XR
## **XR033** 0.083 0.153 0.094 0.138 0.532 XR033 XR
## **XR041** 0.029 0.138 0.181 0.119 0.533 XR041 XR
## **XR048** 0.048 0.15 0.085 0.177 0.54 XR048 XR
## **XR053** 0.021 0.175 0.165 0.11 0.529 XR053 XR
## **XR055** 0.015 0.23 0.229 0.105 0.421 XR055 XR
## **XR056** 0.055 0.196 0.15 0.169 0.43 XR056 XR
## **XR062** 0.019 0.162 0.214 0.105 0.5 XR062 XR
## **XR074** 0.012 0.194 0.177 0.13 0.487 XR074 XR
## **XR078** 0.007 0.148 0.198 0.116 0.531 XR078 XR
## **XR080** 0.037 0.157 0.153 0.121 0.532 XR080 XR
## **XR084** 0.031 0.205 0.146 0.14 0.478 XR084 XR
## **XR095** 0.037 0.182 0.285 0.118 0.378 XR095 XR
## **XR096** 0.023 0.378 0.174 0.131 0.294 XR096 FJ
## **XR_XRA09** 0.011 0.129 0.28 0.079 0.501 XR_XRA09 XR
## **XR_XRB06** 0.013 0.128 0.134 0.081 0.644 XR_XRB06 XR
## **XR_XRB07** 0.012 0.121 0.146 0.082 0.639 XR_XRB07 XR
## **XR_XRC01** 0.051 0.127 0.112 0.11 0.6 XR_XRC01 XR
## **XR_XRC02** 0.019 0.128 0.163 0.107 0.583 XR_XRC02 XR
## **XR_XRC08** 0.031 0.186 0.174 0.101 0.508 XR_XRC08 XR
## **XR_XRC09** 0.03 0.126 0.191 0.085 0.568 XR_XRC09 XR
## **XR_XRD01** 0.087 0.123 0.098 0.088 0.604 XR_XRD01 XR
## **XR_XRD05** 0.049 0.136 0.14 0.088 0.587 XR_XRD05 XR
## **XR_XRE04** 0.026 0.112 0.196 0.069 0.597 XR_XRE04 XR
## **XR_XRE10** 0.016 0.218 0.192 0.134 0.44 XR_XRE10 XR
## **XR_XRF03** 0.017 0.301 0.201 0.122 0.359 XR_XRF03 XR
## **XR_XRF04** 0.014 0.154 0.243 0.098 0.491 XR_XRF04 XR
## **XR_XRG01** 0.116 0.099 0.099 0.124 0.562 XR_XRG01 XR
## **XR_XRG03** 0.049 0.175 0.133 0.133 0.51 XR_XRG03 XR
## **XR_XRG04** 0.02 0.105 0.212 0.092 0.571 XR_XRG04 XR
## **XR_XRG09** 0.009 0.09 0.233 0.066 0.602 XR_XRG09 XR
## **XR_XRH02** 0.016 0.148 0.133 0.101 0.602 XR_XRH02 XR
## **XR_XRI04** 0.012 0.231 0.138 0.088 0.531 XR_XRI04 XR
## **XR_XRI10** 0.017 0.326 0.152 0.117 0.388 XR_XRI10 XR
## **XR_XRJ08** 0.026 0.417 0.105 0.14 0.312 XR_XRJ08 FJ
## **XR_XRK02** 0.029 0.281 0.177 0.199 0.314 XR_XRK02 XR
##
##表:預測之細節
比較腺瘤(JZ/FJ)與剩餘部分
##
## | | |
## |:-------------:|:---:|
## | 訓練資料| 799 |
## | 測試資料 | 200 |
##
##表:訓練及測試樣本之數目
##
## 訪問:
##隨機森林(式=類型~ .,資料=訓練資料,重要性=TRUE,樹之數目=1000)
## 隨機森林之類型:分類
## 樹之數目:1000
##在各分枝下嘗試之變量數目:18
##
## OOB評估之錯誤率:9.26%
##混淆矩陣:
## G1_N_AD G2_AD類別.誤差
## G1_N_AD 464 18 0.0373444
## G2_AD 56 261 0.1766562(亦參見圖15及圖16)
##
##
## | G1_N_AD | G2_AD |平均降低準確度|平均降低基尼| Otu名稱 |
## |:-------:|:-----:|:--------------------:|:----------------:|:-------:|
## | 10.95 | 14.37 | 15.32 | 7.281 | Otu241 |
## | 9.829 | 11.58 | 13.07 | 5.045 | Otu143 |
## | 9.079 | 11.09 | 12.78 | 5.198 | Otu88 |
## | 7.33 | 12.49 | 12.59 | 4.773 | Otu1360 |
## | 10.48 | 9.765 | 12.29 | 4.874 | Otu80 |
## | 6.764 | 12.82 | 11.93 | 4.201 | Otu191 |
## | 9.579 | 11.29 | 11.92 | 5.096 | Otu1372 |
## | 7.774 | 10.49 | 10.94 | 4.783 | Otu217 |
## | 8.404 | 10 | 10.82 | 3.997 | Otu23 |
## | 7.807 | 9.471 | 10.64 | 3.382 | Otu860 |
##
##表:平均降低準確度之前10個最重要變量
##混淆矩陣及統計資料
##
## 參考
## 預測G1_N_AD G2_AD
## G1_N_AD 112 23
## G2_AD 3 62
##
## 準確度:0.87
## 95% CI : (0.8153, 0.9133)
## 無資訊率:0.575
## P-值 [Acc > NIR] : < 2.2e-16
##
## κ:0.7256
## Mcnemar之測試P-值:0.0001944
##
## 敏感度:0.9739
## 特異性:0.7294
## 正預測值:0.8296
## 負預測值:0.9538
## 盛行率:0.5750
## 偵測速率:0.5600
## 偵測盛行率:0.6750
## 平衡準確度:0.8517
##
## 「正」類別:G1_N_AD
##
##
##
## G1_N_AD G2_AD 標記 預測
## -------------- --------- ------- ---------- ------------
## **CR005** 0.872 0.128 CR005 G1_N_AD
## **CR009** 0.755 0.245 CR009 G1_N_AD
## **CR012** 0.855 0.145 CR012 G1_N_AD
## **CR013** 0.81 0.19 CR013 G1_N_AD
## **CR019** 0.823 0.177 CR019 G1_N_AD
## **CR033** 0.645 0.355 CR033 G1_N_AD
## **CR034** 0.77 0.23 CR034 G1_N_AD
## **CR043** 0.872 0.128 CR043 G1_N_AD
## **CR046** 0.902 0.098 CR046 G1_N_AD
## **CR054** 0.73 0.27 CR054 G1_N_AD
## **CR063** 0.865 0.135 CR063 G1_N_AD
## **CR076** 0.891 0.109 CR076 G1_N_AD
## **CR083** 0.882 0.118 CR083 G1_N_AD
## **CR087** 0.851 0.149 CR087 G1_N_AD
## **CR090** 0.792 0.208 CR090 G1_N_AD
## **CR092** 0.877 0.123 CR092 G1_N_AD
## **CR094** 0.773 0.227 CR094 G1_N_AD
## **CR098** 0.874 0.126 CR098 G1_N_AD
## **CR099** 0.846 0.154 CR099 G1_N_AD
## **CR100** 0.489 0.511 CR100 G2_AD
## **CR_CRB07** 0.826 0.174 CR_CRB07 G1_N_AD
## **CR_CRB10** 0.688 0.312 CR_CRB10 G1_N_AD
## **CR_CRC09** 0.89 0.11 CR_CRC09 G1_N_AD
## **CR_CRC10** 0.766 0.234 CR_CRC10 G1_N_AD
## **CR_CRD02** 0.879 0.121 CR_CRD02 G1_N_AD
## **CR_CRD05** 0.879 0.121 CR_CRD05 G1_N_AD
## **CR_CRD06** 0.821 0.179 CR_CRD06 G1_N_AD
## **CR_CRD07** 0.813 0.187 CR_CRD07 G1_N_AD
## **CR_CRE06** 0.735 0.265 CR_CRE06 G1_N_AD
## **CR_CRF03** 0.921 0.079 CR_CRF03 G1_N_AD
## **CR_CRF10** 0.803 0.197 CR_CRF10 G1_N_AD
## **CR_CRG02** 0.843 0.157 CR_CRG02 G1_N_AD
## **CR_CRG04** 0.92 0.08 CR_CRG04 G1_N_AD
## **CR_CRG08** 0.902 0.098 CR_CRG08 G1_N_AD
## **CR_CRG09** 0.772 0.228 CR_CRG09 G1_N_AD
## **CR_CRG10** 0.851 0.149 CR_CRG10 G1_N_AD
## **CR_CRH07** 0.861 0.139 CR_CRH07 G1_N_AD
## **CR_CRH09** 0.858 0.142 CR_CRH09 G1_N_AD
## **CR_CRI04** 0.822 0.178 CR_CRI04 G1_N_AD
## **CR_CRI10** 0.869 0.131 CR_CRI10 G1_N_AD
## **CR_CRJ06** 0.912 0.088 CR_CRJ06 G1_N_AD
## **CR_CRJ09** 0.881 0.119 CR_CRJ09 G1_N_AD
## **FJ002** 0.51 0.49 FJ002 G1_N_AD
## **FJ008** 0.29 0.71 FJ008 G2_AD
## **FJ010** 0.245 0.755 FJ010 G2_AD
## **FJ013** 0.286 0.714 FJ013 G2_AD
## **FJ019** 0.39 0.61 FJ019 G2_AD
## **FJ023** 0.475 0.525 FJ023 G2_AD
## **FJ033** 0.492 0.508 FJ033 G2_AD
## **FJ036** 0.283 0.717 FJ036 G2_AD
## **FJ041** 0.264 0.736 FJ041 G2_AD
## **FJ048** 0.2 0.8 FJ048 G2_AD
## **FJ061** 0.446 0.554 FJ061 G2_AD
## **FJ064** 0.429 0.571 FJ064 G2_AD
## **FJ067** 0.261 0.739 FJ067 G2_AD
## **FJ069** 0.336 0.664 FJ069 G2_AD
## **FJ077** 0.19 0.81 FJ077 G2_AD
## **FJ080** 0.285 0.715 FJ080 G2_AD
## **FJ091** 0.556 0.444 FJ091 G1_N_AD
## **FJ098** 0.249 0.751 FJ098 G2_AD
## **FJ100** 0.297 0.703 FJ100 G2_AD
## **FJ_FJA03** 0.48 0.52 FJ_FJA03 G2_AD
## **FJ_FJB08** 0.508 0.492 FJ_FJB08 G1_N_AD
## **FJ_FJB09** 0.392 0.608 FJ_FJB09 G2_AD
## **FJ_FJC04** 0.443 0.557 FJ_FJC04 G2_AD
## **FJ_FJE01** 0.236 0.764 FJ_FJE01 G2_AD
## **FJ_FJE02** 0.326 0.674 FJ_FJE02 G2_AD
## **FJ_FJE03** 0.376 0.624 FJ_FJE03 G2_AD
## **FJ_FJE06** 0.482 0.518 FJ_FJE06 G2_AD
## **FJ_FJE08** 0.436 0.564 FJ_FJE08 G2_AD
## **FJ_FJF02** 0.318 0.682 FJ_FJF02 G2_AD
## **FJ_FJF09** 0.545 0.455 FJ_FJF09 G1_N_AD
## **FJ_FJH01** 0.466 0.534 FJ_FJH01 G2_AD
## **FJ_FJH07** 0.288 0.712 FJ_FJH07 G2_AD
## **FJ_FJI02** 0.347 0.653 FJ_FJI02 G2_AD
## **FJ_FJI09** 0.471 0.529 FJ_FJI09 G2_AD
## **FJ_FJJ06** 0.367 0.633 FJ_FJJ06 G2_AD
## **JK001** 0.67 0.33 JK001 G1_N_AD
## **JK006** 0.666 0.334 JK006 G1_N_AD
## **JK007** 0.598 0.402 JK007 G1_N_AD
## **JK009** 0.659 0.341 JK009 G1_N_AD
## **JK010** 0.682 0.318 JK010 G1_N_AD
## **JK015** 0.737 0.263 JK015 G1_N_AD
## **JK024** 0.725 0.275 JK024 G1_N_AD
## **JK031** 0.606 0.394 JK031 G1_N_AD
## **JK032** 0.51 0.49 JK032 G1_N_AD
## **JK034** 0.578 0.422 JK034 G1_N_AD
## **JK036** 0.606 0.394 JK036 G1_N_AD
## **JK038** 0.598 0.402 JK038 G1_N_AD
## **JK040** 0.717 0.283 JK040 G1_N_AD
## **JK056** 0.758 0.242 JK056 G1_N_AD
## **JK057** 0.69 0.31 JK057 G1_N_AD
## **JK060** 0.708 0.292 JK060 G1_N_AD
## **JK074** 0.762 0.238 JK074 G1_N_AD
## **JK088** 0.855 0.145 JK088 G1_N_AD
## **JK_JKB02** 0.695 0.305 JK_JKB02 G1_N_AD
## **JK_JKB05** 0.728 0.272 JK_JKB05 G1_N_AD
## **JK_JKB06** 0.623 0.377 JK_JKB06 G1_N_AD
## **JK_JKB07** 0.703 0.297 JK_JKB07 G1_N_AD
## **JK_JKC08** 0.734 0.266 JK_JKC08 G1_N_AD
## **JK_JKD01** 0.81 0.19 JK_JKD01 G1_N_AD
## **JK_JKD08** 0.736 0.264 JK_JKD08 G1_N_AD
## **JK_JKE03** 0.811 0.189 JK_JKE03 G1_N_AD
## **JK_JKF04** 0.578 0.422 JK_JKF04 G1_N_AD
## **JK_JKF10** 0.601 0.399 JK_JKF10 G1_N_AD
## **JK_JKG04** 0.626 0.374 JK_JKG04 G1_N_AD
## **JK_JKH06** 0.734 0.266 JK_JKH06 G1_N_AD
## **JK_JKH07** 0.724 0.276 JK_JKH07 G1_N_AD
## **JK_JKI06** 0.672 0.328 JK_JKI06 G1_N_AD
## **JK_JKJ01** 0.58 0.42 JK_JKJ01 G1_N_AD
## **JZ003** 0.47 0.53 JZ003 G2_AD
## **JZ016** 0.136 0.864 JZ016 G2_AD
## **JZ022** 0.821 0.179 JZ022 G1_N_AD
## **JZ023** 0.45 0.55 JZ023 G2_AD
## **JZ024** 0.226 0.774 JZ024 G2_AD
## **JZ027** 0.269 0.731 JZ027 G2_AD
## **JZ028** 0.224 0.776 JZ028 G2_AD
## **JZ032** 0.24 0.76 JZ032 G2_AD
## **JZ033** 0.4 0.6 JZ033 G2_AD
## **JZ045** 0.316 0.684 JZ045 G2_AD
## **JZ058** 0.621 0.379 JZ058 G1_N_AD
## **JZ062** 0.345 0.655 JZ062 G2_AD
## **JZ064** 0.351 0.649 JZ064 G2_AD
## **JZ066** 0.25 0.75 JZ066 G2_AD
## **JZ072** 0.49 0.51 JZ072 G2_AD
## **JZ075** 0.445 0.555 JZ075 G2_AD
## **JZ076** 0.273 0.727 JZ076 G2_AD
## **JZ078** 0.667 0.333 JZ078 G1_N_AD
## **JZ090** 0.574 0.426 JZ090 G1_N_AD
## **JZ091** 0.648 0.352 JZ091 G1_N_AD
## **JZ095** 0.75 0.25 JZ095 G1_N_AD
## **JZ097** 0.565 0.435 JZ097 G1_N_AD
## **JZ098** 0.726 0.274 JZ098 G1_N_AD
## **JZ_JZA02** 0.382 0.618 JZ_JZA02 G2_AD
## **JZ_JZA04** 0.264 0.736 JZ_JZA04 G2_AD
## **JZ_JZA09** 0.52 0.48 JZ_JZA09 G1_N_AD
## **JZ_JZB04** 0.485 0.515 JZ_JZB04 G2_AD
## **JZ_JZB06** 0.342 0.658 JZ_JZB06 G2_AD
## **JZ_JZB08** 0.483 0.517 JZ_JZB08 G2_AD
## **JZ_JZC01** 0.382 0.618 JZ_JZC01 G2_AD
## **JZ_JZC06** 0.258 0.742 JZ_JZC06 G2_AD
## **JZ_JZC08** 0.369 0.631 JZ_JZC08 G2_AD
## **JZ_JZD01** 0.452 0.548 JZ_JZD01 G2_AD
## **CR_JZD03** 0.499 0.501 CR_JZD03 G2_AD
## **JZ_JZE02** 0.564 0.436 JZ_JZE02 G1_N_AD
## **JZ_JZE09** 0.566 0.434 JZ_JZE09 G1_N_AD
## **JZ_JZF01** 0.302 0.698 JZ_JZF01 G2_AD
## **JZ_JZF02** 0.425 0.575 JZ_JZF02 G2_AD
## **JZ_JZF03** 0.543 0.457 JZ_JZF03 G1_N_AD
## **JZ_JZF04** 0.367 0.633 JZ_JZF04 G2_AD
## **FJ_JZG02** 0.421 0.579 FJ_JZG02 G2_AD
## **JZ_JZG03** 0.467 0.533 JZ_JZG03 G2_AD
## **JZ_JZH08** 0.54 0.46 JZ_JZH08 G1_N_AD
## **JZ_JZI05** 0.535 0.465 JZ_JZI05 G1_N_AD
## **JZ_JZI08** 0.576 0.424 JZ_JZI08 G1_N_AD
## **JZ_JZI09** 0.46 0.54 JZ_JZI09 G2_AD
## **JZ_JZI10** 0.547 0.453 JZ_JZI10 G1_N_AD
## **JZ_JZJ05** 0.434 0.566 JZ_JZJ05 G2_AD
## **JZ_JZJ06** 0.52 0.48 JZ_JZJ06 G1_N_AD
## **JZ_JZJ09** 0.61 0.39 JZ_JZJ09 G1_N_AD
## **JZ_JZK02** 0.552 0.448 JZ_JZK02 G1_N_AD
## **XR007** 0.669 0.331 XR007 G1_N_AD
## **XR024** 0.701 0.299 XR024 G1_N_AD
## **XR026** 0.835 0.165 XR026 G1_N_AD
## **XR029** 0.742 0.258 XR029 G1_N_AD
## **XR033** 0.716 0.284 XR033 G1_N_AD
## **XR041** 0.741 0.259 XR041 G1_N_AD
## **XR048** 0.704 0.296 XR048 G1_N_AD
## **XR053** 0.723 0.277 XR053 G1_N_AD
## **XR055** 0.682 0.318 XR055 G1_N_AD
## **XR056** 0.655 0.345 XR056 G1_N_AD
## **XR062** 0.795 0.205 XR062 G1_N_AD
## **XR074** 0.704 0.296 XR074 G1_N_AD
## **XR078** 0.756 0.244 XR078 G1_N_AD
## **XR080** 0.731 0.269 XR080 G1_N_AD
## **XR084** 0.675 0.325 XR084 G1_N_AD
## **XR095** 0.708 0.292 XR095 G1_N_AD
## **XR096** 0.518 0.482 XR096 G1_N_AD
## **XR_XRA09** 0.804 0.196 XR_XRA09 G1_N_AD
## **XR_XRB06** 0.823 0.177 XR_XRB06 G1_N_AD
## **XR_XRB07** 0.796 0.204 XR_XRB07 G1_N_AD
## **XR_XRC01** 0.82 0.18 XR_XRC01 G1_N_AD
## **XR_XRC02** 0.807 0.193 XR_XRC02 G1_N_AD
## **XR_XRC08** 0.765 0.235 XR_XRC08 G1_N_AD
## **XR_XRC09** 0.843 0.157 XR_XRC09 G1_N_AD
## **XR_XRD01** 0.856 0.144 XR_XRD01 G1_N_AD
## **XR_XRD05** 0.855 0.145 XR_XRD05 G1_N_AD
## **XR_XRE04** 0.81 0.19 XR_XRE04 G1_N_AD
## **XR_XRE10** 0.67 0.33 XR_XRE10 G1_N_AD
## **XR_XRF03** 0.635 0.365 XR_XRF03 G1_N_AD
## **XR_XRF04** 0.773 0.227 XR_XRF04 G1_N_AD
## **XR_XRG01** 0.851 0.149 XR_XRG01 G1_N_AD
## **XR_XRG03** 0.782 0.218 XR_XRG03 G1_N_AD
## **XR_XRG04** 0.867 0.133 XR_XRG04 G1_N_AD
## **XR_XRG09** 0.839 0.161 XR_XRG09 G1_N_AD
## **XR_XRH02** 0.787 0.213 XR_XRH02 G1_N_AD
## **XR_XRI04** 0.692 0.308 XR_XRI04 G1_N_AD
## **XR_XRI10** 0.545 0.455 XR_XRI10 G1_N_AD
## **XR_XRJ08** 0.579 0.421 XR_XRJ08 G1_N_AD
## **XR_XRK02** 0.448 0.552 XR_XRK02 G2_AD
##
##表:預測之細節
比較腺瘤(JZ/FJ)與未患病(JK/XR)
##
## | | |
## |:-------------:|:---:|
## | 訓練資料| 637 |
## | 測試資料 | 160 |
##
##表:訓練及測試樣本之數目
##
## 訪問:
## 隨機森林(式=類型~ .,資料=訓練資料,重要性=TRUE,樹之數目=1000)
## 隨機森林之類型:分類
## 樹之數目:1000
##在各分枝下嘗試之變量數目:18
##
## OOB評估之錯誤率:4.71%
##混淆矩陣:
## G1_H G2_AD類別.誤差
## G1_H 293 18 0.05787781
## G2_AD 12 314 0.03680982(亦參見圖17及圖18)
##
##
## | G1_H | G2_AD |平均降低準確度|平均降低基尼| Otu名稱 |
## |:-----:|:-----:|:--------------------:|:----------------:|:-------:|
## | 11.49 | 13.59 | 15.38 | 7.3 | Otu241 |
## | 11.8 | 9.956 | 13.61 | 5.848 | Otu23 |
## | 11.28 | 11.53 | 13.61 | 4.946 | Otu61 |
## | 11.29 | 9.249 | 12.83 | 4.604 | Otu860 |
## | 9.019 | 9.619 | 11.99 | 3.636 | Otu143 |
## | 9.243 | 11.09 | 11.85 | 2.599 | Otu188 |
## | 10.44 | 9.803 | 11.62 | 4.609 | Otu2227 |
## | 9.124 | 9.901 | 11.58 | 3.602 | Otu88 |
## | 10.29 | 8.351 | 11.54 | 4.16 | Otu49 |
## | 8.66 | 9.76 | 10.86 | 3.935 | Otu1432 |
##
##表:平均降低準確度之前10個最重要變量
##混淆矩陣及統計資料
##
## 參考
## 預測G1_H G2_AD
## G1_H 74 4
## G2_AD 10 72
##
## 準確度:0.9125
## 95% CI : (0.8575, 0.9513)
## 無資訊率:0.525
## P-值 [Acc > NIR] : <2e-16
##
## κ:0.8252
## Mcnemar之測試P-值:0.1814
##
## 敏感度:0.8810
## 特異性:0.9474
## 正預測值:0.9487
## 負預測值:0.8780
## 盛行率:0.5250
## 偵測速率:0.4625
## 偵測盛行率:0.4875
## 平衡準確度: 0.9142
##
## 「正」類別:G1_H
##
##
##
## G1_H G2_AD 標記 預測
## --------- ------- ------- ---------- ------------
## **5** 0.337 0.663 FJ005 G2_AD
## **9** 0.28 0.72 FJ009 G2_AD
## **12** 0.206 0.794 FJ012 G2_AD
## **13** 0.284 0.716 FJ013 G2_AD
## **19** 0.322 0.678 FJ019 G2_AD
## **33** 0.394 0.606 FJ033 G2_AD
## **34** 0.293 0.707 FJ034 G2_AD
## **43** 0.329 0.671 FJ043 G2_AD
## **46** 0.268 0.732 FJ046 G2_AD
## **54** 0.312 0.688 FJ054 G2_AD
## **63** 0.305 0.695 FJ063 G2_AD
## **76** 0.195 0.805 FJ076 G2_AD
## **83** 0.2 0.8 FJ083 G2_AD
## **87** 0.242 0.758 FJ087 G2_AD
## **90** 0.24 0.76 FJ090 G2_AD
## **92** 0.367 0.633 FJ092 G2_AD
## **94** 0.328 0.672 FJ094 G2_AD
## **98** 0.305 0.695 FJ098 G2_AD
## **99** 0.362 0.638 FJ099 G2_AD
## **100** 0.334 0.666 FJ100 G2_AD
## **117** 0.403 0.597 FJ_FJB07 G2_AD
## **120** 0.422 0.578 FJ_FJB10 G2_AD
## **129** 0.472 0.528 FJ_FJC10 G2_AD
## **130** 0.366 0.634 FJ_FJD01 G2_AD
## **132** 0.423 0.577 FJ_FJD03 G2_AD
## **135** 0.54 0.46 FJ_FJD06 G1_H
## **136** 0.404 0.596 FJ_FJD07 G2_AD
## **137** 0.385 0.615 FJ_FJD08 G2_AD
## **146** 0.364 0.636 FJ_FJE07 G2_AD
## **153** 0.242 0.758 FJ_FJF04 G2_AD
## **160** 0.432 0.568 FJ_FJG01 G2_AD
## **162** 0.502 0.498 FJ_FJG03 G1_H
## **164** 0.5 0.5 FJ_FJG05 G1_H
## **168** 0.472 0.528 FJ_FJG09 G2_AD
## **169** 0.415 0.585 FJ_FJG10 G2_AD
## **170** 0.539 0.461 FJ_FJH01 G1_H
## **177** 0.275 0.725 FJ_FJH08 G2_AD
## **179** 0.279 0.721 FJ_FJH10 G2_AD
## **184** 0.28 0.72 FJ_FJI05 G2_AD
## **190** 0.438 0.562 FJ_FJJ01 G2_AD
## **196** 0.25 0.75 JZ_FJJ07 G2_AD
## **199** 0.308 0.692 FJ_FJJ10 G2_AD
## **202** 0.54 0.46 JK002 G1_H
## **208** 0.605 0.395 JK008 G1_H
## **210** 0.74 0.26 JK010 G1_H
## **213** 0.741 0.259 JK013 G1_H
## **219** 0.79 0.21 JK019 G1_H
## **223** 0.72 0.28 JK023 G1_H
## **233** 0.648 0.352 JK033 G1_H
## **236** 0.701 0.299 JK036 G1_H
## **241** 0.663 0.337 JK041 G1_H
## **248** 0.591 0.409 JK048 G1_H
## **261** 0.695 0.305 JK061 G1_H
## **264** 0.721 0.279 JK064 G1_H
## **267** 0.771 0.229 JK067 G1_H
## **269** 0.726 0.274 JK069 G1_H
## **277** 0.716 0.284 JK077 G1_H
## **280** 0.738 0.262 JK080 G1_H
## **291** 0.749 0.251 JK091 G1_H
## **298** 0.843 0.157 JK098 G1_H
## **300** 0.693 0.307 JK_JKA01 G1_H
## **303** 0.499 0.501 JK_JKA04 G2_AD
## **318** 0.747 0.253 JK_JKB09 G1_H
## **319** 0.726 0.274 JK_JKB10 G1_H
## **323** 0.685 0.315 JK_JKC04 G1_H
## **340** 0.799 0.201 JK_JKE01 G1_H
## **341** 0.733 0.267 JK_JKE02 G1_H
## **342** 0.799 0.201 JK_JKE03 G1_H
## **345** 0.733 0.267 JK_JKE06 G1_H
## **347** 0.731 0.269 JK_JKE08 G1_H
## **351** 0.634 0.366 JK_JKF02 G1_H
## **358** 0.62 0.38 JK_JKF09 G1_H
## **370** 0.702 0.298 JK_JKH01 G1_H
## **376** 0.702 0.298 JK_JKH07 G1_H
## **381** 0.686 0.314 JK_JKI02 G1_H
## **388** 0.74 0.26 JK_JKI09 G1_H
## **395** 0.813 0.187 JK_JKJ06 G1_H
## **401** 0.264 0.736 JZ002 G2_AD
## **406** 0.254 0.746 JZ007 G2_AD
## **407** 0.439 0.561 JZ008 G2_AD
## **409** 0.273 0.727 JZ010 G2_AD
## **410** 0.363 0.637 JZ011 G2_AD
## **415** 0.102 0.898 JZ016 G2_AD
## **424** 0.199 0.801 JZ025 G2_AD
## **431** 0.308 0.692 JZ032 G2_AD
## **432** 0.23 0.77 JZ033 G2_AD
## **434** 0.193 0.807 JZ035 G2_AD
## **436** 0.263 0.737 JZ037 G2_AD
## **438** 0.369 0.631 JZ039 G2_AD
## **440** 0.174 0.826 JZ041 G2_AD
## **456** 0.355 0.645 JZ057 G2_AD
## **457** 0.414 0.586 JZ058 G2_AD
## **460** 0.146 0.854 JZ061 G2_AD
## **474** 0.344 0.656 JZ075 G2_AD
## **488** 0.233 0.767 JZ089 G2_AD
## **511** 0.35 0.65 JZ_JZB02 G2_AD
## **514** 0.432 0.568 JZ_JZB05 G2_AD
## **515** 0.296 0.704 JZ_JZB06 G2_AD
## **516** 0.408 0.592 JZ_JZB07 G2_AD
## **527** 0.356 0.644 JZ_JZC09 G2_AD
## **530** 0.288 0.712 JZ_JZD02 G2_AD
## **537** 0.306 0.694 JZ_JZE01 G2_AD
## **542** 0.306 0.694 JZ_JZE06 G2_AD
## **553** 0.256 0.744 JZ_JZF07 G2_AD
## **559** 0.332 0.668 JZ_JZG03 G2_AD
## **563** 0.218 0.782 JZ_JZG07 G2_AD
## **575** 0.377 0.623 JZ_JZH10 G2_AD
## **576** 0.186 0.814 JZ_JZI01 G2_AD
## **585** 0.474 0.526 JZ_JZJ01 G2_AD
## **590** 0.421 0.579 JZ_JZJ06 G2_AD
## **602** 0.604 0.396 XR005 G1_H
## **615** 0.616 0.384 XR018 G1_H
## **621** 0.623 0.377 XR024 G1_H
## **622** 0.565 0.435 XR025 G1_H
## **623** 0.739 0.261 XR026 G1_H
## **626** 0.668 0.332 XR029 G1_H
## **627** 0.551 0.449 XR030 G1_H
## **631** 0.424 0.576 XR034 G2_AD
## **632** 0.51 0.49 XR035 G1_H
## **644** 0.563 0.437 XR047 G1_H
## **657** 0.709 0.291 XR060 G1_H
## **661** 0.715 0.285 XR064 G1_H
## **663** 0.775 0.225 XR066 G1_H
## **665** 0.666 0.334 XR068 G1_H
## **671** 0.727 0.273 XR074 G1_H
## **674** 0.673 0.327 XR077 G1_H
## **675** 0.769 0.231 XR078 G1_H
## **677** 0.672 0.328 XR080 G1_H
## **689** 0.755 0.245 XR092 G1_H
## **690** 0.74 0.26 XR093 G1_H
## **694** 0.261 0.739 XR097 G2_AD
## **696** 0.433 0.567 XR099 G2_AD
## **697** 0.413 0.587 XR100 G2_AD
## **701** 0.863 0.137 XR_XRA04 G1_H
## **703** 0.755 0.245 XR_XRA06 G1_H
## **708** 0.832 0.168 XR_XRB01 G1_H
## **713** 0.83 0.17 XR_XRB08 G1_H
## **715** 0.812 0.188 XR_XRB10 G1_H
## **717** 0.798 0.202 XR_XRC02 G1_H
## **720** 0.835 0.165 XR_XRC05 G1_H
## **725** 0.853 0.147 XR_XRC10 G1_H
## **727** 0.781 0.219 XR_XRD02 G1_H
## **730** 0.817 0.183 XR_XRD05 G1_H
## **732** 0.873 0.127 XR_XRD07 G1_H
## **740** 0.543 0.457 XR_XRE07 G1_H
## **747** 0.817 0.183 XR_XRF04 G1_H
## **749** 0.847 0.153 XR_XRF07 G1_H
## **750** 0.785 0.215 XR_XRF08 G1_H
## **751** 0.843 0.157 XR_XRF09 G1_H
## **752** 0.816 0.184 XR_XRF10 G1_H
## **760** 0.689 0.311 XR_XRG08 G1_H
## **761** 0.841 0.159 XR_XRG09 G1_H
## **775** 0.696 0.304 XR_XRI03 G1_H
## **782** 0.567 0.433 XR_XRI10 G1_H
## **784** 0.34 0.66 XR_XRJ02 G2_AD
## **785** 0.48 0.52 XR_XRJ03 G2_AD
## **786** 0.377 0.623 XR_XRJ04 G2_AD
## **791** 0.401 0.599 FJ_XRJ09 G2_AD
## **792** 0.391 0.609 XR_XRJ10 G2_AD
## **795** 0.409 0.591 XR_XRK03 G2_AD
##
##表:預測之細節
預測 : 多組
類似於對CR及NM之預測,吾等僅使用第2批來建構多組分類器,且產生經獨立獲得之第3批樣本之預測結果。分類器之效能自分類中之0.935顯著下降至0.601的整體準確度(表6)。CR、AD及NP之靈敏度分別下降至0.9、0.156及0.9,且特異性下降至0.975、0.950及0.418。
當應用於獨立樣本時,多組分類器之效能顯著下降與具有低偏差之CR及NM分類器形成驚人對比。實際上,將腺瘤與癌症及正常區分通常為更困難的問題(17)。除此之外,吾等具有少量樣本以構建分類器且具有如早期所展示之相對大的批次效應。當樣本合併在一起用於多組分類時,高準確度最可能歸因於分類器能夠獲取批次效應之事實,其為與表示生物信號之特徵相比更主要的可辨別特徵。
為了解決批次效應之問題,吾等應用最近開發的方法(16),該方法特異性地靶向用於病例對照微生物群研究之批次效應。令人遺憾地,該方法在當前研究中收效甚微。
接著,受多組分類研究啟發,吾等研究添加策略之可行性,其中吾等使用一定數目之具有已知標記之樣本與待預測之新樣本一起處理。依此方式,吾等可直接包括吾等模型中之批次效應。圖4展示包括各組之增加的樣本數目對整體準確度之影響。CR組之準確度始終高,且NM及PL預測持續地變得更好,且每組樣本中之效能穩定在約60個添加。此結果展示解決批次效應之問題的潛在方法,其代價為將一定數目之樣本與各批次之新樣本一起再定序。添加實驗之詳細分析在下文給出。
使用獨立訓練及測試樣本之多組預測
1.使用otutab_norm.txt進行隨機森林分類,使用第一批來建構模型,隨後對第二批進行預測:
##
## | |
## |:-------------------:|
## | batch1_otu_norm.txt |
##
##表:經標準化OTU表路徑
##
##
## | 樣本大小 | OTU數目 |
## |:-----------:|:--------:|
## | 500 | 341 |
##
##表:在特徵選擇之後,樣本及OTU之總數
##
##訪問:
##隨機森林(式=類型~ .,資料=訓練資料,重要性=TRUE,樹之數目=1000,鄰近度=TRUE)
## 隨機森林之類型:分類
## 樹之數目1000
##在各分枝下嘗試之變量數目:18
##
## OOB評估之錯誤率:3%
##混淆矩陣:
## CR JK JZ 類別.誤差
## CR 97 0 3 0.03
## JK 0 190 10 0.05
## JZ 0 2 198 0.01
## 敏感度 特異性 正預測值 負預測值 精確度
## 類別:CR 0.9100000 0.9699248 0.8834951 0.9772727 0.8834951
##類別:JK 0.1809045 0.9300000 0.6315789 0.6312217 0.6315789
##類別: JZ 0.8600000 0.4414716 0.5073746 0.8250000 0.5073746
## 再訪問 F1盛行率 偵測速率
##類別:CR 0.9100000 0.8965517 0.2004008 0.18236473
##類別:JK 0.1809045 0.2812500 0.3987976 0.07214429
##類別:JZ 0.8600000 0.6382189 0.4008016 0.34468938
## 偵測盛行率 平衡準確度
##類別:CR 0.2064128 0.9399624
##類別:JK 0.1142285 0.5554523
##類別: JZ 0.6793587 0.6507358
(亦參見圖19)
2.添加預測
在第二批之五個組(CR、JZ、FJ、XR、JK)中之各者添加十個額外樣本的增量之情況下,使用第一批建構模型,隨後對第二批中之剩餘樣本進行預測。此量測由模型擷取批次效應之影響。
敏感度變化、特異性變化及整體準確度變化分別展示於圖20至圖22中。
論述
在此研究中,吾等僅基於OTU組合物來開發CRC與健康之二進位分類器,且證實此分類器在獨立資料上運行良好,達成96%的準確度。同時,吾等展示此結果未受可為研究中之干擾因子之年齡及性別的干擾。此等結果在三個態樣中不同於大多數前述研究:特徵僅由OTU組成,且除某些品質控制以外未手動篩選,旨在避免罕見的OTU且減少污染的可能性(從而改善模型偏差);在完全獨立的資料上測試分類器;且吾等控制明顯的干擾因子。吾等進一步分析大多數可辨別OTU之分類標註,該等標註大部分與文獻發現一致。
吾等進一步展示,當不同批次之資料合併在一起時,多組分類器達成高準確度。但吾等進一步展示,此受批次效應干擾,在當前情形下,該等批次效應超過真實生物信號。此結果指示,與癌症與正常之間的二進制分類相比,其為更困難的,且其次,除此之外,吾等可能需要更多樣本以適當地訓練分類器,存在由陽性對照樣本之分析反映出之顯著批次效應。
分析再現性及批次效應為微生物群研究中之常見問題,且有時批次效應不容易校正。吾等提出添加策略以藉由將已知樣本之集合與待預測的各新批次之樣本一起處理來解決批次效應,但此策略必然會提高處理成本。吾等承認此策略需要進一步驗證。
總而言之,分析再現性及消除批次效應為使用微生物群成分之診斷中之至關重要的因素,且任何分類方法需要獨立驗證以避免過度擬合的結果。隨著分析穩定性之提高,吾等提出策略充當用於偵測CRC及其早期階段之有前景的方法。
除非另外規定,否則本文中之所有技術及科學術語具有與一般熟習此項技術者中之一者通常所理解的相同的含義。儘管可使用與本文中所描述之方法及材料類似或等效的任何方法及材料實踐或測試本發明,但在本文中描述較佳方法及材料。出於所有目的,所引用之所有公開案、專利及專利公開案均以全文引用之方式併入本文中。
本文中論述之公開案僅僅提供在本申請案之申請日之前的揭示內容。本文不應解釋為承認本發明無權先於藉助於先前發明之此類公開案。
儘管本發明已結合其特定實施例進行描述,但應瞭解,其能夠進行進一步修改,且本申請案意欲涵蓋本發明之任何變化、使用或修改,其通常遵循本發明之原理且包括在關於本發明之此項技術內已知或慣用實踐範圍內出現的與本發明的此類偏離,且可應用於上文闡述之基本特徵,且遵循所附申請專利範圍之範疇。
參考文獻
1. E. L. Amitay, A. Krilaviciute, and H. Brenner. Systematic review: Gut microbiota in fecal samples and detection of colorectal neoplasms.Gut microbes
, pages 1-25, Mar. 2018.
2. M. Balvociute and D. H. Huson. Silva, rdp, greengenes, ncbi and ott - how do these taxonomies compare?BMC genomics
, 18:114, Mar. 2017.
3. N. T. Baxter, M. T. Ruffin, M. A. M. Rogers, and P. D. Schloss. Microbiota-based model improves the sensitivity of fecal immunochemical test for detecting colonic lesions.Genome medicine
, 8:37, Apr. 2016.
4. S. Bullman, C. S. Pedamallu, E. Sicinska, T. E. Clancy, X. Zhang, D. Cai, D. Neuberg, K. Huang, F. Guevara, T. Nelson, O. Chipashvili, T. Hagan, M. Walker, A. Ramachandran, B. Diosdado, G. Serna, N. Mulet, S. Landolfi, S. Ramon Y Cajal, R. Fasani, A. J. Aguirre, K. Ng, E. lez, S. Ogino, J. Tabernero, C. S. Fuchs, W. C. Hahn, P. Nuciforo, and M. Meyerson. Analysis of fusobacterium persistence and antibiotic response in colorectal cancer.Science (New York, N.Y.)
, 358:1443-1448, Dec. 2017.
5. D. Capper, D. T. W. Jones, M. Sill, V. Hovestadt, D. Schrimpf, andet al.
DNA methylation-based classification of central nervous system tumours.Nature
, 555:469-474, Mar. 2018.
6. L. Chung, E. T. Orberg, A. L. Geis, J. L. Chan, K. Fu, C. E. DeStefano Shields, C. M. Dejea, P. Fathi, J. Chen, B. B. Finard, A. J. Tam, F. McAllister, H. Fan, X. Wu, S. Ganguly, A. Lebid, P. Metz, S. W. Van Meerbeke, D. L. Huso, E. C. Wick, D. M. Pardoll, F. Wan, S. Wu, C. L. Sears, and F. Housseau. Bacteroides fragilis toxin coordinates a pro-carcinogenic inflammatory cascade via targeting of colonic epithelial cells.Cell host & microbe
, 23:421, Mar. 2018.
7. J. R. Cole, Q. Wang, J. A. Fish, B. Chai, D. M. McGarrell, Y. Sun, C. T. Brown, A. Porras-Alfaro, C. R. Kuske, and J. M. Tiedje. Ribosomal database project: data and tools for high throughput rrna analysis.Nucleic acids research
, 42:D633-D642, Jan. 2014.
8. H. M. P. Consortium. Structure, function and diversity of the healthy human microbiome.Nature
, 486:207-214, June 2012.
9. Z. Dai, O. O. Coker, G. Nakatsu, W. K. K. Wu, L. Zhao, Z. Chen, F. K. L. Chan, K. Kristiansen, J. J. Y. Sung, S. H. Wong, and J. Yu. Multi-cohort analysis of colorectal cancer metagenome identified altered bacteria across populations and universal bacterial markers.Microbiome
, 6:70, Apr. 2018.
10. C. M. Dejea, P. Fathi, J. M. Craig, A. Boleij, R. Taddese, A. L. Geis, X. Wu, C. E. DeStefano Shields, E. M. Hechenbleikner, D. L. Huso, R. A. Anders, F. M. Giardiello, E. C. Wick, H. Wang, S. Wu,
D. M. Pardoll, F. Housseau, and C. L. Sears. Patients with familial adenomatous polyposis harbor colonic biofilms containing tumorigenic bacteria.Science (New York, N.Y.)
, 359:592-597, Feb. 2018.
11. R. Edgar. Sintax: a simple non-bayesian taxonomy classifier for 16s and its sequences. Technical report, 2016.
12. R. C. Edgar. Uparse: highly accurate otu sequences from microbial amplicon reads.Nature methods
, 10:996-998, Oct. 2013.
13. V. Eklof, A. Lofgren-Burstrom, C. Zingmark, S. Edin, P. Larsson,
P. Karling, O. Alexeyev, J. Rutegard, M. L. Wikberg, and R. Palmqvist. Cancer-associated fecal microbial markers in colorectal cancer detection.International journal of cancer
, 141:2528-2536, Dec. 2017.
14. R. M. Ferreira, J. Pereira-Marques, I. Pinto-Ribeiro, J. L. Costa,
F. Carneiro, J. C. Machado, and C. Figueiredo. Gastric microbial community profiling reveals a dysbiotic cancer-associated microbiota.Gut
, 67:226-236, Feb. 2018.
15. W. S. Garrett. Cancer and the microbiota.Science (New York, N.Y.)
, 348:80-86, Apr. 2015.
16. S. M. Gibbons, C. Duvallet, and E. J. Alm. Correcting for batch effects in case-control microbiome studies.PLoS computational biology
, 14:e1006102, Apr. 2018.
17. V. L. Hale, J. Chen, S. Johnson, S. C. Harrington, T. C. Yab, T. C. Smyrk,
H. Nelson, L. A. Boardman, B. R. Druliner, T. R. Levin, D. K. Rex,
18. D. J. Ahnen, P. Lance, D. A. Ahlquist, and N. Chia. Shifts in the fecal microbiota associated with adenomatous polyps.Cancer epidemiology, biomarkers & prevention : a publication of the American Association for Cancer Research, cosponsored by the American Society of Preventive
19. J. A. Joyce and D. T. Fearon. T cell exclusion, immune privilege, and the tumor microenvironment.Science (New York, N.Y.)
, 348:74-80, Apr. 2015.
20. J. S. Lin, M. A. Piper, L. A. Perdue, C. M. Rutter, E. M. Webber,E. O'Connor, N. Smith, and E. P. Whitlock. Screening for colorectal cancer: Updated evidence report and systematic review for the us preventive services task force.JAMA
, 315:2576-2594, June 2016.
21. G. Nakatsu, X. Li, H. Zhou, J. Sheng, S. H. Wong, W. K. K. Wu, S. C. Ng, H. Tsoi, Y. Dong, N. Zhang, Y. He, Q. Kang, L. Cao, K. Wang, J. Zhang, Q. Liang, J. Yu, and J. J. Y. Sung. Gut mucosal microbiome across stages of colorectal carcinogenesis.Nature communications
, 6:8727, Oct. 2015.
22. R. V. Purcell, M. Visnovska, P. J. Biggs, S. Schmeier, and F. A. Frizelle. Distinct gut microbiome patterns associate with consensus molecular subtypes of colorectal cancer.Scientific reports
, 7:11590, Sept. 2017.
23. C. Quast, E. Pruesse, P. Yilmaz, J. Gerken, T. Schweer, P. Yarza, J. Peplies, and F. O. Glckner. The silva ribosomal rna gene database project: improved data processing and web-based tools.Nucleic acids research
, 41:D590-D596, Jan. 2013.
24. Y. Sanz, M. Olivares, A´ . Moya-Pe´rez, and C. Agostoni. Understanding the role of gut microbiome in metabolic disease risk.Pediatric research
, 77(1-2):236, 2014.
25. N. Segata, J. Izard, L. Waldron, D. Gevers, L. Miropolsky, W. S. Garrett, and C. Huttenhower. Metagenomic biomarker discovery and explanation.Genome biology
, 12:R60, June 2011.
26. L. R. Thompson, J. G. Sanders, D. McDonald, A. Amir, J. Ladau, andet al
. A communal catalogue reveals earth's multiscale microbial diversity.Nature
, 551:457-463, Nov. 2017.
27. C. Urbaniak, G. B. Gloor, M. Brackstone, L. Scott, M. Tangney, and G. Reid. The microbiota of breast tissue and its association with breast cancer.Applied and environmental microbiology
, 82:5039-5048, Aug. 2016.
圖 1
描繪輸入時、合併及品質篩選步驟之後之序列片段的數目及百分比。圖 2A 及圖 2B
描繪在所有三個批次中之五個組中的年齡(圖2A)及性別(圖2B)分佈。圖 3
描繪使用年齡及性別之CR及NM分類。袋外資料(Out-of-bag;OOB)誤差由中線表明,而個別群組之錯分類誤差由其他線表示。圖 4
描繪具有添加(spike-in)之多組預測之準確度。分類器由第一批(第2批樣本)加上來自第二批(第3批樣本)之添加樣本之增加數目(由x軸指定)建構。對第二批中之剩餘樣本進行預測。圖 5
描繪用作陽性對照組的具有已知混合物之ZymoBIOMICSTM微生物群落DNA標準(ZymoBIOMICSTM Microbial Community DNA Standard)之理論組成。圖 6A
描繪三種樣本在屬層級上之皮爾森(Pearson)及斯皮爾曼(Spearman)相關性。圖 6B
描繪三種樣本在種層級上之皮爾森及斯皮爾曼相關性。圖 7A
描繪所觀測到之屬及種之數目,及在屬層級上與實況(最後一行)的重疊。圖 7B
描繪所觀測到之屬及種之數目,及在種層級上與實況(最後一行)的重疊。圖 8
描繪污染物之定序資料相對豐度在屬及種層級上之污染。圖 9
描繪當不同數目之樹用於訓練用以預測CR及NM之分類器時個別群組之錯分類誤差。圖 10
描繪與由用以預測CR及NM之受過訓練之分類器選擇的OTU相關聯之平均降低準確度及基尼係數(Gini Coefficient)的平均降低。基尼係數之平均降低為各變量如何影響所得隨機森林中之節點及樹葉之均質性的度量。導致節點純度更高之變量具有下降更多的基尼係數。圖 11
描繪當不同數目之樹用於訓練分類器時個別群組之錯分類誤差,該分類器用於預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之CR (癌症)及JK (正常)。圖 12
描繪與由受過訓練之分類器所選擇之OTU相關聯的平均降低準確度及基尼係數之平均降低,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之CR (癌症)及JK (正常)。圖 13
描繪當不同數目之樹用於訓練分類器時的個別群組之錯分類誤差,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之CR (癌症)、JZ (進展)、FJ (未進展)、XR (息肉)以及JK (正常)。圖 14
描繪與由受過訓練之分類器所選擇之OTU相關聯的平均降低準確度及基尼係數之平均降低,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之CR (癌症)、JZ (進展)、FJ (未進展)、XR (息肉)以及JK (正常)。圖 15
描繪當不同數目之樹用於訓練分類器時個別群組之錯分類誤差,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之腺瘤(包括JZ (進展)及FJ (未進展))與其餘群組(CR (癌症)、XR (息肉)及JK (正常))。圖 16
描繪與由受過訓練之分類器所選擇之OTU相關聯的平均降低準確度及基尼係數之平均降低,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之腺瘤(包括JZ (進展)及FJ (未進展))與剩餘部分。圖 17
描繪當不同數目之樹用於訓練分類器時個別群組之錯分類誤差,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之腺瘤(包括JZ (進展)及FJ (未進展))與未患病群組(XR (息肉)及JK (正常))。圖 18
描繪與由受過訓練之分類器所選擇之OTU相關聯的平均降低準確度及基尼係數之平均降低,該分類器用以預測合併有第2批及第3批糞便微生物群樣本之NuoHui 999中之腺瘤(包括JZ (進展)及FJ (未進展))與未患病群組(XR (息肉)及JK (正常))。圖 19
描繪使用獨立訓練及測試樣本之多組預測中之隨機森林相似度矩陣(Proximity Matrix)的多維尺度圖(MDSplot)。JZ (進展)、CR (癌症)、JK (正常)。圖 20
描繪當第二批中各五個組(CR、JZ、FJ、XR、JK)之不同數目的樣本添加有第一批(參考批次)中之樣本時敏感度之變化。圖 21
描繪當第二批中各五個組(CR、JZ、FJ、XR、JK)之不同數目的樣本添加有第一批(參考批次)中之樣本時特異性之變化。圖 22
描繪當第二批中各五個組(CR、JZ、FJ、XR、JK)之不同數目的樣本添加有第一批(參考批次)中之樣本時準確度之變化。
Claims (31)
- 一種將有需要之人類個體分類為患有結腸直腸癌(CRC)或為正常(NM)的電腦輔助之方法,該方法包含以下步驟: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體患有結腸直腸癌或為正常之機率。
- 一種將有需要之人類個體分類為患有結腸直腸癌(CRC)、結腸直腸腺瘤(AD)或為正常(NM)的電腦輔助之方法,該方法包含以下步驟: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體患有結腸直腸癌、結腸直腸腺瘤或為正常之機率。
- 一種將有需要之人類個體分類為患有結腸直腸癌(CRC)、息肉(PL)、非晚期腺瘤(NA)、晚期腺瘤(AA)或為正常(NM)的電腦輔助之方法,該方法包含以下步驟: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體患有結腸直腸癌、息肉、非晚期腺瘤、晚期腺瘤或為正常之機率。
- 如請求項1至3中任一項之方法,其中該OTU概況藉由以下來產生:(1)擴增存在於該樣本中之微生物核酸序列之16S rRNA高變區;(2)定序所擴增之序列;(3)基於步驟(2)之定序結果,產生存在於該糞便樣本中之獨特微生物序列清單,以形成該OTU概況,其中該清單包含各獨特微生物序列之豐度資訊。
- 如請求項4之方法,其中該16S rRNA高變區為V3-V4高變區。
- 如請求項1至3中任一項之方法,其中步驟(b)之該OTU概況包含一或多個微生物核酸序列之表現圖譜,其與SEQ ID NO. 1-345中之共同序列具有至少95%一致性。
- 如請求項1至3中任一項之方法,其中該機器學習分類器係選自由以下組成之群:決策樹分類器、K-最近相鄰分類器(KNN)、邏輯回歸分類器、最近相鄰分類器、神經網路分類器、高斯混合模型(Gaussian mixture model;GMM)、支援向量機(SVM)分類器、最近質心分類器、線性回歸分類器以及隨機森林分類器。
- 如請求項1之方法,其中該機器學習分類器已使用包含結腸直腸癌人類患者及正常人類個體之參考人類個體群之參考資料集合來訓練。
- 如請求項2之方法,其中該機器學習分類器已使用包含結腸直腸癌人類患者、結腸直腸腺瘤人類患者及正常人類個體之參考人類個體群之參考資料集合來訓練。
- 如請求項3之方法,其中該機器學習分類器已使用包含結腸直腸癌、息肉、非晚期腺瘤、晚期腺瘤及正常人類個體之參考人類個體群之參考資料集合來訓練。
- 如請求項8之方法,其中該參考資料藉由包含以下步驟之方法來產生: (1)獲得作為訓練樣本之人類個體糞便樣本之集合,其中該等糞便樣本自結腸直腸癌人類患者及正常人類個體收集; (2)對於該集合中之各糞便樣本, (i)擴增細菌核酸序列之16S rRNA高變區, (ii)定序所擴增之序列;及 (iii)產生存在於該樣本中之獨特微生物序列清單,其中該清單包含各獨特微生物序列之豐度資訊; (3)將在步驟(2)中所獲得之該等獨特微生物序列清單分組,以形成作為該參考資料的參考OTU矩陣,其中該參考矩陣包含各糞便樣本之各獨特微生物序列之豐度資訊。
- 如請求項9之方法,其中該參考資料藉由包含以下步驟之方法來產生: (1)獲得作為訓練樣本之人類個體糞便樣本之集合,其中該等糞便樣本自結腸直腸癌人類患者、結腸直腸腺瘤人類患者及正常人類個體收集; (2)對於該集合中之各糞便樣本, (i)擴增細菌核酸序列之16S rRNA高變區, (ii)定序所擴增之序列;及 (iii)產生存在於該樣本中之獨特微生物序列清單,其中該清單包含各獨特微生物序列之豐度資訊; (3)將在步驟(2)中所獲得之該等獨特微生物序列清單分組,以形成作為該參考資料的參考OTU矩陣,其中該參考矩陣包含各糞便樣本之各獨特微生物序列之豐度資訊。
- 如請求項10之方法,其中該參考資料藉由包含以下步驟之方法來產生: (1)獲得作為訓練樣本之人類個體糞便樣本之集合,其中該等糞便樣本自結腸直腸癌、息肉、非晚期腺瘤、晚期腺瘤及正常人類個體收集; (2)對於該集合中之各糞便樣本, (i)擴增細菌核酸序列之16S rRNA高變區, (ii)定序所擴增之序列;及 (iii)產生存在於該樣本中之獨特微生物序列清單,其中該清單包含各獨特微生物序列之豐度資訊; (3)將在步驟(2)中所獲得之該等獨特微生物序列清單分組,以形成作為該參考資料的參考OTU矩陣,其中該參考矩陣包含各糞便樣本之各獨特微生物序列之豐度資訊。
- 如請求項9至11中任一項之方法,其中該參考OTU矩陣經標準化,使得各樣本之序列豐度之總和為相同。
- 如請求項9至11中任一項之方法,其中該參考OTU矩陣藉由經由特徵選擇來減少OTU之數目而簡化。
- 如請求項15之方法,其中該特徵選擇係移除訓練樣本中之低豐度OTU。
- 如請求項1至3中任一項之方法,其中該機器學習分類器為隨機森林分類器。
- 如請求項17之方法,其中該隨機森林之超參數使用交叉驗證方法來微調。
- 如請求項18之方法,其中該等待微調之超參數包含樹之數目、用於樹之各分枝的最大特徵之數目、及每片樹葉的最小樣本。
- 如請求項1之方法,其中該分類方法具有至少95%之準確度。
- 如請求項2之方法,其中該分類方法具有至少80%之準確度。
- 如請求項3之方法,其中該分類方法具有至少60%之準確度。
- 如請求項1之方法,其中該OTU概況包含一或多個選自由以下組成之群的OTU:
- 如請求項9至11中任一項之方法,其中該人類個體糞便樣本之集合含有從至少約50名人類個體收集之樣本。
- 如請求項4之方法,其中該定序步驟包含定序各糞便樣本之至少5,000個擴增片段。
- 一種鑑別人類個體中之結腸直腸腺瘤或結腸直腸癌的增加可能性之方法,其包含以下步驟: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體患有結腸直腸腺瘤、結腸直腸癌之可能性增加的機率。
- 一種偵測人類個體之糞便樣本中之異常的方法,其包含以下步驟: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測患者之糞便樣本中存在或不存在異常。
- 一種為患有結腸直腸腺瘤或結腸直腸癌之人類個體產生個人化治療計劃之方法,該方法包含以下步驟: (1)訂製人類個體之糞便樣本之診斷測試,其中該測試包含: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體患有結腸直腸腺瘤或結腸直腸癌之機率; (2)基於該等測試結果,產生針對該人類患者之該個人化治療計劃。
- 一種診斷及治療處於結腸直腸腺瘤或結腸直腸癌之風險下之人類個體的方法,其包含以下步驟: (1)訂製人類個體之糞便樣本之診斷測試,其中該測試包含: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體患有結腸直腸腺瘤或結腸直腸癌之機率; (2)基於步驟(1)之該等診斷結果來治療該人類個體。
- 一種監測人類個體中之結腸直腸腺瘤或結腸直腸癌之進展的方法,其包含以下步驟: (a)獲得取自該人類個體之糞便樣本; (b)產生步驟(a)中樣本之操作分類單位(OTU)概況, (c)向受過訓練之機器學習分類器提供該OTU概況; (d)執行該受過訓練之機器學習分類器,以預測該人類個體中之結腸直腸腺瘤或結腸直腸癌之階段; (e)視情況,週期性地重複步驟(a)至(d)。
- 如請求項8至10中任一項之方法,其中將從參考人類個體群收集之樣本中之核酸序列與從有需要之人類個體所收集用於擴增及定序之樣本一起處理,以產生用於訓練該分類器之參考資料集合。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862745955P | 2018-10-15 | 2018-10-15 | |
US62/745,955 | 2018-10-15 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202028745A true TW202028745A (zh) | 2020-08-01 |
Family
ID=70284779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108137148A TW202028745A (zh) | 2018-10-15 | 2019-10-15 | 用於預測或診斷癌症之方法及系統 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200194119A1 (zh) |
TW (1) | TW202028745A (zh) |
WO (1) | WO2020081445A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI827043B (zh) * | 2022-05-10 | 2023-12-21 | 中山醫學大學 | 一種以預測模型與視覺化方式建立大腸直腸癌發生第二原發癌症臨床決策支援系統的方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114300116B (zh) * | 2021-11-10 | 2023-11-28 | 安徽大学 | 一种基于在线分类算法的鲁棒性病症检测方法 |
CN116344040B (zh) * | 2023-05-22 | 2023-09-22 | 北京卡尤迪生物科技股份有限公司 | 用于肠道菌群检测的集成模型的构建方法及其检测装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018515426A (ja) * | 2015-03-12 | 2018-06-14 | ザ ユニヴァーシティ オブ ブリティッシュ コロンビア | 細菌組成物およびその使用方法 |
US20180100858A1 (en) * | 2016-10-07 | 2018-04-12 | Applied Proteomics, Inc. | Protein biomarker panels for detecting colorectal cancer and advanced adenoma |
-
2019
- 2019-10-14 WO PCT/US2019/056104 patent/WO2020081445A1/en active Application Filing
- 2019-10-15 US US16/653,154 patent/US20200194119A1/en not_active Abandoned
- 2019-10-15 TW TW108137148A patent/TW202028745A/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI827043B (zh) * | 2022-05-10 | 2023-12-21 | 中山醫學大學 | 一種以預測模型與視覺化方式建立大腸直腸癌發生第二原發癌症臨床決策支援系統的方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200194119A1 (en) | 2020-06-18 |
WO2020081445A1 (en) | 2020-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liss et al. | Metabolic biosynthesis pathways identified from fecal microbiome associated with prostate cancer | |
Li et al. | Implication of the gut microbiome composition of type 2 diabetic patients from northern China | |
Osman et al. | Parvimonas micra, Peptostreptococcus stomatis, Fusobacterium nucleatum and Akkermansia muciniphila as a four-bacteria biomarker panel of colorectal cancer | |
Purcell et al. | Distinct gut microbiome patterns associate with consensus molecular subtypes of colorectal cancer | |
Morgan et al. | Associations between host gene expression, the mucosal microbiome, and clinical outcome in the pelvic pouch of patients with inflammatory bowel disease | |
Ma et al. | mtDNA haplogroup and single nucleotide polymorphisms structure human microbiome communities | |
Hoggard et al. | Evidence of microbiota dysbiosis in chronic rhinosinusitis | |
US20210057046A1 (en) | Methods and systems for analyzing microbiota | |
JP2022532897A (ja) | マルチラベルがん分類のためのシステムおよび方法 | |
Gupta et al. | Gut microbial determinants of clinically important improvement in patients with rheumatoid arthritis | |
Tang et al. | Prospective study reveals a microbiome signature that predicts the occurrence of post-operative enterocolitis in Hirschsprung disease (HSCR) patients | |
CN108138233A (zh) | Dna混合物中组织的单倍型的甲基化模式分析 | |
TW202028745A (zh) | 用於預測或診斷癌症之方法及系統 | |
CN108064263A (zh) | 用于类风湿性关节炎的生物标记物及其用途 | |
US20210324473A1 (en) | Indices of Microbial Diversity Relating To Health | |
Chung et al. | Comparisons of oral, intestinal, and pancreatic bacterial microbiomes in patients with pancreatic cancer and other gastrointestinal diseases | |
Mo et al. | Early detection of molecular residual disease and risk stratification for stage I to III colorectal cancer via circulating tumor DNA methylation | |
Rejeski et al. | The impact of a Mediterranean diet on the gut microbiome in healthy human subjects: a pilot study | |
Kwak et al. | Development of a NOVEL metagenomic biomarker for prediction of upper gastrointestinal tract involvement in patients with Crohn’s disease | |
Kim et al. | Crosstalk between mucosal microbiota, host gene expression, and sociomedical factors in the progression of colorectal cancer | |
Cai et al. | The potential roles of gut microbiome in anal fistula | |
Tanmoy et al. | Paratype: a genotyping tool for Salmonella Paratyphi A reveals its global genomic diversity | |
Kwon et al. | Advances in methylation analysis of liquid biopsy in early cancer detection of colorectal and lung cancer | |
Rubinstein et al. | Cancer screening with multicancer detection tests: A translational science review | |
Wu et al. | Multi-omics approaches to studying gastrointestinal microbiome in the context of precision medicine and machine learning |