TWI826332B - 建立疾病預測模型的方法及系統 - Google Patents
建立疾病預測模型的方法及系統 Download PDFInfo
- Publication number
- TWI826332B TWI826332B TW112121368A TW112121368A TWI826332B TW I826332 B TWI826332 B TW I826332B TW 112121368 A TW112121368 A TW 112121368A TW 112121368 A TW112121368 A TW 112121368A TW I826332 B TWI826332 B TW I826332B
- Authority
- TW
- Taiwan
- Prior art keywords
- bacterial
- feature
- features
- data
- disease
- Prior art date
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 80
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000001580 bacterial effect Effects 0.000 claims description 141
- 238000012216 screening Methods 0.000 claims description 42
- 230000002452 interceptive effect Effects 0.000 claims description 17
- 230000007423 decrease Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004018 waxing Methods 0.000 claims description 6
- 230000000813 microbial effect Effects 0.000 claims 4
- 241000736262 Microbiota Species 0.000 abstract description 10
- 230000003993 interaction Effects 0.000 abstract description 2
- 241000894007 species Species 0.000 description 38
- 239000000523 sample Substances 0.000 description 21
- 238000004364 calculation method Methods 0.000 description 7
- 238000013517 stratification Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000007477 logistic regression Methods 0.000 description 6
- 241000894006 Bacteria Species 0.000 description 5
- 241000831652 Salinivibrio sharmensis Species 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000000968 intestinal effect Effects 0.000 description 5
- 244000005700 microbiome Species 0.000 description 5
- 230000036541 health Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 244000005709 gut microbiome Species 0.000 description 3
- 241000605986 Fusobacterium nucleatum Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000009534 blood test Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 210000000987 immune system Anatomy 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007102 metabolic function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 230000003950 pathogenic mechanism Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000000528 statistical test Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000023275 Autoimmune disease Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 229940088710 antibiotic agent Drugs 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 244000052616 bacterial pathogen Species 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000009535 clinical urine test Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000001839 endoscopy Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000013632 homeostatic process Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000003871 intestinal function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010339 medical test Methods 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
提供一種建立疾病預測模型的方法,該方法包含以下步驟:為多個樣本的每一者,從該樣本的菌相數據中提取多種菌相特徵的特徵值;從該多種菌相特徵中挑選出多個菌相特徵作為選定特徵;以及訓練疾病預測模型。訓練該疾病預測模型所使用的每筆訓練資料包含(1)每一樣本的疾病數據及(2)該樣本的選定特徵的特徵值。上述多種菌相特徵包含菌種層面特徵、交互消長特徵及菌叢層面特徵。
Description
本發明涉及特徵工程(feature engineering)技術,特別涉及一種建立疾病預測模型的方法及系統。
「菌相」是指生活在人體內的細菌、病毒、真菌和酵母等微生物的總和,它們在一起形成了一個複雜的生態系統,讓身體能夠正常運作。如同其他生態系統,若其中一物種受到破壞,便可能衝擊到生態平衡。人體中最複雜的菌相是腸道菌相,而腸道菌相對人體健康影響重大,不僅會影響腸道功能,且會進一步透過參與人體新陳代謝和調節免疫系統影響人體健康和體內平衡。許多疾病都與腸道菌相失衡有關,諸如大腦神經退化、心血管疾病、糖尿病、自體免疫疾病及癌症等等。舉例來說,動物試驗及人體試驗指出「具核梭桿菌(Fusobacterium nucleatum)」可能是大腸癌的致病因子,實驗中利用抗生素把具核梭桿菌殺死能減少腫瘤發生的情況。然而,由於腸道菌相的高度複雜,目前尚缺乏基於腸道菌相進行疾病預測的解決方案。
因此,需要一種建立疾病預測模型的方法及系統,其建立的疾病預測模型可利用菌相特徵有效地預測疾病,以作為疾病發生前的警訊並進一步了解其致病機轉。
本發明之實施例提供由電腦系統執行的一種建立疾病預測模型的方法。該方法包含以下步驟:為多個樣本的每一者,從該樣本的菌相數據中提取多種菌相特徵的特徵值;從該多種菌相特徵中挑選出多個菌相特徵作為選定特徵;以及訓練疾病預測模型。訓練該疾病預測模型所使用的每筆訓練資料包含(1)每一樣本的疾病數據及(2)該樣本的選定特徵的特徵值。上述多種菌相特徵包含菌種層面特徵、交互消長特徵及菌叢層面特徵。
在一實施例中,菌種層面特徵包含每一菌種的相對豐度數據及存在與否數據。
在一實施例中,交互消長特徵包含分類階層上的兩分類單元之間的分層比率。
在一實施例中,菌叢層面特徵包括Beta多樣性矩陣。
在一實施例中,從多種菌相特徵中挑選出多個選定特徵,包含:將疾病數據及多種菌相特徵輸入多個特徵篩選模型,取得多個特徵池;基於每個菌相特徵被該等特徵篩選模型選進該些特徵池中的次數,排序該等菌相特徵,以取得特徵排名;及基於特徵排名,從該多種菌相特徵中挑選出指定數量個菌相特徵作為該等選定特徵。
本發明之實施例提供一種建立疾病預測模型的系統。該系統包含儲存裝置及處理裝置。儲存裝置儲存多個樣本的疾病數據及菌相數據。處理裝置從儲存裝置載入程式以執行上述方法的各個步驟。
本揭露所提供的建立疾病預測模型的方法及系統,透過從微生物的多個面向建立菌相特徵,提高了特徵資訊的豐富度和代表性。這不僅有助於提升疾病預測的準確率,還有助於解釋分析結果。此外,可幫助人類更深入地了解疾病的致病機轉,有助於開發更有效的治療和預防方法。
以下敘述列舉本發明的多種實施例,但並非意圖限制本發明內容。實際的發明範圍,是由申請專利範圍所界定。
在以下所列舉的各實施例中,將以相同的標號代表相同或相似的元件或組件。
在本說明書中以及申請專利範圍中的序號,例如「第一」、「第二」等等,僅是為了方便說明,彼此之間並沒有順序上的先後關係。
以下對於裝置或系統之實施例的敘述,也適用於方法之實施例,反之亦然。
第1A圖是根據本發明之一實施例的一種建立疾病預測模型的方法100之流程圖。如第1A圖所示,方法100包含步驟S101-S103。第1B圖相應於第1A圖之實施例,繪示方法100之示意圖。如第1B圖所示,方法100包含特徵提取(feature extraction)階段P101、特徵篩選(feature selection)階段P102及模型訓練階段P103。請一併參考第1A圖及第1B圖,以更佳地理解此實施例。
第1A圖中的步驟S101相當於第1B圖中的特徵提取階段P101。於步驟S101及特徵提取階段P101,從每一樣本的菌相數據10中提取多種菌相特徵11的特徵值。然後,方法100進行到步驟S102。
如第1B圖所示,菌相特徵11包含三種:菌種層面特徵(species-level features)11A、交互消長特徵(microbiota interaction features)11B及菌叢層面特徵(community-level features)11C,每一種各自包含一或多個菌相特徵。
進一步說明,在本揭露之實施例中,所述「樣本」可以是指從人體或動物體內採集的各種檢體,諸如血液、尿液、唾液、糞便、組織等,可供進一步的化驗、檢測或診斷。每一樣本具有相應的菌相數據10與疾病數據15,分別描述該檢體的菌相與受試者(即檢體來源,人或動物)的疾病類型。由於腸道菌相是人體中最複雜的菌相之一,且對人體健康影響重大,因此在本揭露之實施例中,經常以人體腸道菌相作為菌相數據10之示例,但本揭露並不限定於此。
在人體腸道菌相的示例中,菌相數據10可以透過從人體糞便樣本進行測試或透過胃腸道內視鏡等方式收集。疾病數據15可以使用各種醫學檢測方法蒐集,例如血液檢測、影像學檢查等。然而,本揭露並不限制菌相數據10和疾病數據15的蒐集方式。其他的做法,例如血液測試、尿液測試或組織活檢,亦可用於收集相關數據。此外,本揭露並不限制可包含在疾病數據15中的疾病類型。根據具體應用及需求,疾病數據15中的疾病類型可包含各種疾病,例如感染、慢性疾病和癌症等。假設受試者十分健康,疾病數據15亦可指示受試者沒有任何疾病。或者,疾病數據15可反映受試者的整體健康狀況,例如代謝功能或免疫系統的良好程度,但本揭露並不對此限定。
在一實施例中,菌相數據10可以樣本中各種菌種的數量或豐度(abundance)資訊作表示。值得注意的是,本揭露並不限定菌相數據10必須包含樣本上的所有菌種。在一實施例中,納入菌相數據10中的菌種可以是基於菌種在樣本中的出現率(prevalence)所決定。舉例來說,菌相數據10可以僅考慮在樣本中出現率超過10%的菌種。然而,本揭露並不限制菌相數據10中菌種的選擇。
在一實施例中,菌種層面特徵11A提供了有關每種菌種的更詳細資訊,其中包含每種菌種的相對豐度(relative abundance)數據及存在與否(presence/absence)數據。
相對豐度數據指示一菌種在樣本中的相對數量大小,通常可用該菌種的DNA序列在樣本中的比例作表示。舉例來說,如果樣本中總共有1000萬個菌細胞,其中100萬個是A菌種,150萬個是B菌種,則A菌種的相對豐度數值為100/1000=0.1,B菌種的相對豐度數值為150/1000=0.15。因此,A菌種的相對豐度數值0.1與B菌種的相對豐度數值0.15可作為菌種層面特徵11A的其中兩個特徵值。
存在與否數據指示一菌種是否存在於樣本中,通常可用二元形式作表示。舉例來說,若C菌種存在於樣本中,D菌種不存在於樣本中,則C菌種的存在與否數值為1,D菌種的存在與否數據值為0。因此,C菌種的存在與否數值1與D菌種的存在與否數值0可作為菌種層面特徵11A的其中兩個特徵值。
在一實施例中,交互消長特徵11B包含分類階層上的兩分類單元之間的分層比率(Hierarchical Ratio)。
分層比率是一種用於描述兩菌種之間消長關係的指標。通常,會根據門(phylum)、綱(class)、目(order)、科(family)、屬(genus)、種(species)等生物階層(taxonomic hierarchy)來劃分所有的菌種。接著,計算每個階層上的兩種菌之間的相對豐度比例,以描述樣本中各級別菌群的組成結構。假設在特定階層(
)上含有兩個分類單元(taxa):Taxon A及Taxon B,其中Taxon A有m個菌種,其相對豐度分別為
,
,
…
;Taxon B有n個菌種,其相對豐度分別為為
,
,
…
,則分層比率的計算公式如下:
以下<表一>提供受試者01的菌相數據的一種示例。
<表一>
如<表一>所示出的菌相數據,其中Phylum A含有a,b,c三個菌種,三者的相對豐度皆為0.1,而a菌種及b菌種屬於Phylum A下的Class A,c菌種則屬於Phylum A下的Class B;Phylum B含有d,e,f,g四個菌種,其相對豐度分別為0.1, 0.1, 0.2, 0.3,四者皆屬於Phylum B下的Class C。前述「分類階層」可以是門(phylum)、綱(class)、目(order)、科(family)、屬(genus)的任一者,而交互消長特徵11B可包含從一或多個分類階層所得出的分層比率。以下將以「門」與「綱」這兩個分類階層提供分層比率之計算的示例。
門 | 綱 | … | 種 | 相對豐度 | 綱總和 | 門總和 | |
受試者01 | Phylum A | Class A | … | a | 0.1 | 0.2 | 0.3 |
… | b | 0.1 | |||||
Class B | … | c | 0.1 | 0.1 | |||
Phylum B | Class C | … | d | 0.1 | 0.7 | 0.7 | |
… | e | 0.1 | |||||
… | f | 0.2 | |||||
… | g | 0.3 |
以「門」這個分類階層而言,Phylum A相對於Phylum B的分層比率即為<表一>中Phylum A的門總和與Phylum B的門總和之比率,其具體計算如下:
以「綱」這個分類階層而言,Class A、Class B與Class C兩兩之間的分層比率是基於<表一>中Class A、Class B與Class C的綱總和所計算,具體如下:
以上所計算出分層比率的四個數值
、
、
、
,可作為交互消長特徵11B的其中四個特徵值。
在一實施例中,菌叢層面特徵11C包含Beta多樣性矩陣(Beta Diversity Matrix)。Beta多樣性矩陣是用於比較不同菌叢(即整體菌相)之間的相似性或差異性的一種數學工具。矩陣中的每個元素代表兩菌叢之間的差異程度,通常以距離或相似度作為衡量指標。
在一實施例中,Beta多樣性矩陣可以雅卡爾相似度(Jaccard similarity)作為衡量指標。雅卡爾相似度是基於前述的存在與否數值,計算兩菌叢中共同擁有的菌種數和總共擁有的菌種數之比例,其數值介於0與1之間。數值越接近1代表兩樣本之間的共同菌種數目相對越多,菌相差異性越小。反之,數值越接近0代表兩樣本之間共同菌種數目相對越少,菌相差異性越大。實務上,可以使用每個樣本的菌相數據10輪流作為參考基準,計算其他樣本與參考樣本之間的菌相差異。除了使用樣本作為參考對象之外,也可以使用預先定義好的菌相(例如糖尿病患者的菌相)作為參考基準。雅卡爾相似度的計算公式如下:
其中,
與
分別代表兩菌叢之一的菌種數,
代表兩菌叢總共擁有的菌種數,
代表共同擁有的菌種數。
以下<表二>提供受試者Subject 01-05的疾病類別及各菌種存在與否數值的示例。
<表二>
首先,以受試者Subject 01作為參考基準,受試者Subject 02相對於Subject 01的雅卡爾相似度之計算如下:
其中
與
分別代表受試者Subject 01與Subject 02的樣本中所存在的菌種數,
代表受試者Subject 01與Subject 02的樣本共同擁有的菌種數。根據<表二>,可知受試者Subject 01的樣本具有兩個菌種(菌種B及菌種C),故
=2;受試者Subject 02的樣本僅具有一個菌種(菌種B),故
=1;受試者Subject 01與Subject 02的樣本共同擁有一個菌種(菌種B),故
=1。
疾病類別 | 受試者 | 菌種A | 菌種B | 菌種C |
0 | Subject 01 | 0 | 1 | 1 |
0 | Subject 02 | 0 | 1 | 0 |
0 | Subject 03 | 1 | 1 | 1 |
1 | Subject 04 | 0 | 0 | 0 |
1 | Subject 05 | 1 | 0 | 1 |
依照上一段介紹的計算方式,可陸續計算出所有受試者Subject 01-05兩兩之間的雅卡爾相似度之數值。這些數值所構成的Beta多樣性矩陣,可作為菌叢層面特徵之特徵值。
在另一實施例中,Beta多樣性矩陣可以布雷-柯蒂斯相似度(Bray-Curtis similarity)作為衡量指標。布雷-柯蒂斯相似度是基於前述的相對豐度數值,計算兩菌叢中各菌種的相對豐度之差的絕對值的和除以各菌種相對豐度之和,其數值介於0與1之間。數值越接近1代表兩樣本之間的菌相差異性越小,數值越接近0代表兩樣本之間共同菌相差異性越大。布雷-柯蒂斯相似度的計算公式如下:
其中,
與
分別代表兩樣本的第
個菌種的相對豐度,
代表菌種的總數。
請參考回第1A圖及第1B圖。第1A圖中的步驟S102相當於第1B圖中的特徵篩選階段P102。於步驟S102及特徵篩選階段P102,從上述多種菌相特徵中挑選出多個菌相特徵作為選定特徵14。然後,方法100進行到步驟S103。
在一實施例中,於步驟S102及特徵篩選階段P102,係使用一特徵篩選模型挑選出選定特徵14。特徵篩選模型可採用各種統計模型或機器學習模型來實現。統計模型可例如採用最小絕對值收斂和選擇算子(least absolute shrinkage and selection operator,Lasso)演算法、逐步邏輯回歸(stepwise logistic regression)、統計檢驗(statistical test)…等,機器學習模型可例如採用決策樹(decision tree)、邏輯迴歸(logistic regression)、單純貝式(naive Bayes)、隨機森林(random forest)、支援向量機(support vector machine;SVM)、全連接神經網路(full-connected neural network)…等,本揭露並不對此限定。
第2圖是第1A圖中的步驟S102的一種實施例之流程圖。在此實施例中,使用了多種特徵篩選模型進行特徵的挑選。如第2圖所示,步驟S102可進一步包含步驟S201-S203。第3圖相應於第2圖之實施例,繪示多個特徵篩選模型M(1)-M(N)及特徵池FP(1)-FP(N)之示意圖。請一併參考第2圖及第3圖,以更佳地理解此實施例。
於步驟S201,將疾病數據10,以及菌種層面特徵11A、交互消長特徵11B及菌叢層面特徵11C等多種菌相特徵輸入N個特徵篩選模型M(1)-M(N),取得N個特徵池FP(1)-FP(N)。然後,進行到步驟S202。
如第3圖所示,特徵篩選模型M(1)-M(N)中的每一者,從菌種層面特徵11A、交互消長特徵11B及菌叢層面特徵11C等多種菌相特徵選出一或多個菌相特徵組成相應的特徵池。在第3圖中,特徵篩選模型M(1)輸出特徵池FP(1)、特徵篩選模型M(2)輸出特徵池FP(2)…依此類推。不同的特徵篩選模型M(1)-M(N)會篩選出不同的特徵,因此特徵池FP(1)-FP(N)中的菌相特徵不盡相同。
進一步說明,特徵篩選模型M(1)-M(N)可採用各種統計模型或機器學習模型來實現。統計模型可例如採用最小絕對值收斂和選擇算子(least absolute shrinkage and selection operator,Lasso)演算法、逐步邏輯回歸(stepwise logistic regression)、統計檢驗(statistical test)…等,機器學習模型可例如採用決策樹(decision tree)、邏輯迴歸(logistic regression)、單純貝式(naive Bayes)、隨機森林(random forest)、支援向量機(support vector machine;SVM)、全連接神經網路(full-connected neural network)…等,本揭露並不對此限定。
在一實施例中,特徵篩選模型M(1)-M(N)的每一者逐一針對每個菌相特徵計算至少一統計指標, 並將該統計指標與對應的臨界值進行比對,藉此決定是否選定此菌相特徵至相應的特徵池。所述臨界值為預先設定的固定值,其取決於特徵篩選模型本身。統計指標可例如為P值、勝算比(odds ration)、相關係數(correlation coefficient)、差異倍數(fold change)…等。
在一實施例中,可根據特徵篩選模型M(1)-M(N)每一者的準確率來決定欲挑選進相應特徵池FP(1)-FP(N)的特徵數量。舉例來說,可使用陡坡圖(Scree plot)或手肘法(Elbow method)決定特徵篩選模型M(1)-M(N)所選進特徵池FP(1)-FP(N)中的菌相特徵數量。在使用陡坡圖或手肘法時所繪製的特徵曲線圖中,橫軸通常表示模型所使用的特徵數量,而縱軸則表示模型的性能指標,如準確率(accuracy)或曲線下面積(area under curve;AUC)。最佳的特徵數量,是取決於性能指標的變化情況。概念上而言,當特徵數量增加時,性能指標會隨之提高,但在某個特徵數量後,性能指標的提升速度若明顯減緩,此時可以選擇該特徵數量作為最佳的特徵數量。
請參考回第2圖。於步驟S202,基於每一菌相特徵被特徵篩選模型M(1)-M(N)選進特徵池FP(1)-FP(N)中的次數,排序該等菌相特徵,以取得特徵排名。然後,進行到步驟S202。
前述「每一菌相特徵被特徵篩選模型M(1)-M(N)選進特徵池FP(1)-FP(N)中的次數」,相當於是特徵池FP(1)-FP(N)中含有該菌相特徵的特徵池個數。該數量越大,代表該菌相特徵的重要性或參考價值越高。因此,在特徵排名中排行靠前的菌相特徵,具有較高的重要性或參考價值。
於步驟S203,基於特徵排名,從多種菌相特徵中挑選出指定數量個菌相特徵作為選定特徵。指定數量可以是預先定義的數值,也可以是根據特徵篩選模型的準確率來決定。具體而言,可利用多筆測試資料,在選用不同的多個數量的菌相特徵的情況下取得各特徵篩選模型的多個準確率。測試資料僅用於檢測特徵篩選模型的準確率。在獲得各特徵篩選模型在選擇不同數量的菌相特徵之情況下的準確率之後, 基於這些準確率選擇其中一個特徵篩選模型。舉例來說,可選擇具有最高準確率的特徵篩選模型。假設分別選定10 個不同數量的菌相特徵來檢驗特徵篩選模型的準確率,則一個特徵篩選模型會獲得10個準確率。X個特徵篩選模型則會有10X個準確率。於是,可在10X個準確率中找出最高準確率,以選定具有最高準確率的特徵篩選模型。接著,可基於被選擇的特徵篩選模型的數量與準確率,採用上述的陡坡圖或手肘法決定指定數量。
雖然在第3圖所繪示之的實施例中,菌種層面特徵11A、交互消長特徵11B及菌叢層面特徵11C是一併地被輸入特徵篩選模型M(1)-M(N)而取得特徵池FP(1)-FP(N),但本揭露並不限定於此。在另一實施例中,菌種層面特徵11A、交互消長特徵11B及菌叢層面特徵11C可以是分別地被輸入特徵篩選模型M(1)-M(N),而取得N*3個特徵池。這些特徵池中的菌相特徵將被整合而產生一特徵集,然後可採用類似於S202-S203的作法從特徵集中選出菌種層面特徵11A、交互消長特徵11B及菌叢層面特徵11C各自對應的特徵,作為選定特徵14。
請參考回第1A圖及第1B圖。第1A圖中的步驟S103相當於第1B圖中的模型訓練階段P103。於步驟S103及模型訓練階段P103,訓練疾病預測模型16。訓練完成的疾病預測模型,可接收受測者的上述選定特徵作為輸入資料,而輸出疾病預測之結果。取決於疾病預測之目的,疾病預測模型16可以是輸出疾病種類的分類模型,也可以是輸出代謝功能指數、免疫力指數或特定疾病之機率的回歸模型,本揭露並不對此限定。
進一步說明,訓練疾病預測模型16所使用的每筆訓練資料12包含(1)每一樣本的疾病數據15及(2)該樣本的選定特徵14的特徵值。於模型訓練階段P103之期間,可使用諸如均方誤差(Mean square error;MSE)、平均絕對值誤差(Mean absolute error;MAE)或交叉熵(cross-entropy)之類的損失函數(loss function),以計算出象徵疾病預測模型16所輸出之預測結果與實際上的疾病數據15之間差異的損失值(loss)。更進一步地,可使用優化器(optimizer)遞迴地調整疾病預測模型16之參數,以使損失值收斂,藉以優化疾病預測模型16。優化器可採用梯度下降法(gradient descent;GD)、隨機梯度下降法(Stochastic gradient descent;SGD)或自適應矩估計(adaptive moment estimation;Adam)等演算法來實作,但本揭露並不對此限定。以採用梯度下降法的優化器為例,可透過對損失函數作偏微分(partial derivative)計算以取得梯度(gradient),再根據梯度調整疾病預測模型16之參數,以降低損失值。透過反覆地結果反饋與更新參數等訓練過程,逐步降低損失值,直到損失值收斂至最小值。
第4圖是根據本發明之一實施例的一種建立疾病預測模型的系統400之系統方塊圖。如第4圖所示,系統400包含處理裝置401及儲存裝置402。
系統400可以是運行作業系統(如Windows、Mac OS、Linux、UNIX…等)之個人電腦(如桌上型電腦或筆記型電腦)或伺服器電腦,或者是例如平板電腦或智慧型手機等行動裝置,但本揭露並不對此限定。
處理裝置401可包含一或多個用於執行指令的硬體元件,諸如中央處理單元(CPU)、圖形處理單元(GPU)、微處理器(microprocessor)、控制器、微控制器(microcontroller)、特殊應用積體電路(Application Specific Integrated Circuit;ASIC)、現場可程式化邏輯閘陣列(Field Programmable Gate Array;FPGA)、單晶片系統(System on a Chip;SoC)…等,本揭露並不對此限定。在本揭露之實施例中,處理裝置401從儲存裝置402載入程式,以執行方法100的步驟S101-S103。
儲存裝置402可以是任何一種具有非揮發性記憶體(如唯讀記憶體(read only memory)、電子抹除式可複寫唯讀記憶體(electrically-erasable programmable read-only memory;EEPROM)、快閃記憶體、非揮發性隨機存取記憶體(non-volatile random access memory;NVRAM)的裝置,諸如硬碟(HDD)陣列、固態硬碟(SSD)或光碟,本發明並不對此限定。在本揭露之實施例中,儲存裝置402儲存一程式,及多個樣本的疾病數據及菌相數據。該程式包含用以實現上述方法100的多個指令。當處理裝置401從儲存裝置402載入該程式,便將執行該些指令,以實現上述方法100。
本發明所提供的菌相特徵工程方案,致使疾病預測能夠考慮到多層級、多面相的菌相特徵。具體而言,透過菌種層面特徵11A的建立,考慮了菌量及菌種存在與否對於疾病的影響,相較於現行方法更能夠突顯關鍵致病菌與疾病之間的關係;透過交互消長特徵11B的建立,考慮了菌種的消長和疾病的關聯性,且在未知微生物之功能性情況下,利用不同生物階層建立菌相特徵能夠進一步了解微生物的功能性單元(functional unit),並提供後續分析與致病機轉研究的引子;透過菌叢層面特徵11C的建立,同時考慮了菌叢的「質」與「量」以及菌叢之間的生態平衡與疾病之間的關係。
綜上所述,本揭露所提供的建立疾病預測模型的方法及系統,透過從微生物的多個面向建立菌相特徵,提高了特徵資訊的豐富度和代表性。這不僅有助於提升疾病預測的準確率,還有助於解釋分析結果。此外,可幫助人類更深入地了解疾病的致病機轉,有助於開發更有效的治療和預防方法。
以上段落採用多種態樣作敘述。顯然地,本文之教示可以多種方式實現,而在範例中所揭露之任何特定架構或功能僅是一種代表性的情況。根據本文之教示,本領域應理解,可獨立實作本文所揭露之各個態樣,或者合併實作兩種以上之態樣。
雖然本揭露已以實施例敘述如上,然其並非用以限定本揭露,任何熟習此技藝者,在不脫離本揭露之精神和範圍內,當可作些許之更動與潤飾,因此發明之保護範圍當視後附之申請專利範圍所界定者為準。
100:方法
S101-S103:步驟
P101:特徵提取階段
P102:特徵篩選階段
P103:模型訓練階段
10:菌相數據
11:菌相特徵
11A:菌種層面特徵
11B:交互消長特徵
11C:菌叢層面特徵
12:訓練資料
14:選定特徵
15:疾病數據
16:疾病預測模型
S201-S203:步驟
M(1)-M(N):特徵模型
FP(1)-FP(N):特徵池
400:系統
401:處理裝置
402:儲存裝置
本揭露將可從以下示範的實施例之敘述搭配附帶的圖式更佳地理解。此外,應理解的是,在本揭露之流程圖中,各區塊的執行順序可被改變,且/或某些區塊可被改變、刪減或合併。
第1A圖是根據本發明之一實施例的一種建立疾病預測模型的方法之流程圖。
第1B圖相應於第1A圖之實施例,繪示一種建立疾病預測模型的方法之示意圖。
第2圖是特徵篩選階段的一種實施例之流程圖。
第3圖相應於第2圖之實施例,繪示多個特徵篩選模型及特徵池之示意圖。
第4圖是根據本發明之一實施例的一種建立疾病預測模型的系統之系統方塊圖。
P101:特徵提取階段
P102:特徵篩選階段
P103:模型訓練階段
10:菌相數據
11:菌相特徵
11A:菌種層面特徵
11B:交互消長特徵
11C:菌叢層面特徵
12:訓練資料
14:選定特徵
15:疾病數據
16:疾病預測模型
Claims (10)
- 一種建立疾病預測模型的方法,由一電腦系統所執行,該方法包括: 從多個樣本的每一者的菌相數據中提取多種菌相特徵的特徵值; 從該多種菌相特徵中挑選出多個菌相特徵作為選定特徵;以及 訓練一疾病預測模型,其中訓練該疾病預測模型所使用的每筆訓練資料包括(1)該等樣本的每一者的疾病數據及(2)該樣本的該等選定特徵的該等特徵值; 其中該多種菌相特徵包括菌種層面特徵、交互消長特徵及菌叢層面特徵。
- 如請求項1之方法,其中該菌種層面特徵包括多個菌種的每一者的相對豐度數據及存在與否數據。
- 如請求項1之方法,其中該交互消長特徵包括一分類階層上的兩分類單元之間的一分層比率。
- 如請求項1之方法,其中該菌叢層面特徵包括一Beta多樣性矩陣。
- 如請求項1之方法,其中從該多種菌相特徵中挑選出多個選定特徵,包括: 將該疾病數據及該多種菌相特徵輸入多個特徵篩選模型,取得多個特徵池,其中該等特徵篩選模型的每一者從該多種菌相特徵選出一或多者組成該等特徵池中相應的一者; 基於每個菌相特徵被該等特徵篩選模型選進該些特徵池中的次數,排序該等菌相特徵,以取得一特徵排名;及 基於該特徵排名,從該多種菌相特徵中挑選出指定數量個菌相特徵作為該等選定特徵。
- 一種建立疾病預測模型的系統,包括: 一儲存裝置,儲存多個樣本的疾病數據及菌相數據;以及 一處理裝置,從儲存裝置載入程式以執行: 從該等樣本的每一者的該菌相數據中提取多種菌相特徵的特徵值; 從該多種菌相特徵中挑選出多個菌相特徵作為選定特徵;及 訓練一疾病預測模型,其中訓練該疾病預測模型所使用的每筆訓練資料包括(1)該等樣本的每一者的疾病數據及(2)該樣本的該等選定特徵的該等特徵值; 其中該多種菌相特徵包括菌種層面特徵、交互消長特徵及菌叢層面特徵。
- 如請求項6之系統,其中該菌種層面特徵包括多個菌種的每一者的相對豐度數據及存在與否數據。
- 如請求項6之系統,其中該交互消長特徵包括一分類階層上的兩分類單元之間的一分層比率。
- 如請求項6之系統,其中該菌叢層面特徵包括一Beta多樣性矩陣。
- 如請求項6之系統,其中該處理裝置更執行: 將該疾病數據及該多種菌相特徵輸入多個特徵篩選模型,取得多個特徵池,其中該等特徵篩選模型的每一者從該多種菌相特徵選出一或多者組成該等特徵池中相應的一者; 基於每個菌相特徵被該等特徵篩選模型選進該些特徵池中的次數,排序該等菌相特徵,以取得一特徵排名;及 基於該特徵排名,從該多種菌相特徵中挑選出指定數量個菌相特徵作為該等選定特徵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW112121368A TWI826332B (zh) | 2023-06-08 | 2023-06-08 | 建立疾病預測模型的方法及系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW112121368A TWI826332B (zh) | 2023-06-08 | 2023-06-08 | 建立疾病預測模型的方法及系統 |
Publications (1)
Publication Number | Publication Date |
---|---|
TWI826332B true TWI826332B (zh) | 2023-12-11 |
Family
ID=88204103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112121368A TWI826332B (zh) | 2023-06-08 | 2023-06-08 | 建立疾病預測模型的方法及系統 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI826332B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415832A (zh) * | 2019-07-31 | 2019-11-05 | 江苏省人民医院 | 基于人工智能的感染控制管理系统和方法 |
CN112509700A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 稳定型冠心病的风险预测方法及装置 |
US20210272695A1 (en) * | 2019-02-26 | 2021-09-02 | Tempus Labs, Inc. | Systems and methods for using sequencing data for pathogen detection |
CN114283890A (zh) * | 2021-12-15 | 2022-04-05 | 南京医科大学 | 一种基于瘤胃球菌微生物群的疾病风险预测方法及装置 |
US20220323018A1 (en) * | 2019-06-03 | 2022-10-13 | Rambam Med-Tech Ltd. | Automatic prediction of blood infections |
US20220412974A1 (en) * | 2019-10-25 | 2022-12-29 | University Of Utah Research Foundation | Pathogen Detection Using A Sensor Array |
-
2023
- 2023-06-08 TW TW112121368A patent/TWI826332B/zh active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210272695A1 (en) * | 2019-02-26 | 2021-09-02 | Tempus Labs, Inc. | Systems and methods for using sequencing data for pathogen detection |
US20220323018A1 (en) * | 2019-06-03 | 2022-10-13 | Rambam Med-Tech Ltd. | Automatic prediction of blood infections |
CN110415832A (zh) * | 2019-07-31 | 2019-11-05 | 江苏省人民医院 | 基于人工智能的感染控制管理系统和方法 |
US20220412974A1 (en) * | 2019-10-25 | 2022-12-29 | University Of Utah Research Foundation | Pathogen Detection Using A Sensor Array |
CN112509700A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 稳定型冠心病的风险预测方法及装置 |
CN114283890A (zh) * | 2021-12-15 | 2022-04-05 | 南京医科大学 | 一种基于瘤胃球菌微生物群的疾病风险预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fortino et al. | Machine-learning–driven biomarker discovery for the discrimination between allergic and irritant contact dermatitis | |
JP6063446B2 (ja) | 細胞におけるバイオマーカーの発現の積率による解析 | |
CN110634563A (zh) | 一种糖尿病肾病-非糖尿病肾病鉴别诊断装置 | |
KR102044094B1 (ko) | 딥 러닝 기반 유전체 발현량 해석을 통한 암 또는 정상 판별 방법 및 그 장치 | |
Ni et al. | A feature and algorithm selection method for improving the prediction of protein structural class | |
Mallick et al. | An integrated Bayesian framework for multi‐omics prediction and classification | |
TWI826332B (zh) | 建立疾病預測模型的方法及系統 | |
Rahman et al. | Automatic classification of patients with myocardial infarction or myocarditis based only on clinical data: A quick response | |
US12060578B2 (en) | Systems and methods for associating compounds with physiological conditions using fingerprint analysis | |
US20220328132A1 (en) | Non-invasive methods and systems for detecting inflammatory bowel disease | |
Kumar et al. | An Early Cancer Prediction Based On Deep Neural Learning | |
Singh et al. | A novel neural network based automated system for diagnosis of breast cancer from real time biopsy slides | |
Herzog et al. | Deep transformation models for functional outcome prediction after acute ischemic stroke | |
López-Cortés et al. | MSDeepAMR: antimicrobial resistance prediction based on deep neural networks and transfer learning | |
CN115188475A (zh) | 一种狼疮肾炎患者风险预测方法 | |
Greco et al. | Early prediction of COVID-19 outcome: contrasting clinical scores and computational intelligence methods | |
JP6915604B2 (ja) | 装置、方法およびプログラム | |
Plantinga et al. | Beta Diversity and Distance-Based Analysis of Microbiome Data | |
Hawinkel | Evaluation of normalization and analysis methods for microbiome data | |
Jabeer et al. | Identifying taxonomic biomarkers of colorectal cancer in human intestinal microbiota using multiple feature selection methods | |
Zhong et al. | Controlled Noise: Evidence of Epigenetic Regulation of Single-Cell Expression Variability | |
Smedley et al. | Identifying transcription patterns of histology and radiomics features in NSCLC with neural networks | |
Bartoszewicz et al. | DeePaC: Predicting pathogenic potential of novel DNA with a universal framework for reverse-complement neural networks | |
Yan et al. | Radiomics Analysis Using Stability Selection Supervised Principal Component Analysis for Right-censored Survival Data | |
Lu | An embedded method for gene identification in heterogenous data involving unwanted heterogeneity |