TWI806425B - 特徵挑選方法 - Google Patents
特徵挑選方法 Download PDFInfo
- Publication number
- TWI806425B TWI806425B TW111105254A TW111105254A TWI806425B TW I806425 B TWI806425 B TW I806425B TW 111105254 A TW111105254 A TW 111105254A TW 111105254 A TW111105254 A TW 111105254A TW I806425 B TWI806425 B TW I806425B
- Authority
- TW
- Taiwan
- Prior art keywords
- feature
- features
- selection method
- training models
- training
- Prior art date
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 145
- 238000000034 method Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 9
- 238000003068 pathway analysis Methods 0.000 claims description 6
- 108090000623 proteins and genes Proteins 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 230000001105 regulatory effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000037361 pathway Effects 0.000 description 7
- 238000010295 mobile communication Methods 0.000 description 6
- 238000012216 screening Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 5
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 239000002207 metabolite Substances 0.000 description 4
- 238000002705 metabolomic analysis Methods 0.000 description 4
- 230000001431 metabolomic effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008288 physiological mechanism Effects 0.000 description 3
- 238000000528 statistical test Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002503 metabolic effect Effects 0.000 description 2
- 230000037353 metabolic pathway Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 101710192597 Protein map Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 208000017169 kidney disease Diseases 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
Abstract
一種特徵挑選方法,包括:將多個訓練資料分別輸入至多個訓練模型,以通過各訓練模型在多個特徵中進行挑選,而獲得多個特徵池;基於每一個特徵被所述特徵池挑中的次數來排序這些特徵,以獲得特徵排名;以及基於特徵排名,自所述特徵中取出多個指定特徵。
Description
本發明是有關於一種模型建構方法,且特別是有關於一種特徵挑選方法。
在醫院看診的過程中,通常醫師會利用抽血取得生理資訊,做為輔助判別疾病的指標。抽血可取得的生理資訊可能有代謝體、基因等體學特徵。過去技術大多數僅考慮單一種體學資料,並利用機器學習等方法來進行特徵挑選。倘若同時考慮多種體學資料,也是將全部體學資料一起加入,再利用機器學習等方法進行特徵挑選。然而,由於體學特徵的數量少則百個多則上萬個,若全部一起挑選去做,就算是透過機器學習去挑選,也相當耗費時間及資源。
本發明提供一種特徵挑選方法,可有效地挑選出最具影響性的特徵。
本發明的特徵挑選方法是利用電子裝置在多個特徵中進行挑選,所述特徵挑選方法包括:將多個訓練資料分別輸入至多個訓練模型,以通過各訓練模型在多個特徵中進行挑選,而獲得多個特徵池;基於每一個特徵被所述特徵池挑中的次數來排序這些特徵,以獲得特徵排名;以及基於特徵排名,自所述特徵中取出多個指定特徵。
在本發明的一實施例中,上述通過各訓練模型在所述特徵中進行挑選,而獲得所述特徵池的步驟包括在下述三種挑選方式中的至少其中一種:(1)透過各訓練模型逐一針對單一特徵計算至少一個統計指標,並將統計指標與對應的臨界值進行比對,藉此決定是否選定此特徵至對應的特徵池;(2)透過各訓練模型在所述特徵中執行特徵擷取動作,藉此獲得分別與這些訓練模型對應的多個特徵池;(3)基於多個特徵類型,將這些特徵分類為多個特徵群組,以使得各訓練模型在各特徵群組所包括的特徵中執行特徵擷取動作,藉此獲得各訓練模型分別對應至所述特徵群組的多個特徵池。
在本發明的一實施例中,在所述挑選方式(3)中,包括:將各特徵群組對應的特徵池設定為一個特徵集合;基於各特徵被所述特徵池挑中的次數來排序各特徵集合中的各特徵,以獲得各特徵集合的特徵排名;以及基於各特徵群組對應的權重以及特徵排名,自各特徵集合中取出對應數量的指定特徵。在此,各特徵群組對應的權重是基於各特徵群組所包括的特徵數量佔全部特徵數量的比值。
在本發明的一實施例中,在所述三種挑選方式中選擇多個的情況下,更包括:針對所述多個挑選方式的每一個,獲得符合對應的指定數量的指定特徵,進而分別獲得對應於多個挑選方式的多個選定特徵組。
在本發明的一實施例中,在分別獲得對應於所述多個挑選方式的多個選定特徵組之後,對這些選定特徵組執行聯集、交集以及差集其中一者來獲得整合特徵池。
在本發明的一實施例中,在獲得整合特徵池之後,透過多體學特徵調控途徑分析,查詢多個已知資料庫,以在整合特徵池中挑選出一或多個代表特徵。
在本發明的一實施例中,在獲得所述多個代表特徵之後,利用多個測試資料,在分別選用不同的多個特徵數量的代表特徵的情況下來獲得各訓練模型的多個準確率;以及基於這些準確率在所述代表特徵中選出一或多個最終特徵。
在本發明的一實施例中,其中基於特徵排名,自所述特徵中取出指定特徵的步驟包括:基於特徵排名,自所述特徵中取出符合指定數量的指定特徵。其中,在獲得特徵池之後,利用多個測試資料,在選用不同的多個特徵數量的特徵的情況下來獲得各訓練模型的多個準確率;基於準確率,在所述訓練模型中選擇其中一個;基於被選擇的其中一個訓練模型的特徵數量與準確率來獲得陡坡圖;以及基於陡坡圖,在這些特徵數量中獲得指定數量。
在本發明的一實施例中,在獲得指定特徵之後,透過一多體學特徵調控途徑分析,查詢多個已知資料庫,以在所述指定特徵中挑選出一或多個代表特徵。
在本發明的一實施例中,在獲得所述多個代表特徵之後,利用多個測試資料,在分別選用不同的多個特徵數量的代表特徵的情況下來獲得各訓練模型的多個準確率;以及基於準確率在所述代表特徵中選出一或多個最終特徵。
本發明的特徵挑選方法是利用電子裝置在多個特徵中進行挑選,本特徵挑選方法包括:透過下述三種挑選方式中的其中一種,將多個訓練資料分別輸入至多個訓練模型,以通過各訓練模型在多個特徵中進行挑選來獲得多個指定特徵,所述挑選方式包括:(1)透過各訓練模型逐一針對單一特徵計算至少一個統計指標,並將統計指標與對應的臨界值進行比對,以自所述特徵中獲得指定特徵;(2)透過各訓練模型在全部特徵中執行特徵擷取動作,藉此獲得分別與這些訓練模型對應的多個特徵池,基於各特徵被特徵池挑中的次數來排序這些特徵,以獲得特徵排名,基於特徵排名,自所述特徵中取出指定特徵;(3)基於多個特徵類型,將全部特徵分類為多個特徵群組,以使得各訓練模型在各特徵群組所包括的特徵中執行特徵擷取動作,藉此獲得各訓練模型分別對應至這些特徵群組的多個特徵池,基於各特徵被特徵池挑中的次數來排序這些特徵,以獲得特徵排名,基於特徵排名,自這些特徵中取出指定特徵。
基於上述,本揭露利用多個訓練模型來篩選特徵,再根據各特徵被訓練模型挑選到的次數來進行下一步的篩選,據此,透過多層級的特徵篩選,不僅節省特徵挑選時間也可挑選出最具影響性的特徵,同時維持高準確率。
一般而言,血液中可取得的生理資訊可能有代謝體、基因等體學特徵。若能同時考慮多種類型的體學資訊,從不同資訊面向來協助分析,對於臨床應用將會有很大的幫助,且可提高準確率,並且還可進進一步協助疾病(例如糖尿病、腎臟病等)的預測。另外,若能使用最少的體學特徵來去解釋及判斷生理狀態,將可提高判斷效率。因此,底下提出一種特徵挑選方法,可達到高效率、高準確率、高應用性。底下實施例是透過具有運算功能的電子裝置來實現。例如,可採用伺服器、個人電腦、筆記型電腦、平板電腦等電子裝置來實現,甚至可採用智慧型手機來實現。
電子裝置中具有處理器、儲存元件以及通訊元件。處理器例如為中央處理單元(Central Processing Unit,CPU)、物理處理單元(Physics Processing Unit,PPU)、可程式化之微處理器(Microprocessor)、嵌入式控制晶片、數位訊號處理器(Digital Signal Processor,DSP)、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)或其他類似裝置。
儲存元件例如是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash memory)、硬碟或其他類似裝置或這些裝置的組合。儲存元件中儲存有一或多個程式碼片段所組成,上述程式碼片段在被安裝後,會由處理器來執行以實現下述特徵挑選方法。
通訊元件可以是採用區域網路(Local Area Network,LAN)技術、無線區域網路(Wireless LAN,WLAN)技術或行動通訊技術的晶片或電路。區域網路例為乙太網路(Ethernet)。無線區域網路例如為Wi-Fi。行動通訊技術例如為全球行動通訊系統(Global System for Mobile Communications,GSM)、第三代行動通訊技術(third-Generation,3G)、第四代行動通訊技術(fourth-Generation,4G)、第五代行動通訊技術(fifth-Generation,5G)等。
圖1是依照本發明一實施例的特徵挑選方法的流程圖。請參照圖1,在步驟S105中,將多個訓練資料分別輸入至多個訓練模型,以通過各訓練模型在多個特徵中進行挑選,而獲得多個特徵池。訓練模型可以採用不同的多個統計模型或不同的多個機器學習模型來實現。統計模型例如可採用最小絕對值收斂和選擇算子(least absolute shrinkage and selection operator,Lasso)演算法、逐步邏輯回歸(stepwise logistic regression)法、統計檢驗(statistical test)法等。機器學習模型例如採用隨機森林(random forest)演算法、支援向量機(support vector machine,SVM)演算法等。
在一實施例中,可基於這些訓練資料來劃分出多個訓練資料集,並逐一將這些訓練資料集輸入至各訓練模型進行訓練,以由訓練模型來挑選具有最強關聯性的特徵。在此,可根據選擇的挑選方式的不同,由一個訓練模型獲得一個特徵池,也可由一個訓練模型來獲得多個特徵池。
在本實施例中,可選擇下述三種挑選方式(1)~(3)中的至少其中一種。挑選方式(1):透過每一個訓練模型逐一針對單一特徵計算至少一個統計指標,並將統計指標與對應的臨界值進行比對,藉此決定是否選定此特徵至對應的特徵池。所述臨界值為預先設定的固定值,可由訓練模型自行決定。統計指標例如為P值、勝算比(odds ration)、相關係數(correlation coefficient)、差異倍數(fold change)等。
舉例來說,圖2是依照本發明一實施例的針對單一特徵的挑選方式的示意圖。在圖2中僅繪示兩個訓練模型Ms(1)、Ms(2),然,並不以此為限。在此,基於多個訓練資料來獲得S組訓練資料集TD1~TDS,將這些訓練資料集TD1~TDS逐一輸入至訓練模型Ms(1)~Ms(2)來針對單一個特徵計算一個統計指標。在此以訓練資料集TD1使用訓練模型Ms(1)~Ms(2)來進行說明,其他訓練資料集TD2~TDS亦以此類推。以訓練模型Ms(1)採用統計檢驗(statistical test)而言,利用訓練模型Ms(1)針對特徵f1~fn中的每一個,算出對應的P值p(f1)~p(fn)。之後,將P值p(f1)~p(fn)與對應的臨界值T1進行比對,並設定為P值≤T1。假設臨界值T1=0.05,即,挑選P值小於或等於0.05的特徵至對應的特徵池Ps(1)。
另外,訓練模型Ms(2)是用來計算勝算比。利用訓練模型Ms(2)針對特徵f1~fn中的每一個,算出對應的勝算比r(f1)~r(fn)。之後,將勝算比r(f1)~r(fn)與對應的臨界值T2進行比對,並設定為勝算比>T2。假設臨界值T2=2,即,挑選挑選勝算比大於2的特徵至對應的特徵池Ps(2)。在其他實施例中,還可進一步加入第三個或更多的訓練模型來計算各特徵的統計指標,並將其與對應的臨界值進行比對來獲得第三個或更多的特徵池。
挑選方式(2):透過每一個訓練模型在全部特徵中執行特徵擷取動作,藉此獲得分別與這些訓練模型對應的多個特徵池。即,由一個訓練模型針對多個訓練資料集進行訓練來獲得最強關聯性的一組特徵,而獲得此訓練模型對應的特徵池。
舉例來說,圖3是依照本發明一實施例的針對全部特徵的挑選方式的示意圖。在圖3中,使用X個訓練模型M(1)~M(X)。將多個訓練資料集TD1~TDS逐一輸入至訓練模型M(1)~M(X)中的每一個進行訓練,以挑選出具有最強關聯性的特徵。在此以訓練資料集TD1使用X個訓練模型M(1)~M(X)來進行說明,其他訓練資料集TD2~TDS亦以此類推。利用訓練模型M(1)在全部特徵f1~fn中進行挑選而獲得特徵池Pm(1),利用訓練模型M(2)在全部特徵f1~fn中進行挑選而獲得特徵池Pm(2),以此類推獲得X個特徵池Pm(1)~Pm(X)。
在一實施例中,可根據訓練模型M(1)~M(X)的準確率來決定特徵池Pm(1)~Pm(X)所欲挑選的指定數量。例如,基於陡坡圖/手肘法(Elbow method)來決定指定數量。以特徵池Pm(1)而言,其包括由訓練資料集TD1~TDS使用訓練模型M(1)所得到的S個特徵池,再透過計算特徵f1~fn被S個特徵池挑中的次數進行排名,取出指定數量的特徵。特徵池Pm(2)~Pm(X)亦以此類推。
挑選方式(3):先基於多個特徵類型,將全部特徵分類為多個特徵群組,之後,透過每一個訓練模型在各個特徵群組所包括的特徵中執行特徵擷取動作,藉此一個訓練模型可獲得對應至所述多個特徵群組的多個特徵池。例如,以體學特徵而言,體學特徵可分類為代謝體學、基因體學等特徵類型,故多個特徵可分類為代謝體學群組、基因體學群組等。
舉例來說,圖4是依照本發明一實施例的針對特徵群組的挑選方式的示意圖。在本實施例中,針對一個訓練資料集TD1使用X個訓練模型M(1)~M(X)來進行說明,其他訓練資料集TD2~TDS亦以此類推。並且,假設基於N種特徵類型將全部特徵進行分類而獲得N個特徵群組G(1)~G(N)。。
請參照圖4,針對不同的特徵群組將訓練資料集TD1輸入至訓練模型M(1)~M(X)中的每一個進行訓練。以特徵群組G(1)而言,訓練資料集TD1輸入至訓練模型M(1)進行訓練,利用訓練模型M(1)在特徵群組G(1)中進行挑選而獲得特徵池P1(G1),訓練資料集TD1輸入至訓練模型M(2)進行訓練,利用訓練模型M(2)在特徵群組G(1)中進行挑選而獲得特徵池P2(G1),…,以此類推,獲得特徵池P1(G1)、P2(G1)、......、PX(G1)。
接著,再分別針對特徵群組G(2)~特徵群組G (N),將訓練資料集TD1輸入至訓練模型M(1)~M(X)進行訓練,來獲得對應的特徵池,結果如表1所示。特徵群組G(1)對應至特徵池P1(G1)、P2(G1)、......、PX(G1);特徵群組G(2)對應至特徵池P1(G2)、P2(G2)、......、PX(G2)等等。而每一個特徵群組對應的多個特徵池可合併為一個大的特徵池(TD1(G1)~TD1(GN))。例如,對應於特徵群組G(1)的X個特徵池P1(G1)~PX(G1)可合併為大的特徵池TD1(G1)。
表1
特徵群組 | 特徵池 | 特徵池 |
G(1) | P1(G1)、P2(G1)、......、PX(G1) | TD1(G1) |
G(2) | P1(G2)、P2(G2)、......、PX(G2) | TD1(G2) |
...... | ...... | ...... |
G(N) | P1(GN)、P2(GN)、......、PX(GN) | TD1(GN) |
而訓練資料集TD2~TDS亦如同圖4所示的訓練資料集TD1來分別針對不同的特徵群組進行訓練,以獲得對應於特徵群組G(1)~G(N)的大的特徵池TD1(G1)~TDS(GN),如表2所示。例如,以訓練資料集TD2而言,特徵群組G(1)~G(N)分別對應至大的特徵池TD2(G1)~TD2(GN)。
表2
訓練資料集 | 特徵群組G(1) | 特徵群組G(2) | ...... | 特徵群組G(N) |
TD1 | TD1(G1) | TD1(G2) | ...... | TD1(GN) |
TD2 | TD2(G1) | TD2(G2) | ...... | TD2(GN) |
… | ||||
TDS | TDS(G1) | TDS(G2) | ...... | TDS(GN) |
返回圖1,在獲得特徵池之後,在步驟S110中,基於每一個特徵被所述特徵池挑中的次數來排序這些特徵,以獲得特徵排名。例如,假設特徵f1被兩個特徵池挑中,則其計數的次數為2。因此,可基於各特徵池所挑選到的特徵來計數各特徵的次數。
之後,在步驟S115中,基於特徵排名,自所述特徵中取出多個指定特徵。在一實施例中,可自所述特徵中取出符合指定數量的指定特徵。
在此,指定數量可根據訓練模型的準確率來決定。具體而言,可利用多個測試資料,在選用不同的多個數量的特徵的情況下來獲得各訓練模型的多個準確率。測試資料是用於檢測訓練模型。測試資料只會在檢驗訓練模型時使用,用於評估訓練模型的準確率。在獲得各訓練模型在選擇不同數量的特徵的情況下的準確率之後,基於這些準確率來選擇其中一個訓練模型。例如,選擇具有最高準確率的訓練模型。假設分別選定10個不同數量的特徵來檢驗訓練模型的準確率,則一個訓練模型會獲得10個準確率。X個訓練模型則包括10X個準確率。在10X個準確率中找出最高準確率,以選定具有最高準確率的訓練模型。
接著,基於被選擇的訓練模型的數量與準確率來獲得陡坡圖/手肘法(Elbow method),如圖5所示。圖5是依照本發明一實施例的陡坡圖/手肘法的示意圖。請參照圖5,橫軸表示特徵數量,縱軸表示準確率。而在另一實施例中,在不同特徵數量下,根據模型預測機率畫出操作特徵曲線(receiver operating characteristic curve,ROC),並計算曲線下面積(area under curve,AUC),而以AUC來作為縱軸。之後,通過陡坡圖/手肘法在特徵數量中獲得指定數量。
而在選定挑選方式(3)的情況下,可根據特徵群組將多個特徵池設定為一個特徵集合,之後基於每一個特徵被特徵池挑中的次數來排序各特徵集合中的各特徵,以獲得各特徵集合的特徵排名。以圖4而言,將訓練資料集TD1~TDS對應於特徵群組G(1)分別所獲得的S個大的特徵池設定為特徵集合TD(G1)(包括TD1(G1)~TDS(G1)),並基於特徵集合TD(G1)來對特徵群組G(1)中的特徵進行排名,而獲得對應的一組特徵排名R1。將訓練資料集TD1~TDS對應於特徵群組G(2)分別所獲得的S個大的特徵池設定為特徵集合TD(G2)(包括特徵池TD1(G2)~TDS(G2)),並基於特徵集合TD(G2)來對特徵群組G(2)中的特徵進行排名,而獲得對應的一組特徵排名R2。以此類推,獲得N組特徵排名R1~RN。之後,基於每一個特徵群組對應的權重以及特徵排名,自各特徵群組中取出對應數量的指定特徵。例如,每一個特徵群組對應的權重是基於每一個特徵群組所包括的特徵數量佔全部特徵數量的比值。假設全部特徵數量為n個,特徵類型包括三種,則可分類為三個特徵群組,每一個特徵群組所包括的特徵數量為n1、n2、n3(n=n1+n2+n3),則其對應權重分別為n1/n、n2/n、n3/n。可進一步將指定數量乘上對應權重,而自各特徵群組中取出對應數量的指定特徵。
圖6是依照本發明一實施例的特徵挑選方法的流程圖。請參照圖6,在步驟S605中,在挑選方式(1)~(3)中選擇至少一種。針對每一種挑選方式,獲得符合對應的指定數量的指定特徵,進而分別獲得對應於所述多個挑選方式的多個選定特徵組。假設選擇挑選方式(2)與挑選方式(3),則獲得兩個選定特徵組{x1}、{x2}。其中,選定特徵組由圖1中步驟S115所取出的多個指定特徵所組成。
接著,在步驟S610中,對選定特徵組{x1}、{x2}執行聯集({x1}∪{x2})、交集({x1}∩{x2})或差集({x1}-{x2}或{x2}-{x1})來獲得整合特徵池{x3}。
之後,在步驟S615中,透過多體學(multiomics)特徵調控途徑(regulation pathways)分析,查詢多個已知資料庫,以在整合特徵池{x3}中挑選出一或多個代表特徵而獲得另一特徵池{x4}。
圖7是依照本發明一實施例的多體學特徵調控途徑分析的示意圖。在本實施例中使用的已知資料庫包括:基因資料庫,例如為國家生物技術資訊中心(National Center for Biotechnology Information,NCBI)設置的與生物技術和生物醫學相關的一系列資料庫;代謝資料庫,例如為MetaCyc資料庫;基因與蛋白質交互作用資料庫,例如為BioGRID(Biological General Repository for Interaction Datasets);基因功能資料庫,例如為DAVID資料庫;基因與蛋白質表現量資料庫,例如為人類蛋白質地圖(The Human Protein Atlas);生醫論文資料庫,例如為PubMed資料庫。然,在此僅為舉例說明,並不以此為限。
以基因體學與代謝體學兩個特徵類型而言,查詢基因資料庫來取得被分類至基因體學的特徵對應的基因名稱與相關資訊;並且查詢代謝資料庫來取得被分類至代謝體學的特徵對應的代謝途徑(metabolic pathway)與相關資訊。根據取得的基因名稱進一步查詢基因與蛋白質交互作用資料庫、基因功能資料庫以及基因與蛋白質表現量資料庫,以篩選出現在所述資料庫中的特徵。並且,根據基因名稱及代謝途徑查詢生醫論文資料庫,來取得出現在生醫論文資料庫中的特徵。
之後,執行多體學特徵調控途徑分析,即,找出生理機制是哪些基因及代謝物質所引起。一般而言,生理機制是由許多基因互相影響,引起一連串物理及化學反應與代謝物質,且代謝物質又會引發其他反應。而多體學特徵調控途徑分析可找出生理機制是哪些基因及代謝物質所引起。多體學特徵調控途徑分析會考慮生物背後的遺傳變異,結合已知的資料庫,將多體學特徵結合或串聯在一起。故,將多體學特徵調控途徑分析應用於將整合特徵池{x3}中的特徵,可篩選出臨床上有意義的特徵池{x4}。特徵池{x4}中的特徵皆是有關聯性的,例如會相互影響。
最後,在步驟S620中,自所述代表特徵選出最終特徵。即,衡量特徵池{x4}中其特徵對於疾病的預測表現(例如透過陡坡圖/手肘法),以決定最終的特徵池{x5},確保特徵池{x5}中的特徵都是臨床上具有意義且對疾病預測的準確率都是醫學上可接受的。
例如,可利用多個測試資料,在分別選用特徵池{x4}中的不同數量的代表特徵的情況下來獲得各訓練模型的多個準確率。之後,基於所述準確率在這些代表特徵中選出一或多個最終特徵。即,利用如圖5所述的陡坡圖/手肘法來獲得一數量F後,在特徵池{x4}中篩選出最終的特徵池{x5},其中特徵池{x5}中的特徵數量為F,再依據圖4所取得的特徵排名選取前F名得到特徵池{x5}。
另外,在另一實施例中,在選定挑選方式(1)的情況下,不需要進行排名,而是直接獲得指定特徵。即,透過每一個訓練模型逐一針對單一特徵計算至少一個統計指標,並將統計指標與對應的臨界值進行比對,以自所述特徵中獲得指定特徵。以圖2而言,特徵池Ps(1)、Ps(2)中的特徵即為指定特徵。
另外,在其他實施例中,倘若選定了多個挑選方式中包括挑選方式(1)(針對單一特徵),則可先執行挑選方式(1)做單一特徵,接著,再以挑選方式(1)所挑出來的特徵池去執行其他挑選方式。
綜上所述,本揭露利用多個訓練模型來篩選特徵,再根據各特徵被訓練模型挑選到的次數來進行下一步的篩選。據此,可利用最少特徵數量來獲得最好的預測結果
另外,本揭露還提供了三種挑選方式(1)~(3)進行初步篩選獲得至少兩個選定特徵組{x1}、{x2},於初步篩選所獲得的選定特徵組{x1}、{x2}中進行篩選獲得整合特徵池{x3},透過多體學特徵調控途徑分析可自整合特徵池{x3}中篩選出特徵池{x4},再進一步於特徵池{x4}篩選出特徵池{x5}。據此,透過多層級的特徵篩選,不僅節省特徵挑選時間也可挑選出最具影響性的特徵,同時維持高準確率。
f1~fn:特徵
G(1)~G(N):特徵群組
Ms(1)、Ms(2)、M(1)~M(X):訓練模型
p(f1)~p(fn):P值
Ps(1)、Ps(2)、Pm(1)~Pm(X)、P1(G1)~PX(GN):特徵池
r(f1)~r(fn):勝算比
TD1~TDS:訓練資料集
S105~S115:特徵挑選方法的步驟
S205、S210:步驟
S605~S620:特徵挑選方法的步驟
圖1是依照本發明一實施例的特徵挑選方法的流程圖。
圖2是依照本發明一實施例的針對單一特徵的挑選方式的示意圖。
圖3是依照本發明一實施例的針對全部特徵的挑選方式的示意圖。
圖4是依照本發明一實施例的針對特徵群組的挑選方式的示意圖。
圖5是依照本發明一實施例的陡坡圖的示意圖。
圖6是依照本發明一實施例的特徵挑選方法的流程圖。
圖7是依照本發明一實施例的多體學特徵調控途徑分析的示意圖。
S105~S115:特徵挑選方法的步驟
Claims (11)
- 一種特徵挑選方法,利用一電子裝置在多個特徵中進行挑選,該特徵挑選方法包括:將多個訓練資料分別輸入至多個訓練模型,使得每一該些訓練模型分別在該些特徵中進行挑選,而獲得多個特徵池,其中每一該些訓練模型獲得該些特徵池的至少其中一個;基於每一該些特徵被該些特徵池挑中的次數來排序該些特徵,以獲得一特徵排名;以及基於該特徵排名,自該些特徵中取出多個指定特徵。
- 如請求項1所述的特徵挑選方法,其中每一該些訓練模型分別在該些特徵中進行挑選,而獲得該些特徵池的步驟包括:透過一第一挑選方式、一第二挑選方式以及一第三挑選方式中的至少其中一種,自該些特徵中進行挑選以獲得該些特徵池,其中在該第一挑選方式中,每一該些訓練模型對應至一個特徵池,該第一挑選方式包括:透過每一該些訓練模型逐一針對該些特徵中的單一特徵計算至少一統計指標,並將該統計指標與對應的一臨界值進行比對,藉此決定是否挑選該單一特徵至每一該些訓練模型對應的特徵池;在該第二挑選方式中,每一該些訓練模型對應至一個特徵池,該第二挑選方式包括:透過每一該些訓練模型在該些特徵中執行一特徵擷取動作,藉此在該些特徵中挑選多個至每一該些訓 練模型對應的該些特徵池;在該第三挑選方式中,每一該些訓練模型具有對應至多個特徵類型的多個特徵池,該第三挑選方式包括:基於該些特徵類型,將該些特徵分類為多個特徵群組,透過每一該些訓練模型在每一該些特徵群組所包括的特徵中執行該特徵擷取動作,藉此在每一該些特徵群組中挑選多個特徵至每一該些訓練模型所包括的對應至每一該些特徵群組的特徵池。
- 如請求項2所述的特徵挑選方法,其中透過該第三挑選方式獲得的該些特徵池之後,更包括:將每一該些特徵群組對應的該些特徵池設定為一個特徵集合;基於每一個特徵被該些特徵池挑中的次數來排序各特徵集合中的各特徵,以獲得各特徵集合的該特徵排名;以及基於每一該些特徵群組對應的一權重以及該特徵排名,自各特徵集合中取出對應數量的指定特徵,其中,每一該些特徵群組分類對應的該權重是基於每一該些特徵群組分類所包括的特徵數量佔全部特徵數量的比值。
- 如請求項2所述的特徵挑選方法,其中在該第一挑選方式、該第二挑選方式以及該第三挑選方式中選擇多個的情況下,更包括:針對該第一挑選方式、該第二挑選方式以及該第三挑選方式的每一個,獲得符合對應的指定數量的該些指定特徵,進而分別 獲得對應於該第一挑選方式、該第二挑選方式以及該第三挑選方式的多個選定特徵組。
- 如請求項4所述的特徵挑選方法,其中在分別獲得對應於該第一挑選方式、該第二挑選方式以及該第三挑選方式的該些選定特徵組之後,更包括:對該些選定特徵組執行一聯集、一交集以及一差集其中一者來獲得一整合特徵池。
- 如請求項5所述的特徵挑選方法,其中在獲得該整合特徵池之後,更包括:透過一多體學特徵調控途徑分析,查詢多個已知資料庫,以在該整合特徵池中挑選出一或多個代表特徵。
- 如請求項6所述的特徵挑選方法,其中在獲得所述一或多個代表特徵之後,更包括:利用多個測試資料,在分別選用不同的多個特徵數量的該些代表特徵的情況下來獲得每一該些訓練模型的多個準確率;以及基於該些準確率在該些代表特徵中選出一或多個最終特徵。
- 如請求項1所述的特徵挑選方法,其中基於該特徵排名,自該些特徵中取出該些指定特徵的步驟包括:基於該特徵排名,自該些特徵中取出符合一指定數量的該些指定特徵,其中,在獲得該些特徵池之後,更包括:利用多個測試資料,在選用不同的多個特徵數量的特徵的情 況下來獲得每一該些訓練模型的多個準確率;基於該些準確率,在該些訓練模型中選擇其中一個;基於被選擇的其中一個訓練模型的該些特徵數量與該些準確率來獲得一陡坡圖;以及基於該陡坡圖,在該些特徵數量中獲得該指定數量。
- 如請求項1所述的特徵挑選方法,其中在獲得該些指定特徵之後,更包括:透過一多體學特徵調控途徑分析,查詢多個已知資料庫,以在該些指定特徵中挑選出一或多個代表特徵。
- 如請求項9所述的特徵挑選方法,其中在獲得所述多個代表特徵之後,更包括:利用多個測試資料,在分別選用不同的多個特徵數量的該些代表特徵的情況下來獲得每一該些訓練模型的多個準確率;以及基於該些準確率在該些代表特徵中選出一或多個最終特徵。
- 一種特徵挑選方法,利用一電子裝置在多個特徵中進行挑選,該特徵挑選方法包括:透過一第一挑選方式、一第二挑選方式以及一第三挑選方式中的其中一種,將多個訓練資料分別輸入至多個訓練模型,使得每一該些訓練模型分別在該些特徵中進行挑選以獲得多個特徵池;基於每一該些特徵被該些特徵池挑中的次數來排序該些特徵,以獲得一特徵排名;以及 基於該特徵排名,自該些特徵中取出多個指定特徵,其中,在該第一挑選方式中,每一該些訓練模型對應至一個特徵池,該第一挑選方式包括:透過每一該些訓練模型逐一針對該些特徵中的單一特徵計算一統計指標,並將該統計指標與對應的一臨界值進行比對,以決定是否挑選該單一特徵至每一該些訓練模型對應的特徵池;在該第二挑選方式中,每一該些訓練模型對應至一個特徵池,該第二挑選方式包括:透過每一該些訓練模型在該些特徵中執行一特徵擷取動作,藉此在該些特徵中挑選多個至每一該些訓練模型對應的特徵池;在該第三挑選方式中,每一該些訓練模型具有對應至多個特徵類型的多個特徵池,該第三挑選方式包括:基於該些特徵類型,將該些特徵分類為多個特徵群組,透過每一該些訓練模型在每一該些特徵群組所包括的特徵中執行該特徵擷取動作,藉此在每一該些特徵群組中挑選多個特徵至每一該些訓練模型所包括的對應至每一該些特徵群組的特徵池。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111105254A TWI806425B (zh) | 2022-02-14 | 2022-02-14 | 特徵挑選方法 |
CN202210808227.3A CN116644299A (zh) | 2022-02-14 | 2022-05-23 | 特征挑选方法 |
US17/751,689 US20230259814A1 (en) | 2022-02-14 | 2022-05-24 | Feature selection method |
EP22175121.7A EP4227946A1 (en) | 2022-02-14 | 2022-05-24 | Feature selection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111105254A TWI806425B (zh) | 2022-02-14 | 2022-02-14 | 特徵挑選方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI806425B true TWI806425B (zh) | 2023-06-21 |
TW202333091A TW202333091A (zh) | 2023-08-16 |
Family
ID=81846238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111105254A TWI806425B (zh) | 2022-02-14 | 2022-02-14 | 特徵挑選方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230259814A1 (zh) |
EP (1) | EP4227946A1 (zh) |
CN (1) | CN116644299A (zh) |
TW (1) | TWI806425B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101061510A (zh) * | 2004-11-19 | 2007-10-24 | 皇家飞利浦电子股份有限公司 | 计算机辅助检测(cad)中的假阳性降低 |
US20160174902A1 (en) * | 2013-10-17 | 2016-06-23 | Siemens Aktiengesellschaft | Method and System for Anatomical Object Detection Using Marginal Space Deep Neural Networks |
TW202020887A (zh) * | 2018-11-20 | 2020-06-01 | 帆宣系統科技股份有限公司 | 智慧型預診斷與健康管理系統建模方法及其電腦程式產品 |
CN113435602A (zh) * | 2016-11-01 | 2021-09-24 | 第四范式(北京)技术有限公司 | 确定机器学习样本的特征重要性的方法及系统 |
-
2022
- 2022-02-14 TW TW111105254A patent/TWI806425B/zh active
- 2022-05-23 CN CN202210808227.3A patent/CN116644299A/zh active Pending
- 2022-05-24 EP EP22175121.7A patent/EP4227946A1/en active Pending
- 2022-05-24 US US17/751,689 patent/US20230259814A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101061510A (zh) * | 2004-11-19 | 2007-10-24 | 皇家飞利浦电子股份有限公司 | 计算机辅助检测(cad)中的假阳性降低 |
US20160174902A1 (en) * | 2013-10-17 | 2016-06-23 | Siemens Aktiengesellschaft | Method and System for Anatomical Object Detection Using Marginal Space Deep Neural Networks |
CN113435602A (zh) * | 2016-11-01 | 2021-09-24 | 第四范式(北京)技术有限公司 | 确定机器学习样本的特征重要性的方法及系统 |
TW202020887A (zh) * | 2018-11-20 | 2020-06-01 | 帆宣系統科技股份有限公司 | 智慧型預診斷與健康管理系統建模方法及其電腦程式產品 |
Also Published As
Publication number | Publication date |
---|---|
CN116644299A (zh) | 2023-08-25 |
US20230259814A1 (en) | 2023-08-17 |
TW202333091A (zh) | 2023-08-16 |
EP4227946A1 (en) | 2023-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Harrell, Jr et al. | Multivariable modeling strategies | |
Yang et al. | Improving GO semantic similarity measures by exploring the ontology beneath the terms and modelling uncertainty | |
CN104584022B (zh) | 一种生成生物标记签名的系统及方法 | |
CN110709826B (zh) | 用于链接来自异构数据库的数据记录的方法及系统 | |
US20020095260A1 (en) | Methods for efficiently mining broad data sets for biological markers | |
CN108121896B (zh) | 一种基于miRNA的疾病间关系分析方法和装置 | |
JP2009520278A (ja) | 科学情報知識管理のためのシステムおよび方法 | |
Xie et al. | Automatic cell type identification methods for single-cell RNA sequencing | |
CN113299346B (zh) | 分类模型训练和分类方法、装置、计算机设备和存储介质 | |
CN110827924B (zh) | 基因表达数据的聚类方法、装置、计算机设备及存储介质 | |
Benso et al. | A cDNA microarray gene expression data classifier for clinical diagnostics based on graph theory | |
Wang et al. | Subtype dependent biomarker identification and tumor classification from gene expression profiles | |
Yang et al. | Gaining confidence in biological interpretation of the microarray data: the functional consistence of the significant GO categories | |
Zhao et al. | Whale optimized mixed kernel function of support vector machine for colorectal cancer diagnosis | |
Moteghaed et al. | Biomarker discovery based on hybrid optimization algorithm and artificial neural networks on microarray data for cancer classification | |
CN110010204B (zh) | 基于融合网络和多打分策略的预后生物标志物识别方法 | |
US20220343999A1 (en) | Molecular phenotype classification | |
TWI806425B (zh) | 特徵挑選方法 | |
US20160378914A1 (en) | Method of and apparatus for identifying phenotype-specific gene network using gene expression data | |
US20230116904A1 (en) | Selecting a cell line for an assay | |
WO2024062895A1 (ja) | 評価方法、可視化方法、評価装置、及び可視化装置 | |
Sfakianakis et al. | Stacking of network based classifiers with application in breast cancer classification | |
Chira et al. | Gene clustering in time series microarray analysis | |
Giancarlo et al. | Statistical indices for computational and data driven class discovery in microarray data | |
Kariotis et al. | Omada: Robust clustering of transcriptomes through multiple testing |