TWI762853B - 利用自動化機制挑選影響力指標的方法及電子裝置 - Google Patents
利用自動化機制挑選影響力指標的方法及電子裝置 Download PDFInfo
- Publication number
- TWI762853B TWI762853B TW109100302A TW109100302A TWI762853B TW I762853 B TWI762853 B TW I762853B TW 109100302 A TW109100302 A TW 109100302A TW 109100302 A TW109100302 A TW 109100302A TW I762853 B TWI762853 B TW I762853B
- Authority
- TW
- Taiwan
- Prior art keywords
- indicators
- measured
- data
- index
- ranking
- Prior art date
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7271—Specific aspects of physiological measurement analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Surgery (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Veterinary Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Biotechnology (AREA)
- Heart & Thoracic Surgery (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Physiology (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
Abstract
一種利用自動化機制挑選影響力指標的方法及電子裝置。此方法包括下列步驟。取得原始資料,並且原始資料包括身體相關變數及身體相關變數對應的多個待測指標。設定身體相關變數為目標參數。將身體相關變數及待測指標輸入至多個模型驗證中,以根據模型驗證的輸出結果排序各待測指標以取得排名資料。利用篩選條件根據排名資料計算待測指標的重要性,以從待測指標中挑選候選指標。最後,計算候選指標與身體相關變數的相關性以決定影響力指標。
Description
本發明是有關於一種自動挑選技術,且特別是有關於一種利用自動化機制挑選影響力指標的方法及具有利用自動化機制挑選影響指標功能的電子裝置。
一般來說老人相對於年輕人具有較少的肌肉量,並且隨著年紀的增長,肌肉量也容易流失,而肌肉過度流失容易引發肌少症的現象。因此,研究人體內蛋白質與肌肉量的關係,並找到可以用來預測肌肉量的蛋白質,便可以較早的預防肌少症,以延緩老化的速度。
然而,若逐一針對蛋白質進行實驗來分析各個蛋白質是否跟肌肉量有關,會花費許多時間及費用。因此必須研發挑選具有影響力的蛋白質的技術。
有鑑於此,本發明提供一種利用自動化機制挑選影響力指標的方法及電子裝置,其可從多個待測指標中挑選出具影響力的指標。
本發明的實施例提供一種利用自動化機制挑選影響力指標的方法,適用於電子裝置。而利用自動化機制挑選影響力指標的方法包括下列步驟。取得原始資料,其中上述原始資料包括身體相關變數及身體相關變數對應的多個待測指標。設定身體相關變數為目標參數。將身體相關變數及待測指標輸入至多個模型驗證中,以根據模型驗證的輸出結果排序各待測指標以取得排名資料。利用篩選條件根據排名資料計算待測指標的重要性,以從待測指標中挑選候選指標。以及計算候選指標與身體相關變數的相關性以決定影響力指標。
從另一觀點來看,本發明的實施例提供一種電子裝置,此電子裝置包括儲存裝置及處理器。儲存裝置儲存一或多個指令,而處理器耦接儲存裝置並用以執行上述指令以執行下列步驟。取得原始資料,其中上述原始資料包括身體相關變數及身體相關變數對應的多個待測指標。設定身體相關變數為目標參數。將身體相關變數及待測指標輸入至多個模型驗證中,以根據模型驗證的輸出結果排序各待測指標以取得排名資料。利用篩選條件根據排名資料計算待測指標的重要性,以從待測指標中挑選候選指標。以及計算候選指標與身體相關變數的相關性以決定影響力指標。
基於上述,本發明諸實施例所述利用自動化機制挑選影響力指標的方法及電子裝置,其設定不同的身體相關變數為目標參數,並將身體相關變數及與身體相關變數對應的多個待測指標輸入至模型驗證,以根據模型驗證的輸出結果排序各待測指標取得排名資料。並且利用篩選條件根據排名資料挑選具有重要性的待測指標,再計算候選指標與身體相關變數的相關性以驗證候選指標是否對身體相關變數具有影響力。藉此,可從多個待測指標中挑選出對身體相關變數具關聯性的影響力指標。
本發明的部份實施例接下來將會配合附圖來詳細描述,以下的描述所引用的元件符號,當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本發明的一部份,並未揭示所有本發明的可實施方式。更確切的說,這些實施例只是本發明的專利申請範圍中的方法以及電子裝置的範例。
圖1繪示本發明一實施例的電子裝置的方塊圖。參考圖1,電子裝置100包括但不限於處理器110以及儲存裝置120。處理器110耦接至儲存裝置120,而可存取並執行記錄在儲存裝置120中的指令,以實現本發明實施例的利用自動化機制挑選影響力指標的方法。電子裝置100例如是個人電腦(personal computer,PC)、工作站(work station)、伺服器(server)、筆記型電腦(notebook)、個人數位助理(personal digital assistant,PDA)、智慧型手機(smart phone)、平板電腦(tablet PC)等具有運算能力的電子裝置,本發明不在此限制。
在不同實施例中,處理器110例如是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)或其他類似裝置或這些裝置的組合,本發明不在此限制。
儲存裝置120例如是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash memory)、硬碟或其他類似裝置或這些裝置的組合,而用以儲存可由處理器110執行的一或多個指令,這些指令可載入處理器110。
圖2繪示本發明一實施例的利用自動化機制挑選影響力指標的方法的流程圖。請同時參照圖1及圖2,本實施例的方法適用於上述的電子裝置100,以下即搭配電子裝置100的各項裝置及元件說明本實施例的利用自動化機制挑選影響力指標的方法的詳細步驟。
首先,由處理器110取得原始資料,其中原始資料包括身體相關變數及身體相關變數對應的多個待測指標(步驟S202)。詳細而言,原始資料所包括的待測指標是可用於研究特定生理現象的人體組成成分,而身體相關變數是與特定生理現象相關聯並且可透過測量而得到的數據。以研究肌少症(Sarcopenia)的相關因子為例,肌少症是隨著老化歷程造成與運動相關四肢骨骼肌流失,以致活動功能喪失的狀況。由此可知,肌少症的發生會與肌肉量的變化有關係。由於肌肉的組成是蛋白質,因此可以研究人體內蛋白質與肌肉量之間的關聯性,並找出影響肌肉量相關的蛋白質。於此,待測指標例如是不同的蛋白質。當研究人員想要研究找出與肌肉量相關的蛋白質時,可以利用與肌肉量數值相關的身體相關變數來研究哪些蛋白質可能影響肌肉量。舉例來說,與肌肉量數值相關的身體相關變數例如是握力(Grip strength)、除脂肪體重(Lean Body Mass,LBM)、四肢骨格肌質量(appendicular skeletal muscle mass,ASM)以及四肢骨骼肌質量指數(relative appendicular skeletal muscle mass,RASM,四肢骨骼肌質量指數的計算方法為ASM/(身高2
))。
之後,處理器110會設定身體相關變數為目標參數(步驟S204)。具體而言,由於本發明實施例提供的自動化機制會使用多個機器學習的模型來輔助篩選重要的蛋白質,需要建構Y=f(X)的函數,因此處理器110會先將身體相關變數Y設定為目標參數。以前述肌少症研究為例,身體相關變數Y例如是握力、除脂肪體重、四肢骨格肌質量以及四肢骨骼肌質量指數,而函數中的X例如是待測指標,即,上千個蛋白質的偵側含量。
接著,處理器110會將身體相關變數及待測指標輸入至多個模型驗證中,以根據模型驗證的輸出結果排序各待測指標以取得排名資料(步驟S206)。具體而言,處理器110會根據機器學習方法建立預測目標參數(即,身體相關變數Y)的多個模型驗證(model validation),利用建立的各個驗證模型預測待測指標X對於身體相關變數Y的重要性,並根據待測指標X對於身體相關變數Y的重要性排序各待測指標X以產生排名資料。舉例而言,處理器110可建立回歸方法、樹狀方法或神經網路模型等模型驗證來計算Y=f(X)的函數中各個待測指標X的重要性。回歸方法例如是線性回歸(Linear regression)、Lasso算法(Lasso regression)、脊迴歸(Ridge regression)、支持相量回歸(Support Vector regression)或偏最小二乘迴歸(Partial Least Square regression)等回歸方法。樹狀方法例如是決策樹(Regression Tree)、隨機森林(Random Forest)等樹狀方法。神經網路模型例如是深度神經網路(Deep Neural Networks,DNN)等神經網路模型。在建立驗證模型後,處理器110利用各個驗證模型中衡量待測指標X重要性的準則來決定每個待測指標X的重要性。舉例而言,可決定待測指標X的重要性的準則例如是回歸方法中待測指標X的權重或是p-value是否顯著、樹狀方法中拿掉待測指標X後模型準確度下降的程度,或者,神經網路中神經元的權重。
在處理器110獲得各個待測指標X對於身體相關變數Y的重要性的資料後,處理器110會根據取得的重要性資料排序每個待測指標X,並產生排名資料。產生排名資料的方法例如是利用待測指標X的重要性或者是使用計算次數的方法來排名待測指標X。在一實施例中,處理器110可以取得每個模型驗證預測出的各個待測指標X對於身體相關變數的重要性的排名名次,並分別加總各待測指標X對應的排名名次以產生排名資料。在另一實施例中,處理器110還可以是使用計算次數的方式來記錄待測指標X。具體而言,處理器110在取得每個模型驗證預測出的各個待測指標X對於身體相關變數的重要性的排名名次後,根據預設的名次數量從排名名次中挑選待測指標X,接著計算待測指標X被挑選的次數以產生排名資料。
之後,處理器110利用篩選條件根據排名資料計算待測指標的重要性,以從待測指標中挑選候選指標(步驟S208)。在透過多個驗證模型計算出排名資料後,處理器110可以選擇排名最高或排名在特定名次之前的待測指標X作為重要性較高的待測指標X,而挑選此(些)待測指標X為候選指標。
此外,處理器110還可以根據其他的篩選條件來進一步篩選或給予更多的證據支持從待測指標X中挑選出候選指標。在一實施例中,處理器110可以是在利用建立的各個驗證模型計算出待測指標X對於身體相關變數Y的重要性,並根據待測指標X對於身體相關變數Y的重要性排序各待測指標X以產生排名資料後,額外限制重要性對應的相關係數必須大於某個預設數值才被挑選為產生排名資料的待測指標X。具體而言,處理器110會計算每個待測指標X與身體相關變數Y的相關係數(correlation coefficient),並挑選排名資料中,與身體相關變數Y的相關係數大於預設閾值的待測指標X為候選指標。預設閾值可經由一連串的事先分析而決定,並將其保存於儲存裝置120之中,例如,可以限制預設閾值為0.4。
在另一實施例中,處理器110可以利用多組排名資料之間的交集來挑選候選指標。需先說明的是,由於待測指標X與身體相關變數Y皆為測量值,並且各個測量值的單位不一,因此在步驟S206之前,處理器110可以先標準化原始資料中的身體相關變數Y及待測指標X為經轉換資料,再將經標準化轉換的身體相關變數及經標準化轉換的待測指標輸入至多個模型驗證中,以根據模型驗證的輸出結果排序各待測指標以取得排名資料。據以,透過對原始資料進行資料轉換,將原始資料中的身體相關變數及待測指標轉換為符合模型驗證規則的經轉換資料,可以滿足用於模型驗證方法的需求或消除系統性的誤差。其中系統性的誤差發生的原因,是由於測量儀器本身有誤差而可能發生同一個人的同一個蛋白質在不同儀器測量結果不同的現象。資料轉換的方法例如是標準化(Standardization)及/或對數轉換(Log transformation)。標準化方法可表示成方程式(1),對數轉換方法可表示成方程式(2):(1)(2)
其中,Xold
是待測指標X轉換前的原始資料,Xnew
是待測指標X轉換後的經轉換資料,mean(Xold
)代表原始資料的平均值,std(Xold
)代表原始資料的標準差,log(Xold
)代表原始資料的對數。
在利用多組排名資料之間的交集來挑選候選指標的方法中,首先,處理器110會標準化身體相關變數及待測指標X為經轉換資料,並將經轉換資料輸入模型驗證中以取得經轉換排名資料。利用模型驗證取得經轉換排名資料的方式與步驟S206中取得排名資料的方式相似,故在此不再贅述。接著,處理器110根據原始資料的排名資料以及經轉換資料的排名資料中待測指標X的排名以從待測指標X中挑選候選指標。詳細而言,處理器110可以直接加總原始資料的排名資料以及經轉換資料的排名資料中各待測指標X對應的排名名次,並選擇排名最高或排名在特定名次之前的待測指標X作為重要性較高的待測指標X,而挑選此(些)待測指標X為候選指標。另一方面,處理器110也可以先分別從原始資料的排名資料以及經轉換資料的排名資料中選擇排名最高或排名在特定名次之前的待測指標X作為重要性較高的待測指標X,再選擇兩者之中重複被挑選次數最高或重複被挑選次數在特定挑選次數之前的待測指標X為候選指標,本發明不在此限制。
換句話說,在排名資料以及經轉換排名資料中排名越前面的待測指標X代表重要性越高。據此,交集法可藉由交叉比對待測指標X在排名資料以及經轉換排名資料中的排名,挑選排名較高且排名交集最多的待測指標X作為候選指標。
在另一實施例中,處理器110可以利用上述步驟S206的模型驗證排序方法,取得關聯於相同特定生理現象的多個身體相關變數的多組排名資料。於此,利用多組排名資料之間的交集來挑選候選指標的方式與上述步驟S208中挑選候選指標的方式相似,故在此不再贅述。
最後,處理器110計算候選指標與身體相關變數的相關性以決定影響力指標(步驟S210)。在經由前述步驟後,處理器110可以從多個待測指標X中挑選出對於身體相關變數Y最重要的候選指標。接著,處理器110可建立用於檢驗的模型以確認候選指標與身體相關變數Y的相關性是否符合兩者之間的特性關係,亦即,透過特性關係確認選出的候選指標是可以用於預測身體相關變數Y的影響力指標。具體來說,處理器110利用統計模型驗證候選指標與身體相關變數的相關性,以確定後選指標是否為對應至身體相關變數的影響力指標。例如,建立利用模型係數方向性(model accuracy)或模型係數顯著性(model significance)等統計方法的驗證模型來確認挑選出的候選指標的重要性。
在本發明的另一實施例中,還可以透過從原始資料中隨機選取資料的機制,來重現對身體相關變數而言重要指標的重現性。藉此,可避免篩選出的候選指標是因為某次資料偏斜性而勝出。並且,進一步利用模型驗證預測多組隨機選取資料中待測指標X的多組排名資料,後續藉由這些排名資料來決定不同模型驗證的權重。藉此,可利用取得的權重反饋至圖2的步驟S206中來更準確的決定待測指標X的最終排名資料。
具體而言,處理器110會從原始資料中隨機選取多組子資料,並將子資料輸入模型驗證,以根據模型驗證的輸出結果取得多個排名資料。於此,利用多組排名資料之間的交集來挑選候選指標的方式與上述步驟S208中挑選候選指標的方式相似,故在此不再贅述。在另一實施例中,也可以標準化隨機選取的多組子資料,並利用多組標準化子資料取得的多組排名資料與利用多組子資料取得的多組排名資料之間的交集來挑選候選指標。
進一步而言,處理器110還可以利用篩選條件根據排名資料計算待測指標的重要性,以從待測指標中挑選候選指標。具體而言,處理器110根據各子資料對應的排名資料中,待測指標X被挑選為候選指標的次數計算待測指標X的平均特徵數。接著,處理器110再根據平均特徵數的倒數決定模型驗證的權重,並根據模型驗證的權重決定待測指標X的重要性。舉例而言,請參照下表1。假設從原始資料中隨機選取10組子資料,並且利用模型驗證Lasso、RF、SVR的輸出結果排名並挑選出候選指標後,待測指標X1、X2、X3被每個模型驗證挑選中的次數如下表1所示。於此,各模型驗證的平均特徵數的計算方式例如是待測指標被挑選總次數/子資料組數。平均特徵數的計算結果如下表1所示。
表1
待測指標 | Lasso | RF | SVR | 平均特徵數 |
X1 | 6 | 7 | 8 | 21/10=2.1 |
X2 | 5 | 6 | 3 | 14/10=1.4 |
X3 | 9 | 4 | 9 | 22/10=2.2 |
而模型驗證對應的平均特徵數越少,代表此模型驗證選出的特徵就越重要。因此,可以使用平均特徵數的倒數決定每個模型驗證的平均次數權重。計算出每個模型驗證的平均次數權重後,接著將待測指標被每個模型驗證挑選中的次數分別乘以每個模型驗證平均次數權重來獲得待測指標的重要性。下表2以待測指標X1為例,待測指標X1的重要性為6*W1+7*W2+8*W3。若以待測指標X2為例,待測指標X2的重要性則為5* W1+6*W2+3*W3。透過計算出待測指標X1~X3的重要性,處理器110可根據重要性結果從待測指標中挑選候選指標。挑選候選指標的方式例如是選擇重要性最高或重要性在特定名次之前的待測指標X作為候選指標,本發明不在此限制。
表2
模型驗證 | 平均次數權重 | 待測指標X1被挑選次數*平均次數權重 |
Lasso | W1=(1/2.1)/(1/2.1+1/1.4+1/2.2) | 6* W1 |
RF | W2=(1/1.4)/(1/2.1+1/1.4+1/2.2) | 7*W2 |
SVR | W3=(1/2.2)/(1/2.1+1/1.4+1/2.2) | 8*W3 |
以下舉實施例說明本發明上述方法的具體實施方式。圖3繪示本發明一實施例的利用自動化機制挑選影響力指標的方法的流程圖。以下實施例以研究肌少症的相關因子為例來舉例說明本發明利用自動化機制挑選影響力指標的方法。需說明的是,本發明不限制用於挑選肌少症的相關因子,也可以用於挑選與其他特定生理現象(如,其他病症)的身體相關變數Y相關聯的多個待測指標X。
首先,處理器110取得原始資料,其中原始資料包括身體相關變數及身體相關變數Y對應的多個待測指標X(步驟S202)。並且設定身體相關變數Y為目標參數(步驟S204)。在本實施例中,身體相關變數Y可以是握力、除脂肪體重、四肢骨格肌質量或四肢骨骼肌質量指數,而待測指標X包括多種蛋白質。接著,處理器110將原始資料分為訓練資料及測試資料(步驟S205)。
之後,處理器110將身體相關變數及待測指標輸入至多個模型驗證中,以根據模型驗證的輸出結果排序各待測指標以取得排名資料(步驟S206)。具體而言,在步驟S206中,處理器110將訓練資料分為原始資料部分(步驟S2061)和標準化原始資料的資料標準化部分(步驟S2061),並分別將原始資料和標準化資料輸入至多個模型驗證中以取得排名資料。在本實施例中,原始資料經模型驗證Lasso、RF、SVR計算後如下表3所示,表3中呈現蛋白質X1~X7對各個模型驗證的重要性數值。排名資料的產生方法可以是名次加總方式(如表4所示),或是計算次數方式(如表5所示)。詳細的排名資料產生方法已如前述,在此不再贅述。
表3
蛋白質 | Lasso | RF | SVR |
X1 | 0.8 | 0.9 | 1.7 |
X2 | 2.3 | 0.8 | 5.8 |
X3 | 0.1 | 0.7 | 2.3 |
X4 | 0.05 | 0.6 | 0.2 |
X5 | 0.001 | 0.5 | 0.1 |
X6 | 5.3 | 0.4 | 2.8 |
X7 | 1.2 | 0.3 | 5.6 |
表4
蛋白質 | Lasso | RF | SVR | 名次加總 |
X1 | 4 | 1 | 5 | 10 |
X2 | 2 | 2 | 1 | 5 |
X3 | 5 | 3 | 4 | 12 |
X4 | 6 | 4 | 6 | 16 |
X5 | 7 | 5 | 7 | 19 |
X6 | 1 | 6 | 3 | 10 |
X7 | 3 | 7 | 2 | 12 |
表5
蛋白質 | Lasso | RF | SVR | 計次加總 |
X1 | 1 | 1 | 1 | 3 |
X2 | 1 | 1 | 1 | 3 |
X3 | 1 | 1 | 1 | 3 |
X4 | 0 | 1 | 0 | 1 |
X5 | 0 | 1 | 0 | 0 |
X6 | 1 | 0 | 1 | 2 |
X7 | 1 | 0 | 1 | 2 |
在本實施例中,處理器110可以藉由從原始資料中重複隨機取樣K次來選取多組子資料(步驟S2063),並再次對多組子資料進行模型驗證以取得多組排名資料。或者處理器110也可以針對每個目標參數(即,不同的身體相關變數)重覆執行步驟S204~步驟S2063,以取得多組排名資料(步驟S207)。在此,是否要隨機取樣或針對不同的身體相關變數重覆執行取得多組排名資料的步驟,可由本領域技術之人設計與調整,本發明不在此限制。
接著,之後,處理器110利用篩選條件根據排名資料計算待測指標的重要性,以從待測指標中挑選候選指標(步驟S208)。步驟S208可參照圖2中對應步驟的內容,在此不再贅述。在本實施例中,處理器110挑選出蛋白質Q7為候選指標。
最後,處理器110計算候選指標與身體相關變數的相關性以決定影響力指標(步驟S210)。具體而言,處理器110利用測試資料來確定所選出的蛋白質Q7是否為對應至身體相關變數的影響力指標。在一實施例中,模型係數方向性例如是建立蛋白質Q7與特定生理現象(如,肌少症)之間的邏輯模型(logistic model)。模型建立結果以下表6為例。於此,蛋白質Q7的勝算比(odds ratio)為正,則代表所選出的蛋白質Q7與特定生理現象為正向關係。在此狀況下則可以確定所選出的蛋白質Q7為肌少症的影響力指標。
表6
勝算比 | |
Log(Q7) | 1.71 |
年齡 | 1.07 |
性別 | 0.84 |
在另一實施例中,模型係數顯著性例如是建立候選指標Q7(如,蛋白質)與特定生理現象(如,肌少症)相似的生理現象(如,衰弱症)之間的邏輯模型。模型建立結果以下表7為例。於此,蛋白質Q7的勝算比為正且P值(p-value)>0.05,則表示所選出的蛋白質Q7與衰弱症為正向關係。由於衰弱症與肌少症有相似的肌肉量減少的情形,在此預測結果下也可以推定所選出的蛋白質Q7為肌少症的影響力指標。
表7
勝算比 | P值 | |
Log(Q7) | 7.23 | 0.047 |
年齡 | 1.24 | >0.001 |
性別 | 0.97 | 0.955 |
在另一實施例中,模型係數顯著性例如是建立候選指標Q7(如,蛋白質)與受測者與肌肉量相關的數值(如,握力、行走速度、除脂肪體重、四肢骨格肌質量、四肢骨骼肌質量指數等)之間的線性模型(linear model)。模型建立結果以下表8及表9為例,從表8及表9中可觀察出蛋白質Q7與握力、行走速度、除脂肪體重、四肢骨格肌質量、四肢骨骼肌質量指數的相關係數為負,且P值(p-value)>0.05。這樣的預測結果表示與肌肉量相關的數值與蛋白質Q7為負向關係,換句話說,當蛋白質Q7的數值越大,則與肌肉量相關的數值越小。由於肌少症有肌肉量減少的情形,在此預測結果下則可以確定所選出的蛋白質Q7為肌少症的影響力指標。
表8
Y | Log(握力) | Log(行走速度) | ||
X | 相關係數 | P值 | 相關係數 | P值 |
Log(Q7) | -0.198 | 0.010 | -0.2 | 0.103 |
年齡 | -0.016 | >0.001 | -0.028 | >0.001 |
性別 | 0.472 | >0.001 | 0.168 | 0.005 |
表9
Y | Log(LBM) | Log(ASM) | Log(RASM) | |||
X | 相關係數 | P值 | 相關係數 | P值 | 相關係數 | P值 |
Log(Q7) | -0.078 | 0.037 | -0.084 | 0.05 | -0.07 | 0.045 |
年齡 | -0.078 | 0.011 | -0.005 | >0.001 | -0.002 | 0.051 |
性別 | 0.31 | >0.001 | 0.365 | >0.001 | 0.219 | >0.001 |
在又一實施例中,模型分組顯著性例如是將與肌肉量相關的數值(如,握力、行走速度、除脂肪體重、四肢骨格肌質量、四肢骨骼肌質量指數等)分成高低兩個組別,並檢定兩個組別的候選指標Q7(如,蛋白質)含量是否具有顯著差異。
以四肢骨格肌質量並以男性受測者為例,圖4A繪示本發明一實施例的檢定男性蛋白質Q7含量顯著性的範例。請參照圖4A的分組盒鬚圖401。在本範例中,高肌肉量與低肌肉量之間的T檢定結果的T值為3.1579,亦即,T檢定結果具有顯著差異。因此顯示出高肌肉量的組別,其蛋白質Q7的含量較低。換句話說,此預測結果代表低肌肉量的組別的蛋白質Q7的含量較高。由於肌少症有肌肉量減少的情形,在此預測結果下則可以確定所選出的蛋白質Q7為肌少症的影響力指標。
以四肢骨格肌質量並以女性受測者為例,圖4B繪示本發明一實施例的檢定女性蛋白質Q7含量顯著性的範例。請參照圖4B的分組盒鬚圖402。在本範例中,高肌肉量與低肌肉量之間的T檢定結果的T值為3.0243,亦即,T檢定結果具有顯著差異。因此顯示出高肌肉量的組別,其蛋白質Q7的含量較低。換句話說,此預測結果代表低肌肉量的組別的蛋白質Q7的含量較高。由於肌少症有肌肉量減少的情形,在此預測結果下則可以確定所選出的蛋白質Q7為肌少症的影響力指標。
綜上所述,於本發明實施例中,透過使用不同的驗證模型及隨機選取不同的樣本,自動找出待測指標中對於預測身體相關變數據有影響力的主要待測指標。藉此,可從多個待測指標中挑選出對身體相關變數具關聯性的影響力指標,以避免耗時費力的大量實驗,達成自動化挑選影響力指標的目的。
100:電子裝置
110:處理器
120:儲存裝置
S202~S210:步驟
401、402:盒鬚圖
圖1繪示本發明一實施例的電子裝置的方塊圖。
圖2繪示本發明一實施例的利用自動化機制挑選影響力指標的方法的流程圖。
圖3繪示本發明一實施例的利用自動化機制挑選影響力指標的方法的流程圖。
圖4A繪示本發明一實施例的檢定男性蛋白質Q7含量顯著性的範例。
圖4B繪示本發明一實施例的檢定女性蛋白質Q7含量顯著性的範例。
S202~S210:步驟
Claims (10)
- 一種利用自動化機制挑選影響力指標的方法,適用於電子裝置,包括:取得原始資料,其中所述原始資料包括身體相關變數及所述身體相關變數對應的多個待測指標;設定所述身體相關變數為目標參數;將所述身體相關變數及所述待測指標輸入至多個模型驗證中,以根據所述模型驗證的輸出結果排序各所述待測指標以取得排名資料;利用篩選條件根據所述排名資料計算所述待測指標的重要性,以從所述待測指標中挑選候選指標;以及計算所述候選指標與所述身體相關變數的相關性以根據所述相關性確認所述候選指標為可用於預測所述身體相關變數的影響力指標。
- 如申請專利範圍第1項所述的利用自動化機制挑選影響力指標的方法,其中將所述身體相關變數及所述待測指標輸入至所述模型驗證中,以根據所述模型驗證的輸出結果排序各所述待測指標以取得所述排名資料的步驟包括:利用所述模型驗證預測所述待測指標對於所述身體相關變數的重要性;以及根據所述待測指標對於所述身體相關變數的重要性排序各所述待測指標以產生所述排名資料。
- 如申請專利範圍第2項所述的利用自動化機制挑選影響力指標的方法,其中根據所述待測指標對於所述身體相關變數的重要性排序各所述待測指標以產生所述排名資料的步驟包括:取得所述待測指標對於所述身體相關變數的重要性的排名名次;以及分別加總各所述待測指標對應的所述排名名次以產生所述排名資料。
- 如申請專利範圍第2項所述的利用自動化機制挑選影響力指標的方法,其中根據所述待測指標對於所述身體相關變數的重要性排序各所述待測指標以產生所述排名資料的步驟包括:取得所述待測指標對於所述身體相關變數的重要性的排名名次;根據預設的名次數量從所述排名名次中挑選所述待測指標;以及計算各所述待測指標被挑選的次數以產生所述排名資料。
- 如申請專利範圍第1項所述的利用自動化機制挑選影響力指標的方法,其中將所述身體相關變數及所述待測指標輸入至所述模型驗證中,以根據所述模型驗證的輸出結果排序各所述待測指標以取得所述排名資料的步驟之前,所述方法更包括:標準化所述原始資料中的所述身體相關變數及所述待測指標為經轉換資料;以及將所述經轉換資料輸入所述模型驗證中以取得經轉換排名資 料。
- 如申請專利範圍第5項所述的利用自動化機制挑選影響力指標的方法,其中利用所述篩選條件根據所述排名資料計算所述待測指標的重要性,以從所述待測指標中挑選所述候選指標的步驟包括:根據所述排名資料以及所述經轉換排名資料中所述待測指標的排名以從所述待測指標中挑選所述候選指標。
- 如申請專利範圍第1項所述的利用自動化機制挑選影響力指標的方法,其中利用所述篩選條件根據所述排名資料計算所述待測指標的重要性,以從所述待測指標中挑選所述候選指標的步驟包括:挑選所述排名資料中,與所述身體相關變數的相關係數大於預設閾值的所述待測指標為所述候選指標。
- 如申請專利範圍第1項所述的利用自動化機制挑選影響力指標的方法,其中計算所述候選指標與所述身體相關變數的相關性以根據所述相關性確認所述候選指標為可用於預測所述身體相關變數的所述影響力指標的步驟包括:利用統計模型驗證所述候選指標與所述身體相關變數的相關性,以確定所述後選指標是否為對應至所述身體相關變數的所述影響力指標。
- 如申請專利範圍第1項所述的利用自動化機制挑選影響力指標的方法,其中所述方法更包括: 從所述原始資料中隨機選取多組子資料,並將所述子資料輸入所述模型驗證,以根據所述模型驗證的輸出結果取得多個所述排名資料;根據各所述子資料對應的所述排名資料中,所述待測指標被挑選為所述候選指標的次數計算所述待測指標的平均特徵數;根據所述平均特徵數的倒數決定所述模型驗證的權重;以及根據所述模型驗證的所述權重決定所述待測指標的重要性。
- 一種電子裝置,包括:儲存裝置,儲存一或多個指令;以及處理器,耦接所述儲存裝置,用以執行所述指令以:取得原始資料,其中所述原始資料包括身體相關變數及所述身體相關變數對應的多個待測指標;設定所述身體相關變數為目標參數;將所述身體相關變數及所述待測指標輸入至多個模型驗證中,以根據所述模型驗證的輸出結果排序各所述待測指標以取得排名資料;利用篩選條件根據所述排名資料計算所述待測指標的重要性,以從所述待測指標中挑選候選指標;以及計算所述候選指標與所述身體相關變數的相關性以根據所述相關性確認所述候選指標為可用於預測所述身體相關變數的影響力指標。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109100302A TWI762853B (zh) | 2020-01-06 | 2020-01-06 | 利用自動化機制挑選影響力指標的方法及電子裝置 |
US16/816,282 US11494698B2 (en) | 2020-01-06 | 2020-03-12 | Method and electronic device for selecting influence indicators by using automatic mechanism |
EP20170150.5A EP3845121B1 (en) | 2020-01-06 | 2020-04-17 | Method and electronic device for selecting influence indicators by using automatic mechanism |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109100302A TWI762853B (zh) | 2020-01-06 | 2020-01-06 | 利用自動化機制挑選影響力指標的方法及電子裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202127465A TW202127465A (zh) | 2021-07-16 |
TWI762853B true TWI762853B (zh) | 2022-05-01 |
Family
ID=70680180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109100302A TWI762853B (zh) | 2020-01-06 | 2020-01-06 | 利用自動化機制挑選影響力指標的方法及電子裝置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11494698B2 (zh) |
EP (1) | EP3845121B1 (zh) |
TW (1) | TWI762853B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403718B (zh) * | 2023-06-08 | 2023-09-01 | 中国医学科学院阜外医院 | 生理指征预测模型的构建方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201217788A (en) * | 2010-10-28 | 2012-05-01 | Tethys Bioscience Inc | Method for determining risk of diabetes |
TWI598444B (zh) * | 2016-02-19 | 2017-09-11 | 高雄醫學大學 | 用以評估乳癌罹患風險之方法及基因標記 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7774143B2 (en) | 2002-04-25 | 2010-08-10 | The United States Of America As Represented By The Secretary, Department Of Health And Human Services | Methods for analyzing high dimensional data for classifying, diagnosing, prognosticating, and/or predicting diseases and other biological states |
CN101794354A (zh) | 2010-03-19 | 2010-08-04 | 广东医卫互动信息科技有限公司 | 高血压危险度测评方法 |
CN103705225A (zh) | 2012-10-08 | 2014-04-09 | 中国科学院上海高等研究院 | 血压疾病监护系统 |
TWI630501B (zh) | 2016-07-29 | 2018-07-21 | 長庚醫療財團法人林口長庚紀念醫院 | Establishment of a cancer prediction model and a method for analyzing cancer detection results in combination with a tumor marker set |
WO2018027076A1 (en) | 2016-08-03 | 2018-02-08 | Nantomics, Llc | Dasatinib response prediction models and methods therefor |
RU2666119C1 (ru) | 2017-11-09 | 2018-09-05 | федеральное государственное бюджетное образовательное учреждение высшего образования "Северо-Западный государственный медицинский университет им. И.И. Мечникова" Министерства здравоохранения Российской Федерации | Способ диагностики саркопении у лиц пожилого и старческого возраста |
US20220036223A1 (en) * | 2018-09-27 | 2022-02-03 | Nec Corporation | Processing apparatus, processing method, and non-transitory storage medium |
CN109460825A (zh) | 2018-10-24 | 2019-03-12 | 阿里巴巴集团控股有限公司 | 用于构建机器学习模型的特征选取方法、装置以及设备 |
-
2020
- 2020-01-06 TW TW109100302A patent/TWI762853B/zh active
- 2020-03-12 US US16/816,282 patent/US11494698B2/en active Active
- 2020-04-17 EP EP20170150.5A patent/EP3845121B1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201217788A (en) * | 2010-10-28 | 2012-05-01 | Tethys Bioscience Inc | Method for determining risk of diabetes |
TWI598444B (zh) * | 2016-02-19 | 2017-09-11 | 高雄醫學大學 | 用以評估乳癌罹患風險之方法及基因標記 |
Also Published As
Publication number | Publication date |
---|---|
EP3845121B1 (en) | 2024-03-20 |
TW202127465A (zh) | 2021-07-16 |
US11494698B2 (en) | 2022-11-08 |
US20210209503A1 (en) | 2021-07-08 |
EP3845121A1 (en) | 2021-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111292853B (zh) | 基于多参数的心血管疾病风险预测网络模型及其构建方法 | |
WO2021073541A1 (zh) | 一种基于光谱相似度的校正集和验证集的选择及建模方法 | |
CN108091372B (zh) | 医疗字段映射校验方法及装置 | |
CN112633601B (zh) | 疾病事件发生概率的预测方法、装置、设备及计算机介质 | |
CN113053535B (zh) | 一种医疗信息预测系统及医疗信息预测方法 | |
CN110477920B (zh) | 基于跑步机坡度和速度的次极量心肺耐力测试方法和装置 | |
US20100235151A1 (en) | Feature parameter candidate generation apparatus and feature parameter candidate generation method | |
CN116224112A (zh) | 一种基于XGBoost模型的电池阻抗谱频率重要性分析方法 | |
TWI762853B (zh) | 利用自動化機制挑選影響力指標的方法及電子裝置 | |
CN116306888A (zh) | 神经网络剪枝方法、装置、设备及存储介质 | |
CN116705310A (zh) | 围术期风险评估的数据集构建方法、装置、设备及介质 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN113130073B (zh) | 利用自动化机制挑选影响力指标的方法及电子装置 | |
CN114519508A (zh) | 基于时序深度学习和法律文书信息的信用风险评估方法 | |
CN110232119A (zh) | 基于元分析的通用智能度量模型构建方法和系统 | |
CN112382382B (zh) | 一种代价敏感的集成学习分类方法及系统 | |
US20230386665A1 (en) | Method and device for constructing autism spectrum disorder (asd) risk prediction model | |
CN116994751A (zh) | 一种孕早期子痫前期风险预测模型的构建方法及装置 | |
CN114510405B (zh) | 指标数据评估方法、装置、设备、存储介质及程序产品 | |
Lim et al. | Score tests for zero-inflation and overdispersion in two-level count data | |
CN111026661B (zh) | 一种软件易用性全面测试方法及系统 | |
CN114936204A (zh) | 一种特征筛选方法、装置、存储介质及电子设备 | |
CN110390999B (zh) | 一种临床数据的值域计算方法、装置、可读介质及电子设备 | |
CN114418097A (zh) | 神经网络量化处理方法、装置、电子设备及存储介质 | |
CN113096815A (zh) | 一种基于logistic回归的慢性肾病预测方法 |