TWI819436B - 預測模型建構方法、狀態預測方法及其裝置 - Google Patents
預測模型建構方法、狀態預測方法及其裝置 Download PDFInfo
- Publication number
- TWI819436B TWI819436B TW110147006A TW110147006A TWI819436B TW I819436 B TWI819436 B TW I819436B TW 110147006 A TW110147006 A TW 110147006A TW 110147006 A TW110147006 A TW 110147006A TW I819436 B TWI819436 B TW I819436B
- Authority
- TW
- Taiwan
- Prior art keywords
- training
- data
- missing
- prediction model
- test
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 259
- 238000010801 machine learning Methods 0.000 claims abstract description 28
- 238000012360 testing method Methods 0.000 claims description 73
- 238000010276 construction Methods 0.000 claims description 47
- 238000011156 evaluation Methods 0.000 claims description 47
- 230000000241 respiratory effect Effects 0.000 claims description 8
- 208000003417 Central Sleep Apnea Diseases 0.000 claims description 6
- 206010021079 Hypopnoea Diseases 0.000 claims description 6
- 230000037007 arousal Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 208000001797 obstructive sleep apnea Diseases 0.000 claims description 6
- 230000003416 augmentation Effects 0.000 claims description 4
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 230000035790 physiological processes and functions Effects 0.000 claims 2
- 238000000691 measurement method Methods 0.000 claims 1
- 230000003362 replicative effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 11
- 239000000463 material Substances 0.000 description 6
- 230000029058 respiratory gaseous exchange Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000003862 health status Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000012925 reference material Substances 0.000 description 2
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
一種預測模型建構方法,係於判斷出存在訓練缺失項的訓練資料後,對應產生多筆擴充訓練資料,並基於這些擴充訓練資料及不具有訓練缺失項的訓練資料組成訓練集合後,以機器學習演算法基於此訓練集合產生預測模型。相似地,一種狀態預測方法,係於判斷出來源資料存在評估缺失項後,對應產生多筆擴充評估資料,並將這些擴充評估資料輸入預測模型,且進行判斷後產生狀態預測結果。本案並揭露實施上述方法的裝置。
Description
本發明關於機器學習演算法的應用,尤其關於一種預測模型建構方法、狀態預測方法及其裝置,可在資料中的項目存在缺失的情況下,維持建構預測模型的參考資料量,或仍可產生具有準確度的狀態預測結果。
在藉由訓練資料透過機器學習演算法建構預測模型的過程中,或是在將實測資料輸入預測模型以取得預測結果的過程中,常會出現此訓練資料或實測資料之中的項目未填或項目內容無法辨識的情況,導致無法使用這筆訓練資料或無法產生此實測資料的預測結果。
以根據生理資訊進行身體狀況的預測為例,當利用機器學習配合生理資訊偵測雷達及受測者的填寫資料進行資料蒐集時,可包含透過測量得到的雷達資料以及透過填寫或電腦系統中建檔而來的非雷達資料。由於受測者的填寫資料(通常為性別、年齡、身高、體重等個人資訊)較可能因個人隱私因素而遭到刻意的迴避未予填寫,造成此項目僅呈空白欄位。反之,由於雷達資料均為透過偵測雷達實際量測,故除非雷達資料在產生或儲存階段發生錯誤,否則通常較不易出現項目缺失的情況。
上述項目缺失的情形往往造成受測者的整筆資料無法使用。在進行預測模型的建構時,若多筆資料均存在缺失,顯然將大幅降低訓練資料的總資料量而影響所建構的預測模型的準確性;而在進行受測者的體況預測時,甚至會因為不存在完整的實測資料而無法得到預測結果。綜上所述,實有需要改善上述習知技術所面臨的問題,以增進產業上對訓練資料或實測資料之運用。
有鑑於此,本發明的目的之一在於針對資料存在缺失的情況下仍可維持建構預測模型的參考資料量,或仍可產生具有準確度的狀態預測結果。
本發明於一實施例提出了一種預測模型建構方法,係供於處理器執行,且此預測模型建構方法包含:接收多筆訓練資料,其中每一訓練資料包含多個訓練特徵項,且每一訓練特徵項用於記載訓練特徵值;判斷每一訓練資料的訓練特徵項中是否均記載訓練特徵值;判定未記載訓練特徵值的訓練特徵項為訓練缺失項,判定包含此訓練缺失項的訓練資料為缺失訓練資料,產生對應於缺失訓練資料的訓練缺失項的多個訓練擴充值,並根據這些訓練擴充值產生對應缺失訓練資料的多筆擴充訓練資料;組成訓練集合,其至少包含擴充訓練資料及不具有訓練缺失項的訓練資料;以及以機器學習演算法基於訓練集合產生預測模型,並儲存或輸出預測模型。
本發明於另一實施例提出了一種狀態預測方法,係供於處理器執行,且此狀態預測方法包含:接收來源資料,其包含多個評估特徵項,且每一評估特徵項用於記載評估特徵值;判斷這些評估特徵項中是否均記載評估特徵值;判定未記載評估特徵值的評估特徵項為評估缺失項,產生對應於評估缺失項的多個評估擴充值,並根據這些評估擴充值產生多筆擴充評估資料;以這些擴充評估資料輸入預測模型以產生對應的多個初步推估結果;以及基於這些初步推估結果產生關聯於來源資料的狀態預測結果,並儲存或輸出狀態預測結果。
除了上述預測模型建構方法,本發明一實施例還提出了一種預測模型建構裝置,此預測模型建構裝置包含記憶體及處理器。記憶體儲存有機器學習演算法;處理器耦接於記憶體以存取機器學習演算法,且處理器執行如前述的預測模型建構方法。
除了上述狀態預測方法,本發明一實施例還提出了一種狀態預測裝置,此狀態預測裝置包含記憶體及處理器。記憶體儲存有預測模型;處理器耦接於記憶體以存取預測模型,且處理器執行如前述的狀態預測方法。
以下在實施方式中詳細敘述本發明之詳細特徵以及特點,其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施,且根據本說明書所揭露之內容、申請專利範圍及圖式,任何熟習相關技藝者可輕易地理解本發明相關之構想及特點。以下之實施例係進一步詳細說明本發明之觀點,但非以任何觀點限制本發明之範疇。
請參考圖1所示,其係繪示本發明之一實施例的預測模型建構部分及狀態預測部分的整體運作架構圖。詳言之,在此實施例的預測模型建構部分,係至少包含一訓練階段A1,以基於多筆訓練資料訓練得一預測模型;惟其亦可更包含一測試階段A2,以基於多筆測試資料來確認此預測模型的準確度,並在準確度需要修正時調整此預測模型的參數,或者重新處理訓練資料並再次執行訓練階段A1,藉此取得更新的預測模型。此實施例的狀態預測部分則可視為一預測判別階段A3,用於根據一預測模型(較佳如圖1所示,為至少藉由前述的訓練階段A1所得的預測模型,甚至是藉由前述的訓練階段A1及測試階段A2所得的預測模型,然而為其他方式所取得的預測模型,本發明不就此予以限制)及一筆來源資料來預測一受測物(或受測者)的狀態,其中此來源資料即係關聯於此受測物/受測者。整體而言,無論是此實施例中的訓練階段A1、測試階段A2及預測判別階段A3之中的何者,本發明的實施例均針對所使用的訓練資料、測試資料或來源資料進行資料預處理,以對這些資料中存在缺陷的項目使用擴充、補充的概念來維持這些資料的可利用性。
請參考圖2所示,其係為本發明預測模型建構裝置的一實施例的系統架構圖。此實施例之預測模型建構裝置100包含一處理器110及一記憶體120,其中處理器110及記憶體120可一併設置於一伺服器,然而亦可僅有處理器110設置於伺服器,而伺服器則透過網際網路耦接記憶體120。記憶體120儲存有一機器學習演算法122,但本發明不限於此,記憶體120尚可儲存其他類型的資料。處理器110耦接於記憶體120,以存取儲存於記憶體120中的機器學習演算法122。此外,於本實施例中,處理器110至少用以基於由資料來源200所傳送的訓練資料執行於後詳述的預測模型建構方法,以產生一預測模型。
請一併參考圖1至圖3,其中圖3係繪示本發明之預測模型建構方法的一實施例的流程圖,且此實施例的預測模型建構方法即係對應於圖1之中所示的訓練階段A1,包含步驟S10至步驟S14。於步驟S10中,預測模型建構裝置100的處理器110係由資料來源200接收多筆訓練資料。當本實施例的預測模型建構方法係實施於建構睡眠呼吸狀態判斷的預測模型時,這些訓練資料係可例如呈下列表一所示的內容。詳言之,上述的多筆訓練資料(即如表一中沿縱向排列的Data 1至Data 10000)的每一者係包含多個訓練特徵項(即如表一中的每一筆訓練資料都會有性別、年齡、身高、體重、健康情況、雷達資料、判斷結果等訓練特徵項),且這些訓練特徵項的每一者用於記載一訓練特徵值(即如表一中的Data 1的年齡這個訓練特徵項中,記載了45這個特徵值)。
表一
資料 | 性別(男、女) | 年齡(age) | 身高 (cm) | 體重(Kg) | 健康情況 | 雷達資料 | 判斷結果 |
Data 1 | 男 | 45 | 165 | 71 | 健康 | 雷達資料 1 | 類別1 |
Data 2 | 女 | 51 | 158 | 48 | 健康 | 雷達資料 2 | 類別1 |
Data 3 | 男 | 62 | 168 | 75 | 有呼吸相關疾病 | 雷達資料 3 | 類別2 |
Data 4 | 男 | 53 | 176 | 82 | 有呼吸相關疾病 | 雷達資料 4 | 類別1 |
Data 5 | 女 | 64 | 164 | 54 | 健康 | 雷達資料 5 | 類別3 |
Data 6 | 男 | 47 | 176 | 81 | 健康 | 雷達資料 6 | 類別1 |
Data 7 | 男 | 22 | 167 | 85 | 健康 | 雷達資料 7 | 類別2 |
Data 8 | 男 | 76 | 166 | 62 | 健康 | 雷達資料 8 | 類別1 |
….. | ….. | ….. | ….. | ….. | ….. | ….. | ….. |
Data i | 男 | 72 | 166 | Blank | 健康 | 雷達資料 i | 類別1 |
Data i+1 | ….. | ….. | ….. | ….. | ….. | ….. | ….. |
….. | ….. | ….. | ….. | ….. | ….. | ….. | ….. |
Data 10000 | ….. | ….. | ….. | ….. | ….. | ….. | ….. |
於步驟S11中,處理器110係判斷每一訓練資料的所有訓練特徵項中是否均記載了訓練特徵值。詳言之,在步驟S11中,處理器110係對前述的訓練資料進行檢查,以確認出內容存在缺失的訓練資料。以表一所示的內容為例,在處理器110對Data 1至Data 8進行步驟S11的判斷時,即判斷這些訓練資料的所有訓練特徵項均已記載了訓練特徵值;然而,當處理器110對Data i進行步驟S11的判斷時,將因為Data i的「體重」這個訓練特徵項中未記載訓練特徵(即此訓練資料中存在缺失,如表一所示的Blank)而判定Data i這筆訓練資料並非所有訓練特徵項均記載了訓練特徵值。若步驟S11的判斷結果為「否」,即接續執行步驟S12;而若步驟S11的判斷結果為「是」,則接續執行步驟S13。
於步驟S12中,處理器110係產生多筆擴充訓練資料。詳細來說,處理器110係將存在缺失的訓練資料之中未記載訓練特徵值的訓練特徵項判定為訓練缺失項,且將包含此訓練缺失項(也就是這個存在缺失的訓練資料)判定為缺失訓練資料。以表一中的Data i為例,此Data i即被判定為缺失訓練資料,而其「體重」這個訓練特徵項即被判定為訓練缺失項。隨後,處理器110係對應於缺失訓練資料的訓練缺失項產生多個訓練擴充值,並根據這些訓練擴充值產生對應於缺失訓練資料的多筆擴充訓練資料,繼而執行步驟S13。
為更清楚說明步驟S12的實施細節,以下即配合下列表二對這多筆擴充訓練資料的產生進行說明。如表二所示,針對表一中的Data i,可以產生如表二所示的Data i_1至Data i_8等多筆擴充訓練資料,而其產生方式係為處理器110根據「體重」這個訓練缺失項產生如表二中所示的A至H(其係為代表8個數值的代號)這8個訓練擴充值,並將這8個訓練擴充值個別置入Data i之中的「體重」項目以獲得Data i_1至Data i_8等8筆擴充訓練資料,其中訓練擴充值的數量僅為舉例說明的數值而非用以限定本發明。詳言之,上述訓練擴充值的決定方式可例如為:由不具有該訓練缺失項的訓練資料中取得對應的多個訓練特徵值,其中該些訓練特徵值係分別記載於該些訓練資料的同一訓練特徵項,且該訓練特徵項對應於該訓練缺失項(以表一中的Data 1至Data 8為例,係將對應於Data i存在缺失的「體重」這個項目在Data 1至Data 8之中的數值71、48、75、82、54、81、85及62取出);對該些訓練特徵值進行分類以取得多個分類代表值(例如對上述8個體種數值進行分類,其係可為根據分布情況而取得54、71及82作為分類代表值);以及設定該些分類代表值作為該些訓練擴充值(也就是根據作為訓練擴充值的54、71及82僅產生三筆擴充訓練資料,而這三筆擴充訓練資料在體重項目即分別為54、71及82,其他項目則與Data i的內容相同)。或者,上述訓練擴充值的決定方式亦可為:根據缺失訓練資料的至少一訓練特徵值判斷訓練缺失項的一取值範圍,且這至少一訓練特徵值係記載於缺失訓練資料的訓練缺失項之外的其他訓練特徵項中(例如根據Data i的性別「男」及身高「166 cm」,體重值通常不會低於40 Kg,因此判斷Data i所缺失的體重值應該落在「大於40」這個取值範圍;此外,甚至可進一步參考Data i的健康情況「健康」而可進一步判定體重值應落在「40至75」這個取值範圍);隨後再由取值範圍中選取多個數值作為訓練擴充值(例如由40至75之中選取40、45、50、55、60、65、70及75作為訓練擴充值)。上述訓練擴充值的決定方式僅供舉例,並非就此予以限制。
表二
資料 | 性別(男、女) | 年齡(age) | 身高 (cm) | 體重(Kg) | 健康情況 | 雷達資料 | 判斷結果 |
Data i_1 | 男 | 72 | 166 | A | 健康 | 雷達資料 i | 類別1 |
Data i_2 | 男 | 72 | 166 | B | 健康 | 雷達資料 i | 類別1 |
Data i_3 | 男 | 72 | 166 | C | 健康 | 雷達資料 i | 類別1 |
Data i_4 | 男 | 72 | 166 | D | 健康 | 雷達資料 i | 類別1 |
Data i_5 | 男 | 72 | 166 | E | 健康 | 雷達資料 i | 類別1 |
Data i_6 | 男 | 72 | 166 | F | 健康 | 雷達資料 i | 類別1 |
Data i_7 | 男 | 72 | 166 | G | 健康 | 雷達資料 i | 類別1 |
Data i_8 | 男 | 72 | 166 | H | 健康 | 雷達資料 i | 類別1 |
此外,在擴充訓練資料相較於所有的訓練資料佔了過高比例而恐怕因此造成訓練所得的預測模型存在較大誤差的情況下,可以同時對其他不具有訓練缺失項的訓練資料進行複製,以平衡這些擴充訓練資料所造成的影響。詳言之,係可將前述的擴充訓練資料定義為第一擴充訓練資料,並對應於這些第一擴充訓練資料的數量等比例地複製不具有訓練缺失項的訓練資料,並將這些複製出的訓練資料定義為第二擴充訓練資料,藉以平衡第一擴充訓練資料之中與實際情況差異較大者所產生的影響。
於步驟S13中,處理器110即根據前述的擴充訓練資料及不具有訓練缺失項的訓練資料(若無任何訓練資料存在缺失,則係為步驟S10所接收的所有訓練資料)組成訓練集合。詳言之,此訓練集合中的各訓練資料(含擴充訓練資料)除了具有如圖1所示的特性萃取所取得的內容(即如表一之Data 1的「性別」、「年齡」、「身高」、「體重」、「健康情況」及「雷達資料」項目中所記載的「男」、「45」、「165」、「71」、「健康」及「雷達資料 1 」),更包含了如圖1所示的標籤加註所標示的判斷結果(即如表一之Data 1的「判斷結果」項目中所記載的「類別1」)。藉此,即可利用這些訓練資料進行機器學習。此外,若於步驟S12所產生的是第一擴充訓練資料及第二擴充訓練資料,則以第一擴充訓練資料、第二擴充訓練資料及不具有訓練缺失項的訓練資料組成訓練集合。
於步驟S14中,處理器110係藉由存取儲存於記憶體120中的機器學習演算法122,並配合前述的訓練集合之中的訓練資料,即可訓練產生預測模型,並將此預測模型儲存於記憶體120或預測模型建構裝置100的其他儲存硬體。或者,處理器110亦可將此預測模型輸出予電性連接或通訊連接於預測模型建構裝置100的其他裝置,例如顯示器、網路伺服器、網路儲存空間等。
請一併參考圖1、圖2及圖4,其中圖4係繪示本發明之預測模型建構方法的另一實施例的流程圖,且此實施例的預測模型建構方法即係進一步包含對應於圖1之中所示的測試階段A2,也就是除了前述的步驟S10至步驟S14,此實施例另包含對應於測試階段A2的步驟S15至步驟S19。詳言之,此實施例乃是為了對訓練階段A1所產生的預測模型進行測試,以決定是否需要以例如調整預測模型的參數或重新處理訓練資料並再次執行訓練階段A1等方式更新預測模型,因此步驟S15至步驟S19係接續於產生預測模型的步驟S14之後執行。
在測試階段A2中,步驟S15至步驟S18乃是以異於訓練資料的一組測試資料執行與步驟S10至步驟S13相同的內容來產生一測試集合。詳言之,於步驟S15中,處理器110係接收多筆測試資料(可對比於訓練資料),其中每一測試資料包含多個測試特徵項(可對比於訓練特徵項),且這些測試特徵項的每一者用於記載一測試特徵值(可對比於訓練特徵值);於步驟S16中,處理器110係判斷每一測試資料的這些測試特徵項中是否均記載了測試特徵值;於步驟S17中,處理器110係判定未記載測試特徵值的測試特徵項為一測試缺失項(可對比於訓練缺失項),判定包含此測試缺失項的測試資料為一缺失測試資料(可對比於缺失訓練資料),產生對應於缺失測試資料的測試缺失項的多個測試擴充值(可對比於訓練擴充值),並根據這些測試擴充值產生對應於缺失測試資料的多筆擴充測試資料(可對比於擴充訓練資料);於步驟S18中,處理器110係組成一測試集合(可對比於訓練集合),而此測試集合至少包含前述的擴充測試資料及不具有測試缺失項的測試資料。由於上述步驟S15至步驟S18的執行方式與步驟S10至步驟S14的執行方式係可將相同的執行內容套用於對應的步驟中,因此即不再就此予以詳述。
此外,於步驟S19中,處理器110係將測試集合之中由特性萃取所取得的內容輸入預測模型,並以測試集合之中由標籤加註所標示的判斷結果與預測模型所產生的判斷結果進行比對後,再根據比對的誤差值(可例如為兩個判斷結果相符的資料數量相對於測試資料總數的比值)是否落入一門檻範圍(可例如為前述比值需大於90%)。
請參考圖5,其係繪示本發明之狀態預測裝置的一實施例的系統架構圖。相似於圖2之預測模型建構裝置100,本實施例的狀態預測裝置300亦包含一處理器310及一記憶體320,且處理器310亦耦接於記憶體320而可一併設置於一伺服器,或僅有處理器310設置於伺服器,而伺服器則透過網際網路耦接記憶體320。惟,此記憶體320係主要用於儲存預測模型322,以供處理器310存取此預測模型322。於本實施例中,處理器310至少用以基於由資料來源400所傳送的來源資料執行將詳述於後的狀態預測方法,以產生一狀態預測結果。
請一併參考圖1及圖6,其中圖6係繪示本發明之狀態預測方法的一實施例的流程圖。此實施例的狀態預測方法即對應於圖1之中所示的預測判別階段A3,且係包含步驟S20至步驟S25。詳言之,此實施例的狀態預測方法乃是利用與訓練階段A1及測試階段A2分別針對訓練資料及測試資料相同的資料預處理方式,對來源資料進行處理,以便在此來源資料存在缺失的情況下,仍能產生合理的狀態預測結果。請同時參考圖5,相較於前述的訓練階段A1,在預測判別階段A3中,步驟S20至步驟S22係接收異於訓練資料的一來源資料,並執行與步驟S10至步驟S12相似的內容,惟此來源資料僅包含可供特性萃取的內容,並不包含可進行標籤加註的判斷結果。例如,當本實施例的狀態預測方法係實施於預測睡眠呼吸狀態時,此來源資料係可例如呈下列表三所示的內容。
表三
資料 | 性別(男、女) | 年齡(age) | 身高 (cm) | 體重(Kg) | 健康情況 | 雷達資料 | 判斷結果 |
Data x | 女 | 52 | 157 | Blank | 健康 | 雷達資料 x |
詳言之,於步驟S20中,處理器310係接收來源資料(近似於訓練資料),其中包含多個評估特徵項(可對比於訓練特徵項),且這些評估特徵項的每一者用於記載一評估特徵值(可對比於訓練特徵值);於步驟S21中,處理器310係判斷這些評估特徵項中是否均記載了評估特徵值;於步驟S22中,處理器310係判定未記載評估特徵值的評估特徵項為一評估缺失項(可對比於訓練缺失項),產生對應於評估缺失項的多個評估擴充值(可對比於訓練擴充值),並根據這些評估擴充值產生多筆擴充評估資料(可對比於擴充訓練資料)。隨後,於步驟S23中,處理器310係以這些擴充評估資料輸入一預測模型以產生對應的多個初步推估結果。承表三的示例,此多筆擴充評估資料可例如呈下列表四所示的內容。同理,表四中的A至H僅係代表針對「體重」這個評估缺失項所產生的8個評估擴充值的代號。
表四
資料 | 性別(男、女) | 年齡(age) | 身高 (cm) | 體重(Kg) | 健康情況 | 雷達資料 | 判斷結果 |
Data x_1 | 女 | 52 | 157 | A | 健康 | 雷達資料 x | Result_1 |
Data x_2 | 女 | 52 | 157 | B | 健康 | 雷達資料 x | Result_2 |
Data x_3 | 女 | 52 | 157 | C | 健康 | 雷達資料 x | Result_3 |
Data x_4 | 女 | 52 | 157 | D | 健康 | 雷達資料 x | Result_4 |
Data x_5 | 女 | 52 | 157 | E | 健康 | 雷達資料 x | Result_5 |
Data x_6 | 女 | 52 | 157 | F | 健康 | 雷達資料 x | Result_6 |
Data x_7 | 女 | 52 | 157 | G | 健康 | 雷達資料 x | Result_7 |
Data x_8 | 女 | 52 | 157 | H | 健康 | 雷達資料 x | Result_8 |
於步驟S24中,處理器310係基於這些初步推估結果進行判別以產生關聯於來源資料的一狀態預測結果,並儲存或輸出此狀態預測結果。在此步驟S24中,若狀態預測結果的性質為類別屬性,則處理器310可根據這些初步推估結果之中的眾數者作為狀態預測結果;若狀態預測結果的性質為數值屬性,則可採取多數決、平均值或最小偏差值來取得狀態預測結果。此外,當執行步驟S21並判斷這些評估特徵項中均已記載了評估特徵值,即可直接將來源資料輸入預測模型以取得狀態預測結果。
承前述,針對上述的預測模型建構方法及狀態預測方法,較佳可實施於睡眠呼吸狀態的預測系統中,尤其可針對中樞型睡眠呼吸暫停(Central Sleep Apnea,CSA)、呼吸不足(Hypopnea)、呼吸喚醒(Respiratory Arousal)以及阻塞性睡眠呼吸暫停(Obstructive sleep apnea,OSA)等徵狀進行預測而產生預測結果。其中,以機器學習演算法基於訓練集合產生預測模型的方式,係可例如使用如圖7所示的聚類演算法(K-means)作為機器學習演算法,使用如圖8所示的線性回歸演算法作為機器學習演算法,或使用如圖9所示的支援向量機演算法作為機器學習演算法。此外,當本發明各實施例的預測模型建構方法及狀態預測方法實施於睡眠呼吸狀態的預測系統時,由資料來源200、400所取得的訓練資料、測試資料及來源資料之中的雷達資料,係可如圖10所示。申言之,請參閱圖11,上述預測系統的訓練資料及測試資料的資料來源200係可為生理監測儀器201、使用者輸入介面202及醫療單位資料庫203;同理,此預測系統的來源資料也可以源自於此。
雖然本發明以前述之實施例揭露如上,然其並非用以限定本發明。在不脫離本發明之精神和範圍內,所為之更動與潤飾,均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。
A1:訓練階段
A2:測試階段
A3:預測判別階段
100:預測模型建構裝置
110:處理器
120:記憶體
122:機器學習演算法
200:資料來源
300:狀態預測裝置
310:處理器
320:記憶體
322:預測模型
圖1為本發明一實施例的預測模型建構部分及狀態預測部分的整體運作架構圖。
圖2為本發明之預測模型建構裝置的一實施例的系統架構圖。
圖3為本發明之預測模型建構方法的一實施例的流程圖。
圖4為本發明之預測模型建構方法的另一實施例的流程圖。
圖5為本發明之狀態預測裝置的一實施例的系統架構圖。
圖6為本發明之狀態預測方法的一實施例的流程圖。
圖7為本發明之預測模型建構方法的一實施例使用聚類演算法進行機器學習的資料分布示意圖。
圖8為本發明之預測模型建構方法的一實施例使用線性回歸演算法進行機器學習的資料分布示意圖。
圖9為本發明之預測模型建構方法的一實施例使用支援向量機演算法進行機器學習的資料分布示意圖。
圖10為本發明之預測模型建構方法的一實施例使用於睡眠呼吸狀態判斷時,可作為訓練資料、測試資料或來源資料之中的雷達資料的感測波形示意圖。
圖11為本發明之狀態預測裝置的一實施例使用於睡眠呼吸狀態判斷時的系統架構圖。
A1:訓練階段
A2:測試階段
A3:預測判別階段
Claims (20)
- 一種預測模型建構方法,包含:接收多筆訓練資料,其中每一該些訓練資料包含多個訓練特徵項,且該些訓練特徵項的每一者用於記載一訓練特徵值;判斷每一該些訓練資料的該些訓練特徵項中是否均記載該訓練特徵值;判定未記載該訓練特徵值的一訓練特徵項為一訓練缺失項,判定包含該訓練缺失項的一訓練資料為一缺失訓練資料,產生對應於該缺失訓練資料的該訓練缺失項的多個訓練擴充值,並根據該些訓練擴充值產生對應該缺失訓練資料的多筆擴充訓練資料;組成一訓練集合,該訓練集合至少包含該些擴充訓練資料及該些訓練資料之中不具有該訓練缺失項的訓練資料;以及以一機器學習演算法基於該訓練集合產生一預測模型,並儲存或輸出該預測模型;其中該些擴充訓練資料為多個第一擴充訓練資料,於組成該一訓練集合之前,該預測模型建構方法更包含:對應於該些訓練擴充值的數量等比例複製該些訓練資料之中不具有該訓練缺失項的訓練資料,其中依複製而增加的訓練資料為多個第二擴充訓練資料;其中組成該訓練集合包含:以該些第一擴充訓練資料、該些第二擴充訓練資料及該些訓練資料之中不具有該訓練缺失項的訓練資料組成該訓練集合。
- 如請求項1所述之預測模型建構方法,於產生該預測模型後,另執行一測試程序以判斷應否更新該預測模型,該測試程序包含:接收多筆測試資料,其中每一該些測試資料包含多個測試特徵項,且該些測試特徵項的每一者用於記載一測試特徵值;判斷每一該些測試資料的該些測試特徵項中是否均記載該測試特徵值;判定未記載該測試特徵值的一測試特徵項為一測試缺失項,判定包含該測試缺失項的一測試資料為一缺失測試資料,產生對應於該缺失測試資料的該測試缺失項的多個測試擴充值,並根據該些測試擴充值產生對應該缺失測試資料的多筆擴充測試資料;組成一測試集合,該測試集合至少包含該些擴充測試資料及該些測試資料之中不具有該測試缺失項的測試資料;將該測試集合輸入該預測模型以取得一比對結果,並基於該比對結果選擇性地更新該預測模型。
- 如請求項1所述之預測模型建構方法,其中該些訓練特徵項至少包含關聯於非以量測方式取得的一非量測特徵項,判斷每一該些訓練資料的該些訓練特徵項中是否均記載該訓練特徵值包含:判斷該非量測特徵項是否記載該訓練特徵值。
- 如請求項3所述之預測模型建構方法,其中該非量測特徵項關聯於一體質特徵,該預測模型用於產生一預測結果,該預測結果關聯於以下生理狀態中的至少一者: 中樞型睡眠呼吸暫停(Central Sleep Apnea,CSA)、呼吸不足(Hypopnea)、呼吸喚醒(Respiratory Arousal)以及阻塞性睡眠呼吸暫停(Obstructive sleep apnea,OSA)。
- 如請求項1所述之預測模型建構方法,其中以該機器學習演算法基於該訓練集合產生該預測模型包含:以一聚類演算法作為該機器學習演算法產生該預測模型。
- 如請求項1所述之預測模型建構方法,其中以該機器學習演算法基於該訓練集合產生該預測模型包含:以一線性回歸演算法作為該機器學習演算法產生該預測模型。
- 如請求項1所述之預測模型建構方法,其中以該機器學習演算法基於該訓練集合產生該預測模型包含:以一支援向量機演算法作為該機器學習演算法產生該預測模型。
- 如請求項1所述之預測模型建構方法,其中產生對應於該缺失訓練資料的該訓練缺失項的該些訓練擴充值包含:由該些訓練資料之中不具有該訓練缺失項的多個訓練資料取得對應的多個訓練特徵值;對該些訓練特徵值進行分類以取得多個分類代表值;以及設定該些分類代表值作為該些訓練擴充值,其中該些訓練特徵值係分別記載於該些訓練資料的同一訓練特徵項,且該訓練特徵項對應於該訓練缺失項。
- 如請求項1所述之預測模型建構方法,其中產生對應於該缺失訓練資料的該訓練缺失項的該些訓練擴充值包含: 根據該缺失訓練資料的至少一訓練特徵值判斷該訓練缺失項的一取值範圍,其中該至少一訓練特徵值係記載於該缺失訓練資料的該訓練缺失項之外的其他訓練特徵項;以及由該取值範圍中選取多個數值作為該些訓練擴充值。
- 一種狀態預測方法,包含:接收一來源資料,其中該來源資料包含多個評估特徵項,且該些評估特徵項的每一者用於記載一評估特徵值;判斷該些評估特徵項中是否均記載該評估特徵值;判定未記載該評估特徵值的一評估特徵項為一評估缺失項,產生對應於該評估缺失項的多個評估擴充值,並根據該些評估擴充值產生多筆擴充評估資料;以該些擴充評估資料輸入依據請求項1所述的預測模型建構方法所建構的該預測模型以產生對應的多個初步推估結果;以及基於該些初步推估結果進行判別以產生關聯於該來源資料的一狀態預測結果,並儲存或輸出該狀態預測結果。
- 如請求項10所述之狀態預測方法,其中基於該些初步推估結果產生關聯於該來源資料的該狀態預測結果包含:以該些初步推估結果之中的眾數作為該狀態預測結果。
- 如請求項10所述之狀態預測方法,其中基於該些初步推估結果產生關聯於該來源資料的該狀態預測結果包含:計算該些初步推估結果的最小偏差值作為該狀態預測結果。
- 如請求項10所述之狀態預測方法,其中該初步推估結果關聯於以下生理狀態中的至少一者: 中樞型睡眠呼吸暫停(Central Sleep Apnea,CSA)、呼吸不足(Hypopnea)、呼吸喚醒(Respiratory Arousal)以及阻塞性睡眠呼吸暫停(Obstructive sleep apnea,OSA)。
- 如請求項10所述之狀態預測方法,其中產生該評估缺失項的該些評估擴充值包含:根據該來源資料的至少一評估特徵值判斷該評估缺失項的一取值範圍,其中該至少一評估特徵值係記載於該來源資料的該評估缺失項之外的其他訓練特徵項;以及由該取值範圍中選取多個數值作為該些訓練擴充值。
- 一種預測模型建構裝置,包含:一記憶體,儲存有一機器學習演算法;以及一處理器,耦接於該記憶體以存取該機器學習演算法,該處理器執行如請求項1所述的預測模型建構方法。
- 如請求項15所述之模型建構裝置,其中該處理器設置於一伺服器,該伺服器與該記憶體透過網際網路耦接。
- 如請求項15所述之模型建構裝置,其中該處理器及該記憶體均設置於一伺服器中。
- 一種狀態預測裝置,包含:一記憶體,儲存有一預測模型;以及一處理器,耦接於該記憶體以存取該預測模型,該處理器執行如請求項10所述的狀態預測方法。
- 如請求項18所述之狀態預測裝置,其中該處理器設置於一伺服器,該伺服器與該記憶體透過網際網路耦接。
- 如請求項18所述之狀態預測裝置,其中該處理器及該記憶體均設置於一伺服器中。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110147006A TWI819436B (zh) | 2021-12-15 | 2021-12-15 | 預測模型建構方法、狀態預測方法及其裝置 |
CN202210037329.XA CN116263856A (zh) | 2021-12-15 | 2022-01-13 | 预测模型建构方法、状态预测方法及其装置 |
US17/706,665 US20230186112A1 (en) | 2021-12-15 | 2022-03-29 | Prediction-model-building method, state prediction method and devices thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110147006A TWI819436B (zh) | 2021-12-15 | 2021-12-15 | 預測模型建構方法、狀態預測方法及其裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202326531A TW202326531A (zh) | 2023-07-01 |
TWI819436B true TWI819436B (zh) | 2023-10-21 |
Family
ID=86694462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110147006A TWI819436B (zh) | 2021-12-15 | 2021-12-15 | 預測模型建構方法、狀態預測方法及其裝置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230186112A1 (zh) |
CN (1) | CN116263856A (zh) |
TW (1) | TWI819436B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177088B (zh) * | 2013-03-08 | 2016-05-18 | 北京理工大学 | 一种生物医学空缺数据弥补方法 |
US20190034595A1 (en) * | 2017-07-27 | 2019-01-31 | International Business Machines Corporation | Generating robust symptom onset indicators |
CN109977028A (zh) * | 2019-04-08 | 2019-07-05 | 燕山大学 | 一种基于遗传算法和随机森林的软件缺陷预测方法 |
TWI667660B (zh) * | 2018-11-20 | 2019-08-01 | 帆宣系統科技股份有限公司 | Intelligent pre-diagnosis and health management system modeling method and computer program product |
CN110957015A (zh) * | 2019-12-02 | 2020-04-03 | 南开大学 | 电子医疗记录数据的缺失值填充方法 |
CN110993100A (zh) * | 2019-11-06 | 2020-04-10 | 北京理工大学 | 一种青少年儿童近视预测系统的缺失值填补方法及使用该方法的系统 |
CN113096814A (zh) * | 2021-05-28 | 2021-07-09 | 哈尔滨理工大学 | 一种基于多分类器融合的阿尔兹海默症分类预测方法 |
CN113191409A (zh) * | 2021-04-20 | 2021-07-30 | 国网江苏省电力有限公司营销服务中心 | 标签数据扩充与深度学习的居民异常用电行为检测方法 |
CN113780666A (zh) * | 2021-09-15 | 2021-12-10 | 湖北天天数链技术有限公司 | 一种缺失值的预测方法及装置、可读存储介质 |
-
2021
- 2021-12-15 TW TW110147006A patent/TWI819436B/zh active
-
2022
- 2022-01-13 CN CN202210037329.XA patent/CN116263856A/zh active Pending
- 2022-03-29 US US17/706,665 patent/US20230186112A1/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177088B (zh) * | 2013-03-08 | 2016-05-18 | 北京理工大学 | 一种生物医学空缺数据弥补方法 |
US20190034595A1 (en) * | 2017-07-27 | 2019-01-31 | International Business Machines Corporation | Generating robust symptom onset indicators |
TWI667660B (zh) * | 2018-11-20 | 2019-08-01 | 帆宣系統科技股份有限公司 | Intelligent pre-diagnosis and health management system modeling method and computer program product |
CN109977028A (zh) * | 2019-04-08 | 2019-07-05 | 燕山大学 | 一种基于遗传算法和随机森林的软件缺陷预测方法 |
CN110993100A (zh) * | 2019-11-06 | 2020-04-10 | 北京理工大学 | 一种青少年儿童近视预测系统的缺失值填补方法及使用该方法的系统 |
CN110957015A (zh) * | 2019-12-02 | 2020-04-03 | 南开大学 | 电子医疗记录数据的缺失值填充方法 |
CN113191409A (zh) * | 2021-04-20 | 2021-07-30 | 国网江苏省电力有限公司营销服务中心 | 标签数据扩充与深度学习的居民异常用电行为检测方法 |
CN113096814A (zh) * | 2021-05-28 | 2021-07-09 | 哈尔滨理工大学 | 一种基于多分类器融合的阿尔兹海默症分类预测方法 |
CN113780666A (zh) * | 2021-09-15 | 2021-12-10 | 湖北天天数链技术有限公司 | 一种缺失值的预测方法及装置、可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20230186112A1 (en) | 2023-06-15 |
TW202326531A (zh) | 2023-07-01 |
CN116263856A (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bashir et al. | BagMOOV: A novel ensemble for heart disease prediction bootstrap aggregation with multi-objective optimized voting | |
WO2020181805A1 (zh) | 糖尿病的预测方法及装置、存储介质、计算机设备 | |
Kang et al. | Comparing two correlated C indices with right‐censored survival outcome: a one‐shot nonparametric approach | |
JP6004084B2 (ja) | モデル更新方法、装置、およびプログラム | |
Singh et al. | Prediction of heart diseases using associative classification | |
JP5450556B2 (ja) | 診療情報処理装置および方法並びにプログラム | |
Ying et al. | Classification of exacerbation frequency in the COPDGene cohort using deep learning with deep belief networks | |
JP2022518286A (ja) | 被訓練モデルへの母集団記述子の関連付け | |
EP3796226A1 (en) | Data conversion/symptom scoring | |
Maali et al. | A novel partially connected cooperative parallel PSO-SVM algorithm: Study based on sleep apnea detection | |
US20210375443A1 (en) | System and Method Associated with Determining Physician Attribution Related to In-Patient Care Using Prediction-Based Analysis | |
Choudhury et al. | Evaluating patient readmission risk: a predictive analytics approach | |
Bartoš et al. | Footprint of publication selection bias on meta‐analyses in medicine, environmental sciences, psychology, and economics | |
US11537888B2 (en) | Systems and methods for predicting pain level | |
JP2009112330A (ja) | 特徴量候補作成装置および特徴量候補作成方法 | |
Kour et al. | An Advance Approach for Diabetes Detection by Implementing Machine Learning Algorithms | |
Colombo et al. | Supervised and unsupervised learning to classify scoliosis and healthy subjects based on non-invasive rasterstereography analysis | |
TWI790479B (zh) | 生理狀態評估方法與生理狀態評估裝置 | |
TWI819436B (zh) | 預測模型建構方法、狀態預測方法及其裝置 | |
Ying et al. | Gold classification of COPDGene cohort based on deep learning | |
Wang et al. | Evaluating a longitudinal synthetic data generator using real world data | |
Jadhav et al. | Pan-disease clustering analysis of the trend of period prevalence | |
Galphat et al. | Disease Prediction System using Machine Learning | |
WO2023224085A1 (ja) | 情報処理システムおよび情報処理方法 | |
Yu | Analysis and Prediction of Heart Disease Based on Machine Learning Algorithms |