TWI806432B - 建立疾病預測的決策樹的方法、電子系統及電腦程式產品 - Google Patents

建立疾病預測的決策樹的方法、電子系統及電腦程式產品 Download PDF

Info

Publication number
TWI806432B
TWI806432B TW111105739A TW111105739A TWI806432B TW I806432 B TWI806432 B TW I806432B TW 111105739 A TW111105739 A TW 111105739A TW 111105739 A TW111105739 A TW 111105739A TW I806432 B TWI806432 B TW I806432B
Authority
TW
Taiwan
Prior art keywords
measurement data
physiological measurement
decision tree
physiological
disease
Prior art date
Application number
TW111105739A
Other languages
English (en)
Other versions
TW202333618A (zh
Inventor
羅莉雯
Original Assignee
緯創資通股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 緯創資通股份有限公司 filed Critical 緯創資通股份有限公司
Priority to TW111105739A priority Critical patent/TWI806432B/zh
Priority to CN202210389992.6A priority patent/CN116665876A/zh
Priority to US17/846,957 priority patent/US20230260651A1/en
Application granted granted Critical
Publication of TWI806432B publication Critical patent/TWI806432B/zh
Publication of TW202333618A publication Critical patent/TW202333618A/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一種建立疾病預測的一決策樹的方法,包括:接收複數生理量測資料相對於不同疾病;分類生理量測資料相對於用途;計算該等生理量測資料的至少一切分點;分枝決策樹相對於至少一切分點;以及剪枝該決策樹而完成該決策樹的建立。本揭露可輔助醫生的醫療診斷,依據預測結果提前給予預防措施,將決策樹各末支的資料進行計算,得到單一疾病機率,可提升更多疾病預測的準確率。

Description

建立疾病預測的決策樹的方法、電子系統及電腦程式產品
本揭露是有關於協助疾病預測的方法,特別有關於建立用於協助疾病預測的決策樹的方法、電子系統及電腦程式產品。
目前醫師只能用經驗判斷病人是否罹患疾病,才會做進一步抽血或電腦斷層等檢查。但大部分醫師會先讓病人吃止痛或消炎藥暫緩症狀,可能增加延誤就醫的機率。因此,需要導入FHIR(Fast Healthcare Interoperability Resources)這種國際通用格式,使病人到各地醫療院所能提供完整的病歷,減少誤判機率,能多爭取黃金治療時間。
現在愈來於多醫療機構導入人工智慧幫忙判斷影像,減少病理科醫師的負擔及增加提早檢測出疾病的可能性。在年輕醫師經驗較不足的情況下,也可使用人工智慧輔助疾病判斷能力,減少經驗學習時誤判的可能性。因此,如何建立輔助疾病預測的機制變成一重要課題。
依據本揭露實施例之建立用於協助疾病預測的一決策樹的方法,包括:接收複數生理量測資料相對於不同疾病;分類生理量測資料相對於用途;計算生理量測資料的至少一切分點;分枝決策樹相對於至少一切分點;以及剪枝決策樹而完成決策樹的建立。
如上所述之方法,其中,計算生理量測資料的至少一切分點的步驟,包括:利用關聯於生理量測資料的一特定函數及一相關係數的絕對值,計算生理量測資料的至少一切分點的一數值。
如上所述之方法,其中,分枝決策樹相對於至少一切分點的步驟,包括:找出具有最小數值的至少一切分點作為決策樹的一分支節點;以及判斷是否無法繼續分枝。
如上所述之方法,其中,剪枝決策樹而完成決策樹的建立的步驟,包括:使用一赤池訊息量準則(Akaike information criterion:AIC)對決策樹進行剪支。
如上所述之方法,其中,分類該等生理量測資料相對於用途的步驟包括:當生理量測資料是用於不同疾病發生機率的推算,則生理量測資料會被分類為分類型資料。
如上所述之方法,其中,當生理量測資料被分類為分類型資料,特定函數為一吉尼係數公式;吉尼係數公式為:
Figure 02_image001
其中,
Figure 02_image003
為該等生理量測資料中對應於一種疾病的資料;
Figure 02_image005
為該等生理量測資料中對應於該種疾病的資料的出現機率;以及
Figure 02_image007
為該等生理量測資料中對應的疾病種類的數量。
如上所述之方法,其中,相關係數為:
Figure 02_image009
其中,
Figure 02_image011
為該等生理量測資料的一者;
Figure 02_image007
為該等生理量測資料的資料筆數;
Figure 02_image013
為自變數且代表該等生理量測資料;
Figure 02_image015
為自變數平均且代表該等生理量測資料的平均;
Figure 02_image017
為應變數且代表對應於一疾病的該數值;以及
Figure 02_image019
為應變數平均且代表對應於該疾病的該數值的平均。
如上所述之方法,其中,生理量測資料包括:性別、身體質量指數(Body Mass Index:BMI)、尿酸、總膽固醇、白血球,以及血糖。
如上所述之方法,其中,生理量測資料的至少一切分點的該數值相等於
Figure 02_image021
如上所述之方法,其中,赤池訊息量準則(AIC)為:
Figure 02_image023
其中,
Figure 02_image025
為概似函數,
Figure 02_image027
為參數的數量。
如上所述之方法,更包括:計算決策樹的對應於不同疾病的每個末支的正確率。
如上所述之方法,其中,判斷是否無法繼續分支的步驟,包括:重複執行計算生理量測資料的至少一切分點的數值的步驟,以及找出具有最小數值的至少一切分點作為決策樹的分支節點的步驟,直到無法繼續分支;或者重複執行計算生理量測資料的至少一切分點的數值的步驟,以及找出具有最小數值的至少一切分點作為決策樹的分支節點的步驟,直到分支節點所包含的該等生理量測資料的筆數小於等於對應於每一疾病的該等生理量測資料的預設資料筆數。
如上所述之方法,其中,計算生理量測資料的至少一切分點的數值的步驟,包括:將生理量測資料依據性別由女至男進行排序;將生理量測資料依據BMI的高低由低至高進行排序;將生理量測資料依據尿酸的高低由低至高進行排序;將生理量測資料依據總膽固醇的多寡由寡至多進行排序;將生理量測資料依據白血球的多寡由寡至多進行排序;以及將生理量測資料依據血糖的高低由低至高進行排序。
如上所述之方法,其中,計算生理量測資料的至少一切分點的數值的步驟,包括:依據生理量測資料的性別、BMI、尿酸、總膽固醇、白血球,以及血糖的排序,計算特定函數及相關係數的絕對值的乘積,用以得到生理量測資料的至少一切分點的數值。
依據本揭露實施例之電子系統,用於建立協助疾病預測的一決策樹,包括:一第一處理器、一資料庫,以及一第二處理器。第一處理器接收來自醫院端的複數生理量測資料相對於不同疾病。資料庫儲存生理量測資料。第二處理器從資料庫取得生理量測資料,用以執行:分類生理量測資料相對於用途;計算生理量測資料的至少一切分點;分枝決策樹相對於至少一切分點;以及剪枝決策樹而完成決策樹的建立。
如上所述之電子系統,其中,第二處理器計算生理量測資料的至少一切分點,包括:第二處理器利用關聯於生理量測資料的一特定函數及一相關係數的絕對值,計算生理量測資料的該至少一切分點的一數值。
如上所述之電子系統,其中,當生理量測資料是用於不同疾病發生機率的推算,則第二處理器將生理量測資料分類為分類型資料。
如上所述之電子系統,其中,當第二處理器將生理量測資料分類為分類型資料,特定函數為一吉尼係數公式;吉尼係數公式為:
Figure 02_image001
其中,
Figure 02_image003
為該等生理量測資料中對應於一種疾病的資料;
Figure 02_image005
為該等生理量測資料中對應於該種疾病的資料的出現機率;以及
Figure 02_image007
為該等生理量測資料中對應的疾病種類的數量。
如上所述之電子系統,其中,相關係數為:
Figure 02_image009
其中,
Figure 02_image011
為該等生理量測資料的一者;
Figure 02_image007
為該等生理量測資料的資料筆數;
Figure 02_image013
為自變數且代表該等生理量測資料;
Figure 02_image015
為自變數平均且代表該等生理量測資料的平均;
Figure 02_image017
為應變數且代表對應於一疾病的該數值;以及
Figure 02_image019
為應變數平均且代表對應於該疾病的該數值的平均。
如上所述之電子系統,其中,生理量測資料的至少一切分點的數值相等於
Figure 02_image021
依據本揭露實施例之電腦程式產品,用於建立協助疾病預測的一決策樹,適用於具有一第一處理器、一第二處理器,以及一資料庫的電子系統中,包括:一接收指令、一儲存指令、一讀取指令、一分類指令、一計算指令、一分枝指令,以及一剪枝指令。接收指令使得第一處理器接收來自醫院端的複數生理量測資料相對於不同疾病。儲存指令使得資料庫儲存生理量測資料。讀取指令使得第二處理器從資料庫取得生理量測資料。分類指令使得第二處理器分類生理量測資料相對於用途。計算指令使得第二處理器計算生理量測資料的至少一切分點。分枝指令使得第二處理器分枝決策樹相對於至少一切分點。剪枝指令使得第二處理器剪枝決策樹。當第一處理器執行完接收指令,資料庫執行完儲存指令,以及第二處理器執行完讀取指令、分類指令、計算指令、分枝指令,以及剪枝指令後,則決策樹被建立完成。
本揭露係參照所附圖式進行描述,其中遍及圖式上的相同參考數字標示了相似或相同的元件。上述圖式並沒有依照實際比例大小描繪,其僅僅提供對本揭露的說明。一些揭露的型態描述於下方作為圖解示範應用的參考。這意味著許多特殊的細節,關係及方法被闡述來對這個揭露提供完整的了解。無論如何,擁有相關領域通常知識的人將認識到若沒有一個或更多的特殊細節或用其他方法,此揭露仍然可以被實現。
以其他例子來說,眾所皆知的結構或操作並沒有詳細列出以避免對這揭露的混淆。本揭露並沒有被闡述的行為或事件順序所侷限,如有些行為可能發生在不同的順序亦或同時發生在其他行為或事件之下。此外,並非所有闡述的行為或事件都需要被執行在與現有揭露相同的方法之中。
第1圖為本揭露實施例之建立疾病預測的決策樹的方法的流程圖。如第1圖所示,本揭露的建立疾病預測的決策樹的方法包括:接收複數生理量測資料相對於不同疾病(步驟S100);分類生理量測資料相對於用途(步驟S102);計算生理量測資料的至少一切分點 (步驟S104); 分枝決策樹相對於至少一切分點(步驟S106);以及剪枝決策樹而完成決策樹的建立(步驟S108)。
詳細來說,在步驟S104中,本揭露的建立疾病預測的決策樹的方法更包括利用關聯於生理量測資料的一特定函數及一相關係數的絕對值,計算生理量測資料的至少一切分點的一數值。在步驟S106中,本揭露的建立疾病預測的決策樹的方法更包括找出具有最小該數值的該至少一切分點作為該決策樹的一分支節點,以及判斷是否無法繼續分枝。在步驟S108中,本揭露的建立疾病預測的決策樹的方法更包括使用一赤池訊息量準則(Akaike information criterion:AIC)對決策樹進行剪支。
在一些實施例中,本揭露所建立用於協助疾病預測的決策樹是為一分類和相關係數回歸樹(Classification and Correlation Coefficient Regression Trees:CCRT)決策樹。CCRT決策樹是基於傳統知名的分類和回歸樹(Classification and Regression Trees:CART)決策樹的改良版,其演算過程中加入相關係數做參數調整,用以提升CCRT決策樹的疾病預測能力。在步驟S100中,生理量測資料是來自醫院端的各個病人的病歷資料。舉例來說,一位病人的病歷資料可包括性別、身體質量指數(Body Mass Index:BMI)、尿酸、總膽固醇、白血球,以及血糖,但本揭露不限於此。
表一為來自醫院端的五位病人對應於不同疾病的生理量測資料。表一的生理量測資料是作為例示。
資料編號 性別 BMI 尿酸 總膽固醇 白血球 血糖 疾病
1 F 18 7.3 150 15.3 201 糖尿病
2 F 36 9.8 285 20.8 125 動脈粥狀硬化
3 M 32 6.5 201 8.51 100 高血壓
4 M 24 5.7 187 4.38 131 脂肪肝
5 M 28 7.4 235 18.1 185 糖尿病
如表一所示,1號病人是為女性,其BMI為18、尿酸為7.3、總膽固醇為150、白血球為15.3,以及血糖為201,並且醫師判斷1號病人所罹患的疾病為糖尿病。2號病人是為女性,其BMI為36、尿酸為9.8、總膽固醇為285、白血球為20.8,以及血糖為125,並且醫師判斷2號病人所罹患的疾病為動脈粥狀硬化。3號病人是為男性,其BMI為32、尿酸為6.5、總膽固醇為201、白血球為8.51,以及血糖為100,並且醫師判斷3號病人所罹患的疾病為高血壓。4號病人是為男性,其BMI為24、尿酸為5.7、總膽固醇為187、白血球為4.38,以及血糖為131,並且醫師判斷4號病人所罹患的疾病為脂肪肝。5號病人是為男性,其BMI為28、尿酸為7.4、總膽固醇為235、白血球為18.1,以及血糖為185,並且醫師判斷5號病人所罹患的疾病為糖尿病。
在步驟S102中,當來自醫院端的生理量測資料是用於不同疾病發生機率的推算,則生理量測資料會被分類為分類型資料。在一些實施例中,當來自醫院端的生理量測資料是用於不同疾病的分類,則生理量測資料會被分類為數值型資料。本揭露的CCRT決策樹皆可對分類型資料及數值型資料進行處理。在一些實施例中,當在步驟S102中生理量測資料被分類為分類型資料時,則步驟S104中的關聯於生理量測資料的特定函數為一吉尼係數公式。詳細來說,吉尼係數公式為如下算式1。
Figure 02_image029
算式1
Figure 02_image003
為生理量測資料中對應於一種疾病的資料;
Figure 02_image005
為該等生理量測資料中對應於該種疾病的資料的出現機率;以及
Figure 02_image007
為該等生理量測資料中對應的疾病種類的數量。
在步驟S104中,關聯於生理量測資料的相關係數為如下公式2。
Figure 02_image031
算式2
Figure 02_image011
為生理量測資料的一者;
Figure 02_image007
為生理量測資料的資料筆數;
Figure 02_image013
為自變數,即生理量測資料;
Figure 02_image015
為自變數平均,即生理量測資料的平均;
Figure 02_image017
為應變數,即對應於一疾病的數值;以及
Figure 02_image019
為應變數平均,即對應於該疾病的數值的平均。在一些實施例中,本揭露的方法可將表一中的性別F轉為數值2、性別M轉為數值1、糖尿病轉換為數值1、動脈粥狀硬化轉換為數值2、高血壓轉換為數值3,以及脂肪肝轉換為數值4,但本揭露不限於此。
詳細來說,在步驟S104中,生理量測資料的至少一切分點的數值相等於
Figure 02_image021
算式3。
在一些實施例中,本揭露的方法在計算吉尼係數公式
Figure 02_image033
及相關係數的絕對值
Figure 02_image035
的乘積之前,會先將生理量測資料依據性別由女至男進行排序、將生理量測資料依據BMI的高低由低至高進行排序、將生理量測資料依據尿酸的高低由低至高進行排序、將生理量測資料依據總膽固醇的多寡由寡至多進行排序、將生理量測資料依據白血球的多寡由寡至多進行排序,以及將生理量測資料依據血糖的高低由低至高進行排序。在一些實施例中,本揭露的方法依據生理量測資料的性別、BMI、尿酸、總膽固醇、白血球,以及血糖的排序,計算吉尼係數公式
Figure 02_image033
及相關係數的絕對值
Figure 02_image035
的乘積,用以得到生理量測資料的至少一切分點的數值。
以表一的生理量測資料作為例示。本揭露的方法會依據性別,將1~5號病人的資料排列為(1, 2, 3, 4, 5),亦即其性別的排列順序為(F,F,M,M,M)。之後,在步驟S104中,本揭露的方法會計算1~5號病人資料中男性與女性的切分點的數值,如下算式3。
Figure 02_image037
算式4
本揭露的方法依據性別排序的生理量測資料的排序(F,F,M,M,M),將性別轉換為數值後代入算式3、算式2,及算式1中,用以得到算式4。舉例來說,本揭露的方法將生理量測資料依性別欄位排序後,其切分點為2筆F及3筆M之間。在2筆F資料中,其兩者皆對應於不同的疾病(例如分別為糖尿病及動脈粥狀硬化),因此機率各為
Figure 02_image039
。因此,左分支為
Figure 02_image041
再乘上
Figure 02_image043
(5筆資料中的2筆)。同理,3筆M資料中,其三者皆對應於不同的疾病(例如為高血壓、脂肪肝,及糖尿病),因此機率各為
Figure 02_image045
。因此,右分支為
Figure 02_image047
再乘上
Figure 02_image049
(5筆資料中的3筆)。依據算式4的結果可得到依據性別排序的切分點的數值為0.6。
接著,本揭露的方法會依據BMI,將1~5號病人的資料排列為(1, 4, 5, 3, 2),亦即其BMI的排列順序為(18, 24, 28, 32, 36)。本揭露的方法首先計算依據BMI的第一切分點,亦即BMI<
Figure 02_image051
的第一切分點,如下算式5。
Figure 02_image053
算式5
舉例來說,本揭露的方法將生理量測資料依BMI欄位排序後,其第一切分點為18及24之間。在BMI為18的生理量測資料中(亦即1號病人),其對應的疾病為糖尿病,因此機率為
Figure 02_image055
。因此,第一切分點的左分支為
Figure 02_image057
再乘上
Figure 02_image059
(5筆資料中的1筆)。同理,4筆BMI分別為24、28、32、36的生理量測資料中(亦即2~5號病人),其四者皆對應於不同的疾病(例如為動脈粥狀硬化、高血壓、脂肪肝,及糖尿病),因此機率各為
Figure 02_image061
。因此,右分支為
Figure 02_image063
再乘上
Figure 02_image065
(5筆資料中的4筆)。依據算式5的結果可得到依據BMI排序的第一切分點的數值為0.6。
接著,本揭露的方法繼續計算依據BMI的下一個切分點,亦即BMI<
Figure 02_image067
的第二切分點,如下算式6。
Figure 02_image037
算式6
舉例來說,本揭露的方法將生理量測資料依BMI欄位排序後,其第二切分點為24及28之間。在BMI為18及24的生理量測資料中(亦即1號及4號病人),其對應的疾病為糖尿病及脂肪肝,因此機率各為
Figure 02_image039
。因此,第二切分點的左分支為
Figure 02_image041
再乘上
Figure 02_image043
(5筆資料中的2筆)。同理,3筆BMI分別為28、32、36的生理量測資料中(亦即2、3、5號病人),其三者皆對應於不同的疾病(例如為動脈粥狀硬化、高血壓,及糖尿病),因此機率各為
Figure 02_image045
。因此,右分支為
Figure 02_image047
再乘上
Figure 02_image049
(5筆資料中的3筆)。依據算式6的結果可得到依據BMI排序的第二切分點的數值為0.6。
接著,本揭露的方法繼續計算依據BMI的下一個切分點,亦即BMI<
Figure 02_image069
的第三切分點,如下算式7。
Figure 02_image071
算式7
舉例來說,本揭露的方法將生理量測資料依BMI欄位排序後,其第三切分點為28及32之間。在BMI為18、24及28的生理量測資料中(亦即1號、4號及5號病人),其對應的疾病為糖尿病及脂肪肝,因此糖尿病的出現機率為
Figure 02_image073
,並且脂肪肝的出現機率為
Figure 02_image045
。因此,第三切分點的左分支為
Figure 02_image075
再乘上
Figure 02_image049
(5筆資料中的3筆)。同理,2筆BMI分別為32、36的生理量測資料中(亦即2、3號病人),其兩者皆對應於不同的疾病(例如為動脈粥狀硬化,及高血壓),因此機率各為
Figure 02_image039
。因此,右分支為
Figure 02_image041
再乘上
Figure 02_image043
(5筆資料中的2筆)。依據算式7的結果可得到依據BMI排序的第三切分點的數值為0.054。
接著,本揭露的方法繼續計算依據BMI的下一個切分點,亦即BMI<
Figure 02_image077
的第四切分點,如下算式8。
Figure 02_image079
算式8
舉例來說,本揭露的方法將生理量測資料依BMI欄位排序後,其第四切分點為32及36之間。在BMI為18、24、28及32的生理量測資料中(亦即1號、3號、4號及5號病人),其對應的疾病為糖尿病、高血壓及脂肪肝,因此糖尿病的出現機率為
Figure 02_image081
,高血壓的出現機率為
Figure 02_image061
,並且脂肪肝的出現機率為
Figure 02_image061
。因此,第四切分點的左分支為
Figure 02_image083
再乘上
Figure 02_image065
(5筆資料中的4筆)。同理,BMI為36的生理量測資料中(亦即2號病人),其對應的疾病為動脈粥狀硬化,因此其機率為
Figure 02_image055
。因此,右分支為
Figure 02_image085
再乘上
Figure 02_image059
(5筆資料中的1筆)。依據算式8的結果可得到依據BMI排序的第四切分點的數值為0.158。
再者,本揭露的方法會依據尿酸,將1~5號病人的資料排列為(4, 3, 1, 5, 2),亦即其尿酸的排列順序為(5.7, 6.5, 7.3, 7.4, 9.8)。本揭露的方法首先計算依據尿酸的第一切分點,亦即尿酸<
Figure 02_image087
的第一切分點,如下算式9。
Figure 02_image089
算式9
舉例來說,本揭露的方法將生理量測資料依尿酸欄位排序後,其第一切分點為5.7及6.5之間。在尿酸為5.7的生理量測資料中(亦即4號病人),其對應的疾病為脂肪肝,因此機率為
Figure 02_image055
。因此,第一切分點的左分支為
Figure 02_image057
再乘上
Figure 02_image059
(5筆資料中的1筆)。同理,4筆尿酸分別為6.5, 7.3, 7.4, 9.8的生理量測資料中(亦即1~3、5號病人),其四者對應於糖尿病、動脈粥狀硬化,及高血壓,因此糖尿病的出現機率為
Figure 02_image081
,動脈粥狀硬化的出現機率為
Figure 02_image061
,並且高血壓的出現機率為
Figure 02_image061
。因此,右分支為
Figure 02_image083
再乘上
Figure 02_image065
(5筆資料中的4筆)。依據算式9的結果可得到依據尿酸排序的第一切分點的數值為0.5。
接著,本揭露的方法繼續計算依據尿酸的下一個切分點,亦即尿酸<
Figure 02_image091
的第二切分點,如下算式10。
Figure 02_image093
算式10
舉例來說,本揭露的方法將生理量測資料依尿酸欄位排序後,其第二切分點為6.5及7.3之間。在尿酸為5.7及6.5的生理量測資料中(亦即4號及3號病人),其對應的疾病為脂肪肝及高血壓,因此機率各為
Figure 02_image039
。因此,第二切分點的左分支為
Figure 02_image041
再乘上
Figure 02_image043
(5筆資料中的2筆)。同理,3筆尿酸分別為7.3, 7.4, 9.8的生理量測資料中(亦即1、5、2號病人),其三者對應於糖尿病及動脈粥狀硬化,因此糖尿病的出現機率為
Figure 02_image073
,並且動脈粥狀硬化的出現機率為
Figure 02_image045
。因此,右分支為
Figure 02_image075
再乘上
Figure 02_image049
(5筆資料中的3筆)。依據算式10的結果可得到依據尿酸排序的第二切分點的數值為0.4667。
接著,本揭露的方法繼續計算依據尿酸的下一個切分點,亦即尿酸<
Figure 02_image095
的第三切分點,如下算式11。
Figure 02_image097
算式11
舉例來說,本揭露的方法將生理量測資料依尿酸欄位排序後,其第三切分點為7.3及7.4之間。在尿酸為5.7、6.5及7.3的生理量測資料中(亦即4號、3號及1號病人),其三者皆對應於不同的疾病(例如為脂肪肝、高血壓,及糖尿病),因此機率各為
Figure 02_image045
。因此,第三切分點的左分支為
Figure 02_image047
再乘上
Figure 02_image049
(5筆資料中的3筆)。同理,2筆尿酸分別為7.4、9.8的生理量測資料中(亦即5、2號病人),其兩者皆對應於不同的疾病(例如為糖尿病,及動脈粥狀硬化),因此機率各為
Figure 02_image039
。因此,右分支為
Figure 02_image041
再乘上
Figure 02_image043
(5筆資料中的2筆)。依據算式11的結果可得到依據尿酸排序的第三切分點的數值為0.589。
接著,本揭露的方法繼續計算依據尿酸的下一個切分點,亦即尿酸<
Figure 02_image099
的第四切分點,如下算式12。
Figure 02_image101
算式12
舉例來說,本揭露的方法將生理量測資料依尿酸欄位排序後,其第四切分點為7.4及9.8之間。在尿酸為5.7、6.5、7.3及7.4的生理量測資料中(亦即4號、3號、1號及5號病人),其對應的疾病為脂肪肝、高血壓及糖尿病,因此脂肪肝的出現機率為
Figure 02_image061
,高血壓的出現機率為
Figure 02_image061
,並且糖尿病的出現機率為
Figure 02_image081
。因此,第四切分點的左分支為
Figure 02_image083
再乘上
Figure 02_image065
(5筆資料中的4筆)。同理,尿酸為9.8的生理量測資料中(亦即2號病人),其對應的疾病為動脈粥狀硬化,因此其機率為
Figure 02_image055
。因此,右分支為
Figure 02_image085
再乘上
Figure 02_image059
(5筆資料中的1筆)。依據算式12的結果可得到依據尿酸排序的第四切分點的數值為0.4938。
之後,本揭露的方法會依據總膽固醇,將1~5號病人的資料排列為(1, 4, 3, 5, 2),亦即其總膽固醇的排列順序為(150, 187, 201, 235, 285)。本揭露的方法首先計算依據總膽固醇的第一切分點,亦即總膽固醇<
Figure 02_image103
的第一切分點,如下算式13。
Figure 02_image053
算式13
舉例來說,本揭露的方法將生理量測資料依總膽固醇欄位排序後,其第一切分點為150及187之間。在總膽固醇為150的生理量測資料中(亦即1號病人),其對應的疾病為糖尿病,因此機率為
Figure 02_image055
。因此,第一切分點的左分支為
Figure 02_image057
再乘上
Figure 02_image059
(5筆資料中的1筆)。同理,4筆總膽固醇分別為187、201、235、285的生理量測資料中(亦即2~5號病人),其四者皆對應於不同的疾病(例如為動脈粥狀硬化、高血壓、脂肪肝,及糖尿病),因此機率各為
Figure 02_image061
。因此,右分支為
Figure 02_image063
再乘上
Figure 02_image065
(5筆資料中的4筆)。依據算式13的結果可得到依據總膽固醇排序的第一切分點的數值為0.6。
接著,本揭露的方法繼續計算依據總膽固醇的下一個切分點,亦即總膽固醇<
Figure 02_image105
的第二切分點,如下算式14。
Figure 02_image037
算式14
舉例來說,本揭露的方法將生理量測資料依總膽固醇欄位排序後,其第二切分點為187及201之間。在總膽固醇為150及187的生理量測資料中(亦即1號及4號病人),其對應的疾病為糖尿病及脂肪肝,因此機率各為
Figure 02_image039
。因此,第二切分點的左分支為
Figure 02_image041
再乘上
Figure 02_image043
(5筆資料中的2筆)。同理,3筆總膽固醇分別為201、235、285的生理量測資料中(亦即2、3、5號病人),其三者皆對應於不同的疾病(例如為動脈粥狀硬化、高血壓,及糖尿病),因此機率各為
Figure 02_image045
。因此,右分支為
Figure 02_image047
再乘上
Figure 02_image049
(5筆資料中的3筆)。依據算式14的結果可得到依據總膽固醇排序的第二切分點的數值為0.6。
接著,本揭露的方法繼續計算依據總膽固醇的下一個切分點,亦即總膽固醇<
Figure 02_image107
的第三切分點,如下算式15。
Figure 02_image109
算式15
舉例來說,本揭露的方法將生理量測資料依總膽固醇欄位排序後,其第三切分點為201及235之間。在總膽固醇為150、187及201的生理量測資料中(亦即1號、4號及3號病人),其三者皆對應於不同的疾病(例如為脂肪肝、高血壓,及糖尿病),因此機率各為
Figure 02_image045
。因此,第三切分點的左分支為
Figure 02_image047
再乘上
Figure 02_image049
(5筆資料中的3筆)。同理,2筆總膽固醇分別為235、285的生理量測資料中(亦即5、2號病人),其兩者皆對應於不同的疾病(例如為糖尿病,及動脈粥狀硬化),因此機率各為
Figure 02_image039
。因此,右分支為
Figure 02_image041
再乘上
Figure 02_image043
(5筆資料中的2筆)。依據算式15的結果可得到依據尿酸排序的第三切分點的數值為0.4944。
接著,本揭露的方法繼續計算依據總膽固醇的下一個切分點,亦即總膽固醇<
Figure 02_image111
的第四切分點,如下算式16。
Figure 02_image113
算式16
舉例來說,本揭露的方法將生理量測資料依總膽固醇欄位排序後,其第四切分點為235及285之間。在總膽固醇為150、187、201及235的生理量測資料中(亦即1號、4號、3號及5號病人),其對應的疾病為脂肪肝、高血壓及糖尿病,因此脂肪肝的出現機率為
Figure 02_image061
,高血壓的出現機率為
Figure 02_image061
,並且糖尿病的出現機率為
Figure 02_image081
。因此,第四切分點的左分支為
Figure 02_image083
再乘上
Figure 02_image065
(5筆資料中的4筆)。同理,總膽固醇為285的生理量測資料中(亦即2號病人),其對應的疾病為動脈粥狀硬化,因此其機率為
Figure 02_image055
。因此,右分支為
Figure 02_image085
再乘上
Figure 02_image059
(5筆資料中的1筆)。依據算式16的結果可得到依據尿酸排序的第四切分點的數值為0.01。
接著,本揭露的方法會依據白血球,將1~5號病人的資料排列為(4, 3, 1, 5, 2),亦即其總膽固醇的排列順序為(4.38, 8.51, 15.3, 18.1, 20.8)。本揭露的方法首先計算依據白血球的第一切分點,亦即白血球<
Figure 02_image115
的第一切分點,如下算式17。
Figure 02_image089
算式17
舉例來說,本揭露的方法將生理量測資料依白血球欄位排序後,其第一切分點為4.38及8.51之間。在白血球為4.38的生理量測資料中(亦即4號病人),其對應的疾病為脂肪肝,因此機率為
Figure 02_image055
。因此,第一切分點的左分支為
Figure 02_image057
再乘上
Figure 02_image059
(5筆資料中的1筆)。同理,4筆白血球分別為8.51, 15.3, 18.1, 20.8的生理量測資料中(亦即1~3、5號病人),其四者對應於糖尿病、動脈粥狀硬化,及高血壓,因此糖尿病的出現機率為
Figure 02_image081
,動脈粥狀硬化的出現機率為
Figure 02_image061
,並且高血壓的出現機率為
Figure 02_image061
。因此,右分支為
Figure 02_image083
再乘上
Figure 02_image065
(5筆資料中的4筆)。依據算式17的結果可得到依據尿酸排序的第一切分點的數值為0.5。
接著,本揭露的方法繼續計算依據白血球的下一個切分點,亦即白血球<
Figure 02_image117
的第二切分點,如下算式18。
Figure 02_image093
算式18
舉例來說,本揭露的方法將生理量測資料依白血球欄位排序後,其第二切分點為8.51及15.3之間。在尿酸為4.38及8.51的生理量測資料中(亦即4號及3號病人),其對應的疾病為脂肪肝及高血壓,因此機率各為
Figure 02_image039
。因此,第二切分點的左分支為
Figure 02_image041
再乘上
Figure 02_image043
(5筆資料中的2筆)。同理,3筆白血球分別為15.3, 18.1, 20.8的生理量測資料中(亦即1、5、2號病人),其三者對應於糖尿病及動脈粥狀硬化,因此糖尿病的出現機率為
Figure 02_image073
,並且動脈粥狀硬化的出現機率為
Figure 02_image045
。因此,右分支為
Figure 02_image075
再乘上
Figure 02_image049
(5筆資料中的3筆)。依據算式18的結果可得到依據尿酸排序的第二切分點的數值為0.4667。
接著,本揭露的方法繼續計算依據白血球的下一個切分點,亦即白血球<
Figure 02_image119
的第三切分點,如下算式19。
Figure 02_image121
算式19
舉例來說,本揭露的方法將生理量測資料依白血球欄位排序後,其第三切分點為15.3及18.1之間。在白血球為4.38、8.51及15.3的生理量測資料中(亦即4號、3號及1號病人),其三者皆對應於不同的疾病(例如為脂肪肝、高血壓,及糖尿病),因此機率各為
Figure 02_image045
。因此,第三切分點的左分支為
Figure 02_image047
再乘上
Figure 02_image049
(5筆資料中的3筆)。同理,2筆白血球分別為18.1、20.8的生理量測資料中(亦即5、2號病人),其兩者皆對應於不同的疾病(例如為糖尿病,及動脈粥狀硬化),因此機率各為
Figure 02_image039
。因此,右分支為
Figure 02_image041
再乘上
Figure 02_image043
(5筆資料中的2筆)。依據算式19的結果可得到依據尿酸排序的第三切分點的數值為0.599。
接著,本揭露的方法繼續計算依據白血球的下一個切分點,亦即白血球<
Figure 02_image123
的第四切分點,如下算式20。
Figure 02_image125
算式20
舉例來說,本揭露的方法將生理量測資料依白血球欄位排序後,其第四切分點為18.1及20.8之間。在白血球為4.38、8.51、15.3及18.1的生理量測資料中(亦即4號、3號、1號及5號病人),其對應的疾病為脂肪肝、高血壓及糖尿病,因此脂肪肝的出現機率為
Figure 02_image061
,高血壓的出現機率為
Figure 02_image061
,並且糖尿病的出現機率為
Figure 02_image081
。因此,第四切分點的左分支為
Figure 02_image083
再乘上
Figure 02_image065
(5筆資料中的4筆)。同理,白血球為20.8的生理量測資料中(亦即2號病人),其對應的疾病為動脈粥狀硬化,因此其機率為
Figure 02_image055
。因此,右分支為
Figure 02_image085
再乘上
Figure 02_image059
(5筆資料中的1筆)。依據算式20的結果可得到依據尿酸排序的第四切分點的數值為0.4916。
本揭露的方法會依據血糖,將1~5號病人的資料排列為(3, 2, 4, 5, 1),亦即其總膽固醇的排列順序為(100, 125, 131, 185, 201)。本揭露的方法首先計算依據血糖的第一切分點,亦即血糖<
Figure 02_image127
的第一切分點,如下算式21。
Figure 02_image089
算式21
舉例來說,本揭露的方法將生理量測資料依血糖欄位排序後,其第一切分點為100及125之間。在血糖為100的生理量測資料中(亦即3號病人),其對應的疾病為高血壓,因此機率為
Figure 02_image055
。因此,第一切分點的左分支為
Figure 02_image057
再乘上
Figure 02_image059
(5筆資料中的1筆)。同理,4筆血糖分別為125, 131, 185, 201的生理量測資料中(亦即2、4、5、1號病人),其四者對應於糖尿病、動脈粥狀硬化,及高血壓,因此糖尿病的出現機率為
Figure 02_image081
,動脈粥狀硬化的出現機率為
Figure 02_image061
,並且高血壓的出現機率為
Figure 02_image061
。因此,右分支為
Figure 02_image083
再乘上
Figure 02_image065
(5筆資料中的4筆)。依據算式21的結果可得到依據尿酸排序的第一切分點的數值為0.5。
接著,本揭露的方法繼續計算依據血糖的下一個切分點,亦即血糖<
Figure 02_image129
的第二切分點,如下算式22。
Figure 02_image093
算式22
舉例來說,本揭露的方法將生理量測資料依血糖欄位排序後,其第二切分點為125及131之間。在血糖為100及125的生理量測資料中(亦即3號及2號病人),其對應的疾病為脂肪肝及動脈粥狀硬化,因此機率各為
Figure 02_image039
。因此,第二切分點的左分支為
Figure 02_image041
再乘上
Figure 02_image043
(5筆資料中的2筆)。同理,3筆血糖分別為131, 185, 201的生理量測資料中(亦即4、5、1號病人),其三者對應於糖尿病及脂肪肝,因此糖尿病的出現機率為
Figure 02_image073
,並且脂肪肝的出現機率為
Figure 02_image045
。因此,右分支為
Figure 02_image075
再乘上
Figure 02_image049
(5筆資料中的3筆)。依據算式22的結果可得到依據尿酸排序的第二切分點的數值為0.4667。
接著,本揭露的方法繼續計算依據血糖的下一個切分點,亦即血糖<
Figure 02_image131
的第三切分點,如下算式23。
Figure 02_image133
算式23
舉例來說,本揭露的方法將生理量測資料依血糖欄位排序後,其第三切分點為131及185之間。在血糖為100、125及131的生理量測資料中(亦即3號、2號及4號病人),其三者皆對應於不同的疾病(例如為脂肪肝、高血壓,及動脈粥狀硬化),因此機率各為
Figure 02_image045
。因此,第三切分點的左分支為
Figure 02_image047
再乘上
Figure 02_image049
(5筆資料中的3筆)。同理,2筆血糖分別為185、201的生理量測資料中(亦即5、1號病人),其兩者皆對應相同的疾病(例如為糖尿病),因此機率為
Figure 02_image135
。因此,右分支為
Figure 02_image137
再乘上
Figure 02_image043
(5筆資料中的2筆)。依據算式23的結果可得到依據尿酸排序的第三切分點的數值為0.073。
接著,本揭露的方法繼續計算依據血糖的下一個切分點,亦即血糖<
Figure 02_image139
的第四切分點,如下算式24。
Figure 02_image141
算式24
舉例來說,本揭露的方法將生理量測資料依血糖欄位排序後,其第四切分點為185及201之間。在血糖為100、125、131及185的生理量測資料中(亦即3號、2號、4號及5號病人),其分別對應不同的疾病(例如為脂肪肝、高血壓、動脈粥狀硬化及糖尿病),因此脂肪肝的出現機率為
Figure 02_image061
,高血壓的出現機率為
Figure 02_image061
,動脈粥狀硬化的出現機率為
Figure 02_image061
,並且糖尿病的出現機率為
Figure 02_image061
。因此,第四切分點的左分支為
Figure 02_image063
再乘上
Figure 02_image065
(5筆資料中的4筆)。同理,血糖為201的生理量測資料中(亦即1號病人),其對應的疾病為糖尿病,因此其機率為
Figure 02_image055
。因此,右分支為
Figure 02_image085
再乘上
Figure 02_image059
(5筆資料中的1筆)。依據算式24的結果可得到依據尿酸排序的第四切分點的數值為0.4048。至此,本揭露的方法已完成第1圖的步驟S104。
在步驟S104中,本揭露的方法得到依據性別排序的切分點的數值為0.6,依據BMI排序的第一、第二、第三,及第四切分點的數值為0.6、0.6、0.054,及0.158,依據尿酸排序的第一、第二、第三,及第四切分點的數值為0.5、0.4667、0.589、0.4938,依據總膽固醇排序的第一、第二、第三,及第四切分點的數值為0.6、0.6、0.4944,及0.01,依據白血球排序的第一、第二、第三,及第四切分點的數值為0.5、0.4667、0.599,及0.4916,以及依據血糖排序的第一、第二、第三,及第四切分點的數值為0.5、0.4667、0.073,及0.4048。
接著,在第1圖的步驟S106中,本揭露的方法從上述所有切分點中,找出具有最小數值的切分點作為本揭露決策樹的一分支節點。換句話說,由於依據總膽固醇排序的第四切分點的數值為0.01,為上述所有切分點中的最小,因此本揭露將依據總膽固醇排序的第四切分點(即總膽固醇<
Figure 02_image143
)設置為決策樹的分支節點。
第2圖為本揭露實施例之決策樹的示意圖。延續上一段的內容,本揭露的方法可得到依據總膽固醇排序的第四切分點的數值為最小(0.01),因此分支節點200係設置為總膽固醇。分支節點200的左分支為總膽固醇<260的生理量測資料(例如為1、3~5號病人的資料),分支節點200的右分支為總膽固醇>=260的生理量測資料(例如為2號病人的資料)。接著,依據前面幾段的方法繼續分支,係可得到第2圖的決策樹。由於分支節點200的右分支剩下一筆對應於動脈粥狀硬化的生理量測資料(例如為2號病人的資料),節點206所包含的生理量測資料的筆數(例如為1筆)小於等於對應於疾病(例如為動脈粥狀硬化)的生理量測資料的預設資料筆數(例如為1筆,即2號病人的資料),因此本揭露的方法將節點206設置為末支節點(即節點206無法繼續分支),並且將動脈粥狀硬化設置於節點206中。
由於分支節點200的左分支(總膽固醇<260)剩下4筆生理量測資料(1~3、5號病人的資料),本揭露的方法同樣執行步驟S104、S106,並且得到依據BMI排序的第三切分點(BMI<
Figure 02_image145
)是具有最小的數值,因此分支節點202係設置為BMI。分支節點202的左分支為BMI<30的生理量測資料(例如為1、4、5號病人的資料),分支節點202的右分支為BMI>=30的生理量測資料(例如為3號病人的資料)。在步驟S106中,由於分支節點202的右分支剩下一筆對應於高血壓的生理量測資料(例如為3號病人的資料),節點208所包含的生理量測資料的筆數(例如為1筆)小於等於對應於疾病(例如為高血壓)的生理量測資料的預設資料筆數(例如為1筆,即3號病人的資料),因此本揭露的方法將節點208設置為末支節點(即節點208無法繼續分支),並且將高血壓設置於節點208中。
由於分支節點202的左分支(BMI<30)剩下3筆生理量測資料(1、4、5號病人的資料),本揭露的方法同樣執行步驟S104、S106,並且得到依據血糖排序的第一切分點(血糖<
Figure 02_image147
)是具有最小的數值,因此分支節點204係設置為血糖。分支節點204的左分支為血糖<158的生理量測資料(例如為4號病人的資料),分支節點204的右分支為血糖>=158的生理量測資料(例如為1、5號病人的資料)。在步驟S106中,由於分支節點204的右分支剩下兩筆對應於高血壓的生理量測資料(例如為1、5號病人的資料),節點208所包含的生理量測資料的筆數(例如為2筆)小於等於對應於疾病(例如為糖尿病)的生理量測資料的預設資料筆數(例如為2筆,即1、5號病人的資料),因此本揭露的方法將節點212設置為末支節點(即節點212無法繼續分支),並且將糖尿病設置於節點212中。
再者,由於分支節點204的左分支剩下一筆對應於脂肪肝的生理量測資料(例如為4號病人的資料),節點210所包含的生理量測資料的筆數(例如為1筆)小於等於對應於疾病(例如為脂肪肝)的生理量測資料的預設資料筆數(例如為1筆,即4號病人的資料),因此本揭露的方法將節點210設置為末支節點(即節點210無法繼續分支),並且將脂肪肝設置於節點210中。簡單來說,分支節點200、202、204是在第1圖的步驟S106中被判斷為「否」所獲得,而節點206、208、210、212(末支節點)是在第1圖的步驟S106中被判斷為「是」所獲得。
在步驟S108中,赤池訊息量準則(AIC)是用來檢視第2圖的決策樹是否過度擬合的標準。在一些實施例中,赤池訊息量準則(AIC)為:
Figure 02_image023
算式25
在算式25中,
Figure 02_image025
為概似函數,
Figure 02_image027
為參數的數量。在一些實施例中,本揭露的方法更計算第2圖決策樹對應於不同疾病的每個末支(例如,第2圖的節點206、208、210,及212)的正確率。
本揭露的方法將以下表二的3筆預測資料輸入於第2圖的決策樹中,用以得到病患A的預測結果:疾病1,病患B的預測結果:疾病2,以及病患C的預測結果:疾病3。
病患 性別 BMI 尿酸 總膽固醇 白血球 血糖 預測結果
A F 30 4.5 200 13.1 189 疾病1
B M 20 4.7 203 15.7 161 疾病2
C F 25 7.8 195 25.3 155 疾病3
表三為第2圖的決策樹對疾病特徵的判斷。
疾病 總膽固醇<260 總膽固醇>=260 BMI<30 BMI>=30 血糖<158 血糖>=158
糖尿病 符合 未符 符合 未符 未符 符合
脂肪肝 符合 未符 符合 未符 符合 未符
高血壓 符合 未符 未符 符合 NA NA
動脈粥狀硬化 未符 符合 NA NA NA NA
依據表三,本揭露的方法可得到病患A的膽固醇低於260,並且BMI高於等於30,因此病患A可能罹患高血壓。以此類推,病患B可能罹患糖尿病,並且病患C可能有脂肪肝。上述結果可作為醫師診斷時的輔助條件。
第3圖為本揭露實施例之用於建立協助疾病預測的決策樹的電子系統的示意圖。如第3圖所示,本揭露的電子系統可包括一網路伺服器300、一資料庫302,以及一演算伺服器304。網路伺服器300包括一處理器310,演算伺服器304包括一處理器314。在一些實施例中,網路伺服器300的處理器310可執行第1圖的步驟S100。在一些實施例中,步驟S100中的生理量測資料相對於不同疾病是來自於醫院端的電腦306,並且電腦306中的生理量測資料是來自於醫師308對不同病人的量測及診斷結果。資料庫302可儲存生理量測資料。演算伺服器304的處理器314可執行第1圖中的步驟S104、S106,以及S108。在一些實施例中,演算伺服器304的處理器314可將其疾病預測結果傳送至網路伺服器300,用以將其疾病預測結果公布給所有人。
本揭露更提供一種電腦程式產品,用於建立協助疾病預測的一決策樹(例如第2圖的決策樹),適用於具有第一處理器(例如第3圖的處理器310)、一第二處理器(例如第3圖的處理器314),以及一資料庫(例如第3圖的資料庫302)的電子系統(例如第3圖的電子系統)。本揭露的電腦程式產品包括一接收指令、一儲存指令、一讀取指令、一分類指令、一計算指令、一分枝指令,以及一剪枝指令。在一些實施例中,接收指令使得處理器310可執行第1圖的步驟S100。儲存指令使得資料庫302可儲存步驟S100中的生理量測資料相對於不同疾病。讀取指令使得處理器314可從資料庫302中取得生理量測資料。分類指令使得處理器314可執行第1圖的步驟S102。
計算指令使得處理器314可執行第1圖的步驟S104。分枝指令使得處理器314可執行第1圖的步驟S106。剪枝指令使得處理器314可執行第1圖的步驟S108。當處理器310執行完接收指令,資料庫302執行完儲存指令,以及處理器314執行完讀取指令、分類指令、計算指令、分枝指令,以及剪枝指令後,則第2圖的決策樹被建立完成(對應於第1圖的步驟S108)。
當來自醫院端的生理量測資料愈多,則本揭露的建立用於協助疾病預測的決策樹的方法、電子系統及電腦程式產品所得到的預測結果會愈準確,能夠輔助醫師的醫療診斷,依據預測結果提前給予預防措施,將決策樹各末支的資料進行計算,得到單一疾病機率,可提升更多疾病預測的準確率。
雖然本揭露的實施例如上述所描述,我們應該明白上述所呈現的只是範例,而不是限制。依據本實施例上述示範實施例的許多改變是可以在沒有違反發明精神及範圍下被執行。因此,本揭露的廣度及範圍不該被上述所描述的實施例所限制。更確切地說,本揭露的範圍應該要以以下的申請專利範圍及其相等物來定義。
儘管上述揭露已被一或多個相關的執行來圖例說明及描繪,等效的變更及修改將被依據上述規格及附圖且熟悉這領域的其他人所想到。此外,儘管本揭露實施例的一特別特徵已被相關的多個執行之一所示範,上述特徵可能由一或多個其他特徵所結合,以致於可能有需求及有助於任何已知或特別的應用。
除非有不同的定義,所有本文所使用的用詞(包含技術或科學用詞)是可以被屬於上述揭露的技術中擁有一般技術的人士做一般地了解。我們應該更加了解到上述用詞,如被定義在眾所使用的字典內的用詞,在相關技術的上下文中應該被解釋為相同的意思。除非有明確地在本文中定義,上述用詞並不會被解釋成理想化或過度正式的意思。
S100,S102,S104,S106,S108:步驟 200,202,204:分支節點 206,208,210,212:節點 300:網路伺服器 302:資料庫 304:演算伺服器 306:(醫院端)電腦 308:醫師 310,314:處理器
第1圖為本揭露實施例之建立疾病預測的決策樹的方法的流程圖。 第2圖為本揭露實施例之決策樹的示意圖。 第3圖為本揭露實施例之用於建立疾病預測的決策樹的電子系統的示意圖。
S100,S102,S104,S106,S108:步驟

Claims (21)

  1. 一種建立疾病預測的一決策樹的方法,包括:接收複數生理量測資料相對於不同疾病;分類該等生理量測資料相對於用途;計算該等生理量測資料的至少一切分點;分枝該決策樹相對於該至少一切分點;剪枝該決策樹而完成該決策樹的建立;以及計算該決策樹的對應於不同疾病的每個末支的正確率。
  2. 如請求項1之方法,其中,計算該等生理量測資料的至少一切分點的步驟,包括:利用關聯於該等生理量測資料的一特定函數及一相關係數的絕對值,計算該等生理量測資料的該至少一切分點的一數值。
  3. 如請求項2之方法,其中,分枝該決策樹相對於該至少一切分點的步驟,包括:找出具有最小該數值的該至少一切分點作為該決策樹的一分支節點;以及判斷是否無法繼續分枝。
  4. 如請求項1之方法,其中,剪枝該決策樹而完成該決策樹的建立的步驟,包括:使用一赤池訊息量準則(Akaike information criterion:AIC)對該決策樹進行剪支。
  5. 如請求項2之方法,其中,分類該等生理量測資料 相對於用途的步驟,包括:當該等生理量測資料是用於不同疾病發生機率的推算,則該等生理量測資料會被分類為分類型資料。
  6. 如請求項5之方法,其中,當該等生理量測資料被分類為分類型資料,該特定函數為一吉尼係數公式;該吉尼係數公式為:
    Figure 111105739-A0305-02-0037-1
    其中,x i 為該等生理量測資料中對應於一種疾病的資料;p(x i )為該等生理量測資料中對應於該種疾病的資料的出現機率;以及n為該等生理量測資料中對應的疾病種類的數量。
  7. 如請求項6之方法,其中,該相關係數為:
    Figure 111105739-A0305-02-0037-2
    其中,i為該等生理量測資料的一者;n為該等生理量測資料的資料筆數;x j 為自變數且代表該等生理量測資料;
    Figure 111105739-A0305-02-0037-5
    為自變數平均且代表該等生理量測資料的平均;y j 為應變數且代表對應於一疾病的該數值;以及
    Figure 111105739-A0305-02-0037-6
    為應變數平均且代表對應於該疾病的該數值的平均。
  8. 如請求項2之方法,其中,該等生理量測資料包括:性別、身體質量指數(Body Mass Index:BMI)、尿酸、總膽固醇、白血球,以及血糖。
  9. 如請求項7之方法,其中,該等生理量測資料的該 至少一切分點的該數值相等於Gini(D)×|r(i)|。
  10. 如請求項4之方法,其中,該赤池訊息量準則(AIC)為:AIC=-2×l+2×(k+1)其中,l為概似函數,k為參數的數量。
  11. 如請求項3之方法,其中,判斷是否無法繼續分支的步驟,包括:重複執行計算該等生理量測資料的該至少一切分點的該數值的步驟,以及找出具有最小該數值的該至少一切分點作為該決策樹的該分支節點的步驟,直到無法繼續分支;或者重複執行計算該等生理量測資料的該至少一切分點的該數值的步驟,以及找出具有最小該數值的該至少一切分點作為該決策樹的該分支節點的步驟,直到該分支節點所包含的該等生理量測資料的筆數小於等於對應於每一疾病的該等生理量測資料的預設資料筆數。
  12. 如請求項8之方法,計算該等生理量測資料的該至少一切分點的該數值的步驟,包括:將該等生理量測資料依據性別由女至男進行排序;將該等生理量測資料依據BMI的高低由低至高進行排序;將該等生理量測資料依據尿酸的高低由低至高進行排序;將該等生理量測資料依據總膽固醇的多寡由寡至多進行排序; 將該等生理量測資料依據白血球的多寡由寡至多進行排序;以及將該等生理量測資料依據血糖的高低由低至高進行排序。
  13. 如請求項12之方法,計算該等生理量測資料的該至少一切分點的該數值的步驟,包括:依據該等生理量測資料的性別、BMI、尿酸、總膽固醇、白血球,以及血糖的排序,計算該特定函數及該相關係數的絕對值的乘積,用以得到該等生理量測資料的該至少一切分點的該數值。
  14. 一種電子系統,用於建立協助疾病預測的一決策樹,包括:一第一處理器,接收來自醫院端的複數生理量測資料相對於不同疾病;一資料庫,儲存該等生理量測資料;以及一第二處理器,從該資料庫取得該等生理量測資料,用以執行:分類該等生理量測資料相對於用途;計算該等生理量測資料的至少一切分點;分枝該決策樹相對於該至少一切分點;剪枝該決策樹而完成該決策樹的建立;以及計算該決策樹的對應於不同疾病的每個末支的正確率。
  15. 如請求項14之電子系統,其中,該第二處理器計 算該等生理量測資料的該至少一切分點,包括:該第二處理器利用關聯於該等生理量測資料的一特定函數及一相關係數的絕對值,計算該等生理量測資料的該至少一切分點的一數值。
  16. 如請求項15之電子系統,其中,當該等生理量測資料是用於不同疾病發生機率的推算,則該第二處理器將該等生理量測資料分類為分類型資料。
  17. 如請求項16之電子系統,其中,當該第二處理器將該等生理量測資料分類為分類型資料,該特定函數為一吉尼係數公式;該吉尼係數公式為:
    Figure 111105739-A0305-02-0040-3
    其中,x i 為該等生理量測資料中對應於一種疾病的資料;p(x i )為該等生理量測資料中對應於該種疾病的資料的出現機率;以及n為該等生理量測資料中對應的疾病種類的數量。
  18. 如請求項17之電子系統,其中,該相關係數為:
    Figure 111105739-A0305-02-0040-4
    其中,i為該等生理量測資料的一者;n為該等生理量測資料的資料筆數;x j 為自變數且代表該等生理量測資料;
    Figure 111105739-A0305-02-0040-7
    為自變數平均且代表該等生理量測資料的平均;y j 為應變數且代表對應於一疾病的該數值;以及
    Figure 111105739-A0305-02-0040-8
    為應變數平均且代表對應於該疾病的該數 值的平均。
  19. 如請求項18之電子系統,其中,該等生理量測資料的該至少一切分點的該數值相等於Gini(D)×|r(i)|。
  20. 一種電腦程式產品,用於建立協助疾病預測的一決策樹,適用於具有一第一處理器、一第二處理器,以及一資料庫的電子系統中,包括:一接收指令,使得該第一處理器接收來自醫院端的複數生理量測資料相對於不同疾病;一儲存指令,使得該資料庫儲存該等生理量測資料;一讀取指令,使得該第二處理器從該資料庫取得該等生理量測資料;一分類指令,使得該第二處理器分類該等生理量測資料相對於用途;一計算指令,使得該第二處理器計算該等生理量測資料的至少一切分點;一分枝指令,使得該第二處理器分枝該決策樹相對於該至少一切分點;一剪枝指令,使得該第二處理器剪枝該決策樹;其中,當該第一處理器執行完該接收指令,該資料庫執行完該儲存指令,以及該第二處理器執行完該讀取指令、該分類指令、該計算指令、該分枝指令,以及該剪枝指令後,則該決策樹被建立完成。
  21. 一種建立疾病預測的一決策樹的方法,包括:接收複數生理量測資料相對於不同疾病;分類該等生理量測資料相對於用途;計算該等生理量測資料的至少一切分點;分枝該決策樹相對於該至少一切分點;剪枝該決策樹而完成該決策樹的建立;以及計算該決策樹的對應於不同疾病的每個末支的正確率;其中,該等生理量測資料包括:性別、身體質量指數、尿酸、總膽固醇、白血球,以及血糖。
TW111105739A 2022-02-17 2022-02-17 建立疾病預測的決策樹的方法、電子系統及電腦程式產品 TWI806432B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW111105739A TWI806432B (zh) 2022-02-17 2022-02-17 建立疾病預測的決策樹的方法、電子系統及電腦程式產品
CN202210389992.6A CN116665876A (zh) 2022-02-17 2022-04-14 建立疾病预测的决策树的方法、电子系统及程序产品
US17/846,957 US20230260651A1 (en) 2022-02-17 2022-06-22 Method, electronic system, and computer program product for establishing decision tree for disease prediction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111105739A TWI806432B (zh) 2022-02-17 2022-02-17 建立疾病預測的決策樹的方法、電子系統及電腦程式產品

Publications (2)

Publication Number Publication Date
TWI806432B true TWI806432B (zh) 2023-06-21
TW202333618A TW202333618A (zh) 2023-09-01

Family

ID=87559008

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111105739A TWI806432B (zh) 2022-02-17 2022-02-17 建立疾病預測的決策樹的方法、電子系統及電腦程式產品

Country Status (3)

Country Link
US (1) US20230260651A1 (zh)
CN (1) CN116665876A (zh)
TW (1) TWI806432B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117373688B (zh) * 2023-11-07 2024-06-04 爱奥乐医疗器械(深圳)有限公司 慢性病数据处理方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202133150A (zh) * 2019-12-24 2021-09-01 日商生命科學研究所股份有限公司 健康管理系統,健康管理裝置,健康管理程式和健康管理方法
TWI740647B (zh) * 2020-09-15 2021-09-21 宏碁股份有限公司 疾病分類方法及疾病分類裝置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201217788A (en) * 2010-10-28 2012-05-01 Tethys Bioscience Inc Method for determining risk of diabetes
CN109147949A (zh) * 2018-08-16 2019-01-04 辽宁大学 一种基于分类回归树来用于检测教师亚健康状态的方法
CN109378072A (zh) * 2018-10-13 2019-02-22 中山大学 一种基于集成学习融合模型的异常空腹血糖值预警方法
JP2023025436A (ja) * 2021-08-10 2023-02-22 日本光電工業株式会社 学習済みモデルの生成方法、教師データの生成装置、学習モデルの生成装置、および疾病発症リスクの予測装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202133150A (zh) * 2019-12-24 2021-09-01 日商生命科學研究所股份有限公司 健康管理系統,健康管理裝置,健康管理程式和健康管理方法
TWI740647B (zh) * 2020-09-15 2021-09-21 宏碁股份有限公司 疾病分類方法及疾病分類裝置

Also Published As

Publication number Publication date
TW202333618A (zh) 2023-09-01
US20230260651A1 (en) 2023-08-17
CN116665876A (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN111292853B (zh) 基于多参数的心血管疾病风险预测网络模型及其构建方法
CN108648827B (zh) 心脑血管疾病风险预测方法及装置
CN111710420B (zh) 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质
Włodarczyk et al. Machine learning methods for preterm birth prediction: a review
CN113838577B (zh) 便捷化分层老年mods早期死亡风险评估模型、装置及建立方法
TWI806432B (zh) 建立疾病預測的決策樹的方法、電子系統及電腦程式產品
Chemello et al. Artificial intelligence methodologies applied to technologies for screening, diagnosis and care of the diabetic foot: A narrative review
CN114023440A (zh) 可解释分层老年mods早期死亡风险评估模型、装置及其建立方法
CN115083550B (zh) 基于多源信息的病人相似度分类方法
Wommack et al. Interleukin-10 predicts preterm birth in acculturated Hispanics
Chinnasamy et al. Machine learning based cardiovascular disease prediction
CN111986814A (zh) 一种红斑狼疮患者的狼疮性肾炎预测模型的建模方法
CN113017568A (zh) 一种严重创伤患者生理变化及死亡风险预测方法及系统
Melinte-Popescu et al. Predictive performance of machine learning-based methods for the prediction of preeclampsia—a prospective study
Amutha et al. A novel approach for the prediction of treadmill test in cardiology using data mining algorithms implemented as a mobile application
CN112233742A (zh) 一种基于聚类的病历文档分类系统、设备、存储介质
Zhu et al. Development and validation of algorithms to estimate live birth gestational age in Medicaid Analytic eXtract data
Venkatesan et al. NFU-Net: an automated framework for the detection of neurotrophic foot ulcer using deep convolutional neural network
CN113066531B (zh) 风险预测方法、装置、计算机设备及存储介质
Shanmugarajeshwari et al. Intelligent Decision Support for Identifying Chronic Kidney Disease Stages: Machine Learning Algorithms
CN113744865A (zh) 基于回归分析的压力性损伤风险预测模型校正方法
CN113593703B (zh) 一种构建压力性损伤风险预测模型的装置及方法
Alotaibi et al. Early prediction of gestational diabetes using machine learning techniques
KR20130008677A (ko) 사상체질 분류방법
Savage et al. Examining Violaceous Skin Discoloration during the COVID-19 Pandemic: Conducting Research in Resource Scarcity