TWI806432B

TWI806432B - 建立疾病預測的決策樹的方法、電子系統及電腦程式產品

Info

Publication number: TWI806432B
Application number: TW111105739A
Authority: TW
Inventors: 羅莉雯
Original assignee: 緯創資通股份有限公司
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2023-06-21
Also published as: TW202333618A; US20230260651A1; CN116665876A

Abstract

一種建立疾病預測的一決策樹的方法，包括：接收複數生理量測資料相對於不同疾病；分類生理量測資料相對於用途；計算該等生理量測資料的至少一切分點；分枝決策樹相對於至少一切分點；以及剪枝該決策樹而完成該決策樹的建立。本揭露可輔助醫生的醫療診斷，依據預測結果提前給予預防措施，將決策樹各末支的資料進行計算，得到單一疾病機率，可提升更多疾病預測的準確率。

Description

建立疾病預測的決策樹的方法、電子系統及電腦程式產品

本揭露是有關於協助疾病預測的方法，特別有關於建立用於協助疾病預測的決策樹的方法、電子系統及電腦程式產品。

目前醫師只能用經驗判斷病人是否罹患疾病，才會做進一步抽血或電腦斷層等檢查。但大部分醫師會先讓病人吃止痛或消炎藥暫緩症狀，可能增加延誤就醫的機率。因此，需要導入FHIR(Fast Healthcare Interoperability Resources)這種國際通用格式，使病人到各地醫療院所能提供完整的病歷，減少誤判機率，能多爭取黃金治療時間。

現在愈來於多醫療機構導入人工智慧幫忙判斷影像，減少病理科醫師的負擔及增加提早檢測出疾病的可能性。在年輕醫師經驗較不足的情況下，也可使用人工智慧輔助疾病判斷能力，減少經驗學習時誤判的可能性。因此，如何建立輔助疾病預測的機制變成一重要課題。

依據本揭露實施例之建立用於協助疾病預測的一決策樹的方法，包括：接收複數生理量測資料相對於不同疾病；分類生理量測資料相對於用途；計算生理量測資料的至少一切分點；分枝決策樹相對於至少一切分點；以及剪枝決策樹而完成決策樹的建立。

如上所述之方法，其中，計算生理量測資料的至少一切分點的步驟，包括：利用關聯於生理量測資料的一特定函數及一相關係數的絕對值，計算生理量測資料的至少一切分點的一數值。

如上所述之方法，其中，分枝決策樹相對於至少一切分點的步驟，包括：找出具有最小數值的至少一切分點作為決策樹的一分支節點；以及判斷是否無法繼續分枝。

如上所述之方法，其中，剪枝決策樹而完成決策樹的建立的步驟，包括：使用一赤池訊息量準則(Akaike information criterion：AIC)對決策樹進行剪支。

如上所述之方法，其中，分類該等生理量測資料相對於用途的步驟包括：當生理量測資料是用於不同疾病發生機率的推算，則生理量測資料會被分類為分類型資料。

如上所述之方法，其中，當生理量測資料被分類為分類型資料，特定函數為一吉尼係數公式；吉尼係數公式為：

其中，

為該等生理量測資料中對應於一種疾病的資料；

為該等生理量測資料中對應於該種疾病的資料的出現機率；以及

為該等生理量測資料中對應的疾病種類的數量。

如上所述之方法，其中，相關係數為：

其中，

為該等生理量測資料的一者；

為該等生理量測資料的資料筆數；

為自變數且代表該等生理量測資料；

為自變數平均且代表該等生理量測資料的平均；

為應變數且代表對應於一疾病的該數值；以及

為應變數平均且代表對應於該疾病的該數值的平均。

如上所述之方法，其中，生理量測資料包括：性別、身體質量指數(Body Mass Index：BMI)、尿酸、總膽固醇、白血球，以及血糖。

如上所述之方法，其中，生理量測資料的至少一切分點的該數值相等於

。

如上所述之方法，其中，赤池訊息量準則(AIC)為：

其中，

為概似函數，

為參數的數量。

如上所述之方法，更包括：計算決策樹的對應於不同疾病的每個末支的正確率。

如上所述之方法，其中，判斷是否無法繼續分支的步驟，包括：重複執行計算生理量測資料的至少一切分點的數值的步驟，以及找出具有最小數值的至少一切分點作為決策樹的分支節點的步驟，直到無法繼續分支；或者重複執行計算生理量測資料的至少一切分點的數值的步驟，以及找出具有最小數值的至少一切分點作為決策樹的分支節點的步驟，直到分支節點所包含的該等生理量測資料的筆數小於等於對應於每一疾病的該等生理量測資料的預設資料筆數。

如上所述之方法，其中，計算生理量測資料的至少一切分點的數值的步驟，包括：將生理量測資料依據性別由女至男進行排序；將生理量測資料依據BMI的高低由低至高進行排序；將生理量測資料依據尿酸的高低由低至高進行排序；將生理量測資料依據總膽固醇的多寡由寡至多進行排序；將生理量測資料依據白血球的多寡由寡至多進行排序；以及將生理量測資料依據血糖的高低由低至高進行排序。

如上所述之方法，其中，計算生理量測資料的至少一切分點的數值的步驟，包括：依據生理量測資料的性別、BMI、尿酸、總膽固醇、白血球，以及血糖的排序，計算特定函數及相關係數的絕對值的乘積，用以得到生理量測資料的至少一切分點的數值。

依據本揭露實施例之電子系統，用於建立協助疾病預測的一決策樹，包括：一第一處理器、一資料庫，以及一第二處理器。第一處理器接收來自醫院端的複數生理量測資料相對於不同疾病。資料庫儲存生理量測資料。第二處理器從資料庫取得生理量測資料，用以執行：分類生理量測資料相對於用途；計算生理量測資料的至少一切分點；分枝決策樹相對於至少一切分點；以及剪枝決策樹而完成決策樹的建立。

如上所述之電子系統，其中，第二處理器計算生理量測資料的至少一切分點，包括：第二處理器利用關聯於生理量測資料的一特定函數及一相關係數的絕對值，計算生理量測資料的該至少一切分點的一數值。

如上所述之電子系統，其中，當生理量測資料是用於不同疾病發生機率的推算，則第二處理器將生理量測資料分類為分類型資料。

如上所述之電子系統，其中，當第二處理器將生理量測資料分類為分類型資料，特定函數為一吉尼係數公式；吉尼係數公式為：

其中，

為該等生理量測資料中對應於一種疾病的資料；

為該等生理量測資料中對應的疾病種類的數量。

如上所述之電子系統，其中，相關係數為：

其中，

為該等生理量測資料的一者；

為該等生理量測資料的資料筆數；

為自變數且代表該等生理量測資料；

為自變數平均且代表該等生理量測資料的平均；

為應變數且代表對應於一疾病的該數值；以及

為應變數平均且代表對應於該疾病的該數值的平均。

如上所述之電子系統，其中，生理量測資料的至少一切分點的數值相等於

。

依據本揭露實施例之電腦程式產品，用於建立協助疾病預測的一決策樹，適用於具有一第一處理器、一第二處理器，以及一資料庫的電子系統中，包括：一接收指令、一儲存指令、一讀取指令、一分類指令、一計算指令、一分枝指令，以及一剪枝指令。接收指令使得第一處理器接收來自醫院端的複數生理量測資料相對於不同疾病。儲存指令使得資料庫儲存生理量測資料。讀取指令使得第二處理器從資料庫取得生理量測資料。分類指令使得第二處理器分類生理量測資料相對於用途。計算指令使得第二處理器計算生理量測資料的至少一切分點。分枝指令使得第二處理器分枝決策樹相對於至少一切分點。剪枝指令使得第二處理器剪枝決策樹。當第一處理器執行完接收指令，資料庫執行完儲存指令，以及第二處理器執行完讀取指令、分類指令、計算指令、分枝指令，以及剪枝指令後，則決策樹被建立完成。

本揭露係參照所附圖式進行描述，其中遍及圖式上的相同參考數字標示了相似或相同的元件。上述圖式並沒有依照實際比例大小描繪，其僅僅提供對本揭露的說明。一些揭露的型態描述於下方作為圖解示範應用的參考。這意味著許多特殊的細節，關係及方法被闡述來對這個揭露提供完整的了解。無論如何，擁有相關領域通常知識的人將認識到若沒有一個或更多的特殊細節或用其他方法，此揭露仍然可以被實現。

以其他例子來說，眾所皆知的結構或操作並沒有詳細列出以避免對這揭露的混淆。本揭露並沒有被闡述的行為或事件順序所侷限，如有些行為可能發生在不同的順序亦或同時發生在其他行為或事件之下。此外，並非所有闡述的行為或事件都需要被執行在與現有揭露相同的方法之中。

第1圖為本揭露實施例之建立疾病預測的決策樹的方法的流程圖。如第1圖所示，本揭露的建立疾病預測的決策樹的方法包括：接收複數生理量測資料相對於不同疾病(步驟S100)；分類生理量測資料相對於用途(步驟S102)；計算生理量測資料的至少一切分點 (步驟S104)；分枝決策樹相對於至少一切分點(步驟S106)；以及剪枝決策樹而完成決策樹的建立(步驟S108)。

詳細來說，在步驟S104中，本揭露的建立疾病預測的決策樹的方法更包括利用關聯於生理量測資料的一特定函數及一相關係數的絕對值，計算生理量測資料的至少一切分點的一數值。在步驟S106中，本揭露的建立疾病預測的決策樹的方法更包括找出具有最小該數值的該至少一切分點作為該決策樹的一分支節點，以及判斷是否無法繼續分枝。在步驟S108中，本揭露的建立疾病預測的決策樹的方法更包括使用一赤池訊息量準則(Akaike information criterion：AIC)對決策樹進行剪支。

在一些實施例中，本揭露所建立用於協助疾病預測的決策樹是為一分類和相關係數回歸樹(Classification and Correlation Coefficient Regression Trees：CCRT)決策樹。CCRT決策樹是基於傳統知名的分類和回歸樹(Classification and Regression Trees：CART)決策樹的改良版，其演算過程中加入相關係數做參數調整，用以提升CCRT決策樹的疾病預測能力。在步驟S100中，生理量測資料是來自醫院端的各個病人的病歷資料。舉例來說，一位病人的病歷資料可包括性別、身體質量指數(Body Mass Index：BMI)、尿酸、總膽固醇、白血球，以及血糖，但本揭露不限於此。

表一為來自醫院端的五位病人對應於不同疾病的生理量測資料。表一的生理量測資料是作為例示。

資料編號	性別	BMI	尿酸	總膽固醇	白血球	血糖	疾病
1	F	18	7.3	150	15.3	201	糖尿病
2	F	36	9.8	285	20.8	125	動脈粥狀硬化
3	M	32	6.5	201	8.51	100	高血壓
4	M	24	5.7	187	4.38	131	脂肪肝
5	M	28	7.4	235	18.1	185	糖尿病

如表一所示，1號病人是為女性，其BMI為18、尿酸為7.3、總膽固醇為150、白血球為15.3，以及血糖為201，並且醫師判斷1號病人所罹患的疾病為糖尿病。2號病人是為女性，其BMI為36、尿酸為9.8、總膽固醇為285、白血球為20.8，以及血糖為125，並且醫師判斷2號病人所罹患的疾病為動脈粥狀硬化。3號病人是為男性，其BMI為32、尿酸為6.5、總膽固醇為201、白血球為8.51，以及血糖為100，並且醫師判斷3號病人所罹患的疾病為高血壓。4號病人是為男性，其BMI為24、尿酸為5.7、總膽固醇為187、白血球為4.38，以及血糖為131，並且醫師判斷4號病人所罹患的疾病為脂肪肝。5號病人是為男性，其BMI為28、尿酸為7.4、總膽固醇為235、白血球為18.1，以及血糖為185，並且醫師判斷5號病人所罹患的疾病為糖尿病。

在步驟S102中，當來自醫院端的生理量測資料是用於不同疾病發生機率的推算，則生理量測資料會被分類為分類型資料。在一些實施例中，當來自醫院端的生理量測資料是用於不同疾病的分類，則生理量測資料會被分類為數值型資料。本揭露的CCRT決策樹皆可對分類型資料及數值型資料進行處理。在一些實施例中，當在步驟S102中生理量測資料被分類為分類型資料時，則步驟S104中的關聯於生理量測資料的特定函數為一吉尼係數公式。詳細來說，吉尼係數公式為如下算式1。

算式1

為生理量測資料中對應於一種疾病的資料；

為該等生理量測資料中對應的疾病種類的數量。

在步驟S104中，關聯於生理量測資料的相關係數為如下公式2。

算式2

為生理量測資料的一者；

為生理量測資料的資料筆數；

為自變數，即生理量測資料；

為自變數平均，即生理量測資料的平均；

為應變數，即對應於一疾病的數值；以及

為應變數平均，即對應於該疾病的數值的平均。在一些實施例中，本揭露的方法可將表一中的性別F轉為數值2、性別M轉為數值1、糖尿病轉換為數值1、動脈粥狀硬化轉換為數值2、高血壓轉換為數值3，以及脂肪肝轉換為數值4，但本揭露不限於此。

詳細來說，在步驟S104中，生理量測資料的至少一切分點的數值相等於

算式3。

在一些實施例中，本揭露的方法在計算吉尼係數公式

及相關係數的絕對值

的乘積之前，會先將生理量測資料依據性別由女至男進行排序、將生理量測資料依據BMI的高低由低至高進行排序、將生理量測資料依據尿酸的高低由低至高進行排序、將生理量測資料依據總膽固醇的多寡由寡至多進行排序、將生理量測資料依據白血球的多寡由寡至多進行排序，以及將生理量測資料依據血糖的高低由低至高進行排序。在一些實施例中，本揭露的方法依據生理量測資料的性別、BMI、尿酸、總膽固醇、白血球，以及血糖的排序，計算吉尼係數公式

及相關係數的絕對值

的乘積，用以得到生理量測資料的至少一切分點的數值。

以表一的生理量測資料作為例示。本揭露的方法會依據性別，將1~5號病人的資料排列為(1, 2, 3, 4, 5)，亦即其性別的排列順序為(F,F,M,M,M)。之後，在步驟S104中，本揭露的方法會計算1~5號病人資料中男性與女性的切分點的數值，如下算式3。

算式4

本揭露的方法依據性別排序的生理量測資料的排序(F,F,M,M,M)，將性別轉換為數值後代入算式3、算式2，及算式1中，用以得到算式4。舉例來說，本揭露的方法將生理量測資料依性別欄位排序後，其切分點為2筆F及3筆M之間。在2筆F資料中，其兩者皆對應於不同的疾病(例如分別為糖尿病及動脈粥狀硬化)，因此機率各為

。因此，左分支為

再乘上

(5筆資料中的2筆)。同理，3筆M資料中，其三者皆對應於不同的疾病(例如為高血壓、脂肪肝，及糖尿病)，因此機率各為

。因此，右分支為

再乘上

(5筆資料中的3筆)。依據算式4的結果可得到依據性別排序的切分點的數值為0.6。

接著，本揭露的方法會依據BMI，將1~5號病人的資料排列為(1, 4, 5, 3, 2)，亦即其BMI的排列順序為(18, 24, 28, 32, 36)。本揭露的方法首先計算依據BMI的第一切分點，亦即BMI＜

的第一切分點，如下算式5。

算式5

舉例來說，本揭露的方法將生理量測資料依BMI欄位排序後，其第一切分點為18及24之間。在BMI為18的生理量測資料中(亦即1號病人)，其對應的疾病為糖尿病，因此機率為

。因此，第一切分點的左分支為

再乘上

(5筆資料中的1筆)。同理，4筆BMI分別為24、28、32、36的生理量測資料中(亦即2~5號病人)，其四者皆對應於不同的疾病(例如為動脈粥狀硬化、高血壓、脂肪肝，及糖尿病)，因此機率各為

。因此，右分支為

再乘上

(5筆資料中的4筆)。依據算式5的結果可得到依據BMI排序的第一切分點的數值為0.6。

接著，本揭露的方法繼續計算依據BMI的下一個切分點，亦即BMI＜

的第二切分點，如下算式6。

算式6

舉例來說，本揭露的方法將生理量測資料依BMI欄位排序後，其第二切分點為24及28之間。在BMI為18及24的生理量測資料中(亦即1號及4號病人)，其對應的疾病為糖尿病及脂肪肝，因此機率各為

。因此，第二切分點的左分支為

再乘上

(5筆資料中的2筆)。同理，3筆BMI分別為28、32、36的生理量測資料中(亦即2、3、5號病人)，其三者皆對應於不同的疾病(例如為動脈粥狀硬化、高血壓，及糖尿病)，因此機率各為

。因此，右分支為

再乘上

(5筆資料中的3筆)。依據算式6的結果可得到依據BMI排序的第二切分點的數值為0.6。

的第三切分點，如下算式7。

算式7

舉例來說，本揭露的方法將生理量測資料依BMI欄位排序後，其第三切分點為28及32之間。在BMI為18、24及28的生理量測資料中(亦即1號、4號及5號病人)，其對應的疾病為糖尿病及脂肪肝，因此糖尿病的出現機率為

，並且脂肪肝的出現機率為

。因此，第三切分點的左分支為

再乘上

(5筆資料中的3筆)。同理，2筆BMI分別為32、36的生理量測資料中(亦即2、3號病人)，其兩者皆對應於不同的疾病(例如為動脈粥狀硬化，及高血壓)，因此機率各為

。因此，右分支為

再乘上

(5筆資料中的2筆)。依據算式7的結果可得到依據BMI排序的第三切分點的數值為0.054。

的第四切分點，如下算式8。

算式8

舉例來說，本揭露的方法將生理量測資料依BMI欄位排序後，其第四切分點為32及36之間。在BMI為18、24、28及32的生理量測資料中(亦即1號、3號、4號及5號病人)，其對應的疾病為糖尿病、高血壓及脂肪肝，因此糖尿病的出現機率為

，高血壓的出現機率為

，並且脂肪肝的出現機率為

。因此，第四切分點的左分支為

再乘上

(5筆資料中的4筆)。同理，BMI為36的生理量測資料中(亦即2號病人)，其對應的疾病為動脈粥狀硬化，因此其機率為

。因此，右分支為

再乘上

(5筆資料中的1筆)。依據算式8的結果可得到依據BMI排序的第四切分點的數值為0.158。

再者，本揭露的方法會依據尿酸，將1~5號病人的資料排列為(4, 3, 1, 5, 2)，亦即其尿酸的排列順序為(5.7, 6.5, 7.3, 7.4, 9.8)。本揭露的方法首先計算依據尿酸的第一切分點，亦即尿酸＜

的第一切分點，如下算式9。

算式9

舉例來說，本揭露的方法將生理量測資料依尿酸欄位排序後，其第一切分點為5.7及6.5之間。在尿酸為5.7的生理量測資料中(亦即4號病人)，其對應的疾病為脂肪肝，因此機率為

。因此，第一切分點的左分支為

再乘上

(5筆資料中的1筆)。同理，4筆尿酸分別為6.5, 7.3, 7.4, 9.8的生理量測資料中(亦即1~3、5號病人)，其四者對應於糖尿病、動脈粥狀硬化，及高血壓，因此糖尿病的出現機率為

，動脈粥狀硬化的出現機率為

，並且高血壓的出現機率為

。因此，右分支為

再乘上

(5筆資料中的4筆)。依據算式9的結果可得到依據尿酸排序的第一切分點的數值為0.5。

接著，本揭露的方法繼續計算依據尿酸的下一個切分點，亦即尿酸＜

的第二切分點，如下算式10。

算式10

舉例來說，本揭露的方法將生理量測資料依尿酸欄位排序後，其第二切分點為6.5及7.3之間。在尿酸為5.7及6.5的生理量測資料中(亦即4號及3號病人)，其對應的疾病為脂肪肝及高血壓，因此機率各為

。因此，第二切分點的左分支為

再乘上

(5筆資料中的2筆)。同理，3筆尿酸分別為7.3, 7.4, 9.8的生理量測資料中(亦即1、5、2號病人)，其三者對應於糖尿病及動脈粥狀硬化，因此糖尿病的出現機率為

，並且動脈粥狀硬化的出現機率為

。因此，右分支為

再乘上

(5筆資料中的3筆)。依據算式10的結果可得到依據尿酸排序的第二切分點的數值為0.4667。

的第三切分點，如下算式11。

算式11

舉例來說，本揭露的方法將生理量測資料依尿酸欄位排序後，其第三切分點為7.3及7.4之間。在尿酸為5.7、6.5及7.3的生理量測資料中(亦即4號、3號及1號病人)，其三者皆對應於不同的疾病(例如為脂肪肝、高血壓，及糖尿病)，因此機率各為

。因此，第三切分點的左分支為

再乘上

(5筆資料中的3筆)。同理，2筆尿酸分別為7.4、9.8的生理量測資料中(亦即5、2號病人)，其兩者皆對應於不同的疾病(例如為糖尿病，及動脈粥狀硬化)，因此機率各為

。因此，右分支為

再乘上

(5筆資料中的2筆)。依據算式11的結果可得到依據尿酸排序的第三切分點的數值為0.589。

的第四切分點，如下算式12。

算式12

舉例來說，本揭露的方法將生理量測資料依尿酸欄位排序後，其第四切分點為7.4及9.8之間。在尿酸為5.7、6.5、7.3及7.4的生理量測資料中(亦即4號、3號、1號及5號病人)，其對應的疾病為脂肪肝、高血壓及糖尿病，因此脂肪肝的出現機率為

，高血壓的出現機率為

，並且糖尿病的出現機率為

。因此，第四切分點的左分支為

再乘上

(5筆資料中的4筆)。同理，尿酸為9.8的生理量測資料中(亦即2號病人)，其對應的疾病為動脈粥狀硬化，因此其機率為

。因此，右分支為

再乘上

(5筆資料中的1筆)。依據算式12的結果可得到依據尿酸排序的第四切分點的數值為0.4938。

之後，本揭露的方法會依據總膽固醇，將1~5號病人的資料排列為(1, 4, 3, 5, 2)，亦即其總膽固醇的排列順序為(150, 187, 201, 235, 285)。本揭露的方法首先計算依據總膽固醇的第一切分點，亦即總膽固醇＜

的第一切分點，如下算式13。

算式13

舉例來說，本揭露的方法將生理量測資料依總膽固醇欄位排序後，其第一切分點為150及187之間。在總膽固醇為150的生理量測資料中(亦即1號病人)，其對應的疾病為糖尿病，因此機率為

。因此，第一切分點的左分支為

再乘上

(5筆資料中的1筆)。同理，4筆總膽固醇分別為187、201、235、285的生理量測資料中(亦即2~5號病人)，其四者皆對應於不同的疾病(例如為動脈粥狀硬化、高血壓、脂肪肝，及糖尿病)，因此機率各為

。因此，右分支為

再乘上

(5筆資料中的4筆)。依據算式13的結果可得到依據總膽固醇排序的第一切分點的數值為0.6。

接著，本揭露的方法繼續計算依據總膽固醇的下一個切分點，亦即總膽固醇＜

的第二切分點，如下算式14。

算式14

舉例來說，本揭露的方法將生理量測資料依總膽固醇欄位排序後，其第二切分點為187及201之間。在總膽固醇為150及187的生理量測資料中(亦即1號及4號病人)，其對應的疾病為糖尿病及脂肪肝，因此機率各為

。因此，第二切分點的左分支為

再乘上

(5筆資料中的2筆)。同理，3筆總膽固醇分別為201、235、285的生理量測資料中(亦即2、3、5號病人)，其三者皆對應於不同的疾病(例如為動脈粥狀硬化、高血壓，及糖尿病)，因此機率各為

。因此，右分支為

再乘上

(5筆資料中的3筆)。依據算式14的結果可得到依據總膽固醇排序的第二切分點的數值為0.6。

的第三切分點，如下算式15。

算式15

舉例來說，本揭露的方法將生理量測資料依總膽固醇欄位排序後，其第三切分點為201及235之間。在總膽固醇為150、187及201的生理量測資料中(亦即1號、4號及3號病人)，其三者皆對應於不同的疾病(例如為脂肪肝、高血壓，及糖尿病)，因此機率各為

。因此，第三切分點的左分支為

再乘上

(5筆資料中的3筆)。同理，2筆總膽固醇分別為235、285的生理量測資料中(亦即5、2號病人)，其兩者皆對應於不同的疾病(例如為糖尿病，及動脈粥狀硬化)，因此機率各為

。因此，右分支為

再乘上

(5筆資料中的2筆)。依據算式15的結果可得到依據尿酸排序的第三切分點的數值為0.4944。

的第四切分點，如下算式16。

算式16

舉例來說，本揭露的方法將生理量測資料依總膽固醇欄位排序後，其第四切分點為235及285之間。在總膽固醇為150、187、201及235的生理量測資料中(亦即1號、4號、3號及5號病人)，其對應的疾病為脂肪肝、高血壓及糖尿病，因此脂肪肝的出現機率為

，高血壓的出現機率為

，並且糖尿病的出現機率為

。因此，第四切分點的左分支為

再乘上

(5筆資料中的4筆)。同理，總膽固醇為285的生理量測資料中(亦即2號病人)，其對應的疾病為動脈粥狀硬化，因此其機率為

。因此，右分支為

再乘上

(5筆資料中的1筆)。依據算式16的結果可得到依據尿酸排序的第四切分點的數值為0.01。

接著，本揭露的方法會依據白血球，將1~5號病人的資料排列為(4, 3, 1, 5, 2)，亦即其總膽固醇的排列順序為(4.38, 8.51, 15.3, 18.1, 20.8)。本揭露的方法首先計算依據白血球的第一切分點，亦即白血球＜

的第一切分點，如下算式17。

算式17

舉例來說，本揭露的方法將生理量測資料依白血球欄位排序後，其第一切分點為4.38及8.51之間。在白血球為4.38的生理量測資料中(亦即4號病人)，其對應的疾病為脂肪肝，因此機率為

。因此，第一切分點的左分支為

再乘上

(5筆資料中的1筆)。同理，4筆白血球分別為8.51, 15.3, 18.1, 20.8的生理量測資料中(亦即1~3、5號病人)，其四者對應於糖尿病、動脈粥狀硬化，及高血壓，因此糖尿病的出現機率為

，動脈粥狀硬化的出現機率為

，並且高血壓的出現機率為

。因此，右分支為

再乘上

(5筆資料中的4筆)。依據算式17的結果可得到依據尿酸排序的第一切分點的數值為0.5。

接著，本揭露的方法繼續計算依據白血球的下一個切分點，亦即白血球＜

的第二切分點，如下算式18。

算式18

舉例來說，本揭露的方法將生理量測資料依白血球欄位排序後，其第二切分點為8.51及15.3之間。在尿酸為4.38及8.51的生理量測資料中(亦即4號及3號病人)，其對應的疾病為脂肪肝及高血壓，因此機率各為

。因此，第二切分點的左分支為

再乘上

(5筆資料中的2筆)。同理，3筆白血球分別為15.3, 18.1, 20.8的生理量測資料中(亦即1、5、2號病人)，其三者對應於糖尿病及動脈粥狀硬化，因此糖尿病的出現機率為

，並且動脈粥狀硬化的出現機率為

。因此，右分支為

再乘上

(5筆資料中的3筆)。依據算式18的結果可得到依據尿酸排序的第二切分點的數值為0.4667。

的第三切分點，如下算式19。

算式19

舉例來說，本揭露的方法將生理量測資料依白血球欄位排序後，其第三切分點為15.3及18.1之間。在白血球為4.38、8.51及15.3的生理量測資料中(亦即4號、3號及1號病人)，其三者皆對應於不同的疾病(例如為脂肪肝、高血壓，及糖尿病)，因此機率各為

。因此，第三切分點的左分支為

再乘上

(5筆資料中的3筆)。同理，2筆白血球分別為18.1、20.8的生理量測資料中(亦即5、2號病人)，其兩者皆對應於不同的疾病(例如為糖尿病，及動脈粥狀硬化)，因此機率各為

。因此，右分支為

再乘上

(5筆資料中的2筆)。依據算式19的結果可得到依據尿酸排序的第三切分點的數值為0.599。

的第四切分點，如下算式20。

算式20

舉例來說，本揭露的方法將生理量測資料依白血球欄位排序後，其第四切分點為18.1及20.8之間。在白血球為4.38、8.51、15.3及18.1的生理量測資料中(亦即4號、3號、1號及5號病人)，其對應的疾病為脂肪肝、高血壓及糖尿病，因此脂肪肝的出現機率為

，高血壓的出現機率為

，並且糖尿病的出現機率為

。因此，第四切分點的左分支為

再乘上

(5筆資料中的4筆)。同理，白血球為20.8的生理量測資料中(亦即2號病人)，其對應的疾病為動脈粥狀硬化，因此其機率為

。因此，右分支為

再乘上

(5筆資料中的1筆)。依據算式20的結果可得到依據尿酸排序的第四切分點的數值為0.4916。

本揭露的方法會依據血糖，將1~5號病人的資料排列為(3, 2, 4, 5, 1)，亦即其總膽固醇的排列順序為(100, 125, 131, 185, 201)。本揭露的方法首先計算依據血糖的第一切分點，亦即血糖＜

的第一切分點，如下算式21。

算式21

舉例來說，本揭露的方法將生理量測資料依血糖欄位排序後，其第一切分點為100及125之間。在血糖為100的生理量測資料中(亦即3號病人)，其對應的疾病為高血壓，因此機率為

。因此，第一切分點的左分支為

再乘上

(5筆資料中的1筆)。同理，4筆血糖分別為125, 131, 185, 201的生理量測資料中(亦即2、4、5、1號病人)，其四者對應於糖尿病、動脈粥狀硬化，及高血壓，因此糖尿病的出現機率為

，動脈粥狀硬化的出現機率為

，並且高血壓的出現機率為

。因此，右分支為

再乘上

(5筆資料中的4筆)。依據算式21的結果可得到依據尿酸排序的第一切分點的數值為0.5。

接著，本揭露的方法繼續計算依據血糖的下一個切分點，亦即血糖＜

的第二切分點，如下算式22。

算式22

舉例來說，本揭露的方法將生理量測資料依血糖欄位排序後，其第二切分點為125及131之間。在血糖為100及125的生理量測資料中(亦即3號及2號病人)，其對應的疾病為脂肪肝及動脈粥狀硬化，因此機率各為

。因此，第二切分點的左分支為

再乘上

(5筆資料中的2筆)。同理，3筆血糖分別為131, 185, 201的生理量測資料中(亦即4、5、1號病人)，其三者對應於糖尿病及脂肪肝，因此糖尿病的出現機率為

，並且脂肪肝的出現機率為

。因此，右分支為

再乘上

(5筆資料中的3筆)。依據算式22的結果可得到依據尿酸排序的第二切分點的數值為0.4667。

的第三切分點，如下算式23。

算式23

舉例來說，本揭露的方法將生理量測資料依血糖欄位排序後，其第三切分點為131及185之間。在血糖為100、125及131的生理量測資料中(亦即3號、2號及4號病人)，其三者皆對應於不同的疾病(例如為脂肪肝、高血壓，及動脈粥狀硬化)，因此機率各為

。因此，第三切分點的左分支為

再乘上

(5筆資料中的3筆)。同理，2筆血糖分別為185、201的生理量測資料中(亦即5、1號病人)，其兩者皆對應相同的疾病(例如為糖尿病)，因此機率為

。因此，右分支為

再乘上

(5筆資料中的2筆)。依據算式23的結果可得到依據尿酸排序的第三切分點的數值為0.073。

的第四切分點，如下算式24。

算式24

舉例來說，本揭露的方法將生理量測資料依血糖欄位排序後，其第四切分點為185及201之間。在血糖為100、125、131及185的生理量測資料中(亦即3號、2號、4號及5號病人)，其分別對應不同的疾病(例如為脂肪肝、高血壓、動脈粥狀硬化及糖尿病)，因此脂肪肝的出現機率為

，高血壓的出現機率為

，動脈粥狀硬化的出現機率為

，並且糖尿病的出現機率為

。因此，第四切分點的左分支為

再乘上

(5筆資料中的4筆)。同理，血糖為201的生理量測資料中(亦即1號病人)，其對應的疾病為糖尿病，因此其機率為

。因此，右分支為

再乘上

(5筆資料中的1筆)。依據算式24的結果可得到依據尿酸排序的第四切分點的數值為0.4048。至此，本揭露的方法已完成第1圖的步驟S104。

在步驟S104中，本揭露的方法得到依據性別排序的切分點的數值為0.6，依據BMI排序的第一、第二、第三，及第四切分點的數值為0.6、0.6、0.054，及0.158，依據尿酸排序的第一、第二、第三，及第四切分點的數值為0.5、0.4667、0.589、0.4938，依據總膽固醇排序的第一、第二、第三，及第四切分點的數值為0.6、0.6、0.4944，及0.01，依據白血球排序的第一、第二、第三，及第四切分點的數值為0.5、0.4667、0.599，及0.4916，以及依據血糖排序的第一、第二、第三，及第四切分點的數值為0.5、0.4667、0.073，及0.4048。

接著，在第1圖的步驟S106中，本揭露的方法從上述所有切分點中，找出具有最小數值的切分點作為本揭露決策樹的一分支節點。換句話說，由於依據總膽固醇排序的第四切分點的數值為0.01，為上述所有切分點中的最小，因此本揭露將依據總膽固醇排序的第四切分點(即總膽固醇＜

)設置為決策樹的分支節點。

第2圖為本揭露實施例之決策樹的示意圖。延續上一段的內容，本揭露的方法可得到依據總膽固醇排序的第四切分點的數值為最小(0.01)，因此分支節點200係設置為總膽固醇。分支節點200的左分支為總膽固醇＜260的生理量測資料(例如為1、3~5號病人的資料)，分支節點200的右分支為總膽固醇＞=260的生理量測資料(例如為2號病人的資料)。接著，依據前面幾段的方法繼續分支，係可得到第2圖的決策樹。由於分支節點200的右分支剩下一筆對應於動脈粥狀硬化的生理量測資料(例如為2號病人的資料)，節點206所包含的生理量測資料的筆數(例如為1筆)小於等於對應於疾病(例如為動脈粥狀硬化)的生理量測資料的預設資料筆數(例如為1筆，即2號病人的資料)，因此本揭露的方法將節點206設置為末支節點(即節點206無法繼續分支)，並且將動脈粥狀硬化設置於節點206中。

由於分支節點200的左分支(總膽固醇＜260)剩下4筆生理量測資料(1~3、5號病人的資料)，本揭露的方法同樣執行步驟S104、S106，並且得到依據BMI排序的第三切分點(BMI＜

)是具有最小的數值，因此分支節點202係設置為BMI。分支節點202的左分支為BMI＜30的生理量測資料(例如為1、4、5號病人的資料)，分支節點202的右分支為BMI＞=30的生理量測資料(例如為3號病人的資料)。在步驟S106中，由於分支節點202的右分支剩下一筆對應於高血壓的生理量測資料(例如為3號病人的資料)，節點208所包含的生理量測資料的筆數(例如為1筆)小於等於對應於疾病(例如為高血壓)的生理量測資料的預設資料筆數(例如為1筆，即3號病人的資料)，因此本揭露的方法將節點208設置為末支節點(即節點208無法繼續分支)，並且將高血壓設置於節點208中。

由於分支節點202的左分支(BMI＜30)剩下3筆生理量測資料(1、4、5號病人的資料)，本揭露的方法同樣執行步驟S104、S106，並且得到依據血糖排序的第一切分點(血糖＜

)是具有最小的數值，因此分支節點204係設置為血糖。分支節點204的左分支為血糖＜158的生理量測資料(例如為4號病人的資料)，分支節點204的右分支為血糖＞=158的生理量測資料(例如為1、5號病人的資料)。在步驟S106中，由於分支節點204的右分支剩下兩筆對應於高血壓的生理量測資料(例如為1、5號病人的資料)，節點208所包含的生理量測資料的筆數(例如為2筆)小於等於對應於疾病(例如為糖尿病)的生理量測資料的預設資料筆數(例如為2筆，即1、5號病人的資料)，因此本揭露的方法將節點212設置為末支節點(即節點212無法繼續分支)，並且將糖尿病設置於節點212中。

再者，由於分支節點204的左分支剩下一筆對應於脂肪肝的生理量測資料(例如為4號病人的資料)，節點210所包含的生理量測資料的筆數(例如為1筆)小於等於對應於疾病(例如為脂肪肝)的生理量測資料的預設資料筆數(例如為1筆，即4號病人的資料)，因此本揭露的方法將節點210設置為末支節點(即節點210無法繼續分支)，並且將脂肪肝設置於節點210中。簡單來說，分支節點200、202、204是在第1圖的步驟S106中被判斷為「否」所獲得，而節點206、208、210、212(末支節點)是在第1圖的步驟S106中被判斷為「是」所獲得。

在步驟S108中，赤池訊息量準則(AIC)是用來檢視第2圖的決策樹是否過度擬合的標準。在一些實施例中，赤池訊息量準則(AIC)為：

算式25

在算式25中，

為概似函數，

為參數的數量。在一些實施例中，本揭露的方法更計算第2圖決策樹對應於不同疾病的每個末支(例如，第2圖的節點206、208、210，及212)的正確率。

本揭露的方法將以下表二的3筆預測資料輸入於第2圖的決策樹中，用以得到病患A的預測結果：疾病1，病患B的預測結果：疾病2，以及病患C的預測結果：疾病3。

病患	性別	BMI	尿酸	總膽固醇	白血球	血糖	預測結果
A	F	30	4.5	200	13.1	189	疾病1
B	M	20	4.7	203	15.7	161	疾病2
C	F	25	7.8	195	25.3	155	疾病3

表三為第2圖的決策樹對疾病特徵的判斷。

疾病	總膽固醇＜260	總膽固醇＞=260	BMI＜30	BMI＞=30	血糖＜158	血糖＞=158
糖尿病	符合	未符	符合	未符	未符	符合
脂肪肝	符合	未符	符合	未符	符合	未符
高血壓	符合	未符	未符	符合	NA	NA
動脈粥狀硬化	未符	符合	NA	NA	NA	NA

依據表三，本揭露的方法可得到病患A的膽固醇低於260，並且BMI高於等於30，因此病患A可能罹患高血壓。以此類推，病患B可能罹患糖尿病，並且病患C可能有脂肪肝。上述結果可作為醫師診斷時的輔助條件。

第3圖為本揭露實施例之用於建立協助疾病預測的決策樹的電子系統的示意圖。如第3圖所示，本揭露的電子系統可包括一網路伺服器300、一資料庫302，以及一演算伺服器304。網路伺服器300包括一處理器310，演算伺服器304包括一處理器314。在一些實施例中，網路伺服器300的處理器310可執行第1圖的步驟S100。在一些實施例中，步驟S100中的生理量測資料相對於不同疾病是來自於醫院端的電腦306，並且電腦306中的生理量測資料是來自於醫師308對不同病人的量測及診斷結果。資料庫302可儲存生理量測資料。演算伺服器304的處理器314可執行第1圖中的步驟S104、S106，以及S108。在一些實施例中，演算伺服器304的處理器314可將其疾病預測結果傳送至網路伺服器300，用以將其疾病預測結果公布給所有人。

本揭露更提供一種電腦程式產品，用於建立協助疾病預測的一決策樹(例如第2圖的決策樹)，適用於具有第一處理器(例如第3圖的處理器310)、一第二處理器(例如第3圖的處理器314)，以及一資料庫(例如第3圖的資料庫302)的電子系統(例如第3圖的電子系統)。本揭露的電腦程式產品包括一接收指令、一儲存指令、一讀取指令、一分類指令、一計算指令、一分枝指令，以及一剪枝指令。在一些實施例中，接收指令使得處理器310可執行第1圖的步驟S100。儲存指令使得資料庫302可儲存步驟S100中的生理量測資料相對於不同疾病。讀取指令使得處理器314可從資料庫302中取得生理量測資料。分類指令使得處理器314可執行第1圖的步驟S102。

計算指令使得處理器314可執行第1圖的步驟S104。分枝指令使得處理器314可執行第1圖的步驟S106。剪枝指令使得處理器314可執行第1圖的步驟S108。當處理器310執行完接收指令，資料庫302執行完儲存指令，以及處理器314執行完讀取指令、分類指令、計算指令、分枝指令，以及剪枝指令後，則第2圖的決策樹被建立完成(對應於第1圖的步驟S108)。

當來自醫院端的生理量測資料愈多，則本揭露的建立用於協助疾病預測的決策樹的方法、電子系統及電腦程式產品所得到的預測結果會愈準確，能夠輔助醫師的醫療診斷，依據預測結果提前給予預防措施，將決策樹各末支的資料進行計算，得到單一疾病機率，可提升更多疾病預測的準確率。

雖然本揭露的實施例如上述所描述，我們應該明白上述所呈現的只是範例，而不是限制。依據本實施例上述示範實施例的許多改變是可以在沒有違反發明精神及範圍下被執行。因此，本揭露的廣度及範圍不該被上述所描述的實施例所限制。更確切地說，本揭露的範圍應該要以以下的申請專利範圍及其相等物來定義。

儘管上述揭露已被一或多個相關的執行來圖例說明及描繪，等效的變更及修改將被依據上述規格及附圖且熟悉這領域的其他人所想到。此外，儘管本揭露實施例的一特別特徵已被相關的多個執行之一所示範，上述特徵可能由一或多個其他特徵所結合，以致於可能有需求及有助於任何已知或特別的應用。

除非有不同的定義，所有本文所使用的用詞(包含技術或科學用詞)是可以被屬於上述揭露的技術中擁有一般技術的人士做一般地了解。我們應該更加了解到上述用詞，如被定義在眾所使用的字典內的用詞，在相關技術的上下文中應該被解釋為相同的意思。除非有明確地在本文中定義，上述用詞並不會被解釋成理想化或過度正式的意思。

S100,S102,S104,S106,S108:步驟 200,202,204:分支節點 206,208,210,212:節點 300:網路伺服器 302:資料庫 304:演算伺服器 306:(醫院端)電腦 308:醫師 310,314:處理器

第1圖為本揭露實施例之建立疾病預測的決策樹的方法的流程圖。第2圖為本揭露實施例之決策樹的示意圖。第3圖為本揭露實施例之用於建立疾病預測的決策樹的電子系統的示意圖。

S100,S102,S104,S106,S108:步驟

Claims

一種建立疾病預測的一決策樹的方法，包括：接收複數生理量測資料相對於不同疾病；分類該等生理量測資料相對於用途；計算該等生理量測資料的至少一切分點；分枝該決策樹相對於該至少一切分點；剪枝該決策樹而完成該決策樹的建立；以及計算該決策樹的對應於不同疾病的每個末支的正確率。
如請求項1之方法，其中，計算該等生理量測資料的至少一切分點的步驟，包括：利用關聯於該等生理量測資料的一特定函數及一相關係數的絕對值，計算該等生理量測資料的該至少一切分點的一數值。
如請求項2之方法，其中，分枝該決策樹相對於該至少一切分點的步驟，包括：找出具有最小該數值的該至少一切分點作為該決策樹的一分支節點；以及判斷是否無法繼續分枝。
如請求項1之方法，其中，剪枝該決策樹而完成該決策樹的建立的步驟，包括：使用一赤池訊息量準則(Akaike information criterion：AIC)對該決策樹進行剪支。
如請求項2之方法，其中，分類該等生理量測資料相對於用途的步驟，包括：當該等生理量測資料是用於不同疾病發生機率的推算，則該等生理量測資料會被分類為分類型資料。
如請求項5之方法，其中，當該等生理量測資料被分類為分類型資料，該特定函數為一吉尼係數公式；該吉尼係數公式為：
其中，x _i為該等生理量測資料中對應於一種疾病的資料；p(x _i)為該等生理量測資料中對應於該種疾病的資料的出現機率；以及n為該等生理量測資料中對應的疾病種類的數量。
如請求項6之方法，其中，該相關係數為：
其中，i為該等生理量測資料的一者；n為該等生理量測資料的資料筆數；x _j為自變數且代表該等生理量測資料；
為自變數平均且代表該等生理量測資料的平均；y _j為應變數且代表對應於一疾病的該數值；以及
為應變數平均且代表對應於該疾病的該數值的平均。
如請求項2之方法，其中，該等生理量測資料包括：性別、身體質量指數(Body Mass Index：BMI)、尿酸、總膽固醇、白血球，以及血糖。
如請求項7之方法，其中，該等生理量測資料的該至少一切分點的該數值相等於Gini(D)×|r(i)|。
如請求項4之方法，其中，該赤池訊息量準則(AIC)為：AIC=-2×l+2×(k+1)其中，l為概似函數，k為參數的數量。
如請求項3之方法，其中，判斷是否無法繼續分支的步驟，包括：重複執行計算該等生理量測資料的該至少一切分點的該數值的步驟，以及找出具有最小該數值的該至少一切分點作為該決策樹的該分支節點的步驟，直到無法繼續分支；或者重複執行計算該等生理量測資料的該至少一切分點的該數值的步驟，以及找出具有最小該數值的該至少一切分點作為該決策樹的該分支節點的步驟，直到該分支節點所包含的該等生理量測資料的筆數小於等於對應於每一疾病的該等生理量測資料的預設資料筆數。
如請求項8之方法，計算該等生理量測資料的該至少一切分點的該數值的步驟，包括：將該等生理量測資料依據性別由女至男進行排序；將該等生理量測資料依據BMI的高低由低至高進行排序；將該等生理量測資料依據尿酸的高低由低至高進行排序；將該等生理量測資料依據總膽固醇的多寡由寡至多進行排序；將該等生理量測資料依據白血球的多寡由寡至多進行排序；以及將該等生理量測資料依據血糖的高低由低至高進行排序。
如請求項12之方法，計算該等生理量測資料的該至少一切分點的該數值的步驟，包括：依據該等生理量測資料的性別、BMI、尿酸、總膽固醇、白血球，以及血糖的排序，計算該特定函數及該相關係數的絕對值的乘積，用以得到該等生理量測資料的該至少一切分點的該數值。
一種電子系統，用於建立協助疾病預測的一決策樹，包括：一第一處理器，接收來自醫院端的複數生理量測資料相對於不同疾病；一資料庫，儲存該等生理量測資料；以及一第二處理器，從該資料庫取得該等生理量測資料，用以執行：分類該等生理量測資料相對於用途；計算該等生理量測資料的至少一切分點；分枝該決策樹相對於該至少一切分點；剪枝該決策樹而完成該決策樹的建立；以及計算該決策樹的對應於不同疾病的每個末支的正確率。
如請求項14之電子系統，其中，該第二處理器計算該等生理量測資料的該至少一切分點，包括：該第二處理器利用關聯於該等生理量測資料的一特定函數及一相關係數的絕對值，計算該等生理量測資料的該至少一切分點的一數值。
如請求項15之電子系統，其中，當該等生理量測資料是用於不同疾病發生機率的推算，則該第二處理器將該等生理量測資料分類為分類型資料。
如請求項16之電子系統，其中，當該第二處理器將該等生理量測資料分類為分類型資料，該特定函數為一吉尼係數公式；該吉尼係數公式為：
其中，x _i為該等生理量測資料中對應於一種疾病的資料；p(x _i)為該等生理量測資料中對應於該種疾病的資料的出現機率；以及n為該等生理量測資料中對應的疾病種類的數量。
如請求項17之電子系統，其中，該相關係數為：
其中，i為該等生理量測資料的一者；n為該等生理量測資料的資料筆數；x _j為自變數且代表該等生理量測資料；
為自變數平均且代表該等生理量測資料的平均；y _j為應變數且代表對應於一疾病的該數值；以及
為應變數平均且代表對應於該疾病的該數值的平均。
如請求項18之電子系統，其中，該等生理量測資料的該至少一切分點的該數值相等於Gini(D)×|r(i)|。
一種電腦程式產品，用於建立協助疾病預測的一決策樹，適用於具有一第一處理器、一第二處理器，以及一資料庫的電子系統中，包括：一接收指令，使得該第一處理器接收來自醫院端的複數生理量測資料相對於不同疾病；一儲存指令，使得該資料庫儲存該等生理量測資料；一讀取指令，使得該第二處理器從該資料庫取得該等生理量測資料；一分類指令，使得該第二處理器分類該等生理量測資料相對於用途；一計算指令，使得該第二處理器計算該等生理量測資料的至少一切分點；一分枝指令，使得該第二處理器分枝該決策樹相對於該至少一切分點；一剪枝指令，使得該第二處理器剪枝該決策樹；其中，當該第一處理器執行完該接收指令，該資料庫執行完該儲存指令，以及該第二處理器執行完該讀取指令、該分類指令、該計算指令、該分枝指令，以及該剪枝指令後，則該決策樹被建立完成。
一種建立疾病預測的一決策樹的方法，包括：接收複數生理量測資料相對於不同疾病；分類該等生理量測資料相對於用途；計算該等生理量測資料的至少一切分點；分枝該決策樹相對於該至少一切分點；剪枝該決策樹而完成該決策樹的建立；以及計算該決策樹的對應於不同疾病的每個末支的正確率；其中，該等生理量測資料包括：性別、身體質量指數、尿酸、總膽固醇、白血球，以及血糖。