TWI778289B

TWI778289B - 控制方法以及醫學系統

Info

Publication number: TWI778289B
Application number: TW108129344A
Authority: TW
Inventors: 陳仰恩; 湯凱富; 彭宇劭; 張智威
Original assignee: 宏達國際電子股份有限公司
Priority date: 2018-08-16
Filing date: 2019-08-16
Publication date: 2022-09-21
Also published as: TW202016948A; CN110838363A; EP3618080B1; CN110838363B; US20200058399A1; EP3618080A1

Abstract

用以控制醫學系統的一種方法包含下列步驟。接收初始症狀。利用神經網路模型以選擇症狀詢問行動。接收針對症狀詢問行動的症狀答覆。利用神經網路模型根據初始症狀及症狀答覆由複數個候選檢測行動選擇醫療檢測行動。接收針對醫療檢測行動的檢測結果。利用神經網路模型根據初始症狀及症狀答覆以及檢測結果由複數個候選預測行動選出結果預測行動。

Description

控制方法以及醫學系統

本揭示關於機器學習方法，更進一步而言，本揭示關於用於醫學系統的強化學習方法。

近年來已經出現了電腦輔助醫學系統的概念以便於患者自我診斷。電腦輔助醫學系統可請求患者提供一些資訊，並隨後基於與患者的互動來提供潛在疾病的診斷與建議。

本揭示文件提供控制一醫學系統的一種方法，該控制方法包含：接收一初始症狀；利用一神經網路模型以選擇至少一症狀詢問行動；接收針對該至少一症狀詢問行動的至少一症狀答覆；利用該神經網路模型根據該初始症狀及該至少一症狀答覆由複數個候選檢測行動中選擇至少一醫療檢測行動；接收針對該至少一醫療檢測行動的至少一檢測結果；利用該神經網路模型根據該初始症狀及該至少一症狀答覆以及該至少一檢測結果由複數個候選預測行動中選出一結果預測行動。

本揭示文件提供一種醫學系統，包含互動系統、決策代理程序以及神經網路模型。互動系統用以接收一初始症狀。決策代理程序與該互動系統互動。神經網路模型該決策代理程序利用該神經網路模型根據該初始症狀選擇至少一症狀詢問行動。該互動系統接收針對該至少一症狀詢問行動的至少一症狀答覆，該決策代理程序利用該神經網路模型根據該初始症狀及該至少一症狀答覆由複數個候選檢測行動中選擇至少一醫療檢測行動，該互動系統接收針對該至少一醫療檢測行動的至少一檢測結果，該決策代理程序利用該神經網路模型根據該初始症狀及該至少一症狀答覆以及該至少一檢測結果由複數個候選預測行動中選出一結果預測行動。

須說明的是，上述說明以及後續詳細描述是以實施例方式例示性說明本案，並用以輔助本案所請求之發明內容的解釋與理解。

為讓本揭示內容之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附符號之說明如下：

100、500:醫學系統

120、520:互動系統

140、540:強化學習代理程序

560:決策代理程序

200:控制方法

S210~S270:操作

ST0~STt:狀態

ACT0~ACTt:行動

RE:累積獎勵

TD:訓練資料

SQA:症狀詢問行動

SQ1~SQ9:症狀詢問行動

DPA:疾病預測行動

DP1~DP5:疾病預測行動

TDS:確診症狀資料

S1~S9:症狀

TDC:脈絡資料

DS:症狀資料位元群組

DS1~DS9:症狀資料位元

DC:脈絡資料位元群組

DC1~DC3:脈絡資料位元

CA0、CA1、CA2、CA3:候選行動

NNL1~NNL6b:神經網路層

T1~T6:中間張量

RST1:第一結果狀態

RST2:第二結果狀態

RST3:第三結果狀態

RST4:第四結果狀態

COM:共同神經網路部分

B1:第一分支神經網路部分

B2:第二分支神經網路部分

B3:第三分支神經網路部分

B4:第四分支神經網路部分

U1:使用者

Sini:初始症狀

Sqry:症狀詢問

Sans:症狀答覆

Smed:醫療檢測行動

Smedr:醫療檢測結果

以下本發明的各種實施例將參照下列所附圖式進行說明：第1圖為根據本揭示之一實施例中醫學系統100的示意圖；第2A圖為根據本揭示一些實施例中關於第1圖的醫學系統訓練神經網路模型之控制方法的方法流程圖；第2B圖為根據本揭示一些實施例中第2A圖進一步操作的方法流程圖；第2C圖為根據本揭示一些實施例中第2A圖進一步操作的方法流程圖；第3圖為根據本揭示一些實施例中訓練資料的其中一筆病歷的示意圖；第4圖為根據本揭示一些實施例中神經網路模型的架構示意圖；第5A圖繪示一些實施例在症狀詢問階段中的複數個狀態以及控制方法所決定的行動的示意圖；第5B圖繪示一些實施例在症狀詢問階段中的複數個狀態以及控制方法所決定的行動的示意圖；第5C圖繪示一些實施例在症狀詢問階段中的複數個狀態以及控制方法所決定的行動的示意圖；第5D圖繪示一些實施例在醫療檢測建議階段中的複數個狀態以及控制方法所決定的行動的示意圖；第5E圖繪示一些實施例在結果預測階段中的複數個狀態以及控制方法所決定的行動的示意圖；第6A圖為一示範舉例關於對應每一醫療檢測行動的機率值及機率補數的示意圖；第6B圖為一示範舉例說明對應多個醫療檢測行動所形成的多種組合的示意圖；以及第7圖為在神經網路模型完成訓練後醫學系統的示意圖。

以下本揭示文件提供的多個實施例或例證將配合附圖所繪示的內容用以說明本案的技術細節。以下本揭示文件提供的多個實施例或例證搭配附圖所繪示的內容，用以說明本案的技術細節。在適當的情況下，在圖示之間及相應文字說明中採用相同的標號以代表相同或是相似的元件。

參考第1圖，為根據本揭示之一實施例中醫學系統100的示意圖。如第1圖所示，醫學系統100包括互動系統120以及強化學習代理程序140。互動系統120與強化學習代理程序140彼此互動以訓練神經網路模型NNM。換句話說，第1圖中的醫學系統100是處於訓練神經網路模型NNM的訓練階段。強化學習代理程序140用以選擇複數個序列行動，上述序列行動使得互動系統120由一狀態進入另一狀態。強化學習代理程序140訓練神經網路模型NNM時是參照強化學習代理程序140與互動系統120之間的互動並且根據訓練資料TD而進行。

於部分實施例中，互動系統120及強化學習代理程序140可以透過處理器、中央處理單元或是運算電路加以實現。在醫學系統100的訓練階段中，強化學習代理程序140可以訓練用來挑選複數個序列行動的神經網路模型NNM(例如調整神經網路模型NNM當中節點或者互連線路之間的權重或參數)。互動系統120可以作為上述強化學習代理程序140所進行之訓練流程的監督者，舉例來說，互動系統120可以評估強化學習代理程序140所挑選的序列行動，並且給予強化學習代理程序140相應上述序列行動的獎勵。於一些實施例中，強化學習代理程序140訓練神經網路模型NNM的目標在於，將強化學習代理程序140由互動系統120所收集到的獎勵最大化。

強化學習代理程序140利用神經網路模型NNM由一系列的多個候選行動當中挑選出多個序列行動。強化學習代理程序140所挑選出的多個序列行動包含數個症狀詢問行動、一或多個醫療檢測行動(適合用來提供預測或診斷疾病的額外資訊)以及在上述數個症狀詢問行動之後的一結果預測行動。

於一些實施例中，結果預測行動包含疾病預測行動。於另一些實施例中，結果預測行動包含對應疾病預測行動的醫療部門建議行動。於再一些實施例中，結果預測行動包含疾病預測行動以及對應疾病預測行動的醫療部門建議行動。在下列示範性的舉例當中，強化學習代理程序140所選擇的結果預測行動包含疾病預測行動。然而本揭示文件並不以此為限。

當強化學習代理程序140選擇了適當的序列行動(例如適當的症狀詢問行動、適當的醫療檢測行動或是正確的疾病預測行動)，互動系統120將提供相對應的獎勵給強化學習代理程序140。於一些實施例中，強化學習代理程序140訓練神經網路模型NNM的目標在於將強化學習代理程序140對應各個序列行動所收集到的累積獎勵RE的總值最大化，於一些實施例中，累積獎勵RE可以透過症狀異常獎勵、檢測結果異常獎勵、檢測成本懲罰以及正/負預測獎勵等上述加總的總和進行計算。如此一來，神經網路模型NNM將會被訓練為盡可能地選擇適當的症狀詢問行動、建議適當的醫療檢測行動以及正確的疾病預測行動。

請一併參閱第2A圖，其繪示本揭示一些實施例中關於第1圖的醫學系統100如何訓練的神經網路模型NNM之控制方法200的方法流程圖。

如第1圖及第2A圖所示，控制方法200的操作S210，由互動系統120執行，以取得與醫學系統100有關的訓練資料TD。於一些實施例中，訓練資料TD包含多個已確認的病歷。醫學系統100利用訓練資料TD中上述已確認的病歷來訓練神經網路模型NNM。於一例子中，訓練資料TD可以是由美國疾病管制與預防中心(Centers for Disease Control and Prevention)所取得的資料與相關資訊，上述美國疾病管制與預防中心的網頁位址為https：//www.cdc.gov/datastatistics/index.html。

請一併參閱第3圖，其繪示本揭示一些實施例中訓練資料TD的其中一筆病歷MR1的示意圖。於第3圖所示的實施例中，訓練資料TD當中的一筆病歷MR1是有關於具有一種確診疾病(圖示中未繪示)的一病患。病歷MR1包含確診症狀資料TDS、醫療檢測資料TDT以及脈絡資料TDC。病歷MR1中的確診症狀資料TDS記載了患有確診疾病的病患身上所發生的症狀，醫療檢測資料TDT記載為了診斷上述確診疾病在病患身上進行的醫療檢測結果。

在確診症狀資料TDS當中的資料位元「1」代表病歷MR1當中所提到的病患遭遇到對應的確診症狀(例如，咳嗽、頭痛、胸痛或暈眩)。在確診症狀資料TDS當中的資料位元「0」代表病歷MR1當中所提到的病患並未遭遇到對應的確診症狀。如第3圖所示，確診症狀S1、S6、S8有發生在此病患身上，而其他症狀S2-S5、S7及S9則沒有發生在此病患身上。

在醫療檢測資料TDT當中的資料位元「-1」代表病歷MR1當中所提到的病患身上曾經進行的特定醫療檢測(例如，血壓檢測、胸部X光檢查、腹部超音波檢查或血液透析檢查)，並且此特定醫療檢測的結果為正常。在醫療檢測資料TDT當中的資料位元「2」或「3」代表病歷MR1當中所提到的病患身上曾經進行的特定醫療檢測(例如，血壓檢測、胸部X光檢查、腹部超音波檢查或血液透析檢查)，並且此特定醫療檢測的結果為異常，例如其中一檢查的結果參數高於/低於標準範圍，或是X光檢查結果出現不正常的陰影。如第3圖所示的實施例中，三種醫療檢測MT1、MT2及MT5的醫療檢測結果為正常，而兩種醫療檢測MT3及MT4的醫療檢測結果則為異常。

如第3圖所示，病歷MR1記載了確診疾病、與此確診疾病有關的複數個確診症狀S1、S6及S8、以及用來診斷此確診疾病所進行的醫療檢測MT1-MT5的醫療檢測結果之間的關係。病歷MR1記載了患有確診疾病的病患以及當病患患有確診疾病時發生在病患身上相對應的多個症狀(即確診症狀S1、S6及S8)。當另一份病歷(圖中未繪示)當中的另一位病患具有另一疾病時，病患將可能具有相對應於另一疾病的多個不同症狀。即使當兩個病患患有相同的疾病時，兩個病患各自遇到的症狀也不一定完全相同。

需要特別注意的是，第3圖中所繪示的病歷MR1具有九種可能的確診症狀S1-S9與五種可能的醫療檢測MT1-MT5之間的交互關係僅僅是作為一種示範性舉例。然而，本揭示文件並不以此為限。於一些實施例中，訓練資料TD當中的多個病歷可以具有200至500個可能的確診症狀以及10至50種可能的醫療檢測對應到200至500個可能的確診疾病。病歷MR1僅繪示出一小部分的可能的確診症狀S1-S9以及一小部分的可能的醫療檢測MT1-MT5以利簡短說明。

第3圖中的病歷MR1顯示患有確診疾病的病患具有確診症狀S1、S6及S8(而未具有症狀S2-S5、S7及S9)並且進行其中兩種醫療檢測MT3及MT4的醫療檢測結果為異常(在另外三種醫療檢測MT1、MT2及MT5的醫療檢測結果則為正常)。在訓練資料TD當中，當另一病患具有不同的確診疾病，此另一病患可能具有不同的確診症狀以及具有不同的醫療檢測結果，相應地另一病患的病歷當中的資料位元將會隨之不同。

於第3圖所示的一些實施例中，病歷MR1可以進一步具備病患的脈絡資料(context information)TDC，脈絡資料TDC可以表示病患的性別、年齡、血壓、心理狀態、婚姻狀態、DNA序列表或其他有關病患的相關資訊。於一些實施例中，病歷MR1中的脈絡資料TDC也同時被用來訓練神經網路模型NNM。

需注意的是，第3圖繪示的是來訓練神經網路模型NNM的訓練資料TD當中的其中一筆病歷MR1。實際應用中，訓練資料TD可以包含100筆病歷至1000000筆病歷。操作S230-S270當中的訓練流程將會針對訓練資料TD當中的每一筆病歷多次重覆進行以最佳化神經網路模型NNM的訓練結果。

如第1圖及第2A圖所示，控制方法200的操作S230，由互動系統120及強化學習代理程序140執行，使用神經網路模型NNM挑選複數個症狀詢問行動、至少一醫療檢測行動以及一結果預測行動。

如第1圖及第2A圖所示，基於操作S230所選擇的上述行動(包含複數個症狀詢問行動、至少一醫療檢測行動以及一結果預測行動)，互動系統120將執行控制方法200的操作S250，以提供相應的累積獎勵RE(如症狀異常獎勵、檢測結果異常獎勵、檢測成本懲罰以及正/負預測獎勵等上述加總的總和)給強化學習代理程序140，累積獎勵RE對應於強化學習代理程序140在操作S230所選擇的各種行動。

如第1圖及第2A圖所示，由強化學習代理程序 140執行控制方法200的操作S270，參考累積獎勵RE以進行神經網路模型NNM的訓練。其中，累積獎勵RE是由強化學習代理程序140基於神經網路模型NNM選擇的各種行動時所收集到的獎勵總數來決定。在操作S270中，神經網路模型NNM被訓練為盡可能地最大化累積獎勵RE，而累積獎勵RE是參照症狀異常獎勵、檢測結果異常獎勵、預測獎勵以及檢測成本懲罰而決定的。

當操作S270完成時，對應病歷MR1的一次訓練流程便可結束。控制方法200將回到操作S230針對訓練資料TD當中另一筆病歷(圖示中未繪示)開始另一次的訓練流程。當神經網路模型NNM反覆經過訓練資料TD當中多筆病歷的多次訓練流程之後，便能夠使神經網路模型NNM在選擇症狀詢問行動、醫療檢測行動以及結果預測行動的效果最佳化。

請一併參閱第2B圖，根據部分實施例第2B圖繪示前述第2A圖的操作S230所包含的進一步操作S231-S246的方法流程圖。

如第2B圖所示，由醫學系統100執行操作S231，判斷控制方法200所處的當前階段，其中控制方法200所處的當前階段有關於神經網路模型NNM如何挑選當前行動。於此實施例中，共有三種不同的階段，分別是症狀詢問階段eSYM、醫療檢測建議階段eMED以及結果預測階段eDIS。起始狀態下，控制方法200將進入症狀詢問階段eSYM。之後，控制方法200將可能切換進入醫療檢測建議階段eMED(由症狀詢問階段eSYM的操作S235)，或者切換進入結果預測階段eDIS(由症狀詢問階段eSYM的操作S236或是醫療檢測建議階段eMED的操作S244)。

請一併參閱第4圖，其繪示根據本揭示文件一些實施例中神經網路模型NNM的架構示意圖。如第4圖所示，強化學習代理程序140在挑選當前行動時所使用的神經網路模型NNM包含共同神經網路部分COM、第一分支神經網路部分B1、第二分支神經網路部分B2、第三分支神經網路部分B3以及第四分支神經網路部分B4。在控制方法200處在症狀詢問階段eSYM中，是利用第一分支神經網路部分B1來挑選當前行動。在控制方法200處在醫療檢測建議階段eMED中，是利用第二分支神經網路部分B2來挑選當前行動。在控制方法200處在結果預測階段eDIS中，是利用第三分支神經網路部分B3來挑選當前行動。

如第4圖所示，共同神經網路部分COM包含神經網路層NNL1以及另一神經網路層NNL2。神經網路層NNL1用以轉換輸入狀態ST0-STt至一中間張量(intermediate tensor)T1，神經網路層NNL2用以將中間張量T1轉換為另一中間張量T2。於一實施例中，神經網路層NNL1以及神經網路層NNL2可以是全連接層(fully-connection layer)或是卷積運算層(convolution filter layer)。

如第4圖所示，第一分支神經網路部分B1、第二分支神經網路部分B2、第三分支神經網路部分B3以及第四分支神經網路部分B4分別連接至共同神經網路部分COM。

如第4圖所示，第一分支神經網路部分B1包含神經網路層NNL3a以及另一神經網路層NNL3b。神經網路層NNL3a用以轉換中間張量T2至另一中間張量T3。神經網路層NNL3b用以轉換中間張量T3至第一結果狀態RST1。於一實施例中，神經網路層NNL3a可以是全連接層或是卷積運算層。神經網路層NNL3b可以是全連接層、卷積運算層或激勵函式層。第一分支神經網路部分B1產生的第一結果狀態RST1可以用來選擇一症狀詢問行動(由複數個候選詢問行動SQA當中選出)、用以切換至醫療檢測建議階段eMED的切換行動、或者是用以切換至結果預測階段eDIS的另一切換行動中的三者其中一者。

如第4圖所示，第二分支神經網路部分B2包含神經網路層NNL4a以及另一神經網路層NNL4b。神經網路層NNL4a用以轉換中間張量T2至另一中間張量T4。神經網路層NNL4b用以轉換中間張量T4至第二結果狀態RST2。於一實施例中，神經網路層NNL4a可以是全連接層或是卷積運算層。神經網路層NNL4b可以是全連接層、卷積運算層或激勵函式層。第二分支神經網路部分B2產生的第二結果狀態RST2可以用來選擇多個醫療檢測行動MTA所形成的一個組合(包含一或多個醫療檢測行動)。

如第4圖所示，第三分支神經網路部分B3包含神經網路層NNL5a以及另一神經網路層NNL5b。神經網路層NNL5a用以轉換中間張量T2至另一中間張量T5。神經網路層NNL5b用以轉換中間張量T5至第三結果狀態RST3。於一實施例中，神經網路層NNL5a可以是全連接層或是卷積運算層。神經網路層NNL5b可以是全連接層、卷積運算層或激勵函式層。第三分支神經網路部分B3產生的第三結果狀態RST3可以用來選擇一結果預測行動(由複數個疾病預測行動DPA當中選出)。

於一些實施例中，第一分支神經網路部分B1的神經網路層NNL3b及第三分支神經網路部分B3的神經網路層NNL5b採用相同的激勵函式以產生第一結果狀態RST1及第三結果狀態RST3。第二分支神經網路部分B2的神經網路層NNL4b採用另一激勵函式(相異於神經網路層NNL3b/NNL5b)來產生第二結果狀態RST2。

於第4圖所示的實施例中，神經網路層NNL3b及神經網路層NNL5b採用Softmax函式(Softmax function)。另一方面，神經網路層NNL4b則採用Sigmoid函式(Sigmoid function)。第二分支神經網路部分B2當中採用的Sigmoid函式使得第二分支神經網路部分B2可以根據一輸入狀態同時選擇多個醫療檢測行動。

需特別注意的是，Softmax函式通常用來從多個候選行動中選擇單一行動，而Sigmoid函式通常用來在同一時間評估多個候選行動各自的機率。於此實施例中，由於神經網路模型NNM具有多個分支(包含第一分支神經網路部分B1、第二分支神經網路部分B2、第三分支神經網路部分B3以及第四分支神經網路部分B4)，利用Sigmoid函式產生的第二結果狀態RST2可以用來在同一時間選擇多個醫療檢測行動。另一方面，第一結果狀態RST1可以在一次循環中產生一症狀詢問行動，而第三結果狀態RST3可以在一次循環中產生一疾病預測行動。

若神經網路模型NNM並不具有多個分支，則神經網路模型NNM可能只透過Softmax函式產生單一結果狀態，神經網路模型NNM無法基於Softmax函式在同一時間推薦多個醫療檢測行動。在此情況下，神經網路模型NNM必須建議一醫療檢測、等待醫療檢測的答覆、建議另一醫療檢查、以及接著等待另一醫療檢測的答覆。

如第4圖所示，第四分支神經網路部分B4包含神經網路層NNL6a以及另一神經網路層NNL6b。神經網路層NNL6a用以轉換中間張量T2至另一中間張量T6。神經網路層NNL6b用以轉換中間張量T6至第四結果狀態RST4。於一實施例中，神經網路層NNL6a可以是全連接層或是卷積運算層。神經網路層NNL6b可以是全連接層、卷積運算層或激勵函式層。第四分支神經網路部分B4產生的第四結果狀態RST4可以用來重建症狀特徵以及醫療檢測特徵的機率分布。

初始狀態下，當控制方法200進入症狀詢問階段eSYM時，互動系統120執行操作S232，以決定輸入狀態並傳送至強化學習代理程序140。強化學習代理程序140利用神經網路模型NNM根據輸入狀態所帶有的資訊挑選出一行動。

請一併參閱第5A圖，其繪示於一些實施例中在症狀詢問階段eSYM當中輸入狀態ST0、更新狀態ST1以及控制方法200所決定的行動ACT0的示意圖。

於一示範例子中，互動系統120所決定的輸入狀態ST0繪示於第5A圖的實施例中。輸入狀態ST0包含症狀資料位元群組DS、醫療檢測資料位元群組DT以及脈絡資料位元群組DC。症狀資料位元群組DS中的每一症狀資料位元DS1至DS9可以被設定為1(正狀態代表此症狀有發生)、-1(負狀態代表此症狀未發生)或0(未確認狀態代表尚未確認此症狀是否發生)。醫療檢測資料位元群組DT中的每一醫療檢測資料位元DT1至DT5可以被設定為-1(表示此醫療檢測結果為正常)或者被設定1、2或3等其他數字(表示此醫療檢測結果為異常，例如超過標準或低於標準)或被設定為0(表示未確認狀態，代表尚未確認醫療檢測結果是正常或者異常)。脈絡資料位元群組DC的每一脈絡資料位元DC1至DC3可以代表病患的性別、年齡、血壓、心理狀態、婚姻狀態、DNA序列表或其他有關病患的相關資訊。舉例來說，脈絡資料位元DC1為「1」可以代表病患是男性，脈絡資料位元DC3為「0」可以代表病患尚未結婚。於實際應用中，脈絡資料位元群組DC可以包含更多的資料位元(圖中未繪示)以記錄年齡、血壓、心理狀態、DNA序列表或其他有關病患的相關資訊。

於第5A圖的實施例中，脈絡資料位元群組DC 的脈絡資料位元DC1至DC3可以由第3圖當中病歷MR1的脈絡資料(context information)TDC複製而來。

於第5A圖的一些實施例中，根據第3圖所示的病歷MR1當中的確診症狀S6，症狀資料位元群組DS當中的症狀資料位元DS6被互動系統120設定為「1」。於初始狀態ST0中，只有症狀資料位元DS6已知為「1」，症狀資料位元群組DS中其他的症狀資料位元DS1-DS5以及DS7-DS9則仍未確認「0」。

如第1圖及第2B圖、第5A圖所示，在症狀詢問階段eSYM中，由強化學習代理程序140配合神經網路模型NNM執行操作S233，根據輸入狀態ST0決定所有候選行動CA0的優先值。於第5A圖的實施例中，強化學習代理程序140配合神經網路模型NNM，根據輸入狀態ST0透過第一分支神經網路部分B1產生的第一結果狀態RST1，決定症狀詢問行動SQ1-SQ9、用以切換至醫療檢測建議階段eMED的階段切換行動Q1、以及用以切換至結果預測階段eDIS的另一階段切換行動Q2等上述各種行動各自的優先值。

如第1圖及第2B圖、第5A圖所示，在症狀詢問階段eSYM中，由強化學習代理程序140執行操作S234，由症狀詢問行動SQ1-SQ9、階段切換行動Q1以及Q2各自的優先值當中搜尋最高的優先值。當階段切換行動Q1具有最高的優先值時，將執行操作S235切換至醫療檢測建議階段eMED。另一方面，當階段切換行動Q2具有最高的優先值時，將執行操作S236切換至結果預測階段eDIS。

如第5A圖所示，輸入狀態ST0尚未包含足夠的資訊以建議醫療檢測或做出疾病預測。因此，透過神經網路模型NNM的第一分支神經網路部分B1產生的第一結果狀態RST1所決定關於階段切換行動Q1及Q2的優先值此時通常較低。於第5A圖之實施例中，假設此時症狀詢問行動SQ3具有最高的優先值。將執行操作S237，由強化學習代理程序140配合神經網路模型NNM，將症狀詢問行動SQ3選擇為當前行動ACT0。當症狀詢問行動SQ3被選定時，將提出有關於第三種症狀(對應到第3圖中的症狀S3)的詢問。相似地，若有其他不同的症狀詢問行動SQA被選定時，則會提出相應於不同症狀的問題。

於第1圖及第2A圖的一些實施例中，在建議醫療檢測行動(即切換至醫療檢測建議階段eMED)、或者是挑選出疾病預測(即切換至結果預測階段eDIS)之前，進行幾次的症狀詢問(即由從多個症狀詢問行動SQA中選出多少個行動進行詢問)是由套用在醫學系統100上的預算「t」而決定。於後續的實施例中，預算「t」是以「3」作為舉例說明。

另一方面，當預算「t」已用盡時，第1圖及第2A圖中強化學習代理程序140將會收到預算用盡懲罰，預算用盡懲罰將會降低強化學習代理程序140所得到的累積獎勵RE。本揭示文件並不限制於預算「t=3」。預算「t」可以被設定為大於1的正整數。於一些實施例中，預算「t」可以被設定為5到9之間。

於另一些實施例中，預算「t」可以被視為在決定最終疾病預測(即由多個疾病預測行動DPA中選出一疾病預測行動)之前將會進行的症狀詢問次數(也就是由多個症狀詢問行動SQA挑出多少次行動)的最大數量。然而，強化學習代理程序140並未被限定於在所有情況(例如對應訓練資料TD當中所有的病患或所有的病歷)下都必須詢問「t」個症狀詢問。如果強化學習代理程序140已經收集了足夠的資訊，階段切換行動Q1或Q2將具有最高的優先值，以觸發切換至醫療檢測建議階段eMED或結果預測階段eDIS。

如第5A圖所示，在操作S237當中，由強化學習代理程序140將候選詢問行動SQA當中的症狀詢問行動SQ3選為行動ACT0。接著執行操作S238，互動系統120將收集對應症狀詢問行動SQ3的症狀詢問答覆。根據訓練資料TD的病歷MR1當中的確診症狀，症狀詢問行動SQ3的症狀詢問答覆將被設定為”-1”，其代表病患並未遭遇症狀S3。

互動系統120將決定一更新狀態ST1(此更新狀態ST1將做為下一循環中的輸入狀態ST1)。如第5A圖所示，在更新狀態ST1中，症狀資料位元群組DS當中的症狀資料位元DS3由未確認狀態「0」改為負狀態「-1」，其代表第三個症狀並未發生在患者身上。控制方法200將接著根據更新狀態ST1(做為新的輸入狀態ST1)再次進行操作S231。

請一併參閱第5B圖，其繪示於一些實施例中在症狀詢問階段eSYM當中輸入狀態ST1、更新狀態ST2以及控制方法200決定的另一行動ACT1的示意圖。

如第1圖、第2B圖以及第5B圖所示，執行操作S231以判斷控制方法200的當前階段，目前仍處於症狀詢問階段eSYM。執行操作S232以決定輸入狀態ST1，此時輸入狀態ST1包含初始狀態(例如DS6及DC1-DC3等位元組的資訊)、先前的症狀詢問答覆(例如DS3位元組的資訊)。執行操作S233，藉由強化學習代理程序140配合神經網路模型NNM根據輸入狀態ST1決定所有候選行動CA1的優先值。於第5B圖的實施例中，強化學習代理程序140配合神經網路模型NNM，對應於輸入狀態ST1透過第一分支神經網路部分B1產生的第一結果狀態RST1，決定症狀詢問行動SQ1-SQ9、用以切換至醫療檢測建議階段eMED的階段切換行動Q1、以及用以切換至結果預測階段eDIS的另一階段切換行動Q2上述各種行動各自的優先值。由於此時輸入狀態ST1包含了比輸入狀態ST0更多的資訊，在本次循環中第5B圖的實施例中症狀詢問行動SQ1-SQ9、階段切換行動Q1以及階段切換行動Q2所算出的優先值的大小，將不同於第5A圖所示的前一次循環中優先值的大小。在此例子中，假設症狀詢問行動SQ8具有最高的優先值。

執行操作S237，強化學習代理程序140將症狀詢問行動SQ8選擇為當前行動ACT1。接著執行操作S238，互動系統120將收集症狀詢問行動SQ8的症狀詢問答覆。基於訓練資料TD的病歷MR1當中的確診症狀，症狀詢問行動SQ8的症狀詢問答覆將被設定為”1”，其代表病患有遭遇症狀S8。

互動系統120將決定一更新狀態ST2(此更新狀態ST2將做為下一循環中的輸入狀態ST2)。如第5B圖所示，在更新狀態ST2中，症狀資料位元群組DS當中的症狀資料位元DS8由未確認狀態「0」改為正狀態「1」，其代表第八個症狀有發生在患者身上。控制方法200將接著根據更新狀態ST2(做為新的輸入狀態ST2)再次進行操作S231。

請一併參閱第5C圖，其繪示於一些實施例中在症狀詢問階段eSYM當中輸入狀態ST2、更新狀態ST3以及控制方法200決定的另一行動ACT2的示意圖。

如第1圖、第2B圖以及第5C圖所示，執行操作S231以判斷控制方法200的當前階段，目前仍處於症狀詢問階段eSYM。執行操作S232以決定輸入狀態ST2，此時輸入狀態ST1包含初始狀態(例如DS6及DC1-DC3等位元組的資訊)、先前的症狀詢問答覆(例如DS3及DS8等位元組的資訊)。藉由強化學習代理程序140配合神經網路模型NNM在症狀詢問階段eSYM中，執行操作S233，根據輸入狀態ST2決定所有候選行動CA2的優先值。於第5C圖的實施例中，強化學習代理程序140配合神經網路模型NNM，對應輸入狀態ST2透過第一分支神經網路部分B1產生的第一結果狀態RST1，決定症狀詢問行動SQ1-SQ9以及、用以切換至醫療檢測建議階段eMED的階段切換行動Q1、以及用以切換至結果預測階段eDIS的另一階段切換行動Q2上述各種行動各自的優先值。由於此時輸入狀態ST2包含了比輸入狀態ST1更多的資訊，在本次循環中第5C圖的實施例中症狀詢問行動SQ1-SQ9、階段切換行動Q1以及階段切換行動Q2所算出的優先值的大小，將不同於第5B圖所示的前一次循環中優先值的大小。在此例子中，假設階段切換行動Q1具有最高的優先值。將執行操作S235，切換至醫療檢測建議階段eMED，並回到操作S231。於第5C圖所示的實施例中，並沒有選定任何症狀詢問行動。因此，更新狀態ST3(此更新狀態ST3將做為下一循環中的輸入狀態ST3)的內容將會相同於輸入狀態ST2。於此實施例中，強化學習代理程序140利用神經網路模型NNM在產生醫療檢測行動或結果預測行動之前，先選擇數個症狀詢問行動(例如SQ3及SQ8)。如此一來，控制方法200便能取得足夠的資訊(有關哪些症狀發生在病患身上)以利隨後進行醫療檢測建議、或者進行疾病預測。

請一併參閱第5D圖，其繪示於一些實施例中在醫療檢測建議階段eMED當中輸入狀態ST3、更新狀態ST4以及控制方法200決定的多個行動ACT3的示意圖。

如第1圖、第2B圖以及第5D圖所示，執行操作S231以判斷當前階段，於此實施例中此時為醫療檢測建議階段eMED。

執行操作S239以決定輸入狀態ST3，此時輸入狀態ST3包含初始狀態(例如DS6及DC1-DC3等位元組的資訊)、先前的症狀詢問答覆(例如DS3及DS8等位元組的資訊)。執行操作S240，由強化學習代理程序140配合神經網路模型NNM，根據輸入狀態ST3決定在醫療檢測建議階段eMED中所有候選行動CA3(包含五種不同的醫療檢測行動MT1-MT5)各自的機率值(probability value)以及機率補數(complement probability value)。

請一併參閱第6A圖，其繪示一示範舉例中對應不同的醫療檢測行動MT1-MT5各自的機率值及機率補數的示意圖。於一些實施例中，醫療檢測行動MT1-MT5各自的機率值是由第二結果狀態RST2產生。第二結果狀態RST2是由第二分支神經網路部分B2根據第二激勵函式(例如Sigmoid函式)計算。醫療檢測行動MT1-MT5各自的機率值將是介於0與1之間的數值。於此示範舉例中，醫療檢測行動MT1-MT5各自的機率值分別是0.4、0.2、0.7、1及0。醫療檢測行動MT1-MT5各自的機率值分別代表了各自的醫療檢測行動MT1-MT5在正確預測病患之疾病所具有重要性或必須性。醫療檢測行動MT1-MT5各自的機率補數等於「1-每一醫療檢測行動MT1-MT5各自的機率值」。於此例子中，每一醫療檢測行動MT1-MT5各自的機率補數等於0.6、0.8、0.3、0及1。上述醫療檢測行動MT1-MT5可以排列形成非常多種不同的醫療檢測行動組合。

請一併參閱第6B圖，其繪示一示範舉例中對應多個醫療檢測行動MT1-MT5所形成的多種組合的示意圖。如第6B圖所示，組合CMB1包含進行醫療檢測行動MT4(不進行醫療檢測行動MT1、MT2、MT3及MT5)。組合CMB2包含進行醫療檢測行動MT1及MT4(不進行醫療檢測行動MT2、MT3及MT5)。組合CMB3包含進行醫療檢測行動MT2及MT4(不進行醫療檢測行動MT1、MT3及MT5)。組合CMB4包含進行醫療檢測行動MT3及MT4(不進行醫療檢測行動MT1、MT2及MT5)。組合CMB5包含進行醫療檢測行動MT1、MT2及MT4(不進行醫療檢測行動MT3及MT5)。組合CMB6包含進行醫療檢測行動MT1、MT3及MT4(不進行醫療檢測行動MT2及MT5)。組合CMB7包含進行醫療檢測行動MT2、MT3及MT4(不進行醫療檢測行動MT1及MT5)。組合CMB8包含進行醫療檢測行動MT1、MT2、MT3及MT4(不進行醫療檢測行動MT5)。

執行操作S241，由強化學習代理程序140根據上述機率值以及機率補數，決定醫療檢測行動MT1-MT5所形成的所有組合各自的權重。

其中一個組合的權重的計算，是由被選入組合中的醫療檢測行動的機率值、與未被選入組合中醫療檢測行動的機率補數相乘的乘積而得到。如第6B圖所示，組合CMB1的權重W1可由醫療檢測行動MT4的機率值以及醫療檢測行動MT1、MT2、MT3及MT5的機率補數相乘而得到。換句話說，權重W1=0.6*0.8*0.3*1*1=0.144。如第6B圖所示，組合CMB2的權重W2可由醫療檢測行動MT1及MT4的機率值以及醫療檢測行動MT2、MT3及MT5的機率補數相乘而得到。換句話說，權重W2=0.4*0.8*0.3*1*1=0.096。如第6B圖所示，組合CMB3的權重W3=0.6*0.2*0.3*1*1=0.036。如第6B圖所示，組合CMB4的權重W4=0.6*0.8*0.7*1*1=0.336。如第6B圖所示，組合CMB5的權重W5=0.4*0.2*0.3*1*1=0.024。如第6B圖所示，組合CMB6的權重W6=0.4*0.8*0.7*1*1=0.224。相似地，權重W7及權重W8也可以利用相似的方法加以計算。

於一些實施例中，操作S242用以根據上述權重W1-W8隨機地由醫療檢測行動MT1-MT5所形成的所有組合CMB1-CMB8當中選出一種組合。於此例子中，具有較高權重的組合將有較大的機會被隨機挑選上。舉例來說，組合CMB4及CMB6相對於組合CMB2及CMB3將有較大的機會被隨機挑選到。於此例子中，假設被挑選到的組合為組合CMB6(其對應的權重W6=0.224)。

於另一些實施例中，操作S242用以由醫療檢測行動MT1-MT5所形成的所有組合CMB1-CMB8當中挑選出具有最高權重的一種組合。

由於被挑選到的組合為組合CMB6(包含進行醫療檢測行動MT1、MT3及MT4)，因此，醫療檢測行動MT1、MT3及MT4三者將同時被選為當前行動ACT3。執行操作S243以根據訓練資料TD當中的病歷MR1來收集對應於醫療檢測行動MT1、MT3及MT4的醫療檢驗結果。如第5D圖所示，在更新狀態ST4中，醫療檢測資料位元DT1由未確認狀態「0」改為「-1」，其代表醫療檢測行動MT1的檢測結果為正常。在更新狀態ST4中，醫療檢測資料位元DT3由未確認狀態「0」改為「3」，其代表醫療檢測行動MT3 的檢測結果為異常。在更新狀態ST4中，醫療檢測資料位元DT4由未確認狀態「0」改為「2」，其代表醫療檢測行動MT4的檢測結果為異常。當醫療檢測行動的檢測結果被收集並更新至更新狀態ST4之後，控制方法200執行操作S244，切換進入結果預測階段eDIS。

醫療檢測資料位元群組DT中的每一醫療檢測資料位元DT1至DT5可以被設定為-1(表示此醫療檢測結果為正常)或者被設定1、2或3等其他數字(表示此醫療檢測結果為異常，例如超過標準或低於標準)或被設定為0(表示未確認狀態，代表尚未確認醫療檢測結果是正常或者異常)。舉例來說，於一些實施例中，醫療檢測資料位元DT3變更為「3」代表醫療檢測行動MT3的檢測結果超過標準範圍。於一些實施例中，醫療檢測資料位元DT4變更為「2」代表醫療檢測行動MT4的檢測結果低於標準範圍。資料位元「2」或「3」可以表示不同類型的異常狀態。

如第5D圖所示，更新狀態ST4(此更新狀態ST4將做為下一循環中的輸入狀態ST4)僅包含了三種症狀及三種醫療檢測的資訊。如此一來，將難以看出此病患在所有症狀與所有醫療檢測整體的情況，由於大部分的症狀與醫療檢測的結果都仍屬於未確認的狀態。於此實施例中，可以透過第四結果狀態RST4計算症狀特徵的機率分布(包含未確認的症狀DS1、DS2、DS4、DS5、DS7及DS9)及醫療檢測結果的機率分布(包含未確認的醫療檢測行動MT2及MT5)。

請一併參閱第5E圖，其繪示於一些實施例中在結果預測階段eDIS當中輸入狀態ST4以及控制方法200決定的行動ACT4a/ACT4b的示意圖。

如第1圖、第2B圖以及第5E圖所示，操作S245用以決定輸入狀態ST4。輸入狀態ST4包含初始狀態(即DS6、DC1-DC3等位元組)、先前的症狀詢問回覆(即DS3及DS8等位元組)以及醫療檢測行動(即MT1、MT3及MT4)的醫療檢測結果(即DT1、DT3、DT4等位元組)由操作S237所選出。

執行操作S246，在結果預測階段eDIS當中，根據輸入狀態ST4由強化學習代理程序140配合神經網路模型NNM，決定所有的候選行動CA4(包含五種結果預測行動DP1-DP5對應到五種不同的疾病)各自的優先值(priority value)。於第5E圖的實施例中，強化學習代理程序140配合神經網路模型NNM，相對應於輸入狀態ST4根據第三神經網路分支部分B3產生的第三結果狀態RST3決定結果預測行動DP1-DP5各自的優先值。於此實施例中，第三結果狀態RST3是根據症狀詢問的答覆(例如患者有胸痛、難以入睡但沒有失去食慾)以及醫療檢測的結果(例如胸腔X光結果為異常，耳鼻喉檢查結果為異常，以及細菌培養檢測的結果為正常)所產生。

於此例子中，由於醫療檢測的結果可以提供重要且關鍵的資訊用以診斷疾病，因此第三結果狀態RST3具有較高的準確性以呈現五種結果預測行動DP1-DP5各自的優先值。

在該實施例中，假設訓練資料TD中的病歷MR1指示患者患有與結果預測行動DP3對應的疾病。如果控制方法200在操作S246中選擇結果預測行動DP3作為當前行動ACT4a，則控制方法200將相應於正確的預測結果給予強化學習代理程序140(及其使用神經網絡模型NNM)一個正的預測獎勵。另一方面，如果控制方法200在操作S246中選擇任何其他結果預測行動(例如，選擇結果預測行動DP1作為當前行動ACT4b)，則控制方法200將給予強化學習代理程序140(及其使用神經網絡模型NNM)一個負的預測獎勵。

在一些實施例中，控制方法200提供一定的標籤引導探索概率(label-guided exploration probability)ε。標籤引導探索概率ε是一特定比例，介於0%到100%之間。在一些實施例中，標籤引導探索概率ε可以在0%和1%之間的範圍內。在一些實施方案中，標籤引導探索概率ε可以是0.5%。標籤引導探索概率ε用於加速神經網絡模型NNM的訓練。

當介於0和1之間的隨機亂數(random value)，落入標籤引導探索概率ε的範圍內時，控制方法200會將正確答案(醫療記錄MR1中已診斷的疾病)提供給神經網絡模型NNM作為結果預測動作，藉以指導神經網絡模型NNM加速進行學習。換句話說，存在0.5%的機會(如果ε=0.5%)，控制方法200將直接給出結果預測行動的正確答案，使得神經網絡模型NNM將在這種情況下直接學習正確的答案。

另一方面，當介於0和1之間的隨機亂數並未落入標籤引導探索概率ε時，控制方法200利用神經網絡模型NNM來選擇結果預測行動。換句話說，在大多數情況下(99.5%的比例，當ε被設定為0.5%時)，將由神經網絡模型NNM負責進行預測，並根據預測結果的正確與否取得獎勵並進行學習。

當操作S230結束時，神經網絡模型NNM已完成症狀詢問行動、醫學檢測行動和結果預測行動的選擇。控制方法200前進到操作S250，用於相應於神經網絡模型NNM先前所選擇的各種行動，提供相應的累積獎勵RE給強化學習代理140。

在這種情況下，當0和1之間的隨機值與標籤引導探索概率ε匹配時，將根據正確的標記資料(直接來自訓練資料TD)訓練神經網絡模型NNM。相較於採用隨機預測標籤並由預測失敗的結果當中進行學習，此方法可以更有效地讓神經網絡模型NNM學習正確的標記資料。因此，標籤引導探索概率ε可用於加速神經網絡模型NNM的訓練。

請一併參閱第2C圖，第2C圖繪示出第2A圖中所示的操作S250中的進一步操作S251-S257的流程圖。

如第1圖、第2C圖和第5D圖所示，操作S251由互動系統120執行，以根據症狀詢問行動的症狀詢問答覆提供症狀異常獎勵。如第5D圖中所示的實施例，輸入狀態ST4 包括標記為「1」的資料位元DS6和DS8，並且這意味著患者具有這兩個症狀S6和S8。根據在患者上詢問和確認的症狀量產生症狀異常獎勵。假設當一症狀詢問行動具有異常結果(即，患者確實具有該症狀)時，將提供一單位的症狀異常獎勵“σ”。如第5D圖的實施例所示，此時有兩種症狀具有異常結果，因此症狀異常獎勵相應為兩單位的症狀異常獎勵σ*2。

如第1圖、第2C圖和第5D圖所示，由互動系統120執行操作S252，根據被選入組合當中的至少一個醫療檢測的總數(參考第2B圖中的操作S242)提供檢測成本懲罰給採用神經網絡模型NNM的強化學習代理140。在第5D圖所示的實施例中，選擇了醫療檢測行動MT1、MT3和MT4。因此，根據醫療檢測行動MT1、MT3和MT4的成本之和(C1+C3+C4)來決定檢測成本懲罰。藉此，可利用檢測成本懲罰來約束由強化學習代理140(及其配合的神經網絡模型NNM)所建議的醫療檢測行動的總量。如果在選擇更多醫療檢測行動時沒有懲罰，神經網絡模型NNM將傾向於選擇盡可能多的醫療檢測行動(則可能包括一些非必要的醫療檢測行動)以爭取得到更多的累積獎勵RE。

在一些實施例中，可以根據執行醫療檢測行動MT1所需要耗材的價格、執行醫療檢測行動MT1所需的時間、執行醫療檢測行動MT1的難度、風險或者醫療檢測行動MT1造成患者的不適程度等各種因素來決定醫療檢測行動MT1的成本C1。類似地，成本C3和成本C4分別關於醫療檢測行動MT3和MT4來確定。

在一些其他實施例中，三個成本C1、C3及C4也可以被設定為相等值或是相似值。

當在第2B圖中的操作S242中將更多醫療檢測行動納入到組合中時，相應的檢測成本懲罰會更高。

如第1圖、第2C圖和第5D圖所示，執行操作S253以確定在組合中選擇的醫療檢測行動(參考第2B圖中的操作S242)是否具有異常結果。在第5D圖所示的實施例中，醫療檢測行動MT3和MT4具有異常結果，並且醫療檢測行動MT1具有正常結果。互動系統120執行操作S254，以提供對應於醫療檢測行動MT3和MT4的檢測結果異常獎勵，給予利用神經網絡模型NNM進行挑選的強化學習代理140。假設當一醫療檢測結果具有異常結果時，將提供醫療檢測結果“λ”。如第5D圖所示，存在兩個具有異常結果的醫療檢測行動MT3和MT4，使得相對應的醫療檢測行動MT3和MT4的檢測結果異常獎勵為λ*2。症狀異常獎勵和檢測結果異常獎勵可以鼓勵神經網絡模型NNM選擇關鍵性的症狀進行詢問或者進行關鍵性的醫療檢測行動。在大多數情況下，相較於患者未發生的症狀，有發生在患者身上的症狀將提供更多有利於診斷的訊息。在大多數情況下，與具有正常結果的醫療檢測行動相比，具有異常結果的醫療檢測行動將提供更多有利於診斷的訊息。

如第1圖、第2C圖及第5E圖，執行操作S255以確定所選擇的結果預測行動(參考第2B圖中的操作 S246)是否正確。

如第5E圖所示，如果選擇結果預測行動DP3，則交互系統120執行操作S256，以向強化學習代理140提供正預測獎勵+m。在這種情況下，由強化學習代理收集的累積獎勵RE將會等於：m+(σ*2)+(λ*2)-(C1+C3+C4)

如第5E圖所示，如果選擇結果預測行動DP1，則交互系統120執行操作S257，以向強化學習代理140提供負預測獎勵-n。在這種情況下，由強化學習代理收集的累積獎勵RE將會等於：(-n)+(σ*2)+(λ*2)-(C1+C3+C4)

接著，第2A圖所示，操作S270由強化學習代理140執行以參考累積獎勵RE來訓練神經網絡模型NNM，累積獎勵RE包括上述檢測結果異常、預測獎勵和檢測成本懲罰。應注意，神經網絡模型NNM的訓練目標是最大化由強化學習代理140收集的累積獎勵RE。

因此，訓練神經網絡模型NNM以進行正確的疾病預測以獲得正預測獎勵。同時，訓練神經網絡模型NNM以選擇醫療檢測行動的合適組合，此合適組合可以盡可能得到較多的檢測異常結果，並且避免選擇太多醫療檢測行動來控制檢測成本懲罰。

此外，神經網絡模型NNM也被訓練為盡可能詢問適當的症狀詢問問題(以達到產生正確的疾病預測，以便能取得正預測獎勵)。

當神經網路模型NNM透過上述第2A圖至第2C圖中的控制方法200訓練完成之後，第1圖中的醫學系統100可以與患者互動，並且根據患者提出的初始症狀以及患者回答多個症狀詢問的答覆，醫學系統500能夠提供相應的疾病預測。請一併參閱第7圖，其繪示在神經網路模型NNM完成訓練後醫學系統500的示意圖。於此例中，互動系統520可以進一步包含輸入/輸出介面，例如鍵盤、滑鼠、麥克風、觸控面板或其他等效的設備，以便與使用者U1進行互動。如第7圖所示，醫學系統500進一步包含決策代理程序560，決策代理程序560可以使用強化學習代理程序540訓練完成的神經網路模型NNM。

醫學系統500可以透過輸入/輸出介面與使用者U1互動(例如從使用者U1收集初始症狀、提供一些症狀詢問至使用者U1及/或從使用者U1收集相應的症狀詢問答覆)。基於上述互動歷程，醫學系統500可以分析、建議進行一些醫療檢測、診斷或預測使用者U1身上可能遭遇的潛在疾病。

於一些實施例中，醫學系統500可以建立在電腦、伺服器或是處理運算中心上。互動系統520、強化學習代理程序540以及決策代理程序560可以透過處理器、中央處理單元或是運算電路加以實現。於一些實施例中，互動系統520可以更包含輸出介面(例如顯示面板以顯示資訊)及輸入裝置(例如觸控板、鍵盤、麥克風、掃描器或是閃存記憶體讀取裝置)讓使用者可以輸入文件指令、給予語音指令或是上傳相關資料(例如影像、病歷或是個人檢查報告)。

在一些實施例中，醫學系統500的至少一部份是由分散式系統所建構。舉例來說，互動系統520、強化學習代理程序540以及決策代理程序560可以建立在雲端運算系統上。

如第7圖所示，使用者U1可以操作互動系統520的輸入/輸出介面。使用者U1可以看到輸入/輸出介面上顯示的資訊以及使用者U1可以在輸入/輸出介面進行輸入。於一實施例中，輸入/輸出介面會顯示一提示詢問使用者U1身上的症狀。使用者U1所輸入的第一個症狀將被視為初始症狀Sini。輸入/輸出介面將會收集使用者輸入的初始症狀Sini作為狀態ST0，互動系統520將把狀態ST0傳送至決策代理程序560。

決策代理程序560用以選擇序列行動ACT0-ACTt。序列行動ACT0-ACTt包含多個症狀詢問行動、醫療檢測行動以及結果預測行動。結果預測行動可以是疾病預測行動及/或對應疾病預測行動的醫療部門建議行動。互動系統520會根據多個序列行動ACT0-ACTt產生相應的多個症狀詢問Sqry以及醫療檢測行動Smed的建議。多個症狀詢問Sqry會依序顯示，使用者可以依序回答多個症狀詢問Sqry，並採取相應的醫療檢測行動Smed，互動系統520會收到對應症狀詢問Sqry的多個症狀答覆Sans並且收到相應多個的醫療檢測行動Smed的醫療檢測結果Smedr，並轉換多個症狀答覆Sans以及醫療檢測結果Smedr為狀態 ST1-STt。在數個症狀詢問之後(當預算用盡時)，第7圖中的醫學系統500將會根據結果預測行動提供一疾病預測或是對應疾病預測的一醫療部門建議給使用者U1。

決策代理程序560會基於訓練後的神經網路模型NNM，根據初始症狀Sini以及所有使用者先前回覆的症狀答覆Sans(在當前的問題之前)，決定最適合的問題(即症狀詢問Sqry)對使用者U1進行詢問。

雖然本發明文件已經在上述相應的實施例中揭露了許多技術細節，本揭示文件仍有許多可能的其他實施方式及實施態樣。因此，本揭示文件及後續申請專利範圍所提出的發明概念與範疇並不僅限於上述直接提及的實施例內容。

雖然本發明之實施例已揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明之精神和範圍內，當可做些許之更動與潤飾，因此本發明之保護範圍當以後附之申請專利範圍所界定為準。

500:醫學系統

520:互動系統

540:強化學習代理程序