TWI745693B

TWI745693B - 控制方法以及醫學系統

Info

Publication number: TWI745693B
Application number: TW108117193A
Authority: TW
Inventors: 彭宇劭; 湯凱富; 張智威; 林軒田
Original assignee: 宏達國際電子股份有限公司
Priority date: 2018-05-18
Filing date: 2019-05-17
Publication date: 2021-11-11
Also published as: CN110504026B; US20190355471A1; US11600387B2; TW202004771A; CN110504026A

Abstract

一種強化學習系統的控制方法包含下列步驟。強化學習系統獲得有關互動系統的訓練資料，互動系統與強化學習代理程序互動。訓練神經網路模型以最大化強化學習代理程序對應多個序列行動所收集到的累積獎勵，其中強化學習代理程序使用神經網路模型從一系列的複數個候選行動中挑選出該些序列行動。在神經網路模型的訓練過程中，根據該些序列行動中的症狀詢問行動與確診症狀之間的比較結果提供累積獎勵當中的複數個輔助獎勵給強化學習代理程序。

Description

控制方法以及醫學系統

本揭示係關於機器學習方法，更進一步而言，本揭示係關於用於醫學系統的強化學習方法。

近年來已經出現了電腦輔助醫學系統的概念以便於患者自我診斷。電腦輔助醫學系統可請求患者提供一些資訊，並隨後基於與患者的互動來嘗試診斷潛在疾病。

本揭示文件提供一種控制方法適用於強化學習系統，控制方法包含下列步驟。獲得有關一互動系統的一訓練資料，該互動系統與一強化學習代理程序互動，該強化學習代理程序用以選擇複數個序列行動，該訓練資料包含一病歷，該病歷記載一確診疾病以及與該確診疾病有關的複數個確診症狀之間的關係。訓練一神經網路模型以最大化該強化學習代理程序對應該些序列行動所收集到的一累積獎勵，其中該強化學習代理程序使用該神經網路模型從一系列的複數個候選行動中挑選出該些序列行動，該些序列行動包含複數個症狀詢問行動以及一結果預測行動。在該神經網路模型的訓練過程中，根據該些症狀詢問行動與該些確診症狀之間的比較結果提供該累積獎勵當中的複數個輔助獎勵給該強化學習代理程序，以及，根據該結果預測行動與該確診疾病之間的比較結果提供該累積獎勵當中的一主要獎勵給該強化學習代理程序。

本揭示文件進一步提供一種醫學系統，醫學系統包含互動系統、強化學習代理程序以及神經網路模型。強化學習代理程序與該互動系統互動，該強化學習代理程序用以挑選出複數個序列行動。強化學習代理程序用以訓練該神經網路模型，其訓練參照該強化學習代理程序與該互動系統之間的互動並且根據一訓練資料，該訓練資料包含一病歷，該病歷記載一確診疾病以及與該確診疾病有關的複數個確診症狀之間的關係。強化學習代理程序使用該神經網路模型從一系列的複數個候選行動中挑選出該些序列行動，該神經網路模型被訓練為最大化該強化學習代理程序對應該些序列行動所收集到的一累積獎勵，該些序列行動包含複數個症狀詢問行動以及一結果預測行動。在該神經網路模型的訓練過程中，該互動系統根據該些症狀詢問行動與該些確診症狀之間的比較結果提供該累積獎勵當中的複數個輔助獎勵給該強化學習代理程序，以及該互動系統根據該結果預測行動與該確診疾病之間的比較結果提供該累積獎勵當中的一主要獎勵給該強化學習代理程序。

須說明的是，上述說明以及後續詳細描述是以實施例方式例示性說明本案，並用以輔助本案所請求之發明內容的解釋與理解。

為讓本揭示內容之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附符號之說明如下：

100、500‧‧‧醫學系統

120、520‧‧‧互動系統

140、540‧‧‧強化學習代理程序

560‧‧‧決策代理程序

200a、200b、300、400‧‧‧控制方法

S210~S228、S229a、S229b‧‧‧操作

S310~S330‧‧‧操作

S410~S430‧‧‧操作

ST0~STt‧‧‧狀態

ACT0~ACTt‧‧‧行動

RE‧‧‧報酬

TD‧‧‧訓練資料

SQA‧‧‧症狀詢問行動

SQ1~SQ9‧‧‧候選行動

DPA‧‧‧疾病預測行動

DP1~DP5‧‧‧候選行動

TDS‧‧‧確診症狀資料

S1~S9‧‧‧症狀

TDC‧‧‧脈絡資料

TDD‧‧‧確診疾病資料

D1~D5‧‧‧疾病

DS‧‧‧症狀資料位元群組

DS1~DS9‧‧‧症狀資料位元

DC‧‧‧脈絡資料位元群組

DC1~DC3‧‧‧脈絡資料位元

CA‧‧‧候選行動

REa0(-)、REa2(-)‧‧‧負值輔助報酬

REa1(+)‧‧‧正值輔助報酬

REm‧‧‧主要報酬

NNL1~NNL4‧‧‧神經網路層

T1~T4‧‧‧中間張量

RST1‧‧‧第一結果狀態

RST2‧‧‧第二結果狀態

COM‧‧‧共同神經網路部分

B1‧‧‧第一分支神經網路部分

B2‧‧‧第二分支神經網路部分

U1‧‧‧使用者

Sini‧‧‧初始症狀

Sqry‧‧‧症狀詢問

Sans‧‧‧症狀答覆

為讓本揭示內容之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：第1圖繪示根據本揭示之一實施例中在訓練階段中的醫學系統的示意圖；第2A圖繪示本揭示文件一些實施例中關於第1圖的醫學系統如何訓練的神經網路模型之控制方法的方法流程圖；第2B圖繪示根據本揭示文件另一實施例中的控制方法有關第1圖中的醫學系統如何訓練神經網路模的方法流程圖；第3圖繪示本揭示文件一些實施例中訓練資料的其中一筆病歷的示意圖；第4A圖繪示於一些實施例中控制方法決定的狀態以及行動的示意圖；第4B圖繪示於一些實施例中控制方法決定的狀態以及行動的示意圖；第4C圖繪示於一些實施例中控制方法決定的狀態以及行動的示意圖；第4D圖繪示於一些實施例中控制方法決定的狀態以及行動的示意圖；第5圖繪示根據本揭示文件一些實施例中一種控制方法的流程圖；第6圖繪示根據本揭示文件一些實施例中神經網路模型的架構示意圖；第7圖繪示一示範性舉例中當輸入至神經網路模型的輸入狀態為第4B圖及第4C圖所示的狀態時所產生的第二結果狀態的示意圖；第8圖繪示本揭示文件另一個實施例中一種控制方法的流程圖；以及第9圖繪示在神經網路模型完成訓練後醫學系統的示意圖。

以下揭示提供許多不同實施例或例證用以實施本揭示文件的不同特徵。特殊例證中的元件及配置在以下討論中被用來簡化本揭示。所討論的任何例證只用來作解說的用途，並不會以任何方式限制本揭示文件或其例證之範圍和意義。在適當的情況下，在圖示之間及相應文字說明中採用相同的標號以代表相同或是相似的元件。

參考第1圖，其繪示根據本揭示之一實施例中在訓練階段中的醫學系統100的示意圖。在訓練階段中的醫學系統100包括互動系統120以及強化學習代理程序140。互動系統120與強化學習代理程序140彼此互動以訓練神經網路模型NNM。強化學習代理程序140用以選擇複數個序列行動，上述序列行動使得互動系統120由一狀態進入另一狀態。強化學習代理程序140訓練神經網路模型NNM時是參照強化學習代理程序140與互動系統120之間的互動並且根據訓練資料TD而進行。

於部分實施例中，互動系統120及強化學習代理程序140可以透過處理器、中央處理單元或是運算電路加以實現。在醫學系統100的訓練階段中，強化學習代理程序140可以訓練用來挑選複數個序列行動的神經網路模型NNM(例如調整神經網路模型NNM當中節點或者互連線路之間的權重或參數)。互動系統120可以作為上述強化學習代理程序140所進行之訓練流程的監督者，舉例來說，互動系統120可以評估強化學習代理程序140所挑選的序列行動，並且給予強化學習代理程序140相應上述序列行動的獎勵。於一些實施例中，強化學習代理程序140訓練神經網路模型NNM的目標在於，將強化學習代理程序140由互動系統120所收集到的獎勵最大化。

強化學習代理程序140利用神經網路模型NNM由一系列的多個候選行動當中挑選出多個序列行動。強化學習代理程序140所挑選出的多個序列行動包含數個症狀詢問行動以及在上述數個症狀詢問行動之後的一個結果預測行動。

於一些實施例中，結果預測行動包含疾病預測行動。於另一些實施例中，結果預測行動包含對應疾病預測行動的醫療部門建議行動。於再一些實施例中，結果預測行動包含疾病預測行動以及對應疾病預測行動的醫療部門建議行動。在下列示範性的舉例當中，強化學習代理程序140所選擇的結果預測行動包含疾病預測行動。然而本揭示文件並不以此為限。

當強化學習代理程序140選擇了適當的序列行動(例如適當的症狀詢問行動或是正確的疾病預測行動)，互動系統120將提供相對應的獎勵給強化學習代理程序140。於一些實施例中，強化學習代理程序140訓練神經網路模型NNM的目標在於將強化學習代理程序140對應各個序列行動所收集到的累積獎勵的總值最大化。如此一來，神經網路模型NNM將會被訓練為盡可能地選擇適當的症狀詢問行動以及正確的疾病預測行動。

請一併參閱第2A圖，其繪示本揭示文件一些實施例中關於第1圖的醫學系統100如何訓練的神經網路模型NNM之控制方法200a的方法流程圖。

如第1圖及第2A圖所示，控制方法200a的操作S210，由互動系統120執行，以取得與互動系統120有關的訓練資料TD。於一些實施例中，訓練資料TD包含多個已確認的病歷。訓練資料TD利用訓練資料TD中上述已確認的病歷來訓練神經網路模型NNM。於一例子中，訓練資料TD可以是由美國疾病管制與預防中心(Centers for Disease Control and Prevention)所取得的資料與相關資訊，上述美國疾病管制與預防中心的網頁位址為https：//www.cdc.gov/datastatistics/index.html。

請一併參閱第3圖，其繪示本揭示文件一些實施例中訓練資料TD的其中一筆病歷MR1的示意圖。於第3圖所示的實施例中，訓練資料TD當中的一筆病歷MR1包含確診症狀資料TDS、脈絡資料TDC以及確診疾病資料TDD。在確診症狀資料TDS當中的資料位元「1」代表病歷MR1當中所提到的病患遭遇到對應的確診症狀。在確診症狀資料TDS當中的資料位元「0」代表病歷MR1當中所提到的病患並未遭遇到對應的確診症狀。如第3圖所示，確診症狀S1、S6、S8有發生在此病患身上，而其他症狀S2-S5、S7及S9則沒有發生在此病患身上。在確診疾病資料TDD當中的資料位元「1」代表病歷MR1當中所提到的病患遭遇到對應的確診疾病。在確診疾病資料TDD當中的資料位元「0」代表病歷MR1當中所提到的病患遭遇到對應的確診疾病。如第3圖所示，病歷MR1當中所提到的病患具有確診疾病D3。

如第3圖所示，病歷MR1記載了確診疾病D3以及與確診疾病D3有關的複數個確診症狀S1、S6及S8之間的關係。此例子中，病歷MR1記載了患有確診疾病D3的病患以及當病患患有確診疾病D3時發生在病患身上相對應的多個症狀(即確診症狀S1、S6及S8)。也就是說，病歷MR1可以用來提示多個可能的疾病D1-D5與多個可能的症狀S1-S9之間的交互關係。當另一份病歷(圖中未繪示)當中的另一位病患具有另一個疾病時，病患將可能具有相對應於另一個疾病的多個不同症狀。即使當兩個病患患有相同的疾病時，兩個病患各自遇到的症狀也不一定完全相同。

需要特別注意的是，第3圖中所繪示的病歷MR1具有五個疾病D1-D5與九種症狀S1-S9之間的交互關係僅僅是作為一種示範性舉例。然而，本揭示文件並不以此為限。於一些實施例中，訓練資料TD當中的多個病歷可以具有200至500個可能症狀對應到200至500個可能疾病。病歷MR1僅繪示出一小部分的可能症狀S1-S9以及一小部分的可能疾病D1-D5以利簡短說明。

第3圖中的病歷MR1顯示病患具有確診疾病D3(而非其他疾病D1、D2、D4或D5)以及病患具有確診症狀S1、S6及S8(而未具有症狀S2-S5、S7及S9)。當病患具有不同的確診疾病以及不同的確診症狀時，病歷當中的資料位元將會隨之不同。

於第3圖所示的一些實施例中，病歷MR1可以進一步具備病患的脈絡資料(context information)TDC，脈絡資料TDC可以表示病患的性別、年齡、血壓、心理狀態、婚姻狀態、DNA序列表或其他有關病患的相關資訊。於一些實施例中，病歷MR1中的脈絡資料TDC也同時被用來訓練神經網路模型NNM。

如第1圖及第2A圖所示，控制方法200a的操作S220，由互動系統120及強化學習代理程序140執行，以根據第3圖中訓練資料TD中的病歷MR1對神經網路模型NNM進行訓練。需注意的是，第3圖繪示了訓練資料TD當中用以訓練神經網路模型NNM的一筆病歷MR1。實際應用中，訓練資料TD當中可以包含大約100筆至大約1000000 筆病歷。操作S220當中討論的訓練流程可以針對多筆病歷重覆進行多次以最佳化訓練後的神經網路模型NNM。

如第2A圖所示的實施例中，控制方法200a的操作S220包含操作S221至S228。如第1圖及第2A圖所示，首先執行操作S221，由互動系統120根據訓練資料TD的病歷MR1決定一狀態。請一併參閱第4A圖，其繪示於一些實施例中控制方法200a決定的狀態ST0、狀態ST1以及行動ACT0的示意圖。

於一示範例子中，互動系統120所決定的狀態ST0繪示於第4A圖的實施例中。狀態ST0包含症狀資料位元群組DS以及脈絡資料位元群組DC。症狀資料位元群組DS中的每一個症狀資料位元DS1至DS9可以被設定為1(正狀態代表此症狀有發生)、-1(負狀態代表此症狀未發生)或0(未確認狀態代表尚未確認此症狀是否發生)。脈絡資料位元群組DC的每一個脈絡資料位元DC1至DC3可以代表病患的性別、年齡、血壓、心理狀態、婚姻狀態、DNA序列表或其他有關病患的相關資訊。舉例來說，脈絡資料位元DC1為「1」可以代表病患是男性，脈絡資料位元DC3為「0」可以代表病患尚未結婚。於實際應用中，脈絡資料位元群組DC可以包含更多的資料位元(圖中未繪示)以記錄年齡、血壓、心理狀態、DNA序列表或其他有關病患的相關資訊。

於第4A圖的實施例中，脈絡資料位元群組DC的脈絡資料位元DC1至DC3可以由第3圖當中病歷MR1的脈絡資料(context information)TDC複製而來。

於第4A圖的一些實施例中，症狀資料位元群組DS當中的症狀資料位元DS6被互動系統120設定為「1」根據第3圖所示的病歷MR1當中的確診症狀S6。於初始狀態ST0當中，只有症狀資料位元DS6已知為「1」，症狀資料位元群組DS中其他的症狀資料位元DS1-DS5以及DS7-DS9目前仍未確認「0」。

如第1圖及第2A圖所示，強化學習代理程序140配合神經網路模型NNM執行操作S222，根據狀態ST0(其中包含症狀資料位元DS6代表了第六個症狀確認發生)由一系列的多個候選行動中挑選出一個行動。

如第4A圖所示，多個候選行動CA包含屬於症狀詢問行動SQA中的九個候選行動SQ1-SQ9以及屬於疾病預測行動DPA的五個候選行動DP1-DP5。當候選行動SQ1被選取時，關於第一個症狀(對應到第3圖中的症狀S1)的詢問將被執行。當候選行動SQ2被選取時，關於第二個症狀(對應到第3圖中的症狀S2)的詢問將被執行。當候選行動SQ3被選取時，關於第三個症狀(對應到第3圖中的症狀S3)的詢問將被執行。相似地，當不同的症狀詢問行動SQA被選取時，將對相應的症狀提出詢問。

另一方面，當候選行動DP1被選取時，關於第一個疾病(對應到第3圖中的疾病D1)的疾病預測將被執行。當候選行動DP2被選取時，關於第二個疾病(對應到第3圖中的疾病D2)的疾病預測將被執行。相似地，當不同的疾病預測行動DPA被選取時，將會給出相應的疾病預測。

於第1圖及第2A圖的一些實施例中，在挑選出最終疾病預測(即由多個疾病預測行動DPA中選出一個疾病預測行動)之前，將先進行幾次的症狀詢問(即由從多個症狀詢問行動SQA中依序選出多少個行動進行詢問)是由套用在醫學系統100上的預算「t」而決定。於後續的實施例中，預算「t」是以「3」作為舉例說明。換句話說，強化學習代理程序140會先由多個症狀詢問行動SQA挑選其中一個行動，進行三次循環之後，才會由多個疾病預測行動DPA選出一個行動。

另一方面，當預算「t」已用盡時，第1圖及第2A圖中強化學習代理程序140將會由多個疾病預測行動DPA中的候選行動中選出一者。於一些實施例中，強化學習代理程序140是利用神經網路模型NNM來決定如何挑選多個序列行動，以最大化強化學習代理程序140由互動系統120所收集到的累積獎勵，這些累積獎勵是相對應於上述挑選出的多個序列行動。本揭示文件並不限制於預算「t=3」。預算「t」可以被設定為大於1的正整數。於一些實施例中，預算「t」可以被設定為5到9之間。

於另一些實施例中，預算「t」可以被視為在決定最終疾病預測(即由多個疾病預測行動DPA中選出一個疾病預測行動)之前將會進行的症狀詢問次數(也就是由多個症狀詢問行動SQA挑出幾次行動)的最大數量。然而，強化學習代理程序140並未被限定於在所有情況(例如對應訓練資料TD當中所有的病患或所有的病歷)下都必須詢問「t」個症狀詢問。如果強化學習代理程序140已經收集了足夠的資訊以便在多個疾病預測行動DPA選出其中一者，則即使在預算「t」尚未用盡時，強化學習代理程序140就可以在多個疾病預測行動DPA選出一個行動。

於一些例子中，當多個疾病預測行動DPA中被選出的一個疾病預測是正確的時候(符合訓練資料的病歷中確診疾病)，強化學習代理程序140會收到正值報酬RE。另一方面，當多個疾病預測行動DPA中被選出的一個疾病預測是錯誤的時候(不符合訓練資料的病歷中確診疾病)，強化學習代理程序140會收到負值報酬RE。於上述提出的例子中，強化學習代理程序140在選擇症狀詢問行動SQA的過程中並不直接收到任何報酬。由訓練資料TD的多個病歷中可以觀察到，具有一個特定確診疾病的病患通常會遭遇到三到四個相應的確診症狀。根據一些病歷的統計資料，一個病患平均遇到3.07個症狀至3.19個症狀。需注意的是，在一般的實際應用中，在多個疾病預測行動DPA存在有相當多個候選行動(例如300個或以上)，強化學習代理程序140在做出疾病預測之前僅會從中挑選有限數量的症狀詢問行動加以詢問。在上述情況下，大部分的症狀詢問行動SQA收到的答案將是「否」，只有極少比例的症狀詢問行動SQA收到的答案會是「是」。如此一來，需要鼓勵盡可能挑選出症狀詢問行動SQA當中潛在答案較有機會為「是」的詢問行動，因為這樣對疾病預測而言可以提供較多資訊(或者可以提供關鍵資訊)。當強化學習代理程序140所收集到的報酬RE僅僅考慮疾病預測行動DPA其挑選的正確性時，訓練流程將不會直接鼓勵強化學習代理程序140去選擇症狀詢問行動SQA當中潛在答案較有機會為「是」的詢問行動。

因此，於一些實施例中，醫學系統100將(在有關症狀詢問行動SQA的主要報酬之外)提供對應於症狀詢問行動SQA的輔助報酬。

如第4A圖的實施例所示，執行操作S222，由強化學習代理程序140將症狀詢問行動SQA當中的候選行動SQ3選為行動ACT0。於操作S223當中，當前的行動被判定為症狀詢問行動SQA中的一者。相應地，互動系統120或強化學習代理程序140執行操作S224，以驗證目前選出的症狀詢問行動SQA之候選行動SQ3，選出的候選行動SQ3將與訓練資料TD的病歷MR1當中的確診症狀進行比較。

根據第3圖所示訓練資料TD的病歷MR1，對應症狀詢問行動SQA之候選行動SQ3的答覆為「否」。對應於症狀詢問行動SQA之一者並未符合訓練資料TD中的確診症狀，將執行操作S225，提供負值輔助報酬REa0(-)給強化學習代理程序140，如第4A圖所示。因為此時預算「t」尚未用盡，控制方法200a將回到操作S221，由互動系統120判定更新後的狀態ST1。如第4A圖所示，在狀態ST1當中，症狀資料位元群組DS當中的症狀資料位元DS3由未確認狀態「0」改為負狀態「-1」，其代表第三個症狀並未發生在患者身上。控制方法200a將接著根據新的狀態ST1進行操作S222。

請一併參閱第4B圖，其繪示於一些實施例中控制方法200a決定的狀態ST1、狀態ST2以及另一行動ACT1的示意圖。

如第1圖、第2A圖以及第4B圖所示，配合神經網路模型NNM的強化學習代理程序140執行操作S222，由根據狀態ST1(其中包含症狀資料位元DS6代表了第六個症狀確認發生，以及症狀資料位元DS3代表了第三個症狀並未發生)由一系列的多個候選行動中挑選出一個行動。

如第4B圖的實施例所示，在操作S222中，由強化學習代理程序140將症狀詢問行動SQA當中的候選行動SQ8選為行動ACT1。於操作S223當中，當前的行動被判定為症狀詢問行動SQA中的一者。相應地，互動系統120或強化學習代理程序140執行操作S224，以驗證目前選出的症狀詢問行動SQA之候選行動SQ8，選出的候選行動SQ8將與訓練資料TD的病歷MR1當中的確診症狀進行比較。

根據第3圖所示訓練資料TD的病歷MR1，對應症狀詢問行動SQA之候選行動SQ8的答覆為「是」。對應於症狀詢問行動SQA之一者符合訓練資料TD中的確診症狀，將執行操作S225，提供正值輔助報酬REa1(+)給強化學習代理程序140，如第4B圖所示。因為此時預算「t」尚未用盡，控制方法200a將回到操作S221，由互動系統120判定更新後的狀態ST2。如第4B圖所示，在狀態ST2當中，症狀資料位元群組DS當中的症狀資料位元DS8由未確認狀態「0」改為正狀態「1」，其代表第八個症狀確認發生在患者身上。控制方法200a將接著根據新的狀態ST2進行操作S222。

請一併參閱第4C圖，其繪示於一些實施例中控制方法200a決定的狀態ST2、狀態ST3以及另一行動ACT2的示意圖。

如第1圖、第2A圖以及第4C圖所示，配合神經網路模型NNM的強化學習代理程序140執行操作S222，由根據狀態ST2由一系列的多個候選行動中挑選出一個行動。

如第4C圖的實施例所示，在操作S222中，由強化學習代理程序140將症狀詢問行動SQA當中的候選行動SQ4選為行動ACT2。於操作S223當中，當前的行動被判定為症狀詢問行動SQA中的一者。相應地，互動系統120或強化學習代理程序140執行操作S224，以驗證目前選出的症狀詢問行動SQA之候選行動SQ4，選出的候選行動SQ4將與訓練資料TD的病歷MR1當中的確診症狀進行比較。

在上述實施例中，每個階段所選出的當前行動，是由尚未確認的症狀詢問行動SQA當中選出。強化學習代理程序140應當避免重複選出相同的症狀詢問行動，因為這將造成時間上的浪費並且無法提供有效的判斷資訊。互動系統120會驗證強化學習代理程序140是否重複選出相同的症狀詢問行動。於一些實施例中，互動系統120將當前選取的症狀詢問行動與所有先前曾經選取的症狀詢問行動進行比較，判斷當前選取行動是否與任何一個先前選取行動指向相同症狀。若當前選取行動與先前選取行動指向相同症狀，互動系統120將提供負值輔助獎勵至強化學習代理程序140。

根據第3圖所示訓練資料TD的病歷MR1，對應症狀詢問行動SQA之候選行動SQ4的答覆為「否」。對應於症狀詢問行動SQA之一者並未符合訓練資料TD中的確診症狀，將執行操作S225，提供負值輔助報酬REa2(-)給強化學習代理程序140，如第4C圖所示。控制方法200a將回到操作S221，由互動系統120判定更新後的狀態ST3。如第4C圖所示，在狀態ST3當中，症狀資料位元群組DS當中的症狀資料位元DS4由未確認狀態「0」改為負狀態「-1」，其代表第四個症狀並未發生在患者身上。控制方法200a將接著根據新的狀態ST3進行操作S222。根據本示範性舉例，在這個回合中已經到達了設定的預算「t」。

請一併參閱第4D圖，其繪示於一些實施例中控制方法200a決定的狀態ST3以及另一行動ACT3的示意圖。

如第1圖、第2A圖以及第4D圖所示，配合神經網路模型NNM的強化學習代理程序140執行操作S222，由根據狀態ST3由多個疾病預測行動DPA的五個候選行動DP1-DP5中挑選出一個行動。

假設，當疾病預測行動DPA當中的候選行動DP3被選出為行動ACT3a，如第4D圖所示，將提供正值主要報酬「REm=1」至強化學習代理程序140。於此情況下，強化學習代理程序140收集到的累積報酬將為：REa0(-)+REa1(+)+REa2(-)+1

假設，當疾病預測行動DPA當中的候選行動DP1被選出為行動ACT3b，如第4D圖所示，將提供負值主要報酬「REm=-1」至強化學習代理程序140。於此情況下，強化學習代理程序140收集到的累積報酬將為：REa0(-)+REa1(+)+REa2(-)+(-1)

需特別說明的是，神經網路模型NNM被訓練以最大化強化學習代理程序140收集到的累積報酬。因此，神經網路模型NNM將被訓練為盡可能做出正確的疾病預測以取得正值主要報酬「1」，於此同時，神經網路模型NNM也被訓練為提出適當的症狀詢問(以利能夠做出正確的疾病預測進而取得正值主要報酬)。即使控制方法200a在原始報酬(即主要報酬)之外提供額外的輔助報酬，控制方法200a可以透過給予輔助報酬適當的數值邊界，以確保輔助報酬並未影響此強化學習原本的馬可夫決策過程(Markov decision process,MDP)。

於一些其他的實施例中，對應一序列順序的序列行動ACT0、ACT1、ACT2以及ACT3a/ACT3b所提供的多個輔助獎勵具有逐漸提高的折扣率。

假設，當疾病預測行動DPA當中的候選行動DP3被選出為行動ACT3a，如第4D圖所示，將提供正值主要報酬「REm=1」至強化學習代理程序140。於此情況下，強化學習代理程序140收集到的累積報酬將為：REa0(-)+[d*REa1(+)]+[d^2*REa2(-)]+[d^3*1]

在上述式子中，d為報酬的折扣參數，d為0到1之間的一個正值。舉例來說，d可以是0.99、0.9、0.8或其他適當的數值。

於此例子中，對應行動ACT0的輔助報酬REa0(-)是在較早的階段所提供，相對於對應另一行動ACT1的輔助報酬[d*REa1(+)]。於此例子中，輔助報酬REa0(-)並未受到折扣參數影響，而輔助報酬[d*REa1(+)]則根據折扣參數「d」而提供。

於此例子中，對應行動ACT1的輔助報酬[d*REa1(+)]是在較早的階段所提供，相對於對應另一行動ACT2的輔助報酬[d^2*REa2(-)]。於此例子中，輔助報酬REa0(-)並未受到折扣參數影響，輔助報酬[d*REa1(+)]則根據折扣參數「d」而提供，輔助報酬[d^2*REa2(-)]則根據折扣參數的平方值「d^2」而提供。換句話說，折扣參數將逐漸降低較晚的階段所提供的報酬。

於一些實施例中，輔助報酬適當的數值邊界的做法如下段落所述，以確保輔助報酬並未影響此強化學習原本的馬可夫決策過程。輔助報酬可以透過下列方式計算：γ*(更新狀態中的確認存在症狀的數量*λ)-(當前狀態中的確認存在症狀的數量*λ)

其中，參數γ的數值範圍介於K/(K+1)與1之間。其中，變數K等於確認存在症狀的數量或者預算「t」兩者之間的最小值。參數λ為正的常數。

於一些例子中，負值輔助報酬REa0(-)可以計算如下：γ*(1 *λ)-(1 *λ)

由於參數γ的數值範圍介於K/(K+1)與1之間。負值輔助報酬REa0(-)，即γ*(1 *λ)-(1 *λ)計算結果將為負值，因此，負值輔助報酬REa0(-)便可視為選出答案為「否」的症狀詢問時的一種懲罰。

於一些例子中，正值輔助報酬REa1(+)可以計算如下：γ*(2*λ)-(1*λ)

由於參數γ的數值範圍介於K/(K+1)與1之間。正值輔助報酬REa1(+)，即γ*(2 *λ)-(1 *λ)計算結果將為正值，因此，正值輔助報酬REa1(+)便可視為選出答案為「是」的症狀詢問時的一種獎勵。

於一些例子中，負值輔助報酬REa2(-)可以計算如下：γ*(2 *λ)-(2 *λ)

由於參數γ的數值範圍介於K/(K+1)與1之間。負值輔助報酬REa2(-)，即γ*(2 *λ)-(2 *λ)計算結果將為負值，因此，負值輔助報酬REa2(-)便可視為選出答案為「否」的症狀詢問時的一種懲罰。

為了鼓勵強化學習代理程序140更快速發現存在症狀，簡單的發想是當詢問到存在的症狀時提供給代理程序一個輔助性質的獎勵，並且在詢問到不存在的症狀時提供相對較少(或是負值)的獎勵。上述第2A圖中的控制方法200a可以被視為獎勵塑形的機制，其將馬可夫決策過程中原本的目標函式改變為新的目標函式，以利強化學習能更好的解決當前的決策問題。由於某些重要的負向症狀答覆(也就是此症狀未發生)也有助於區分疾病，在得到負向症狀答覆時直接懲罰代理程序(透過給予非正值的輔助獎勵)是違反直覺的。透過控制方法200a給予輔助獎勵適當的數值邊界，可以確保在提供輔助獎勵的同時不影響強化學習的最佳化策略。如此一來，代理程序雖然可能會收到非正值的輔助獎勵，但代理程序仍會學習去提出具有關鍵性且可能得到負向答覆的症狀詢問。

於第1圖及第2A圖的實施例中，當預算「t」用盡時，強化學習代理程序140將會從疾病預測行動DPA選出其中一個候選行動，而不會從症狀詢問行動SQA當中挑選。然而，本揭示文件並不以此為限。請一併參閱第2B圖，其繪示根據本揭示文件另一實施例中的控制方法200b有關第1圖中的醫學系統100如何訓練神經網路模型NNM。相對於第2A圖所示的實施例，第2B圖中的控制方法200b進一步包含操作S229a以及S229b。在第2B圖所示的實施例中，不論預算「t」數值為何，強化學習代理程序140可以從症狀詢問行動SQA以及疾病預測行動DPA當中選出一個行動。換句話說，當預算「t」用盡時，強化學習代理程序140仍有可能由症狀詢問行動SQA當中選出一個行動。如第2B 圖所示，在操作S223之後且在操作S224之前，執行操作S229a以判斷預算「t」是否用盡。若當前選出的行動是症狀詢問行動SQA其中一者且預算「t」尚未用盡，控制方法200b便執行操作S224。

若當前選出的行動是症狀詢問行動SQA其中一者且預算「t」已用盡，控制方法200b便執行操作S229b，以提供負值的主要報酬(例如主要報酬設為-1)給強化學習代理程序140。接著，執行操作S228，基於累積報酬訓練神經網路模型NNM。於此例子中，在上述訓練過程中負值的主要報酬將會建議強化學習代理程序140避免在預算「t」已用盡時仍選出症狀詢問行動SQA其中一者。

請一併參閱第5圖，其繪示根據本揭示文件一些實施例中一種控制方法300的流程圖。於第5圖的實施例中，操作S310以及操作S321至S327相似於先前第2A圖的實施例中操作S210以及操作S221至S227，在此不令贅述。

於第5圖所示，控制方法300更包含操作S328、S329以及S330。在第1圖及第5圖的實施例中，強化學習代理程序140所使用的神經網路模型NNM可以是雙重神經網路(dual neural network model)。請一併參閱第6圖，其繪示根據本揭示文件一些實施例中神經網路模型NNM的架構示意圖。如第6圖所示，強化學習代理程序140用來挑選序列行動的神經網路模型NNM包含共同神經網路部分COM、第一分支神經網路部分B1以及第二分支神經網路部分B2。

相較第2A圖中的控制方法200a，第5圖所示之控制方法300更包含操作S328、S329以及S330。然而，本揭示文件並不此此為限。透過相似的方式，控制方法300的操作S328、S329以及S330也可以應用到如第2B圖所示的控制方法200b(其包含操作S229a以及S229b)。

如第6圖所示，共同神經網路部分COM包含神經網路層NNL1以及另一神經網路層NNL2。神經網路層NNL1用以轉換輸入狀態ST0-STt至一個中間張量(intermediate tensor)T1，神經網路層NNL2用以將中間張量T1轉換為另一個中間張量T2。於一實施例中，神經網路層NNL1以及神經網路層NNL2可以是全連接層(fully-connection layer)或是卷積運算層(convolution filter layer)。

如第6圖所示，第一分支神經網路部分B1與第二分支神經網路部分B2分別連接至共同神經網路部分COM。

如第6圖所示，第一分支神經網路部分B1包含神經網路層NNL3。神經網路層NNL3用以轉換中間張量T2至另一個中間張量T3。於一實施例中，神經網路層NNL3可以是全連接層(fully-connection layer)或是卷積運算層(convolution filter layer)。於一些實施例中，第一分支神經網路部分B1的中間張量T3可以由一全連接層處理為第一結果狀態RST1。第一分支神經網路部分B1產生的第一結果狀態RST1可以用來選出一個症狀詢問行動或一個結果預測行動(包含疾病預測行動及/或對應疾病預測行動的醫療部分建議行動)，例如先前第2A圖或第2B圖之實施例當中提到的操作S221至S227、或是相似的第5圖中之實施例當中提到的操作S321至S327。

如第6圖所示，第二分支神經網路部分B2包含神經網路層NNL4。神經網路層NNL4用以轉換中間張量T2至另一個中間張量T4。於一實施例中，神經網路層NNL4可以是全連接層(fully-connection layer)或是卷積運算層(convolution filter layer)。於一些實施例中，第二分支神經網路部分B2的中間張量T4可以由一全連接層處理為第二結果狀態RST2。第二分支神經網路B2產生的第二結果狀態RST2用以重建複數個症狀特徵的機率分佈。

請一併參閱第7圖，其繪示一示範性舉例中當輸入至神經網路模型NNM的輸入狀態為第4B圖及第4C圖所示的狀態ST2時所產生的第二結果狀態RST2的示意圖。如第4B圖、第4C圖以及第7圖所示，輸入狀態(即第4B圖及第4C圖所示的狀態ST2)僅包含了有關兩個症狀的資訊，其中第三個症狀為不存在以及第六個症狀為存在。此時，由於大部分的症狀都還是未確認的狀態(在第7圖的實施例中輸入狀態中仍有七個症狀仍未確認)，較難以看出目前狀態下症狀分佈的全貌。如第5圖、第6圖以及第7圖的實施例所示，執行操作S328，由神經網路模型NNM中第二分支神經網路部分B2根據輸入狀態ST2重建複數個症狀特徵的機率分佈，同時神經網路模型NNM中第一分支神經網路部分B1 平行處理用以挑選序列行動(如操作S322至操作S327)。

如第7圖所示，基於第二分支神經網路部分B2產生的第二結果狀態RST2顯示複數個症狀特徵的機率分佈。如第7圖所示，第二分支神經網路部分B2對應第一個症狀至第九個症狀各自的機率分佈計算的結果分別為0.7、0.2、0.1、0.2、0.5、0.9、0.3、0.6及0.1。如第5圖所示，由互動系統120或強化學習代理程序140執行操作S329，計算症狀特徵的機率分佈與病歷MR1(視為基本事實)當中確診症狀之間的差距。於一些實施例中，症狀特徵的機率分佈與病歷MR1當中確診症狀之間的差距的計算方式，可以兩者的相減後的平方值加總。舉例來說，於第7圖中，針對第一個症狀特徵以及病歷MR1當中第一個症狀的差距計算可以是(0.7-1)^2。多個症狀特徵的機率分佈與病歷MR1當中確診症狀之間的加總差距可以透過下列方式計算：(0.7-1)^2+(0.2-0)^2+(0.1-0)^2+...+(0.1-0)^2

當加總差距較大時，表示目前的神經網路模型NNM在重建症狀特徵的機率分佈的效率較低。於此情況下，當前的神經網路模型在後續訓練過程中將被更新調整。

在一些實施例中，症狀特徵的機率分佈與病歷MR1當中確診症狀之間的差距可以透過二進位交叉熵損失函數(Binary Cross Entropy loss function,BCE loss function)加以計算。但本揭示文件並不僅限於上述計算方式。

於第5圖的實施例中，執行操作S330，以訓練第1圖中的神經網路模型NNM，以最大化累積獎勵(包含在操作S322至操作S327中得到的多個輔助獎勵以及主要獎勵的加總)以及同時最小化上述症狀特徵的機率分佈與病歷當中確診症狀之間的差距。

換句話說，神經網路模型NNM的目標函式可以設定為：累積獎勵-β*(BCE損失函數的累積值)

在上述目標函式中，β為一個超參數(hyper-parameter)，其用以控制重建任務的重要性。神經網路模型NNM被訓練為最大化目標函式的總值，也就代表了最大化累積獎勵以及最小化症狀特徵的機率分佈與確診症狀之間的差距。於第5圖的實施例中，輔助獎勵是由操作S325提供，而症狀特徵的機率分佈的重建是由操作S328至操作S329所進行。然而本揭示文件並不限定於必須進行上述全部操作。

請一併參閱第8圖，其繪示本揭示文件另一個實施例中一種控制方法400的流程圖。其中，第8圖中的操作S410、S421、S422、S423、S424、S426以及S427相似於第2A圖之實施例中的操作S221、S222、S223、S224、S226以及S227，以及第8圖中的操作S428及S429相似於第5圖中的操作S328及S329。需特別注意的是，控制方法400並未提供任何輔助獎勵。於此實施例中，執行操作S430訓練第1圖中的神經網路模型NNM以最大化收到的主要報酬(於操作S427中取得)以及最小化症狀特徵的機率分佈與確診症狀之間的差距(於操作S429中計算得知)。於此例子中，神經網路模型NNM的目標函式可以設定為：累積獎勵-β*(BCE損失函數的累積值)=主要獎勵-β*(BCE損失函數的累積值)

當神經網路模型NNM透過上述第2A圖、第2B圖、第5圖或第8圖中的控制方法200a、200b、300或400訓練完成之後，第1圖中的醫學系統100可以與患者互動，並且根據患者提出的初始症狀以及患者回答多個症狀詢問的答覆，醫學系統500能夠提供相應的疾病預測。請一併參閱第9圖，其繪示在神經網路模型NNM完成訓練後醫學系統500的示意圖。於此例中，互動系統520可以進一步包含輸入/輸出介面，例如鍵盤、滑鼠、麥克風、觸控面板或其他等效的設備，以便與使用者U1進行互動。如第9圖所示，醫學系統500進一步包含決策代理程序560，決策代理程序560可以使用強化學習代理程序540訓練完成的神經網路模型NNM。

醫學系統500可以透過輸入/輸出介面與使用者U1互動(例如由使用者U1收集初始症狀、提供一些症狀詢問至使用者U1及/或由使用者U1處收集相應的症狀詢問答覆)。基於上述互動歷程，醫學系統500可以分析、診斷或預測使用者U1身上可能遭遇的潛在疾病。

於一些實施例中，醫學系統500可以建立在電腦、伺服器或是處理運算中心上。互動系統520、強化學習代理程序540以及決策代理程序560可以透過處理器、中央處理單元或是運算電路加以實現。於一些實施例中，互動系統520可以更包含輸出介面(例如顯示面板以顯示資訊)及輸入裝置(例如觸控板、鍵盤、麥克風、掃描器或是閃存記憶體讀取裝置)讓使用者可以輸入文件指令、給予語音指令或是上傳相關資料(例如影像、病歷或是個人檢查報告)。

在一些實施例中，醫學系統500的至少一部份是由分散式系統所建構。舉例來說，互動系統520、強化學習代理程序540以及決策代理程序560可以建立在雲端運算系統上。

如第9圖所示，使用者U1可以操作互動系統520的輸入/輸出介面。使用者U1可以看到輸入/輸出介面上顯示的資訊以及使用者U1可以在輸入/輸出介面進行輸入。於一實施例中，輸入/輸出介面會顯示一個提示詢問使用者U1身上的症狀。使用者U1所輸入的第一個症狀將被視為初始症狀Sini。輸入/輸出介面將會收集使用者輸入的初始症狀Sini作為狀態ST0，互動系統520將把狀態ST0傳送至決策代理程序560。

決策代理程序560用以選擇序列行動ACT0-ACTt。序列行動ACT0-ACTt包含多個症狀詢問行動以及一個結果預測行動。結果預測行動可以是疾病預測行動及/或對應疾病預測行動的醫療部門建議行動。互動系統520會根據多個序列行動ACT0-ACTt產生相應的多個症狀詢問Sqry。多個症狀詢問Sqry會依序顯示，使用者可以依序回答多個症狀詢問Sqry，互動系統520會收到對應症狀詢問Sqry的多個症狀答覆Sans，並轉換多個症狀答覆Sans為狀態ST1-STt。在數個症狀詢問之後(當預算用盡時)，第9圖中的醫學系統500將會根據結果預測行動提供一個疾病預測或是對應疾病預測的一個醫療部門建議給使用者U1。

決策代理程序560會基於訓練後的神經網路模型NNM，根據初始症狀Sini以及所有使用者先前回覆的症狀答覆Sans(在當前的問題之前)，決定最適合的問題(即症狀詢問Sqry)對使用者U1進行詢問。

雖然本發明之實施例已揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明之精神和範圍內，當可做些許之更動與潤飾，因此本發明之保護範圍當以後附之申請專利範圍所界定為準。

400‧‧‧控制方法

S410~S430‧‧‧操作

Claims

一種控制方法，適用於一強化學習系統，該控制方法包含：獲得有關一互動系統的一訓練資料，該互動系統與一強化學習代理程序互動，該強化學習代理程序用以選擇複數個序列行動，該訓練資料包含一病歷，該病歷記載一確診疾病以及與該確診疾病有關的複數個確診症狀之間的關係；訓練一神經網路模型以最大化該強化學習代理程序對應該些序列行動所收集到的一累積獎勵，其中該強化學習代理程序使用該神經網路模型從一系列的複數個候選行動中挑選出該些序列行動，該些序列行動包含複數個症狀詢問行動以及一結果預測行動；以及在該神經網路模型的訓練過程中，根據該些症狀詢問行動與該些確診症狀之間的比較結果提供該累積獎勵當中的複數個輔助獎勵給該強化學習代理程序，以及，根據該結果預測行動與該確診疾病之間的比較結果提供該累積獎勵當中的一主要獎勵給該強化學習代理程序。
如請求項1所述之控制方法，其中提供該些輔助獎勵的步驟包含：將該些症狀詢問行動每一者各自與該訓練資料中的該些確診症狀比較；相對應於該症狀詢問行動其中一者符合該訓練資料中該些確診症狀其中一者，提供一正值輔助獎勵；以及相對應於該症狀詢問行動其中該者並未符合該訓練資料中該些確診症狀任一者，提供一負值輔助獎勵。
如請求項2所述之控制方法，其中提供該些輔助獎勵的步驟包含：判斷該些症狀詢問行動當中一當前選取行動是否與該些症狀詢問行動當中一先前選取行動指向一相同症狀；以及相對應於該當前選取行動與該先前選取行動指向該相同症狀，提供該負值輔助獎勵。
如請求項2所述之控制方法，其中依照一序列順序提供的該些輔助獎勵具有逐漸提高的折扣率。
如請求項4所述之控制方法，其中提供該些輔助獎勵當中的一第一輔助獎勵的次序早於提供該些輔助獎勵當中的一第二輔助獎勵的次序，提供該第二輔助獎勵時採用一折扣參數。
如請求項1所述之控制方法，其中該神經網路模型包含一共同神經網路部分、一第一分支神經網路部分以及一第二分支神經網路部分，該第一分支神經網路部分與該第二分支神經網路部分分別連接至該共同神經網路部分，該第一分支神經網路產生的一第一結果狀態用以選擇該些症狀詢問行動或該結果預測行動，該第二分支神經網路產生的一第二結果狀態用以重建複數個症狀特徵的一機率分佈。
如請求項6所述之控制方法，其中在訓練過程中該神經網路模型的一目標函數包含最大化該累積獎勵以及最小化該些症狀特徵的該機率分佈與該些確診症狀之間的一差距。
如請求項1所述之控制方法，其中該強化學習代理程序所選擇的該些序列行動使得該互動系統由一狀態進入另一狀態，該互動系統的一狀態資料包含複數個症狀資料位元以及複數個脈絡資料位元，該些症狀資料位元記載在該病歷中一病患身上是否發生複數個症狀各自的一正狀態、一負狀態或是一未確認狀態，該些脈絡資料位元記載與該病歷中該病患的相關資訊。
如請求項1所述之控制方法，其中該結果預測行動包含一疾病預測行動以及對應該疾病預測行動之一醫療部門建議行動兩者至少一者。
如請求項1所述之控制方法，其中在該神經網路模型的完成訓練後，該控制方法更包含：利用該互動系統由一使用者收集一初始症狀作為輸入至該強化學習代理程序的一初始狀態；根據該神經網路模型選擇該些序列行動；以及根據該些序列行動中的該結果預測行動，提供一疾病預測或者一醫療部門建議。
一種醫學系統，包含：一互動系統；一強化學習代理程序，與該互動系統互動，該強化學習代理程序用以挑選出複數個序列行動；以及一神經網路模型，該強化學習代理程序用以訓練該神經網路模型，其訓練參照該強化學習代理程序與該互動系統之間的互動並且根據一訓練資料，該訓練資料包含一病歷，該病歷記載一確診疾病以及與該確診疾病有關的複數個確診症狀之間的關係，其中，該強化學習代理程序使用該神經網路模型從一系列的複數個候選行動中挑選出該些序列行動，該神經網路模型被訓練為最大化該強化學習代理程序對應該些序列行動所收集到的一累積獎勵，該些序列行動包含複數個症狀詢問行動以及一結果預測行動，在該神經網路模型的訓練過程中，該互動系統根據該些症狀詢問行動與該些確診症狀之間的比較結果提供該累積獎勵當中的複數個輔助獎勵給該強化學習代理程序，以及該互動系統根據該結果預測行動與該確診疾病之間的比較結果提供該累積獎勵當中的一主要獎勵給該強化學習代理程序。
如請求項11所述之醫學系統，其中在提供該些輔助獎勵的過程中，該互動系統將該些症狀詢問行動每一者各自與該訓練資料中的該些確診症狀比較，該互動系統提供一正值輔助獎勵相對應於該症狀詢問行動其中一者符合該訓練資料中該些確診症狀其中一者，該互動系統提供一負值輔助獎勵相對應於該症狀詢問行動其中該者並未符合該訓練資料中該些確診症狀任一者。
如請求項12所述之醫學系統，其中該互動系統判斷該些症狀詢問行動當中一當前選取行動是否與該些症狀詢問行動當中一先前選取行動指向一相同症狀，以及該互動系統提供該負值輔助獎勵相對應於該當前選取行動與該先前選取行動指向該相同症狀。
如請求項12所述之醫學系統，其中依照一序列順序提供的該些輔助獎勵具有逐漸提高的折扣率。
如請求項14所述之醫學系統，其中該互動系統提供該些輔助獎勵當中的一第一輔助獎勵的次序早於提供該些輔助獎勵當中的一第二輔助獎勵的次序，該互動系統提供該第二輔助獎勵時採用一折扣參數。
如請求項11所述之醫學系統，其中該神經網路模型包含一共同神經網路部分、一第一分支神經網路部分以及一第二分支神經網路部分，該第一分支神經網路部分與該第二分支神經網路部分分別連接至該共同神經網路部分，該第一分支神經網路產生的一第一結果狀態用以選擇該些症狀詢問行動或該結果預測行動，該第二分支神經網路產生的一第二結果狀態用以重建複數個症狀特徵的一機率分佈。
如請求項16所述之醫學系統，其中在訓練過程中該神經網路模型的一目標函數包含最大化該累積獎勵以及最小化該些症狀特徵的該機率分佈與該些確診症狀之間的一差距。
如請求項11所述之醫學系統，其中該強化學習代理程序所選擇的該些序列行動使得該互動系統由一狀態進入另一狀態，該互動系統的一狀態資料包含複數個症狀資料位元以及複數個脈絡資料位元，該些症狀資料位元記載在該病歷中一病患身上是否發生複數個症狀各自的一正狀態、一負狀態或是一未確認狀態，該些脈絡資料位元記載與該病歷中該病患的相關資訊。
如請求項11所述之醫學系統，其中該結果預測行動包含一疾病預測行動以及對應該疾病預測行動之一醫療部門建議行動兩者至少一者。
如請求項11所述之醫學系統，其中該醫學系統包含一決策代理程序，在該神經網路模型的完成訓練後，該該互動系統由一使用者收集一初始症狀作為輸入至該決策代理程序的一初始狀態，該決策代理程序根據該神經網路模型選擇該些序列行動，該決策代理程序根據該些序列行動中的該結果預測行動提供一疾病預測或者一醫療部門建議。