TW202223921A - 跨血液性惡性腫瘤遷移學習 - Google Patents

跨血液性惡性腫瘤遷移學習 Download PDF

Info

Publication number
TW202223921A
TW202223921A TW110128566A TW110128566A TW202223921A TW 202223921 A TW202223921 A TW 202223921A TW 110128566 A TW110128566 A TW 110128566A TW 110128566 A TW110128566 A TW 110128566A TW 202223921 A TW202223921 A TW 202223921A
Authority
TW
Taiwan
Prior art keywords
model
data
representation
training
training model
Prior art date
Application number
TW110128566A
Other languages
English (en)
Inventor
李政霖
陳玉霖
李祈均
王毓棻
Original Assignee
先勁智能有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 先勁智能有限公司 filed Critical 先勁智能有限公司
Publication of TW202223921A publication Critical patent/TW202223921A/zh

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57426Specifically defined cancers leukemia
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Abstract

本揭示是一種藉由遷移學習且利用已建立的資料庫以改進血液惡性腫瘤自動識別的方法。更上位地,本方法試圖藉由保留源領域的知識來解決跨領域的差距,以便更佳優化目標領域。

Description

跨血液性惡性腫瘤遷移學習
本發明主張於民國109年8月3日所申請之「Transfer Learning Across Hematological Malignancies」美國專利臨時申請案US 63/060,148號的優先權。
本揭露所提供的具體實施例涉及電腦程式和相關的電腦實現的技術,其用於在不同的領域間轉移知識。本發明揭示一種遷移學習,特別是一種用於跨血液性惡性腫瘤的遷移學習。
白血病(Leukemia或leukaemia)是指於正常情況下會發展成不同類型的血球細胞所產生的癌症。通常白血病始於骨髓,並且會導致產生大量的異常血球細胞。這些異常的血球細胞可能被稱為「白血病細胞」或「芽細胞」。白血病的確切原因尚未明確,所以通常根據血液檢查或骨髓檢查(又稱「骨髓切片檢查」)的結果進行診斷。一般來說,當一個人(即「病人」或「受試者」)指出其出血、瘀傷、疲勞和發燒等症狀時會進行血液檢查或骨髓切片檢查。
白血病有四種主要類型:急性淋巴球性白血病(ALL)、急性骨髓性白血病(AML)、慢性淋巴球性細胞白血病(CLL)和慢性骨髓性白血病 (CML),以及一些罕見的類型。白血病屬於一廣泛疾病族群會影響血液、骨髓和淋巴系統。此一大類疾病通常被統稱為「造血和淋巴組織腫瘤」。
上述類型於過往主要是根據(i)白血病是急性(即快速生長)還是慢性(即緩慢生長),以及(ii)白血病是始於髓細胞還是淋巴細胞來進行劃分的。ALL和AML一般始於骨髓,但隨後常常轉移到血液和人體的其他部位,包括淋巴結、肝臟和脾臟。芽細胞在人體中擴散的速度與白血病是屬於急性還是慢性是相關的。
瞭解人體的血液和淋巴系統示有助於要瞭解白血病和淋巴瘤。
骨髓是一些骨骼內部一個柔軟的部分。較上位地,骨髓是由造血細胞、脂肪細胞和支援組織所組成的。骨髓中的一小部分造血細胞通常是造血幹細胞。在骨髓內,造血幹細胞進行演變以便發展成紅血球、血小板或白血球。紅血球(RBCs)將氧氣從肺部帶到人體的其他組織中,並將二氧化碳帶回肺部排出(如藉由呼氣)。血小板是由一種叫做「巨核細胞」的血液幹細胞製造而成的細胞碎片。血小板對於堵塞由割傷、擦傷等引起的血管孔洞非常重要。白血球(WBCs)負責幫助人體抵抗感染。
白血球有三種主要類型:淋巴球、顆粒性白血球和單核球。淋巴球是構成淋巴結和人體其他部位的淋巴組織的主要細胞。淋巴球從「淋巴母細胞」發展成成熟的、抗感染的細胞。淋巴球有兩種主要類型:B淋巴球(又稱為「B細胞」)和T淋巴球(又稱「T細胞」)。B細胞藉由製造被稱為抗體的蛋白質附著於病菌上以保護人體,而T細胞一般幫助消滅這些病菌。ALL可由早期 的淋巴球發展而來。ALL可始於B細胞或T細胞的早期成熟階段。淋巴瘤也開始於淋巴球,儘管它通常影響淋巴結中的B細胞或T細胞,而不是血液和骨髓。顆粒性白血球細胞是含有顆粒的白血球。這些顆粒通常含有酶和其他物質,而有助於消滅病菌。顆粒性白血球有三種類型:中性顆粒性白血球、嗜鹼性顆粒性白血球和嗜酸性顆粒性白血球,其可以藉由顆粒的大小及顏色加以區分。單核球也有助於保護身體免受細菌侵害。正常情況下,單核球在血液中循環的時間相對較短(例如大約一天),然後進入組織成為巨噬細胞,而巨噬細胞可以藉由包圍且消化病菌而消滅病菌。
術語「骨髓細胞」通常用以指那些可發展成紅血球、血小板或淋巴細胞以外的白血球的血液幹細胞。相較於ALL,在AML中這些骨髓細胞才是不正常的。
淋巴系統是一個器官,其是循環系統和免疫系統的一部分。淋巴系統是由淋巴、淋巴管、淋巴結、淋巴器官和淋巴組織所構成的大網路。這些血管將一種被稱為「淋巴」的透明液體向心臟輸送。與心血管系統不同,淋巴系統不是一個封閉的系統。這意味著影響淋巴系統的問題如果不及時治療,會迅速擴散到整個身體。
如上所述,白血病的診斷通常是由醫護人員根據血液檢查或骨髓切片檢查的結果作出。藉由觀察一個人的血液樣本,醫護人員可以確定是否存在紅血球、血小板或白血球異常,即可能有白血病之徵兆。血液檢查也可以檢測出芽細胞,儘管不是所有類型的白血病都會產生芽細胞在血液中循環。有時芽細胞會停留在骨髓中。基於此原因,專業醫事人員可能會建議進行骨髓檢查,即抽取骨髓樣本,以檢測是否有芽細胞。
雖然最近年醫學進步而提高了白血病確診個體的生存率,但在某些情況下,意外的結果仍然會突然影響預後。目前臨床實務上使用微量殘存疾病(MRD)的鑒定作為預後指標,該指標使用流式細胞儀(FC)進行檢測。上位地,FC是一種用於檢測和測量細胞群特徵的技術。在FC實驗中,樣本所含有細胞被聚集並通過一鐳射束(理想狀態下是一次一顆細胞),而散射出的光澤代表細胞的特徵。細胞通常以螢光標記物進行標記,因此光會被吸收然後在一個波長帶內散射。因此,FC實驗可能涉及測量抗體標記上的螢光激發,以產生高維資料。
專業醫事人員歷年來檢驗(例如藉由在視覺化的二維圖上進行手動閘控)這些資料,以確定適當的診斷。此種方法不僅費力費時,且容易出錯,因為這些專業醫事人員必須做出主觀的決定。雖然有些機構已經提議利用機器學習(ML)演算法或人工智慧(AI)演算法來管理FC資料,但處理大量資料仍然是臨床實務中的一個挑戰。ML和AI演算法的可接受性能依賴於大量的標記資料。然而,過往並沒有足夠數量的標記資料可利用。因此而阻礙了ML和AI演算法在現實世界中的通用性和適用性。
許多臨床資料庫(即使是該相對近期創建的資料庫)往往不是只有有限的名字,不然就是僅有與單一白血病亞型有關的結果。此種情況不太可能改變。於現實臨床環境中,FC資料(以及相應的診斷報告)通常需要大量的清除或處理。因此,標記的資料不太可能容易獲得有意義的數量。此外,如同前述,血液性惡性腫瘤有幾種亞型,而每種亞型可能與不同的發生概率有關。所以在單一醫療場所收集足夠數量的樣本和每個亞型的相應診斷結果,在大多數情況下是困難的,甚至是不可能的。
因此,本揭露是一種藉由遷移學習以利用已建立的資料庫來改進血液性惡性腫瘤的自動識別方法。上位地,這種方法試圖藉由保留來源領域的知識來解決跨領域的差距,以便更佳地優化目標領域。藉由使用遷移學習,電腦實施模擬(簡稱「模型」)的預測能力可以獲得改善。
100:框架
102:表徵擷取階段
104:知識提煉階段
106:調學習階段
108:分類階段
202:資料庫
204:學習演算法
206:學習參數
208:量化演算法
210、304:表徵
212:樣本
302:AML資料庫
306:標籤
402:預訓練的AML DNN
404、606:知識保留網路
406、508:ALL資料
408、510:知識保留嵌入
502、608:協調網路
504:目標殘差
506、610:知識保留輸出
602:FCS檔
604:表徵擷取
612:殘差
800:網路環境
802:分析平臺
804:介面
806a、806b、1114:網路
808:伺服器系統
900、1000:步驟程序
1100:處理系統
1102:處理器
1104、1108、1128:指令
350、351、352、353、354、450、451、452、453、454、550、551、552、553、901、902、903、904、905、906、907、908、1001、1002、1003、1004、1005:步驟
1106:主記憶體
1110:非揮發性記憶體
1112:網路介面卡
1116:匯流排
1118:視頻顯示單元
1120:輸入/輸出裝置
1122:控制裝置
1124:驅動裝置
1126:儲存媒體
1130:信號生成裝置
圖1為一上位圖示示意用以揭示一種框架,其利用遷移學習將一種血液性惡性腫瘤的見解擴展到另一種血液性惡性腫瘤。
圖2為一上位圖示示意用以揭示一種步驟程序,其從儲存在資料庫中的基礎資料中擷取表徵。
圖3為一上位圖示示意用以揭示一種步驟程序,其一分析平臺從來源領域提煉知識以提高其在目標域執行分類的能力。
圖4為一示意圖用以揭示將預訓練模型的參數固定在一穩定值的情況下,目標資料庫的表徵和標籤可用於訓練另一個模型。
圖5為一示意流程圖用以揭示執行協調學習的步驟程序。
圖6為一示意圖用以揭示圖1至5中所述對來源領域測試階段的框架。
圖7為一示意圖用以揭示三種不同分類器的實驗結果,即邏輯回歸、支援向量機和深度類神經網路。
圖8為一示意圖用以揭示一個包含分析平臺的網路環境。
圖9為一示意流程圖用以揭示藉由遷移學習來改善血液性惡性腫瘤分類的步驟程序。
圖10為一示意流程圖用以揭示藉由將一個以上的訓練過的模型應用於與樣本相關的資料來實現遷移學習的步驟程序。
圖11為一方塊示意圖用以揭示處理系統之一示例,其可執行本揭露中所述之操作。
藉由結合附圖與詳細說明之揭示,本發明技術領域具有通常知識者將更清楚地瞭解本揭露所述技術之各種特徵。圖示中所揭示部分實施例其主要是用以說明。然而,本發明技術領域具有通常知識者可以理解於不背離本技術原理的條件下,可以採用替代性的實施方案。因此,在圖示中所揭示本發明技術之具體示例並不侷限本發明,而可以進行各種適應性修改。
正如以下所進一步討論的,此種實現遷移學習的方法可能有兩個步驟:第一步為對來源領域模型進行預訓練,然後第二步為對來源領域模型進行調整,以產生目標領域模型。此種模式(即先預訓練再調整)有時會因為這些任務之間的領域差距而導致負面的知識轉移。由過往可察覺,沒有辦法定量地衡量此領域差距,即意味著此種模式下的成功遷移學習往往是無法控制的和/或無法現實的。為了解決此問題,可以利用一個協調學習的框架。協調學習使模型能夠糾正另一個使用不乾淨或未處理的資料庫訓練的模型輸出。舉例來說,假設該模型是基於一個神經網路,其參數是根據實例預先確定的,或藉由實驗/學習調整的。此種情況下,該神經網路能自動糾正由另一個用次優資料訓練的神經網路所做出的預測。
藉由此種方法,為目標領域而開發的模型能夠部署預訓練的能力(即調整範例並且藉由協調學習填補領域差距)。此可促進模型向更多的異質 疾病預測任務廣泛化,而此些任務彼此相關,儘管有未知的或不可測量的領域差距。因此,本揭露所述的方法可應用於不同血液性惡性腫瘤的任何遷移學習情境,其中一種疾病有足夠的樣本(簡稱「示例」),而另一種疾病的樣本數量較為有限。因此,來源領域和目標領域可以是血液性惡性腫瘤,例如ALL、AML、CLL、CML、何杰金氏淋巴瘤和非何杰金氏淋巴瘤(彌漫型大B細胞淋巴瘤、濾泡淋巴瘤、被套細胞淋巴瘤、T細胞淋巴瘤)、多發性骨髓瘤、急性紅血球白血病和其他實性瘤。因此,來源領域可被描述為與第一血液學惡性腫瘤相關,而目標域可被描述為與第二血液性惡性腫瘤相關,即該惡性腫瘤不同於第一血液性惡性腫瘤。雖然以下具體實施例僅描述參照特定的血液性惡性腫瘤(例如:AML作為來源領域和ALL作為目標領域),但選擇這些血液性惡性腫瘤僅為達說明目的。
進一步說明,以下具體實施例也可於可執行指令的情境下執行。然而,本發明技術領域具有通常知識者可以理解本揭露藉由硬體、韌體或軟體而實現。舉例來說,疾病分析平臺(或簡稱「分析平臺」)可為一個電腦程式之示例,該程式為檢驗與血液性惡性腫瘤的進程和/或狀態有關的資訊、編排治療方法、檢視模型建議的診斷等以提供支援。
名詞解釋
本揭露內容中所提及「一個具體實施例」或「某些具體實施例」是指其所描述的特徵、功能、結構或特性包括在至少一個具體實施例中。此類術語不一定是指同一具體實施例,也不一定是指相互排斥的替代實施方式。
除非內容中另有明確註記,否則術語「包括」、「包含」和「由」應以包容性意義進行解釋,而非以排他性或詳盡性意義進行解釋(換句 話說,即「包括但不限於」的意義)。術語「基於」也應從包容性的角度來解釋,而不是從排他性或詳盡性的角度來進行解釋。因此,除非另有說明註記,術語「基於」意指「至少部分基於」。
術語「連接」、「耦合」及其同意字指兩個或多個元素之間的任何連接或耦合,且無論是以直接的還是間接的方式。連接或耦合可以是物理的、邏輯的,或兩者之組合。舉例來說,儘管沒有共用物理連接,但元素可以在電學上或通信上彼此耦合。
術語「模組」可泛指軟體、韌體、硬體或上述任意之組合。模組通常是基於一個或多個輸入產生一個或多個輸出的功能性元件。一個電腦程式可以包括或利用一個或多個模組。舉例來說,一個電腦程式可以利用多個負責完成不同任務的模組,或者一個電腦程式可以利用一個負責完成所有任務的單一模組。
當用於提及多個項目的列表時,術語「或」意在涵蓋以下所有解釋:列表中的任何項目、列表中的所有項目、以及清單中的任何專案組合。
用以遷移學習的基於模型之框架概述
如前述,本揭露基本上涉及一種用以遷移學習的基於模型之框架。當血液性惡性腫瘤有關的有限數量資料可用於訓練目的時,該框架可有助於促進血液性惡性腫瘤的分類(例如:目標領域MRD分類)。換句話說,該框架可用於幫助以更有智慧的方式開發一個用於分類血液性惡性腫瘤的模型,其方法是納入由另一個被訓練用於分類另一個血液性惡性腫瘤的模型所學到的見解。正如下文所進一步討論的,此框架可以利用從來源領域資料庫而不是直接從來源領域資料所學到的模型參數(或簡稱「參數」)。該框架不僅提高了目 標領域的預測性能,而且還可以防止或抑制在不同資料庫之間轉移知識所涉及的隱私問題。
更上位地,該框架涉及利用兩個重要的概念,這些概念在不同的步驟中實現。第一步驟為知識提煉步驟(又稱「知識過濾步驟」),其旨在將第一資料庫(例如:一個AML資料庫)的知識與相對應的模型(例如:一個AML MRD分類模型)一起濃縮。第二步驟為協調學習步驟,其旨在補充知識提煉步驟中的資訊損失。將上述步驟結合在一起即可以實現比天真地預訓練和調整方法產生更有效的性能,特別是將該步驟進一步與ML或AI結合時。
圖1為一上位圖示用以揭示一個框架100,其利用遷移學習將一種血液性惡性腫瘤的見解擴展到另一種血液性惡性腫瘤。如圖1所示,該框架100可以包括不同階段。該些階段包含:表徵擷取階段102、知識提煉階段104、協調學習階段106和分類階段108。以下請參照圖2以進一步說明表徵擷取階段102,請參照以下圖3至4以進一步說明知識提煉階段104,請參照以下圖5以進一步說明協調學習階段106。
在表徵擷取階段102中,分析平臺可以匯出從第一資料庫和第二資料庫所獲得的資料的表徵。一般來說,第一資料庫和第二資料庫包含關於不同血液性惡性腫瘤的資訊。舉例來說,關於AML的資訊可以儲存在第一資料庫,而關於ALL的資訊可以儲存在第二資料庫。在這種情況下,AML可以代表有足夠資訊的來源領域,而ALL可以代表目標領域,從來源領域學到的見解將被轉移到目標領域。第一資料庫和第二資料庫中的資料表徵可以用例如高斯混合模型(GMM)、F分布(Fisher Vectorization)或其他ML演算法來擷取。
在某些實施例中,第一資料庫和/或第二資料庫是可公開訪問的(例如:透過網際網路)。舉例來說,分析平臺可以藉由透過各自的資料介面(例如:應用程式計軟體介面)啟動連接而從第一資料庫和第二資料庫獲取資訊。在其他實施例中,第一資料庫和/或第二資料庫由私人維護和管理。舉例來說,第一資料庫可以包含由一個第一醫療系統隨時間所產生的專屬臨床資料,並且該分析平臺可以依據第一醫療系統和管理分析平臺的實體之間的協定被授予對第一資料庫的訪問權。同樣地,第二資料庫可以包含由一個第二醫療系統隨時間產生的專屬臨床資料,並且分析平臺可以根據第二醫療系統和管理分析平臺的實體之間的另一個協定被授予對第二資料庫的訪問權。第一醫療保健系統可以與第二醫療保健系統不同,或第一醫療保健系統可以與第二醫療保健系統相同。
表徵擷取階段102的性質可以取決於第一資料庫和第二資料庫中資料的形式。舉例來說,假如第一資料庫和第二資料庫包含FC資料,則每項條目可以是表徵依照流式細胞儀標準(FCS)格式而建構的資料結構。FCS檔是一種用於讀寫FC實驗資料的標準檔案格式。該檔案格式描述了一個由文本資料組合而成的檔案,該檔案後面是二進位資料,並且檔案格式的順序通常是以下順序:(1)標題段、(2)文本段、(3)資料段、(4)可選擇性的分析段、(5)循環冗餘校驗(CRC)值、以及(6)可選擇性的其他段。
綜合來說,知識提煉階段104和協調學習階段106可被用於執行分類並獲得分類概率,以下將進一步討論。於知識提煉階段104中,分析平臺可以學習儲存在第一資料庫和第二資料庫中的資料的表徵之間的重疊屬性。舉例來說,如果第一資料庫包括關於AML的資訊,第二資料庫包括關於ALL的資訊,分析平臺可以尋求學習AML和ALL之間重疊的屬性,以用於ALL MRD分類。因 此,分析平臺可以嘗試學習第一種血液性惡性腫瘤的哪些屬性影響第二種血液性惡性腫瘤的分類。這些重疊的屬性一般被稱為「知識保留模型」。在協調學習階段106,分析平臺可以學習儲存在第一資料庫和第二資料庫中的資料的表徵之間的非重疊屬性。再次參考上述例子,分析平臺可以學習與AML屬性不重疊的ALL屬性。這些ALL專屬的屬性可以被認為是對知識保留模型的互補。
於知識提煉階段104和協調學習階段106中,可以由ML或AI部分驅動或完全驅動執行分類,以由知識儲備模型和ALL特定屬性產生分別的預測。這些預測可以代表分類的概率(例如:對於目標領域的不同診斷,此為ALL)。於分類階段108中,分析平臺可以透過將知識儲備產出(O K )和殘差(R)(兩者為分別為知識提煉階段104和協調學習階段106的輸出)相加總所得到最終分類輸出(O),公式如下所示:
公式1:O=O K +R
舉例來說,假設分析平臺的任務是將從分析AML資料中學習到的表徵轉移到可用樣本數量較少的ALL資料中。在這種情況下,分析平臺可以從第一資料庫(又稱「AML資料庫」,其包含與AML相關的診斷資訊的條目)和第二資料庫(又稱「ALL資料庫」,其該資料庫包含與ALL相關的診斷資訊的條目)獲得FCS檔。這些FCS檔可進一步由分析平臺檢查,以擷取表徵如前述之步驟102之說明,從而獲得AML和ALL的樣本等級表徵。分析平臺可以進行知識提煉,即從AML資料庫中獲取知識,並將這些知識保留在針對ALL MRD分類訓練的模型中。由於這種聯合優化可能會遺漏只存在於ALL資料庫中的資訊,因此分析平臺可以進行協調學習,以獲得沒有通過知識提煉的剩餘資訊。分析 平臺產生的最終預測可能是一個輸出,其代表藉由知識提煉所產生的知識保留網路和藉由協調學習所產生的殘差的總和。
A.表徵擷取
圖2為一上位圖示用以揭示一步驟程序,其從儲存在資料庫202中的基礎資料中擷取表徵。該程序可由一個分析平臺執行以作為表徵提取步驟的一部分(例如:圖1的表徵擷取步驟102)。更上位地,這是分析平臺可以為對應於血液性惡性腫瘤診斷的條目匯出樣本等級表徵的過程。每個條目可以對應於一個診斷(即一個病人)。
如上述,分析平臺可以使用一個學習演算法204來擷取儲存在資料庫202中的資料所包含的各種樣本的表徵。在圖2中,資料庫202包含FCS檔,其對應於經過實驗測試的不同樣本。然而,儲存在資料庫202中的資料可以是以其他格式存在的。
學習演算法204的目標可以是以一致的方式從資料庫202中擷取結構化資訊,以確保所產生的表徵可以與針對不同資料庫產所生的表徵進行比較。正常來說,學習演算法204是一種非監督式ML演算法,其可以被訓練來擷取表徵。舉例來說,分析平臺可以用GMM擷取表徵,該GMM是用資料庫202中部分或全部的FCS檔進行訓練的,並且每個樣本可利用基於學習參數206的費雪評分以編碼成為一個向量化表徵210。換句話說,當樣本212被提供以作為輸入時,分析平臺可以藉由基於所學參數206執行向量化以擷取一個表徵210。
由於每個資料結構(例如FCS檔)可能對應於包含多達數萬或數十萬個細胞的樣本,該細胞等級資料可被編碼至樣本等級。如上述,細胞通常是用螢光標記物進行標記的,因此在FC實驗中光會被吸收,然後在一個波段內散射出來。所有的螢光標記對的組合可以在細胞水平上被串聯起來以訓練學習 演算法204(例如:GMM)。藉由向量化演算法208(例如:實施費雪評分)之應用,分析平臺可以為每個標本產生一個固定維度的表徵向量。於向量化演算法實施費雪評分的情況下,向量化演算法208可以計算每個樣本與所學參數206之間的梯度。由於這些學習到的參數206可以被認為是資料庫202的整個群體的代表,因此這種方法可以被概念化以發現、計算或以其他方式建立這些學習到的參數206應該改變多少以適應特定的樣本。每個表徵210可以嵌入相應的樣本和資料庫的整個群體間的關係,以便使分析平臺具備判別能力。
B.知識提煉
圖3為一上位圖示用以揭示一種步驟程序,其藉由一分析平臺從來源領域提煉知識以提高其在目標領域執行分類的能力。該過程可由分析平臺作為知識提煉步驟(例如:圖1中的知識提煉步驟104)的一部分來執行。更上位地,這是分析平臺可以將在對應於第一血液性惡性腫瘤的來源維度中所學習的見解轉移到對應於第二血液性惡性腫瘤的目標維度的程序。
分析平臺可以透過利用學習方案來完成此一程序,將第一血液性惡性腫瘤的分類模型中的知識納入和/或過濾到第二血液性惡性腫瘤的另一個分類模型。舉例來說,分析平臺可以嘗試將知識從AML MRD分類模型(又稱為「來源MRD分類模型」或簡稱「來源模型」)轉移至另一個模型,該模型被訓練為基於對ALL資料庫中的資料分析進行MRD分類。在這樣的情況下,這另一個模型可被稱為「目標MRD分類模型」或簡稱「目標模型」。
如圖3所揭示,在某些實施例中,分析平臺使用與第一血液性惡性腫瘤(例如:AML)相關的大規模資料庫「從頭開始」訓練深度神經網路(DNN)以對MRD的存在進行分類。本發明技術領域具有通常知識者應可以理解DNN只是分析平臺可以使用的模型之一示例。來自AML資料庫302的表徵304 和相應標籤306(其用以指出相應樣本是否被認為具有MRD)可被送入DNN中進行訓練。於使用分類損失進行訓練後,在參數收斂和優化的情況下,分析平臺可以將該學習網路作為預訓練的AML DNN。換句話說,分析平臺可以將這個學習網路作為預訓練的來源模型的代表。
此種預訓練的AML DNN最終可能收斂成一組優化的參數,其可以有效地預測AML資料庫302中的MRD。該AML資料庫302相對地較大(此為訓練為可行的原因之一),所以此組優化的參數可能被好好地調整成用以鑒別AML樣本中的MRD。因此,如果分析平臺有興趣將學習從AML領域轉移到另一個領域,分析平臺可以利用AML資料庫或另一個具有MRD相關資訊的相對較大的資料庫作為來源資料庫。一般來說,來源資料庫(這裡是指AML資料庫302)包含至少1000個樣本(其中大約500個有MRD,另外500個沒有MRD)。這個樣本數量代表來源領域相對較多的族群估計數量,儘管來源資料庫可以包含更多或更少的樣本數量。同樣地,來源資料庫可以包含「有MRD」與「無MRD」的不同比例。一般來說,較大的多樣性對形成一個好的來源領域更佳,儘管在某些情況下可能無法實現這種多樣性。同時地,目標資料庫可以是任何大小,只要其資料沒有很好的代表性。舉例來說,目標資料庫可以有幾百個樣本。
有該預訓練的AML DNN,分析平臺可以進一步訓練一個ALL DNN作為示例性的知識保留網路,該網路被約束為模仿預訓練的AML DNN。該知識保留網路可以旨在預測ALL資料庫(或與不同血液性惡性腫瘤相關的另一個目標資料庫)中的MRD,其參數與預訓練的AML DNN的參數相似。
總而言之,分析平臺可以將AML表徵和相應的標籤輸入DNN(步驟350)。然後,分析平臺可以初始化DNN並使用AML資料來預測分類概 率(步驟351)。此後,分析平臺可以計算損失函數的導數以更新DNN的參數(步驟352)。隨著時間的推移,這些參數可能會收斂至上述穩定值。在觀察損失收斂後,然後推導出DNN的優化參數(步驟353),分析平臺可以獲得預訓練的AML DNN(步驟354)。
圖4為一示意圖用以揭示將預訓練的AML DNN 402的參數固定在穩定值的情況下,如何在訓練知識保留網路404時利用ALL資料庫的表徵和標籤。與圖3非常相似地,圖4所揭示的程序可以由分析平臺作為知識提煉步驟(例如,圖1的知識提煉步驟104)的一部分進行。
知識保留網路404可以用一個或多個損失函數進行優化。舉例來說,知識保留網路404可以使用兩個目標損失進行優化,即ALL MRD分類損失和庫爾貝克-萊伯勒散度(KLD)損失。KLD(又稱「相對熵」)是用以衡量一個概率分佈與另一個已知的概率分佈(又稱「參考概率分佈」)不同的程度。一般來說,MRD分類損失旨在最小化預測誤差(其為預訓練的AML DNN 402所產生),以提供有根據的真實標籤。同時,KLD損失可以約束知識保留網路404參數的學習,而使其與預訓練的AML DNN 402相似。此兩種損失可以相加以共同優化知識保留網路404。在某些實施例中,知識保留網路404包含目標MRD分類損失(例如:ALL MRD分類損失)和KLD損失。
如圖4所揭示,其可以藉由在預訓練的AML DNN 402的參數和知識保留網路404的參數之間施加KLD損失來實施。此種知識提煉的方法可以包含在同一分類任務中的網路中提煉、過濾或以其他方式建立知識。例如,在圖4中,保留緻密知識的能力是從AML資料(即來源資料)中利用的,然後在轉移學習的場景中擴展。在此種情況下,知識保留網路404可以保留來自預訓練的AML DNN 402的辨別知識,此與使用ALL資料406的MRD分類有關。該辨別知 識可以代表與來源領域相關的血液性惡性腫瘤和與目標領域相關的血液性惡性腫瘤之間的重疊資訊。在知識保留網路404以兩個損失進行優化後,分析平臺可以擷取知識保留網路404中的一個隱藏層(例如:最後一層)作為知識保留嵌入408。
總而言之,分析平臺可以將ALL表徵和相應的標籤與預訓練的AML DNN的參數一起輸入至知識保留網路404中(步驟450)。然後,分析平臺可以初始化知識保留網路404,該網路具有與預訓練的AML DNN 402相當的結構(步驟451)。一般來說,知識保留網路404是另一個DNN的代表,它是在預訓練的AML DNN 402之後被建模的。因此,知識保留網路404可以具有與預訓練的AML DNN 402相同的架構。此後,分析平臺可以計算預訓練的AML DNN 402中的參數與知識保留網路404中的參數之間的KLD損失(步驟452)。然後,分析平臺可以用這對損失,即KLD損失和分類損失來優化知識保留網路404(步驟453)。在知識保留網路404被優化後,分析平臺可以擷取知識保留網路404中的最後一個隱藏層作為知識保留嵌入408(步驟454)。
C.協調學習
儘管在知識提煉步驟中可以從預訓練的來源網路(例如:圖4的預訓練的AML DNN 402)獲得有用的知識,但知識保留網路(例如:圖4的知識保留網路404)可能完全錯過具體存在於目標資料庫(例如:ALL資料庫,假如知識要從AML域轉移到ALL域)的資訊。雖然與來源領域和目標域相關的一對血液性惡性腫瘤可能有共同的免疫表型特徵,而該些特徵在重疊的的標籤集中被揭示,但譜系的自然差異表徵指出在該對血液性惡性腫瘤之間所得出共同的資訊將會遺漏一個血液性惡性腫瘤的血統所特有的特徵。舉例來說,如果像如前述,從AML資料中提煉出知識,然後轉移到一個模型中進行訓練,對ALL 的MRD進行分類,那麼如果知識的提煉完全依賴於AML和ALL之間的共同特徵,那麼ALL特有的特徵就會被遺漏。為了解決此問題,分析平臺可以執行協調學習,以引出被知識保留網路所省略的ALL特定知識。
圖5為一示意流程圖用以揭示執行協調學習的步驟程序。為了實現這一點,分析平臺可以開發協調網路502,該網路被設計為學習知識保留輸出506的剩餘部分。協調網路502也可以是DNN的代表。上位地,殘差可以代表知識保留網路中缺少的資訊。協調網路502可以有兩個獨立的分支作為輸入,第一個分支用於輸入ALL資料508,第二個分支用於輸入知識保留嵌入510。ALL資料可以代表目標MRD輸入資料,而知識保留嵌入510可以藉由將ALL資料508輸入至知識保留網路,然後擷取最後一個隱藏層作為嵌入來獲得,如前圖4之說明。協調網路502可以按順序或同時預測ALL MRD有根據的真實標籤和殘差。藉由計算這兩個預測的損失,協調網路502可以被更新然後根據所需進行優化。
為了構建具有例如在輸入層和輸出層之間共同代表DNN的多層的協調網路502,分析平臺可以將隱藏層與來自知識保留網路的知識保留嵌入510連接起來。然後,分析平臺可以訓練這個協調網路502,以預測有根據的真實和知識保留輸出506之間的殘差。知識保留輸出506可以代表由知識保留網路所產生的預測。如圖5所揭示,預測的殘差可以藉由對目標殘差504施加損失獲得,該殘差代表有根據的真實和知識保留輸出506之間的差異。因此,協調網路502可以「填補」有根據的真實和知識保留輸出506之間的差距。
總而言之,分析平臺可以將ALL表示和標籤與知識保留嵌入510一起輸入至協調網路502(步驟550)。然後,分析平臺可以將協調網路502初始化為具有用於輸入的一對分支和用於輸出的一對分支的互補網路(步驟551)。如圖5所揭示,ALL表證和標籤可以被提供作為第一輸入,而知識保留嵌入510 可以被提供作為第二輸入。同時,協調網路502可以產生預測的分類概率(例如:對應於建議的診斷)作為第一輸出,而預測的殘差作為第二輸出。然後,分析平臺可以依次或同時預測根據的真實和殘差,並計算相應的損失以更新協調網路502(步驟552)。此後,分析平臺可以得出可用於預測殘差的收斂互補網路(步驟553)。
D.分類預測
透過知識保留網路的預測和協調網路的預測的殘差之輸出,而分析平臺可以進行最終預測。這些值可被添加或以其他方式組合以獲得最終預測。因此,最終預測可以代表由來源領域知識(例如:AML知識)導引的知識保留網路和目標領域特定知識(例如:ALL特定知識)所協調共同資訊。換句話說,最終預測可以是協調來源模型知識和目標特定知識的結果。
圖6為一示意圖用以揭示圖1至5中所述對來源領域測試階段的框架。舉例來說,本文所描述的框架包含ALL診斷資訊的FCS檔602,儘管該框架同樣適用於前述其他血液性惡性腫瘤。如圖6所揭示,包含ALL診斷資訊的FCS檔602最初在表徵擷取階段604中被編碼。舉例來說,分析平臺可以訓練如前述的學習演算法(例如:GMM),然後每個FCS檔可使用向量化演算法(例如:實施費雪評分;其同時評估學習演算法所學習的參數)被編碼成向量化表徵。
然後,分析平臺可以將這些向量化表徵送入知識保留網路606和協調網路608,以獲得知識保留輸出610和殘差612。更上位地,知識保留輸出610和殘差612可以代表分類概率輸出。為了得出最終的分類輸出614,分析平臺可以將知識保留輸出610和殘差612相加。
E.使用案例
本揭露所述框架被應用於由國立臺灣大學醫院所管理的資料庫,以說明其將學習從一種血液性惡性腫瘤轉移到另一種血液性惡性腫瘤的實用性。該資料庫包含七年來接受抽取骨髓液的病人的FC數據。每個樣本最初都是由兩台FC機器(Becton Dickinson Bioscience的FASCalibur和FASCanto)中一台所進行分析的。兩組螢光標記物被用於AML(即來源領域)和ALL(即目標領域)的臨床診斷,以證明該方法可用於ALL,儘管如上所述,該方法同樣適用於其他血液性惡性腫瘤。然後由醫護人員將樣本判斷為正常(即MRD為陰性)或不正常(即MRD為陽性)。該框架的訓練和測試片語分別顯示於圖1、6中。
ALL的資料對應493名患者,因此總共有2,356個獨立樣本(279個MRD陽性之ALL,720個MRD陰性以FASCalibur檢測;355個MRD陽性之ALL,1,002個MRD陰性以FASCanto檢測)。同時,AML的資料對應於1,629名患者,因此總共4,372個獨立樣本(597個MRD陽性之AML,1,564個MRD陰性以FASCalibur檢測;538個MRD陽性之AML,1673個MRD陰性以FASCanto檢測)。
圖7為一示意圖用以揭示三種不同分類器的實驗結果,即邏輯回歸(LR)、支援向量機(SVM)和深度類神經網路(DNN)。術語「PT」對應擁有判別能力的預訓練的AML模型,這意味著部分的AML和ALL分類任務可能是可以遷移的。我們使用了少量的遷移方法,包含微調(FT)、知識提煉(KD)以及各自與協調學習的組合(FT-C和KD-C)。由圖7所揭示,知識提煉與協調學習的結合(以KD-C表示)能夠在評估的指標中實現全面的改善。然而,值得請注意的是,無論分類器和遷移方法為何,遷移學習的方法似乎都能使目標領域(例如:ALL)的MRD分類得到改善。
如同上述,雖然本實施例僅描述特定的分類器(例如:DNN)和遷移方法(例如:KD-C),但本發明技術領域具有通常知識者應可以理解無論 分類器和轉移方法為何,本揭露之框架均可相應適用。舉例來說,該框架可以依靠LR或SVM而非DNN。
分析平台之概述
圖8揭示一個包含分析平臺802的網路環境800。個體(又稱「使用者」)可以透過介面804與分析平臺802對接。舉例來說,使用者可以訪問一個介面,透過該介面可以查看關於病人的資訊以及對病人的建議診斷。這些介面804可以允許使用者與分析平臺802互動,因為其體現了本揭露之框架。本揭露中術語「用戶」是指對檢查建議診斷感興趣的人,例如:病人或醫護人員、或對開發、培訓或實施模型感興趣之人。
如圖8所揭示,分析平臺802可以駐留於網路環境800中。因此,實施分析平臺802的計算裝置可以被連接到一個或多個網路806a至806b。該些網路806a至806b可以是個人區域網路(PAN)、區域網路(LAN)、廣域網路(WAN)、都會網路(MAN)、蜂巢式網路、或網際網路。此外,分析平臺802可以透過短距離無線連接技術,例如藍牙、近距離無線通訊(NFC)、Wi-Fi Direct(又稱「Wi-Fi P2P」)等,與一個或多個計算裝置通信耦合。
介面804可以透過網路瀏覽器、桌面應用程式、行動應用程式或OTT應用程式進行訪問。舉例來說,醫護人員可以訪問一個介面,藉由該介面可以輸入關於患者的資訊。這些資訊可以包含:姓名、出生日期、症狀、藥物和檢測結果(例如:以FCS檔的格式)。有了這些資訊,醫護人員就可以實施該框架,以產生一個代表建議診斷的分類。在另外一個實施例中,使用者可以訪問一個介面,透過該介面她可以識別來源領域(例如:AML)和目標領域(例如:ALL),並在框架將學習從來源領域遷移到目標領域時進行監測。相 應地,可以在計算裝置上查看介面804,例如:移動工作站(又稱「醫療車」)、個人電腦、平板電腦、行動電話、可穿戴電子設備等。
在一些實施例中,分析平臺802的至少一些元件被託管設置於當地。換句話說,分析平臺802的一部分可以設置在用於訪問介面804的計算裝置上。舉例來說,分析平臺802可以體現為桌面應用程式,該桌面應用程式可由一個或多個醫護人員可訪問的移動工作站執行。然而,值得注意的是,桌面應用程式可以與伺服器系統808以通信連結之方式進行連接,分析平臺802的其他元件被託管於該系統上。
在其他具體實施例中,分析平臺802完全由雲端計算服務所執行(例如:Amazon Web Services、Google Cloud Platform、Microsoft Azure)。在此具體實施例中,分析平臺802可以駐留在由一個或多個電腦伺服器組成的伺服器系統808上。這些電腦伺服器可以包含:模型、演算法(例如:用於處理資料、生成報告等)、患者資訊(例如:檔案、證書和健康相關資訊,例如:年齡、出生日期、疾病分類、醫療保健提供者等)及其他資產。本發明技術領域具有通常知識者應可理解此資訊也可以分佈在伺服器系統808和一個或多個計算裝置之間。舉例來說,由分析平臺802所在的計算裝置所產生的一些資料,出於安全或隱私之目的,其可以儲存在該計算裝置上並由其處理。
在各領域之間進行遷移學習之方法
圖9為一示意流程圖用以揭示藉由遷移學習來改善血液性惡性腫瘤(又稱「血液疾病」)分類的步驟程序900。更上位地,該程序900試圖藉由保留來源領域的知識來解決第一種血液性疾病(又稱「來源血液病」)和第二種血液性疾病(又稱「目標血液疾病」)之間的差距,以更佳優化目標領域。如上所述,如果第一種血液性疾病和第二種血液性疾病至少有一個共同的免疫 分型特徵,那麼遷移學習可能是合適的。同時地,其也可以進行協調學習,以說明第二種血液性疾病所特有的免疫分型特徵(因此不能從與第一種血液性疾病相關的資料分析中學習)。
一開始時,分析平臺可以接收請求選擇輸入(步驟901):選擇(i)第一資料集其包含第一血液性疾病的診斷相關的資訊,或選擇(ii)第二資料集其包含第二血液性疾病的診斷相關的資訊。舉例來說,輸入可以指定一個第一資料庫,其中第一資料集以FCS檔的格式儲存,第二資料庫中的第二資料集以FCS檔的格式儲存。或者,輸入可以指定一個單一的資料庫,其中第一資料集和第二資料集是以FCS檔的格式儲存。相應地,第一資料集和第二資料集可以儲存在單獨的資料庫中(例如:由分析平臺獨立訪問的資料庫),或者第一資料集和第二資料集可儲存在同一個資料庫。
第一資料集可包含第一組患者的第一血液性疾病的診斷相關資訊,而第二資料集可包含第二組患者的第二血液性疾病的診斷相關資訊。每個資料集可包含陽性和陰性診斷相關資訊。相應地,第一資料集中的診斷可包含第一血液性疾病的陽性和陰性診斷,而第二資料集中的診斷可以包含第二血液性疾病的陽性和陰性診斷。
雖然每個資料集通常將包含不同組患者之相關資訊,但患者可以包含在兩個資料集中。舉例來說,一個提供的患者可以與第一資料集中的陰性診斷記錄和第二資料集中的陽性診斷記錄相關。
然後,分析平臺可以為第一資料集產生第一表徵集(步驟902)。為了實現此點,分析平臺可以為第一資料集中的每個樣本擷取單獨的表徵。舉例來說,假設第一資料集包含對應於不同FC實驗的FCS檔。於此種情況 下,分析平臺可以對第一資料集的相應部分應用向量化演算法,為每個FCS檔產生一個具有固定維度之表徵。
同樣地,分析平臺可以為第二資料集產生第二表徵集(步驟903)。為了實現此點,分析平臺可以為第二資料集中的每個樣本擷取單獨的表徵。如果第二資料集包含對應於不同FC實驗的FCS檔,分析平臺可以對第二資料集的相應部分應用向量化演算法,為每個FCS檔產生具有固定維度之表徵。一般來說,在步驟902和步驟903中應用相同的向量化演算法以確保表徵具有相同的維度。
然後,分析平臺可以將(i)第一表徵集和(ii)用以指是相應的患者是否被診斷為第一血液病陽性的第一標籤集作為訓練資料提供給第一模型,以便產生第一訓練模型(步驟904)。更具體地說,分析平臺可以將(i)第一表徵集和(ii)第一標籤集輸入第一模型以進行訓練,然後分析平臺可以初始化第一模型以預測第一表徵集的分類概率。換句話說,分析平臺可以初始化第一模型,以便根據第一表徵集產生代表第一血液病的建議診斷之預測。然後,分析平臺可以根據分類概率計算損失函數,以更新第一模型的初始參數集。這些參數可以隨著時間的推移收斂至一穩定值。這些穩定值可以代表這些參數的優化值。因此,分析平臺可以透過確定初始參數集中每個參數的優化值來建立一個優化的參數集。然後,分析平臺可以透過實施優化的參數集來產生第一訓練模型。
接下來,分析平臺可以向第二模型提供(i)第二表徵集、(ii)用以指示相應的患者是否被診斷為第二血液病陽性的第二標籤集、以及(iii)第一訓練模型的優化參數集作為訓練資料,以便產生第二訓練模型(步驟905)。更具體而言,分析平臺可以將(i)第二表徵集、(ii)第二標籤集、以及(iii)第一訓練模型的優化參數集輸入第二模型進行訓練,然後分析平臺可以初始化第二模型以預測 第二表徵集的分類概率。換句話說,分析平臺可以初始化第二模型,以便根據第二表徵集產生代表第二血液疾病的健議診斷之預測。然後,分析平臺可以計算出第一訓練模型的優化參數集和第二模型的初始參數集之間的損失。基於該損失,分析平臺可以優化初始參數集以產生第二訓練模型。
更進一步,分析平臺可以擷取第二訓練模型的隱藏層作為嵌入(步驟906)。舉例來說,如果第二訓練模型是DNN之代表,分析平臺可以擷取最後的隱藏層作為嵌入。第一訓練模型也可以是一個具有相似結構之DNN。
此外,分析平臺可以將(i)第二表徵集、(ii)第二標籤集、以及(iii)嵌入提供給第三模型作為訓練資料,以便產生第三訓練模型(步驟907)。更具體而言,分析平臺可以將(i)第二表徵集、(ii)第二標籤集、以及(iii)嵌入輸入至第三模型中以進行訓練,然後分析平臺可以將第三模型初始化為一個互補模型,該模型能夠將(i)第二資料集和(ii)嵌入作為輸入,同時產生(i)預測分類和(ii)預測殘差以作為輸出。在初始化第三模型後,分析平臺可以計算預測分類和預測殘差之間的損失,然後基於該損失更新第三模型以產生第三訓練模型。
分析平臺可以將第一訓練模型、第二訓練模型、第三訓練模型或其任意組合儲存在資料結構中(步驟908)。如下所述,分析平臺隨後可以使用這些模型來產生指示第二血液性疾病的建議診斷之分類。因此,分析平臺可以程式化地將這些訓練的模型相互關聯。舉例來說,分析平臺可以將這些訓練的模型儲存在同一資料結構中。於另一個實施例中,分析平臺可以使用例如字母數位識別碼符將這些訓練好的模型相關聯。
圖10為一示意流程圖用以揭示藉由將一個以上的訓練過的模型應用於與樣本相關的資料來實現遷移學習的步驟程序1000。舉例來說,假設分析平臺收到請求指示之輸入,以根據資料檔案的內容提出對血液疾病的診斷(步 驟1001)。該輸入可以代表藉由分析平臺所生成的介面選擇該檔(或相應的病人),或者該輸入可以代表收到該檔(例如:來自FC機器)。於其中一實施例,該資料檔案可以是FCS格式化之檔案。
於此種情況下,分析平臺可以為資料檔案擷取表徵(步驟1002)。舉例來說,分析平臺可以對資料檔案應用向量化演算法以產生具有固定維度之表徵。該向量化演算法可以是參照前圖9中步驟902至903所提及之向量化演算法。
分析平臺可以將表徵輸入第一模型,以獲得第一輸出(步驟1003)。該第一模型可以被訓練成基於血液疾病和另一種血液疾病之間共同的免疫分型特徵來產生輸出。因此,此第一模型可以是前圖9中所述步驟905之第二模型。此外,分析平臺將表徵輸入第二模型,以獲得第二輸出(步驟1004)。該第二模型可被訓練成基於血液疾病特有的免疫分型特徵以產生輸出。因此,該第二模型可以是前述圖9中步驟907所述之第三模型。
分析平臺可以根據第一輸出和第二輸出得出代表血液疾病的建議診斷之分類(步驟1005)。一般來說,第一輸出是代表由第一模型所預測的第一分類概率,而第二輸出是代表由第二模型預測的第二分類概率。因此,分析平臺可以藉由相加、組合或以其他方式考慮第一和第二分類概率而得出分類。當其應用於表徵時,第一模型和第二模型可以獨立地產生輸出,以代表上述分類概率。雖然第一模型產生的輸出可能是為了說明血液疾病和其他血液疾病之間共同的免疫分型特徵,但第二模型所產生的輸出可能是為了說明血液疾病特有的免疫分型特徵。
值得注意的是,雖然本揭露具體實施例中步驟程序是依序揭示的,但該這些步驟可以以不同的順序或組合而執行。舉例來說,可以將步驟添 加到該些程序中,或從該些程序中刪除。同樣地,步驟可以被替換或重新排序。因此,該些程序是以開放式進行描述。
在一些具體實施例中還可以包含額外的步驟。舉例來說,分析平臺可依據前述多個模型所產生的輸出以得出分類(例如:對血液疾病的建議診斷)。在這樣的情況下,分析平臺可使分類顯示在與基礎資料相關的病人可以訪問的介面上。同樣地,分析平臺可以使分類顯示在醫療人員可以訪問的介面上。在某些具體實施例中,分析平臺能夠與醫療人員的中央計算機系統對接。舉例來說,分析平臺能夠透過資料介面(例如:應用程式介面)訪問中央計算機系統以訪問FC資料。於此種情況下,分析平臺可自動將分類填入至相應病人的電子健康記錄(EHR)中。舉例來說,分析平臺可以將分類傳送給中央計算機系統,並指示將分類填入電子健康記錄中以便記錄。
處理系統
圖11為一方塊示意圖用以揭示處理系統1100之一示例,其可執行本揭露中所述之操作。舉例來說,處理系統1100的元件可以被託管設置在計算裝置上,其包含分析平臺(例如:圖8中分析平臺802)。
處理系統1100可包含:處理器1102、主記憶體1106、非揮發性記憶體1110、網路介面卡1112、視頻顯示單元1118、輸入/輸出裝置1120、控制裝置1122(例如:鍵盤、指向裝置或諸如按鈕的機械輸入)、具有儲存媒體1126的驅動裝置1124、或信號生成裝置1130,它們以通信連結之方式連接到匯流排1116。匯流排1116為一抽象概念,其代表一個或多個物理匯流排和/或點對點的連接,這些連接由適當的橋接器、適配器或控制器連接。因此,匯流排1116可以包含系統匯流排、周邊組件互連(PCI)匯流排、PCI-Express匯流排、HyperTransport匯流排、工業標準結構(ISA)匯流排、小型電腦系統介面 (SCSI)匯流排、通用序列匯流排(USB)、內部整合電路(I2C)匯流排,或符合電機電子工程師學會(IEEE)1394標準的匯流排。
處理系統1100可與下述之電腦處理器架構相似,例如:電腦伺服器、路由器、桌型電腦、平板電腦、行動電話、影像遊戲機、可穿戴電子設備(例如:手錶或健身追蹤器)、網路連接(「智慧型」)設備(例如:電視或家庭助理裝置)、增強或虛擬實境系統(例如:頭戴式顯示器)、或其他電子設備能夠執行一指令集(依序地或其他)其指定由處理系統1100所執行。
雖然主記憶體1106、非揮發性記憶體1110和儲存媒體1126被顯示為單一媒體,但術語「儲存媒體」和「機器可讀媒體」應被理解為包含單一媒體或儲存指令的多種媒體。術語「儲存媒體」和「機器可讀媒體」也應被理解為包含能夠儲存、編碼或攜帶指令以便由處理系統1100執行的任何媒體。
一般來說,為實現本揭露的具體實施例而執行之指令可以作業系統或特定的應用程式、元件、程式、物件、模組或指令序列(統稱為「電腦程式」)的一部分來實現。電腦程式通常包含在不同時間設置在計算裝置的各種記憶體和存放裝置中的指令(例如:指令1104、1108、1128)。當由處理器1102讀取和執行時,指令可使處理系統1100執行操作以執行本揭露。
雖然具體實施例已揭示本揭露中計算裝置之所有功能,但本發明技術領域具有通常知識者應可理解,各具體實施例能夠以各種形式之程式產品發佈。無論用於實際導致應用之機器或電腦可讀媒體的特定類型為何,其均落入本揭露之範圍。機器和電腦可讀媒體的具體示例包含可記錄型媒體(例如:揮發性和非揮發性記憶體1110)、抽取式磁碟、硬碟驅動器、光碟(例如:唯讀記憶光碟(CD-ROM)和數位多功能光碟(DVD))、雲端儲存空間、以及傳輸型媒體(例如:數位和類比通訊連結)。
網路介面卡1112使處理系統1100能夠在網路1114中透過任何處理系統1100所支援的通信協定與外部實體(其位於處理系統1100之外部)調解資料。網路介面卡1112可包含:網路介面卡、無線網路介面卡、交換器、通訊協定轉換器、閘道、橋接器、集線器、接收器、中繼器、或包括積體電路的收發器(例如:可透過藍牙或Wi-Fi進行通信)。
本揭露之技術可使用軟體、韌體、硬體或此類形式之組合來實現。舉例來說,本揭露可使用特殊用途之實體接線式(即無法進行程式編輯)電路來實現,其形式為特定應用積體電路(ASIC)、可程式邏輯裝置(PLD)、場式可程式閘陣列(FPGA)等。
備註
上述對權利要求範圍之各種具體實施例描述僅為說明和描述目的。其無法詳盡無遺地揭露,也並非限制本申請範圍僅及於所揭示之內容。對本發明技術領域具有通常知識者而言,其可相應地進行修改和變化。本揭露所揭示具體實施例中選擇和描述僅為提供較佳原理及其實際應用,而使本發明技術領域具有通常知識者可理解本揭露之主題、各種實施例以及適合特定用途之各種修改。
儘管揭示了較佳具體實施例,但無論再怎詳細說明,本揭露之技術仍可以許多方式實施。因此,可導致具體實施例中之細節上可有很大的不同,但該範圍仍一被認定落入本揭示之範圍。在描述各種具體實施例的某些特徵或方面時所使用的特定術語不應被認為暗示該術語在本揭露中是被重新定義,且其僅限於與該術語相關技術之任何具體特徵、特點或方面。一般來說,以下申請專利範圍中所使用的術語不應解釋為將該技術限制在本揭示所公開的具體實施例,除非該些術語於本揭露中有明確被定義。因此,本揭露之權力範 圍不僅包含公開的具體實施例,還包含實施或實現所述具體實施例之所有等效方式。
本揭露使用的用語主要是為了容易閱讀和指導之目的而所選擇的。該用語並無被選擇來劃定或限定特定標的。因此,本揭露之技術的範圍不受本揭示內容之限制,而是應以申請專利範圍內容之限制。因此,對各種具體實施例之揭露是為了說明而不是限制以下申請專利範圍中所請求之範圍。
402:預訓練的AML DNN
404:知識保留網路
406:ALL資料
408:知識保留嵌入
450、451、452、453、454:步驟

Claims (20)

  1. 一種存有指令的非暫態媒體,當其被一電腦設備的一處理器執行時,導致該電腦設備執行以下操作步驟,包含:
    接收一選擇輸入:
    (i)一第一資料庫,其存有以流式細胞儀標準檔(FCS檔)格式建構的一第一組患者的急性骨髓性白血病(AML)診斷相關一第一資料;及
    (ii)一第二資料庫,其中存有流式細胞儀標準檔(FCS檔)格式建構的一第二組患者的急性淋巴球性白血病(ALL)診斷相關一第二資料;
    擷取:
    為該第一資料中的每個FCS檔提供個別的表徵以產生一第一表徵集;及
    為該第二資料中的每個FCS檔提供個別的表徵以產生一第二表徵集;
    將(i)該第一表徵集和(ii)用以指示相應病人是否被診斷為AML陽性的一第一標籤提供給一第一模型作為訓練資料,以產生一第一訓練模型;
    將(i)該第二表徵集和(ii)用以指示相應病人是否被診斷為ALL陽性的一第二標籤和(iii)該第一訓練模型的一優化參數集提供給一第二模型作為訓練資料,以產生一第二訓練模型;
    擷取該第二訓練模型的一隱藏層以作為一嵌入;
    將(i)該第二表徵集和(ii)該第二標籤和(iii)該嵌入提供給第三模型作為訓練資料,以產生一第三訓練模型;及
    將該第一訓練模型、該第二訓練模型、該第三訓練模型儲存在一資料結構。
  2. 如請求項1所述的非暫態媒體,其中該擷取包含:
    對該第一資料中每個FCS檔,將向量化演算法應用於該第一資料的相應部分以產生一表徵具有固定維度;及
    對該第二資料中每個FCS檔,將向量化演算法應用於該第二資料的相應部分以產生一表徵具有相同的該固定維度。
  3. 如請求項1所述的非暫態媒體,其中該第一訓練模型的產生方法僅由以下步驟所構成:
    將(i)該第一表徵集和(ii)該第一標籤輸入該第一模型以進行訓練;
    初始化該第一模型以預測該第一表徵的分類概率;
    基於該分類概率計算一損失函數以更新該第一模型的一初始參數集;
    藉由確定一優化值為該初始參數集中每個參數建立該優化參數集;及
    藉由執行該優化參數集以產生該第一訓練模型。
  4. 如請求項1所述的非暫態媒體,其中該第二訓練模型的產生方法僅由以下步驟所構成:
    輸入(i)該第二表徵集和(ii)該第二標籤和(iii)該第一訓練模型的優化參數集進行訓練;
    初始化該第二模型以預測該第二組表徵的分類概率。
    計算該第一訓練模型的優化參數集與該第二模型的初始參數集間的損失;及
    基於該損失優化該初始參數集以產生該第二訓練模型。
  5. 如請求項4所述的非暫態媒體,其中該第三訓練模型的產生方法僅由以下步驟所構成:
    輸入(i)該第二表徵集和(ii)該第二標籤和(iii)該嵌入進行訓練;
    將該第三模型初始化為一補充模型,使其能將(i)該第二資料和(ii)該嵌入作為輸入,並產生(i)一預測分類和(ii)一預測殘差以作為輸出;
    計算該預測分類和該預測殘差之間的損失;及
    基於該損失更新該第三模型以產生該第三訓練模型。
  6. 如請求項1所述的非暫態媒體,其中該操作步驟還包含:
    接收一請求輸入,為一提供的FCS檔提供ALL診斷;
    為該提供的FCS檔擷取一表徵;
    將該表徵輸入該第二訓練模型,以獲得一第一輸出;
    將該表徵輸入該第三訓練模型,以獲得一第二輸出;及
    以該第一輸出和該第二輸出作為基礎推導出一分類,其可代表一建議診斷。
  7. 如請求項6所述的非暫態媒體,其中該第一輸出是由該第二訓練模型所預測的一第一分類概率並可作為其代表;及
    其中該第二輸出是由該第三訓練模型預測的一第二分類概率並可作為其代表。
  8. 如請求項7所述的非暫態媒體,其中該推導包含將該第一分類概率和該第二類概率相加以獲得該分類。
  9. 如請求項6所述的非暫態媒體,其中該操作步驟還包含:
    在一介面上顯示該分類,且該介面可供一個與該提供的FCS檔相關的一病人訪問。
  10. 如請求項6所述的非暫態媒體,其中該操作步驟還包含:
    在一個介面上顯示該分類,該介面可供一醫護人員訪問。
  11. 一種方法,包含:
    產生一第一徵集:
    訪問一第一資料集,其包含與一第一種血液疾病診斷相關資訊;及
    擷取每個診斷的一個別表徵;
    產生一第二表徵集:
    訪問一第二資料集,其包含與一第二種血液疾病診斷相關資訊;及
    擷取每個診斷的一個別表徵;
    將一第一表徵集作為訓練資料提供給第一模型,以產生一第一訓練模型。
    將(i)一第二表徵集和(ii)該第一訓練模型的一參數提供給一第二模型作為訓練資料,以產生一第二訓練模型。
    擷取該第二訓練模型的一隱藏層作為一嵌入。
    將(i)該第二表徵集和(ii)該嵌入提供給一第三模型作為訓練資料,以產生一第三訓練模型;及
    將該第二訓練模型和該第三訓練模型儲存在一資料結構。
  12. 如請求項11所述的方法,其中該第一資料集中的該診斷包含對該第一種血液疾病的陽性和陰性診斷;及
    其中該第二資料集中的該診斷包含對該第二種血液疾病的陽性和陰性診斷。
  13. 如請求項11所述的方法,其中該第一模型、該第二模型和該第三模型是深度神經網路(DNNs)。
  14. 如請求項11所述的方法,其中該第一種血液疾病和該第二種血液疾病至少有一個共同的免疫分型特徵。
  15. 如請求項11所述的方法,其中當應用於一提供的表徵時,該第二訓練模型和該第三訓練模型產生一分類概率的指示作為一輸出;
    其中由該第二訓練模型產生的該輸出指出該第一類血液疾病和該第二類血液疾病有共同的免疫分型特徵;及
    其中由該第三訓練模型產生的該輸出具有該第二類血液疾病特有的免疫分型特徵。
  16. 如請求項11所述的方法,其中該第一類血液疾病是急性骨髓性白血病(AML);及
    該第二類血液疾病是急性淋巴球性白血病(ALL)。
  17. 如請求項11所述的方法,其中該第一資料集和該第二資料集被儲存在個別的一資料庫中。
  18. 如請求項11所述的方法,其還包含:
    接收一請求輸入,依據一資料檔案的內容提出對該第二種血液疾病的一診斷;
    擷取該資料檔案的一表徵;
    將該表徵輸入該第二訓練模型以獲得一第一輸出;
    將該表徵輸入該第三訓練模型以獲得一第二輸出;及
    依據該第一輸出和該第二輸出推導出一分類,其可代表一建議診斷。
  19. 如請求項18所述的方法,其中該資料檔案以流式細胞儀標準檔(FCS檔)格式建構。
  20. 一種方法,包含:
    接收一請求輸入,依據一資料檔案的內容提出對一血液疾病的診斷;
    擷取該資料檔案的一表徵;
    將該表徵輸入一第一模型以獲得一第一輸出,其中該第一模型以該血液疾病和另一種血液疾病之間共同的免疫分型特徵進行訓練,並產生一輸出;
    將該表徵輸入一第二模型以獲得一第二輸出,其中該第二模型以該血液疾病特有的免疫分型特徵進行訓練,並產生一輸出;及
    依據該第一輸出和該第二輸出推導出一分類,其可代表建一議診斷。
TW110128566A 2020-08-03 2021-08-03 跨血液性惡性腫瘤遷移學習 TW202223921A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202063060148P 2020-08-03 2020-08-03
US63/060,148 2020-08-03

Publications (1)

Publication Number Publication Date
TW202223921A true TW202223921A (zh) 2022-06-16

Family

ID=80118622

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110128566A TW202223921A (zh) 2020-08-03 2021-08-03 跨血液性惡性腫瘤遷移學習

Country Status (3)

Country Link
US (1) US20230228756A1 (zh)
TW (1) TW202223921A (zh)
WO (1) WO2022031737A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004037994A2 (en) * 2002-10-22 2004-05-06 University Of Utah Research Foundation Managing biological databases
US20050209785A1 (en) * 2004-02-27 2005-09-22 Wells Martin D Systems and methods for disease diagnosis
WO2011106558A1 (en) * 2010-02-24 2011-09-01 The Board Of Trustees Of The Leland Stanford Junior University Methods for autoimmune disease diagnosis, prognosis, and treatment
CA2841808A1 (en) * 2011-07-13 2013-01-17 The Multiple Myeloma Research Foundation, Inc. Methods for data collection and distribution
US11796446B2 (en) * 2019-10-01 2023-10-24 National Taiwan University Systems and methods for automated hematological abnormality detection
US11250569B2 (en) * 2019-11-04 2022-02-15 GE Precision Healthcare LLC Systems and methods for functional imaging follow-up evaluation using deep neural network

Also Published As

Publication number Publication date
US20230228756A1 (en) 2023-07-20
WO2022031737A1 (en) 2022-02-10

Similar Documents

Publication Publication Date Title
Rajpurkar et al. AI in health and medicine
Alsuliman et al. Machine learning and artificial intelligence in the service of medicine: Necessity or potentiality?
US20200381087A1 (en) Systems and methods of clinical trial evaluation
Wells et al. Artificial intelligence in dermatopathology: Diagnosis, education, and research
CN107908635A (zh) 建立文本分类模型以及文本分类的方法、装置
Peng et al. Random forest can predict 30‐day mortality of spontaneous intracerebral hemorrhage with remarkable discrimination
TW200532523A (en) Methods and systems for predicting occurrence of an event
CN111564223B (zh) 传染病生存概率的预测方法、预测模型的训练方法及装置
Liu et al. Data completeness in healthcare: a literature survey
Abouelyazid et al. Machine Learning-Assisted Approach for Fetal Health Status Prediction using Cardiotocogram Data
Rosita et al. Prediction of Hospital Intesive Patients Using Neural Network Algorithm
Sedighi-Maman et al. A two-stage modeling approach for breast cancer survivability prediction
Monteiro et al. Deep learning methodology proposal for the classification of erythrocytes and leukocytes
US20230215571A1 (en) Automated classification of immunophenotypes represented in flow cytometry data
Ayorinde et al. Artificial intelligence you can trust: What matters beyond performance when applying artificial intelligence to renal histopathology?
TW202223921A (zh) 跨血液性惡性腫瘤遷移學習
Zhao et al. Construction of guideline-based decision tree for medication recommendation
Shawi et al. Interpretable local concept-based explanation with human feedback to predict all-cause mortality
Shah et al. Development of a portable tool to identify patients with atrial fibrillation using clinical notes from the electronic medical record
Santaolalla et al. The ReIMAGINE multimodal warehouse: Using artificial intelligence for accurate risk stratification of prostate cancer
Vignesh et al. A NEW ITJ METHOD WITH COMBINED SAMPLE SELECTION TECHNIQUE TO PREDICT THE DIABETES MELLITUS.
González et al. Trialscope a unifying causal framework for scaling real-world evidence generation with biomedical language models
Peloso et al. The Dawn of a New Era in Kidney Transplantation: Promises and Limitations of Artificial Intelligence for Precision Diagnostics
TW202311742A (zh) 流式細胞儀資料之免疫表型自動分類
Yördan et al. Hybrid AI-Based Chronic Kidney Disease Risk Prediction