TWI738270B

TWI738270B - 將文句短語映射至知識分類表之方法及系統

Info

Publication number: TWI738270B
Application number: TW109110793A
Authority: TW
Inventors: 亞歷山大湯姆伯格; 羅霍拉比德高利
Original assignee: 加拿大商知識研究有限公司
Priority date: 2019-03-29
Filing date: 2020-03-30
Publication date: 2021-09-01
Also published as: TW202105198A; WO2020198855A1; US20200311115A1; US10949456B2

Abstract

本發明提供了一種用於將文句短語映射至知識分類表之系統及方法。在一方面，該方法包含：接收該語料庫以及該知識分類表；將位在該語料庫中的該文句短語予以映射至位在詞嵌入空間中的詞嵌入組，該詞嵌入組由複數個詞嵌入所構成，其中複數個該詞嵌入的各個序列係為對應於其中一個該文句短語的個別詞；將該知識分類表予以向量化至位在節點嵌入向量空間中的節點嵌入組；使用映射函數將該詞嵌入組予以映射至該節點嵌入組，該映射函數係將位在節點嵌入空間中關聯於複數個該詞嵌入的複數個序列的複數個點予以輸出；以及將該映射函數予以輸出。

Description

將文句短語映射至知識分類表之方法及系統

本發明係相關於將一般文句短語（text phrases）映設至固定知識分類表（taxonomy），且更具體地係相關於用於映射文句短語至醫學語言知識分類表的基於電腦之方法以及系統。

以下資訊係為有助於理解本文所揭內容，而非承認任何該資訊為習知技術，亦非為目前所述或所請求保護的發明之素材，且明確或隱含地引用之任何出版物或文獻亦非為習知技術。

電子健康以及醫學記錄（Electronic health and medical record；EHR/EMR）系統係穩定地普及。在這樣的系統中，越來越多健康照護的方面被記錄以及編碼，包括患者的人口統計資訊、病史以及病情進程、實驗室實驗結果、臨床程序以及藥物治療，甚至是遺傳學。此資訊庫係為學習模式的獨特機會，可以幫助改善健康照護的各種方面。然而，對於試圖分析結構化EHR資料的任何人而言，用於對此臨床資訊進行編碼的各種編碼系統的數量之多是一個重大挑戰。即使是最為廣泛使用之編碼系統，亦具有多種版本以滿足世界不同地區的需求。為了分析一個版本的編碼系統而開發的軟體可能無法用於另一版本，更不用說不同的編碼系統了。除了公共的以及文件齊全的編碼系統外，保險公司以及某些醫院也使用許多沒有映射至任何公共編碼系統的私有編碼機制。

解決此問題的努力範圍從編碼系統之間的映射字典的開發至機器學習驅動方法。前者方法的一個示例為cTAKES，其係一計畫專案，使用帶有註釋的查詢表格而映射臨床個體至受控詞彙表中的概念，例如：臨床醫學術語系統（Systematised Nomenclature of Medicine-Clinical Terms, SNOMED CT）。cTAKES以及相似系統對於符號自然語言處理技術的依賴使它們難以概括化以及擴展，特別是考慮到對目標詞彙的規律更新以及更改。後者方法的一個示例為將已將詞嵌入使用於階層式結構中以將醫學概念予以註釋以及映射至參考知識分類表的工作。他們的方法係基於分類學習，而由於這些詞彙量很大且與每個概念相關的術語或短語數量少，因此無法應用於諸如SNOMED CT這樣的受控詞彙表。

在一方面，本發明係提供了一種用於將文句短語（text phrases）映射至知識分類表（taxonomy）之系統及方法。該方法包含：接收該語料庫（corpus）以及該知識分類表；將位在該語料庫中的該文句短語予以映射至位在一詞嵌入空間（word embedding space）中的一詞嵌入組，該詞嵌入組由複數個詞嵌入所構成，其中複數個該詞嵌入的各個序列係為對應於其中一個該文句短語的個別詞；將該知識分類表予以向量化至位在一節點嵌入向量空間（node embedding vector space）中的一節點嵌入組；使用映射函數將該詞嵌入組予以映射至該節點嵌入組，該映射函數係將位在節點嵌入空間中關聯於複數個該詞嵌入的複數個序列的複數個點予以輸出；以及將該映射函數予以輸出。

在該方法的特定情況下，該方法更包含預處理該語料庫，該預處理包含以下至少一項：將短語拆分為詞、拆分句子、在標點符號周圍添加空格、更改字元為小寫、重排格式為每行一個句子、以及序連檔案。

在該方法的另一情況下，將位在該語料庫中的該文句短語予以映射至該詞嵌入組係包含：施行GloVe以及fastText中的至少一個。

在該方法的又一情況下，該知識分類表包含一圖形，該圖形具有在各頂點處的概念，以及具有位在連接各別頂點的邊緣處的各別概念之間的關係。

在該方法的又一情況下，將該知識分類表予以向量化至該節點嵌入組係包含施行node2vec嵌入，node2vec嵌入的施行包含：自各頂點的邊緣處開始並且在固定數目的步驟之後於一頂點處停止，其中在該些步驟的過程中所造訪的各頂點係皆記錄為該圖形的鄰域的一部分。

在該方法的又一情況下，該方法更包含產生該映射函數，該映射函數的產生包含：將該詞嵌入予以序連至單一多維向量；以及決定線性映射，該線性映射包含將該節點嵌入空間中的點及該單一多維向量予以矩陣相乘，其中該線性映射係為該映射函數。

在該方法的又一情況下，該方法更包含產生該映射函數，該映射函數的產生包含：使用多數個短語-概念成對而訓練一卷積神經網路，該多數個短語-概念成對係對於至少一部分之該知識分類表而經預先標記，該卷積神經網路以該詞嵌入組及該節點嵌入組作為輸入，該卷積神經網路包含：將卷積濾波器應用於輸入向量以產生特徵映射，將該特徵映射饋送入至一池化層，以及投影該池化層的輸出以獲得降維度的輸出，其中經訓練之該卷積神經網路係為該映射函數。

在該方法的又一情況下，該方法更包含產生該映射函數，該映射函數的產生包含：使用多數個短語-概念成對而訓練一雙向長短期記憶網路，該多數個短語-概念成對係對於至少一部分之該知識分類表而經預先標記，該雙向長短期記憶網路以該詞嵌入組及該節點嵌入組作為輸入，該雙向長短期記憶網路包含多個隱藏神經元，多個該隱藏神經元之後接續為投射層，其中經訓練之該卷積神經網路係為該映射函數。

在另一方面，本發明係提供一種用於將語料庫中的文句短語映射至知識分類表的系統，該系統包含一個以上的處理器以及記憶體，該記憶體儲存該語料庫以及該知識分類表，一個以上之該處理器係與該記憶體通訊並且經配置而執行：輸入模組，接收該語料庫以及該知識分類表；語料庫模組，將位在該語料庫中的該文句短語予以映射至一詞嵌入空間中的一詞嵌入組，該詞嵌入組由複數個詞嵌入所構成，其中複數個該詞嵌入的各個序列係為對應於其中一個該文句短語的個別詞；知識分類表模組，將該知識分類表予以向量化至位在一節點嵌入向量空間中的一節點嵌入組，該節點嵌入組係為複數個節點嵌入所構成；以及映射模組，使用映射函數將該詞嵌入組予以映射至該節點嵌入組，該映射函數係將位在節點嵌入空間中關聯於複數個該詞嵌入的複數個序列的複數個點予以輸出；以及輸出模組，將該映射函數予以輸出。

在該系統的特定情況下，該輸入模組係進一步預處理該語料庫，該預處理包含以下至少一項：將短語拆分為詞、拆分句子、在標點符號周圍添加空格、更改字元為小寫、重排格式為每行一個句子、以及序連檔案。

在該系統的另一情況下，將該語料庫中的該文句短語予以映射至一詞嵌入組係包含：施行GloVe以及fastText中的至少一個。

在該系統的又一方面，該知識分類表包含一圖形，該圖形具有在各頂點處的概念，以及具有位在連接各別頂點的邊緣處的各別概念之間的關係。

在該系統的又一方面，將該知識分類表予以向量化至該節點嵌入組係包含施行node2vec嵌入，將該node2vec嵌入的施行包含：自各頂點的邊緣處開始並且在固定數目的步驟之後於一頂點處停止，其中在該些步驟的過程中所造訪的各頂點處係皆記錄為該圖形的鄰域的一部分。

在該系統的又一方面，該映射模組係進一步產生該映射函數，該映射函數的產生包含：將該詞嵌入予以向量化至單一多維向量；以及決定線性映射，該線性映射包含將該節點嵌入空間中的點及該單一多維向量予以矩陣相乘，其中該線性映射係為該映射函數。

在該系統的又一方面，該映射模組係進一步產生該映射函數，該映射函數的產生包含：使用多數個短語-概念成對而訓練一卷積神經網路，該多數個短語-概念成對係對於至少一部分之該知識分類表而經預先標記，該卷積神經網路以該詞嵌入組及該節點嵌入組作為輸入，該卷積神經網路包含：將卷積濾波器應用於輸入向量以產生特徵映射，將該特徵映射饋送入至一池化層，以及投影該池化層的輸出以獲得降維度的輸出，其中經訓練之該卷積神經網路係為該映射函數。

在該系統的又一方面，該映射模組更產生該映射函數，該映射函數的產生包含：使用多數個短語-概念成對而訓練一雙向長短期記憶網路，該多數個短語-概念成對係對於至少一部分之該知識分類表而經預先標記，該雙向長短期記憶網路以該詞嵌入組及該節點嵌入組作為輸入，該雙向長短期記憶網路包含多個隱藏神經元，多個該隱藏神經元之後接續為投射層，其中經訓練之該卷積神經網路係為該映射函數。

透過將附呈圖式以及對本發明實施例的以下說明結合之閱讀，根據本申請的其他方面以及特徵對於本技術領域中具有通常知識者而言將變得清楚明瞭。

現在將參考附呈圖式而對實施例進行說明。為了圖式的簡單以及明確，將在認為適當的情況下，在附呈圖式之間重覆參考標號以表示相對應或類似的元件。此外，將闡述許多具體的細節以提供對本文所述實施例的透徹理解。然而，本技術領域中具有通常知識者應理解，本文中所描述的實施例係可以在沒有這些具體的細節之情況下被實踐。在其他實例中，並不詳細描述周知的方法、程序以及構件，從而不模糊本文所描述的實施例。再者，該說明係不應被認為是限制本文所描述之實施例的範圍。

除非上下文另有指示，否則在整個本說明中所使用的各種術語可以如下閱讀以及理解：貫穿全文所使用的「或」係為包容性的，如同寫作「及／或」；貫穿全文所使用的單數冠詞以及代名詞係包括它們的複數形式，反之亦然；相似地，性別代名詞係包括了其相對之代名詞，因此代名詞不應被理解為將本文所述之任何內容限制在單一性別的使用、實施、施行等；與其他實施例相比，「示例性」應被理解為「說明性」或「舉例性」，而不一定是被理解為比其他實施例「較佳的」。術語的進一步定義可以在本文載明；如自閱讀本說明而將理解，這些定義可以應用於那些術語的先前以及後續實例。

本文所舉例之執行指令的任何模組、單元、構件、伺服器、電腦、終端機、引擎或裝置可以包括或可以存取電腦可讀取媒體，諸如儲存媒體、電腦儲存媒體或資料儲存裝置（卸除式及／或非卸除式），例如磁碟、光碟或磁帶。電腦儲存媒體可以包括以任何方法或技術實施諸如電腦可讀取指令、資料結構、程式模組或其他資料之類的資訊儲存的揮發性及非揮發性、卸除式及非卸除式之媒體。電腦儲存媒體的示例包括RAM、ROM、EEPROM、快閃記憶體或其他記憶體技術、CD-ROM、數位多功能影音光碟（DVD）或其他光學儲存、卡帶、磁帶、磁碟儲存器或其他磁儲存裝置，或可以用於儲存所需資訊並且能以應用程式、模組或兩者所存取的任何其他媒體。任何這樣的電腦儲存媒體都可以是該裝置的一部分，或者可以存取或連接到該裝置。再者，除非上下文另外明確地指出，否則本文載明的任何處理器或控制器都可以被實施為單一處理器或複數個處理器。複數個該處理器可以為陣列式或分散式，且即使舉例為單一處理器，本文所指的任何處理功能也可以由一個或複數個處理器實行。可以使用電腦可讀取／可執行指令以實施本文說明的任何方法、應用或模組，該電腦可讀取／可執行指令可以由這樣的電腦可讀取媒體儲存或以其他方式保持，並由一個以上的處理器執行。

以下一般相關於一般文句短語至固定知識分類表之映射，並且更具體地相關於用於映射文句短語至醫學語言知識分類表的基於電腦之方法以及系統。

現在參考第1圖，係示出了根據一實施例之用於將文句映射至知識分類表的系統100。在本實施例中，該系統100係於本機計算裝置26（第2圖中的26）上運行。在另外的實施例中，本機計算裝置26可以藉由諸如網際網路24（第2圖中的24）的網路存取位於伺服器32（第2圖中的32）上的內容。在進一步的實施例中，該系統100可以在任何合適的計算裝置上運行；例如，該伺服器32（第2圖中的32）。

在一些實施例中，該系統100的構件係由單一電腦系統儲存並執行。在其他實施例中，該系統100的該構件係被分佈在可以本機或遠端分散的二個以上的電腦系統之間。

第1圖係示出了該系統100的一實施例的各種實體及邏輯構件。如圖所示，該系統100具有多個實體及邏輯構件，包括中央處理單元102（central processing unit；CPU，係包含一個以上的處理器）、隨機存取記憶體104（random access memory；RAM）、使用者介面106、網路介面108、非揮發性儲存器112、以及本機匯流排114，使CPU 102能夠與其他構件通訊。在一些情況下，一個以上的處理器中的至少一些可以是圖形處理單元。CPU 102係執行作業系統以及各種模組，如下所更詳細地描述者。RAM 104對CPU 102提供相對回應的揮發性儲存器。該使用者介面106使管理員或使用者能夠經由輸入裝置，例如鍵盤及滑鼠，而提供輸入。該使用者介面106還可以將資訊輸出至輸出設備給該使用者，諸如顯示器及／或喇叭。網路介面108允許與其他系統通訊，諸如與其他遠離該系統100的計算裝置及伺服器通訊，諸如用於典型的雲端式存取模型。該非揮發性儲存器112儲存該作業系統及程式，包括用於實施該作業系統及模組的電腦可執行指令以及這些服務所使用的任何資料。附加儲存資料可以被儲存於資料庫116中。在該系統100的操作期間，可以從該非揮發性儲存器112擷取該作業系統、該模組以及相關的資料，並將其放置在RAM 104以促進執行。

在一實施例中，該系統100更包括可以在該CPU 102上執行的多個功能性模組；例如，輸入模組118、語料庫模組120、知識分類表模組122、映射模組124以及輸出模組126。在一些情況下，該些模組的功能及／或操作可以在其他模組上執行或合併。

一種將任意編碼系統映射至知識分類表的方法係從描述各代碼之該短語開始。由於該編碼系統應為人類使用者所理解，描述各代碼之該短語必須為他們提供足夠的資訊以便他們能夠使用它。

從歷史上看，詞嵌入已廣泛用於捕獲詞、短語以及甚至句子的語意。例如，詞嵌入已在臨床環境中成功應用於資訊檢索（information retrieval）、命名實體識別（named entity recognition）以及EMR敘事中非結構文句上的患者成果預測任務（patient outcome prediction tasks）。具體而言，此技術將固定長度的實值向量分配給來自文件集中，稱為語料庫的個別詞。此向量表示旨在捕獲詞之間的語意關係，以便同義詞彼此靠近，而無關的詞則彼此遠離。因此，已開發了許多演算法並將其用於產生詞嵌入；例如，GloVe以及fastText。

詞嵌入演算法的一特徵是使用上下文互換性（contextual interchangeability）作為含義相關性的代理。然而，此特徵在一些任務中可能是個問題，尤其是在醫學環境中。例如，術語「感冒」以及「病毒性呼吸道感染」係為高度相關，但在醫學背景中並不經常互換使用。使用上下文互換性作為代理可能會導致詞演算法錯誤地將與這兩個術語相對應的向量在嵌入空間中置放於彼此相距甚遠處。

此外，在諸如健康照護以及生物醫學研究等領域，實體之間的關係可能包含有價值的資訊，例如，通過描述診斷、藥物治療和程序、以及遺傳成分之間的相互作用以及因果關係。為了記錄複雜的關係，大型的資料庫已被建立，包括生物醫學知識圖譜（例如PharmGKB, DrugBank）、本體論（例如基因本體論，Gene Ontology）以及知識分類表，諸如國際疾病統計分類（International Statistical Classification of Diseases, ICD）以及SNOMED CT。

網路拓撲學可以用於分析以及表示這些生物醫學資料庫的網路結構。由於這些資料庫的高維度及稀疏性，因此這類的分析可能需要高計算成本。網路嵌入技術可以提供有效的範例以解決網路分析問題。網路嵌入可將網路轉化為低維度空間，同時最大程度地保留其結構特性。網路嵌入演算法已被開發用以嘗試將這些圖形嵌入至向量空間中，然後用於嘗試預測藥物－藥物相互作用。

上下文互換性可能無法提供良好的醫學相關性度量，因為詞嵌入無法直接用於在編碼系統之間進行映射。它們可用於從用於描述此種系統的短語中捕獲語意資訊。相反地，從醫學知識分類表中的概念產生的節點嵌入可能是醫學相關性的較佳呈現，因為它們是根據醫學概念之間的關係建構而成的。為了縮小這兩個嵌入空間之間的差距，需要一個映射函數。本文所提供的此映射函數係有優勢地在向量表示的層次上操作，而非在原始短語以及概念上。這可以產生兩個重要的優點：與成千上萬的原始概念相比，這些向量空間可以是低維度的，並且從嵌入中所學習出的函數可能更具概括性（generalizable）以及更易於訓練。

此外，每當缺乏經監督的資料時，機器學習模型就可能無法實行可靠的概括化（generalization）。對於大型資料集，獲取正確的標記資料可能會是昂貴且不切實際的。概念嵌入的一種實際應用係為在訓練資料中遺漏的概念及詞的零樣本轉換（零樣本學習）。因此，是有可能概括化映射函數並準確地映射看不見的概念，每個概念僅具有少數幾個訓練示例，因為在兩個域中的嵌入訓練皆為一項不受監督的任務。在一些情況下，這可以通過最相近的鄰域檢索來完成，其中係根據相似性度量選擇標的空間中最接近的嵌入。

本文的實施例為將短語標準化及鏈接至知識分類表的任務提供了一種技術解決方案，藉此推進了健康照護及其他領域的資料互換性。當應用時，該系統的實施例可以，例如，使用電子健康記錄以產生嵌入，該嵌入係結合了分類醫學知識以改善臨床預測模型。

第3圖係示出了根據一實施例之用於將語料庫中的文句短語映射至知識分類表300的方法的流程圖。第4圖係示出了方法300的示例實施的示意圖。在方塊302處，該輸入模組118係接收該語料庫410以及該知識分類表440；例如，從該資料庫116、該使用者介面106、或是該網路介面108。在一些情況下，該語料庫410以及該知識分類表440可以一起被接收，而在其他情況下，可以分開地被接收。在一些情況下，該語料庫410可以包括或可以是語彙（lexicon）。在方塊304處，該語料庫模組120將該語料庫410予以映射至詞嵌入420。在方塊306處，該知識分類表模組122使用節點嵌入450將該知識分類表440予以向量化。在方塊308處，該映射模組124使用映射函數430將該詞嵌入組予以映射至該節點嵌入組。在方塊310處，該輸出模組126將該映射函數430予以輸出；例如，輸出至該資料庫116、該使用者介面106、或是該網路介面108。

例如，當在生物醫學語料庫上進行訓練時，詞嵌入420通常可以比在非專業文件集上進行訓練的嵌入更好地捕獲醫學概念的語意。在生物醫學示例中，為了建構語料庫，該語料庫模組120可以使用一個以上的開放取用論文（例如，來自PubMed）、住院及出院病歷的自由文句（例如，來自MIMICIII 臨床資料庫）、敘事（例如，來自美國食品藥品監督管理局（US Food and Drug Administration, FDA）的不良事件通報系統（Adverse Event Reporting System, FAERS））、以及其他文件（例如，來自i2b2的2010年關係挑戰（Relations Challenge）的一部分）。

在一些情況下，該語料庫模組120可以預處理用於建構該語料庫410的文件。例如，該預處理可以包括拆分句子、在標點符號周圍添加空格、更改字元為小寫、以及重排格式為每行一個句子。該預處理也可以包括將檔案予以序連至單一文件。在一示例中，使用上述來源，單一文件可以包含2.35億個句子以及62.5億個詞以創建該語料庫410。該語料庫410可用於訓練詞嵌入演算法以映射該詞嵌入420。

對於本文所述的生物醫學示例，可以將兩種演算法用於學習詞嵌入：其示例包括Global Vectors（GloVe）以及fastText。它們之間的區別在於對不屬於訓練詞彙表的詞所進行的處理：GloVe係創建一特殊的詞典外詞彙（out-of-vocabulary）符記並將所有的這些詞映射至此符記的向量，而fastText則是使用子詞資訊以產生適當的嵌入。

GloVe係建立在全域矩陣分解（global matrix factorization）以及局部語境窗（local context window）的基礎上。GloVe係學習共現機率（co-occurrence probabilities）的比率，以更好地區分術語－術語關聯性中的細微差別並加強詞類比任務的性能。在GloVe中，該嵌入可以直接被最佳化，以使兩個詞向量的點乘積等於兩個詞彼此靠近出現的次數的對數。

fastText是一種詞嵌入演算法，它不是直接學習詞的向量，而是將各詞表示為n元語法的字元。舉例而言，以n=3的「biomedical（生物醫學）」的fastText表示，係為＜bi, bio, iom, ome, med, edi, dic, ica, al＞。這允許了該嵌入能夠理解字尾以及字首，並有助於捕獲較短的詞的含義。在一些情況下，一旦使用字元n元語法來表示詞，就可以訓練一跳躍式模型（skip-gram model）來學習該嵌入。此模型通常被認為是在詞上方具有滑動視窗的詞袋模型，因為通常不會考慮該詞的內部結構。只要字元在此視窗內，該n元語法的順序通常就無關緊要。通過這種方式，fastText對於罕見詞通常施行良好。因此，即使一詞在訓練期間並未看到，也可以將新詞分解為n元語法以得到其嵌入。

在一示例中，對於兩種詞嵌入演算法而言，向量空間維度可以設置至200，詞出現的最小次數為10；產生360萬個符記的詞彙表。

該知識分類表模組122可以使用該映射模組124將短語所映射至的任何合適的知識分類表430。對於本文所述的生物醫學示例，可以將2018年國際版的SNOMED CT用作標的圖形G = (V, E)。在此示例中，頂點集V係由39.2萬個醫學概念所組成，而邊緣集E係由頂點之間的190萬個關係所組成；包括is_a關係以及屬性諸如finding_site及due_to。在此示例中係將SNOMED用作標的知識分類表。通過這種方式，可以將存在於該知識分類表的該醫學概念視為該知識分類表圖形中的一節點，並且可以將這些醫學概念之間的關係視為該知識分類表圖形中的一邊緣；例如，is_a以及finding_site。

為了建構知識分類表嵌入，知識分類表模組122可以使用任何合適的嵌入方法。在一示例中，該知識分類表模組122可以使用node2vec方法。在此示例方法中，隨機漫步（random walk）可以自各個頂點v ∈ V 的邊緣處開始並且在固定數目的步驟（在本示例中為20）之後停止。漫步所造訪的所有頂點皆可以被認為是該圖形v 的鄰域N(v) 的一部分。在此示例中係遵循跳躍式架構，可以通過解決一最佳化問題來選擇特徵向量分配函數

：

使用例如隨機梯度下降法及負採樣。其中f 是頂點向量u 的映射函數，其為多層的神經網路。

該映射模組124可以通過將該節點嵌入向量空間中的點與對應於短語中的個別詞的詞嵌入序列相關聯，而在該標的知識分類表中的短語及概念之間進行映射。如第5圖所示，在一些情況下，來自該語料庫的輸入短語510可以被拆分為詞520，該詞520係轉化為詞嵌入530並饋送入至該映射函數540，該函數的輸出係為該節點嵌入空間530中的一點（在上方的示例中，

）。因此，給定由n個詞所組成的短語，並帶有相關的詞嵌入w₁ ,…,w_n ，該映射函數為m : (w₁ ,…,w_n ) ↦ p ，其中p是該節點嵌入向量空間中的一點（在上方的示例中，p ∈

）。在一些情況下，為了完成該映射，而使用了該知識分類表中節點嵌入最接近該點p 的概念。通過這種方式，該映射函數可以將輸入向量的序列映射至標的向量（p），在此示例中，該標的向量係位於128維度的節點嵌入向量空間。為了找到與那些詞相關的對應節點，該映射模組124係決定最接近該標的向量（p）的節點。在醫學生物示例的一示例性實驗中，本發明之發明人係測試該節點嵌入向量空間

中的兩種緊密度量測：歐幾里德距離𝓁 ₂ 及餘弦相似性；即為

在一些情況下，例如，為了計算該映射的前k 準確度（top-k accuracy），係使用了k 個最接近概念的列表。

映射函數m 的確切形式可以變化。儘管可以使用其他架構，本文係提供了三種不同的架構作為示例：線性映射、卷積神經網路（convolutional neural network, CNN）以及雙向長短期記憶網路（bidirectional long short term memory network, Bi-LSTM）。在一些情況下，短語可以被填充或截斷。例如，在上述的示例中，為了適應所有的這三種架構，填充或截斷為正好20個詞長以藉由20個詞嵌入w_1,…, w₂₀ ∈ R²⁰⁰ 表示各個短語。

線性映射可以被使用作為基線。通過這種方式，可以檢查該輸入（詞嵌入的序列）是否可以線性地映射至該輸出（節點嵌入）。CNN可用於學習該該資料中的尺度不變（scale invariant）結構及位置，尤其是在該資料具有空間關係的情況下。因此，CNN可用於捕獲該輸入文句中的詞之間的順序關係。在大多數情況下，欲訓練該CNN模型，該輸入應具有相同尺寸，因此需要添加或截斷該輸入的序列。Bi-LSTM是一種遞歸類神經網路（recurrent neural networks, RNNs）模型。RNNs特別擅長學習序列預測問題；通過這種方式，Bi-LSTM可用於捕獲該詞嵌入的序列中的長期相依性。儘管Bi-LSTM可使用可變長度的輸入，但在一些情況下，為了更快地進行訓練的緣故，在訓練階段中，訓練批次中的資料係具有相同的長度。在此種情況下，在各個批次中，詞向量的長度係設置為與該批次中最長的詞向量相等。

對於線性映射，可以在該詞嵌入及該節點嵌入之間推導出線性關係。在上述的示例中，20個詞嵌入可以序連至單一4000維度向量w 中，並且對於4000 × 128的一矩陣M 由p = m(w) = Mw 給出線性映射。

對於CNN，該映射模組124可以對該輸入向量使用不同尺寸的卷積濾波器。然後可以將由該濾波器生成的特徵映射饋送入至之後接續有投射層的一池化層，以獲得所需維度的一輸出。在一示例中，可以使用表示尺寸為1、2、3以及5的詞視窗的濾波器，而後接續著一最大池化層及一投射層以達到128輸出維度。CNN是一種非線性變換，可以有利地用於捕獲該輸入中的複合模式（pattern）。CNN的另一個有利性質係為學習不變特徵的能力，而不管它們在短語中的位置為何。CNN的輸入係為詞嵌入的序列。

Bi-LSTM也是一種非線性轉換。對於Bi-LSTM，該映射模組124可以使用此種類型的神經網路，藉由正向及反向兩個方向上的先前的計算結果為條件，將計算遞歸地應用於輸入序列的每個元件來進行操作。此種結構允許網路在各個時間步驟都具有關於該序列的反向及正向資訊二者。通過這種方式，Bi-LSTM的反向傳播就可以保留未來的資訊，從而可以允許保留來自過去及未來二者的資訊。Bi-LSTM可用於學習其輸入中的長距離相依性。在一示例中，可以隨機初始化該模型並具有雙曲正切激活函數（tanh activation function）。在以上示例中，該映射模組124可以通過建構具有200個隱藏神經元的單一Bi-LSTM神經元其之後接續有一投射層以達到128輸出維度，以使用Bi-LSTM來接近映射函數m 。

在本發明之發明人所進行的一示例性實驗中，係從知識分類表本身收集由短語-概念成對組成的訓練資料。訓練資料包括來自該知識分類表的短語-概念成對；其中輸入係為短語，而各別標的係為其在該知識分類表中的相應概念。由於SNOMED CT中的節點可能具有多個描述它們的短語（同義字），因此各個同義字-概念成對係分別考慮為總共269K的訓練示例。為了在上述三種架構中的每一種中找到最佳的映射函數m_* ，

遂使用Adam（自適應矩估計）最佳化器以50期（epoch）求解了經監督的迴歸問題。

在該示例性實驗中，係使用1萬個短語-概念成對的隨機留出（hold-out）測試集對該三種映射函數架構進行評估以評鑑性能。在由來自ICD-9-CM的8.9千個短語所組成的新語彙上測試了最高性能架構之堅固性以及概括性。最後，該映射模組124的該零樣本學習能力係通過從訓練集中隨機選擇一千個概念、從訓練集中移除所有相關的3.4千個短語-概念成對、以及對該系統進行再訓練，來測試該映射模組124的該零樣本學習能力。藉由將移除的短語映射至以前從未見過的概念來評估該零樣本學習性能。

該測試係考慮了兩種性能度量：準確度以及平均圖形距離（mean graph distance）。在本示例中，準確度係為測試短語準確映射至其相對應的概念的比例（越高越好）。此種度量可用於基於分類的方法。平均圖形距離係為標的概念及預測概念之間的該知識分類表中的平均圖形距離（最短路徑的長度）（越低越好）。此種度量表明了該預測概念與準確匹配相距有多遠，以及低得分係為與該標的概念（即其子代或親代）直接相鄰的預測之證據。

可能有兩個相異的概念被嵌入至該節點嵌入空間中之確切相同位置。由於該映射程序涉及最近的鄰域搜尋，因此計算了這些搜尋的前k 結果的性能度量，其中k = 1; 5; 10; 20; 50。

為了進行內在評估，遂使用了10K短語-概念成對的隨機留出測試集來查找該最高性能架構。第6圖係提供該準確度結果，以及第7圖係提供該圖形距離結果。整體上的最高性能映射模組係為在fastText嵌入之上的Bi-LSTM映射函數。使用餘弦相似性可能產生較佳的準確度得分，而該歐幾里德距離𝓁 ₂ 可能會提供稍小的平均圖形距離。

為了檢查該映射系統的堅固性以及概括性，遂創建了一外在評估任務，該任務係由8.9K ICD-9-CM短語所組成，這些短語由美國國家醫學圖書館（2015）的醫學專家映射至獨特的SNOMED CT概念。第8圖係提供該準確度結果，以及第9圖係提供該圖形距離結果。fastText上的Bi-LSTM模組係再次成為該最高性能映射模組實驗，該最高性能映射模組實驗的所有預測概念在知識分類表距離方面接近於準確匹配，係作為來自39.2萬個節點的準確匹配概念的同義詞、親代或子代。

此測試集亦應用於調整源短語的額外知識對於映射至該標的知識分類表的效果。當搜尋空間從最初使用的39.2萬個概念減少到至少有一個ICD-9-CM短語映射至它們的7.5千的概念時，如第10圖以及第11圖所示，該準確度以及平均圖形距離結果係為顯著地改善。因此，有關知識分類表的範疇的額外知識可能會允許該搜尋空間的減少並允許映射模組的性能有相對應的提升。

為了評估該零樣本學習能力，遂從出現在那些訓練集中的概念隨機選擇出來自該知識分類表的一千個概念。與所選概念相關聯的所有3.4千個短語-概念成對皆自該訓練集中移除，並用作該測試集。自一初始狀態使用新的訓練集對該Bi-LSTM映射網路進行再訓練，如此，而使該映射函數在以前從未見過該零樣本測試集中的所有標的。第12圖以及第13圖係提供該準確度以及平均圖形距離結果，並展示了該內在任務評估之可比較的結果，且該映射系統可能足夠通用而能夠映射該訓練集中之看不見的概念。

因此，如以上示例所示，該系統100可用於處理及解決數個範疇的問題。一個問題是命名實體識別（named entity recognition, NER），即從自由文句擷取相關概念的任務。一旦擷取，這些概念就需要映射至已知實體的知識分類表。該系統100可以有利地解決此種映射問題。給定EMR資料，該系統100可用於註釋該資料中之文件中的醫學概念。可以選擇該文句的一部分作為候選，然後該系統100遂決定其在該知識分類表中相對應的概念。

另一個問題是找到一個短語的表示，其可以捕獲它的詞序列中的所有資訊以進行自然語言處理。該映射模組124可以將該映射函數用作產生醫學短語之表示的一編碼模型。此種表示已使用該知識分類表中的該概念資訊而進行了訓練以及監督，並且還表示了它們的知識分類表位置以及該知識分類表中它們的鄰域的結構。因此，可使用轉移學習技術而於不同的任務（例如，醫學預測）中使用此種醫學短語的經監督表示。

根據本文的該系統100的實施例的嵌入映射的實際應用，係為在該訓練資料中遺漏的該概念的該零樣本轉換（零樣本學習）。因此是有可能概括化該映射函數並準確地映射看不見的概念，每個概念僅具有少數幾個訓練示例，因為在兩個域中的嵌入訓練係為一項不受監督的任務。在一些情況下，這可以通過最相近的鄰域檢索來完成，其中係根據相似性度量選擇標的空間中最接近的嵌入。在概念嵌入的另一應用中，當難以獲得該訓練資料時，該系統100可用於資料預處理。給定一概念描述（詞序列），該系統100可以將其映射至一節點嵌入以作為該描述的較佳表示，而作為對其他任務的預處理。

當前揭露的實施例可以以其他特定形式來體現而不背離其精神或實質特性。本發明的某些修改以及修正對本技術領域中具有通常知識者將是顯而易見的。因此，當前討論的實施例被認為是說明性的而非限制性的，本發明的範圍係由所附的申請專利範圍而非前面的說明所指示，因此，落入申請專利範圍同等的含義及範圍內的所有改變都應包含在其中。

100:系統 102:中央處理單元 104:隨機存取記憶體 106:使用者介面 108:網路介面 112:非揮發性儲存器 114:本機匯流排 116:資料庫 118:輸入模組 120:語料庫模組 122:知識分類表模組 124:映射模組 126:輸出模組 24:網際網路 26:本機計算裝置 32:伺服器 300:知識分類表 302:方塊 304:方塊 306:方塊 308:方塊 310:方塊 410:語料庫 420:詞嵌入 430:知識分類表 430:映射函數 440:知識分類表 450:節點嵌入 510:輸入短語 520:詞 530:詞嵌入 530:節點嵌入空間 540:映射函數

現在請參考附呈圖式，該附呈圖式僅以示例的方式顯示本發明的實施例，以及如何實施該實施例，其中：

第1圖為根據一實施例之用於將文句值映射至知識分類表的系統的示意圖；

第2圖為顯示第1圖之系統及一示例性的操作環境的示意圖；

第3圖為根據一實施例之用於將文句值映射至知識分類表的方法的流程圖；

第4圖為根據一實施例之映射函數方法的示例；

第5圖為根據一實施例之映射函數方法的示例；

第6圖為根據一示例性實驗的內在評估準確度測試結果表；

第7圖為根據該示例性實驗的內在平均圖形距離測試結果表；

第8圖為根據該示例性實驗的外在準確度測試結果表；

第9圖為根據該示例性實驗的外在平均圖形距離測試結果表；

第10圖為根據該示例性實驗的外在準確度測試結果表；

第11圖為根據該示例性實驗的外在平均圖形距離測試結果表；

第12圖為根據該示例性實驗的零樣本評估準確度測試結果表；以及

第13圖為根據該示例性實驗的零樣本評估平均圖形距離測試結果表。

在附呈圖式中，相同的參考標號係表示相同或相對應的元件。

410:語料庫

420:詞嵌入

430:知識分類表

430:映射函數

440:知識分類表

450:節點嵌入

Claims

一種用於將生物醫學資料的語料庫中的文句短語映射至生物醫學的知識分類表的電腦實施方法，該電腦實施方法包含：接收該生物醫學資料的語料庫以及該生物醫學的知識分類表；將位在該語料庫中的該文句短語予以映射至位在一詞嵌入空間中的一詞嵌入組，該詞嵌入組由複數個詞嵌入所構成，其中複數個該詞嵌入的各個序列係為對應於其中一個該文句短語的個別詞；將該知識分類表予以向量化至位在一節點嵌入向量空間中的一節點嵌入組，該知識分類表包含一圖形，該圖形具有在各頂點處的概念，以及具有位在連接各別頂點的邊緣處的各別概念之間的關係；使用該詞嵌入空間以及該節點嵌入向量空間之間的映射函數將該詞嵌入空間中的該詞嵌入組予以映射至該節點嵌入向量空間中的經向量化之該節點嵌入組，該映射函數係將位在節點嵌入空間中關聯於複數個該詞嵌入的複數個序列的複數個點予以輸出，使用經訓練之機器學習模型決定該映射函數，該機器學習模型以該詞嵌入組及該節點嵌入組作為輸入，並使用多數個短語-概念成對而進行訓練，該多數個短語-概念成對係對於至少一部分之該知識分類表而經預先標記；以及使用該映射函數將具有該生物醫學的知識分類表的該生物醫學資料的語料庫中的該文句短語予以註釋，以及將帶有註釋的該文句短語予以輸出至一介面。
如請求項1所述的電腦實施方法，更包含預處理該語料庫，該預處理包含以下至少一項：將短語拆分為詞、拆分句子、在標點符號周圍添加空格、更改字元為小寫、重排格式為每行一個句子、以及序連檔案。
如請求項1所述的電腦實施方法，其中將位在該語料庫中的該文句短語予以映射至一詞嵌入組係包含：施行GloVe以及fastText中的至少一個。
如請求項1所述的電腦實施方法，其中將該知識分類表予以向量化至經向量化之該節點嵌入組係包含施行node2vec嵌入，將該node2vec嵌入的施行包含：自各頂點的邊緣處開始並且在固定數目的步驟之後於一頂點處停止，其中在該些步驟的過程中所造訪的各頂點係皆記錄為該圖形的鄰域的一部分。
如請求項1所述的電腦實施方法，其中該機器學習模型包含一卷積神經網路，該卷積神經網路包含：將卷積濾波器應用於輸入向量以產生特徵映射，將該特徵映射饋送入至一池化層，以及投影該池化層的輸出以獲得降維度的輸出。
如請求項1所述的電腦實施方法，其中該機器學習模型包含一雙向長短期記憶網路，該雙向長短期記憶網路包含多個隱藏神經元，多個該隱藏神經元之後接續為投射層。
一種用於將位在生物醫學資料的語料庫中的文句短語映射至生物醫學的知識分類表的系統，該系統包含一個以上的處理器以及記憶體，該記憶體儲存該語料庫以及該知識分類表，一個以上之該處理器係與該記憶體通訊並且經配置而執行：輸入模組，接收該生物醫學資料的語料庫以及該生物醫學的知識分類表；語料庫模組，將位在該語料庫中的該文句短語予以映射至位在一詞嵌入空間中的一詞嵌入組，該詞嵌入組由複數個詞嵌入所構成，其中複數個該詞嵌入的各個序列係為對應於其中一個該文句短語的個別詞；知識分類表模組，將該知識分類表予以向量化至位在一節點嵌入向量空間中的一節點嵌入組，該知識分類表包含一圖形，該圖形具有在各頂點處的概念，以及具有位在連接各別頂點的邊緣處的各別概念之間的關係；映射模組，使用該詞嵌入空間以及該節點嵌入向量空間之間的映射函數將該詞嵌入空間中的該詞嵌入組予以映射至該節點嵌入向量空間中的經向量化之該節點嵌入組，該映射函數係將位在節點嵌入空間中關聯於複數個該詞嵌入的複數個序列的複數個點予以輸出，使用經訓練之機器學習模型決定該映射函數，該機器學習模型以該詞嵌入組以及該節點嵌入組作為輸入，並使用多數個短語-概念成對而進行訓練，該多數個短語-概念成對係對於至少一部分之該知識分類表而經預先標記，以及使用該映射函數將具有該生物醫學的知識分類表的該生物醫學資料的語料庫中的該文句短語予以註釋；以及輸出模組，將帶有註釋的該文句短語予以輸出至一介面。
如請求項7所述的系統，其中該輸入模組更預處理該語料庫，該預處理包含以下至少一項：將短語拆分為詞、拆分句子、在標點符號周圍添加空格、更改字元為小寫、重排格式為每行一個句子、以及序連檔案。
如請求項7所述的系統，其中將該語料庫中的該文句短語予以映射至一詞嵌入組包含：施行GloVe以及fastText中的至少一個。
如請求項7所述的系統，其中將該知識分類表予以向量化至經向量化之該節點嵌入組係包含：施行node2vec嵌入，將該node2vec嵌入的施行包含：自各頂點的邊緣處開始並且在固定數目的步驟之後於一頂點處停止，其中在該些步驟的過程中所造訪的各頂點係皆記錄為該圖形的鄰域的一部分。
如請求項7所述的系統，其中該機器學習模型包含一卷積神經網路，該卷積神經網路包含：將卷積濾波器應用於輸入向量以產生特徵映射，將該特徵映射饋送入至一池化層，以及投影該池化層的輸出以獲得降維度的輸出。