TW202349337A

TW202349337A - 醫療影像偵測系統、訓練方法以及醫療分析方法

Info

Publication number: TW202349337A
Application number: TW112107204A
Authority: TW
Inventors: 蔡承翰; 彭宇劭
Original assignee: 宏達國際電子股份有限公司
Priority date: 2022-03-01
Filing date: 2023-03-01
Publication date: 2023-12-16
Also published as: CN116703816A; US20230316511A1; JP2023127578A

Abstract

一種醫療影像偵測系統包含記憶體以及處理器。處理器用以執行儲存在記憶體中的神經網路模型，神經網路模型包含特徵擷取單元、特徵金字塔網路、第一輸出頭以及第二輸出頭。特徵擷取單元用以由醫療影像中擷取複數個中間張量。特徵金字塔網路與特徵擷取單元連動，特徵金字塔網路用以根據中間張量產生複數個複合解析度特徵圖。第一輸出頭用以根據該些複合解析度特徵圖產生全域預測。第二輸出頭用以根據該些複合解析度特徵圖產生複數個局部預測。處理器用以基於該醫療影像、該全域預測以及該些局部預測產生一輸出資訊。

Description

醫療影像偵測系統、訓練方法以及醫療分析方法

本揭示有關於一種醫療影像偵測系統及訓練方法，且特別是有關於一種醫療影像偵測系統其能夠產生醫療影像整體觀之的全域預測以及有關醫療影像中局部區域的局部預測。

各種醫療影像技術廣泛用於診斷患者的疾病或進行健康檢查的應用場景，例如，X 射線成像、電腦斷層(computed tomography, CT)成像以及核磁共振成像 (magnetic resonance imaging, MRI)等，上述醫療影像技術可以在診斷癌症、骨折、內出血與其他症狀時提供關鍵資訊。一般來說，需要有經驗的醫生或專家來查看這些醫療影像技術拍攝到的結果圖像，並根據經驗判斷結果圖像是屬於正常還是異常情況。

在各種疾病當中，肺癌是屬於世界範圍內癌症相關死亡的多個重要原因之一。在醫療影像中所發現的肺部結節(nodule)雖然通常是良性的結節，但卻是潛在肺癌的警示信號。由於胸部X光片其操作簡單且成本較低，成為目前應用最廣泛的胸部醫療影像拍攝方式。由於成像方式本身的特性，採用X 射線影像進行胸部檢查的一個重要問題是，醫療影像中的結節未被放射科醫師辨認出來而錯過的比例。由於胸部 X 光片是患者胸部的二維投影，故當結節被其他器官(例如肋骨)或異物遮擋時，結節在視覺上將難以辨認。並且，隨著工作量的增加，對胸部放射科醫師而言要精確地辨認結節的存在並不容易，因此需要輔助工具來降低胸部X光片在影像分析過程中的遺漏。

本揭示的一態樣揭露一種醫療影像偵測系統，包含記憶體以及處理器。記憶體用以儲存神經網路模型。處理器耦接記憶體，處理器用以執行神經網路模型，神經網路模型包含特徵擷取單元、特徵金字塔網路、第一輸出頭以及第二輸出頭。特徵擷取單元用以由醫療影像中擷取複數個中間張量，這些中間張量各自分別具有一解析度。特徵金字塔網路與特徵擷取單元連動，特徵金字塔網路用以根據中間張量產生複數個複合解析度特徵圖。第一輸出頭用以根據該些複合解析度特徵圖產生全域預測，全域預測用以表示是否有一目標物件存在於該醫療影像中。第二輸出頭用以根據該些複合解析度特徵圖產生複數個局部預測，該些局部預測各自用以表示該醫療影像的一目標物件預測位置，處理器用以基於該醫療影像、該全域預測以及該些局部預測產生一輸出資訊。

本揭示的另一態樣揭露一種訓練方法，適用於訓練由一醫療影像偵測系統所執行的一神經網路模型。該訓練方法包含：提供一醫療影像以及有關該醫療影像的一訓練基礎事實；對該醫療影像進行一第一影像擴增，以產生一第一擴增醫療影像；對該醫療影像進行一第二影像擴增，以產生一第二擴增醫療影像；根據該第一擴增醫療影像由該神經網路模型之一第一輸出頭產生一全域預測；根據該第二擴增醫療影像由該神經網路模型之一第二輸出頭產生複數個局部預測；透過將該全域預測與該訓練基礎事實比較，計算一全域損失；透過將該些局部預測與該訓練基礎事實比較，計算一局部損失；以及根據該全域損失以及該局部損失以反向傳遞方式更新該神經網路模型。

本揭示的另一態樣揭露一種醫療分析方法，適用於執行一神經網路模型的一醫療影像偵測系統，醫療分析方法包含：取得一醫療影像；利用該神經網路模型之一特徵擷取單元，由該醫療影像擷取複數個中間張量，該些中間張量各自分別具有一解析度；利用該神經網路模型之一特徵金字塔網路，根據該些中間張量產生複數個複合解析度特徵圖；利用該神經網路模型之一第一輸出頭，根據該些複合解析度特徵圖產生一全域預測，該全域預測用以表示是否有一目標物件存在於該醫療影像中；利用該神經網路模型之一第二輸出頭，根據該些複合解析度特徵圖產生複數個局部預測，該些局部預測各自用以表示該醫療影像的一目標物件預測位置；以及，基於該醫療影像、該全域預測以及該些局部預測產生一輸出資訊。

以下揭示提供許多不同實施例或例證用以實施本揭示文件的不同特徵。特殊例證中的元件及配置在以下討論中被用來簡化本揭示。所討論的任何例證只用來作解說的用途，並不會以任何方式限制本揭示文件或其例證之範圍和意義。在適當的情況下，在圖式之間及相應文字說明中採用相同的標號以代表相同或是相似的元件。

請參閱第1圖，其繪示根據本揭示之一些實施例中一種醫療影像偵測系統100的示意圖。於一些實施應用中，醫療影像偵測系統100用以偵測或預測在醫療影像中目標物件的存在，而其偵測結果有助於根據醫療影像的內容對病患進行檢查、評估或診斷。

如第1圖所示，醫療影像偵測系統100包含記憶體120、處理器140以及界面裝置160。記憶體120用以儲存電腦可執行指令，其可由處理器140所執行。在一些實施例中，記憶體120可以包含動態記憶體、靜態記憶體、硬碟或快閃記憶體等。界面裝置160用以接收輸入資料(例如輸入醫療影像、指令、聲控命令或鍵盤輸入等)及/或顯示輸出內容。在一些實施例中，界面裝置160可以包含鍵盤、顯示器、觸控面板、麥克風、網路收發器、喇叭等。處理器140用以執行神經網路模型180，其中神經網路模型180的資料或參數可以儲存於記憶體120當中。在一些實施例中，處理器140可以包含中央處理器(central processing unit, CPU)、圖形處理器(graphic processing unit, GPU)、張量處理器(tensor processing unit, TPU)、特殊應用積體電路(application specific integrated circuit, ASIC)或其他具相等性的處理電路。

請一併參閱第2圖，其繪示根據本揭示文件之一些實施例中神經網路模型180之架構的示意圖。由處理器140執行的神經網路模型180用以偵測醫療影像IMGi並產生有關醫療影像的IMGi的全域預測GP以及多個局部預測LPs。在一些實施例中，全域預測GP用以表示是否有目標物件存在於醫療影像中。每個局部預測LPs各自用以表示醫療影像IMGi中的目標物件預測位置。

在一些實施例中，醫療影像IMGi可以是有關病患的胸部、腹部或頭部的X光影像、電腦斷層(computed tomography, CT)影像或核磁共振造影(magnetic resonance imaging, MRI)影像。目標物件可以是病患身上帶有且出現在醫療影像IMGi當中的結節(nodule)及/或腫瘤(tumor)。為了說明上的簡便，在後續段落的討論中會假設醫療影像IMGi為有關病患的胸部的X光影像，而目標物件會假設為結節。

上述組合(即在胸部X光影像中偵測結節)為神經網路模型180之一種例示性應用，但本揭示文件並不以此為限。

在此例子中，神經網路模型180產生的全域預測GP是有關醫療影像IMGi中帶有任何結節，而神經網路模型180產生的多個局部預測LPs是有關醫療影像IMGi中的各個結節的預測位置。請一併參閱第3圖，其繪示根據本揭示文件的一些實施例中神經網路模型180對應醫療影像IMGi所產生的全域預測GP與多個局部預測LPs的示意圖。如第3圖所示，神經網路模型180產生的全域預測GP可以是一個概率值標籤，如85%，用以表示醫療影像IMGi存在高概率包含至少一個結節。如第2圖及第3圖所示，在此實施例中神經網路模型180產生的多個局部預測LPs包含五個局部預測LP1、LP2、LP3、LP4及LP5，其用以標示醫療影像IMGi中存在結節的五個可能的位置及區域範圍。在此例子中，局部預測LP1包含局部邊界框用以展示醫療影像IMGi中的一個預測結節的位置與大小。局部預測LP2包含另一局部邊界框用以展示醫療影像IMGi中的另一個預測結節的位置與大小。相似地，局部預測LP3、LP4及LP5展示另外三個局部邊界框。

本揭示文件中的神經網路模型180提出一種基於雙頭網路架構(Dual Head Network, DHN)的複合任務肺部結節偵測演算法，以同步產生全域預測GP與多個局部預測LPs。如第2圖所示，神經網路模型180包含特徵擷取單元182、特徵金字塔網路(feature pyramid network, FPN)184、第一輸出頭186以及第二輸出頭188。請一併參閱第4圖，其繪示根據本揭示文件的一些實施例中第1圖及第2圖中的醫療影像偵測系統100及神經網路模型180所執行的醫療分析方法200的流程圖。

在一些實施例中，特徵擷取單元182、特徵金字塔網路184、第一輸出頭186以及第二輸出頭188可以是神經網路模型180中的軟體功能模塊，每一者可以透過軟體程式或電腦可執行指令加以實現。關於特徵擷取單元182、特徵金字塔網路184、第一輸出頭186以及第二輸出頭188的軟體架構細節在後續段落中會進一步說明。

如第1圖、第2圖以及第4圖所示，執行步驟S210以將醫療影像IMGi提供給神經網路模型180的特徵擷取單元182。在一些實施例中，醫療影像IMGi可以是在病患的胸部區域拍攝到的X光影像。若病患患有肺癌，則一或多個結節將會出現在醫療影像IMGi當中。若病患的肺部為健康的，則醫療影像IMGi有可能不會出現任何結節。

如第1圖、第2圖以及第4圖所示，執行步驟S220由神經網路模型180的特徵擷取單元182從醫療影像IMGi擷取多個中間張量Ts。請一併參閱第5圖，其繪示根據本揭示文件的一些實施例在第2圖中的特徵擷取單元182的內部架構的示意圖。特徵擷取單元182包含一些卷積層用以基於醫療影像IMGi產生多個中間張量Ts。在第5圖的實施例中，特徵擷取單元182包含依序前後耦接的八個卷積層 CL1至CL8。卷積層 CL1可以包含在不同通道上的一些卷積核(convolutional kernel)且卷積層 CL1可以用來對醫療影像IMGi進行卷積運算並產生中間張量T1。卷積層 CL1產生的中間張量T1被傳送至卷積層 CL2，而卷積層 CL2可以用來對中間張量T1進行卷積運算並產生中間張量T2。相似地，卷積層 CL3至CL8可以依序執行卷積運算並分別產生中間張量T3至T8。

在一些實施例中，特徵擷取單元182可以在這些卷積層CL1至CL8之間或前後進一步包含一些池化層(圖中未繪示)及/或激勵層(圖中未繪示)。由於卷積層 CL1至CL8可能包含不同的取樣率以及池化層的作用下，中間張量T1至T8各自具有彼此間相異的解析度。舉例來說，中間張量T5的空間解析度可以是128x128；中間張量T6的空間解析度可以是64x64；中間張量T7的空間解析度可以是32x32；以及，中間張量T8的空間解析度可以是16x16。這些中間張量T5至T8的解析度受到卷積層CL5至CL8各自的取樣率以及在卷積層CL3至CL8之間的池化層所影響，本揭示文件並不以特定的數字為限。

在此例子中，中間張量T5具有相對較高的空間解析度128x128，相較於中間張量T6的空間解析度64x64。相似地，中間張量T6具有相對較高的空間解析度64x64，相較於中間張量T7的空間解析度32x32。另一方面，中間張量T7具有相對較高的空間解析度32x32，相較於中間張量T8的空間解析度16x16。在中間張量T5的每一個單元傾向於表達較為具體且局部的特徵其對應到醫療影像IMGi相對較小的區域。在中間張量T8的每一個單元則傾向於表達較為抽象的特徵其對應到醫療影像IMGi相對較大的區域。

在一些實施例中，卷積層 CL1至CL8當中的一部份可以採用可變形卷積層(deformable convolution layers)，該些可變形卷積層不同於標準卷積層。在一個標準卷積層上的多個取樣點會均勻分布於這個標準卷積層的取樣視窗中。請一併參閱第6A圖、第6B圖以及第6C圖，其繪示在標準卷積層SCL1至SCL3的取樣視窗W1至W3當中取樣點之分布情況的示意圖。如第6A圖所示，標準卷積層SCL1的取樣視窗W1中的每一個單元都被選為取樣點SAMP。如第6B圖所示，取樣點SAMP彼此具有一單位的間隔距離，並均勻分布於標準卷積層SCL2的取樣視窗W2中。如第6C圖所示，取樣點SAMP彼此具有兩單位的間隔距離，並均勻分布於標準卷積層SCL3的取樣視窗W3中。

請一併參閱第6D圖，其繪示在可變形卷積層DCL的取樣視窗W4當中取樣點之分布情況的示意圖。如第6D圖所示，可變形卷積層DCL的取樣點dSAMP由各自的原始位置分別偏移不同的位移向量，因此，取樣點dSAMP在可變形卷積層DCL的取樣視窗W4中為不均勻分布。

若採用標準卷積層(如第6A圖至第6C圖所示的標準卷積層SCL1至SCL3)則卷積層的感受野(receptive field)為固定的。另一方面，可變形卷積層可以在偵測興趣區域(例如結節)時提供動態的感受野。在實際應用中，由於結節的形狀與輪廓會隨實際情況改變，採用可變形卷積有助於尋找結節的影像特徵。在一些實施例中，特徵擷取單元182的所有卷積層CL1至CL8中最後三層(即卷積層CL6至CL8)採用可變形卷積層，參見第6D圖中所繪示的可變形卷積層DCL。而其他卷積層CL1至CL5則採用標準卷積層，參見第6A圖至第6C圖中所繪示的標準卷積層SCL1至SCL3。

如第1圖、第2圖以及第4圖所示，執行步驟S230由神經網路模型180的特徵金字塔網路184根據中間張量T5至T8產生多個複合解析度特徵圖MFM。特徵金字塔網路184耦接至特徵擷取單元182，特徵金字塔網路184與特徵擷取單元182連動。請一併參閱第7圖，其繪示根據本揭示文件的一些實施例在第2圖中的特徵金字塔網路184的內部架構的示意圖。

在一些實施例中，特徵金字塔網路184從特徵擷取單元182接收中間張量T5至T8，並相應地生成複合解析度特徵圖MFM。如第7圖所示的實施例，特徵金字塔網路184包含在兩個相鄰中間張量T7與T8之間的一組上升取樣器184a、1x1卷積層184b及加法器184c。

在一些實施例中，特徵擷取單元182產生的中間張量T8(具有空間解析度16x16)可以被複製為其中一個複合解析度特徵圖MFM1。此複合解析度特徵圖MFM1(基於中間張量T8)經過上升取樣器184a進行上升取樣為32x32。中間張量T7(具有空間解析度32x32)經過1x1卷積層184b的處理。加法器184c用以將經過1x1卷積處理的中間張量T7與經過上升取樣的複合解析度特徵圖MFM1合併，形成另一複合解析度特徵圖MFM2其具有空間解析度32x32。於此情況下，複合解析度特徵圖MFM2同時攜帶了來自中間張量T8的特徵以及來自中間張量T7的特徵。換句話說，複合解析度特徵圖MFM2是基於具有不同空間解析度(例如32x32與16x16)的兩個中間張量T7與T8而產生。

相似地，特徵金字塔網路184更包含在兩個相鄰中間張量T6與T7之間的另一組上升取樣器184d、1x1卷積層184e及加法器184f。於此例子中，複合解析度特徵圖MFM2經過上升取樣器184d進行上升取樣為64x64。中間張量T6(具有空間解析度64x64)經過1x1卷積層184e的處理。加法器184f用以將經過1x1卷積處理的中間張量T6與經過上升取樣的複合解析度特徵圖MFM2合併，形成另一複合解析度特徵圖MFM3其具有空間解析度64x64。於此情況下，複合解析度特徵圖MFM3同時攜帶了來自三個中間張量T6、T7及T8的特徵。換句話說，複合解析度特徵圖MFM3是基於具有不同空間解析度(例如64x64、32x32與16x16)的三個中間張量T6、T7及T8而產生。

相似地，特徵金字塔網路184更包含在兩個相鄰中間張量T5與T6之間的另一組上升取樣器184g、1x1卷積層184h及加法器184i以產生複合解析度特徵圖MFM4。於此情況下，複合解析度特徵圖MFM4同時攜帶了來自四個中間張量T5、T6、T7及T8的特徵。換句話說，複合解析度特徵圖MFM4是基於具有不同空間解析度(例如128x128、64x64、32x32與16x16)的四個中間張量T5、T6、T7及T8而產生。

在此情況下，複合解析度特徵圖MFM2、MFM3及MFM4分別是根據具有不同解析度的中間張量T5、T6、T7及T8當中至少兩個中間張量所產生。多個複合解析度特徵圖MFM會攜帶在不同解析度下的多個中間張量中被偵測的圖樣特徵，因此，多個複合解析度特徵圖MFM有助於尋找具有不同尺寸特性的各種結節。

在上述第7圖所示的實施例中，特徵金字塔網路184是舉例為具有三組電路配置於四層中間張量T5至T8之間，以產生四個複合解析度特徵圖MFM1至MFM4。本揭示文件並不以此為限。特徵金字塔網路184在一些其他實施例中可以具有不同數量的層數。

如第2圖以及第4圖所示，在一些實施例中，多個複合解析度特徵圖MFM被同時傳輸到第一輸出頭186與第二輸出頭188。執行步驟S240由第一輸出頭186根據複合解析度特徵圖MFM產生全域預測GP，全域預測GP用以表示醫療影像IMGi中是否存在任何結節。請一併參閱第8圖，其繪示根據本揭示文件的一些實施例中第2圖的第一輸出頭186其內部架構的示意圖。在一些實施例中，第一輸出頭186可包含卷積層186a及186c、整流線性單元(rectified linear unit, ReLU)186b及186d、池化層186e、線性層186f及Softmax層186g。

如第8圖所示，多個複合解析度特徵圖MFM被輸入至第一輸出頭186。多個複合解析度特徵圖MFM通過卷積層186a、整流線性單元186b、卷積層186c及整流線性單元186d，並由池化層186e進行最大池化產生單一向量。而線性層186f及Softmax層186g套用在此單一向量上並得到一概率，用以表示在此影像掃描中存在結節的概率大小。在一些實施例中，第一輸出頭186產生的全域預測GP是以概率標籤方式表示，例如第3圖中所示的85%。

如第2圖以及第4圖所示，執行步驟S242由第二輸出頭188根據複合解析度特徵圖MFM產生局部預測LPs。請一併參閱第9圖，其繪示根據本揭示文件的一些實施例中第2圖的第二輸出頭188其內部架構的示意圖。如第2圖以及第9圖所示，第二輸出頭188包含區域生成網路(region proposal network, RPN)188a、對齊模組188b以及分類模組188c。區域生成網路188a用以在複合解析度特徵圖MFM上產生複數個興趣區域(region of interest, ROI)位置。在一些實施例中，區域生成網路188a可以提議多個興趣區域位置，例如複合解析度特徵圖MFM上的興趣區域位置ROI1、ROI2、ROI3、ROI4、ROI5及ROI6。對齊模組188b用以根據興趣區域位置ROI1、ROI2、ROI3、ROI4、ROI5及ROI6從複合解析度特徵圖MFM中提取多個提議區域PR。分類模組188c用以將這些提議區域PR各自分類為目標群組TAR或非目標群組NTG。根據經分類屬於目標群組TAR的多個提議區域PR用來產生第二輸出頭188的多個局部預測LPs。多個局部預測LPs每一者(可參見第3圖中的LP1至LP5)各自用以對應醫療影像IMGi中的一個結節預測位置。

在一些實施例中，處理器140可以整合醫療影像IMGi、全域預測GP以及局部預測LPs成為一個輸出資訊INFO如第3圖所示。於此例子中，輸出資訊INFO可以是呈現醫療影像IMGi具有結節的概率以及醫療影像IMGi當中結節的潛在位置。在一些實施例中，輸出資訊INFO可以顯示在界面裝置160上。

如第3圖所示，在一些實施例中，輸出資訊INFO是以一輸出影像的形式，其結合了對應全域預測GP的概率以及對應多個局部預測LPs的潛在位置。在一些其他實施例中，輸出資訊INFO可以採用其他形式，例如文字描述、座標指示、繪圖、表格、聲音指示或者上述形式的結合。

使用者(例如病患、醫生、胸部放射科醫生、護理師或醫學專家)可以輸入醫療影像IMGi至醫療影像偵測系統100，並隨後在界面裝置160上查看或得知輸出資訊INFO。這個輸出資訊INFO可以協助使用者快速了解醫療影像IMGi所反映的檢查結果。隨著胸部放射科醫生的工作負擔快速增加的情形下，醫療影像偵測系統100以及醫療分析方法200可以作為輔助工具，以此降低胸部放射檢查過程中存在結節卻漏未發現的情況。

需注意的是，為了確保第一輸出頭186與第二輸出頭188能夠針對醫療影像IMGi產生適當的預測，神經網路模型180需事先基於訓練資料(例如歷史病歷中已知胸部X光影像以及當中相應的結節標籤)進行相應的模型訓練。後續段落中將討論神經網路模型180的訓練流程。

請一併參閱第10圖，第10圖繪示根據本揭示文件的一些實施例在訓練流程中的醫療影像偵測系統300的示意圖。如第10圖所示，醫療影像偵測系統300包含記憶體320、處理器340以及界面裝置360。處理器340用以執行神經網路模型380。第10圖中的記憶體320、處理器340、界面裝置360以及神經網路模型380相似於先前實施例在第1圖至第9圖中討論過的記憶體120、處理器140、界面裝置160以及神經網路模型180。需注意的是，在神經網路模型380的訓練流程中，處理器340更進一步執行擴增模型(augmentation model)390及訓練代理(training agent)392。

資料擴增是一種技術是用來增加訓練資料的多樣性並藉此改善模型的通用性。透過資料擴增技術，可以將數量有限的訓練資料擴展到具有較多的樣本數。本揭示文件的一些實施例提供了一種雙頭擴增技術透過分別採用獨立的資料擴增策略至多個輸出頭，藉此對多個輸出頭各自所欲達到的目標充分地進行最佳化。

請一併參閱第11圖以及第12圖，第11圖繪示在神經網路模型380的訓練階段中擴增模型390及訓練代理392所進行之操作的示意圖。第12圖繪示根據一些實施例一種訓練方法400的方法流程圖，訓練方法400適合用於訓練第10圖中的醫療影像偵測系統300所執行的神經網路模型380。

如第11圖以及第12圖所示，執行步驟S410以提供醫療影像IMGt以及有關醫療影像IMGt的訓練基礎事實TG。在此例子中，醫療影像IMGt以及訓練基礎事實TG可以從歷史醫療病歷中取得。醫療影像IMGt可以是真實的胸部X光影像，而相對應於醫療影像IMGt的訓練基礎事實TG(例如醫療影像IMGt中是否存在結節的醫療診斷以及關於已發現結節的標籤框)也可以從歷史醫療病歷當中取得。這個醫療影像IMGt被傳送至擴增模型390。

如第11圖以及第12圖所示，執行步驟S420，由擴增模型390進行對醫療影像IMGt進行第一影像擴增，以產生第一擴增醫療影像IMGa1。此外，執行步驟S422，由擴增模型390進行對醫療影像IMGt進行第二影像擴增，以產生第二擴增醫療影像IMGa2。

在一些實施例中，步驟S420中的第一影像擴增是透過挑選至少一種擴增操作，並將被選出的至少一擴增操作套用在醫療影像IMGt上，以產生第一擴增醫療影像IMGa1。在一些實施例中，這個擴增操作是由多個候選擴增操作當中選出的，舉例來說，候選擴增操作包含了隨機雜訊插入、隨機亮度調整、隨機對比調整、影像斜變(image shearing)、影像翻轉以及影像旋轉。作為例示性說明，影像斜變被挑選並套用在醫療影像IMGt上而產生了第11圖所示的第一擴增醫療影像IMGa1，但本揭示文件並不以此為限，上述一或多個候選擴增操作可被選出並在步驟S420被執行以產生第一擴增醫療影像IMGa1。舉例來說，隨機對比調整與影像翻轉可以同時被選擇以產生第一擴增醫療影像(圖中未示)。

另一方面，步驟S422中的第二影像擴增是透過從多個候選擴增操作中挑選至少一種擴增操作，並將被選出的至少一擴增操作套用在醫療影像IMGt上，以產生第二擴增醫療影像IMGa2。作為例示性說明，隨機亮度調整被挑選並套用在醫療影像IMGt上而產生了第11圖所示的第一擴增醫療影像IMGa2，但本揭示文件並不以此為限，上述一或多個候選擴增操作可被選出並在步驟S422被執行以產生第二擴增醫療影像IMGa2。

在一些實施例中，步驟S420中的第一影像擴增以及步驟S422中的第二影像擴增可以分別依照各自選擇的不同擴增操作而進行。

在一些實施例中，在選擇擴增操作的過程中，是依照均勻抽樣概率(uniform sampling probability)來選出多個候選擴增操作其中一者。換句話說，當有六種不同的候選擴增操作時，例如隨機雜訊插入、隨機亮度調整、隨機對比調整、影像斜變、影像翻轉以及影像旋轉，每一種候選擴增操作被選擇的機會為1/6，且在單次影像擴增中只會採用單一種候選擴增操作。

在另一些實施例中，在選擇擴增操作的過程中，這些候選擴增操作每一者是根據二項式抽樣概率(binomial sampling probability)而彼此獨立地進行挑選。換句話說，當有六種不同的候選擴增操作時，六種候選擴增操作分別具有自己後獲選中獨立取樣機率，且在單次影像擴增中可能會採用一或多個候選擴增操作。

在一些實施例中，於步驟S430中，將第一擴增醫療影像IMGa1以及第二擴增醫療影像IMGa2共同結合為輸入批次BCHin，並進入特徵擷取單元382以及特徵金字塔網路384。

特徵擷取單元382用以對輸入批次BCHin中的第一擴增醫療影像IMGa1以及第二擴增醫療影像IMGa2擷取多個中間張量Ts。特徵金字塔網路384與特徵擷取單元382連動。如第12圖所示，執行步驟S440，由特徵金字塔網路384根據多個中間張量Ts產生輸出批次BCHout，輸出批次BCHout中包含多個第一複合解析度特徵圖MFMG(對應第一擴增醫療影像IMGa1)以及第二複合解析度特徵圖MGML(對應第二擴增醫療影像IMGa2)。

如第11圖以及第12圖所示，執行步驟S450，由第一輸出頭386根據輸出批次BCHout中的多個第一複合解析度特徵圖MFMG產生全域預測GP。此外，執行步驟S452，由第二輸出頭388根據輸出批次BCHout中的多個第二複合解析度特徵圖MGML產生多個局部預測LPs。

第11圖中第一輸出頭386與第二輸出頭388產生全域預測GP與多個局部預測LPs的做法相似於第2圖、第8圖以及第9圖相關的先前實施例中討論過的第一輸出頭186與第二輸出頭188產生全域預測GP與多個局部預測LPs的做法，故於此不另重複。當下實施例與先前實施例主要不同之處在於，第一輸出頭386產生全域預測GP是根據對應第一擴增醫療影像IMGa1的多個第一複合解析度特徵圖MFMG，而第二輸出頭388產生多個局部預測LPs是根據對應第二擴增醫療影像IMGa2的多個第二複合解析度特徵圖MGML。換句話說，第一輸出頭386與第二輸出頭388是在基於不同的擴增操作進行訓練的。

如第11圖以及第12圖所示，全域預測GP與多個局部預測LPs傳送至訓練代理392。執行步驟360，由訓練代理392透過比較全域預測GP與訓練基礎事實TG來計算全域損失。

第一輸出頭386的主要目標是在於分類該次影像掃描(即醫療影像IMGt)中是否存在結節。在一些實施例中，全域損失L _global的計算是採用加權交叉熵(weighted cross-entropy)演算法。當訓練基礎事實TG為真(存在結節)，若全域預測GP的概率標籤愈低則全域損失L _global愈大，反之，若全域預測GP的概率標籤愈高則全域損失L _global愈小。另一方面，當訓練基礎事實TG為否(不存在結節)，若全域預測GP的概率標籤愈高則全域損失L _global愈大，反之，若全域預測GP的概率標籤愈低則全域損失L _global愈小。

此外，執行步驟S462，由訓練代理392透過比較多個局部預測LPs與訓練基礎事實TG來計算局部損失。在一些實施例中，局部損失L _local是透過下列方程式1進行計算： L _local= ℓ _obj+ ℓ _reg+ ℓ _cls+ ℓ _bbox…(方程式1)

在訓練階段，第二輸出頭388中的區域生成網路(請參見第2圖及第9圖當中第二輸出頭188中的區域生成網路188a)在背景與前景分類過程中造成物件損失ℓ _obj，並且根據區域生成網路提議的區域框與訓練基礎事實中的邊界框之間計算出的間隔距離，並由間隔距離得到迴歸損失ℓ _reg。第二輸出頭388中的分類模組(請參見第2圖及第9圖當中第二輸出頭188中的分類模組188c)在進行特徵分類時產生分類損失ℓ _cls，以及根據更新後的局部預測邊界框與訓練基礎事實中的邊界框之間計算出的間隔距離，並由間隔距離得到邊界框損失ℓ _bbox。在一些實施例中，訓練代理392可根據平滑L1損失(Smooth L1 Loss)演算法計算迴歸損失ℓ _reg以及邊界框損失ℓ _bbox，而訓練代理392可根據加權交叉熵演算法計算物件損失ℓ _obj以及分類損失ℓ _cls。

在一些實施例中，訓練代理392更進一步全域損失L _global與局部損失L _local經過加權後的總合，根據計算複合任務損失L _multi，例如以下列方程式2進行計算： L _multi=λ1*L _global+λ2*L _local…(方程式2)

在方程式2當中，λ1為全域損失的權重，λ2為局部損失權重。

如第11圖及第12圖所示，執行步驟S470，由訓練代理392以反向傳遞方式根據全域損失L _global與局部損失L _local(或者根據複合任務損失L _multi)更新神經網路模型380。

在典型的影像分類或物件偵測任務中，對每一張訓練影像採用單一種擴增策略(例如一套預測設定好的隨機影像轉換方式)。然而，用單一種擴增策略來訓練雙輸出頭架構很容易導致其中一個輸出頭的表現明顯優化，但同時另一個輸出頭則表現平平。為了使兩個輸出頭各自對應的目標表現能達到充分的最佳化，本揭示文件在第11圖中提供了雙頭擴增架構。擴增模型390用以對兩個輸出頭分別地進行兩種擴增操作。在此情況下，用以訓練第一輸出頭386與第二輸出頭388的不同擴增操作可以各自最佳化，藉此分別地使全域損失L _global與局部損失L _local達到最小化(或者使複合任務損失L _multi最小化)。

雖然本揭示的特定實施例已經揭露有關上述實施例，此些實施例不意欲限制本揭示。各種替代及改良可藉由相關領域中的一般技術人員在本揭示中執行而沒有從本揭示的原理及精神背離。因此，本揭示的保護範圍由所附申請專利範圍確定。

儘管本揭示文件已經針對一些實施例進行了相當詳細的描述，但是仍有可能採用其他相似的實施方式。因此，所附權利要求的精神和範圍不應限於上述揭露的實施例描述。

對於本領域的技術人員來說，在不脫離本揭示文件的範圍或精神的情況下，可以對本揭示文件的結構進行各種修改和變化。基於上述實施例內容，本揭示文件涵蓋落入所附權利要求的範圍內各種可能的修改和變化。

100, 300:醫療影像偵測系統 120, 320:記憶體 140, 340:處理器 160, 360:界面裝置 180, 380:神經網路模型 182, 382:特徵擷取單元 184, 384:特徵金字塔網路 186, 386:第一輸出頭 188, 388:第二輸出頭 184a, 184d, 184g:上升取樣器 184b, 184e, 184h:1x1卷積層 184c, 184f, 184i:加法器 186a, 186c:卷積層 186b, 186d:整流線性單元 186e:池化層 186f:線性層 186g:Softmax層 188a:區域生成網路 188b:對齊模組 188c:分類模組 390:擴增模型 392:訓練代理 200:醫療分析方法 S210, S220, S230, S240, S242, S250:步驟 400:訓練方法 S410, S420, S422, S430, S440, S450, S452:步驟 S460, S462, S470:步驟 IMGi, IMGt:醫療影像 Ts, T1, T2, T3, T4, T5, T6, T7, T8:中間張量 CL1, CL2, CL3, CL4, CL5, CL6:卷積層 CL7, CL8:卷積層 SCL1, SCL2, SCL3:標準卷積層 DCL:可變形卷積層 W1, W2, W3, W4:取樣視窗 SAMP, dSAMP:取樣點 MFM:複合解析度特徵圖 MFM1, MFM2, MFM3, MFM4:複合解析度特徵圖 GP:全域預測 LPs, LP1, LP2, LP3, LP4, LP5:局部預測 INFO:輸出資訊 ROI1, ROI2, ROI3:興趣區域位置 ROI4, ROI5, ROI6:興趣區域位置 PR:提議區域 TAR:目標群組 NTG:非目標群組 TG:訓練基礎事實 IMGa1:第一擴增醫療影像 IMGa2:第二擴增醫療影像 MFMG:第一複合解析度特徵圖 MFML:第二複合解析度特徵圖 BCHin:輸入批次 BCHout:輸出批次

第1圖繪示根據本揭示之一些實施例中一種醫療影像偵測系統的示意圖；第2圖繪示根據本揭示文件之一些實施例中神經網路模型之架構的示意圖；第3圖繪示根據本揭示文件的一些實施例中神經網路模型對應醫療影像所產生的全域預測與多個局部預測的示意圖；第4圖繪示根據本揭示文件的一些實施例中第1圖及第2圖中的醫療影像偵測系統及神經網路模型所執行的醫療分析方法的流程圖；第5圖繪示根據本揭示文件的一些實施例在第2圖中的特徵擷取單元的內部架構的示意圖；第6A圖、第6B圖以及第6C圖繪示在不同的標準卷積層的取樣視窗當中取樣點之分布情況的示意圖；第6D圖繪示在可變形卷積層的取樣視窗當中取樣點之分布情況的示意圖；第7圖繪示根據本揭示文件的一些實施例在第2圖中的特徵金字塔網路的內部架構的示意圖；第8圖繪示根據本揭示文件的一些實施例中第2圖的第一輸出頭其內部架構的示意圖；第9圖繪示根據本揭示文件的一些實施例中第2圖的第二輸出頭其內部架構的示意圖；第10圖繪示根據本揭示文件的一些實施例在訓練流程中的醫療影像偵測系統的示意圖；第11圖繪示在神經網路模型的訓練階段中擴增模型及訓練代理所進行之操作的示意圖；以及第12圖繪示根據一些實施例中適合用於訓練第10圖中的醫療影像偵測系統所執行的神經網路模型的一種訓練方法的方法流程圖。

國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無

180:神經網路模型

182:特徵擷取單元

184:特徵金字塔網路

186:第一輸出頭

188:第二輸出頭

188a:區域生成網路

188b:對齊模組

188c:分類模組

IMGi:醫療影像

Ts:中間張量

MFM:複合解析度特徵圖

GP:全域預測

LPs:局部預測

Claims

一種醫療影像偵測系統，包含：一記憶體，用以儲存一神經網路模型；以及一處理器，耦接該記憶體，該處理器用以執行該神經網路模型，該神經網路模型包含：一特徵擷取單元，用以由一醫療影像中擷取複數個中間張量，該些中間張量各自分別具有一解析度；一特徵金字塔網路(feature pyramid network, FPN)，與該特徵擷取單元連動，用以根據該些中間張量產生複數個複合解析度特徵圖；一第一輸出頭，用以根據該些複合解析度特徵圖產生一全域預測，該全域預測用以表示是否有一目標物件存在於該醫療影像中；以及一第二輸出頭，用以根據該些複合解析度特徵圖產生複數個局部預測，該些局部預測各自用以表示該醫療影像的一目標物件預測位置，其中該處理器用以基於該醫療影像、該全域預測以及該些局部預測產生一輸出資訊。
如請求項1所述之醫療影像偵測系統，其中該些複合解析度特徵圖其中至少一者是由該特徵金字塔網路根據該些中間張量其中至少兩者所產生，該特徵擷取單元包含複數個卷積層以產生具有不同解析度的該些中間張量，該些中間張量包含具有一較高解析度的一第一中間張量以及具有一較低解析度的一第二中間張量，該特徵金字塔網路用以將該第二中間張量上升取樣並與該第一中間張量合併以產生該些複合解析度特徵圖其中一者。
如請求項2所述之醫療影像偵測系統，其中該特徵擷取單元的該些卷積層中最後三層為複數個可變形卷積層，該些可變形卷積層的複數個取樣點在該些可變形卷積層的複數個取樣視窗中為不均勻分布。
如請求項1所述之醫療影像偵測系統，其中該第二輸出頭包含：一區域生成網路(region proposal network, RPN)，用以在該些複合解析度特徵圖上產生複數個興趣區域位置；一對齊模組，用以根據該些興趣區域位置從該些複合解析度特徵圖提取複數個提議區域；以及一分類模組，用以將該些提議區域各自分類為一目標群組或一非目標群組，藉以根據經分類屬於該目標群組的該些提議區域產生該些局部預測。
如請求項1所述之醫療影像偵測系統，其中該第一輸出頭包含複數個卷積層、一線性層以及一激勵層，該激勵層用以產生該全域預測。
如請求項1所述之醫療影像偵測系統，其中該醫療影像包含有關一胸部、一腹部或一頭部的一X光影像、一電腦斷層(computed tomography, CT)影像或一核磁共振造影(magnetic resonance imaging, MRI)影像，該目標物件包含一結節或一腫瘤。
一種訓練方法，適用於訓練由一醫療影像偵測系統所執行的一神經網路模型，該訓練方法包含：提供一醫療影像以及有關該醫療影像的一訓練基礎事實；對該醫療影像進行一第一影像擴增，以產生一第一擴增醫療影像；對該醫療影像進行一第二影像擴增，以產生一第二擴增醫療影像；根據該第一擴增醫療影像由該神經網路模型之一第一輸出頭產生一全域預測；根據該第二擴增醫療影像由該神經網路模型之一第二輸出頭產生複數個局部預測；透過將該全域預測與該訓練基礎事實比較，計算一全域損失；透過將該些局部預測與該訓練基礎事實比較，計算一局部損失；以及根據該全域損失以及該局部損失以反向傳遞方式更新該神經網路模型。
如請求項7所述之訓練方法，其中該神經網路模型包含：一特徵擷取單元，用以由該第一擴增醫療影像以及該第二擴增醫療影像擷取複數個中間張量；以及一特徵金字塔網路(feature pyramid network, FPN)，與該特徵擷取單元連動，用以根據該些中間張量產生複數個第一複合解析度特徵圖以及複數個第二複合解析度特徵圖。
如請求項7所述之訓練方法，其中該第一影像擴增與該第二影像擴增各自是以下列方式進行：由複數個候選擴增操作中挑選至少一擴增操作；以及將被選出的該至少一擴增操作套用在該醫療影像上，以產生該第一擴增醫療影像或該第二擴增醫療影像。
如請求項9所述之訓練方法，其中該訓練方法在進行該第一影像擴增與該第二影像擴增時，是分別地選出並套用相異的擴增操作。
一種醫療分析方法，適用於執行一神經網路模型的一醫療影像偵測系統，該醫療分析方法包含：取得一醫療影像；利用該神經網路模型之一特徵擷取單元，由該醫療影像擷取複數個中間張量，該些中間張量各自分別具有一解析度；利用該神經網路模型之一特徵金字塔網路，根據該些中間張量產生複數個複合解析度特徵圖；利用該神經網路模型之一第一輸出頭，根據該些複合解析度特徵圖產生一全域預測，該全域預測用以表示是否有一目標物件存在於該醫療影像中；利用該神經網路模型之一第二輸出頭，根據該些複合解析度特徵圖產生複數個局部預測，該些局部預測各自用以表示該醫療影像的一目標物件預測位置；以及基於該醫療影像、該全域預測以及該些局部預測產生一輸出資訊。