TWI823897B

TWI823897B - 用於診斷腸胃腫瘤的系統和方法

Info

Publication number: TWI823897B
Application number: TW108104644A
Authority: TW
Inventors: 許志仲; 李宗錞
Original assignee: 美商史柯比人工智慧股份有限公司
Priority date: 2018-02-12
Filing date: 2019-02-12
Publication date: 2023-12-01
Also published as: EP3753006A1; US11011275B2; US20190252073A1; WO2019157508A1; TW201941217A; JP2021513435A; CN112041912A

Abstract

一種於內視鏡檢查系統中診斷胃腸道腫瘤或病理的系統及方法，該內視鏡檢查系統包含用於顯示圖像增強內視鏡(IEE)圖像的一內視鏡系統顯示器。該方法包含藉由一對抗網絡(AN)隨機生成具有或不具有癌症區域的訓練圖像樣本，該對抗網絡包含收集內視鏡訓練圖像(T1)並使用來自一生成分段地圖的該AN中的一生成器，自動生成一逼真的IEE圖像作為一新的訓練圖像樣本(T2)；使用一預測網絡(L1PN)從該所收集的T1及該T2，學習一1級預測結果，該1級預測結果為一IEE圖像的一癌變概率；使用一預測網絡(L2PN)學習一2級預測結果，該2級預測結果為一IEE圖像所偵測到的癌變區域；及使用該L1PN及該L2PN並且不使用AN，預測IEE圖像的該1級結果及該2級結果。

Description

用於診斷腸胃腫瘤的系統和方法

所揭露的技術係關於內視鏡檢查，更具體而言，係關於藉由內視鏡檢查早期診斷及偵測早期胃癌(及其他胃腸道癌症)

此申請案請求於2018年2月12日提交的美國專利臨時申請案第62/629,600號的優先權權利，該專利申請案的全部內容以引用的方式併入本文中。

藉由內視鏡檢查診斷胃腸道(GI)癌症的需求正在增加，但僅有有限數量的、富有經驗的內視鏡檢查醫生可偵測到並且不會錯過病變(尤其是早期癌症)。因此，電腦輔助診斷，經由深度學習的進步，比傳統的圖像特徵分析方法(在一些研究中，約50-70％的水平))顯著提高準確性/敏感性/特異性表現(高達95％的水平)，可幫助醫生進行內視鏡檢查，以診斷及偵測早期胃腸癌。

已發現使用預定圖像特徵診斷早期胃癌的習知圖像分析方法僅達成在約50-70％的範圍內的準確性、靈敏度及特異性。

該技術的系統與方法各自具有若干態樣，其中沒有一個態樣單獨負責其期望的屬性。在不限制本發明範圍的情況下，現將簡要探討一些態樣。

在該發展的一個態樣中，存在一種在內視鏡檢查系統中診斷胃腸腫瘤或病理的方法，該內視鏡系統包含用於顯示圖像增強內視鏡(IEE)圖像的內視鏡系統顯示器，該方法包括以下步驟：藉由對抗網絡(AN)生成具有或不具有癌症區域的訓練圖像樣本，包括收集內視鏡訓練圖像(T1)；根據相應分段地圖(S1)將訓練圖像劃分為訓練正常區塊以及訓練癌變(cancerous)區塊；使用來自訓練癌變區塊的癌變生成對抗網絡(CGAN)，學習自動生成癌變區塊；使用來自訓練正常區塊的正常生成對抗網絡(NGAN)，學習自動生成正常IEE圖像區塊；隨機生成分段地圖(S2)，分段地圖(S2)包括基於自動生成的癌變區塊及自動生成的正常IEE圖像區塊之黑白圖像，其中任何白色像素表示癌變區域，並且其中分段地圖可僅有黑色像素，其為無癌症的表示；使用來自被生成之分段地圖之AN中的生成器網絡，學習自動生成逼真的IEE圖像作為新的訓練圖像樣本(T2)；使用1級預測網絡(L1PN)，學習1級預測結果，1級預測結果為來自所收集的T1及T2之IEE圖像的癌變概率，其中T2由AN生成；使用2級預測網絡(L2PN)，學習2級預測結果，2級預測結果為來自所收集的T1及T2之IEE圖像所偵測到的癌變區域，其中T2由AN生成；及使用L1PN及L2PN並且不使用AN，預測IEE圖像的1級結果及2級結果。

IEE圖像可包含放大的窄頻影像技術、細胞內視顯微鏡、i-SCAN、柔性光譜成像顏色增強、藍色雷射成像及亮雷射成像中的至少一種。分段地圖(S1)可包括參考標準(ground truth)。參考標準可能由醫師標記。該方法還可包括以下步驟：基於所收集的內視鏡訓練圖像，生成附加訓練圖像，該生成步驟包括：旋轉或翻轉所收集的內視鏡訓練圖像以創建一個或更多個增強訓練圖像；提供解析度大於所收集的內視鏡訓練圖像的引導分段地圖；隨機裁剪引導分段地圖，以獲得解析度等於所收集的內視鏡訓練圖像解析度的子地圖；並且將子地圖與每個增強的訓練圖像相乘(multiplying)，以便產生額外的訓練圖像。2級預測結果之所偵測到的癌變區域可為像素級別的解析度。

在該發展的另一個態樣中，存在一種用於診斷內視鏡檢查系統中的胃腸道腫瘤或病理的系統，包括用於顯示圖像增強內視鏡(IEE)圖像的內視鏡系統顯示器，該系統包括：用於藉由對抗網絡(AN)生成具有或不具有癌症區域的訓練圖像樣本之手段，包括用於收集內視鏡訓練圖像(T1)之手段；根據相應分段地圖(S1)，用於將訓練圖像劃分為訓練正常區塊以及訓練癌變區塊之手段；使用來自訓練癌變區塊的癌變生成對抗網絡(CGAN)，用於學習自動生成癌變區塊之手段；使用來自訓練正常區塊的正常生成對抗網絡(NGAN)，用於學習自動生成正常IEE圖像區塊之手段；用於隨機生成分段地圖(S2)之手段，分段地圖(S2)包括基於自動生成的癌變區塊及自動生成的正常IEE圖像區塊之黑白圖像，其中任何白色像素表示癌變區域，並且其中分段地圖可僅有黑色像素，其為無癌症的表示；使用來自所生成的分段地圖之AN中的生成器網絡，用於學習自動生成逼真的IEE圖像作為新的訓練圖像樣本(T2)之手段；使用1級預測網絡(L1PN)，用於學習1級預測結果之手段，1級預測結果為來自所收集的T1及T2之IEE圖像的癌變概率，其中T2由AN生成；使用2級預測網絡(L2PN)，用於學習2級預測結果之手段，2級預測結果為來自所收集的T1及T2之IEE圖像所偵測到的癌變區域，其中T2由AN生成；及使用L1PN及L2PN並且不使用AN，用於預測IEE圖像的1級結果及2級結果之手段。

IEE圖像可包含放大的窄頻影像技術、細胞內視顯微鏡、i-SCAN、柔性光譜成像顏色增強、藍色雷射成像及亮雷射成像中的至少一種。分段地圖(S1)可包括參考標準(ground truth)。參考標準可能由醫師標記。該系統可額外包括基於所收集的內視鏡訓練圖像，用於生成附加訓練圖像之手段，該生成手段包括：用於旋轉或翻轉所收集的內視鏡訓練圖像之手段，以創建一個或更多個增強訓練圖像；用於提供解析度大於所收集的內視鏡訓練圖像的引導分段地圖之手段；用於隨機裁剪引導分段地圖之手段，以獲得解析度等於所收集的內視鏡訓練圖像解析度的子地圖；並且使用用於將子地圖與每個增強的訓練圖像相乘之手段，以便產生額外的訓練圖像。

2級預測結果之所偵測到的癌變區域可為像素級別的解析度。

在該發展的另一態樣中，存在一種在內視鏡檢查系統中，藉由對抗網絡(AN)隨機生成具有或不具有癌症區域的訓練圖像樣本的方法，該內視鏡檢查系統用於診斷胃腸腫瘤或病理，包含用於顯示圖像增強內視鏡(IEE)圖像的內視鏡系統顯示器，該方法包括以下步驟：提供內視鏡訓練圖像(T1)、根據相應分段地圖(S1)將訓練圖像劃分為訓練正常區塊與訓練癌變區塊、使用來自訓練癌變區塊的癌變生成對抗網絡(CGAN)學習自動生成癌變圖像區塊、使用來自訓練正常區塊的正常生成對抗網絡(NGAN)學習自動生成正常圖像區塊、隨機生成分段地圖(S2)，分段地圖(S2)包括基於自動生成的癌變圖像區塊及自動生成正常圖像區塊的圖像，並從生成的分段地圖，使用AN中的生成器網絡，學習自動生成逼真的IEE圖像作為新的訓練圖像樣本(T2)。

任何白色像素可表示分段地圖中的癌變區域，並且其中分段地圖可僅有黑色像素，其為無癌症的表示。

在該發展的另一個態樣中，存在一種在內視鏡檢查系統中診斷胃腸腫瘤或病理的方法，該系統包含用於顯示圖像增強內視鏡(IEE)圖像的內視鏡系統顯示器，該方法包括以下步驟：使用1級預測網絡(L1PN)，特徵提取，然後進行分段以學習1級預測結果，1級預測結果為來自所收集的訓練圖像之IEE圖像的癌變概率；使用2級預測網絡(L2PN)，特徵提取提供預測網絡以學習2級預測結果，2級預測結果為來自所收集的訓練圖像之IEE圖像所偵測到的癌變區域，並使用L1PN與L2PN預測IEE圖像的1級結果與2級結果。

在該發展的又一個態樣中，存在一種用於處理放射學圖像的系統，包括：特徵提取網絡，配置成接收待處理的放射學圖像；分段網絡，配置成接收特徵提取網絡的輸出並生成癌變定位結果；及預測網絡，配置成接收特徵提取網絡的輸出並生成癌症偵測結果。

某些示意性實施例的以下詳細描述呈現了本發明的特定實施例的各種描述。然而，本發明能以多種不同方式實施。

在此呈現的描述中使用的術語僅因其與本發明的某些特定實施例的詳細描述一起使用，並非意圖以任何限制或限制性的方式解釋。此外，本發明的實施例可包含若干新穎特徵，其中沒有一個特徵單獨負責其期望的屬性或對於實踐本文所述的發明為不可或缺的。

表示資料關係與模式的模型(如函數、演算法、系統等)可接受輸入(有時稱為輸入向量)，並以某種方式產生對應於輸入的輸出(有時稱為輸出向量) 。舉例而言，模型可實現為人工神經網絡(NN)。由於人工神經網絡為計算實體，故在某種意義上是人工的，類似於動物中的生物神經網絡，但由計算設備實現。基於NN的模型中的輸出藉由前向傳遞獲得。前向傳遞涉及將表示模型參數的大NN權重矩陣，乘以對應於輸入特徵向量或隱藏中間表示的向量。在識別系統中，如設計用於識別語音、手寫文字、面部等的系統，基於NN的模型可藉著前向傳遞生成概率分數。概率分數可指示輸入對應於特定標籤、類別等的概率。

可在稱為訓練的過程中設置NN的參數。舉例而言，可使用訓練資料訓練基於NN的模型，該訓練資料包含輸入資料，及對應輸入資料的模型的正確或較佳輸出。可藉由使用輸入矩陣而非單個輸入向量同時處理各個輸入向量的集合。NN可重複處理輸入資料，並且可修改NN的參數(如，權重矩陣)，直到模型產生(或收斂至)正確或較佳的輸出。可藉由稱為反向傳播的過程來執行權重值的修改。反向傳播包含決定預期模型輸出及獲得的模型輸出之間的差異，隨後決定如何修改模型的一些或所有參數的值，以減小預期模型輸出與獲得的模型輸出之間的差異。

一般而言，人工神經網絡(包含但不限於深度神經網絡)具有多層節點。示意性地，NN可包含輸入層與輸出層，及輸入與輸出層之間的任何數量的中間或隱藏層。各個層可包含任何數量的單獨節點。相鄰層的節點可彼此連接，並且相鄰層的各個節點之間的每個連接可與相應的權重相關聯。從概念上而言，節點可被認為是計算單元，其計算輸出值作為複數個不同輸入值的函數。輸入值可包含先前層中的節點的輸出，乘以與先前層中的節點與當前節點之間的連接相關聯的權重。當NN以輸入向量矩陣(如，一批訓練資料輸入向量)的形式處理輸入資料時，NN可執行正向傳遞以生成輸出向量矩陣。輸入向量每個可包含n個單獨的資料元素或維度，對應於NN輸入層的n個節點(其中n為某個正整數)。每個資料元可為一值，如浮點數或整數。前向傳遞包含將輸入向量矩陣，乘以表示與輸入層的節點與下一層的節點之間的連接相關聯的權重的矩陣，並將激活函數應用於結果。然後對每個後續NN層重複該過程。

藉由使用端到端深度學習方法，早期胃癌的診斷與癌症區域偵測的效能在至少一項研究中實現了跨越式改進，達到85-95％的範圍。

一般而言，深度學習需要大規模的訓練集才能在各種任務上達到良好且穩定的表現。然而，在諸如醫學成像或從新設備捕獲的成像的若干應用中沒有足夠的訓練樣本。此發展提供了一種有效且高效的深度學習框架，可用於小規模訓練樣本以進行指定的目標定位及偵測。

該發展的範例性使用案例包含，胃腸癌偵測及內視鏡檢查系統的定位或補充。系統可專注於對圖像增強內視鏡(IEE)圖像(例如，放大的窄頻影像內視鏡)的早期胃癌的診斷及偵測，但相同的工作模型與過程亦可應用於其他胃腸道病理/癌症，例如，早期食道癌，巴瑞氏食道及結腸直腸息肉/癌症。

此發展的其他額外臨床應用，包含監測與監控炎性腸病(克羅恩病、潰瘍性結腸炎)中的腸炎症(如結腸炎)。

發展不僅限於IEE的類型，可適用於包含放大的窄頻影像技術、細胞內視顯微鏡、i-SCAN、柔性光譜成像顏色增強、藍色雷射成像及亮雷射成像之IEE。放大的窄頻影像技術在此用作範例性案例。

兩個高階能力如下： 1. 高效能電腦輔助診斷系統提供癌症區域定位與偵測。 2. 一個有效及高效的深度學習框架允許使用小規模的樣本資料集進行訓練。

該框架使用卷積神經網絡(CNN)及生成對抗網絡(GAN)。該系統的目的為目標區域偵測及定位或語義分段。以下列表中提供了現有技術。這三篇文獻中的每一篇均經由引用方式全文併入本文中。 1. He、Kaiming，等。"Mask r-cnn." arXiv preprint arXiv：1703.06870 (2017). 2. Long、Jonathan、Evan Shelhamer、及 Trevor Darrell。「用於語義分段的完全卷積網絡。」IEEE電腦視覺及模式識別會議論文集(2015)。 3. Shrivastava、Ashish，等。「經由對抗訓練學習模擬及無監督的圖像。」arXiv preprint arXiv：1612.07828(2016)。

在某些實施例中，此發展的圖像增強技術含有三個GAN，並且可生成由控制器因子控制的指定身份的辨別圖像。此外，可利用指定的癌變區域生成M-NBI圖像。習知方法不能生成具有指定癌變區域的圖像。

設計了一種新的CNN架構，包含： l 全為3x3內核(kernel)：傳統的CNN在前1-3層中使用7x7甚至更大的內核來降低計算複雜度。然而，這個尺寸會降低這裡的空間解析度，並且M-NBI中的特徵非常微不足道，因此利用較小的內核尺寸來維持空間解析度。 l 沒有使用池化採樣(pooling)，但使用了跨步卷積：池化採樣會破壞空間關係，在M-NBI圖像中，像素之間的關係很重要，是為為何不使用池化採樣的原因。 l 多個特徵提取器層(例如，六個)；多個分段層(例如，四個)；及多個預測層(例如，四個)：根據幾個實驗，根據經驗決定新CNN架構中的這些層的數量。在某些實施例中，此等值提供計算複雜性與效能之間的最佳折衷。

該發展的優勢包含： l 僅需一個小規模的樣本資料集即達到訓練之目的 l 內視鏡實時電腦輔助診斷系統 l 快速準確的癌症區域定位 l 一種快速有效的CNN，用於內視鏡檢查系統中的癌症位置偵測 l 一種實時電腦輔助內視鏡診斷系統 l 來自小規模資料集的2級預測網絡之訓練階段的內容感知資料增強 l 可用於生成具有/不具有癌症區域的合成-NBI圖像之M-NBI圖像合成技術。

此發展的新特微如下： 1. 卷積神經網絡結構在此發展中為新的。獨特的CNN結構(圖2-3及5-7被設計用於生成1級輸出(癌症的整體圖像診斷與否)及2級輸出(像素級癌症區域指示)。 2. 自動生成具有/不具有癌變區域的逼真訓練M-NBI圖像。

執行該過程的一組步驟及組件的實施例 1. 藉由對抗網絡(AN)隨機生成具有或不具有癌症區域的訓練圖像。 1.1. 收集訓練圖像(T1) 1.2. 根據對應分段地圖，將圖像劃分為正常區塊及癌變區塊。 1.3. 使用來自訓練癌變區塊的癌變生成對抗網絡(CGAN)，學習自動生成癌變區塊。 1.4. 使用正常生成對抗網絡(NGAN)從訓練正常區塊，學習自動生成正常放大的窄頻成像(M-NBI)圖像區塊。 1.5. 隨機生成分段地圖(僅白色區域表示癌變區域的黑白圖像)分段地圖可僅有黑色像素，意味著無癌症。 1.6. 根據1.5，黑色區域將從1.4中的結果填充，而白色區域將從1.3中的結果填充。 1.7. 使用AN中的生成器網絡從1.6中的結果，學習自動生成逼真的M-NBI圖像。生成的結果可視為新的訓練樣本(T2)。 2. 使用L1PN從所收集的T1與T2學習1級預測結果(M-NBI圖像的癌變概率)，其中T2由AN生成。 3. 使用L2PN從所收集的T1與T2學習2級預測結果(M-NBI圖像的癌變區域)，其中T2由AN生成。 4. 在訓練過程完成後，使用L1PN及L2PN來預測M-NBI圖像的L1與L2結果。在此步驟中，不再需要AN。

在訓練圖像上運行系統的三個頂級組件，產生放大的窄頻成像(M-NBI)結果如下： A. 對抗網絡(AN)-此用於訓練L1PN與L2PN，不用於測試階段。測試階段=生成M-NBI圖像的診斷結果。 B. CNN的1級預測網絡(L1PN) C. CNN的2級預測網絡(L2PN) 以下為AN、L1PN及L2PN的第二級組件： A. 對抗網絡(AN) 1. 訓練圖像 2. 癌變GAN(CGAN) 3. 正常GAN(NGAN) 4. 生成網絡 5. 鑑別器網絡 6. 最終GAN 7. 合成圖像 B. 1級預測網絡(L1PN) 1. L1PN的損耗函數 2. 特徵提取器 3. 一級預測 C. 2級預測網絡(L2PN)

1. L2PN的損耗函數

2.特徵提取器

3.分段

4.二級分段地圖

一級預測與二級分段地圖被用於生成M-NBI圖像。如上述一組步驟中所述，僅使用AN生成逼真的M-NBI圖像。儘管已經訓練AN，但AN可用於合成任何正常的M-NBI圖像及癌變N-NBI圖像。這可用於增加訓練集的大小。當存在大規模訓練集時，可訓練有效的L1PN及L2PN。最後，L1PN與L2PN可用於預測M-NBI圖像的癌變概率及其位置。

完全連接(FC)層及Softmax功能可放置在L1PN的末端。這些係使CNN運作良好的常用策略。

圖1示出了範例性計算機輔助診斷系統100的總體框架。被稱為AISKOPY系統的組件人工智慧系統120，可應用於接收具有任何影像訊號輸出(例如，RGB或YCbCr)的任何合適的現有內視鏡系統110的圖像輸入。傳統的內視鏡系統將在內視鏡系統顯示器160上顯示內視鏡圖像。隨後，醫生可觀察內視鏡圖像並基於在區塊6內視鏡系統顯示器上觀察圖像，對關於內視鏡圖像是否癌變作出診斷170。AISKOPY系統120可接收內視鏡圖像訊號(靜止幀圖像或影像)並分析圖像訊號(靜止幀圖像或訊號影像)內容，隨後在顯示器130上生成具有兩級資訊的輸出結果：1)癌變偵測140及其概率，及2)癌變定位150(若有的話)。

L1PN/L2PN的訓|練階段

眾所周知，一旦用資料集訓練，神經網絡即可提供圖像識別功能。參照圖2，描述了系統120的訓練階段200。框架含有三個主要部分：

1. 1級預測網絡(L1PN)：偵測圖像是否癌變。此外，系統提供偵測結果的信賴度參數。

2. 2級預測網絡(L2PN)：標記圖像中癌變區域的位置(若有的話)。

3.對抗網絡(AN)：用於生成具有或不具有癌變區域的合成M-NBI圖像290。

系統120的訓練階段的細節描述如下。具有其標籤210b的訓練圖像被用於訓練四個網絡：特徵提取器網絡220、分段網絡230、預測網絡240及對抗性網絡280。首先，在某些實施例中，訓練圖像210b被輸入至特徵提取器網220(圖3中示出了架構/結構)以提取256個(256)特徵地圖。每個特徵地圖被輸入至預測網絡240，以生成範圍在0-1中的兩個響應值。第一響應值表示癌變P⁺的概率，第二響應值表示圖像中的非癌變P^-的概率。圖像的癌症概率P由下式決定：P=P⁺/(P⁺+P^-).

可藉由將預測標記250與預測網絡240及(由醫師標記)參考標準210a進行比較，來更新網絡220與240。該分支被稱為L1PN(網絡220到網絡240)。

參照圖3，描繪了網絡架構300。提供一組訓練圖像310，作為由六個密集區塊構成的特徵提取器網絡320的輸入[參考文獻1：HuangGao，等，「密集連接的卷積網絡」，CVPR。2017年第1期，第2期，第3頁。]。在參考文獻1中，提出了一種密集連接的卷積網絡(DenseNet)，使用從任何層到所有後續層的直接連接。因此，第ℓ層接收所有先前層的特徵地圖，x₀ ，...，x_ℓ-1 ，作為輸入：x_ℓ =H_ℓ ([x₀ ，x₁ ，...，x_ℓ-1 ])，其中[x₀ ，x₁ ，...，x_ℓ-1 ]指的是層0，... ℓ-1中產生的特徵映射的串聯。為了便於實現，本段等式中的H_ℓ (·)的多個輸入可以連接成單個張量。圖像x₀ 經由具有L層的卷積網絡，每個L層實現非線性變換H_ℓ (·)，其中ℓ對該層進行索引。H_ℓ (·)可為如批量歸一化(BN)、整流線性單位(ReLU)、匯集或卷積(Conv)之類的操作的複合函數。第ℓ層的輸出被識別為x_ℓ 。

DenseNet係由幾個密集區塊構建的。如參考文獻1第4頁，表1中所述，典型的DenseNet至少有58個密集區塊。在此開發中，在特徵提取器網絡中僅採用六個密集區塊以具有更高效的效能。該系統的一個任務為識別圖像是否癌變。區與參考文獻1中描述的任務相比，該系統的任務為不同的，因此，該系統不需要那麼多的密集區塊。

分段網絡330接收特徵提取器網絡320的輸出。分段網絡330受到[參考文獻2：Long、Jonathan、Evan Shelhamer及Trevor Darrell，「用於語義分段的完全卷積網絡」，IEEE計算機視覺及模式識別會議論文集，2015年] 中提出的完全卷積網絡的啟發，卷積層用於最後一層、以密集連接層替換 [參考文獻2第3頁，參考文獻2]。分段網絡與完全卷積網絡(FCN)之間的區別在於，特徵提取器網絡用作分段網絡的輸入，而FCN使用AlexNet、Vgg16或GoogleNet網絡架構作為最終卷積層的輸入[參考文獻2，第5頁，表1]。與AlexNet相比，DenseNet可提供更有意義的特徵表示，並在分段結果中提供更高的效能。

再次參照圖2，256(256)個特徵地圖被視為分段網絡230的輸入(其中該架構可參照圖3)。隨後，使用分段網絡將此等特徵上採樣到高解析度分段結果。再次地，可藉由將預測的分段地圖260與參考標準210a進行比較，來更新特徵提取器網絡220及分段網絡230。該分支稱為使用網絡220到網絡230的L2PN。下文描述LI PN及L2PN的訓練階段的細節。

在訓練階段，原始訓練圖像用於基於預定義的損失函數訓練LIPN及L2PN。同時，藉由類型控制器(TC)295，從AN生成的圖像隨機地替換訓練圖像。TC為標量，用於決定生成的圖像是否含有癌變區域。在此種情況下，TC為0或1。TC = I表示生成的圖像確實含有癌變區域。AN的訓練階段將在後面描述。此步驟用於增強訓練樣本的多樣性，並且亦為訓練小規模訓練集的有效模型的關鍵。之後，訓練特徵提取器220及預測網絡240。訓練處理後，保存特徵提取器網絡與預測網絡中的最佳權重。隨後，預測網絡中的所有權重及特徵提取器網絡220中的卷積(Conv.)1至Conv.5的權重為固定的。同時，分段網絡230中的權重與特徵提取器網絡220中Conv.6的權重，係藉由L2PN中使用的損失函數來學習。最後，所有學習的權重皆保存為模型文件。在任何測試任務上，系統預加載模型文件以恢復特徵提取器、分段及預測網絡中的所有最佳權重，並將M-SBI圖像饋送至AISKOPY系統120以分別獲得L1與L2結果。L1PN 的訓練階段

L1PM的損失函數可定義為任何標籤式損失函數。在某些實施例中，交叉熵係以以下方式使用：

其中p_i 為預測標籤並且q_i 為L1參考標準(1表示癌變圖像，0表示非癌變圖像)。請注意，L1輸出及其參考標準為標量值。以此種方式，損失函數用於測量預測結果與其參考標準(正確答案)之間的差異，可用於推斷梯度資訊。由損失函數獲得的梯度，可用於更新特徵提取網絡220與預測網絡240(圖2)中的權重。更新方式係基於標準隨機梯度下降(SGD)[參考文獻4： Kingma，D.P.，＆Ba，J.L。(2015年)。Adam：一種隨機優化方法，國際學習表徵會議，I-1 3]。L2PN 的訓練階段

L2PN的損失函數可定義為任何重建損失函數。在某些實施例中，L2範數距離被用於測量預測的分段地圖與其L2參考標準之間的距離，如下：

應當注意，預測結果及其參考標準為圖像類型。類似地，在L2PN中，損失函數270(圖2)亦用於藉由標準SGD [參考文獻4]更新特徵提取網絡與分段網絡的權重。最後，可藉由上述兩個損失函數來更新圖2的區塊220、230及240中的權重。

另外，一個有效的深度學習神經網絡，即，具有多個級別的神經網絡可能難以用小規模資料集進行訓練，尤其是在訓練圖像的數量相對較低的L2PN中。因此，設計與開發了一種獨特的資料增強方法，以克服如下缺點。L2PN 訓練階段的內容感知資料增強

在內容感知資料增強(CDA)方法400中，可藉由如圖4中描述的若干步驟來處理任何訓練圖像410。首先，對尺寸為224×224的訓練圖像410執行標準資料增強430，包含垂直翻轉、水平翻轉與90度、180度及270度旋轉。這產生六個可能的圖像，包含原始圖像。然後開發引導分段地圖420，其具有2048×2048的解析度。在該引導分段地圖420上使用隨機裁剪450的操作以獲得尺寸為224×224的子地圖470。隨後，將子地圖470與圖像440相乘460以獲得處理後的訓練圖像480。以此種方式，根據引導的分段離子地圖420，每個訓練圖像中的一些部分被隨機破壞，並且放大了訓練集的大小。在一些實施例中，可任意地修改引導分段地圖。

AN的訓練階段

生成性對抗網絡(GAN)的基本思想為最小-最大優化[參考文獻3：Goodfellow、Ian.等，「Generative adversarial nets」，神經資訊處理系統的進展，2014]。在圖5所示的範例中，合成網絡530及生成器網絡560旨在從輸入合成圖像，該輸入可欺騙區塊鑑別器網絡550及鑑別器網絡570。鑑別器的主要任務為檢查輸入圖像是否合成。若生成器為勝方，則生成的圖像可視為真實圖像。生成器網絡560及鑑別器網絡570的網絡架構在圖6中示為生成器610及鑑別器620。傳統的GAN用於從隨機雜訊中隨機生成任意逼真圖像[參考文獻3]。在此發展中，需要控制具有或不具有癌變區域的合成圖像。然而，因為傳統的GAN不能指定合成圖像的類型，傳統的GAN不能用於此任務。此開發的新AN可用於解決此問題，如圖5所示。

在圖5所示的AN中，有三個用於指定圖像合成任務的GAN(生成對抗網絡)。第一及第二GAN用於生成癌變圖像區塊或正常圖像區塊。為此，訓練圖像510分別被分成癌症及正常圖像區塊。隨後，藉由將癌變圖像分為區塊520a而得的區塊用於訓練第一GAN(稱為癌變GAN、CGAN、530-黑色及550-黑色)並藉由遵循標準GAN損失函數來更新第一GAN的參數：

其中DI(550-黑色)為識別器，而G1(530-黑色)為生成器。

同樣地，我們可用相同的方式訓練藉由將正常圖像分為區塊520b而得的區塊的GAN模型(稱為普通GAS，NGAN)，如下所示：

其中D2(550-深灰色)為識別器而G2(530-深灰色)為生成器。請注意，NGAN及NGAN中的組件可彼此相同。

一旦訓練了CGAN及NGAN的模型，生成器網絡560就適於根據隨機生成的分段地圖594合成癌變及正常圖像區塊。控制器因子596為0或I。控制器因子可如下使用。當控制器因子為1時，癌症區域在分段地圖中由任意形狀及大小隨機生成。當控制器因子是0時，分段遮罩生成器594將為空白圖像(即，無癌症區域)。生成器的合成圖像540被發送至鑑別器網絡570以檢查圖像為真實的還虛假的。一旦描述器網絡570將合成圖像視為真實，即可終止訓練過程。最後，最終的GAS(560及570)可藉由以下方式更新：

其中D3(570)為識別器而G3(560)為生成器。在某些實施例中，該GAN中的組件能與NGAN及CGAN中的組件相同。

測試階段

用於LIPN750及L2PN760的測試階段配置700可包含圖像710、特徵提取器網路720、分段網路730及預測網路740，如圖7所示。可藉由將圖像經由L1PN及L2PN來獲得M-SBI圖像之L1及L2預測的結果。

實驗

在第一組實驗中，總共有三個資料集：A(130張圖像)、B(343張圖像)及C(影像，3000幀)。有兩個測試集：T1：來自資料集A及B的70個癌變圖像與60個正常圖像；及T2：來自三個資料集的30個癌變圖像與30個正常圖像；結果列於表I中。圖像的運行時間為10毫秒。在配備Nvidia GPU Titan X的個人電腦中，幀速率大約為每秒70幀(FPS)。表I顯示了L1效能結果，表II顯示了L2效能結果。表I：Ll表現結果表II：L2表現結果

在第二組實驗中，有三個用於L1測試的資料集：A(130張圖像)、B(343張圖像)及C(影像幀，5565圖像)。測試集包含30個正片圖像和30個負片圖像。表III顯示了L1表現結果。對於L2測試，有兩個資料集：A(130張圖像)及B(343張圖像)。測試集包含30個正片圖像和30個負片圖像。表IV顯示了L2表現結果。

L1輸出 - 改進的結果 l 3個資料集：影像幀(5565個圖像)、第2組(343個圖像)、第1組(130個圖像) l 訓練集：5978個圖像 l 測試集II.30個正片圖像，30個負片圖像表III：L1改善了表現結果

L2輸出以像素為準確度-改善的結果 l 2個資料集：第2組(343個圖像)、第1組(130個圖像) l 訓練集：473個圖像 l 測試集：30個正片圖像，30個負片圖像運行時間：平均10毫秒最大運行時間：使用Titan X的個人電腦上為67毫秒平均運行時間：使用Titan X的個人電腦上為26.5毫秒最大運行時間：在Nvidia TX2上556毫秒最大運行時間：在Nvidia TX2上130毫秒最大運行時間：使用GTX 1050 2G的個人電腦上為88毫秒平均運行時間：使用GTX 1050 2G的個人電腦上為39毫秒：表IV：L2改善了表現結果

在醫院最近的一組實驗中，測試的一個配置包含一台配備Intel i7-7700處理器、16GB DDR4內存、GTX 1080Ti 11GB顯示卡、及480GB SSD的PC。在某些實施例中，使用HDMI to VGA轉換器來提供640×480的系統解析度。在此配置上使用基於修改的AlexNet(僅六個卷積層)及FCN特徵的第一版演算法來實現均值(FPS)= 12.25。

另一種配置採用了Nvidia Jetson TX2模型，其中包含雙核Nvidia Denver2及作為CPU複合體的四核ARM Cortex-A57、256核Pascal GPU、8GB LPDDR4及32GB eMMC。Jetson TX2為一款快速、功耗效率最高的嵌入式AI計算裝置。在此配置上使用基於修改的AlexNet(僅六個卷積層)及FCN特徵的第二版演算法來實現平均FPS=10.15。第二版演算法與第一版的不同處在於執行了python編碼優化以降低執行複雜性。第三版演算法利用相同的Nvidia Jetson TX2模型，基於六個密集區塊的堆疊器、FCN功能及內容感知資料增強。此配置的平均FPS為8.1。替代實施例

現在描述上述實施例的替代方案。在某些實施例中，GAN能被任何可用於合成圖像的CNN代替。在某些實施例中，可生成判別性訓練樣本的任何框架可視為與先前描述的實施例類似的工作。結論

熟習技術者將理解資訊及訊號可使用各種不同的科技及技術來表示。舉例而言，在整個以上描述中可指稱的資料、指令、命令、資訊、訊號、位元、符號及芯片可由電壓、電流、電磁波、磁場或粒子、光場或粒子或任何表示其組合。

熟習技術者將進一步理解，結合本文揭露的範例描述的各種說明性邏輯塊、模型、電路、方法及演算法能以電子硬體、電腦軟體或兩者的組合方式實現。

為了清楚地說明硬體及軟體的此種可互換性，上面已在功能方面對各種說明性的組件、區塊、模型、電路、方法及演算法進行了總體描述。將此功能性實施為硬體還是軟體，取決於特定應用及強加於整個系統的設計約束。熟習技術者可針對每個特定應用，以不同方式實現所描述的功能，但此種實現決策不應被解釋成會導致脫離本發明的範圍。

結合本文揭露的範例描述的各種說明性邏輯塊、模組及電路，可利用通用處理器、數字訊號處理器(DSP)、專用積體電路(ASIC)、現場可程式化閘陣列(FPGA)、或其他可程式化邏輯裝置、離散閘或晶體管邏輯、分立硬件組件或被設計用於執行本文所述的功能之任何組合來實現或執行。通用處理器可為微處理器，但可選地，處理器可為任何傳統的處理器、控制器、微控制器或狀態機。處理器亦可以計算裝置的組合，如DSP與微處理器的組合、複數個微處理器、一個或多個微處理器結合DSP內核、或任何其他這樣的配置方式實現。

結合本文中所示的範例而描述的方法或算法可直接體現於硬體中，由處理器執行的軟體模型中、或兩者的組合中。軟體模型可駐留在RAM記憶體、快閃記憶體、ROM記憶體、EPROM記憶體、EEPROM記憶體、暫存器、硬碟、可移除硬碟、CD-ROM或現存已知或未來可用於的任何其他合適形式的資料儲存媒體中。儲存媒體可連接至處理器，使處理器可從儲存媒體讀取資訊及向儲存媒體寫入資訊。在替代方案中，儲存媒體可為處理器的組成部分。處理器與儲存媒體可駐留在ASIC中。

取決於實施例，本文描述的任何方法的某些動作、事件或功能能以不同的順序執行，可被添加、合併或完全省略(例如，並非所有描述的動作或事件皆為實施該方法必需的。)此外，在某些實施例中，動作或事件可同時執行，而非依順序執行。

提供先前對所示範例的描述係為了使本領域熟習技術者能夠實施或使用本發明。對此等範例的各種修改對於本領域熟習技術者而言將為顯而易見的，並且在不脫離本發明的精神或範圍的情況下，本文定義的一般原理可應用於其他範例。將認知到的，因為一些特徵能與其他特徵分開使用或實踐，本文描述的發明的某些實施例可體現為，不提供本文所述的所有特徵及優點的形式。本文揭露的某些發明的範圍由所附申請專利範圍的描述表示而非前文的描述。在申請專利範圍的含義及等同範圍內的所有變化都包含在其範圍內。因此，本發明不限於本文所示的實施例，而是與符合本文揭露的原理及新穎特徵的最廣泛範圍相一致。

為了總結本發明與相對於現有技術實現的優點，本文已於上文中描述了本發明的某些目的與優點。當然，應當理解，根據本發明的任何特定實施例，不一定能夠實現所有這些目的或優點。因此，舉例而言，本領域熟習技術者將認知到，本發明能以實現或優化本文所教導或建議的一個優點或一組優點的方式實施或運行，而非必實現可教導或建議的其他目的或優點。

所有此等實施方案皆在本文揭露的本發明的範圍內。藉由參照附圖的較佳實施例的以下詳細描述，此等及其他實施例對於本領域熟習技術者將變得顯而易見，本發明不限於所揭露的任何特定較佳實施例。

100:計算機輔助診斷系統

110:內視鏡系統

120:AISKOPY系統

130:資訊輸出(顯示器)

140:癌變偵測

150:癌變定位

160:內視鏡系統顯示器

170:診斷

200:訓練階段

210a:參考標準

210b:訓練圖像

220:特徵提取器網絡

230:分段網絡

240:預測網絡

250:癌變檢測(L1)/預測標記

260:癌變定位(L2)/分段地圖

270:損失函數

280:對抗性網絡

290:合成M-NBI圖像

295:類型控制器(TC)

300:網絡架構

310:訓練圖像

320:特徵提取器網絡

330:分段網絡

340:預測網絡

400:內容感知資料增強方法

410:訓練圖像

420:引導分段地圖

430:標準資料增強

440:圖像

450:隨機裁剪

460:相乘

470:子地圖

480:處理後的訓練圖像

510:訓練圖像

520a:將癌變圖像分為區塊

520b:將正常圖像分為區塊

530:合成網絡

540:合成圖像塊

550:區塊鑑別器網絡

560:生成器網絡

570:鑑別器網絡

594:分段遮罩生成器

596:控制器因子

610:生成器

620:鑑別器

700:測試階段配置

710:圖像

720:特徵提取器網絡

730:分段網路

740:預測網路

750:癌變檢測(L1)/LIPN

760:癌變定位(L2)/L2PN

此申請案內含至少一個由彩色列印的圖式。此專利具有彩色圖式的副本將在請求及支付必要費用後由主管機關提供。

圖1為示出電腦輔助診斷系統的總體框架的一方塊圖，該系統包括用於圖像識別的人工智慧組件，稱為AISKOPY系統。

圖2為示出AISKOPY系統的訓練階段的一方塊圖。

圖3為示出特徵提取器、分段及預測網絡的網絡架構的一方塊圖。

圖4為示出用於對抗性網絡(AN)的訓練階段的資料增強方法的一方塊圖。

圖5為示出AN訓練階段的一方塊圖。

圖6為示出生成器及鑑別器網絡的網絡架構的一方塊圖。

圖7為示出1級及2級預測的測試階段的一方塊圖。

圖8為識別與醫師註釋的癌變區域輸出形成對比的癌變區域的2級預測網絡輸出的一圖像範例。

圖9為識別與醫師註釋的癌變區域輸出形成對比的癌變區域的2級預測網絡輸出的另一圖像範例。

圖10為識別與醫師註釋的癌變區域輸出形成對比的癌變區域的2級預測網絡輸出的另一圖像範例。

圖11為識別與醫師註釋的癌變區域輸出形成對比的癌變區域的2級預測網絡輸出的另一圖像範例。

圖12為識別與醫師註釋的癌變區域輸出形成對比的癌變區域的2級預測網絡輸出的又另一圖像範例。