TW202335621A - 基於語義分割於影像辨識之方法 - Google Patents

基於語義分割於影像辨識之方法 Download PDF

Info

Publication number
TW202335621A
TW202335621A TW111108094A TW111108094A TW202335621A TW 202335621 A TW202335621 A TW 202335621A TW 111108094 A TW111108094 A TW 111108094A TW 111108094 A TW111108094 A TW 111108094A TW 202335621 A TW202335621 A TW 202335621A
Authority
TW
Taiwan
Prior art keywords
image
semantic segmentation
images
pooled
host
Prior art date
Application number
TW111108094A
Other languages
English (en)
Other versions
TWI820624B (zh
Inventor
王祥辰
陳冠霖
曹育銘
徐任鋒
Original Assignee
國立中正大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立中正大學 filed Critical 國立中正大學
Priority to TW111108094A priority Critical patent/TWI820624B/zh
Priority to US18/162,077 priority patent/US20230282010A1/en
Priority to JP2023014984A priority patent/JP2023129276A/ja
Publication of TW202335621A publication Critical patent/TW202335621A/zh
Application granted granted Critical
Publication of TWI820624B publication Critical patent/TWI820624B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Endoscopes (AREA)
  • Image Processing (AREA)

Abstract

本發明係有關一種基於語義分割於影像辨識之方法,其將擷取輸入之一第一影像進行資料增補為一第二影像,再將一第二影像以一類神經網路進行編解碼,以取得至少一語意分割區塊,最後將該至少一語意分割區塊比對一樣本進行分類,以分類為一目標物件影像或一非目標物件影像。藉此,透過卷積神經網路檢測影像擷取裝置所輸入之影像是否為目標物件影像,因而輔助醫生判讀食道影像。

Description

基於語義分割於影像辨識之方法
本發明係有關一種影像辨識之方法,尤其是一種基於語義分割於影像辨識之方法。
目前以內視鏡影像作為工具對消化系統疾病診斷相當常見,特別是食道癌檢測,因早期的食道癌不太會有症狀,絕大多數病人都是因發生吞嚥問題才得以發現,而臨床上食道癌的診斷通常透過食道內視鏡
食道為一連接咽部及胃部的管狀器官[2],主要負責將口腔吞入的食物輸送至胃,正常食道黏膜有多層的鱗狀上皮細胞,厚度約200至500μm,由表面往下可分成以下幾層,分別是黏膜上皮層(EP)、黏膜固有層(LPM)、黏膜肌層(MM)、黏膜下層(SM)及固有肌層(MP),食道癌是全球第八大常見癌症,而源於上皮組織的惡性腫瘤稱為癌症,另外,惡性腫瘤(Cancer,又稱為Malignant tumor),一般會影響生理功能,更包括肉瘤(Sarcoma)、淋巴瘤(lymphoma)、白血病(leukemia)、黑色素瘤(melanoma)、癌肉瘤(carcinosarcoma)、惡性神經膠質瘤(Malignant glioma)。
其中,發生於結締組織的惡性腫瘤稱為肉瘤,所稱之結締組織包括纖維組織、脂肪(脂)組織、肌肉、血管、骨骼和軟骨。另外,淋巴瘤及白血病發生於造血組織。黑色素瘤發生於皮膚細胞。同時發生於上皮組織和結締組織的惡性腫瘤則稱為癌肉瘤。此外,惡性神經膠質瘤是發生在神經組織之惡性腫瘤。而食道癌之惡性腫瘤不僅僅浸潤於食道上的上皮組織,甚至是後期會浸潤至結締組織。
目前的疾病診斷技術通常依賴于單一的宏觀資料和資訊,如體溫、血壓、身體掃描圖像。例如,檢測癌症這類重大疾病,現在用於常用儀器大多是基於影像技術的設備,包括X-射線、CT掃描和核磁共振(NMR)成像技術。當這些診斷設備組合使用時,對疾病的診斷在不同程度上的有用的。然而,當這些設備單獨使用時都不能在重大疾病發病的早期進行準確的、可信的、高效的、經濟的檢測。另外,很多這些現有設備體型較大且具有侵入性,如X-射線、CT掃描或核磁共振(NMR)成像技術。遂針對消化器官之病灶觀察發展出內視鏡檢查,以檢查消化器官上是否存在病灶。
另外,早期的食道癌不容易診斷,除了早期幾乎沒有任何症狀之外,即便是接受食道內視鏡檢查,還是有一部分的早期食道癌會看不出來,因為這些病灶的變化都很細微,往往只有些許顏色的改變,所以若是使用傳統內視鏡檢測方法,則會有大量早期食道癌病變被忽略而延誤治療。因而針對不易察覺之病灶發展出碘染色內視鏡(Lugol chromoendoscopy)、窄帶影像技術(Narrow Band Image, NBI)、放大內視鏡(Magnifying Endoscopy)。詳述如下,目前內視鏡檢測方法可以分為:
白光內視鏡影像(White Light Imaging, WLI):這是一種傳統的內視鏡技術,利用白光照射到食道黏膜組織,並經過反射獲得食道中的影像,可是並沒有突顯早期病灶的能力,只能看出後期食道癌那種明顯的病灶。
窄帶內視鏡影像(Narrow-band Imaging, NBI) :NBI可以突顯出IPCL血管的變化,利用經過選擇的415nm、540nm的光線,對血管、細胞內組織的散射與吸收,血管內的血球蛋白吸收了藍光與綠光,故淺層的微血管會呈現出棕色;其他較粗的血管則會呈現青色,比起傳統的白光顯得更有優勢。
色素內視鏡(Chromoendoscopy)除了對光源的替換之外,也會利用癌症對細胞產生的變化,藉由染色的方式,以判斷病灶的位置,因為存在誤吸入的風險,所以對食道的染色需要特別小心。比較常用的是碘染色內視鏡(Lugol chromoendoscopy),利用碘液會將肝醣染色成棕色,但癌細胞則是會將肝醣化為能量,因此不會被染上顏色的原理,發現極大可能會是病灶的位置,對其進行切片,以確認是否有染癌的情形,但碘染色可能會造成胸部不適,並可能造成患者過敏反應。
放大內視鏡(Magnifying endoscopy, ME):有別於其他內視鏡技術,ME主要藉由變焦技術,在維持影像品質的情況下,將影像放大,藉以觀察病灶的微小變化。如果再配合NBI等其他影像增強技術,就可以針對IPCL的形狀進行分期,判斷癌症的浸潤程度。
然而,內視鏡操作甚為複雜,既是需要醫護人員擁有內視鏡相關之專業證照,方可進行內視鏡檢測,更是要醫護人員一邊操作內視鏡並一邊分辨病灶,即使內視鏡檢測方式經過許多方式進行改良,但是仍不可避免遭遇到人工操作疏失,或者是內視鏡影像仍然不容易辨識。
另外,對於較新型的內視鏡,如膠囊內視鏡,為了進入身體的方便性,讓病人不適感降低,而犧牲了具有窄帶影像的功能,僅具有白光影像的功能,更是提高了醫生對影像判讀的困難性。
因此, 這就需要一種改進食道癌診斷過程之方法,而電腦輔助診斷技術(Computer-Aided Diagnosis, CAD)則成為了生物醫學研究的重點,使用電腦輔助診斷醫學影像可以幫助醫生準確判斷疾病的類型以及病灶的區域,並提高閱片效率。而應用卷積神經網路於電腦視覺(Computer Vision,CV) 領域更是目前技術趨勢,其中有幾種應用方式:
1.影像分類(Image Classification),將影像進行類別篩選,透過深度學習方法辨識圖片屬於哪種分類類別,其重點在於一張圖像只包含一種分類類別,即使該影像內容可能有多個標的,故單純影像分類的應用並不普遍。但由於單一標的辨識對深度學習演算法來說正確率最高,所以實務上應用會透過物件偵測方法找到該標的,再縮小擷取影像範圍進行影像分類,所以只要是物件偵測可應用範圍,通常也使用影像分類方法。
2.物件偵測(Object Detection),一張影像內可有一或多個標的物,標的物也可以是屬於不同類別。演算法主要能達兩目的:找到標的座標及識別標的類別。物件偵測應用非常普遍,包含人臉辨識相關技術結合應用,或是製造業方面的瑕疵檢測,甚至醫院用於X光、超音波進行特定身體部位的病況檢測等。物件偵測的基礎可想像為在影像分類上增加標示位置的功能,故也不離影像分類的基礎。不過物件偵測所標示的座標通常為矩形或方形,僅知道標的所在位置,並無法針對標的的邊緣進行描繪,所以常用見的應用通常會以「知道標的位置即可」作為目標。
3.語義分割 (Semantic Segmentation),演算法會針對一張影像中的每個像素進行辨識,也就是說不同於物件偵測,語義分割可以正確區別各標的的邊界像素,簡單來說,語義分割就是像素級別的影像分類,針對每個像素進行分類。當然這類應用的模型就會需要較強大的GPU和花較多時間進行訓練。常見應用類似物件偵測,但會使用在對於影像辨識有較高精細度,如需要描繪出標的邊界的應用。使用語義分割進行辨識,通常輸入為一張影像,而輸出也為一張等大小的影像,但影像中會以不同色調描繪不同類別的像素。
對於口腔癌病灶之檢測通常只需判斷某處有或沒有該病灶及該病灶之範圍,而使用語義分割於影像偵測判斷病灶之位置及病灶之範圍則非常合適,特別是語義分割可以描繪出病灶之區塊而優於物件偵測以框選病灶之區塊之表現方式,故,開發一種應用卷積神經網路於影像辨識之方法乃亟待解決之問題。
基於上述之問題,本發明提供一種基於語義分割於影像辨識之方法,其藉由一類神經網路之一殘差學習模型對輸入之影像進行編解碼以取得語意分割區塊,而將輸入之影像分割並分類為一目標物件影像或一非目標物件影像,以避免人工影像辨識上的困難,能夠快速在影像上標示出病灶區域以利醫療人員判讀影像。
本發明之主要目的,提供一種基於語義分割於影像辨識之方法,其藉由卷積神經網路之運算,而多次降維輸入影像提取特徵後再經多次升維產生若干語意分割區塊,遂推算出待測物件影像,進一步透過待測物件影像比較樣本影像,以將待測物件影像分類為一目標物件影像或或一非目標物件影像。
為達上述之目的,本發明揭示了一種基於語義分割於影像辨識之方法,一主機之一影像擷取單元提供一第一影像,再以一資料增強函式進行資料增補(Data augmentation)該第一影像為一第二影像;然後,該主機將該第二影像依據一類神經網路之一殘差學習模型及一編解碼方法產生至少一語意分割區塊,其中,該編解碼方法為,一第一收縮路徑(contracting path)中該第二影像以一最大池化(max pooling)卷積產生複數個第一池化影像,一第二收縮路徑中該些個第一池化影像以該最大池化卷積產生複數個第二池化影像,一第三收縮路徑中該些個第二池化影像以該最大池化卷積產生複數個第三池化影像,一第四收縮路徑中該些個第三池化影像以該最大池化卷積產生複數個第四池化影像,一第一擴展路徑(expansive path)中該些個第四池化影像以一上採樣(Upsampling) 並串接(concat)該些個第三池化影像後以複數個卷積核進行至少二層卷積運算為複數個第一輸出影像,一第二擴展路徑中該些個第一輸出影像以該上採樣並串接該些個第二池化影像後以該些個卷積核進行至少二層卷積運算為複數個第二輸出影像,一第三擴展路徑中該些個第二輸出影像以該上採樣法並串接該些個第一池化影像後以該些個卷積核進行至少二層卷積運算為複數個第三輸出影像,一第四擴展路徑中該些個第三輸出影像使用該上採樣法並串接該第二影像後以該些個卷積核進行至少二層卷積運算為一第四輸出影像,該第四輸出影像中包含該至少一語意分割區塊,之後,該主機依據該至少一語意分割區塊比較一樣本影像當符合則產生一比較結果,最後,該主機依據該比較結果分類該至少一語意分割區塊為一目標物件影像。藉此,本發明對於目標物件影像可由該主機卷積產生語意分割區塊,再依據語意分割區塊比對樣本影像,以分類語意分割區塊為目標物件影像或非目標物件影像,如此既可自動化辨識又可避免不易辨識的問題。
本發明提供一實施例,其中該最大池化(max pooling)包含核心尺寸(kernel size)2×2之複數個卷積核。
本發明提供一實施例,其中該上採樣(Upsampling)包含核心尺寸(kernel size)2×2之複數個反卷積核。
本發明提供一實施例,其中該資料增強函式係一Keras函式庫之一ImageDataGenerator函式。
本發明提供一實施例,其中該ImageDataGenerator函式設定為隨機旋轉範圍(rotation_range)為60、剪切角度(shear_range)為0.5、填充模式(fill_mode)為nearest、保留圖像比例(validation_split)為0.1。
本發明提供一實施例,其中該類神經網路為U-NET。
本發明提供一實施例,其中於一主機之一影像擷取單元擷取一第一影像之步驟中,該影像擷取單元擷取並調整為一預設尺寸之該第一影像。
本發明提供一實施例,其中於一主機之一影像擷取單元擷取一第一影像之步驟中,該影像擷取單元擷取一食道之該第一影像,其中該第一影像例如:白光影像或窄頻影像。
本發明提供一實施例,其中於該主機依據該至少一語意分割區塊比較並符合一樣本影像,以產生一比較結果之步驟中,該主機將每一個該至少一語意分割區塊之對應之該些個特徵值比較該樣本影像之該些個特徵值,符合以產生一比較結果。
本發明提供一實施例,其中於該主機依據該比較結果分類該至少一語意分割區塊為一目標物件影像之步驟中,當該主機將該至少一語意分割區塊之對應之該些個特徵值辨識出匹配於該樣本影像之該些個特徵值時,該主機將該至少一語意分割區塊分類至該目標物件影像,反之,該主機將該至少一語意分割區塊分類至一非目標物件影像。
為使 貴審查委員對本發明之特徵及所達成之功效有更進一步之瞭解與認識,謹佐以實施例及配合說明,說明如後:
有鑑於習知內視鏡操作複雜所導致之人工操作疏失或者影像不容易辨識,據此,本發明遂提出一種基於語義分割於影像辨識之方法,以解決習知內視鏡技術所造成之人工操作疏失或者影像不容易辨識之問題。
以下,將進一步說明本發明揭示一種基於語義分割於影像辨識之方法所提供之特性、所搭配之系統:
首先,請參閱第一圖,其為本發明之一方法流程圖。如圖所示,本發明之基於語義分割於影像辨識之方法之步驟包含:
步驟S00:主機之影像擷取單元擷取第一影像;
步驟S10:使用資料增強函式將第一影像產生第二影像;
步驟S20:使用類神經網路之殘差學習模型及編解碼方法將第二影像取得語意分割區塊;
步驟S22:第二影像使用第一收縮路徑(contracting path)之最大池化(max pooling)產生第一池化影像;
步驟S24:第一池化影像使用第二收縮路徑之最大池化產生第二池化影像;
步驟S26:第二池化影像使用第三收縮路徑之最大池化產生第三池化影像;
步驟S28:第三池化影像使用第四收縮路徑之最大池化產生第四池化影像;
步驟S30:第四池化影像使用第一擴展路徑(expansive path)之上採樣(Upsampling)後串接(concat)第三池化影像後以卷積核進行卷積運算為第一輸出影像;
步驟S32: 第一輸出影像使用第二擴展路徑之上採樣並串接第二池化影像後以卷積核進行卷積運算為第二輸出影像;
步驟S34:第二輸出影像使用第三擴展路徑之上採樣法並串接第二影像後以卷積核進行卷積運算為第三輸出影像;
步驟S36:第三輸出影像使用第四擴展路徑之上採樣法並串接第二影像後以卷積核進行卷積運算為第四輸出影像,第四輸出影像包含語意分割區塊;
步驟S40:主機依據語意分割區塊比較並符合樣本影像,以產生比較結果;以及
步驟S50:主機依據比較結果分類語意分割區塊為目標物件影像。
請一併參閱第二A圖至第二D圖,其為本發明之基於語義分割於影像辨識之方法所搭配之檢測系統1,其包含一主機10與一影像擷取單元20,本實施例係以一主機10為具有一處理單元12、一記憶體14與一儲存單元16之電腦主機作為舉例,但並非僅限於此,更可為伺服器、筆記型電腦、平板電腦或具備運算能力基礎之電子裝置皆為本發明所指之該主機10,該資料庫30為建立於儲存單元16,但不限於此,更可為該主機10之外接儲存單元;其中主機10藉由處理單元12執行一卷積程式120,對應建立一類神經網路124。此外,該影像擷取單元20於本實施例為一內視鏡,應用探查體內器官組織,例如: 膀胱鏡、胃鏡、大腸鏡、支氣管鏡、腹腔鏡。
於步驟S00中,如第二A圖所示,該主機10為讀取該影像擷取單元20擷取之一第一影像22,該第一影像22包含至少一物件影像222及一背景影像224,其中該第一影像22可為儲存於該資料庫30之白光影像(White light image,簡稱WLI影像)或窄帶影像(Narrow band image,簡稱NBI影像),本實施例之該影像擷取單元20係以白光內視鏡OLYMPUS  EVIS  LUCERA CV-260 SL取得對應之該白光影像,並以窄帶內視鏡OLYMPUS EVIS LUCERA CLV-260取得對應之該窄帶影像,也就是說該至少一物件影像222及該背景影像224存在於該第一影像22之白光影像或窄帶影像中。
於步驟S10中,如第二A圖所示,該主機10之該處理單元12以一資料增強函式122將該第一影像22產生一第二影像24,本實施例中,該資料增強函式122為Python環境下之高層神經網路API:Keras函式庫內之ImageDataGenerator函式,此函式係用於當輸入該第一影像22作為資料仍不足時,為了加強CNN之辨識率而進行資料增補(Data augmentation),此函式包含隨機旋轉範圍(rotation_range),其透過輸入整數使輸入之該第二影像24隨機轉動角度而增加資料量、剪切角度(shear_range),其透過輸入浮點數作為輸入之該第二影像24產生逆時針方向之剪切變換角度而增加資料量、填充模式(fill_mode),其透過輸入’constant’、’nearest’、’reflec’、’wrap’其中之一模式使輸入之該第二影像24進行變換時超出邊界則依選擇方法處置、保留圖像比例(validation_split),其透過輸入浮點數作為在沒有提供驗證集(Validation Dataset)時,保留一比例之輸入之該第二影像24用作驗證集。
接續上述,於步驟S20中,該主機使用該類神經網路124並以一殘差(Residual)學習模型126及一編解碼(Encoder-Decoder)方法128,將第二影像24取得至少一語義分割區塊130,本實施例中,該類神經網路124為卷積神經網路(Convolutional Neural Networks,CNN),該殘差學習模型126為ResNet152v2,係一種卷積神經網路之骨幹架構(backbone)。該編解碼方法128如步驟S22至步驟S36所示,並參閱第二B圖及第二C圖。
於步驟S22中,參閱第二B圖及第二C圖,該第二影像24透過一第一收縮路徑(contracting path)1282之一最大池化(max pooling)1246卷積為複數個第一池化影像242,如式(1),該最大池化1246其設定為具有池化層核心尺寸(kernel size)2×2之複數個卷積核132,可將該第二影像24透過核心尺寸(kernel size)2×2之該些個卷積核132池化產生該些個第一池化影像242,其中該第二影像24之解析度為608×608,該些個第一池化影像242之解析度為304×304,相對於該第二影像24減半解析度。
…式(1)
於步驟S24中,該些個第一池化影像242透過一第二收縮路徑1284之該最大池化1262透過核心尺寸(kernel size)2×2之該些個卷積核132池化產生複數個第二池化影像244,如式(1),該些個第二池化影像244之解析度為152×152,相對於該些個第一池化影像242減半解析度。
於步驟S26中,該些個第二池化影像244使用一第三收縮路徑1286之該最大池化1262透過核心尺寸(kernel size)2×2之該些個卷積核132池化產生複數個第三池化影像246,如式(1),該些個第三池化影像246之解析度為76×76,相對於該些個第二池化影像244減半解析度。
於步驟S28中,該些個第三池化影像246使用一第四收縮路徑1288之該最大池化1262透過核心尺寸(kernel size)2×2之該些個卷積核132池化產生複數個第四池化影像248,如式(1),該些個第四池化影像248之解析度為38×38,相對於該些個第三池化影像246減半解析度。
於步驟S30中,該些個第四池化影像248使用一第一擴展路徑1290(expansive path)透過核心尺寸(kernel size)2×2之該些個反卷積核134進行一上採樣(UpSampling)1266,如式(2),該上採樣1266後該些個第四池化影像248加倍解析度,再串接(concat)該些個第三池化影像246為一第一串接影像250,串接(concat)是一種透過通道數之合併進行特徵融合之手段,如式(3),串接後影像通道數(channel)增加使該些個特徵值136數量增加,但每一個該些個特徵值136並無改變,解析度也不變,接著該些個第一串接影像250以核心尺寸(kernel size)1×1之該些個卷積核132產生複數個第一輸出影像258,該些個第一輸出影像之解析度為76×76,相對於該些個第四池化影像248具加倍解析度。
…式(2)
…式(3)
於步驟S32中,該些個第一輸出影像258使用一第二擴展路徑1292透過核心尺寸(kernel size)2×2之該些個反卷積核134進行該上採樣1266,如式(2),上採樣1266後該些個第一輸出影像258加倍解析度,再串接(concat)該些個第二池化影像244為第二串接影像252,如式(3),接著該些個第二串接影像252以核心尺寸(kernel size)1×1之該些個卷積核132產生複數個第二輸出影像260,該些個第二輸出影像260解析度為152×152,相對於該些個第一輸出影像258具加倍解析度。
於步驟S34中,該些個第二輸出影像260使用一第三擴展路徑1294透過核心尺寸(kernel size)2×2之該些個反卷積核134進行該上採樣1266,如式(2),該上採樣1266後該些個第二輸出影像260加倍解析度,再串接(concat)該些個第一池化影像242為複數個第三串接影像254,接著該些個第三串接影像254以核心尺寸(kernel size)1×1之該些個卷積核132產生複數個第三輸出影像262,該些個第三輸出影像262解析度為304×304,相對於該些個第二輸出影像260具加倍解析度。
於步驟S36中,該些個第三輸出影像262使用一第四擴展路徑1296透過核心尺寸(kernel size)2×2之該些個反卷積核134進行該上採樣1266,如式(2),上採樣1266後該些個第三輸出影像262加倍解析度,再串接(concat)該第二影像24為一第四串接影像256,接著該第四串接影像256以核心尺寸(kernel size)1×1之該些個卷積核132產生一第四輸出影像264,該第四輸出影像264包含該至少一語意分割區塊130,每一個語意分割區塊130有對應之該些個特徵值136,該些個第四輸出影像262解析度為608×608,相對於該些個第三輸出影像262具加倍解析度。
於步驟S40中,請參閱第2D圖,該主機10於該處理單元12取得該至少一語意分割區塊130後,將每一個該語意分割區塊130對應之該些個特徵值136比較一樣本影像270對應之該些個特徵值136,並獲得一比較結果138,該樣本影像270儲存於該資料庫30,接續於步驟S50中,該主機10透過該處理單元12所執行之該卷積程式120依據該比較結果138將每一個該語意分割區塊130分類為至少一目標物件影像266或一非目標物件影像268,該目標物件影像266例如:惡性腫瘤,當該主機10之該處理單元12所執行之該卷積程式120將該至少一語意分割區塊130對應之該些個特徵值136辨識出匹配於該樣本影像270對應之該些個特徵值136時,該主機10將該至少一語意分割區塊130分類至該目標物件影像266,反之,該主機10之該處理單元12所執行之該卷積程式120將該至少一語意分割區塊130分類至該非目標物件影像268。
本實施例中,一目標物件影像266可以是一食道癌(SCC)影像272或一化生不良(Dysplasia)影像274。
本發明之基於語義分割於影像辨識之方法,具有之功能係將輸入影像進行資料增補,再以卷積神經網路對該輸入影像編解碼取得其語意分割區塊,進而將該其語意分割區塊分類為目標物件影像與非目標物件影像,完成對輸入影像之辨識,在165筆之食道內視鏡影像之判斷結果中,本發明以輸入影像IMG為白光影像(WLI)或窄帶影像(NBI)判斷是否有病灶及病灶之定位之準確度,利用語義分割之白光影像(WLI)對於正常(Normal) 區域判斷準確度有86%、對化生不良(Dysplasia)區域判斷準確度有89%、對食道癌(SCC)區域判斷準確度有60%,整體準確率為79%;利用語義分割之窄帶影像(NBI)對於正常(Normal) 區域判斷準確度有84%、對化生不良(Dysplasia)區域判斷準確度有80%、對食道癌(SCC)區域判斷準確度有78%,整體準確率為82%,使醫療人員可以使用本發明做為症狀判斷之輔助證據。
此處提供本發明之一具體實施例,如第三A圖、第三B圖、第四A圖及第四B圖所示,其為本發明之具體實施例之影像示意圖,如:有一食道內視鏡白光影像(WLI影像)或窄頻影像(NBI影像)欲進行辨識是否具食道癌,該主機10擷取為該第一影像22,將該第一影像22以該資料增強函式122進行資料增補為該第二影像24,其中該第一影像22及該第二影像24中包含該至少一物件影像222及該背景影像224,並以該類神經網路模型124之該殘差學習模型126以該編解碼方法128處置該第二影像24取得該至少一語意分割區塊130包含有該些個特徵值136,將每一個該語意分割區塊130之該些個特徵值136比較該樣本影像270之該些個特徵值136取得該比較結果138,並分類每一個該語意分割區塊130為該目標物件影像266或該非目標物件影像268,其中,第九A圖之該第一影像22為白光影像,第十A圖之該第一影像22為窄頻影像,第九B圖及第十B圖為前述影像經本發明之方法後所輸出之該至少一語意分割區塊130,可以明顯看出該第一影像22之病灶處(目標物件影像266),第十B圖中甚至可以將該化生不良影像272與嚴重病變之食道癌影像274區分,提升了該第一影像22之識別度及與非目標物件影像268之對比度,使醫療人員便於觀察病灶。
綜上所述,本發明之以波段用於超頻譜檢測物件影像之方法,其提供主機取得超頻譜影像資訊,再依據超頻譜影像資訊將輸入影像轉換為超頻譜影像,接著將超頻譜影像依據波段選擇,以接續執行卷積程式,並讓主機建構卷積神經網路,以對影像擷取單元之輸入影像進行卷積,而篩選出欲偵測之篩選區域,藉此設立預測框於輸入影像上,並透過回歸運算以邊界框定位出待測物件影像之位置,最後進行樣本影像之比較,以利用比較結果進行目標物件影像與非目標物件影像之分類,達到以超頻譜技術輔助辨識物件影像之目的。
故本發明實為一具有新穎性、進步性及可供產業上利用者,應符合我國專利法專利申請要件無疑,爰依法提出發明專利申請,祈  鈞局早日賜准專利,至感為禱。
惟以上所述者,僅為本發明之較佳實施例而已,並非用來限定本發明實施之範圍,舉凡依本發明申請專利範圍所述之形狀、構造、特徵及精神所為之均等變化與修飾,均應包括於本發明之申請專利範圍內。
1:檢測系統 10:主機 12:處理單元 120:卷積程式 122:資料增強函式 124:類神經網路 126:殘差學習模型 1262:最大池化 1264:上採樣 128:編解碼方法 1282:第一收縮路徑 1284:第二收縮路徑 1286:第三收縮路徑 1288:第四收縮路徑 1290:第一擴展路徑 1292:第二擴展路徑 1294:第三擴展路徑 1296:第四擴展路徑 130:語意分割區塊 132:卷積核 134:反卷積核 136:特徵值 138:比較結果 14:記憶體 16:儲存單元 20:影像擷取單元 22:第一影像 222:物件影像 224:背景影像 24:第二影像 242:第一池化影像 244:第二池化影像 246:第三池化影像 248:第四池化影像 250:第一串接影像 252:第二串接影像 254:第三串接影像 256:第四串接影像 258:第一輸出影像 260:第二輸出影像 262:第三輸出影像 264:第四輸出影像 266:目標物件影像 268:非目標物件影像 270:樣本影像 272:食道癌影像 274:化生不良影像 30:資料庫 S00至S50:步驟
第一圖:其為本發明之一實施例之卷積偵測影像之流程圖; 第二A圖至第二D圖:其為本發明之一實施例之部分步驟示意圖; 第三圖A至第三B圖:其為本發明之一實施例之白光影像利用語義分割之具體示意圖; 以及 第四A圖至第四B圖:其為本發明之一實施例之窄頻影像利用語義分割之具體示意圖。
S00至S50:步驟

Claims (10)

  1. 一種基於語義分割於影像辨識之方法,其步驟包含: 一主機之一影像擷取單元擷取一第一影像; 該主機使用一資料增強函式將該第一影像產生一第二影像,其係用以對該第一影像進行資料增補(Data augmentation); 該主機使用一類神經網路之一殘差學習模型及一編解碼方法將該第二影像取得至少一語意分割區塊,其中該編解碼(Encoder-Decoder)方法,其步驟包含: 該第二影像使用一第一收縮路徑(contracting path)之一最大池化(max pooling)產生複數個第一池化影像,該最大池化係用以對該第二影像降維提取複數個特徵值,經過池化後該第二影像之一解析度減半; 該些個第一池化影像使用一第二收縮路徑之該最大池化產生複數個第二池化影像,該最大池化係用以對該些個第一池化影像降維提取該些個特徵值,經過池化後該些個第一池化影像之該解析度減半; 該些個第二池化影像使用一第三收縮路徑之該最大池化產生複數個第三池化影像,該最大池化係用以對該些個第二池化影像降維提取該些個特徵值,經過池化後該些個第二池化影像之該解析度減半; 該些個第三池化影像使用一第四收縮路徑之該最大池化產生複數個第四池化影像,該最大池化係用以對該些個第三池化影像降維提取該些個特徵值,經過池化後該些個第三池化影像之該解析度減半; 該些個第四池化影像使用一第一擴展路徑(expansive path)之一上採樣(Upsampling)並串接(concat)該些個第三池化影像後以複數個卷積核進行至少二層卷積運算為複數個第一輸出影像,該上採樣係用以定位(localization) 該些個特徵值,使加倍該些個第四池化影像之該解析度,該至少二層卷積運算係用以減少串接(concat)所增加之一通道數(channel); 該些個第一輸出影像使用一第二擴展路徑之該上採樣並串接該些個第二池化影像後以該些個卷積核進行至少二層卷積運算為複數個第二輸出影像,該上採樣係用以定位該些個特徵值,使加倍該些個第一輸出影像之該解析度; 該些個第二輸出影像使用一第三擴展路徑之該上採樣法並串接該些個第一池化影像後以該些個卷積核進行至少二層卷積運算為複數個第三輸出影像,該上採樣係用以定位該些個特徵值,使加倍該些個第二輸出影像之該解析度;以及 該些個第三輸出影像使用一第四擴展路徑之該上採樣法並串接該第二影像後以該些個卷積核進行至少二層卷積運算為一第四輸出影像,該第四輸出影像包含該至少一語意分割區塊,該上採樣係用以定位該些個特徵值,使加倍該些個第三輸出影像之該解析度,該第四輸出影像之該解析度等於該第二影像之該解析度; 該主機依據該至少一語意分割區塊比較並符合一樣本影像,以產生一比較結果;以及 該主機依據該比較結果分類該至少一語意分割區塊為一目標物件影像。
  2. 如請求項1所述之基於語義分割於影像辨識之方法,其中該最大池化(max pooling)包含核心尺寸(kernel size)2×2之複數個卷積核。
  3. 如請求項1所述之基於語義分割於影像辨識之方法,其中該上採樣(Upsampling)包含核心尺寸(kernel size)2×2之複數個反卷積核。
  4. 如請求項1所述之基於語義分割於影像辨識之方法,其中該資料增強函式係一Keras函式庫之一ImageDataGenerator函式。
  5. 如請求項4所述之基於語義分割於影像辨識之方法,其中該ImageDataGenerator函式設定為隨機旋轉範圍(rotation_range)為60、剪切角度(shear_range)為0.5、填充模式(fill_mode)為nearest、保留圖像比例(validation_split)為0.1。
  6. 如請求項1所述之基於語義分割於影像辨識之方法,其中該類神經網路為U-NET。
  7. 如請求項1所述之基於語義分割於影像辨識之方法,其中於一主機之一影像擷取單元擷取一第一影像之步驟中,該影像擷取單元擷取並調整為一預設尺寸之該第一影像。
  8. 如請求項1所述之基於語義分割於影像辨識之方法,其中於一主機之一影像擷取單元擷取一第一影像之步驟中,該影像擷取單元擷取該第一影像,其中該第一影像例如:白光影像或窄頻影像。
  9. 如請求項1所述之基於語義分割於影像辨識之方法,其中於該主機依據該至少一語意分割區塊比較並符合一樣本影像,以產生一比較結果之步驟中,該主機將每一個該至少一語意分割區塊之對應之該些個特徵值比較該樣本影像之該些個特徵值,符合以產生一比較結果。
  10. 如請求項1所述之基於語義分割於影像辨識之方法,其中於該主機依據該比較結果分類該至少一語意分割區塊為一目標物件影像之步驟中,當該主機將該至少一語意分割區塊之對應之該些個特徵值辨識出匹配於該樣本影像之該些個特徵值時,該主機將該至少一語意分割區塊分類至該目標物件影像,反之,該主機將該至少一語意分割區塊分類至一非目標物件影像。
TW111108094A 2022-03-04 2022-03-04 基於語義分割於影像辨識之方法 TWI820624B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW111108094A TWI820624B (zh) 2022-03-04 2022-03-04 基於語義分割於影像辨識之方法
US18/162,077 US20230282010A1 (en) 2022-03-04 2023-01-31 Method for detecting image by semantic segmentation
JP2023014984A JP2023129276A (ja) 2022-03-04 2023-02-03 セマンティックセグメンテーションに基づく画像識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111108094A TWI820624B (zh) 2022-03-04 2022-03-04 基於語義分割於影像辨識之方法

Publications (2)

Publication Number Publication Date
TW202335621A true TW202335621A (zh) 2023-09-16
TWI820624B TWI820624B (zh) 2023-11-01

Family

ID=87850851

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111108094A TWI820624B (zh) 2022-03-04 2022-03-04 基於語義分割於影像辨識之方法

Country Status (3)

Country Link
US (1) US20230282010A1 (zh)
JP (1) JP2023129276A (zh)
TW (1) TWI820624B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117764994B (zh) * 2024-02-22 2024-05-10 浙江首鼎视介科技有限公司 基于人工智能的胆胰成像系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903292A (zh) * 2019-01-24 2019-06-18 西安交通大学 一种基于全卷积神经网络的三维图像分割方法及系统
CN114004969A (zh) * 2021-09-15 2022-02-01 苏州中科华影健康科技有限公司 一种内镜图像病灶区检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
TWI820624B (zh) 2023-11-01
US20230282010A1 (en) 2023-09-07
JP2023129276A (ja) 2023-09-14

Similar Documents

Publication Publication Date Title
JP6657480B2 (ja) 画像診断支援装置、画像診断支援装置の作動方法および画像診断支援プログラム
Clancy et al. Surgical spectral imaging
Aubreville et al. Automatic classification of cancerous tissue in laserendomicroscopy images of the oral cavity using deep learning
AU2019431299B2 (en) AI systems for detecting and sizing lesions
Ali et al. A survey of feature extraction and fusion of deep learning for detection of abnormalities in video endoscopy of gastrointestinal-tract
Liedlgruber et al. Computer-aided decision support systems for endoscopy in the gastrointestinal tract: a review
US20180263568A1 (en) Systems and Methods for Clinical Image Classification
Barbalata et al. Laryngeal tumor detection and classification in endoscopic video
CN115049666B (zh) 基于彩色小波协方差深度图模型的内镜虚拟活检装置
Yamunadevi et al. RETRACTED ARTICLE: Efficient segmentation of the lung carcinoma by adaptive fuzzy–GLCM (AF-GLCM) with deep learning based classification
Witt et al. Detection of chronic laryngitis due to laryngopharyngeal reflux using color and texture analysis of laryngoscopic images
TWI738367B (zh) 以卷積神經網路檢測物件影像之方法
Eggert et al. In vivo detection of head and neck tumors by hyperspectral imaging combined with deep learning methods
TWI820624B (zh) 基於語義分割於影像辨識之方法
CN115018767A (zh) 基于本征表示学习的跨模态内镜图像转换及病灶分割方法
Jia Polyps auto-detection in wireless capsule endoscopy images using improved method based on image segmentation
Meyer-Veit et al. Hyperspectral endoscopy using deep learning for laryngeal cancer segmentation
Cui et al. Detection of lymphangiectasia disease from wireless capsule endoscopy images with adaptive threshold
JP7449004B2 (ja) 周波数帯域を用いたハイパースペクトルによる物体画像の検出方法
Wang et al. Three feature streams based on a convolutional neural network for early esophageal cancer identification
Chen et al. 3D VOSNet: Segmentation of endoscopic images of the larynx with subsequent generation of indicators
Dayananda Novel Convoluted local energy oriented patten (CLEOP) for the classification of wireless capsule endoscopy images
Andrade A Portable System for Screening of Cervical Cancer
Zeng Assessment and Diagnosis of Human Colorectal and Ovarian Cancer Using Optical Imaging and Computer-Aided Diagnosis
van der Putten et al. AIM in Barrett’s Esophagus