TWI743931B - 網路訓練、圖像處理方法、電子設備和儲存媒體 - Google Patents

網路訓練、圖像處理方法、電子設備和儲存媒體 Download PDF

Info

Publication number
TWI743931B
TWI743931B TW109127036A TW109127036A TWI743931B TW I743931 B TWI743931 B TW I743931B TW 109127036 A TW109127036 A TW 109127036A TW 109127036 A TW109127036 A TW 109127036A TW I743931 B TWI743931 B TW I743931B
Authority
TW
Taiwan
Prior art keywords
image
feature image
trained
feature
decoding layer
Prior art date
Application number
TW109127036A
Other languages
English (en)
Other versions
TW202129543A (zh
Inventor
王國泰
顧然
宋濤
Original Assignee
中國商上海商湯智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中國商上海商湯智能科技有限公司 filed Critical 中國商上海商湯智能科技有限公司
Publication of TW202129543A publication Critical patent/TW202129543A/zh
Application granted granted Critical
Publication of TWI743931B publication Critical patent/TWI743931B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申請實施例提供一種網路訓練、圖像處理方法、電子設備和儲存媒體,所述方法包括:透過分割網路在預設維度上使用注意力機制對訓練樣本中包括的樣本圖像進行特徵提取,得到特徵提取結果,其中,所述預設維度包括:空間維度、通道維度和尺度維度,所述訓練樣本中還包括所述樣本圖像對應的分割標注資訊;根據所述特徵提取結果對所述樣本圖像進行圖像分割處理,得到圖像分割結果;根據所述圖像分割結果和所述分割標注資訊,訓練所述分割網路。

Description

網路訓練、圖像處理方法、電子設備和儲存媒體
本申請基於申請號為202010065998.9、申請日為2020年01月20日的中國專利申請提出,並要求該中國專利申請的優先權,該中國專利申請的全部內容在此引入本申請作為參考。申請實施例涉及電腦技術領域,尤其涉及一種網路訓練、圖像處理方法、電子設備和儲存媒體。
圖像分割是指按照區域內分佈屬性將圖像分為幾個特定的互不相交的「連通 」區域的圖像處理過程,相關特徵在同一區域內具有一定類別上的一致性或者相似性,這種差異在每個區域的邊界處最為明顯。醫學圖像分割在醫學研究、臨床診斷、病理分析以及圖像資訊處理等研究與實踐領域具有重要的學術研究意義和應用價值,主要應用於:對醫學圖像中感興趣區域的提取,便於醫學圖像分析;計算醫學圖像中人體器官、組織或者病灶體積、容積等,便於臨床參數的計算;醫學圖像的三維重建或視覺化;醫學圖像檢索研究等。因此,急需一種有效地圖像分割方法。
本申請實施例提供了一種網路訓練、圖像處理方法、電子設備和儲存媒體。
本申請實施例提供了一種網路訓練方法,所述網路訓練方法用於訓練神經網路模型,根據訓練得到的神經網路模型對圖像進行分割,所述方法包括:透過分割網路在預設維度上使用注意力機制對訓練樣本中包括的樣本圖像進行特徵提取,得到特徵提取結果,其中,所述預設維度包括:空間維度、通道維度和尺度維度,所述訓練樣本中還包括所述樣本圖像對應的分割標注資訊;根據所述特徵提取結果對所述樣本圖像進行圖像分割處理,得到圖像分割結果;根據所述圖像分割結果和所述分割標注資訊,訓練所述分割網路。
透過分割網路在空間維度、通道維度和尺度維度中的預設維度上,使用注意力機制對訓練樣本中包括的樣本圖像進行特徵提取,得到特徵提取結果,根據特徵提取結果對樣本圖像進行圖像分割處理,得到圖像分割結果,根據圖像分割結果和訓練樣本中包括的樣本圖像對應的分割標注資訊,訓練分割網路,使得訓練得到的分割網路在進行圖像分割處理時可以提高分割精度。
在本申請的一些實施例中,所述分割網路包括編碼器和解碼器,所述編碼器包括多個編碼層,所述解碼器包括多個解碼層;所述透過分割網路在預設維度上使用注意力機制對訓練樣本中包括的樣本圖像進行特徵提取,得到特徵提取結果,包括:將所述樣本圖像輸入所述編碼器,確定每個編碼層對應的第一特徵圖像,其中,不同編碼層對應的第一特徵圖像的尺度不同;針對任一解碼層,利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度和通道維度上使用注意力機制對輸入該解碼層的第二特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像,其中,輸入該解碼層的第二特徵圖像是根據該解碼層的上一解碼層對應的第三特徵圖像確定的,不同解碼層對應的第三特徵圖像的尺度不同;根據多個解碼層確定的多個不同尺度的第三特徵圖像,確定所述特徵提取結果。
將樣本圖像輸入編碼器,確定編碼器中各個編碼層對應的不同尺度的第一特徵圖像,進而針對解碼器中的任一解碼層,利用對應的第一特徵圖像,對輸入任一解碼層的第二特徵圖像在空間維度和通道維度上使用注意力機制進行特徵訓練,確定各個解碼層對應的第三特徵圖像,進而根據不同尺度的第三特徵圖像,可以有效確定增強了樣本圖像中感興趣區域的空間特徵資訊和通道特徵資訊,且抑制了圖像中不感興趣區域的空間特徵資訊和通道特徵資訊的特徵提取結果。
在本申請的一些實施例中,所述針對任一解碼層,利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度和通道維度上使用注意力機制對輸入該解碼層的第二特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像,包括:利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度上使用注意力機制對第一待訓練特徵圖像進行訓練,確定該解碼層對應的第四特徵圖像,其中,第一待訓練特徵圖像為輸入該解碼層的第二特徵圖像;將輸入該解碼層的第二特徵圖像和該解碼層對應的第四特徵圖像進行拼接,得到第二待訓練特徵圖像;透過在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像。
利用編碼層中對應的第一特徵圖像對解碼層對應的第一待訓練特徵圖像在空間維度上使用注意力機制進行訓練,使得可以有效確定增強了樣本圖像中感興趣區域的空間特徵資訊且抑制了圖像中不感興趣區域的空間特徵資訊的第四特徵圖像,進而將第四特徵圖像與輸入解碼層的第二特徵圖像拼接得到第二待訓練特徵圖像,在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,使得可以有效確定增強了樣本圖像中感興趣區域的通道特徵資訊且抑制了圖像中不感興趣區域的通道特徵資訊的第三特徵圖像。
在本申請的一些實施例中,所述針對任一解碼層,利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度和通道維度上使用注意力機制對輸入該解碼層的第二特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像,包括:將與該解碼層尺度對應的第一特徵圖像和輸入該解碼層的第二特徵圖像進行拼接,確定第二待訓練特徵圖像;透過在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,確定第一待訓練特徵圖像;利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度上使用注意力機制對第一待訓練特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像。
將輸入解碼層的第二特徵圖像與對應編碼層的第一特徵圖像進行拼接得到第二待訓練特徵圖像,在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,使得可以有效確定增強了樣本圖像中感興趣區域的通道特徵資訊且抑制了圖像中不感興趣區域的通道特徵資訊的第一待訓練特徵圖像,在空間維度上使用注意力機制對第一待訓練特徵圖像進行訓練,使得可以有效確定增強了樣本圖像中感興趣區域的空間特徵資訊且抑制了圖像中不感興趣區域的空間特徵資訊的第三特徵圖像。
在本申請的一些實施例中,所述利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度上使用注意力機制對第一待訓練特徵圖像進行訓練,包括:根據與該解碼層尺度對應的第一特徵圖像和第一待訓練特徵圖像,確定該解碼層對應的空間注意力權值分佈,其中,該解碼層對應的空間注意力權值分佈用於指示第一待訓練特徵圖像中各個像素點的權值;根據該解碼層對應的空間注意力權值分佈對第一待訓練特徵圖像中的各個像素點進行校準。
利用編碼層中對應的第一特徵圖像與解碼層對應的第一待訓練特徵圖像確定解碼層對應的空間注意力權值分佈,進而根據空間注意力權值分佈對第一待訓練特徵圖像中的各個像素點進行校準,完成在空間維度上使用注意力機制的訓練,使得可以有效增強樣本圖像中感興趣區域的空間特徵資訊,且抑制了圖像中不感興趣區域的空間特徵資訊。
在本申請的一些實施例中,針對任一解碼層,該解碼層包括多個空間注意力訓練層;所述根據與該解碼層尺度對應的第一特徵圖像和第一待訓練特徵圖像,確定該解碼層對應的空間注意力權值分佈,包括:將與該解碼層尺度對應的第一特徵圖像和第一待訓練特徵圖像分別輸入所述多個空間注意力訓練層,確定第一待訓練特徵圖像中各個像素點的多個權值;根據第一待訓練特徵圖像中各個像素點的所述多個權值,確定該解碼層對應的空間注意力權值分佈。
針對任一解碼層,透過設置多個空間注意力訓練層,利用編碼層中對應的第一特徵圖像與解碼層對應的第一待訓練特徵圖像確定解碼層,在多個空間注意力訓練層中分別確定第一待訓練特徵圖像中各個像素點的多個權值,進而根據第一待訓練特徵圖像中各個像素點的多個權值,綜合確定解碼層對應的空間注意力權值分佈,使得可以有效提高空間注意力權值分佈的準確性。
在本申請的一些實施例中,所述透過在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,包括:確定該解碼層對應的通道注意力權值分佈,其中,該解碼層對應的通道注意力權值分佈用於指示第二待訓練特徵圖像中各個通道的權值;根據該解碼層對應的通道注意力權值分佈對第二待訓練特徵圖像中的各個通道進行校準。
確定解碼層對應通道注意力權值分佈,進而根據通道注意力權值分佈對解碼層對應的第二待訓練特徵圖像中的各個通道進行校準,完成在通道維度上使用注意力機制的訓練,使得可以有效增強樣本圖像中感興趣區域的通道特徵資訊,且抑制了圖像中不感興趣區域的通道特徵資訊。
在本申請的一些實施例中,所述確定該解碼層對應的通道注意力權值分佈,包括:對第二待訓練特徵圖像進行平均池化操作,得到平均池化結果;對第二待訓練特徵圖像進行最大池化操作,得到最大池化結果;根據所述平均池化結果和所述最大池化結果,確定該解碼層對應的通道注意力權值分佈。
對第二待訓練特徵圖像分別進行平均池化操作和最大池化操作,得到平均池化結果和最大池化結果,根據平均池化結果和最大池化結果,綜合確定解碼層對應的空間注意力權值分佈,使得可以有效提高通道注意力權值分佈的準確性。
在本申請的一些實施例中,所述根據多個解碼層確定的多個不同尺度的第三特徵圖像,確定所述特徵提取結果,包括:將不同尺度下的第三特徵圖像進行拼接,得到第三待訓練特徵圖像,其中,第三待訓練特徵圖像的尺度與所述樣本圖像的尺度相同;透過在尺度維度上使用注意力機制對第三待訓練特徵圖像進行訓練,確定所述特徵提取結果。
將不同尺度下的第三特徵圖像進行拼接得到第三待訓練特徵圖像,進而在尺度維度上使用注意力機制對第三待訓練特徵圖像進行訓練,使得可以有效增強樣本圖像中符合需求的尺度對應的特徵資訊,且抑制了圖像中不符合需求的尺度對應的特徵資訊。
在本申請的一些實施例中,所述透過在尺度維度上使用注意力機制對第三待訓練特徵圖像進行訓練,包括:確定尺度注意力權值分佈,其中,所述尺度注意力權值分佈用於指示不同尺度的權值;根據所述尺度注意力權值分佈對第三待訓練特徵圖像進行校準。
確定尺度注意力權值分佈,進而根據尺度注意力權值分佈對第三待訓練特徵圖像進行校準,完成在尺度維度上使用注意力機制的訓練,可以有效增強樣本圖像中符合需求的尺度對應的特徵資訊,且抑制了圖像中不符合需求的尺度對應的特徵資訊。
在本申請的一些實施例中,所述樣本圖像為醫學圖像,所述分割標注資訊為人工標注的金標準。
本申請實施例提供了一種圖像處理方法,包括:透過分割網路對待分割圖像進行圖像分割處理,得到分割結果;其中,所述分割網路是採用上述網路訓練方法訓練得到的。
透過分割網路在空間維度、通道維度和尺度維度中的預設維度上,使用注意力機制對訓練樣本中包括的樣本圖像進行特徵提取,得到特徵提取結果,根據特徵提取結果對樣本圖像進行圖像分割處理,得到圖像分割結果,根據圖像分割結果和訓練樣本中包括的樣本圖像對應的分割標注資訊,訓練分割網路,進而利用訓練得到的分割網路對待分割圖像進行圖像分割處理,從而可以有效提高分割精度。
在本申請的一些實施例中,所述待分割圖像為待分割的醫學圖像;所述透過分割網路對待分割圖像進行圖像分割處理,得到分割結果,包括:透過分割網路對待分割的醫學圖像進行圖像分割處理,得到分割出的病灶區域或目標器官區域。
本申請實施例提供了一種網路訓練裝置,所述網路訓練裝置用於訓練神經網路模型,根據訓練得到的神經網路模型對圖像進行分割,所述裝置包括:特徵提取模組,配置為透過分割網路在預設維度上使用注意力機制對訓練樣本中包括的樣本圖像進行特徵提取,得到特徵提取結果,其中,所述預設維度包括:空間維度、通道維度和尺度維度,所述訓練樣本中還包括所述樣本圖像對應的分割標注資訊;分割模組,配置為根據所述特徵提取結果對所述樣本圖像進行圖像分割處理,得到圖像分割結果;訓練模組,配置為根據所述圖像分割結果和所述分割標注資訊,訓練所述分割網路。
本申請實施例提供了一種電子設備,包括:處理器;配置為儲存處理器可執行指令的記憶體;其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行上述網路訓練方法。
本申請實施例提供了一種電腦可讀儲存媒體,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述網路訓練方法。
本申請實施例提供了一種圖像處理裝置,包括:圖像處理模組,配置為透過分割網路對待分割圖像進行圖像分割處理,得到分割結果;其中,所述分割網路是採用上述網路訓練方法訓練得到的。
在本申請的一些實施例中,所述待分割圖像為待分割的醫學圖像;所述圖像處理模組配置為:透過分割網路對待分割的醫學圖像進行圖像分割處理,得到分割出的病灶區域或目標器官區域。
本申請實施例提供了一種電子設備,包括:處理器;配置為儲存處理器可執行指令的記憶體;其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行上述圖像處理方法。
本申請實施例提供了一種電腦可讀儲存媒體,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述圖像處理方法。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本申請實施例。根據下面參考附圖對示例性實施例的詳細說明,本申請實施例的其它特徵及方面將變得清楚。
具體實施方式
以下將參考附圖詳細說明本申請的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製附圖。
在這裡專用的詞「示例性」意為「用作例子、實施例或說明性」。這裡作為「示例性」所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語「和/或」,僅僅是一種描述關聯物件的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語「至少一種」表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好地說明本申請實施例,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本申請實施例同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本申請實施例的主旨。
第1圖為本申請實施例提供的一種網路訓練方法的流程示意圖。該網路訓練方法可以由終端設備或其它處理設備執行,其中,終端設備可以為使用者設備(User Equipment,UE)、移動設備、使用者終端、終端、蜂窩電話、無線電話、個人數位助理(Personal Digital Assistant,PDA)、手持設備、計算設備、車載設備、可穿戴設備等。其它處理設備可為伺服器或雲端伺服器等。在一些可能的實現方式中,該網路訓練方法可以透過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。如第1圖所示,該方法可以包括:
步驟S11,透過分割網路在預設維度上使用注意力機制對訓練樣本中包括的樣本圖像進行特徵提取,得到特徵提取結果,其中,預設維度包括:空間維度、通道維度和尺度維度,訓練樣本中還包括樣本圖像對應的分割標注資訊。
步驟S12,根據特徵提取結果對樣本圖像進行圖像分割處理,得到圖像分割結果。
步驟S13,根據圖像分割結果和分割標注資訊,訓練分割網路。
預先創建訓練樣本,訓練樣本中包括樣本圖像和樣本圖像對應的分割標注資訊,其中,樣本圖像對應的分割標注資訊用於指示樣本圖像的參考分割結果。基於訓練樣本可以對分割網路在空間維度、通道維度和尺度維度中的預設維度上使用注意力機制進行訓練,使得訓練得到的分割網路在進行圖像分割處理時可以提高分割精度。
分割網路可以是基於U-net網路模型改進的卷積神經網路,也可以是其它能夠實現對應處理的網路模型,本申請實施例對此不做具體限定。
在一示例中,樣本圖像可以是對醫學圖像進行預處理後得到的。獲取醫學圖像;對醫學圖像進行重採樣到256*342尺度,然後將重採樣後的醫學圖像歸一化到0~1之間,得到第一圖像;對第一圖像進行隨機翻轉、隨機旋轉、隨機裁剪實現資料增強,得到樣本圖像,其中,樣本圖像的通道數為3,尺度為224*300。樣本圖像的確定方式可以採用其它方式,樣本圖像的通道數、尺度可以根據實際情況確定,本申請實施例對此不做具體限定。
在本申請的一些實施例中,分割網路包括編碼器和解碼器,編碼器包括多個編碼層,解碼器包括多個解碼層;透過分割網路在預設維度上使用注意力機制對訓練樣本中包括的樣本圖像進行特徵提取,得到特徵提取結果,包括:將樣本圖像輸入編碼器,確定每個編碼層對應的第一特徵圖像,其中,不同編碼層對應的第一特徵圖像的尺度不同;針對任一解碼層,利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度和通道維度上使用注意力機制對輸入該解碼層的第二特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像,其中,輸入該解碼層的第二特徵圖像是根據該解碼層的上一解碼層對應的第三特徵圖像確定的,不同解碼層對應的第三特徵圖像的尺度不同;根據多個解碼層確定的多個不同尺度的第三特徵圖像,確定特徵提取結果。
第2圖為本申請實施例提供的一種分割網路的結構示意圖。例如,分割網路是基於U-net網路模型作為骨幹網路改進得到的。分割網路除了可以基於U-net網路模型作為骨幹網路,也可以基於其它網路模型作為骨幹網路,本申請實施例對此不做具體限定。
如第2圖所示,分割網路中包括編碼器2001和解碼器2002。編碼器2001中包括編碼層2003至2007,其中,編碼層2003中包括卷積層2008,編碼層2004中包括最大池化層2009和卷積層2010,編碼層2005中包括最大池化層2011和卷積層2012,編碼層2006中包括最大池化層2013和卷積層2014,編碼層2007中包括最大池化層2015和卷積層2016。解碼器2002中包括解碼層2017至2020,其中,解碼層2017中包括卷積層2021、空間注意力模組2022和通道注意力模組2023,解碼層2018中包括卷積層2024、空間注意力模組2025和通道注意力模組2026,解碼層2019中包括卷積層2027、空間注意力模組2028和通道注意力模組2029,解碼層2020中包括卷積層2030、空間注意力模組2031和通道注意力模組2032。分割網路中的卷積層可以為3*3卷積核的標準卷積層,最大池化層可以實現對輸入資料的下採樣,降低輸入資料的尺度。
將樣本圖像2033輸入分割網路的編碼器2001,例如,樣本圖像2033的尺度可以為224*300。樣本圖像2033在編碼層2003中依次經過兩個卷積層2008後,得到編碼層2003對應的尺度為224*300,通道數為16的第一特徵圖像;尺度為224*300,通道數為16的第一特徵圖像在編碼層2004中依次經過最大池化層2009和兩個卷積層2010後,得到編碼層2004對應的尺度為112*150,通道數為32的第一特徵圖像;尺度為112*150,通道數為32的第一特徵圖像在編碼層2005中依次經過最大池化層2011和兩個卷積層2012後,得到編碼層2005對應的尺度為56*75,通道數為64的第一特徵圖像;尺度為56*75,通道數為64的第一特徵圖像在編碼層2006中依次經過最大池化層2013和兩個卷積層2014後,得到編碼層2006對應的尺度為28*37,通道數為128的第一特徵圖像;尺度為28*37,通道數為128的第一特徵圖像在編碼層2007中依次經過最大池化層2015和兩個卷積層2016後,得到編碼層2007對應的尺度為14*18,通道數為256的第一特徵圖像。其中,不同編碼層對應的第一特徵圖像的尺度和通道數可以根據實際情況確定,本申請實施例對此不做具體限定。
下面詳細介紹針對解碼器2002中的任一解碼層,利用與該解碼層尺度對應的第一特徵圖像透過在空間維度和通道維度上使用注意力機制對輸入該解碼層的第二特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像的過程。
在本申請的一些實施例中,對最底層編碼層對應的第一特徵圖像進行上採樣,並與上一編碼層對應的第一特徵圖像進行拼接,得到輸入最高層解碼層的第二特徵圖像;對輸入最高層解碼層的第二特徵圖像在空間維度和通道維度上使用注意力機制,確定最高層解碼層對應的第三特徵圖像。
由於最底層編碼層對應的第一特徵圖像(最小尺度的第一特徵圖像)包括樣本圖像的全域特徵資訊,將最底層編碼層對應的第一特徵圖像進行上採樣與上一編碼層對應的第一特徵圖像進行拼接後再進行空間維度、通道維度的注意力訓練,可以實現全域訓練。
如第2圖所示,對最底層編碼層(編碼層2007)對應的第一特徵圖像(尺度為最小尺度14*18)進行上採樣處理後,與上一編碼層(編碼層2006)對應的第一特徵圖像(28*37尺度)進行拼接,得到輸入最高層解碼層(解碼層2017)的第二特徵圖像(28*37尺度,256通道),將輸入解碼層2017的第二特徵圖像作為解碼層2017對應的第一待訓練特徵圖像輸入空間注意力模組2022進行空間注意力訓練,得到解碼層2017對應的第四特徵圖像(28*37尺度,256通道);將解碼層2017對應的第四特徵圖像經過卷積層2021、通道注意力模組2023和卷積層2021進行通道注意力訓練,得到解碼層2017對應的第三特徵圖像(28*37尺度,128通道)。在第2圖中,使用「×2」表示上採樣處理,其中,可以透過上池化層進行上採樣處理、可以透過反卷積層進行上採樣處理,還可以透過其它方式進行上採樣處理,本申請實施例對此不做具體限定。
第3圖為本申請實施例提供的第2圖中空間注意力模組2022的結構示意圖。如第3圖所示,空間注意力模組2022包括多個1×1卷積層2034、多個轉置層(Transpose層)2035和歸一化層2036。將與解碼層2017尺度對應的第一特徵圖像(編碼層2006對應的第一特徵圖像)和解碼層2017對應的第一待訓練特徵圖像輸入空間注意力模組2022,分別經過多個1×1卷積層2034、多個轉置層2035和歸一化層2036,得到解碼層2017對應的空間注意力權值分佈。例如,空間注意力模組2022可以透過下述公式(1-1)確定解碼層2017對應的空間注意力權值分佈
Figure 02_image001
Figure 02_image003
(1-1)。
其中,
Figure 02_image005
為歸一化函數,
Figure 02_image007
為解碼層2017對應的第一待訓練特徵圖像中的一個像素點,
Figure 02_image009
Figure 02_image011
為卷積操作。
根據解碼層2017對應的空間注意力權值分佈,對解碼層2017對應的第一待訓練特徵圖像中的各個像素點進行校準,得到需要在通道維度上使用注意力機制進行訓練的解碼層2017對應的第二待訓練特徵圖像。
在本申請的一些實施例中,針對任一解碼層,利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度和通道維度上使用注意力機制對輸入該解碼層的第二特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像,包括:將與該解碼層尺度對應的第一特徵圖像和輸入該解碼層的第二特徵圖像進行拼接,確定第二待訓練特徵圖像;透過在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,確定第一待訓練特徵圖像;利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度上使用注意力機制對第一待訓練特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像。
針對任一解碼層,可以先在通道維度上使用注意力機制對與該解碼層尺度對應的第一特徵圖像和輸入該解碼層的第二特徵圖像進行拼接確定得到的第二待訓練特徵圖像進行訓練,進而在空間維度上使用注意力機制對經過通道維度上使用注意力機制訓練得到的第一待訓練特徵圖像進行訓練,從而確定該解碼層對應的第三特徵圖像。此外,本申請實施例除了可以採用上述先在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,進而在空間維度上使用注意力機制對第一待訓練特徵圖像進行訓練之外,也可以先在空間維度上使用注意力機制對第一待訓練特徵圖像進行訓練,進而在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,本申請實施例對此不做具體限定。下面以先在空間維度上使用注意力機制對第一待訓練特徵圖像進行訓練,進而在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練作為示例進行詳細介紹。
在本申請的一些實施例中,針對任一解碼層,利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度和通道維度上使用注意力機制對輸入該解碼層的第二特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像,包括:利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度上使用注意力機制對第一待訓練圖像進行訓練,確定該解碼層對應的第四特徵圖像,其中,第一待訓練特徵圖像為輸入該解碼層的第二特徵圖像;將輸入該解碼層的第二特徵圖像和該解碼層對應的第四特徵圖像進行拼接,得到第二待訓練特徵圖像;透過在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像。
在本申請的一些實施例中,利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度上使用注意力機制對第一待訓練特徵圖像進行訓練,包括:根據與該解碼層尺度對應的第一特徵圖像和第一待訓練特徵圖像,確定該解碼層對應的空間注意力權值分佈,其中,該解碼層對應的空間注意力權值分佈用於指示第一待訓練特徵圖像中各個像素點的權值;根據該解碼層對應的空間注意力權值分佈對第一待訓練特徵圖像中的各個像素點進行校準。
在本申請的一些實施例中,針對任一解碼層,該解碼層包括多個空間注意力訓練層;根據與該解碼層尺度對應的第一特徵圖像和第一待訓練特徵圖像,確定該解碼層對應的空間注意力權值分佈,包括:將與該解碼層尺度對應的第一特徵圖像和第一待訓練特徵圖像分別輸入多個空間注意力訓練層,確定第一待訓練特徵圖像中各個像素點的多個權值;根據第一待訓練特徵圖像中各個像素點的多個權值,確定該解碼層對應的空間注意力權值分佈。
如第2圖所示,對解碼層2017對應的第三特徵圖像(28*37尺度,128通道)進行上採樣處理,得到輸入解碼層2018的第二特徵圖像(56*75尺度,64通道),將輸入解碼層2018的第二特徵圖像作為解碼層2018對應的第一待訓練特徵圖像輸入空間注意力模組2025進行空間注意力訓練,得到解碼層2018對應的第四特徵圖像(56*75尺度,64通道);將輸入解碼層2018的第二特徵圖像和解碼層2018對應的第四特徵圖像進行拼接,得到解碼層2018對應的第二待訓練特徵圖像(56*75尺度,128通道);將解碼層2018對應的第二待訓練特徵圖像依次經過卷積層2024、通道注意力模組2026和卷積層2024後,得到解碼層2018對應的第三特徵圖像。
第4圖為本申請實施例提供的第2圖中空間注意力模組2025的結構示意圖。如第4圖所示,空間注意力模組2025包括兩個空間注意力訓練層2037至2038,將與解碼層2018尺度對應的第一特徵圖像(編碼層2005對應的第一特徵圖像)作為查詢的源值(query),以及將解碼層2018對應的第一待訓練特徵圖像作為查詢的查詢值(key),分別輸入空間注意力訓練層2037和空間注意力訓練層2038。空間注意力訓練層的個數可以根據實際情況確定,本申請實施例對此不做具體限定。如第4圖所示,各個空間注意力訓練層中包括多個1×1卷積層2039、上採樣層2040、啟動層(修正線性單元(Rectified Linear Unit,ReLU)層)2041、啟動層(sigmoid層)2042、重採樣層(Resample層)2043。空間注意力模組2025中的任一個空間注意力訓練層可以確定解碼層2018對應的第一待訓練特徵圖像中各個像素點的權值。例如,針對空間注意力模組2025中的任一個空間注意力訓練層,可以根據下述公式(1-2)確定解碼層2018對應的第一待訓練特徵圖像中像素點
Figure 02_image013
的權值
Figure 02_image015
Figure 02_image017
(1-2)。
其中,
Figure 02_image019
為啟動函數,
Figure 02_image021
為與解碼層2018尺度對應的第一特徵圖像,
Figure 02_image023
為解碼層2018對應的第一待訓練特徵圖像,
Figure 02_image025
表示對與解碼層2018尺度對應的第一特徵圖像進行線性變換,
Figure 02_image027
表示對解碼層2018對應的第一待訓練特徵圖像進行線性變換,
Figure 02_image029
為1×1卷積,
Figure 02_image031
為啟動函數,
Figure 02_image033
為偏差項。
根據空間注意力訓練層2037確定的解碼層2018對應的第一待訓練特徵圖像中各個像素點的權值,和空間注意力訓練層2038確定的解碼層2018對應的第一待訓練特徵圖像中各個像素點的權值,確定解碼層2018對應的空間注意力權值分佈,進而根據解碼層2018對應的空間注意力權值分佈,對解碼層2018對應的第一待訓練特徵圖像中的各個像素點進行校準,得到解碼層2018對應的第四特徵圖像。
確定解碼層2019對應的第四特徵圖像以及解碼層2020對應的第四特徵圖像的方式,與上述確定解碼層2018對應的第四特徵圖像的方式類似,這裡不再贅述。空間注意力模組2028和空間注意力模組2031的結構與空間注意力模組2025類似,這裡不再贅述。
透過使用空間注意力模組對分割網路進行空間維度的注意力訓練,使得訓練後的分割網路在進行圖像分割處理時可以增強圖像中感興趣區域的空間特徵資訊,抑制圖像中不感興趣區域的空間特徵資訊,進而可以提高分割網路的分割精度。
針對任一解碼層,在確定該解碼層對應的第四特徵圖像後,將輸入該解碼層的第二特徵圖像和該解碼層對應的第二特徵圖像進行拼接(通道級聯),得到該解碼層對應的第二待訓練特徵圖像。例如,針對解碼層2018,將輸入解碼層2018的第二特徵圖像(56*75尺度,64通道)和解碼層2018對應的第四特徵圖像(56*75尺度,64通道)進行通道級聯拼接,得到解碼層2018對應的第二待訓練特徵圖像(56*75尺度,128通道)。
在本申請的一些實施例中,透過在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,包括:確定該解碼層對應的通道注意力權值分佈,其中,該解碼層對應的通道注意力權值分佈用於指示第二待訓練特徵圖像中各個通道的權值;根據該解碼層對應的通道注意力權值分佈對第二待訓練特徵圖像中的各個通道進行校準。
在本申請的一些實施例中,確定該解碼層對應的通道注意力權值分佈,包括:對第二待訓練特徵圖像進行平均池化操作,得到平均池化結果;對第二待訓練特徵圖像進行最大池化操作,得到最大池化結果;根據平均池化結果和最大池化結果,確定該解碼層對應的通道注意力權值分佈。
第5圖為本申請實施例提供的第2圖中通道注意力模組2026的結構示意圖。如第5圖所示,通道注意力模組2026包括最大池化層2044、平均池化層2045、全連接層(Fully Connected Layers,FC層)2046、啟動層(ReLU層)2047和全連接層(FC層)2048。如第2圖、第5圖所示,將解碼層2018對應的第二待訓練特徵圖像(128通道)輸入通道注意力模組2026,經過最大池化層2044進行最大池化操作,得到最大池化結果,經過平均池化層2045進行平均池化操作,得到平均池化結果,進而將平均池化結果和最大池化結果分別經過全連接層(FC層)2046、啟動層(ReLU層)2047和全連接層(FC層)2048,確定解碼層2018對應的通道注意力權值分佈。例如,通道注意力模組2026可以透過下述公式(1-3)確定解碼層2018對應的第二待訓練特徵圖像中通道
Figure 02_image035
的權值
Figure 02_image037
Figure 02_image039
(1-3)。
其中,
Figure 02_image019
為啟動函數,
Figure 02_image041
為解碼層2018對應的第二待訓練特徵圖像,
Figure 02_image043
為全連接操作和ReLU操作,
Figure 02_image045
為全連接操作,
Figure 02_image047
為平均池化函數,
Figure 02_image049
為最大池化函數。
在確定解碼層2018對應的通道注意力權值分佈後,根據解碼層2018對應的通道注意力權值分佈對解碼層2018對應的第二待訓練特徵圖像中的各個通道進行校準,得到解碼層2018對應的第三特徵圖像。
確定解碼層2017對應的第三特徵圖像、解碼層2019對應的第三特徵圖像以及解碼層2020對應的第三特徵圖像的方式,與上述確定解碼層2018對應的第三特徵圖像的方式類似,這裡不再贅述。通道注意力模組2023、通道注意力模組2029以及通道注意力模組2032的結構與通道注意力模組2026類似,這裡不再贅述。
透過使用通道注意力模組對分割網路進行通道維度的注意力訓練,使得訓練後的分割網路在進行圖像分割處理時可以增強圖像中感興趣區域的通道特徵資訊,抑制圖像中不感興趣區域的通道特徵資訊,進而可以提高分割網路的分割精度。
在本申請的一些實施例中,根據多個解碼層確定的多個不同尺度的第三特徵圖像,確定特徵提取結果,包括:將不同尺度下的第三特徵圖像進行拼接,得到第三待訓練特徵圖像,其中,第三待訓練特徵圖像的尺度與樣本圖像的尺度相同;透過在尺度維度上使用注意力機制對第三待訓練特徵圖像進行訓練,確定特徵提取結果。
在本申請的一些實施例中,透過在尺度維度上使用注意力機制對第三待訓練特徵圖像進行訓練,包括:確定尺度注意力權值分佈,其中,尺度注意力權值分佈用於指示不同尺度的權值;根據尺度注意力權值分佈對第三待訓練特徵圖像進行校準。
如第2圖所示,分割網路中還包括尺度注意力模組2049。將解碼層2017對應的第三特徵圖像、解碼層2018對應的第三特徵圖像、解碼層2019對應的第三特徵圖像以及解碼層2020對應的第三特徵圖像進行拼接,在拼接過程中,將解碼層2017對應的第三特徵圖像(28*37尺度)、解碼層2018對應的第三特徵圖像(56*75尺度)以及解碼層2019對應的第三特徵圖像(112*150尺度)均進行上採樣到224*300尺度(與樣本圖像尺度相同),在拼接過程中,各個解碼層對應的第三特徵圖像可以僅保留4個通道,拼接後得到224*300尺度的第六特徵圖像(16通道)。將第六特徵圖像輸入尺度注意力模組2049進行尺度維度上的注意力訓練。
第6圖為本申請實施例提供的第2圖中尺度注意力模組2049的結構示意圖。如第6圖所示,尺度注意力模組2049包括最大池化層2050、平均池化層2051、全連接層(FC層)2052、啟動層(ReLU層)2053、全連接層(FC層)2054、卷積層2055、啟動層(ReLU層)2056、卷積層2057、啟動層(Sigmoid層)2058。將第六特徵圖像輸入尺度注意力模組2049,經過最大池化層2050進行最大池化操作,得到最大池化結果,經過平均池化層2051進行平均池化操作,得到平均池化結果,進而將平均池化結果和最大池化結果分別經過全連接層(FC層)2052、啟動層(ReLU層)2053、全連接層(FC層)2054確定尺度注意力權值分佈。例如,尺度注意力模組2049可以透過下述公式(1-4)確定尺度
Figure 02_image051
的權值
Figure 02_image053
Figure 02_image055
(1-4)。
其中,
Figure 02_image019
為啟動函數,
Figure 02_image057
為第六特徵圖像,
Figure 02_image043
為全連接操作和ReLU操作,
Figure 02_image045
為全連接操作,
Figure 02_image047
為平均池化函數,
Figure 02_image049
為最大池化函數。
基於尺度注意力權值分佈對第六特徵圖像進行第一次校準,得到第一次校準後的第六特徵圖像。透過使用尺度注意力模組對分割網路進行尺度維度的注意力訓練,使得訓練後的分割網路在進行圖像分割時可以增強合適尺度下的特徵資訊,抑制圖像中不合適尺度下的特徵資訊,進而可以提高分割網路的分割精度。
將第一次校準後的第六特徵圖像經過卷積層2055、啟動層(ReLU層)2056、卷積層2057、啟動層(Sigmoid層)2058再次在空間維度上進行注意力訓練,確定第一次校準後的第六特徵圖像中各個像素點的權值。例如,可以透過下述公式(1-5)確定第一次校準後的第六特徵圖像中像素點
Figure 02_image059
的權值
Figure 02_image060
Figure 02_image062
(1-5)。
其中,
Figure 02_image064
為啟動函數,
Figure 02_image066
為啟動函數,
Figure 02_image067
為卷積操作和批量歸一化操作(Batch Normalizationc操作),
Figure 02_image069
為卷積操作和批量歸一化操作(Batch Normalizationc操作),
Figure 02_image071
為第一次校準後的第六特徵圖像。
根據第一次校準後的第六特徵圖中各個像素點的權值,對第一次校準後的第六特徵圖像中的各個像素點進行再次校準,得到第二次校準後的第六特徵圖像,將第二次校準後的第六特徵圖像確定為樣本圖像的特徵提取結果。
如第2圖所示,分割網路中還包括分類器(class)2059和歸一化層(Softmax層)2060,將樣本圖像的特徵提取結果依次經過分類器2059和歸一化層2060,實現對樣本圖像的圖像分割,得到樣本圖像的分割結果2061。
根據樣本圖像的分割結果和樣本圖像對應的分割標注資訊,確定分割網路的分割損失,根據分割損失調整分割網路的網路參數。反覆運算訓練分割網路,直至分割網路的分割損失收斂或反覆運算次數達到預設次數。其中,確定分割損失可以採用DICE損失函數,也可以採用Softdice損失函數,也可以採用交叉熵(Cross Entropy)損失函數,也可以採用Focalloss損失函數,還可以採用其它損失函數,本申請實施例對此不做具體限定。
透過綜合使用空間注意力模組、通道注意力模組以及尺度注意力模組,對分割網路進行空間維度、通道維度以及尺度維度的綜合注意力訓練,使得訓練後的分割網路在進行圖像分割時可以提高分割精度,適用於醫學圖像分割問題,例如,在核磁共振(Magnetic Resonance Imaging,MRI)圖像、電子電腦斷層掃描(Computed Tomography,CT)圖像、超音波圖像或X光圖像中的腫瘤、組織損傷壞死、特定器官的分割,輔助醫生對病情進行判斷或者對病人健康做出更精準的評價。
透過分割網路在空間維度、通道維度和尺度維度中的預設維度上,使用注意力機制對訓練樣本中包括的樣本圖像進行特徵提取,得到特徵提取結果,根據特徵提取結果對樣本圖像進行圖像分割處理,得到圖像分割結果,根據圖像分割結果和訓練樣本中包括的樣本圖像對應的分割標注資訊,訓練分割網路,使得訓練得到的分割網路在進行圖像分割處理時可以提高分割精度。
本申請實施例提供一種網路訓練方法,應用於醫學圖像分析,該網路訓練方法可以由終端設備或其它處理設備執行,其中,終端設備可以為使用者設備(User Equipment,UE)、移動設備、使用者終端、終端、蜂窩電話、無線電話、個人數位助理(Personal Digital Assistant,PDA)、手持設備、計算設備、車載設備、可穿戴設備等。其它處理設備可為伺服器或雲端伺服器等。在一些可能的實現方式中,該網路訓練方法可以透過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。該方法可以包括:
步驟S31,對醫學圖像進行預處理,將圖片進行裁剪和歸一化。
步驟S32,選擇在醫學圖像分析方面有非常穩定效果的U-Net網路模型作為骨幹網路。在U-Net的最底層使用點積和的方式將每個像素點與其他所有像素點的相關性聯繫上,其後每經過一次上採樣(特徵解碼過程)都會使用解碼出的資訊來查詢同一層次編碼過程中的特徵。在這一步即為空間注意力方法。
步驟S33,在每一個解碼層的中間嵌入通道注意力,這裡同時使用平均池化和最大池化的資訊來對當前層的特徵通道資訊進行校準。
步驟S34,將解碼層每層的中間輸出透過上採樣統一到與輸入原圖相同大小,將包含不同尺度特徵的通道拼接,最後對不同的尺度資訊引入注意力機制。
步驟S35,對樣本圖像進行圖像分割,得到樣本圖像的分割結果。將該分割結果與人工(包括但不限於醫生、護士等)標注的金標準進行對比,透過反向傳播演算法,對損失函數採用梯度下降法進行反覆運算訓練,優化模型參數。其中,損失函數採用分割DICE損失函數。
本申請實施例提供的網路訓練方法,在醫學圖像廣泛應用的網路上,在特徵的多個維度引入注意力機制,較以往的注意力機制,更加加強感興趣區域的關注度,提高網路的自我調整能力。
此外,在大幅提高網路分割任務能力的情況下,網路只增加很少的參數量和計算開銷。因此,該網路訓練方法可以很好的適應對記憶體有要求的設備。
第7圖為本申請實施例提供的一種圖像處理方法的流程示意圖。該圖像處理方法可以由終端設備或其它處理設備執行,其中,終端設備可以為使用者設備(User Equipment,UE)、移動設備、使用者終端、終端、蜂窩電話、無線電話、個人數位助理(Personal Digital Assistant,PDA)、手持設備、計算設備、車載設備、可穿戴設備等。其它處理設備可為伺服器或雲端伺服器等。在一些可能的實現方式中,該圖像處理方法可以透過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。如第7圖所示,該方法可以包括:
步驟S71,透過分割網路對待分割圖像進行圖像分割處理,得到分割結果;其中,分割網路是採用上述實施例的網路訓練方法訓練得到的。
例如,可以採用上述實施例訓練得到的分割網路對待處理圖像進行圖像分割處理。具體地:將待處理圖像輸入分割網路,該分割網路的輸出為對待處理圖像的圖像分割結果。由於分割網路是在空間維度、通道維度和尺度維度上使用注意力機制進行訓練得到的,使得提高了分割網路對待處理圖像進行圖像分割處理的分割精度。以對皮膚病腫瘤進行自動分割的場景為例,本申請實施例提供的圖像處理方法可以包括:
步驟S701,對皮膚鏡圖片進行預處理;將圖片重採樣到224*300大小,然後歸一化到0至1之間。
步驟S702,將預處理成3*224*300的皮膚鏡圖片作為訓練資料登錄網路。在進入網路訓練之前,需要對圖片進行隨機翻轉,旋轉,裁剪來做資料的增強,然後將增強後的訓練資料和對應的標注輸入網路進行訓練。
步驟S703,採用基於全卷積網路(Fully Convolutional Network,FCN)或U-Net的網路結構,將大小為3*224*300的皮膚鏡圖片透過不同層的卷積。經過4次下採樣、批量歸一化及啟動函數的操作,3*224*300大小的皮膚病腫瘤圖片大小依次降為3*112*150、3*56*75、3*28*37和3*14*18。最後得到3*14*18的特徵圖像,同時將通道數從1增加到128。之後透過4次解卷積操作,將3*14*18大小的特徵圖像經過4次上採樣逐漸升為原始大小3*224*300。在上採樣過程中,將下採樣中相同解析度(如32*32*32)的特徵圖像,和上採樣中同樣大小的特徵圖像進行融合,再結合空間注意力機制。這樣,特徵結合了圖像中局部和全域的資訊,同時加強了特徵區域的關注度。
步驟S704,對上採樣得到的大小為3*224*300的圖像,在卷積操作中間再插入改進的通道注意力機制。然後對於每層上採樣,將中間特徵結果上採樣到輸入圖片的大小。再透過尺度注意力機制加強特徵尺度上的關注度。最後對分割的結果和原始標注的分割結果進行對比,使用DICE損失函數、交並比(Intersection over union,IOU)損失函數或其他損失函數計算損失,構成最終的損失函數。使用反向傳播演算法採用該損失函數更新模型參數,反覆運算優化模型,直到模型收斂或者達到最大的反覆運算次數。
步驟S705, 使用訓練出的模型,對待處理的皮膚鏡圖片進行圖像處理,得到分割的結果。可以使用DICE係數、IOU或平均對稱表面距離(average symmetric surface distance,ASSD)作為評價指標,評價網路的訓練效果。
本申請實施例提供的圖像處理方法,採用基於全注意力的網路方法,對於醫學圖像分割問題非常通用,同時也能用在MRI、CT、超音波和X光等醫學圖像中的腫瘤、組織損傷壞死等病灶區域或特定器官的分割任務中。只需要設置輸入網路的資料參數,就能實現不同任務的訓練和測試。
對於圖像科醫生,在下載患者資料後,使用基於本申請實施例提供的圖像處理方法的工作站,可以即時分割出需要分割的腫瘤或者器官,從而可以實現CT放療區域勾畫、遠端醫療診斷、雲端平臺輔助智慧診斷等,輔助醫生對病情進行判斷或者對病人健康做出更精準的評價。
基於本申請實施例提供的圖像處理方法的智慧診斷設備,能夠同時適應雲端平臺、大型伺服器、移動設備上的嵌入,圖像科醫生、臨床醫生等都能根據診斷需求方便地使用各種設備即時查看。
可以理解,本申請提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本申請不再贅述。本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
此外,本申請還提供了網路訓練裝置、圖像處理裝置、電子設備、電腦可讀儲存媒體、程式,上述均可用來實現本申請提供的任一種網路訓練方法、圖像處理方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
第8圖為本申請實施例提供的一種網路訓練裝置的結構示意圖。如第8圖所示,裝置80包括: 特徵提取模組81,配置為透過分割網路在預設維度上使用注意力機制對訓練樣本中包括的樣本圖像進行特徵提取,得到特徵提取結果,其中,預設維度包括:空間維度、通道維度和尺度維度,訓練樣本中還包括所述樣本圖像對應的分割標注資訊; 分割模組82,配置為根據特徵提取結果對樣本圖像進行圖像分割處理,得到圖像分割結果; 訓練模組83,配置為根據圖像分割結果和分割標注資訊,訓練分割網路。
在本申請的一些實施例中,分割網路包括編碼器和解碼器,編碼器包括多個編碼層,解碼器包括多個解碼層; 特徵提取模組81,包括: 第一確定子模組,配置為將樣本圖像輸入編碼器,確定每個編碼層對應的第一特徵圖像,其中,不同編碼層對應的第一特徵圖像的尺度不同; 第二確定子模組,配置為針對任一解碼層,利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度和通道維度上使用注意力機制對輸入該解碼層的第二特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像,其中,輸入該解碼層的第二特徵圖像是根據該解碼層的上一解碼層對應的第三特徵圖像確定的,不同解碼層對應的第三特徵圖像的尺度不同; 第三確定子模組,配置為根據多個解碼層確定的多個不同尺度的第三特徵圖像,確定特徵提取結果。
在本申請的一些實施例中,第二確定子模組,包括: 第一訓練單元,配置為利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度上使用注意力機制對第一待訓練特徵圖像進行訓練,確定該解碼層對應的第四特徵圖像,其中,第一待訓練特徵圖像為輸入該解碼層的第二特徵圖像; 第一拼接單元,配置為將輸入該解碼層的第二特徵圖像和該解碼層對應的第四特徵圖像進行拼接,得到第二待訓練特徵圖像; 第二訓練單元,配置為透過在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像。
在本申請的一些實施例中,第二確定子模組,包括: 第二拼接單元,配置為將與該解碼層尺度對應的第一特徵圖像和輸入該解碼層的第二特徵圖像進行拼接,確定第二待訓練特徵圖像; 第二訓練單元,配置為透過在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,確定第一待訓練特徵圖像; 第一訓練單元,利用與該解碼層尺度對應的第一特徵圖像,透過在空間維度上使用注意力機制對第一待訓練特徵圖像進行訓練,確定該解碼層對應的第三特徵圖像。
在本申請的一些實施例中,第一訓練單元,包括: 第一確定子單元,配置為根據與該解碼層尺度對應的第一特徵圖像和第一待訓練特徵圖像,確定該解碼層對應的空間注意力權值分佈,其中,該解碼層對應的空間注意力權值分佈用於指示第一待訓練特徵圖像中各個像素點的權值; 第一校準子單元,配置為根據該解碼層對應的空間注意力權值分佈對第一待訓練特徵圖像中的各個像素點進行校準。
在本申請的一些實施例中,針對任一解碼層,該解碼層包括多個空間注意力訓練層; 第一確定子單元具體配置為: 將與該解碼層尺度對應的第一特徵圖像和第一待訓練特徵圖像分別輸入所述多個空間注意力訓練層,確定第一待訓練特徵圖像中各個像素點的多個權值; 根據第一待訓練特徵圖像中各個像素點的多個權值,確定該解碼層對應的空間注意力權值分佈。
在本申請的一些實施例中,第二訓練單元,包括: 第二確定子單元,配置為確定該解碼層對應的通道注意力權值分佈,其中,該解碼層對應的通道注意力權值分佈用於指示第二待訓練特徵圖像中各個通道的權值; 第二校準子單元,配置為根據該解碼層對應的通道注意力權值分佈對第二待訓練特徵圖像中的各個通道進行校準。
在本申請的一些實施例中,第二確定子單元具體配置為: 對第二待訓練特徵圖像進行平均池化操作,得到平均池化結果; 對第二待訓練特徵圖像進行最大池化操作,得到最大池化結果; 根據平均池化結果和最大池化結果,確定該解碼層對應的通道注意力權值分佈。
在本申請的一些實施例中,第三確定子模組,包括: 第三拼接單元,配置為將不同尺度下的第三特徵圖像進行拼接,得到第三待訓練特徵圖像,其中,第三待訓練特徵圖像的尺度與樣本圖像的尺度相同; 確定單元,配置為透過在尺度維度上使用注意力機制對第三待訓練特徵圖像進行訓練,確定特徵提取結果。
在本申請的一些實施例中,確定單元具體配置為: 確定尺度注意力權值分佈,其中,尺度注意力權值分佈用於指示不同尺度的權值; 根據尺度注意力權值分佈對第三待訓練特徵圖像進行校準。
在本申請的一些實施例中,所述樣本圖像為醫學圖像,所述分割標注資訊為人工標注的金標準。
第9圖示為本申請實施例提供的一種圖像處理裝置的結構示意圖。如第9圖所示,裝置90包括: 圖像處理模組91,配置為透過分割網路對待分割圖像進行圖像分割處理,得到分割結果; 其中,分割網路是採用上述實施例的網路訓練方法訓練得到的。
在本申請的一些實施例中,所述待分割圖像為待分割的醫學圖像;圖像處理模組91配置為:透過分割網路對待分割的醫學圖像進行圖像分割處理,得到分割出的病灶區域或目標器官區域。
在一些實施例中,本申請實施例提供的裝置具有的功能或包含的模組可以配置為執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
本申請實施例還提出一種電腦可讀儲存媒體,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存媒體可以是非易失性電腦可讀儲存媒體。
本申請實施例還提出一種電子設備,包括:處理器;配置為儲存處理器可執行指令的記憶體;其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行上述方法。
本申請實施例還提供了一種電腦程式產品,包括電腦可讀代碼,當電腦可讀代碼在設備上運行時,設備中的處理器執行用於實現如上實施例提供的網路訓練/圖像處理方法的指令。
本申請實施例還提供了另一種電腦程式產品,配置為儲存電腦可讀指令,指令被執行時使得電腦執行上述任一實施例提供的網路訓練/圖像處理方法的操作。
電子設備可以被提供為終端、伺服器或其它形態的設備。
第10圖為本申請實施例提供的一種電子設備的示意圖。例如,電子設備1000可以是行動電話、電腦、數位廣播終端、訊息收發設備、遊戲控制台、平板設備、醫療設備、健身設備、個人數位助理等終端。
參照第10圖,電子設備1000可以包括以下一個或多個元件:處理元件1002、記憶體1004、電源元件1006、多媒體元件1008、音訊元件1010、輸入/輸出(input output,I/O)的介面1012、感測器元件1014,以及通訊元件1016。
處理元件1002通常控制電子設備1000的整體操作,諸如與顯示,電話呼叫,資料通訊,相機操作和記錄操作相關聯的操作。處理元件1002可以包括一個或多個處理器1020來執行指令,以完成上述的方法的全部或部分步驟。此外,處理元件1002可以包括一個或多個模組,便於處理元件1002和其他元件之間的互動。例如,處理元件1002可以包括多媒體模組,以方便多媒體元件1008和處理元件1002之間的互動。
記憶體1004被配置為儲存各種類型的資料以支援在電子設備1000的操作。這些資料的示例包括用於在電子設備1000上操作的任何應用程式或方法的指令、連絡人資料、電話簿資料、訊息、圖片、圖像等。記憶體1004可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現,如靜態隨機存取記憶體(Static Random-Access Memory,SRAM)、電可擦除可程式設計唯讀記憶體(Electrically Erasable Programmable Read Only Memory,EEPROM)、可擦除可程式設計唯讀記憶體(Electrical Programmable Read Only Memory,EPROM)、可程式設計唯讀記憶體(Programmable Read-Only Memory,PROM)、唯讀記憶體(Read-Only Memory,ROM)、磁記憶體、快閃記憶體、磁片或光碟。
電源元件1006為電子設備1000的各種元件提供電力。電源元件1006可以包括電源管理系統,一個或多個電源,及其他與為電子設備1000生成、管理和分配電力相關聯的組件。
多媒體元件1008包括在所述電子設備1000和使用者之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(Liquid Crystal Display,LCD)和觸控面板(Touch Pad,TP)。如果螢幕包括觸控面板,螢幕可以被實現為觸控式螢幕,以接收來自使用者的輸入訊號。觸控面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸控面板上的手勢。所述觸摸感測器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體元件1008包括一個前置攝影機和/或後置攝影機。當電子設備1000處於操作模式,如拍攝模式或視訊模式時,前置攝影機和/或後置攝影機可以接收外部的多媒體資料。每個前置攝影機和後置攝影機可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音訊元件1010被配置為輸出和/或輸入音訊訊號。例如,音訊元件1010包括一個麥克風(Microphone,MIC),當電子設備1000處於操作模式,如呼叫模式、記錄模式和語音辨識模式時,麥克風被配置為接收外部音訊訊號。所接收的音訊訊號可以被進一步儲存在記憶體1004或經由通訊元件1016發送。在一些實施例中,音訊元件1010還包括一個揚聲器,配置為輸出音訊訊號。
I/O介面1012為處理元件1002和周邊介面模組之間提供介面,上述周邊介面模組可以是鍵盤、點擊輪、按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
感測器元件1014包括一個或多個感測器,配置為為電子設備1000提供各個方面的狀態評估。例如,感測器元件1014可以檢測到電子設備1000的打開/關閉狀態,元件的相對定位,例如所述元件為電子設備1000的顯示器和小鍵盤,感測器元件1014還可以檢測電子設備1000或電子設備1000一個元件的位置改變,使用者與電子設備1000接觸的存在或不存在,電子設備1000方位或加速/減速和電子設備1000的溫度變化。感測器元件1014可以包括接近感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器元件1014還可以包括光感測器,如互補金屬氧化物半導體(Complementary Metal Oxide Semiconductor,CMOS)或電荷耦合設備(Charge Coupled Device,CCD)圖像感測器,配置為在成像應用中使用。在一些實施例中,該感測器元件1014還可以包括加速度感測器、陀螺儀感測器、磁感測器、壓力感測器或溫度感測器。
通訊元件1016被配置為便於電子設備1000和其他設備之間有線或無線方式的通訊。電子設備1000可以接入基於通訊標準的無線網路,如無線保真(Wireless Fidelity,WiFi)、第二代(2th Generation,2G)或第三代(3th Generation,3G)、或它們的組合。在一個示例性實施例中,通訊元件1016經由廣播通道接收來自外部廣播管理系統的廣播訊號或廣播相關資訊。在一個示例性實施例中,所述通訊元件1016還包括近場通訊(Near Field Communication,NFC)模組,以促進短程通訊。例如,在NFC模組可基於射頻識別(Radio Frequency Identification,RFID)技術、紅外資料協會(Infrared Data Association,IrDA)技術、超寬頻(Ultra Wide Band,UWB)技術、藍牙(Bluetooth,BT)技術和其他技術來實現。
在示例性實施例中,電子設備1000可以被一個或多個特殊應用積體電路(Application Specific Integrated Circuit,ASIC)、數位訊號處理器(Digital Signal Processor,DSP)、數位訊號處理設備(Digital Signal Process,DSPD)、可程式設計邏輯設備(Programmable Logic Device,PLD)、現場可程式設計閘陣列(Field Programmable Gate Array,FPGA)、控制器、微控制器、微處理器或其他電子元件實現,配置為執行上述方法。
在示例性實施例中,還提供了一種非易失性電腦可讀儲存媒體,例如包括電腦程式指令的記憶體1004,上述電腦程式指令可由電子設備1000的處理器1020執行以完成上述方法。
第11圖示出本申請實施例的一種電子設備的框圖。例如,電子設備1100可以被提供為一伺服器。參照第11圖,電子設備1100包括處理元件1122,其進一步包括一個或多個處理器,以及由記憶體1132所代表的記憶體資源,配置為儲存可由處理元件1122的執行的指令,例如應用程式。記憶體1132中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理元件1122被配置為執行指令,以執行上述方法。
電子設備1100還可以包括一個電源元件1126被配置為執行電子設備1100的電源管理,一個有線或無線網路介面1150被配置為將電子設備1100連接到網路,和一個輸入輸出(I/O)介面1158。電子設備1100可以操作基於儲存在記憶體1132的作業系統,例如Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等等。
在示例性實施例中,還提供了一種非易失性電腦可讀儲存媒體,例如包括電腦程式指令的記憶體1132,上述電腦程式指令可由電子設備1100的處理元件1122執行以完成上述方法。
本申請實施例可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存媒體,其上載有用於使處理器實現本申請實施例的各個方面的電腦可讀程式指令。
電腦可讀儲存媒體可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存媒體可以是但不限於電存放裝置、磁存放裝置、光存放裝置、電磁存放裝置、半導體存放裝置或者上述的任意合適的組合。電腦可讀儲存媒體的更具體的例子(非窮舉的列表)包括:攜帶式硬碟、硬碟、隨機存取記憶體(Random-Access Memory,RAM)、唯讀記憶體(ROM)、可擦式可程式設計唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、光碟唯讀記憶體(Compact Disc Read-Only Memory,CD-ROM)、數位影像光碟(Digital Video Disc,DVD)、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存媒體不被解釋為暫態訊號本身,諸如無線電波或者其他自由傳播的電磁波、透過波導或其他傳輸媒介傳播的電磁波(例如,透過光纖電纜的光脈衝)、或者透過電線傳輸的電訊號。
這裡所描述的電腦可讀程式指令可以從電腦可讀儲存媒體下載到各個計算/處理設備,或者透過網路、例如網際網路、區域網路、廣域網路和/或無線網下載到外部電腦或外部存放裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存媒體中。
用於執行本申請實施例操作的電腦程式指令可以是彙編指令、指令集架構(Instruction Set Architecture,ISA)指令、機器指令、機器相關指令、微代碼、韌體指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼,所述程式設計語言包括物件導向的程式設計語言—諸如Smalltalk、C++等,以及常規的過程式程式設計語言—諸如「C」語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以透過任意種類的網路—包括區域網路(Local Area Network,LAN)或廣域網路(Wide Area Network,WAN)—連接到使用者電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供者來透過網際網路連接)。在一些實施例中,透過利用電腦可讀程式指令的狀態資訊來客制化定制電子電路,例如可程式設計邏輯電路、現場可程式設計閘陣列(Field Programmable Gate Array,FPGA)或可程式設計邏輯陣列(Programmable Logic Array,PLA),該電子電路可以執行電腦可讀程式指令,從而實現本申請實施例的各個方面。
這裡參照本申請實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或框圖描述了本申請實施例的各個方面。應當理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器,從而生產出一種機器,使得這些指令在透過電腦或其它可程式設計資料處理裝置的處理器執行時,產生了實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存媒體中,這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀媒體則包括一個製造品,其包括實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上,使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作。
附圖中的流程圖和框圖顯示了根據本申請的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方框中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方框實際上可以基本並行地執行,它們有時也可以按相反的循序執行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
該電腦程式產品可以具體透過硬體、軟體或其結合的方式實現。在一個可選實施例中,所述電腦程式產品具體體現為電腦儲存媒體,在另一個可選實施例中,電腦程式產品具體體現為軟體產品,例如軟體發展包(Software Development Kit,SDK)等等。
以上已經描述了本申請的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。 工業實用性
本申請實施例提供一種網路訓練、圖像處理方法、電子設備和儲存媒體,所述方法包括:透過分割網路在預設維度上使用注意力機制對訓練樣本中包括的樣本圖像進行特徵提取,得到特徵提取結果,其中,所述預設維度包括:空間維度、通道維度和尺度維度,所述訓練樣本中還包括所述樣本圖像對應的分割標注資訊;根據所述特徵提取結果對所述樣本圖像進行圖像分割處理,得到圖像分割結果;根據所述圖像分割結果和所述分割標注資訊,訓練所述分割網路。本申請實施例能夠實現分割網路的訓練,並能透過訓練得到的分割網路進行圖像分割處理。
S11~S13:步驟 2001:編碼器 2002:解碼器 2003~2007:編碼層 2008,2010,2012,2014,2016,2021,2024,2027,2030:卷積層 2009,2011,2013,2015:最大池化層 2017~2020:解碼層 2022,2025,2028,2031:空間注意力模組 2023,2026,2029,2032:通道注意力模組 2033:樣本圖像 2034:卷積層 2035:轉置層 2036:歸一化層 2037,2038:空間注意力訓練層 2039:1×1卷積層 2040:上採樣層 2041:ReLU層 2042:sigmoid層 2043:重採樣層 2044:最大池化層2044 2045:平均池化層 2046:FC層 2047:ReLU層 2048:FC層 2049:尺度注意力模組 2050:最大池化層2050 2051:平均池化層 2052:FC層 2053:ReLU層 2054:FC層 2055:卷積層 2056:ReLU層 2057:卷積層 2058:Sigmoid層 2059:分類器 2060:歸一化層 2061:分割結果 S71:步驟 80:網路訓練裝置 81:特徵提取模組 82:分割模組 83:訓練模組 90:圖像處理裝置 91:影像處理模組 1000:電子設備 1002:處理元件 1004:記憶體 1006:電源元件 1008:多媒體元件 1010:音訊元件 1012:輸入/輸出介面 1014:感測器元件 1016:通訊元件 1020:處理器 1100:電子設備 1122:處理元件 1126:電源元件 1132:記憶體 1150:網路介面 1158:輸入輸出介面
此處的附圖被併入說明書中並構成本說明書的一部分,這些附圖示出了符合本申請的實施例,並與說明書一起用於說明本申請實施例的技術方案。
第1圖為本申請實施例提供的一種網路訓練方法的流程示意圖; 第2圖為本申請實施例提供的一種分割網路的結構示意圖; 第3圖為本申請實施例提供的第2圖中空間注意力模組2022的結構示意圖; 第4圖為本申請實施例提供的第2圖中空間注意力模組2025的結構示意圖; 第5圖為本申請實施例提供的第2圖中通道注意力模組2026的結構示意圖; 第6圖為本申請實施例提供的第2圖中尺度注意力模組2049的結構示意圖; 第7圖為本申請實施例提供的一種圖像處理方法的流程示意圖; 第8圖為本申請實施例提供的一種網路訓練裝置的結構示意圖; 第9圖為本申請實施例提供的一種圖像處理裝置的結構示意圖; 第10圖為本申請實施例提供的一種電子設備的結構示意圖; 第11圖為本申請實施例提供的一種電子設備的結構示意圖。
S11~S13:步驟

Claims (16)

  1. 一種網路訓練方法,所述網路訓練方法用於訓練神經網路模型,根據訓練得到的神經網路模型對圖像進行分割,所述方法包括:透過分割網路在預設維度上使用注意力機制對訓練樣本中包括的樣本圖像進行特徵提取,得到特徵提取結果,其中,所述預設維度包括:空間維度、通道維度和尺度維度,所述訓練樣本中還包括所述樣本圖像對應的分割標注資訊;根據所述特徵提取結果對所述樣本圖像進行圖像分割處理,得到所述樣本圖像的圖像分割結果;根據所述樣本圖像的圖像分割結果和所述分割標注資訊,訓練所述分割網路;其中,所述樣本圖像為醫學影像,所述分割標注信息為人工標注的金標準。
  2. 根據權利要求1所述的方法,所述分割網路包括編碼器和解碼器,所述編碼器包括多個編碼層,所述解碼器包括多個解碼層;所述透過分割網路在預設維度上使用注意力機制對訓練樣本中包括的樣本圖像進行特徵提取,得到特徵提取結果,包括:將所述樣本圖像輸入所述編碼器,確定每個編碼層對應的第一特徵圖像,其中,不同編碼層對應的第一特徵圖像的尺度不同;針對任一解碼層,利用與所述解碼層的尺度對應的第一特徵圖像,透過在空間維度和通道維度上使用注意力機制對輸入所述解碼層的第二特徵圖像進行訓練,確定所述解碼層對應的第三特徵圖像,其中,輸入所述解碼層的第二特徵圖像是根據所述解碼層的上一解碼層對應的第三特徵圖像確定的,不同解碼層對應的第三特徵圖像的尺度不同;根據多個解碼層確定的多個不同尺度的第三特徵圖像,確定所述特徵提取結果。
  3. 根據權利要求2所述的方法,所述針對任一解碼層,利用與所述解碼層的尺度對應的第一特徵圖像,透過在空間維度和通道維度上使用注意力機制對輸入所述解碼層的第二特徵圖像進行訓練,確定所述解碼層對應的第三特徵圖像,包括:利用與所述解碼層的尺度對應的第一特徵圖像,透過在空間維度上使用注意力機制對第一待訓練特徵圖像進行訓練,確定所述解碼層對應的第四特徵圖像,其中,第一待訓練特徵圖像為輸入所述解碼層的第二特徵圖像;將輸入所述解碼層的第二特徵圖像和所述解碼層對應的第四特徵圖像進行拼接,得到第二待訓練特徵圖像;透過在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,確定所述解碼層對應的第三特徵圖像。
  4. 根據權利要求2所述的方法,所述針對任一解碼層,利用與所述解碼層的尺度對應的第一特徵圖像,透過在空間維度和通道維度上使用注意力機制對輸入所述解碼層的第二特徵圖像進行訓練,確定所述解碼層對應的第三特徵圖像,包括:將與所述解碼層的尺度對應的第一特徵圖像和輸入所述解碼層的第二特徵圖像進行拼接,確定第二待訓練特徵圖像;透過在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,確定第一待訓練特徵圖像;利用與所述解碼層的尺度對應的第一特徵圖像,透過在空間維度上使用注意力機制對第一待訓練特徵圖像進行訓練,確定所述解碼層對應的第三特徵圖像。
  5. 根據權利要求3所述的方法,所述利用與所述解碼層的尺度對應的第一特徵圖像,透過在空間維度上使用注意力機制對第一待訓練特徵圖 像進行訓練,包括:根據與所述解碼層的尺度對應的第一特徵圖像和第一待訓練特徵圖像,確定所述解碼層對應的空間注意力權值分佈,其中,所述解碼層對應的空間注意力權值分佈用於指示第一待訓練特徵圖像中各個像素點的權值;根據所述解碼層對應的空間注意力權值分佈對第一待訓練特徵圖像中的各個像素點進行校準。
  6. 根據權利要求5所述的方法,針對任一解碼層,所述解碼層包括多個空間注意力訓練層;所述根據與所述解碼層的尺度對應的第一特徵圖像和第一待訓練特徵圖像,確定所述解碼層對應的空間注意力權值分佈,包括:將與所述解碼層的尺度對應的第一特徵圖像和第一待訓練特徵圖像分別輸入所述多個空間注意力訓練層,確定第一待訓練特徵圖像中各個像素點的多個權值;根據第一待訓練特徵圖像中各個像素點的所述多個權值,確定所述解碼層對應的空間注意力權值分佈。
  7. 根據權利要求3至6中任一項所述的方法,所述透過在通道維度上使用注意力機制對第二待訓練特徵圖像進行訓練,包括:確定所述解碼層對應的通道注意力權值分佈,其中,所述解碼層對應的通道注意力權值分佈用於指示第二待訓練特徵圖像中各個通道的權值;根據所述解碼層對應的通道注意力權值分佈對第二待訓練特徵圖像中的各個通道進行校準。
  8. 根據權利要求7所述的方法,所述確定所述解碼層對應的通道注意力權值分佈,包括:對第二待訓練特徵圖像進行平均池化操作,得到平均池化結果; 對第二待訓練特徵圖像進行最大池化操作,得到最大池化結果;根據所述平均池化結果和所述最大池化結果,確定所述解碼層對應的通道注意力權值分佈。
  9. 根據權利要求2至6中任一項所述的方法,所述根據多個解碼層確定的多個不同尺度的第三特徵圖像,確定所述特徵提取結果,包括:將不同尺度下的第三特徵圖像進行拼接,得到第三待訓練特徵圖像,其中,第三待訓練特徵圖像的尺度與所述樣本圖像的尺度相同;透過在尺度維度上使用注意力機制對第三待訓練特徵圖像進行訓練,確定所述特徵提取結果。
  10. 根據權利要求9所述的方法,所述透過在尺度維度上使用注意力機制對第三待訓練特徵圖像進行訓練,包括:確定尺度注意力權值分佈,其中,所述尺度注意力權值分佈用於指示不同尺度的權值;根據所述尺度注意力權值分佈對第三待訓練特徵圖像進行校準。
  11. 一種圖像處理方法,包括:透過分割網路對待分割圖像進行圖像分割處理,得到所述樣本圖像的分割結果;其中,所述分割網路是採用權利要求1至10中任一項所述的網路訓練方法訓練得到的。
  12. 根據權利要求11所述的方法,所述待分割圖像為待分割的醫學圖像;所述透過分割網路對待分割圖像進行圖像分割處理,得到所述樣本圖像的分割結果,包括:透過分割網路對待分割的醫學圖像進行圖像分割處理,得到分割出的病灶 區域或目標器官區域。
  13. 一種電子設備,包括:處理器;配置為儲存處理器可執行指令的記憶體;其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行權利要求1至10中任意一項所述的網路訓練方法。
  14. 一種電腦可讀儲存媒體,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現權利要求1至10中任意一項所述的網路訓練方法。
  15. 一種電子設備,包括:處理器;配置為儲存處理器可執行指令的記憶體;其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行權利要求11至12所述的圖像處理方法。
  16. 一種電腦可讀儲存媒體,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現權利要求11至12所述的圖像處理方法。
TW109127036A 2020-01-20 2020-08-10 網路訓練、圖像處理方法、電子設備和儲存媒體 TWI743931B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010065998.9A CN111310764B (zh) 2020-01-20 2020-01-20 网络训练、图像处理方法及装置、电子设备和存储介质
CN202010065998.9 2020-01-20

Publications (2)

Publication Number Publication Date
TW202129543A TW202129543A (zh) 2021-08-01
TWI743931B true TWI743931B (zh) 2021-10-21

Family

ID=71146977

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109127036A TWI743931B (zh) 2020-01-20 2020-08-10 網路訓練、圖像處理方法、電子設備和儲存媒體

Country Status (5)

Country Link
JP (1) JP2022521130A (zh)
KR (1) KR20210140757A (zh)
CN (1) CN111310764B (zh)
TW (1) TWI743931B (zh)
WO (1) WO2021147257A1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310764B (zh) * 2020-01-20 2024-03-26 上海商汤智能科技有限公司 网络训练、图像处理方法及装置、电子设备和存储介质
CN112102251B (zh) * 2020-08-20 2023-10-31 上海壁仞智能科技有限公司 一种分割影像的方法及装置、电子设备和存储介质
CN112183507B (zh) * 2020-11-30 2021-03-19 北京沃东天骏信息技术有限公司 图像分割方法、装置、设备、存储介质
CN112733886A (zh) * 2020-12-24 2021-04-30 西人马帝言(北京)科技有限公司 样本图像的处理方法、装置、设备及存储介质
CN113223730B (zh) * 2021-03-30 2023-06-06 武汉市疾病预防控制中心 基于人工智能的疟疾分类方法及设备
CN113377986B (zh) * 2021-06-23 2023-11-07 泰康保险集团股份有限公司 图像检索方法和装置
CN113989593A (zh) * 2021-10-29 2022-01-28 北京百度网讯科技有限公司 图像处理方法、检索方法、训练方法、装置、设备及介质
CN114119351A (zh) * 2021-11-08 2022-03-01 清华大学 图像处理方法、装置、电子设备及存储介质
CN114267443B (zh) * 2021-11-08 2022-10-04 东莞市人民医院 基于深度学习的胰腺肿瘤纤维化程度预测方法及相关装置
WO2023101276A1 (ko) * 2021-11-30 2023-06-08 삼성전자 주식회사 영상 처리 장치 및 그 동작 방법
CN114399629A (zh) * 2021-12-22 2022-04-26 北京沃东天骏信息技术有限公司 一种目标检测模型的训练方法、目标检测的方法和装置
CN114418069B (zh) * 2022-01-19 2024-06-14 腾讯科技(深圳)有限公司 一种编码器的训练方法、装置及存储介质
CN114429548A (zh) * 2022-01-28 2022-05-03 北京百度网讯科技有限公司 图像处理方法、神经网络及其训练方法、装置和设备
CN114596370A (zh) * 2022-03-04 2022-06-07 深圳万兴软件有限公司 视频色彩转换方法、装置、计算机设备及存储介质
CN114897848A (zh) * 2022-05-20 2022-08-12 中国农业大学 一种鱼苗计数方法、装置、电子设备与存储介质
CN114764858B (zh) * 2022-06-15 2022-11-01 深圳大学 一种复制粘贴图像识别方法、装置、计算机设备及存储介质
CN115131608B (zh) * 2022-06-17 2024-08-27 广东技术师范大学 一种细粒度图像分类方法、装置、计算机设备及存储介质
CN114782440B (zh) * 2022-06-21 2022-10-14 杭州三坛医疗科技有限公司 医学图像分割方法及电子设备
CN115330808B (zh) * 2022-07-18 2023-06-20 广州医科大学 一种分割引导的磁共振图像脊柱关键参数自动测量方法
CN115034375B (zh) * 2022-08-09 2023-06-27 北京灵汐科技有限公司 数据处理方法及装置、神经网络模型、设备、介质
CN115430066A (zh) * 2022-09-13 2022-12-06 苏州雷泰医疗科技有限公司 超声装置、包括该超声装置的放射治疗设备及其工作方法
CN116402779B (zh) * 2023-03-31 2024-07-23 北京长木谷医疗科技股份有限公司 基于深度学习注意力机制的颈椎图像分割方法及装置
CN116704666A (zh) * 2023-06-21 2023-09-05 合肥中科类脑智能技术有限公司 售卖方法及计算机可读存储介质、自动售卖机
CN116955965B (zh) * 2023-09-20 2024-02-02 山东鑫泰莱光电股份有限公司 一种基于太阳能数据故障预测方法、设备以及存储介质
CN117351183B (zh) * 2023-10-09 2024-06-04 广州医科大学附属第一医院(广州呼吸中心) 子宫内膜癌淋巴结转移智能识别方法及系统
CN117437463B (zh) * 2023-10-19 2024-05-24 上海策溯科技有限公司 基于图像处理的医学影像数据处理方法及处理平台
CN118297970A (zh) * 2024-04-08 2024-07-05 中国人民解放军空军特色医学中心 一种胸腰椎x射线片分割方法及装置
CN118172677B (zh) * 2024-05-14 2024-08-16 山东科技大学 基于神经网络识别的尾矿排水固结的规划方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW514513B (en) * 1996-02-06 2002-12-21 Deus Technologies Inc Method for the detection of lung nodule in radiological images using digital image processing and artificial neural network
US20170262705A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Recurrent networks with motion-based attention for video understanding
CN109614991A (zh) * 2018-11-19 2019-04-12 成都信息工程大学 一种基于Attention的多尺度扩张性心肌的分割分类方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558750B2 (en) * 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning
CN108830157B (zh) * 2018-05-15 2021-01-22 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN109410216B (zh) * 2018-09-14 2020-12-29 北京市商汤科技开发有限公司 一种缺血性脑卒中图像区域分割方法及装置
CN109446970B (zh) * 2018-10-24 2021-04-27 西南交通大学 一种基于深度学习的变电站巡检机器人道路场景识别方法
CN109829501B (zh) * 2019-02-01 2021-02-19 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110176012B (zh) * 2019-05-28 2022-12-13 腾讯科技(深圳)有限公司 图像中的目标分割方法、池化方法、装置及存储介质
CN110188765B (zh) * 2019-06-05 2021-04-06 京东方科技集团股份有限公司 图像语义分割模型生成方法、装置、设备及存储介质
US10482603B1 (en) * 2019-06-25 2019-11-19 Artificial Intelligence, Ltd. Medical image segmentation using an integrated edge guidance module and object segmentation network
CN110633755A (zh) * 2019-09-19 2019-12-31 北京市商汤科技开发有限公司 网络训练方法、图像处理方法及装置、电子设备
CN111310764B (zh) * 2020-01-20 2024-03-26 上海商汤智能科技有限公司 网络训练、图像处理方法及装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW514513B (en) * 1996-02-06 2002-12-21 Deus Technologies Inc Method for the detection of lung nodule in radiological images using digital image processing and artificial neural network
US20170262705A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Recurrent networks with motion-based attention for video understanding
CN109614991A (zh) * 2018-11-19 2019-04-12 成都信息工程大学 一种基于Attention的多尺度扩张性心肌的分割分类方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法

Also Published As

Publication number Publication date
TW202129543A (zh) 2021-08-01
CN111310764A (zh) 2020-06-19
WO2021147257A1 (zh) 2021-07-29
JP2022521130A (ja) 2022-04-06
CN111310764B (zh) 2024-03-26
KR20210140757A (ko) 2021-11-23

Similar Documents

Publication Publication Date Title
TWI743931B (zh) 網路訓練、圖像處理方法、電子設備和儲存媒體
TWI770754B (zh) 神經網路訓練方法及電子設備和儲存介質
TWI755853B (zh) 圖像處理方法、電子設備和電腦可讀儲存介質
WO2020211284A1 (zh) 图像处理方法及装置、电子设备和存储介质
TWI713054B (zh) 圖像分割方法及裝置、電子設備和儲存媒體
WO2022151755A1 (zh) 目标检测方法及装置、电子设备、存储介质、计算机程序产品和计算机程序
WO2022036972A1 (zh) 图像分割方法及装置、电子设备和存储介质
CN111209916B (zh) 病灶识别方法及系统、识别设备
CN113470029B (zh) 训练方法及装置、图像处理方法、电子设备和存储介质
TW202110387A (zh) 圖像處理方法、電子設備、電腦可讀儲存介質
WO2021259391A2 (zh) 图像处理方法及装置、电子设备和存储介质
EP3998579B1 (en) Medical image processing method, apparatus and device, medium and endoscope
WO2021082517A1 (zh) 神经网络训练及图像分割方法、装置、设备、介质和程序
WO2021259390A2 (zh) 一种冠脉钙化斑块检测方法及装置
TWI767614B (zh) 圖像處理方法及電子設備、電腦可讀儲存介質
TW202141352A (zh) 字元識別方法及電子設備和電腦可讀儲存介質
KR20220012407A (ko) 이미지 분할 방법 및 장치, 전자 기기 및 저장 매체
CN115170464A (zh) 肺图像的处理方法、装置、电子设备和存储介质
CN117218133A (zh) 肺图像处理方法及装置、电子设备和存储介质
WO2022012038A1 (zh) 图像处理方法及装置、电子设备、存储介质和程序产品
CN117036750A (zh) 膝关节病灶检测方法及装置、电子设备和存储介质
CN113553460B (zh) 影像检索方法及装置、电子设备和存储介质
CN116523914B (zh) 一种动脉瘤分类识别装置、方法、设备、存储介质
CN117670836A (zh) 前列腺癌治疗效果的预测方法及装置、设备和存储介质