TWI784349B - 顯著圖產生方法及使用該方法的影像處理系統 - Google Patents
顯著圖產生方法及使用該方法的影像處理系統 Download PDFInfo
- Publication number
- TWI784349B TWI784349B TW109139873A TW109139873A TWI784349B TW I784349 B TWI784349 B TW I784349B TW 109139873 A TW109139873 A TW 109139873A TW 109139873 A TW109139873 A TW 109139873A TW I784349 B TWI784349 B TW I784349B
- Authority
- TW
- Taiwan
- Prior art keywords
- map
- feature maps
- feature
- network model
- convolutional
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 title claims abstract description 34
- 238000007499 fusion processing Methods 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 6
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 8
- 101710083129 50S ribosomal protein L10, chloroplastic Proteins 0.000 description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 238000011160 research Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
Abstract
一種顯著圖產生方法及使用該方法的影像處理系統。所述方法包括下列步驟。接收原始水下影像。對前述原始水下影像進行模糊化程序以產生散焦圖。將前述散焦圖輸入至輔助卷積網路模型而獲取前述散焦圖的多張特徵圖。將前述原始水下影像與前述特徵圖輸入至主卷積網路模型,以產生前述原始水下影像的顯著圖。
Description
本發明是有關於一種影像處理技術,且特別是有關於一種顯著圖產生方法及使用該方法的影像處理系統。
顯著物偵測(salient object detection,SOD)在電腦視覺領域中是一個很重要的研究議題,其基於人視覺注意力機制去尋找影像中最顯著的物體。目前在這方面的研究,因深度學習技術的快速發展,已經有大幅的進展。然而在於主流的測試資料集以及模型,都是基於良好清晰畫面品質作預測。面對嚴苛環境下所拍攝的影像,即便最新的研究,皆未能產生良好的預測效果。尤其是水下環境中所拍攝的影像,因為光線在不同介質中傳遞造成的散射與吸收,影像的色彩與對比都會產生嚴重的偏差。
一般而言,在處理像是水下影像這類品質不佳圖像時,通常會使用影像增強(image enhancement)或是影像還原(image
restoration)方法進行影像前處理。影像增強的目的是強化影像對比,但是增強的區域很可能非是顯著目標物件,對顯著物件偵測模型的模型準確度反而會帶來負面影響。影像還原是基於假設的衰變模型(degradation model)設計一個逆向還原的還原模型,但透過沒有先驗知識下設計的還原模型進行還原,對顯著物偵測有用的特徵可能會流失。
有鑑於此,本發明提出一種顯著圖產生方法及使用該方法的影像處理系統,其可針對水下影像產生準確的顯著圖。
本發明實施例提供一種顯著圖產生方法,包括下列步驟:接收原始水下影像;對前述原始水下影像進行模糊化程序以產生散焦圖;將前述散焦圖輸入至輔助卷積網路模型而獲取前述散焦圖的多張第一特徵圖;以及將前述原始水下影像與前述第一特徵圖輸入至主卷積網路模型,以產生前述原始水下影像的顯著圖(Saliency Map)。
本發明實施例提供一種影像處理系統,其包括儲存電路與處理器。處理器耦接儲存電路,經配置以執行下列步驟:接收原始水下影像;對前述原始水下影像進行模糊化程序以產生散焦圖;將前述散焦圖輸入至輔助卷積網路模型而獲取前述散焦圖的多個第一特徵圖;以及將前述原始水下影像與前述第一特徵圖輸入至主卷積網路模型,以產生前述原始水下影像的顯著圖。
基於上述,於本發明的實施例中,可產生原始水下影像的散焦圖,並將散焦圖經過卷積運算而產生的多個第一特徵圖提供給主卷積網路模型。基此,主卷積網路模型可依據散焦圖的多個第一特徵圖與原始水下影像而針對原始水下影像產生品質良好的顯著圖,以提昇顯著物件偵測(Saliency object detection)的準確度。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
10:影像處理系統
110:儲存電路
120:處理器
Img_ori:原始水下影像
b_map:散焦圖
s_map:顯著圖
f_map(1)~f_map(N),f_map(x)~f_map(x+M):第一特徵圖
AFCN:輔助卷積網路模型
MFCN:主卷積網路模型
CL1~CL10,CL51,CL61,CL62,CL63:卷積層
PL1~PL4:池化層
f_map(y)~f_map(y+M):第二特徵圖
f_map(z)~f_map(z+M):融合特徵圖
61:下採樣網路部份
62:上採樣網路部份
63:橋接層
RB61:殘差塊
S201~S204:步驟
圖1是依照本發明一實施例的影像處理系統的示意圖。
圖2是依照本發明一實施例的顯著圖產生方法的流程圖。
圖3是依照本發明一實施例的顯著圖產生方法的示意圖。
圖4是依據本發明一實施例的輔助卷積網路模型的示意圖。
圖5是依據本發明一實施例的融合第一特徵圖與第二特徵圖的示意圖。
圖6A是依照本發明一實施例的主卷積網路模型為U-net模型的示意圖。
圖6B是依照本發明一實施例的主卷積網路模型為U-net模型的示意圖。
本發明的部份實施例接下來將會配合附圖來詳細描述,以下的描述所引用的元件符號,當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本發明的一部份,並未揭示所有本發明的可實施方式。更確切的說,這些實施例只是本發明的專利申請範圍中的方法與系統的範例。
圖1是依照本發明一實施例的影像處理系統的示意圖。影像處理系統10包括儲存電路110以及處理器120。
儲存電路110用以儲存資料與供處理器120存取的程式碼(例如作業系統、應用程式、驅動程式)等資料,其可以例如是任意型式的固定式或可移動式隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)或其組合。
處理器120耦接儲存電路110,其中處理器120可以為中央處理單元(central processing unit,CPU)、應用處理器(application processor,AP),或是其他可程式化之一般用途或特殊用途的微處理器(microprocessor)、數位訊號處理器(digital signal processor,DSP)、影像訊號處理器(image signal processor,ISP)、圖形處理器(graphics processing unit,GPU)或其他類似裝置、積體電路及其組合。處理器120可存取並執行記錄在儲存電路110中的程式碼與軟體元件,以實現本發明實施例中提昇影像品質方法。
在本實施例中,影像處理系統10的儲存電路110中儲存
有多個程式碼片段,在上述程式碼片段被安裝後,會由處理器120來執行。例如,儲存電路110記錄多個模組,藉由這些模組來分別執行應用於影像處理系統10中的各個運作,其中各模組是由一或多個程式碼片段所組成。然而本發明不限於此,影像處理系統10的各個運作也可以是使用其他硬體形式的方式來實現。
圖2是依照本發明一實施例的顯著圖產生方法的流程圖。圖3是依照本發明一實施例的顯著圖產生方法的示意圖。請參照圖1、圖2與圖3,本實施例的方式適用於上述實施例中的影像處理系統10,以下即搭配影像處理系統10中的各項元件說明本實施例之提昇影像品質方法的詳細步驟。
於步驟S201,處理器120接收原始水下影像Img_ori。原始水下影像Img_ori為利用影像擷取裝置針對水下場景進行拍攝所產生的影像。於一些實施例中,原始水下影像Img_ori可為RGB影像,即原始水下影像Img_ori中各像素具有紅色通道值、綠色通道值與藍色通道值。由於原始水下影像Img_ori是於水下進行拍攝,因此原始水下影像Img_ori可能具有對比度不佳、亮度低、色偏失真或可見度不高等等現象。
於步驟S202,處理器120對原始水下影像Img_ori進行模糊化程序以產生散焦圖b_map。此散焦圖b_map也可稱為模糊度估測圖(blurriness map)。一般而言,原始水下影像Img_ori中的水下物件會反映於距離影像擷取裝置越遠而越模糊。因此,於一些實施例中,處理器120可依據原始水下影像Img_ori中的模糊資訊
來估測出深度資訊。由此可知,散焦圖b_map帶有深度資訊。此外,水下場景中的顯著物件一般為影像擷取裝置的對焦主體,因此相較於其周圍場景物件會較為清晰。換言之,相較於顯著物件周圍的場景物件,原始水下影像Img_ori中的顯著物件的模糊度較低。基此,於一些實施例中,處理器120後續可依據散焦圖b_map提供的資訊來增強水下場景中顯著物件的偵測準確度。
於一些實施例中,處理器120可利用分別對應至多個尺度(scales)的多個高斯濾波器對原始水下影像Img_ori進行濾波處理,以獲取散焦圖b_map。詳細而言,處理器120可使用對應至不同的遮罩尺度的高斯濾波遮罩對原始水下影像Img_ori進行濾波處理,而獲取多張經模糊影像。於一實施例中,處理器120可使用k×k的高斯濾波遮罩來進行濾波處理,其中k=2 i +1且1in。舉例而言,假設n=4,則這些遮罩尺度可為3×3、5×5、9×9、17×17,但本發明不限制於此。處理器120可計算各張經模糊影像中的各像素位置與原始水下影像Img_ori中的各對應像素位置之間的絕對像素差值。於是,處理器120可透過計算對應至各個像素位置的多個絕對像素差值的平均值而獲取散焦圖b_map。
於一些實施例中,處理器120還可執行形態學(morphological)影像處理與/或使用導向濾波器進行濾波處理,以優化散焦圖b_map。詳細而言,於一實施例中,處理器120可執行形態學影像處理中的膨脹運算來填補散焦圖b_map中的破洞。於一實施例中,處理器120可使用導向濾波器對散焦圖b_map進行
濾波處理而以對優化散焦圖b_map進行一軟消光(soft matting)處理。
於步驟S203,處理器120將散焦圖b_map輸入至輔助卷積網路模型AFCN而獲取散焦圖b_map的多個第一特徵圖f_map(1)~f_map(N)。輔助卷積網路模型AFCN的多個卷積層可產生散焦圖b_map的多個第一特徵圖f_map(1)~f_map(N)。於一些實施例中,輔助卷積網路模型AFCN包括多層卷積層與多層池化(Pooling)層。輔助卷積網路模型AFCN中的各卷積層各自使用一或多個卷積核(Kernel)進行卷積運算,以輸出一或多個特徵圖(feature map)。輔助卷積網路模型AFCN中各卷積層所輸出的特徵圖的數量端視各個卷積層所使用的卷積核數量。需說明的是,於一些實施例中,第一特徵圖f_map(1)~f_map(N)可為輔助卷積網路模型AFCN中全部或部份卷積層所輸出的特徵圖。
於一些實施例中,輔助卷積網路模型AFCN的池化層用以對部份特徵圖進行池化運算,而使輔助卷積網路模型AFCN可輸出對應至多種特定解析度的第一特徵圖f_map(1)~f_map(N)。上述池化運算例如為最大池化運算,但本發明對此不限制。舉例而言,如圖3的範例所示,第一特徵圖f_map(1)的解析度相同於第一特徵圖f_map(2)的解析度,但第一特徵圖f_map(1)的解析度相異於第一特徵圖f_map(N)的解析度。
請參照圖4,圖4是依據本發明一實施例的輔助卷積網路模型的示意圖。於本實施例中,輔助卷積網路模型AFCN可包括
10層卷積層CL1~CL10與4層池化層PL1~PL4。卷積層CL1的輸出被饋送到卷積層CL2;卷積層CL2的輸出被饋送到池化層PL1;池化層PL1的輸出被饋送到卷積層CL3,依此類推。卷積層CL1、CL2可輸出具有第一解析度的特徵圖。卷積層CL3、CL4可輸出具有第二解析度的特徵圖。卷積層CL5、CL6可輸出具有第三解析度的特徵圖。卷積層CL7、CL8可輸出具有第四解析度的特徵圖。卷積層CL9、CL10可輸出具有第五解析度的特徵圖。於本實施例中,卷積層CL2、CL4、CL6、CL8、CL10所產生的特徵圖為輸入至主卷積網路模型MFCN且對應至五種不同解析度的第一特徵圖f_map(1)~f_map(N)。此外,池化層PL1~PL4可分別針對卷積層CL2、CL4、CL6、CL8、CL10所產生的特徵圖進行最大池化運算而降低解析度。需說明的是,圖4僅為一實施範例,輔助卷積網路模型AFCN的中卷積層與池化層的數量與配置可依據實際需求而設置。
於步驟S204,處理器120將原始水下影像Img_ori與第一特徵圖f_map(1)~f_map(N)輸入至主卷積網路模型MFCN,以產生原始水下影像Img_ori的顯著圖s_map。換言之,主卷積網路模型MFCN可依據原始水下影像Img_ori與第一特徵圖f_map(1)~f_map(N)來產生原始水下影像Img_ori的顯著圖s_map。如同前述,由於散焦圖b_map中的模糊度資訊對於水下場景中的顯著物件偵測可帶來良好助益,因此若主卷積網路模型MFCN依據散焦圖b_map的特徵資訊(即第一特徵圖f_map(1)~f_map(N))來估測
出原始水下影像Img_ori的顯著圖s_map,可提昇顯著圖s_map的準確度。
於一些實施例中,處理器120可對第一特徵圖f_map(1)~f_map(N)與主卷積網路模型MFCN的多個卷積層所產生的第二特徵圖進行特徵融合處理而產生多個融合特徵圖。特徵融合處理用以對應融合具有相同解析度的多個第一特徵圖f_map(1)~f_map(N)其中之一與多個第二特徵圖其中之一。換言之,處理器120可對兩張具有相同解析度的第一特徵圖與第二特徵圖進行特徵融合處理。此外,處理器120可將這些融合特徵圖輸入至主卷積網路模型MFCN的多個卷積層。
請參照圖5,圖5是依據本發明一實施例的融合第一特徵圖與第二特徵圖的示意圖。為了清楚說明實施例原理,圖5僅針對輔助卷積網路模型AFCN的某一卷積層所產生的第一特徵圖與主卷積網路模型MFCN的某一卷積層所產生的第二特徵圖為範例進行說明。輔助卷積網路模型AFCN的卷積層CL51(例如可為圖4所示的CL2、CL4、CL6、CL8、CL10其中之任一)可產生多個第一特徵圖f_map(x)~f_map(x+M)。主卷積網路模型MFCN的卷積層CL52可產生多個第二特徵圖f_map(y)~f_map(y+M)。處理器120可對第一特徵圖f_map(x)~f_map(x+M)與第二特徵圖f_map(y)~f_map(y+M)進行特徵融合處理而產生多個融合特徵圖f_map(z)~f_map(z+M)。需注意的是,第一特徵圖f_map(x)~f_map(x+M)的解析度相同於第二特徵圖f_map(y)~f_map(y+M)的解析度。詳細
而言,處理器120可對第一特徵圖f_map(x)與第二特徵圖f_map(y)進行特徵融合處理而產生融合特徵圖f_map(z);處理器120可對第一特徵圖f_map(x+1)與第二特徵圖f_map(y+1)進行特徵融合處理而產生融合特徵圖f_map(z+1),依此類推。換言之,處理器120可對每一第一特徵圖f_map(x)~f_map(x+M)與對應的第二特徵圖f_map(y)~f_map(y+M)進行特徵融合處理。需說明的是,多個融合特徵圖f_map(z)~f_map(z+M)可饋送至主卷積網路模型MFCN的下一層卷積層CL53來進行卷積運算。
於一些實施例中,特徵融合處理用以將多個第一特徵圖其中之一的各特徵值對應相加上多個第二特徵圖其中之一的各特徵值。換言之,處理器120可對每一個第一特徵圖的特徵值與對應的第二特徵圖的特徵值進行逐元素相加(element-wise add)。以圖5的範例為例進行說明,處理器120可將第一特徵圖f_map(x)中的每一個特徵值與第二特徵圖f_map(y)中的對應特徵值進行相加處理而產生融合特徵圖f_map(z)中的每一特徵值。然而,於其他實施例中,除了逐元素相加,處理器120也可使用其他特徵融合技術來融合第一特徵圖的特徵值與對應的第二特徵圖的特徵值。
基於圖3與5的說明可知,處理器120可對輔助卷積網路模型AFCN的多個卷積層所輸出的第一特徵圖f_map(1)~f_map(N)與主卷積網路模型MFCN的對應卷積層所輸出的多個第二特徵圖進行特徵融合處理。藉此,在將散焦圖b_map的特徵資訊引入至主卷積網路模型MFCN的情況下,主卷積網路模型MFCN
可依據原始水下影像Img_ori來估測出準確的顯著圖s_map。
此外,處理器120在訓練階段會在主卷積網路模型MFCN中加入損失層(Loss layer),損失層可依據對應的損失函數計算出損失值。處理器120可依據損失值來判斷輔助卷積網路模型AFCN與主卷積網路模型MFCN是否學習完成。此外,處理器120可依據損失值以倒傳遞的方式,逐一地由後往前,來調整輔助卷積網路模型AFCN與主卷積網路模型MFCN中的權重資料。在一實施例中,損失層只在訓練階段使用。當訓練階段完成後損失層可以被拿掉。
需說明的是,主卷積網路模型MFCN的網路架構可依據實際需求而設置。於一實施例中,主卷積網路模型MFCN可包括U-net模型。具體而言,主卷積網路模型MFCN可實施為包括下採樣網路部份(又稱為編碼器)與上採樣網路部份(又稱為解碼器)的U-net模型。於一實施例中,使用U-net模型的相關細節可參照相關技術文獻(例如「O.Ronneberger,P.Fischer,and T.Brox,“U-net:Convolutional networks for biomedical image segmentation,”in International Conference on Medical image computing and computer-assisted intervention,2015.」)。換言之,U-net模型可具有大小對應一致且中間有連接的編碼器層與解碼器層。於一實施例中,處理器120可將輔助卷積網路模型AFCN所輸出的多個第一特徵圖與主卷積網路模型MFCN的下採樣網路部份所輸出的多個第二特徵圖進行特徵融合處理,而融合特徵圖將輸入至主卷積網路模型
MFCN的下採樣網路部份內的多個卷積層。或者,於一實施例中,處理器120可將輔助卷積網路模型AFCN所輸出的多個第一特徵圖與主卷積網路模型MFCN的上採樣網路部份所輸出的多個第二特徵圖進行特徵融合處理,而融合特徵圖將輸入至主卷積網路模型MFCN的上採樣網路部份內的多個卷積層。以下將分別列舉實施例以說明。
請參照圖6A,圖6A是依據本發明一實施例的主卷積網路模型MFCN為U-net模型的示意圖。於圖6A的實施例中,處理器120將輔助卷積網路模型AFCN所輸出的多個第一特徵圖與主卷積網路模型MFCN的下採樣網路部份所輸出的多個第二特徵圖進行特徵融合處理。
主卷積網路模型MFCN可包括下採樣網路部份61、上採樣網路部份62與橋接層63。於本實施例中,下採樣網路部份61可實施為ResNet-50網路架構。如圖6A所示,下採樣網路部份61可包括卷積層CL61以及由多層卷積層所組成的殘差塊(ResNet Block)(例如殘差塊RB61)。多個殘差塊使用殘差學習策略,而將前層輸出結合至後層輸出。橋接層63用以進行一卷積運算。基於U-net模型的特性,下採樣網路部份61中所產生的部份特徵圖將透過串聯合併(concatenate)操作而與上採樣網路部份62所產生的部份特徵圖進行拼接。上採樣網路部份62包括多個卷積層(例如卷積層CL62),上採樣網路部份62的一些卷積層可透過轉置卷積運算進行上採樣。
於本實施例中,輔助卷積網路模型AFCN的網路架構相似於圖4所示範例,於此不再贅述。需注意的是,輔助卷積網路模型AFCN的一些卷積層所輸出的多個第一特徵圖將透過逐元素相加而與下採樣網路部份61的一些卷積層所產生的第二特徵圖進行特徵融合,而特徵融合結果(於此亦稱為融合特徵圖)將饋送至對應的下一層卷積層進行卷積運算。舉例而言,輔助卷積網路模型AFCN的卷積層CL2所輸出的第一特徵圖將與下採樣網路部份61的卷積層CL61所輸出的第二特徵圖進行特徵融合處理,特徵融合處理所產生的融合特徵圖將饋送至殘差塊RB61中的卷積層。如此一來,透過將散焦圖b_map的第一特徵圖融合至主卷積網路模型MFCN之中,主卷積網路模型MFCN所產生的顯著圖s_map的品質可明顯提昇。
另外,請參照圖6B,圖6B是依據本發明一實施例的主卷積網路模型MFCN為U-net模型的示意圖。於圖6B的實施例中,處理器120將輔助卷積網路模型AFCN所輸出的多個第一特徵圖與主卷積網路模型MFCN的上採樣網路部份所輸出的多個第二特徵圖進行特徵融合處理。
圖6B實施例中的主卷積網路模型MFCN的網路架構相似於圖6A所示範例,於此不再贅述。需注意的是,輔助卷積網路模型AFCN的一些卷積層所輸出的多個第一特徵圖將透過逐元素相加而與上採樣網路部份62的一些卷積層所產生的第二特徵圖進行特徵融合,而特徵融合結果(於此亦稱為融合特徵圖)將饋送至對
應的下一層卷積層進行卷積運算。舉例而言,輔助卷積網路模型AFCN的卷積層CL10所輸出的第一特徵圖將與上採樣網路部份62的卷積層CL62所輸出的第二特徵圖進行特徵融合處理,特徵融合處理所產生的融合特徵圖將饋送至卷積層CL63進行轉置卷積運算。如此一來,透過將散焦圖b_map的第一特徵圖融合至主卷積網路模型MFCN之中,主卷積網路模型MFCN所產生的顯著圖s_map的品質可明顯提昇。
綜上所述,於本發明實施例中,可針對原始水下影像產生帶有模糊度資訊的散焦圖,而此散焦圖經過卷積運算而產生的特徵圖可與主卷積網路模型的多個卷積層所產生的特徵圖進行特徵融合處理。如此一來,主卷積網路模型可使用散焦圖的特徵資訊而依據原始水下影像預估出品質良好且準確的顯著圖,以提昇水下場景中的顯著物件偵測的準確度。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
S201~S204:步驟
Claims (14)
- 一種顯著圖產生方法,適用於包括處理器的影像處理系統,所述方法包括:該處理器接收一原始水下影像;該處理器對該原始水下影像進行一模糊化程序以產生一散焦圖;該處理器將該散焦圖輸入至一輔助卷積網路模型而獲取該散焦圖的多個第一特徵圖;以及該處理器將該原始水下影像與該些第一特徵圖輸入至一主卷積網路模型,以產生該原始水下影像的顯著圖(Saliency Map),其中將該原始水下影像與該些第一特徵圖輸入至該主卷積網路模型,以產生該原始水下影像的該顯著圖的步驟包括:對該些第一特徵圖與該主卷積網路模型的多個卷積層所產生的第二特徵圖進行一特徵融合處理而產生多個融合特徵圖。
- 如請求項1所述的顯著圖產生方法,其中該特徵融合處理用以對應融合具有相同解析度的該些第一特徵圖其中之一與該些第二特徵圖其中之一。
- 如請求項1所述的顯著圖產生方法,其中該特徵融合處理用以將該些第一特徵圖其中之一的各特徵值對應相加上該些第二特徵圖其中之一的各特徵值。
- 如請求項1所述的顯著圖產生方法,其中將該原始水下影像與該些第一特徵圖輸入至該主卷積網路模型,以產生該原始水下影像的該顯著圖的步驟還包括:將該些融合特徵圖輸入至該主卷積網路模型的多個卷積層。
- 如請求項1所述的顯著圖產生方法,其中該主卷積網路模型包括一U-net模型,該U-net模型包括下採樣網路部份與上採樣網路部份,而該些融合特徵圖輸入至該主卷積網路模型的下採樣網路部份內的多個卷積層或上採樣網路部份內的多個卷積層。
- 如請求項1所述的顯著圖產生方法,其中對該原始水下影像進行該模糊化程序以產生該散焦圖的步驟包括:利用分別對應至多個尺度的多個高斯濾波器對該原始水下影像進行濾波處理,以獲取該散焦圖;以及執行一形態學影像處理或使用導向濾波器進行濾波處理,以優化該散焦圖。
- 如請求項1所述的顯著圖產生方法,其中該輔助卷積網路模型包括多個卷積層與多個池化層,該輔助卷積網路模型的該些卷積層產生該散焦圖的該些第一特徵圖。
- 一種影像處理系統,包括:一儲存電路;一處理器,耦接至所述儲存電路,經配置以:接收一原始水下影像;對該原始水下影像進行一模糊化程序以產生一散焦圖; 將該散焦圖輸入至一輔助卷積網路模型而獲取該散焦圖的多個第一特徵圖;以及將該原始水下影像與該些第一特徵圖輸入至一主卷積網路模型,以產生該原始水下影像的顯著圖(Saliency Map),其中該處理器更經配置以:對該些第一特徵圖與該主卷積網路模型的多個卷積層所產生的第二特徵圖進行一特徵融合處理而產生多個融合特徵圖。
- 如請求項8所述的影像處理系統,其中該特徵融合處理用以對應融合具有相同解析度的該些第一特徵圖其中之一與該些第二特徵圖其中之一。
- 如請求項8所述的影像處理系統,其中該特徵融合處理用以將該些第一特徵圖其中之一的各特徵值對應相加上該些第二特徵圖其中之一的各特徵值。
- 如請求項8所述的影像處理系統,其中該處理器更經配置以:將該些融合特徵圖輸入至該主卷積網路模型的多個卷積層。
- 如請求項8所述的影像處理系統,其中該主卷積網路模型包括一U-net模型,該U-net模型包括下採樣網路部份與上採樣網路部份,而該些融合特徵圖輸入至該主卷積網路模型的下採樣網路部份內的多個卷積層或上採樣網路部份內的多個卷積層。
- 如請求項8所述的影像處理系統,其中該處理器更經配置以:利用分別對應至多個尺度的多個高斯濾波器對該原始水下影像進行濾波處理,以獲取該散焦圖;以及執行一形態學影像處理或使用導向濾波器進行濾波處理,以優化該散焦圖。
- 如請求項8所述的影像處理系統,其中該輔助卷積網路模型包括多個卷積層與多個池化層,該輔助卷積網路模型的該些卷積層產生該散焦圖的該些第一特徵圖。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109139873A TWI784349B (zh) | 2020-11-16 | 2020-11-16 | 顯著圖產生方法及使用該方法的影像處理系統 |
US17/406,099 US11783454B2 (en) | 2020-11-16 | 2021-08-19 | Saliency map generation method and image processing system using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109139873A TWI784349B (zh) | 2020-11-16 | 2020-11-16 | 顯著圖產生方法及使用該方法的影像處理系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202221639A TW202221639A (zh) | 2022-06-01 |
TWI784349B true TWI784349B (zh) | 2022-11-21 |
Family
ID=81587774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109139873A TWI784349B (zh) | 2020-11-16 | 2020-11-16 | 顯著圖產生方法及使用該方法的影像處理系統 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11783454B2 (zh) |
TW (1) | TWI784349B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115456914B (zh) * | 2022-11-08 | 2023-03-24 | 浙江优众新材料科技有限公司 | 一种基于先验知识的散焦图像去模糊方法、装置及介质 |
CN115937647B (zh) * | 2023-01-31 | 2023-05-19 | 西南石油大学 | 一种多特征融合的图像显著性检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104052967A (zh) * | 2014-06-04 | 2014-09-17 | 河海大学 | 智能水下偏振目标深度图获取系统及其方法 |
TW201626801A (zh) * | 2014-10-16 | 2016-07-16 | 惠普發展公司有限責任合夥企業 | 使用顯著圖之視訊編碼技術 |
TW202002772A (zh) * | 2018-05-31 | 2020-01-16 | 國立勤益科技大學 | 智慧深度學習農漁培養系統 |
TW202004679A (zh) * | 2018-05-21 | 2020-01-16 | 國立清華大學 | 影像特徵提取方法及包含其顯著物體預測方法 |
US20200050893A1 (en) * | 2018-08-10 | 2020-02-13 | Buffalo Automation Group Inc. | Training a deep learning system for maritime applications |
CN111209952A (zh) * | 2020-01-03 | 2020-05-29 | 西安工业大学 | 基于改进ssd和迁移学习的水下目标检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157307B (zh) * | 2016-06-27 | 2018-09-11 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
GB2553782B (en) * | 2016-09-12 | 2021-10-20 | Niantic Inc | Predicting depth from image data using a statistical model |
CN110866526B (zh) * | 2018-08-28 | 2024-10-01 | 北京三星通信技术研究有限公司 | 图像分割方法、电子设备及计算机可读存储介质 |
US10839543B2 (en) * | 2019-02-26 | 2020-11-17 | Baidu Usa Llc | Systems and methods for depth estimation using convolutional spatial propagation networks |
US11900596B2 (en) * | 2021-04-14 | 2024-02-13 | Ping An Technology (Shenzhen) Co., Ltd. | Method, device, and storage medium for weakly-supervised universal lesion segmentation with regional level set loss |
-
2020
- 2020-11-16 TW TW109139873A patent/TWI784349B/zh active
-
2021
- 2021-08-19 US US17/406,099 patent/US11783454B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104052967A (zh) * | 2014-06-04 | 2014-09-17 | 河海大学 | 智能水下偏振目标深度图获取系统及其方法 |
TW201626801A (zh) * | 2014-10-16 | 2016-07-16 | 惠普發展公司有限責任合夥企業 | 使用顯著圖之視訊編碼技術 |
TW202004679A (zh) * | 2018-05-21 | 2020-01-16 | 國立清華大學 | 影像特徵提取方法及包含其顯著物體預測方法 |
TW202002772A (zh) * | 2018-05-31 | 2020-01-16 | 國立勤益科技大學 | 智慧深度學習農漁培養系統 |
US20200050893A1 (en) * | 2018-08-10 | 2020-02-13 | Buffalo Automation Group Inc. | Training a deep learning system for maritime applications |
CN111209952A (zh) * | 2020-01-03 | 2020-05-29 | 西安工业大学 | 基于改进ssd和迁移学习的水下目标检测方法 |
Non-Patent Citations (3)
Title |
---|
期刊 Keming Cao, Yan-Tsung Peng, Pamela C Cosman, Underwater image restoration using deep networks to estimate background light and scene depth, 2018 IEEE Southwest Symposium on Image Analysis and Interpretation (SSIAI), 1-4, IEEE, 2018/04/08. http://code.ucsd.edu/pcosman/Cao_4.2018-155.pdf * |
期刊 Yan-Tsung Peng, Pamela C Cosman, Underwater image restoration based on image blurriness and light absorption, IEEE transactions on image processing, 26(4)1579-1594, IEEE, 2017/02/02. https://escholarship.org/content/qt07z345gx/qt07z345gx.pdf; * |
期刊 Yan-Tsung Peng, Xiangyun Zhao, Pamela C Cosman, Single underwater image enhancement using depth estimation based on blurriness, 2015 IEEE International Conference on Image Processing (ICIP), 4952-4956, IEEE, 2015/09/27. http://code.ucsd.edu/pcosman/ICIP2015.pdf; * |
Also Published As
Publication number | Publication date |
---|---|
TW202221639A (zh) | 2022-06-01 |
US20220156889A1 (en) | 2022-05-19 |
US11783454B2 (en) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428366B (zh) | 图像处理方法和装置、电子设备、计算机可读存储介质 | |
Gallo et al. | Artifact-free high dynamic range imaging | |
WO2021022983A1 (zh) | 图像处理方法和装置、电子设备、计算机可读存储介质 | |
CN112288658A (zh) | 一种基于多残差联合学习的水下图像增强方法 | |
Zhang et al. | ReX-Net: A reflectance-guided underwater image enhancement network for extreme scenarios | |
Hou et al. | Towards high fidelity face relighting with realistic shadows | |
TWI784349B (zh) | 顯著圖產生方法及使用該方法的影像處理系統 | |
WO2021258959A1 (zh) | 图像修复的方法、装置及电子设备 | |
CN111091503A (zh) | 基于深度学习的图像去失焦模糊方法 | |
Liu et al. | PD-GAN: perceptual-details gan for extremely noisy low light image enhancement | |
CN109829925B (zh) | 一种在抠图任务中提取干净前景的方法及模型训练方法 | |
CN110276831B (zh) | 三维模型的建构方法和装置、设备、计算机可读存储介质 | |
CN110276731A (zh) | 内镜图像颜色还原方法及装置 | |
CN113284061B (zh) | 一种基于梯度网络的水下图像增强方法 | |
Rai et al. | Removing atmospheric turbulence via deep adversarial learning | |
CN113379613A (zh) | 使用深度卷积网络的图像去噪系统和方法 | |
CN115398469A (zh) | 图像处理方法及图像处理装置 | |
Chang et al. | Beyond camera motion blur removing: How to handle outliers in deblurring | |
Huang et al. | Low-light stereo image enhancement | |
Wang et al. | Multi-scale self-calibrated network for image light source transfer | |
Soma et al. | An efficient and contrast-enhanced video de-hazing based on transmission estimation using HSL color model | |
Zhu et al. | Learning spatio-temporal sharpness map for video deblurring | |
CN116563303B (zh) | 一种场景可泛化的交互式辐射场分割方法 | |
CN115880176A (zh) | 多尺度非成对水下图像增强方法 | |
CN115297316A (zh) | 语境特征融合的虚拟视点合成图像空洞填充方法 |