TW202240535A - 用於影像處理的方法及系統 - Google Patents

用於影像處理的方法及系統 Download PDF

Info

Publication number
TW202240535A
TW202240535A TW111109433A TW111109433A TW202240535A TW 202240535 A TW202240535 A TW 202240535A TW 111109433 A TW111109433 A TW 111109433A TW 111109433 A TW111109433 A TW 111109433A TW 202240535 A TW202240535 A TW 202240535A
Authority
TW
Taiwan
Prior art keywords
feature
dimension
image
guide
guidance
Prior art date
Application number
TW111109433A
Other languages
English (en)
Inventor
刘青峰
粟海
哈米 莫斯塔法 伊爾
Original Assignee
南韓商三星電子股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南韓商三星電子股份有限公司 filed Critical 南韓商三星電子股份有限公司
Publication of TW202240535A publication Critical patent/TW202240535A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/403Edge-driven scaling; Edge-based scaling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20012Locally adaptive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一種影像處理的方法包括:確定第一特徵,其中第一特徵具有維數D1;確定第二特徵,其中第二特徵具有維數D2且是基於特徵萃取網路的輸出;藉由對第一特徵進行處理而產生第三特徵,第三特徵具有維數D3;藉由對第二特徵進行處理而產生導引,導引具有維數D3;藉由使用導引將深度導引濾波器(DGF)應用於第三特徵而產生濾波器輸出;基於濾波器輸出產生映射;以及基於映射輸出經處理影像。

Description

處理影像的方法及系統
本揭露一般而言是有關於用於深度導引濾波(deep guided filter,DGF)影像處理的方法及裝置、以及對低複雜度DGF進行訓練或最佳化的方法。 [相關申請案的交叉參考]
本申請案基於以下美國臨時專利申請案且主張優先於以下美國臨時專利申請案:在2021年3月16日提出申請的美國臨時專利申請案第63/161,827號、在2021年5月18日提出申請的美國臨時專利申請案第63/190,128號及在2021年7月21日提出申請的美國臨時專利申請案第63/224,312號,所述美國臨時專利申請案的內容併入本案供參考。
語義分割尤其是在某些電腦視覺任務中使用的過程。基於神經網路的語義分割可使用密集預測網路,所述密集預測網路旨在將輸入影像中的畫素(例如,每一畫素)分類成類別(例如,設定的類別或預定義的類別)。對於一些任務(例如對影像應用平滑濾波器、內容感知影像訊號處理(image signal processing,ISP)或自動駕駛),在語義邊界區中達成此種分類的準確度可能是重要的。然而,在一些過程中,達成此種準確度可能以增加計算複雜度為代價,此可能是有關於繁重量的時間及/或計算資源。
根據一些實施例,一種影像處理的方法包括:確定第一特徵,其中所述第一特徵具有維數D1;確定第二特徵,其中所述第二特徵具有維數D2且是基於特徵萃取網路的輸出;藉由對所述第一特徵進行處理而產生第三特徵,所述第三特徵具有維數D3;藉由對所述第二特徵進行處理而產生導引,所述導引具有所述維數D3;藉由使用所述導引將深度導引濾波器(DGF)應用於所述第三特徵而產生濾波器輸出;基於所述濾波器輸出產生映射;以及基於所述映射輸出經處理影像。
根據一些實施例,一種系統包括被配置成實施影像處理方法的處理電路。所述方法包括:確定第一特徵,其中所述第一特徵具有維數D1;確定第二特徵,其中所述第二特徵具有維數D2且是基於特徵萃取網路的輸出;藉由對所述第一特徵進行處理而產生第三特徵,所述第三特徵具有維數D3;藉由對所述第二特徵進行處理而產生導引,所述導引具有所述維數D3;藉由使用所述導引將深度導引濾波器(DGF)應用於所述第三特徵而產生濾波器輸出;基於所述濾波器輸出產生映射;以及基於所述映射輸出經處理影像。
本文中闡述的某些實施例藉由使用改善的DGF及語義分割來提供改善的影像平滑,且可包括低複雜度DGF及畫素級預測。此影像處理可為更大的影像處理方法或流水線的部分,或者可獨立使用。在一些實施例中,應用使影像平滑的平滑濾波器。在一些實施例中,可能期望相對於影像的其他區域,對影像的不同語義區域之間的邊界應用較弱或較少的平滑,以幫助維持該些語義區域之間的明顯區別(例如,影像中草地與天空之間的邊界)。語義分割可用來幫助識別或界定此種邊界,且然後可據以實行平滑。
某些比較平滑影像處理技術(例如圖2中所示及以下詳細闡述的技術)是有關於向DGF輸入「導引」。DGF可包括例如邊緣保持平滑濾波器(保持語義區域之間清晰邊界的平滑濾波器)。DGF可利用明確地(例如,經由使權重或度量「平滑」)或隱含地指示應應用多少平滑的導引。舉例而言,導引可指示一或多個畫素是否是語義邊界的部分(或者所述一或多個畫素是語義邊界的部分的可能性),且可據以應用平滑(例如,強烈地應用於非邊界畫素,且不太強烈地應用於邊界畫素)。藉由另一實例,導引可指示影像的補塊(patch)是高方差或低方差的,且可據以應用平滑(例如,強烈地應用於低方差補塊,且不太強烈地應用於高方差補塊)。
根據本文中闡述的某些示例性實施例(例如圖3中所示的及以下詳細闡述的示例性實施例),改善的DGF可利用較比較技術中使用的導引的低的解析度導引(即,維數更小及/或大小更小(如本文所使用的,「維數」或「大小」可指資料量或資料點的數目(例如,具有三個畫素的高度及三個畫素的寬度的影像具有3×3的維數,即九的維數))。此可形成更快的過程及/或使用更少計算資源的過程。
圖1示出被配置用於電子通訊(例如,蜂巢、無線保真(wireless fidelity,Wi-Fi)、衛星或其他電子通訊)的通訊系統100的示例性實施例。通訊系統100包括網路系統102、網路104及裝置106。網路系統102可包括一或多個伺服器。網路104可包括例如蜂巢、Wi-Fi、衛星或其他網路。裝置106可包括例如被配置成經由網路104進行通訊的任何裝置(例如,行動裝置、智慧型電話、平板電腦、桌上型電腦、膝上型電腦、服務於本地裝置且將本地裝置連接至網路104的區域網路(local area network,LAN)裝置(例如路由器)、物聯網(internet of things,IoT)裝置或任何其他適當的通訊裝置)。本文中闡述的技術可由通訊系統100或由通訊系統100的一或多個組件實施。
在一些實施例中,本文中闡述的技術可由網路系統102實施,以對儲存於網路系統102上的影像(例如,由裝置106經由網路104發送至網路系統102的影像)進行處理,及/或對DGF進行訓練或最佳化。在一些實施例中,最佳化的或經訓練的DGF或其最佳化的參數可經由網路104自網路系統102被發送至裝置106。在一些實施例中,本文中闡述的技術可由裝置106實施,以對儲存於裝置106上的影像進行處理,及/或對儲存於裝置106上的DGF進行訓練或最佳化。
儘管本文中闡述的某些實施例可被闡述為由網路系統102或裝置106實行,但應理解,所述實施例並不限於此,且可例如由網路系統102、裝置106或其組合來實行。
圖2示出使用DGF的影像處理方法200的比較例。影像處理方法200可由裝置106實行。影像處理方法200可包括確定待用於輸入影像的影像平滑處理的映射(map)。影像處理方法200包括:確定第一特徵且對第一特徵進行處理(202);確定第二特徵且對第二特徵進行處理(204);產生映射(206);產生導引(208);使用DGF進行處理(210);以及使用經細化映射對輸入影像進行處理(212)。影像處理方法200的輸出可包括經平滑影像。經細化映射可指示是否要對輸入影像的一或多個畫素應用平滑或應用多少平滑。經細化映射可在逐個畫素基礎上對此進行指示。可據以應用平滑。
在(202)處,確定輸入影像的第一特徵且對輸入影像的第一特徵進行處理。本文中使用的用語「特徵」可指一或多個維度張量。可例如以任何適當的方式對輸入影像進行編碼,且輸入影像可具有等於H × W × 3的維數D4,例如,其中H是輸入影像的被表達為畫素的列數的高度,W是輸入影像的被表達為畫素的行數的寬度,且3是輸入影像的配色方案的維數(在其他實施例中可使用其他維數配色方案)。本揭露亦可包含輸入影像的其他維數。儘管上述示例性輸入影像以及本文中闡述的其他影像具有兩個空間維度,但影像不必是僅具有兩個空間維度的影像(例如,影像可具有三個空間維度,包括高度、寬度及深度)。
第一特徵可為對語義資訊進行編碼的語義特徵。確定第一特徵可包括基於輸入影像識別、選擇或產生一或多個維度張量,所述一或多個維度張量指示或用於產生輸入影像的各多個畫素補塊(所述補塊可包括影像的連續畫素,或者可包括非連續畫素)的語義標籤或語義似然性(semantic likelihood)。第一特徵可具有等於
Figure 02_image001
的維數D1,其中
Figure 02_image003
< H且
Figure 02_image005
< w。維數D1可小於維數D4。第一特徵可為包括影像處理方法200的更大的影像處理方法的阿特魯空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)的輸出(例如,直接輸出或經處理輸出)。
對第一特徵進行處理可包括對第一特徵應用卷積(例如,應用1×1卷積,例如1×1×
Figure 02_image007
×
Figure 02_image009
核卷積)以改變第一特徵的維度(例如,自
Figure 02_image001
Figure 02_image011
)。對第一特徵進行處理亦可包括實施雙線性上取樣以改變維度(例如,形成具有維度
Figure 02_image013
的特徵)。所得特徵可為映射產生過程(206)的輸入。
在(204)處,確定輸入影像的第二特徵且對輸入影像的第二特徵進行處理。確定第二特徵可包括基於對邊界資訊進行編碼的輸入影像來識別、選擇或產生一或多個維度張量。第二特徵可包括來自包括影像處理方法200的更大的影像處理方法的特徵萃取網路(feature extraction network,FXN)的輸出(例如,直接輸出或經處理輸出)。第二特徵可具有等於
Figure 02_image015
的維數D2。維數D2可小於D1及D4二者。在一些實施例中,
Figure 02_image017
Figure 02_image019
對第二特徵進行處理可包括對第二特徵應用卷積(例如,應用1×1卷積,例如1×1×
Figure 02_image021
×
Figure 02_image023
核卷積)以改變第二特徵的維度(例如,自
Figure 02_image015
Figure 02_image025
)。所得特徵可為映射產生過程(206)的輸入。
在(206)處,裝置106針對輸入影像產生映射。映射可能是初步的或未經細化的映射(稍後將使用DGF進行細化)。產生映射可包括對經處理第一特徵及經處理第二特徵進行聚合(例如,序連(concatenating))(例如,產生具有維度
Figure 02_image027
的特徵)。產生映射可包括一或多個(例如,兩個後續的)3
Figure 02_image029
3縱深可分離(depthwise separable,DS)卷積、1×1卷積及/或雙線性上取樣,以產生具有維度H × W × c的初步映射。可在(210)處將在(206)處產生的初步映射輸入至DGF。
在(208)處,裝置106針對DGF產生導引。所述導引是基於輸入影像。產生導引可能是有關於3
Figure 02_image029
3卷積及1×1卷積,進而形成具有維度H × W × c的導引。因此,導引的維數可與初步映射的維數匹配。
在(210)處,裝置106向DGF輸入初步映射及導引,且使用DGF來確定經細化映射。在(212)處,裝置106使用經細化映射對輸入影像進行處理。所述處理包括使用經細化映射來使輸入影像平滑。
在此比較例中,導引的維數可大於在本文中揭露的某些示例性實施例中使用的導引(例如,如圖3中所示),且因此與在本文中揭露的示例性實施例中發生的DGF處理相比,在(210)處發生的DGF處理可能花費更長時間及/或可能是有關於更多計算資源。
現在參照圖3,圖3示出使用DGF的影像處理方法300的示例性實施例。影像處理方法300使用具有較影像處理方法200中使用的導引低的維數的導引,且因此影像處理方法300中使用的某些DGF處理可完成得更快及/或使用更少的計算資源。
影像處理方法300包括:確定第一特徵且對第一特徵進行處理以產生第三特徵(302);確定第二特徵且對第二特徵進行處理以產生第四特徵(304);產生導引(306);使用DGF進行處理(308);產生映射(310);以及使用經細化映射對輸入影像進行處理(312)。
在(302)處,確定輸入影像的第一特徵且對輸入影像的第一特徵進行處理以產生第三特徵。輸入影像可類似於本文中參照圖2闡述的輸入影像,且可具有維數D4。第一特徵可具有小於D4的維數D1。對第一特徵進行處理可包括對第一特徵應用卷積(例如,應用1×1卷積,例如1×1×
Figure 02_image007
×
Figure 02_image009
核卷積)以改變第一特徵的維度(例如,自
Figure 02_image001
Figure 02_image011
)。對第一特徵進行處理亦可包括實施雙線性上取樣以改變維度(例如,形成具有維度
Figure 02_image013
的第三特徵)。所得第三特徵可為使用DGF進行處理(308)的輸入。
在(304)處,可確定輸入影像的第二特徵且對輸入影像的第二特徵進行處理以產生第四特徵。確定第二特徵可包括基於輸入影像識別、選擇或產生一或多個維度張量,所述一或多個維度張量指示影像的各多個畫素補塊(所述補塊可包括影像的連續畫素,或者可包括非連續畫素)是否是語義邊界的部分或者其可能性。第二特徵可包括來自包括影像處理方法300的更大的影像處理方法的特徵萃取網路(FXN)的輸出(例如,直接輸出或經處理輸出)。第二特徵可具有等於
Figure 02_image015
的維數D2。維數D2可能較D1及D4二者小。在一些實施例中,
Figure 02_image017
Figure 02_image019
對第二特徵進行處理可包括對第二特徵應用卷積(例如,應用1×1卷積,例如1×1×
Figure 02_image021
×
Figure 02_image023
核卷積)以改變第二特徵的維度(例如,自
Figure 02_image015
Figure 02_image025
)。所得第四特徵可為用於產生導引(306)的輸入,且可為用於產生映射(310)的輸入。
在(306)處,裝置106基於第四特徵產生導引。產生導引可包括將卷積應用於第四特徵(例如,應用1×1卷積,例如1×1×
Figure 02_image021
×
Figure 02_image023
核卷積)以改變第四特徵的維度(例如,自
Figure 02_image025
Figure 02_image013
)。因此,導引可具有
Figure 02_image013
的維度,所述維度可為較本文中參照圖2論述的導引的維度H×W×c小的維數。在圖3中所示的示例性實施例中,導引可具有與第三特徵相同的維度。導引可為(308)處的DGF處理的輸入。
在(308)處,裝置106使用DGF來對第三特徵進行處理,使用導引來產生濾波器輸出,濾波器輸出可用作映射產生過程(310)的輸入。映射產生過程的輸入可具有與第三特徵及導引相同的維度。在圖3中所繪示的實例中,維度可為
Figure 02_image013
。DGF可為例如圖4中所示的DGF,此將在以下詳細論述。由於導引具有較本文中參照圖2闡述的導引小的維數,因此,與DGF處理(210)相比,利用DGF進行處理(308)可更快及/或可使用更少的計算資源。
在(310)處,裝置106使用DGF的輸出及第四特徵來產生映射。產生映射可包括對DGF的輸出及第四特徵進行聚合(例如,序連)(例如,產生具有維度
Figure 02_image027
的特徵)。產生映射可包括一或多個(例如,兩個後續的)3
Figure 02_image029
3 DS卷積、1×1卷積及/或雙線性上取樣,以產生具有維度H × W × c的映射。在(312)處,可使用映射對影像進行處理(例如,可基於映射使影像平滑)。
因此,影像處理方法300可為對影像處理方法200的改善(至少由於所使用的導引具有較本文中參照圖2闡述的導引小的維數),且因此與DGF處理(210)相比,使用DGF進行處理(308)可更快及/或可使用更少的計算資源。
現在參照圖4,圖4示出在圖3中所示的影像處理方法中使用的DGF的示例性實施例。所繪示的DGF 400接收第三特徵402(例如藉由在圖3中的(302)處對第一特徵進行處理而產生的第三特徵)作為輸入。DGF 400亦接收導引404(例如在圖3中的(306)處產生的導引)作為輸入。導引404可具有
Figure 02_image013
的維度,所述維度可小於在圖2中的(208)處產生的導引的維度。在圖4中繪示的實例中,第一特徵及第二特徵所基於的輸入影像具有H=480及W=640的維度,且導引404具有與
Figure 02_image013
對應的120×160×256的維度,但在其他實施方式中可使用其他維度。導引404具有較正在處理的輸入影像小的維度。第三特徵402與導引404可具有相同的維度。
DGF 400包括使用輸入第三特徵402及輸入導引404的運算流程或者由所述運算流程定義。該些運算中的一或多者可被實施為網路中的一或多個層。運算流程可包括3×3縱深擴展卷積(dilated convolution)、1×1卷積、聚合(例如,序連)、自逐元素乘法、點積、減法、加法或其他適當的運算中的一或多者,如圖4中所示(使用相關技術中具有通常知識者所習知的符號)。實行每一運算,使得運算產生具有與第三特徵402及導引404相同維度的特徵(在所繪示實例中,120×160×256)。藉由確保導引404具有相對小的維度(例如,經由圖3中所示的處理),定義DGF 400的運算流程相較於具有相對較大維度的導引可實行得更快及/或使用更少的計算資源。
以下表1示出與定義DGF 400(右行)的運算流程對應的一些示例性代碼,以及與在圖2中的(210)處使用的比較DGF的運算流程對應的一些比較例代碼。與比較代碼相比,與DGF 400對應的代碼可執行得更快及/或使用更少的計算資源,至少由於與DGF 400對應的代碼使用相較於比較代碼使用的導引具有更小維數的導引。 1
比較DGF DGF 400
第三特徵:
Figure 02_image031
導引:
Figure 02_image033
輸出:
Figure 02_image035
第三特徵:
Figure 02_image037
導引:
Figure 02_image039
輸出:
Figure 02_image041
步驟: (1)
Figure 02_image043
Figure 02_image045
Figure 02_image047
Figure 02_image049
(2)
Figure 02_image051
Figure 02_image053
(3)
Figure 02_image055
Figure 02_image057
(4)
Figure 02_image059
Figure 02_image061
(5)
Figure 02_image063
步驟: (1)
Figure 02_image065
Figure 02_image067
Figure 02_image069
Figure 02_image071
(2)
Figure 02_image073
Figure 02_image075
(3)
Figure 02_image077
Figure 02_image079
Figure 02_image081
(4)
Figure 02_image083
Figure 02_image085
(5)
Figure 02_image087
現在參照圖5,圖5示出使用DGF的影像處理方法500的示例性實施例。影像處理方法500使用相較於影像處理方法200中使用的導引具有更低維數的導引。在一些實施例中,在影像處理方法500中,輸入至DGF進行處理的第三特徵具有不同於(例如,低於)同樣輸入至DGF的導引的維數的維數。在一些實施例中,在DGF內,可對導引進行下取樣(降低維數),且可以較低維數實行一或多個DGF運算,因此改善處理時間及/或所使用的計算資源的數目。導引亦可為在不具有此種下取樣的條件下映射產生過程的輸入(例如,可被聚合(例如,序連)至DGF的輸出)。舉例而言,可使用圖6或圖7中所示的DGF實施例來實施影像處理方法500。至少由於該些原因,影像處理方法500中使用的某些DGF處理可完成得更快及/或使用更少的計算資源。
影像處理方法500可由裝置106實行,且包括:確定第一特徵且對第一特徵進行處理以產生第三特徵(502);確定第二特徵且對第二特徵進行處理以產生導引(504);使用DGF進行處理(506);產生映射(508);以及使用映射對輸入影像進行處理(510)。第一特徵可具有維數D1,第二特徵可具有維數D2,第三特徵可具有維數D3,導引可具有維數D4,且第一特徵及第二特徵所基於的輸入影像可具有維數D5。在影像處理方法500中,D3 < D4。
在(502)處,裝置106可使用與以上參照(302)闡述的過程類似的過程來確定第一特徵(例如,第一特徵可基於來自ASPP模組的輸出)。第一特徵可具有維數D1。在所繪示的實例中,D1 = 32×64×512,但在其他實施例中可實施其他維度。
在(502)處對第一特徵進行處理以產生第三特徵亦可類似於以上參照(302)闡述的過程來實行,但注意,此處,第三特徵被產生為使得第三特徵具有較導引的維數D2低的維數D3。舉例而言,實行1×1卷積來微調(例如,減小)第一特徵的維數,因此產生第三特徵。在所繪示的實例中,D3 = 32×64×64,且1×1卷積可包括1×1×
Figure 02_image089
×
Figure 02_image091
核卷積,但在其他實施例中,可實施其他維度及其他1×1卷積。
在(504)處,裝置106可使用與以上參照(304)闡述的過程類似的過程來確定第二特徵(例如,第二特徵可基於來自FXN的輸出)。第二特徵可具有維數D2。在所繪示的實例中,D2 = 128×256×128,但在其他實施例中可實施其他維度。
在(504)處對第二特徵進行處理以產生導引亦可類似於以上參照(304)闡述的過程來實行。舉例而言,實行1×1卷積來微調(例如,減小)第二特徵的維數,因此產生具有D4的維數的導引。在所繪示的實例中,D4 = 128×256×48,且1×1卷積可包括1×1×
Figure 02_image093
×
Figure 02_image095
核卷積,但在其他實施例中,可實施其他維度及其他1×1卷積。導引的維數D4高於第三特徵的維數D3。
在(506)處,裝置106可在導引的幫助下使用DGF對第三特徵進行處理,以產生濾波器輸出。在一些實施例中,DGF可為雙解析度DGF且可包括例如以下參照圖6闡述的DGF 600。在一些實施例中,DGF可為單解析度DGF且可包括例如以下參照圖7闡述的DGF 700。在(508)處,DGF可輸出映射產生過程中將使用的特徵。在所繪示的實例中,第三特徵具有32×64×64的維度,且導引具有128×256×48的維度,且DGF的輸出具有128×256×64的維度,但在其他實施例中可實施不同的維度。
在(508)處,裝置106使用DGF的輸出及導引來產生映射。產生映射可包括對DGF的輸出及導引進行聚合(例如,序連)。產生映射可包括一或多個(例如,兩個後續的)3
Figure 02_image029
3 DS卷積。在(510)處,可使用映射對輸入影像進行處理(例如,可基於映射使輸入影像平滑)。
因此,影像處理方法500可為對影像處理方法200的改善(至少由於與DGF處理(210)相比,在(506)處使用DGF進行處理可更快及/或可使用更少的計算資源)。
現在參照圖6,圖6示出在圖5中所示的影像處理方法中使用的雙解析度DGF的示例性實施例。所繪示的DGF 600接收第三特徵602(例如藉由在圖5中的(502)處對第一特徵進行處理而產生的第三特徵)作為輸入。DGF 600亦接收導引604(例如在圖5中的(504)處產生的導引)作為輸入。導引604可具有較在圖2中的(208)處產生的導引的維度小的維度。導引604具有較第三特徵的維數D3大的維數D4。在圖6中繪示的實例中,第三特徵602具有32×64×c的維度,且導引604具有128×256×48的維度,但在其他實施方式中可使用其他維度。
DGF 600包括使用導引604對第三特徵602進行處理的運算流程或者由所述運算流程定義。該些運算中的一或多者可被實施為網路中的一或多個層。運算流程可包括最大池化(max pooling)、雙線性上取樣、3×3縱深擴展卷積、1×1卷積、聚合(例如,序連)、自逐元素乘法、點積、減法、加法或其他適當的運算中的一或多者,如圖6中所示(使用相關技術中具有通常知識者所習知的符號)。
運算流程包括對導引604進行下取樣(降低導引604的維數)以匹配第三特徵的維數D3(例如,經由包括最大池化的過程)且以降低的維數D3實行多個運算。運算流程可包括以降低的維數D3進行所述多個運算之後(例如,在運算流程的末尾處或附近)的一或多個上取樣過程(提高維數的過程,例如雙線性上取樣過程),在所述一或多個上取樣過程之後進一步對上取樣特徵進行處理(例如,經由點積或聚合運算),且輸出具有較D3高的維數的特徵。
對上取樣特徵的進一步處理包括對具有等於DGF 600的輸出的維數的較高解析度版本的導引(例如,由導引604的1×1卷積產生的較高解析度版本的導引)實行點積運算。
因此,藉由產生及使用具有相對小維度的第三特徵602及導引604(例如,經由圖5中所示的處理),定義DGF 600的運算流程相較於具有相對較大維度的導引可實行得更快及/或使用更少的計算資源。
現在參照圖7,圖7示出可在圖3或圖5中所示的影像處理方法中使用的「單解析度」或「單維」DGF的示例性實施例。所繪示的DGF 700接收第三特徵702(例如藉由在圖5中的(502)處對第一特徵進行處理而產生的第三特徵)作為輸入。DGF 700亦接收導引704(例如在圖5中的(504)處產生的導引)作為輸入。導引704可具有較在圖2中的(208)處產生的導引的維度小的維度。導引704具有較第三特徵的維數D3大的維數D4。在圖7中繪示的實例中,第三特徵704具有32×64×c的維度,且導引704具有128×256×48的維度,但在其他實施方式中可使用其他維度。
DGF 700包括使用導引704對第三特徵702進行處理的運算流程或者由所述運算流程定義。該些運算中的一或多者可被實施為網路中的一或多個層。運算流程可包括最大池化、雙線性上取樣、3×3縱深擴展卷積、1×1卷積、聚合(例如,序連)、自逐元素乘法、點積、減法、加法或其他適當的運算中一或多者,如圖7所示(使用相關技術中具有通常知識者所習知的符號)。
運算流程包括對導引704進行下取樣(降低導引704的維數)以匹配第三特徵的維數D3(例如,經由包括最大池化的過程),且以降低的維數D3實行多個運算。運算流程可包括在所述一或多個上取樣過程之後進一步對上取樣特徵進行處理(例如,藉由點積或聚合運算),且輸出具有較D3高的維數的特徵。對上取樣特徵的進一步處理包括對具有較DGF 700的輸出小的維數的較低解析度版本的導引(例如,由包括最大池化的過程產生的較低解析度版本的導引)實行點積運算。
運算流程可包括以降低的維數D3進行所述多個運算之後(例如,在運算流程的末尾處或附近)的最終上取樣過程(提高維度維數的過程,例如雙線性上取樣過程),且上取樣過程的結果可為來自DGF 700的輸出。
因此,藉由產生及使用具有相對小的維度的第三特徵700及導引704(例如,經由圖5中所示的處理),定義DGF 700的運算流程可相較於具有相對較大維度的導引實行地更快及/或使用更少的計算資源。
圖8示出DGF訓練過程800的示例性實施例。儘管以下藉由實例的方式將網路系統102闡述為實施DGF訓練過程800,但在其他實施例中,DGF訓練過程可由裝置106或由網路系統102或其組合實行。DGF訓練過程800可用於對DGF(例如,本文中闡述的DGF 400、DGF 600或DGF 700)中使用的參數進行最佳化或改善。DGF訓練過程800亦可用於對影像處理方法300中使用的其他參數(例如,在(302)、(304)及/或(306)處使用的參數)或影像處理方法500中使用的其他參數(例如,在(502)及/或(504)處使用的參數)進行最佳化或改善。被最佳化或改善的參數可包括例如在網路中使用的係數(例如,用於實施卷積的網路,或者在某些過程中使用的批量歸一化層(normalization layer))。
一種用於訓練的比較方式包括使用softmax交叉熵進行語義分割訓練,此可用於確定畫素級任務損耗。此損耗可用於或用作訓練的損耗函數。目前闡述的DGF訓練過程800使用語義邊界學習(semantic boundary learning,SBL)作為多任務損耗以及畫素級任務損耗(例如,softmax交叉熵),此可改善訓練能力(例如,學習細粒度影像結構的能力)。DGF訓練過程800包括:確定映射(802);確定基本事實(ground truth,GT)分割標籤(804);SBL處理(806);確定SBL加權交叉熵(SBL-weighted cross entropy,SBL-WCE)(810);以及對參數進行最佳化(812)。
在(802)處,網路系統102確定可用於對輸入影像進行處理(例如,平滑)的映射。舉例而言,可使用影像處理方法300(例如,在(310)處)或影像處理方法500(例如,在(508)處)的過程來確定映射。映射可為(806)處的SBL處理的輸入。
在(804)處,網路系統102確定GT分割標籤,此可用作(806)處的SBL處理的輸入。GT分割標籤可在(806)處的SBL處理中使用,以預測作為形狀張量(H,W,C)的語義邊界,其中H及W表示高度及寬度,且C表示類的數目。
在(806)處,網路系統102使用在(802)處確定的映射及在(804)處確定的GT分割標籤實行SBL處理。SBL可包括使用具有語義邊界偵測分支的增強深度網路、以及使用所確定的SBL對網路進行訓練。SBL處理包括確定在GT語義邊界(例如,基於在(804)處確定的GT分割標籤確定的近似GT邊界映射)與預測邊界(例如,自預測語義分割映射導出的語義邊界)之間計算的CE損耗(例如,作為GT語義邊界與預測邊界之差)。
SBL處理806可包括對具有維度H×W×K(其中K是處理旨在分類的類的數目)的輸入映射實行的多個過程,包括一或多個岡貝爾Softmax過程、一或多個三角濾波過程、一或多個梯度幅度計算、一或多個定限過程、確定預測邊界、確定近似GT邊界映射以及確定交叉熵(CE)損耗(例如Softmax CE損耗)。該些過程中的一或多者可被實施為網路中的一或多個層。
岡貝爾Softmax過程可被實施為岡貝爾Softmax層。在一些實施例中,岡貝爾Softmax層是Argmax(.)函數的可微分替代。
Figure 02_image097
表示在軟羅吉特體積(soft logits volume)的第
Figure 02_image099
通道中的畫素
Figure 02_image101
的值,並且
Figure 02_image103
表示對數且
Figure 02_image105
表示岡貝爾Softmax層在畫素
Figure 02_image101
處的輸出:
Figure 02_image107
Figure 02_image109
(方程式1), 其中
Figure 02_image111
是自岡貝爾分佈取樣的隨機雜訊且
Figure 02_image113
=0.5是Softmax函數的溫度且
Figure 02_image115
是類的數目。岡貝爾分佈可被定義為:
Figure 02_image117
Figure 02_image119
(方程式2), 其中
Figure 02_image121
是用於數值穩定性的小數且
Figure 02_image123
是在區間[0, 1]中均勻分佈的隨機變量。
在一些實施例中,三角濾波過程可被實施為可分離的三角濾波器層。可分離三角濾波可用作邊緣偵測任務的預處理。可分離三角濾波使影像平滑且抑制邊緣附近的雜訊。可基於頻寬來計算核(例如,頻寬
Figure 02_image125
(奇數)的核可為[
Figure 02_image127
],
Figure 02_image129
)。對於岡貝爾Softmax層的輸出中的每一類,可依序將此核應用於水平方向及垂直方向。此層不需要具有可學習參數。在一些實施例中,頻寬
Figure 02_image131
在一些實施例中,在某些方面,可以類似於三角濾波器層的方式來計算梯度幅度計算。核
Figure 02_image133
=[-0.5, 0, 0.5]可用作1-D核。此核用於與輸入張量的每一通道進行卷積。為了計算水平方向上的梯度,可使用核
Figure 02_image133
,且為了計算垂直方向上的梯度,可使用核
Figure 02_image135
。可將幅度計算為來自所述兩個方向的梯度的L2範數。注意,在一些實施例中,可使用具有2D核的2D濾波器來計算梯度幅度。
在一些實施例中,定限過程可包括將具有小於臨限值的值的所有畫素設定為預設值(例如,設定為零)。可使用如此處理的映射來預測邊界。
在一些實施例中,可藉由光流使用影像扭曲來確定近似GT邊界映射。舉例而言,GT邊界可為自另一類似影像(例如,視訊中的相鄰訊框)的GT邊界扭曲的GT邊界。
用於確定CE損耗的一個輸入是基於預測邊界確定的每類梯度幅度映射
Figure 02_image137
、以及基於近似GT邊界映射確定的每類梯度幅度映射
Figure 02_image139
在一些實施例中,可將每類梯度幅度映射用作語義邊界標籤且在訓練期間在計算圖中進行計算。損耗可為在
Figure 02_image139
Figure 02_image137
之間計算的L1範數損耗。
Figure 02_image141
表示岡貝爾Softmax
Figure 02_image143
算子的輸出中的類
Figure 02_image099
Figure 02_image145
表示類
Figure 02_image099
的對數,且
Figure 02_image147
代表三角濾波,且
Figure 02_image149
是梯度算子。
Figure 02_image151
代表類
Figure 02_image099
的預測分割映射的梯度映射,且
Figure 02_image153
表示
Figure 02_image137
中的正(預測邊界)畫素,且
Figure 02_image155
表示
Figure 02_image139
中的正(邊界)畫素。損耗
Figure 02_image157
可計算如下:
Figure 02_image159
(方程式3)
Figure 02_image161
(方程式4)
在一些實施例中,
Figure 02_image137
Figure 02_image139
具有形狀
Figure 02_image162
。為了獲得畫素集
Figure 02_image153
Figure 02_image155
,可將臨限值
Figure 02_image164
應用於
Figure 02_image137
Figure 02_image139
,以獲得空間二進制遮罩(mask)
Figure 02_image166
Figure 02_image168
。遮罩可用於藉由逐元素乘法(
Figure 02_image170
)來遮罩以下損耗:
Figure 02_image172
(方程式5),
Figure 02_image174
(方程式6),
Figure 02_image176
(方程式7), 其中
Figure 02_image178
在一些實施例中,在三角濾波器層及梯度幅度計算層中不需要任何可學習的參數。
在(808)處,網路系統102基於在(806)處確定的預測邊界及近似GT邊界映射來確定邊界誤差。邊界誤差可為用於在(810)處確定SBL-WCE的輸入。邊界誤差可被確定為預測邊界與近似GT邊界映射之間的差異,且可被用作加權交叉熵(WCE)(例如,Softmax最大交叉熵)損耗的權重,以在(810)處進一步增強邊界區中的預測準確度。邊界誤差可表達為具有維度H×W×1的張量。
在一些實施例中,邊界誤差被確定為空間權重遮罩。可將空間權重遮罩應用於所確定的Softmax交叉熵損耗,以進一步改善邊界區中的預測準確度。空間權重遮罩可為逐畫素的誤差映射。端視預測邊界映射中的畫素是否具有與近似GT邊界映射中的對應畫素相同(或類似)的值而定,每一畫素可具有不同的值。以下方程式示出如何將逐畫素邊界誤差遮罩應用於Softmax交叉熵的實例,其中
Figure 02_image180
表示畫素
Figure 02_image101
處的權重,
Figure 02_image182
表示位置
Figure 02_image101
處的地面真實標籤,且
Figure 02_image184
是語義預測的Softmax輸出:
Figure 02_image186
Figure 02_image188
, 藉由對
Figure 02_image137
進行定限而獲得的
Figure 02_image166
空間遮罩 藉由對
Figure 02_image139
進行定限而獲得的
Figure 02_image168
空間遮罩 其中
Figure 02_image190
表示沿著通道維度的邏輯或運算。因此,總損耗是:
Figure 02_image192
, 其中
Figure 02_image194
Figure 02_image196
是用於平衡所述兩個損耗項的權重。
在(810)處,網路系統102基於在(806)處藉由SBL處理確定的CE損耗及在(808)處確定的邊界誤差來確定SBL-WCE。SBL-WCE可用作損耗函數的損耗,或者用作損耗函數本身,用於在(812)處訓練最佳化。在確定SBL-WCE時,在(808)處確定的邊界誤差可用作用於在(806)處確定的CE損耗的權重。
在(812)處,網路系統102可使用SBL-WCE作為損耗函數的損耗,或者作為損耗函數本身,以對正在被訓練的影像處理方法的參數進行最佳化或改善。因此,DGF訓練過程800使用SBL作為多任務損耗以及畫素級任務損耗(例如,softmax交叉熵),此可改善訓練能力(例如,學習細粒度影像結構的能力)且此可形成改善的影像處理方法。
圖9示出根據一些實施例的被配置成實施影像處理的系統900的實例。參照圖9,系統900中的電子裝置901(其可與裝置106類似或相同)可經由第一網路998(例如,短程通訊網路,例如Wi-Fi網路或區域網路)與電子裝置902進行通訊,或者經由第二網路999(其可與網路104類似或相同)(例如遠程無線通訊網路(例如,蜂巢式通訊網路,例如第五代(fifth generation,5G)網路))與電子裝置904或伺服器908(其可與網路系統102類似或相同)進行通訊。電子裝置901可經由伺服器908與電子裝置904進行通訊。電子裝置901可包括處理器920、記憶體930、輸入裝置950、聲音輸出裝置955、顯示裝置960、音訊模組970、感測器模組976、介面977、觸覺模組979、相機模組980、電源管理模組988、電池989、通訊模組990、用戶辨識模組(subscriber identification module,SIM)996及/或天線模組997。在一個實施例中,可自電子裝置901省略組件中的至少一者(例如,顯示裝置960或相機模組980),或者可向電子裝置901添加一或多個其他組件。在一個實施例中,組件中的一些組件可被實施為單個積體電路(integrated circuit,IC)。舉例而言,感測器模組976(例如,指紋感測器、虹膜感測器或照度感測器)可嵌置於顯示裝置960(例如,顯示器)中,或者顯示裝置960可包括除感測器模組976之外的一或多個感測器。
在一些實施例中,電子裝置901可包括被配置成實施影像處理的計算裝置或處理器,例如本文中闡述的影像處理方法。
處理器920可執行例如軟體(例如,程式940)以控制與處理器920耦合的電子裝置901的至少一個其他組件(例如,硬體或軟體組件),且可實行各種資料處理及/或計算。作為資料處理及/或計算的至少一部分,處理器920可將自另一組件(例如,感測器模組976或通訊模組990)接收的命令或資料載入於揮發性記憶體932中,對儲存於揮發性記憶體932中的命令或資料進行處理,且將所得的資料儲存於非揮發性記憶體934中。處理器920可包括主處理器921(例如,中央處理單元(central processing unit,CPU)或應用處理器(application processor,AP))以及能夠獨立於主處理器921進行操作或與主處理器921相結合地進行操作的輔助處理器923(例如,圖形處理單元(graphics processing unit,GPU)、影像訊號處理器(image signal processor,ISP)、感測器集線器處理器(sensor hub processor)或通訊處理器(communication processor,CP))。另外地或作為另外一種選擇,輔助處理器923可適於消耗較主處理器921少的功率,及/或執行特定功能。輔助處理器923可被實施為與主處理器921分離或被實施為主處理器921的一部分。
當主處理器921處於非現用(例如,睡眠)狀態時,輔助處理器923可代替主處理器921來控制與電子裝置901的組件中的至少一個組件(例如,顯示裝置960、感測器模組976或通訊模組990)相關的功能或狀態中的至少一些,或者當主處理器921處於現用狀態(例如,執行應用)時與主處理器921一起進行上述控制。根據一個實施例,輔助處理器923(例如,影像訊號處理器或通訊處理器)可被實施為在功能上與輔助處理器923相關的另一組件(例如,相機模組980或通訊模組990)的一部分。
記憶體930可儲存電子裝置901的至少一個組件(例如,處理器920或感測器模組976)所使用的各種資料。所述各種資料可包括例如軟體(例如,程式940)以及用於與其相關的命令的輸入資料或輸出資料。記憶體930可包括揮發性記憶體932及/或非揮發性記憶體934。
程式940可作為軟體被儲存於記憶體930中,且可包括例如作業系統(operating system,OS)942、中間軟體944或應用946。
輸入裝置950可自電子裝置901的外部(例如,使用者)接收電子裝置901的另一組件(例如,處理器920)待使用的命令或資料。輸入裝置950可包括例如麥克風、滑鼠或鍵盤。
聲音輸出裝置955可向電子裝置901的外部輸出聲音訊號。聲音輸出裝置955可包括例如揚聲器或接收器。揚聲器可用於一般目的,例如播放多媒體或錄製,且接收器可用於接收來電。根據一個實施例,接收器可被實施為與揚聲器分離或被實施為揚聲器的一部分。
顯示裝置960可在視覺上向電子裝置901的外部(例如,使用者)提供資訊。顯示裝置960可包括例如顯示器、全像裝置(hologram device)及/或投影儀以及用於控制顯示器、全像裝置及投影儀中的對應一者的控制電路系統。根據一個實施例,顯示裝置960可包括適於偵測觸控的觸控電路系統或適於量測由觸控所產生的力的強度的感測器電路系統(例如,壓力感測器)。
音訊模組970可將聲音轉換成電性訊號,反之亦然。根據一個實施例,音訊模組970可經由輸入裝置950獲得聲音,及/或經由聲音輸出裝置955或與電子裝置701直接地(例如,有線)或無線地耦合的外部電子裝置902的耳機而輸出聲音。
感測器模組976可偵測電子裝置901的操作狀態(例如,功率或溫度)及/或電子裝置901外部的環境狀態(例如,使用者的狀態),且然後產生與所偵測狀態對應的電性訊號或資料值。感測器模組976可包括例如手勢感測器、陀螺儀感測器、大氣壓力感測器、磁性感測器、加速度感測器、抓握感測器、接近感測器、顏色感測器、紅外線(infrared,IR)感測器、生物識別感測器(biometric sensor)、溫度感測器、濕度感測器及/或照度感測器。
介面977可支援待用於電子裝置901的一或多個規定協定,以直接地(例如,有線地)或無線地與外部電子裝置902耦合。根據一個實施例,介面977可包括例如高清晰度多媒體介面(high-definition multimedia interface,HDMI)、通用串列匯流排(universal serial bus,USB)介面、保全數位(secure digital,SD)卡介面及/或音訊介面。
連接端子978可包括連接器,電子裝置901可經由所述連接器與外部電子裝置902在實體上連接。根據一個實施例,連接端子978可包括例如HDMI連接器、USB連接器、SD卡連接器及/或音訊連接器(例如,耳機連接器)。
觸覺模組979可將電性訊號轉換成機械刺激(例如,振動或運動)及/或電性刺激,所述機械刺激或電性刺激可由使用者藉由觸覺或動覺來識別。根據一個實施例,觸覺模組979可包括例如馬達、壓電元件及/或電性刺激器。
相機模組980可捕獲靜止影像或移動影像。根據一個實施例,相機模組980可包括一或多個透鏡、影像感測器、影像訊號處理器及/或閃光燈。
電源管理模組988可管理被供應至電子裝置901的電源。電源管理模組988可被實施為例如電源管理積體電路(power management integrated circuit,PMIC)的至少一部分。
電池989可向電子裝置901的至少一個組件供電。根據一個實施例,電池989可包括例如不可再充電的一次電池、可再充電的二次電池及/或燃料電池。
通訊模組990可支援在電子裝置901與外部電子裝置(例如,電子裝置902、電子裝置904及/或伺服器908)之間建立直接(例如,有線)通訊通道或無線通訊通道,且經由所建立的通訊通道實行通訊。通訊模組990可包括能夠獨立於處理器920(例如,AP)進行操作的一或多個通訊處理器且可支援直接(例如,有線)通訊及/或無線通訊。根據一個實施例,通訊模組990可包括無線通訊模組992(例如,蜂巢式通訊模組、短程無線通訊模組及/或全球導航衛星系統(GNSS)通訊模組)或有線通訊模組994(例如,區域網路LAN)通訊模組或電源線通訊(power line communication,PLC)模組)。該些通訊模組中的對應一者可經由第一網路998(例如短程通訊網路,例如藍芽®、無線保真(Wi-Fi)直連及/或紅外線資料協會(Infrared Data Association,IrDA)的標準)或第二網路999(例如遠程通訊網路,例如蜂巢式網路、網際網路及/或電腦網路(例如,LAN或廣域網路(wide area network,WAN)))與外部電子裝置進行通訊。藍芽®是藍牙技術聯盟(Bluetooth SIG, Inc.)(華盛頓州柯克蘭)的注冊商標。該些各種類型的通訊模組可被實施為單一組件(例如,單一IC),或者可被實施為彼此分離的多個組件(例如,多個IC)。無線通訊模組992可使用儲存於用戶辨識模組996中的用戶資訊(例如,國際行動用戶辨識(international mobile subscriber identity,IMSI))來在通訊網路(例如,第一網路998或第二網路999)中辨識及認證電子裝置901。
天線模組997可向電子裝置901的外部(例如,外部電子裝置)發射訊號及/或電力及/或自電子裝置901的外部(例如,外部電子裝置)接收訊號及/或電力。根據一個實施例,天線模組997可包括一或多個天線,且可例如由通訊模組990(例如,無線通訊模組992)自所述一或多個天線選擇適於在通訊網路(例如第一網路998及/或第二網路999)中使用的通訊方案的至少一個天線。然後,可經由所選擇的所述至少一個天線在通訊模組990與外部電子裝置之間發射及/或接收訊號及/或電力。
上述組件中的至少一些組件可相互耦合,並且經由與外部設備之間的通訊方案(inter-peripheral communication scheme)(例如匯流排、通用輸入及輸出(general-purpose input and output,GPIO)、串列周邊介面(serial peripheral interface,SPI)及/或行動產業處理器介面(mobile industry processor interface,MIPI)在其之間傳送訊號(例如,命令及/或資料)。
根據一個實施例,命令及/或資料可經由與第二網路999耦合的伺服器908在電子裝置901與外部電子裝置904之間發射及/或接收。電子裝置902及904中的每一者可為與電子裝置901相同類型或不同類型的裝置。待在電子裝置901處執行或由電子裝置901執行的全部或一些操作可在外部電子裝置902、904或伺服器908中的一或多者處執行。舉例而言,若電子裝置901應自動、或因應於來自使用者或另一裝置的請求而實行功能及/或服務,則電子裝置901可請求所述一或多個外部電子裝置來實行所述功能或服務的至少一部分而非執行所述功能及/或服務,或除執行所述功能及/或服務以外亦請求所述一或多個外部電子裝置來實行所述功能及/或服務的至少一部分。接收請求的所述一或多個外部電子裝置可實行所請求的功能及/或服務的所述至少一部分、及/或與所述請求相關的附加功能及/或附加服務,並將實行的結果輸送至電子裝置901。電子裝置901可提供所述結果(在將所述結果進行進一步的處理或不作進一步處理的情況下)作為對所述請求的答覆的至少一部分。為此,例如,可使用雲端計算、分佈式計算及/或客戶端-伺服器計算技術。
一個實施例可被實施為包括一或多個指令的軟體(例如,程式940),所述一或多個指令儲存於可由機器(例如,電子裝置901)讀取的儲存媒體(例如,內部記憶體936或外部記憶體938)中。舉例而言,電子裝置901的處理器可調用儲存於儲存媒體中的所述一或多個指令中的至少一者,並在使用或不使用在所述處理器的控制下的一或多個其他組件的情況下來執行所述一或多個指令中的所述至少一者。因此,可操作機器以根據調用的所述至少一個指令實行至少一種功能。所述一或多個指令可包括由編譯器產生的碼或可由解譯器執行的碼。可以非暫時性儲存媒體的形式提供機器可讀取儲存媒體。用語「非暫時性」指示儲存媒體是有形的元件,並且不包括訊號(例如,電磁波),但此用語不區分資料半永久儲存於儲存媒體中的情形與資料臨時儲存於儲存媒體中的情形。
根據一個實施例,本揭露的方法可包括並設置於電腦程式產品中。電腦程式產品可作為產品在賣方與買方之間進行交易。電腦程式產品可以機器可讀取儲存媒體(例如,光碟唯讀記憶體(compact disc read only memory,CD-ROM))的形式分發,或者藉由應用商店(例如,電子市場(Play Store) TM)在線上分發(例如,下載或上傳),或直接在兩個使用者元件(例如,智慧型電話)之間分發。若在線上分發,則電腦程式產品的至少一部分可被臨時產生或至少臨時儲存於機器可讀取儲存媒體(例如,製造商的伺服器的記憶體、應用商店的伺服器或者中繼伺服器)中。
在本文中,參照附圖詳細闡述本揭露的實施例。應注意,相同或類似的元件可使用相同的參考編號/字母指示,即使它們在不同的圖式中示出。在本文中的說明中,提供例如詳細配置及組件等具體細節,以幫助全面理解本揭露的實施例。在不背離本揭露的範圍的條件下,可對本文中闡述的實施例進行各種改變及修改。為了清楚及簡明起見,可省略某些詳細說明。
本揭露提供各種修改及各種實施例。應理解,本揭露並不限於在本文中明確闡述或詳述的各種實施例,並且本揭露包括處於本揭露的範圍內的修改、等效物及替代物。
儘管包括序數(例如第一、第二等)的用語可用於闡述各種元件,但所述元件不受該些用語的限制。該些用語用於區分一個元件與另一元件,且並不暗指著任何特定的排序。如本文中所用,用語「及/或」包括一或多個相關項的任何及所有組合。單數形式旨在包括複數形式,除非上下文另有明確指示。在本揭露中,應理解,用語「包括」或「具有」指示特徵、數目、步驟、操作、結構元件、部件或其組合的存在,且不排除一或多個其他特徵、數目、步驟、操作、結構元件、部件或其組合的存在或增加的可能性。
根據一個實施例,上述組件中的至少一個組件(例如,管理器、一組處理器可執行指令、程式或模組)可包括單個實體或多個實體。可省略上述組件中的一或多者,或者可添加一或多個其他組件。作為另外一種選擇或附加地,多個組件(例如,管理器、一組處理器可執行指令、程式或模組)可整合至單個組件中。在此種情形中,整合的組件仍然可與整合之前由所述多個組件中的對應的一個組件實行的相同或類似的方式來實行各所述多個組件的一或多個功能。由管理器、處理器可執行指令集、程式、模組或另一組件實行的操作可依序地、並行地、重複地或啟發式地施行,或者操作中的一或多者可以不同的次序執行或省略,或者可添加一或多個其他操作。
100:通訊系統 102:網路系統 104:網路 106:裝置 200、300、500:影像處理方法 202、204、206、208、210、212、302、304、306、308、310、312、502、504、506、508、510、802、804、808、810、812:步驟 400、600、700:DGF 402、602、702:第三特徵 404、604、704:導引 800:DGF訓練過程 806: SBL處理 900:系統 901:電子裝置 902、904:電子裝置/外部電子裝置 908:伺服器 920:處理器 921:主處理器 923:輔助處理器 930:記憶體 932:揮發性記憶體 934:非揮發性記憶體 936:內部記憶體 938:外部記憶體 940:程式 942:作業系統(OS) 944:中間軟體 946:應用 950:輸入裝置 955:聲音輸出裝置 960:顯示裝置 970:音訊模組 976:感測器模組 977:介面 978:連接端子 979:觸覺模組 980:相機模組 988:電源管理模組 989:電池 990:通訊模組 992:無線通訊模組 994:有線通訊模組 996:用戶辨識模組(SIM) 997:天線模組 998:第一網路 999:第二網路 D1、D2、D3、D4:維數
根據以下詳細說明及附圖,本揭露的某些實施例的某些態樣、特徵及優點將變得顯而易見,在附圖中: 圖1示出被配置用於電子通訊的通訊系統100的示例性實施例。 圖2示出使用DGF的影像處理方法的比較例。 圖3示出使用DGF的影像處理方法的示例性實施例。 圖4示出在圖3中所示的影像處理方法中使用的DGF的示例性實施例。 圖5示出使用DGF的影像處理方法的另一示例性實施例。 圖6示出雙解析度DGF的示例性實施例。 圖7示出單解析度DGF的示例性實施例。 圖8示出DGF訓練過程的示例性實施例。 圖9示出被配置成管理使用DGF的影像處理的系統的示例性實施例。
300:影像處理方法
302、304、306、308、310、312:步驟

Claims (20)

  1. 一種影像處理的方法,包括: 確定第一特徵,其中所述第一特徵具有維數D1; 確定第二特徵,其中所述第二特徵具有維數D2且是基於特徵萃取網路的輸出; 藉由對所述第一特徵進行處理而產生第三特徵,所述第三特徵具有維數D3; 藉由對所述第二特徵進行處理而產生導引,所述導引具有所述維數D3; 藉由使用所述導引將深度導引濾波器(DGF)應用於所述第三特徵而產生濾波器輸出; 基於所述濾波器輸出產生映射;以及 基於所述映射輸出經處理影像。
  2. 如請求項1所述的方法,更包括基於待處理影像確定所述第二特徵,使得所述第二特徵對邊界資訊進行編碼。
  3. 如請求項1所述的方法,更包括基於待處理影像確定所述第一特徵,使得所述第一特徵對關於所述待處理影像的語義資訊進行編碼。
  4. 如請求項1所述的方法,其中所述維數D1大於所述維數D2。
  5. 如請求項1所述的方法,其中所述第一特徵及所述第二特徵是基於待處理影像確定,所述待處理影像具有維數D4,且所述維數D4大於所述維數D1、所述維數D2及所述維數D3中的每一者。
  6. 如請求項1所述的方法,其中: 對所述第二特徵進行處理包括將第一卷積應用於所述第二特徵以產生第一卷積特徵,且 基於所述濾波器輸出而輸出所述經處理影像包括將所述濾波器輸出與所述第一卷積特徵聚合。
  7. 如請求項6所述的方法,其中將所述濾波器輸出與所述第一卷積特徵聚合包括將所述濾波器輸出與所述第一卷積特徵序連。
  8. 如請求項6所述的方法,其中對所述第二特徵進行處理包括將第二卷積應用於所述第一卷積特徵以產生第二卷積特徵,且所述導引是基於所述第二卷積特徵。
  9. 如請求項6所述的方法,其中使用所述導引將所述深度導引濾波器應用於所述第三特徵包括: 產生所述導引的下取樣版本; 使用濾波器過程來獲得係數,在所述濾波器過程中使用所述導引的所述下取樣版本; 對所述係數進行上取樣以匹配所述導引的所述維數D3;以及 將所述係數應用於所述導引。
  10. 如請求項1所述的方法,其中使用所述導引將所述深度導引濾波器應用於所述第三特徵包括: 產生所述導引的下取樣版本; 使用濾波器過程來獲得係數,在所述濾波器過程中使用所述導引的所述下取樣版本; 將所述係數應用於所述導引的所述下取樣版本以產生結果;以及 對所述結果進行上取樣。
  11. 一種用於影像處理的系統,包括: 處理電路,被配置成實施影像處理方法,所述方法包括: 確定第一特徵,其中所述第一特徵具有維數D1; 確定第二特徵,其中所述第二特徵具有維數D2且是基於特徵萃取網路的輸出; 藉由對所述第一特徵進行處理而產生第三特徵,所述第三特徵具有維數D3; 藉由對所述第二特徵進行處理而產生導引,所述導引具有所述維數D3; 藉由使用所述導引將深度導引濾波器(DGF)應用於所述第三特徵而產生濾波器輸出; 基於所述濾波器輸出產生映射;以及 基於所述映射輸出經處理影像。
  12. 如請求項11所述的系統,其中所述影像處理方法更包括基於待處理影像確定所述第二特徵,使得所述第二特徵對邊界資訊進行編碼。
  13. 如請求項11所述的系統,其中所述影像處理方法更包括基於待處理影像確定所述第一特徵,使得所述第一特徵對關於所述待處理影像的語義資訊進行編碼。
  14. 如請求項11所述的系統,其中所述維數D1大於所述維數D2。
  15. 如請求項11所述的系統,其中在所述影像處理方法中,所述第一特徵及所述第二特徵是基於待處理影像確定,所述待處理影像具有維數D4,且所述維數D4大於所述維數D1、所述維數D2及所述維數D3中的每一者。
  16. 如請求項11所述的系統,其中在所述影像處理方法中: 對所述第二特徵進行處理包括將第一卷積應用於所述第二特徵以產生第一卷積特徵,且 基於所述濾波器輸出而輸出所述經處理影像包括將所述濾波器輸出與所述第一卷積特徵聚合。
  17. 如請求項16所述的系統,其中在所述影像處理方法中,將所述濾波器輸出與所述第一卷積特徵聚合包括將所述濾波器輸出與所述第一卷積特徵序連。
  18. 如請求項16所述的系統,其中在所述影像處理方法中,對所述第二特徵進行處理包括將第二卷積應用於所述第一卷積特徵以產生第二卷積特徵,且所述導引是基於所述第二卷積特徵。
  19. 如請求項16所述的系統,其中在所述影像處理方法中,使用所述導引將所述深度導引濾波器應用於所述第三特徵包括: 產生所述導引的下取樣版本; 使用濾波器過程來獲得係數,在所述濾波器過程中使用所述導引的所述下取樣版本; 對所述係數進行上取樣以匹配所述導引的所述維數D3;以及 將所述係數應用於所述導引。
  20. 如請求項11所述的系統,其中在所述影像處理方法中,使用所述導引將所述深度導引濾波器應用於所述第三特徵包括: 產生所述導引的下取樣版本; 使用濾波器過程來獲得係數,在所述濾波器過程中,使用所述導引的所述下取樣版本; 將所述係數應用於所述導引的所述下取樣版本以產生結果;以及 對所述結果進行上取樣。
TW111109433A 2021-03-16 2022-03-15 用於影像處理的方法及系統 TW202240535A (zh)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US202163161827P 2021-03-16 2021-03-16
US63/161,827 2021-03-16
US202163190128P 2021-05-18 2021-05-18
US63/190,128 2021-05-18
US202163224312P 2021-07-21 2021-07-21
US63/224,312 2021-07-21
US17/563,012 US20220301128A1 (en) 2021-03-16 2021-12-27 Method and device for deep guided filter processing
US17/563,012 2021-12-27

Publications (1)

Publication Number Publication Date
TW202240535A true TW202240535A (zh) 2022-10-16

Family

ID=83114697

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111109433A TW202240535A (zh) 2021-03-16 2022-03-15 用於影像處理的方法及系統

Country Status (5)

Country Link
US (1) US20220301128A1 (zh)
KR (1) KR20220129473A (zh)
CN (1) CN115082330A (zh)
DE (1) DE102022105545A1 (zh)
TW (1) TW202240535A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758104B (zh) * 2023-08-21 2023-11-14 山东科技大学 一种基于改进GCNet的多实例人像抠图方法

Also Published As

Publication number Publication date
US20220301128A1 (en) 2022-09-22
KR20220129473A (ko) 2022-09-23
CN115082330A (zh) 2022-09-20
DE102022105545A1 (de) 2022-09-22

Similar Documents

Publication Publication Date Title
US11599979B2 (en) Method and apparatus for video super resolution using convolutional neural network with two-stage motion compensation
TWI822987B (zh) 用於確定影像的深度資訊的系統及方法
US20200175700A1 (en) Joint Training Technique for Depth Map Generation
US11120536B2 (en) Apparatus and method for determining image sharpness
US11710221B2 (en) Apparatus and method for successive multi-frame image denoising
WO2022042120A1 (zh) 目标图像提取方法、神经网络训练方法及装置
TWI826639B (zh) 電子裝置、電子裝置的影像處理器以及銳化影像的方法
TW202240535A (zh) 用於影像處理的方法及系統
CN114626997A (zh) 用于图像去噪的方法和系统
US11823353B2 (en) System and method for generating bokeh image for DSLR quality depth-of-field rendering and refinement and training method for the same
US11526967B2 (en) System and method for precise image inpainting to remove unwanted content from digital images
CN113362260A (zh) 图像优化方法及装置、存储介质及电子设备
CN115829827A (zh) 人脸图像处理方法、装置、设备及介质
KR20220016695A (ko) 딥러닝에 기반한 이미지 분할 장치 및 방법
US11636675B2 (en) Electronic device and method for providing multiple services respectively corresponding to multiple external objects included in image
TWI834814B (zh) 用於提供旋轉不變神經網路的方法及系統
US20230040176A1 (en) Controllable neural networks or other controllable machine learning models
KR20220021853A (ko) 비용-볼륨에 주의에 기반한 불일치 추정을 위한 시스템 및 방법
CN112950516A (zh) 图像局部对比度增强的方法及装置、存储介质及电子设备