TWI818491B - 用於優化圖像之方法及系統 - Google Patents
用於優化圖像之方法及系統 Download PDFInfo
- Publication number
- TWI818491B TWI818491B TW111112067A TW111112067A TWI818491B TW I818491 B TWI818491 B TW I818491B TW 111112067 A TW111112067 A TW 111112067A TW 111112067 A TW111112067 A TW 111112067A TW I818491 B TWI818491 B TW I818491B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- dynamic
- kernel
- grid
- output
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 32
- 238000006731 degradation reaction Methods 0.000 claims abstract description 56
- 230000015556 catabolic process Effects 0.000 claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 24
- 238000005457 optimization Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000001994 activation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Steroid Compounds (AREA)
Abstract
系統存儲特徵提取網絡和優化網絡的參數。該系統接收輸入,該輸入包括退化圖像及與該退化圖像聯級的退化估計;執行特徵提取網絡的操作以將預訓練的權重應用於該輸入以生成特徵圖;以及,執行優化網絡的操作,其中,該優化網絡包括一系列的動態模組。該動態模組中的一個或多個動態地生成網格內核,以應用於從該系列動態模組中的前一動態模組輸出的中間圖像的對應網格。每個網格內核都是基於中間圖像和特徵圖生成的。
Description
本發明通常涉及神經網絡,以及更具體地,涉及用於優化圖像之方法及系統。
深度卷積神經網絡(Deep Convolutional Neural Networks,CNN)已廣泛用於圖像處理,例如,圖像優化(image refinement)和超分辨率。深度卷積神經網絡(CNN)已用於恢復因模糊(blur)、雜訊(noise)、低分辨率(low resolution)等因素而被退化的圖像。深度卷積神經網絡(CNN)能夠有效解決單圖像超分辨率(single image super-resolution,SISR)問題,其中,高分辨率(high-resolution,HR)圖像是從低分辨率(low-resolution,LR)圖像重建得到的。
一些基於深度卷積神經網絡(CNN)的方法基於退化圖像受一種固定組合的退化效應的影響,例如模糊和雙三次下採樣(bicubic down-sampling)。這些方法在處理退化效應因圖像而異的退化圖像時的能力有限。這些方法也不能處理在圖像的一個區域中具有一種組合的退化效應而在同一圖像的另一區域中具有另一種組合的退化效應的圖像。
另一種方法是針對每種組合的退化效應訓練單獨的網絡。例如,如果圖像受三種不同組合的退化效應的退化:雙三次下採樣、雙三次下採樣和雜訊,以及,直接下採樣和模糊,則三個網絡被訓練,以處理這些退化。
因此,需要改進現有的方法來優化受可變退化效應影響的圖像。
本發明的目的之一在於提供一種用於優化圖像之方法及系統,以增強圖像質量/品質。
第一方面,本發明提供了一種用於優化圖像之方法,包括:接收輸入,該輸入包括退化圖像與該退化圖像的退化估計聯級後的輸出資料;執行特徵提取操作,以將預訓練的權重應用於該輸入,並生成特徵圖;以及,執行優化網絡的操作,其中,該優化網絡包括具有多個動態模組的動態模組序列,以及,一個或多個動態模組動態地生成網格內核,以應用於從該動態模組序列中的前一動態模組輸出的中間圖像的對應網格,其中,每個網格內核是基於該中間圖像和該特徵圖生成的。
在一些實施例中,該一個或多個動態模組中的每一個動態模組包括捲積層的第一路徑和卷積層的第二路徑,該第一路徑對該中間圖像和該特徵圖進行操作以生成對應的網格內核,該第二路徑對該中間圖像和該特徵圖進行操作以生成殘差圖像。
在一些實施例中,該方法還包括:對該第一路徑的輸出和該第二路徑的輸出執行逐像素加法。
在一些實施例中,該動態模組序列中的第一個動態模組動態地生成網格內核以應用於該退化圖像的對應網格。
在一些實施例中,該退化圖像是低分辨率圖像,以及,該優化網絡執行超分辨率操作以輸出高分辨率圖像。
在一些實施例中,執行特徵提取操作的步驟進一步包括:執行殘差模組的操作,每個殘差模組包括卷積層和修正線性單元(Rectified Linear Unit,ReLU)層。
在一些實施例中,執行該優化網絡的操作還包括:該動態模組序列中的至少一個動態模組生成通道維度被擴展r×r倍的上採樣動態內核,其中,r是上採樣率;以及,將該上採樣動態內核與輸入圖像進行卷積,以將該輸入圖像上採樣r×r倍。
在一些實施例中,每個動態模組是由差值度量訓練的,該差值度量測量地面實況圖像和該動態模組的輸出之間的差值。
在一些實施例中,該退化估計指示該退化圖像的不同區域中的退化,每個區域中的退化包括以下各項中的一項或多項:下採樣、模糊和雜訊。
在一些實施例中,每個對應網格包括一個或多個圖像像素,該一個或多個圖像像素共享並使用相同的網格內核。
第二方面,本發明提供了一種用於實現優化圖像之系統,該系統包括記憶體和處理硬體,該記憶體用於存儲特徵提取網絡和優化網絡的參數,該處理硬體耦接該記憶體,且被配置為:接收輸入,該輸入包括退化圖像與該退化圖像的退化估計聯級後的輸出資料;執行特徵提取操作,以將預訓練的權重應用於該輸入,並生成特徵圖;以及,執行優化網絡的操作,其中,該優化網絡包括具有多個動態模組的動態模組序列,以及,一個或多個動態模組動態地生成網格內核,以應用於從該動態模組序列中的前一動態模組輸出的中間圖像的對應網格,其中,每個網格內核是基於該中間圖像和該特徵圖生成的。
在一些實施例中,該一個或多個動態模組中的每一個動態模組包括捲積層的第一路徑和卷積層的第二路徑,該第一路徑對該中間圖像和該特徵圖進行操作以生成對應的網格內核,該第二路徑對該中間圖像和該特徵圖進行操作以生成殘差圖像。
在一些實施例中,該處理硬體還用於:對該第一路徑的輸出和該第二路徑的輸出執行逐像素加法。
在一些實施例中,該動態模組序列中的第一個動態模組動態地生成網格內核以應用於該退化圖像的對應網格。
在一些實施例中,該退化圖像是低分辨率圖像,以及,該優化網絡執行超分辨率操作以輸出高分辨率圖像。
在一些實施例中,該處理硬體還用於:在該特徵提取網絡中執行殘差模組的操作,每個殘差模組包括卷積層和修正線性單元(ReLU)層。
在一些實施例中,該處理硬體還用於:該動態模組序列中的至少一個動態模組生成通道維度被擴展r×r倍的上採樣動態內核,其中,r是上採樣率;以及,將該上採樣動態內核與輸入圖像進行卷積,以將該輸入圖像上採樣r×r倍。
在一些實施例中,每個動態模組是由差值度量訓練的,該差值度量測量地面實況圖像和該動態模組的輸出之間的差值。
在一些實施例中,該退化估計指示該退化圖像的不同區域中的退化,每個區域中的退化包括以下各項中的一項或多項:下採樣、模糊和雜訊。
在一些實施例中,每個對應網格包括一個或多個圖像像素,該一個或多個圖像像素共享並使用相同的網格內核。
本發明內容是通過示例的方式提供的,並非旨在限定本發明。在下面的詳細描述中描述其它實施例和優點。本發明由申請專利範圍限定。
以下描述為本發明實施的較佳實施例。以下實施例僅用來例舉闡釋本發明的技術特徵,並非用來限制本發明的範疇。在通篇說明書及申請專利範圍當中使用了某些詞彙來指稱特定的組件。所屬技術領域中具有通常知識者應可理解,製造商可能會用不同的名詞來稱呼同樣的組件。本說明書及申請專利範圍並不以名稱的差異來作為區別組件的方式,而係以組件在功能上的差異來作為區別的基準。本發明的範圍應當參考后附的申請專利範圍來確定。在以下描述和申請專利範圍當中所提及的術語“包括”和“包括”為開放式用語,故應解釋成“包括,但不限定於…”的意思。此外,術語“耦接”意指間接或直接的電氣連接。因此,若文中描述一個裝置耦接至另一裝置,則代表該裝置可直接電氣連接於該另一裝置,或者透過其它裝置或連接手段間接地電氣連接至該另一裝置。文中所用術語“基本”或“大致”係指在可接受的範圍內,所屬技術領域中具有通常知識者能夠解決所要解決的技術問題,基本達到所要達到的技術效果。舉例而言,“大致等於”係指在不影響結果正確性時,所屬技術領域中具有通常知識者能夠接受的與“完全等於”有一定誤差的方式。
在以下描述中,闡述了許多具體細節。然而,應當理解,可以在沒有這些具體細節的情況下實踐本發明的實施例。在其它情況下,未詳細示出眾所周知的電路、結構和技術,以免混淆對本發明實施例的理解。然而,本領域的技術人員將理解,本發明可以在沒有這些具體細節的情況下實施。本領域普通技術人員通過所包括的描述將能夠實現適當的功能而無需過度實驗。
本發明實施例提供了用於可變退化的統一動態卷積網絡(UDVD)的框架。UDVD執行單圖像超分辨率(single image super-resolution,SISR)操作,以應對各種可變退化。此外,UDVD還可以從模糊和雜訊退化中恢復圖像質量。可變退化可以發生在圖像間(inter-image,跨圖像變化)和/或圖像內(intra-image,同一圖像內的空間變化)。圖像間可變退化也稱為跨圖像可變退化。例如,第一圖像是低分辨率和模糊的,而第二圖像是嘈雜的。圖像內可變退化是圖像中具有空間變化的退化。例如,圖像中的一個區域可能是模糊的,而同一圖像中的另一個區域可能是嘈雜的。UDVD能夠被訓練,以提高遭受圖像間和/或圖像內可變退化影響的圖像的質量。UDVD(用於可變退化的統一動態卷積網絡)合併了動態卷積,其與標準卷積相比,能夠在處理不同退化變化的過程中提供更大的靈活性。在具有非盲設置的SISR中,UDVD在合成圖像和真實圖像這兩者上都表現出了有效性。
動態卷積一直是神經網絡研究中的一個活躍領域。Brabandere等人2016年在Proc. Conf. Neural Information Processing Systems (NIPS)的“Dynamic filter networks”中描述了動態濾波器網絡,其根據輸入動態生成過濾器。動態過濾器網絡自適應於輸入內容,因此提供了更高的靈活性。
UDVD(用於可變退化的統一動態卷積網絡)基於修改的動態濾波器網絡的概念生成動態內核。本文公開的動態內核不僅自適應於圖像內容,而且自適應於各種變化的退化效應。動態內核在處理圖像間和圖像內可變退化的過程中是有效的。
標準卷積使用內核(kernel),其從訓練中進行學習。每個內核應用於所有像素位置。相反,本文公開的動態卷積使用網格內核(per-grid kernels),每個網格內核是由參數生成網絡生成的。此外,標準卷積的內核與內容無關(content-agnostic),在訓練完成後是固定的。相比之下,動態卷積內核是自適應內容的(content-adaptive),且可以在推理過程中適應不同的輸入。由於這些特性,動態卷積在處理可變退化方面是標準卷積的更好替代方案。
在以下描述中,公開了兩種類型的動態卷積。此外,集成了多階損失,以在整個連續動態卷積中逐漸優化圖像。大量實驗表明,UDVD在合成圖像和真實圖像上都取得了良好或相當不錯的性能。
在實際使用情形中,可能會同時出現諸如模糊、雜訊和下採樣的退化效應。退化過程可以由如下公式定義:
(1)
其中,I
HR和I
LR分別表示高分辨率(high resolution,HR)圖像和低分辨率(low resolution,LR)圖像,k表示模糊內核(blur kernel),n表示加性雜訊(additive noise)。等式(1)表示:LR圖像等於HR圖像與模糊內核卷積、然後使用比例因子(scale factors)下採樣(downsampled)並加上雜訊。模糊內核的一個例子是各向同性高斯(Isotropic Gaussian)模糊內核。加性雜訊的一個示例是具有協方差(雜訊水平)的加性高斯白雜訊(additive white Gaussian noise,AWGN)。下採樣的一個例子是雙三次下採樣器(bicubic downsampler)。其它退化算子也可用於為SISR訓練合成真實退化。對於真實圖像,逐個區域對退化參數進行搜索,以獲得視覺上令人滿意的結果。在本發明中,採用非盲設置。可以預先考慮任何退化估計方法,以將所公開的方法擴展到盲設置。
第1圖是根據本發明實施例示出的UDVD(用於可變退化的統一動態卷積網絡)框架100的示意圖。框架100包括特徵提取網絡(feature extraction network)110和優化網絡(refinement network)120。可以理解地,優化網絡亦可稱為修飾網絡或圖像增強網絡,其用於增強圖像質量。特徵提取網絡110用於提取低分辨率輸入圖像(也稱為退化圖像)的高級特徵(high-level features)。該退化圖像(degraded image)可包括可變/變化退化(variational degradation)。優化網絡120基於提取出來的高級特徵進行學習,以增強和上採樣該退化圖像。優化網絡120的輸出是高分辨率圖像。
退化圖像(圖中表示為I
0)是與退化圖(degradation map,圖中標註為D)聯級的(concatenated)或堆疊的。退化圖D也稱為退化估計(degradation estimation),其是根據退化圖像中已知的退化參數生成的,例如,已知的模糊內核和已知的雜訊水平
。例如,通過使用主成分分析(principal component analysis,PCA)技術,模糊內核可投影到t維向量。雜訊水平的額外維度被合併至該t維向量,以獲得(1+t)維向量。然後,擴展該(1+t)維向量以獲得大小為(1+t)×H×W的退化圖D。
特徵提取網絡110包括輸入卷積(input convolution,圖中簡稱為“CONV”)111和N個殘差模組(residual block)112。輸入卷積(亦可稱為輸入卷積模組)111是針對退化圖像(I
0)與退化圖(D)聯級後的輸出(或者,可描述為“與退化圖聯級的退化圖像”)執行的。卷積結果被發送至N個殘差模組112,並被添加至N個殘差模組112的輸出,以與該N個殘差模組112的輸出生成特徵圖(F)。
第2圖根據本發明實施例示出了殘差模組112的示意圖。每個殘差模組112執行卷積(convolution,圖中簡稱為“CONV”)210、修正線性單元(rectified linear unit,圖中簡稱為“ReLU”)220和卷積(圖中簡稱為“CONV”)230的操作。殘差模組112的輸出是殘差模組112的輸入和卷積230的輸出的逐像素和(pixel-wise sum)。作為非限制性示例,每個卷積層的內核大小可以設置為3x3,以及,通道數可以設置為128。
優化網絡120包括M個動態模組123的序列,以執行特徵變換。每個動態模組123接收特徵圖(feature map,F)作為其中一個輸入。在一實施例中,動態模組123被擴展為以上採樣率r執行上採樣(upsample)。每個動態模組123能夠學習以對可變退化圖像進行上採樣和重構(reconstruct)。
第3圖是根據本發明實施例示出的動態模組123的方框示意圖。應當理解,下文描述的內核和通道的尺寸是非限制性的。每個動態模組m接收特徵圖(F)和圖像I
m-1作為輸入(m=1, ..., M,其中,M為正整數)。對於M個動態模組序列中的第一個動態模組來說,圖像I
m-1是框架100的輸入處的退化圖像(I
0)。對於M個動態模組的序列中的後續動態模組來說,圖像I
m-1是從該序列中的前一動態模組輸出的中間圖像。在動態模組m的示例中,圖像I
m-1被發送到CONV*3 320(3個卷積層,圖中簡稱為“Conv*3”),其包括三個3×3卷積層,這三個卷積層分別具有16、16和32個通道。應當說明的是,卷積層320的個數並不限於3個,且3×3也僅為示例描述,本發明並不限於該示例描述。例如,可以理解地,在一實施例中,卷積層330的個數(例如,2個)和卷積層340的個數(例如,1個)之和等於卷積層320的個數(例如,3個)。特別地,在一實施例中,卷積層340的個數小於卷積層330的個數。來自特徵提取網絡110的特徵圖(F)可以可選地經過像素重組(pixel shuffle)310的操作。像素重組310和CONV*3 320的輸出被聯級(concatenate,圖中標註為“C”),然後被轉發到兩個路徑。
每個動態模組123包括第一路徑和第二路徑。第一路徑預測動態內核(dynamic kernel)350,然後通過將動態內核350應用於圖像I
m-1來執行動態卷積。該動態卷積可以是規則的或上採樣的。結合第4圖提供了不同類型的動態卷積的示例。不同的動態模組(dynamic block)123可以執行不同類型的動態卷積。第二路徑通過使用標準的卷積(standard convolution)生成殘差圖像,以用於增強高頻細節。第一路徑的輸出和第二路徑的輸出通過逐像素相加進行組合。
在第3圖中,第一路徑包括1個3×3卷積層340(應當說明的是,3×3僅為示例描述,本發明並不限於該示例描述,即其對應“1個卷積層”,圖中簡稱為“Conv”),以預測和生成動態內核(亦可稱為網格內核)350。然後將生成的動態內核350應用於圖像I
m-1以執行動態卷積並生成輸出O
m。在一實施例中,每個動態內核350是網格內核(per-grid kernel)。網格內核350將被應用於圖像I
m-1(m=1, ..., M)的對應網格(corresponding grid)。每個網格內核m是基於圖像I
m-1和特徵圖F生成的。每個對應網格包括一個或多個圖像像素,該一個或多個圖像像素共享並使用相同的網格內核。
第二路徑包括兩個3×3卷積層(即2個卷積層,圖中示出為CONV*2 330),這兩個卷積層分別具有16個通道和3個通道,以生成殘差圖像R
m去增強高頻細節。然後,將殘差圖像R
m添加到動態卷積的輸出O
m以生成圖像I
m。子像素卷積層可用於對齊兩條路徑之間的分辨率。
第4圖根據一些實施例示出了兩種類型的動態卷積。第一種類型是常規動態卷積(regular dynamic convolution),其在輸入分辨率與輸出分辨率相同時使用。第二種類型是帶上採樣的動態卷積(dynamic convolution with upsampling,上採樣+動態卷積),其將上採樣整合到動態卷積中。參考第3圖中的示例,動態內核(即網格內核)350(即第4圖中的動態內核400)可以用於常規動態卷積或帶上採樣的動態卷積。針對常規動態卷積,動態內核350可被存儲在通道維度為(k×k)的張量(tensor)中,其中,(k×k)是動態內核350的內核大小(kernel size)。整合上採樣的動態內核350可被存儲在通道維度為(k×k×r×r)的張量中,其中,r是上採樣率。優化網絡120可以在M個動態模組123的序列中包括一個上採樣動態模組,以產生上採樣圖像(upsampled image),例如第4圖中的上採樣圖像410。此上採樣動態模組可以位於M個動態模組的序列中的第一個位置、最後一個位置或任何地方。在一實施例中,上採樣動態模組作為該序列中的第一個模組。上採樣動態模組生成通道維度被擴展r×r倍的上採樣動態內核;等效地說,此動態模組生成(r×r)個動態內核,每個動態內核的內核大小=k×k。M個動態模組123的序列中的其它動態模組的每一個生成內核大小=k×k的規則動態內核。除了諸如去噪和去模糊的其它圖像優化操作之外,全部的M個動態模組123組合在一起執行超分辨率操作。
在常規動態卷積中,卷積是通過使用內核大小為k×k的動態內核K進行的。此類操作可以表示為:
, (2)
其中,I
in和I
out分別表示輸入和輸出圖像,i和j是圖像中的坐標,u和v是每個K
i,j中的坐標。請注意,
= floor (k/2)。應用這些動態內核相當於計算附近像素的加權和(weighted sum)以提高圖像質量;不同的內核應用於圖像的不同網格。在默認設置中,有H×W個內核,以及,相應的權重在通道之間是共用/共享的。通過使用等式(2)引入額外的維度C,動態卷積可以被擴展為用於跨通道的獨立權重。
在帶上採樣的動態卷積中,在相同的對應塊(patch)上執行r×r卷積,以創建r×r個新像素,其中,該對應塊是應用於動態內核的區域。這種運算的數學形式被定義為:
, (3)
其中,x和y是在每個r×r輸出塊中的坐標(0 ≤ x; y ≤ r − 1)。這裡,I
out的分辨率是I
in分辨率的r倍。總共使用r
2HW個內核來生成rH×rW個像素作為I
out。當執行帶上採樣的動態卷積時,可以跨通道共享權重以避免過高的維度。
第5圖是根據本發明實施例示出的多階損失計算(multistage loss computations)的示意圖。在動態模組的輸出處計算多階損失。該損失被計算為是HR圖像(I
HR)和每個動態模組123的輸出處的圖像I
m之間的差異度量(difference metric)。當地面實況圖像(ground truth image,即基準圖像)可用時,該差異度量測量地面實況圖像和動態模組的輸出之間的差異。該損失被計算如下:
, (4)
其中,M是動態模組123的數量,F是損失函數,例如,L2損失或感知損失(perceptual loss)。為了獲得高質量的合成圖像,每個動態模組123的損失總和被最小化。該損失總和用於更新每個動態模組123中的捲積權重。
第6圖是根據本發明實施例示出的用於優化圖像的方法600的流程示意圖。方法600可由計算機系統執行;例如,第7圖中的系統700。方法600開始於步驟610,在步驟610中,系統接收輸入,該輸入包括退化圖像和用於與該退化圖像聯級的退化估計(或者說,該輸入包括退化圖像與該退化圖像聯級後的輸出或輸出資料)。在步驟620中,系統執行特徵提取操作,以將預訓練的權重應用於該輸入並生成特徵圖。在步驟630中,系統執行優化網絡的操作,該優化網絡包括具有多個動態模組的動態模組序列(或者說,一系列動態模組)。該多個動態模組中的一個或多個動態地生成網格內核(per-grid kernels),該網格內核被應用於從該動態模組序列中的前一動態模組輸出的中間圖像的對應網格。每個網格內核都是基於中間圖像和特徵圖生成的。
第7圖是根據本發明實施例示出的用於執行包括動態卷積的圖像優化操作的系統700的方框示意圖。系統700包括處理硬體(processing hardware)710,其進一步包括一個或多個處理器730,例如中央處理單元(central processing unit,CPU)、圖形處理單元(graphics processing unit,GPU)、數字處理單元(digital processing unit,DSP)、現場可編程門陣列(field-programmable gate array,FPGA)和其它通用處理器和/或專用處理器。在一實施例中,處理硬體710包括神經處理單元(neural processing unit,NPU)735,以執行神經網絡操作。諸如NPU 735或其它專用神經網絡電路之類的處理硬體710可用於執行神經網絡操作,包括但不限於:卷積、反捲積、ReLU操作、全連接操作、歸一化、激活、池化、調整大小、上採樣,逐元素算術,聯級(concatenation)等。
處理硬體710耦接到記憶體720,記憶體720可以包括存儲裝置,諸如動態隨機存取記憶體(dynamic random access memory,DRAM)、靜態隨機存取記憶體(static random access memory,SRAM)、閃存和其它非瞬態機器可讀存儲介質;例如,易失性或非易失性存儲裝置。為了簡化說明,記憶體720被表示為一個模組;然而,應當理解,記憶體720可以表示記憶體組件的層次結構,例如高速緩衝記憶體、系統記憶體、固態或磁存儲裝置等。處理硬體710執行存儲在記憶體720中的指令,以執行操作系統功能並運行用戶應用程序。例如,記憶體720可以存儲框架參數725,其是框架100(第1圖)的訓練參數,例如,框架100中CNN層的內核權重。在一些實施例中,系統700還可以包括用戶介面(user interface)740和網絡介面(network interface)750。
在一些實施例中,記憶體720可以存儲指令,當處理硬體710執行該指令時,使得處理硬體710根據第6圖中的方法600執行圖像優化操作。
已經參照第7圖的示例性實施例描述了第6圖的流程示意圖的操作。然而,應當理解,第6圖的流程示意圖的操作可以由本發明的不同於第7圖實施例的其它實施例執行,第7圖的實施例可以執行與參考流程示意圖討論的那些操作不同的操作。雖然第6圖的流程示意圖示出了由本發明的某些實施例執行的操作的特定順序,但是應該理解的是,這種順序是示例性的,例如,替代實施例可以以不同的順序執行操作、組合某些操作、重疊某些操作等。
在申請專利範圍中使用諸如“第一”,“第二”,“第三”等序數術語來修改申請專利要素,其本身並不表示一個申請專利要素相對於另一個申請專利要素的任何優先權、優先級或順序,或執行方法動作的時間順序,但僅用作標記,以使用序數詞來區分具有相同名稱的一個申請專利要素與具有相同名稱的另一個元素要素。
雖然已經對本發明實施例及其優點進行了詳細說明,但應當理解的係,在不脫離本發明的精神以及申請專利範圍所定義的範圍內,可以對本發明進行各種改變、替換和變更,例如,可以通過結合不同實施例的若干部分來得出新的實施例。所描述的實施例在所有方面僅用於說明的目的而並非用於限制本發明。本發明的保護範圍當視所附的申請專利範圍所界定者為准。所屬技術領域中具有通常知識者皆在不脫離本發明之精神以及範圍內做些許更動與潤飾。
100:框架
110:特徵提取網絡
111:輸入卷積
112:殘差模組
120:優化網絡
123:動態模組
220:修正線性單元
210,230:卷積
310:像素重組
320:3個卷積層
330:2個卷積層
340:卷積層
350:網格內核
400:動態內核
410:上採樣圖像
600:用於優化圖像的方法
610,620,630:步驟
700:系統
710:處理硬體
730:處理器
735:神經處理單元(NPU)
720:記憶體
725:框架參數
740:用戶介面
750:網絡介面
通過閱讀後續的詳細描述和實施例可以更全面地理解本發明,該實施例參照附圖給出。
第1圖是根據本發明實施例示出的用於可變退化的統一動態卷積網絡(Unified Dynamic Convolutional Network for Variational Degradation,UDVD)的框架的示意圖。
第2圖是根據本發明實施例的殘差模組(residual block)的示意圖。
第3圖是根據本發明實施例的動態模組(dynamic block)的示意圖。
第4圖根據一些實施例示出了兩種類型的動態卷積的示意圖。
第5圖根據本發明實施例示出了說明多階損失計算(multistage loss computations)的示意圖。
第6圖根據本發明實施例示出了用於優化圖像的方法的流程示意圖。
第7圖是根據本發明實施例示出的用於執行圖像優化操作的系統的方框示意圖。
在下面的詳細描述中,為了說明的目的,闡述了許多具體細節,以便所屬技術領域中具有通常知識者能夠更透徹地理解本發明實施例。然而,顯而易見的是,可以在沒有這些具體細節的情況下實施一個或複數個實施例,不同的實施例或不同實施例中披露的不同特徵可根據需求相結合,而並不應當僅限於附圖所列舉的實施例。
600:用於優化圖像的方法
610,620,630:步驟
Claims (18)
- 一種用於優化圖像之方法,包括:接收輸入,該輸入包括退化圖像與該退化圖像的退化估計聯級後的輸出資料;執行特徵提取操作,以將預訓練的權重應用於該輸入,並生成特徵圖;以及,執行優化網絡的操作,其中,該優化網絡包括具有多個動態模組的動態模組序列,以及,一個或多個動態模組動態地生成網格內核,以應用於從該動態模組序列中的前一動態模組輸出的中間圖像的對應網格,其中,每個網格內核是基於該中間圖像和該特徵圖生成的;其中,該一個或多個動態模組中的每一個動態模組包括捲積層的第一路徑和卷積層的第二路徑,該第一路徑對該中間圖像和該特徵圖進行操作以生成對應的網格內核,該第二路徑對該中間圖像和該特徵圖進行操作以生成殘差圖像。
- 如請求項1之方法,其中,該方法還包括:對該第一路徑的輸出和該第二路徑的輸出執行逐像素加法。
- 如請求項1之方法,其中,該動態模組序列中的第一個動態模組動態地生成網格內核以應用於該退化圖像的對應網格。
- 如請求項1之方法,其中,該退化圖像是低分辨率圖像,以及,該優化網絡執行超分辨率操作以輸出高分辨率圖像。
- 如請求項1之方法,其中,該執行特徵提取操作的步驟進一步包括:執行殘差模組的操作,每個殘差模組包括卷積層和修正線性單元(Rectified Linear Unit,ReLU)層。
- 如請求項1之方法,其中,執行該優化網絡的操作還包括: 該動態模組序列中的至少一個動態模組生成通道維度被擴展r×r倍的上採樣動態內核,其中,r是上採樣率;以及,將該上採樣動態內核與輸入圖像進行卷積,以將該輸入圖像上採樣r×r倍。
- 如請求項1之方法,其中,每個該動態模組是由差值度量訓練的,該差值度量測量地面實況圖像和該動態模組的輸出之間的差值。
- 如請求項1之方法,其中,該退化估計指示該退化圖像的不同區域中的退化,每個區域中的退化包括以下各項中的一項或多項:下採樣、模糊和雜訊。
- 如請求項1之方法,其中,每個該對應網格包括一個或多個圖像像素,該一個或多個圖像像素共享並使用相同的網格內核。
- 一種用於實現優化圖像之系統,該系統包括記憶體和處理硬體,該記憶體用於存儲特徵提取網絡和優化網絡的參數,該處理硬體耦接該記憶體,且被配置為:接收輸入,該輸入包括退化圖像與該退化圖像的退化估計聯級後的輸出資料;執行特徵提取操作,以將預訓練的權重應用於該輸入,並生成特徵圖;以及,執行優化網絡的操作,其中,該優化網絡包括具有多個動態模組的動態模組序列,以及,一個或多個動態模組動態地生成網格內核,以應用於從該動態模組序列中的前一動態模組輸出的中間圖像的對應網格,其中,每個網格內核是基於該中間圖像和該特徵圖生成的;其中,該一個或多個動態模組中的每一個動態模組包括捲積層的第一路徑和卷積層的第二路徑,該第一路徑對該中間圖像和該特徵圖進行操作以生成對應的網格內核,該第二路徑對該中間圖像和該特徵圖進行操作以生成殘差圖像。
- 如請求項10所述之系統,其中,該處理硬體還用於:對該第一路徑的輸出和該第二路徑的輸出執行逐像素加法。
- 如請求項10所述之系統,其中,該動態模組序列中的第一個動態模組動態地生成網格內核以應用於該退化圖像的對應網格。
- 如請求項10所述之系統,其中,該退化圖像是低分辨率圖像,以及,該優化網絡執行超分辨率操作以輸出高分辨率圖像。
- 如請求項10所述之系統,其中,該處理硬體還用於:在該特徵提取網絡中執行殘差模組的操作,每個殘差模組包括卷積層和修正線性單元(ReLU)層。
- 如請求項10所述之系統,其中,該處理硬體還用於:該動態模組序列中的至少一個動態模組生成通道維度被擴展r×r倍的上採樣動態內核,其中,r是上採樣率;以及,將該上採樣動態內核與輸入圖像進行卷積,以將該輸入圖像上採樣r×r倍。
- 如請求項10所述之系統,其中,每個該動態模組是由差值度量訓練的,該差值度量測量地面實況圖像和該動態模組的輸出之間的差值。
- 如請求項10所述之系統,其中,該退化估計指示該退化圖像的不同區域中的退化,每個區域中的退化包括以下各項中的一項或多項:下採樣、模糊和雜訊。
- 如請求項10所述之系統,其中,每個該對應網格包括一個或多個圖像像素,該一個或多個圖像像素共享並使用相同的網格內核。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/552,912 US20230196526A1 (en) | 2021-12-16 | 2021-12-16 | Dynamic convolutions to refine images with variational degradation |
US17/552,912 | 2021-12-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202326593A TW202326593A (zh) | 2023-07-01 |
TWI818491B true TWI818491B (zh) | 2023-10-11 |
Family
ID=86744087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111112067A TWI818491B (zh) | 2021-12-16 | 2022-03-30 | 用於優化圖像之方法及系統 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230196526A1 (zh) |
CN (1) | CN116266335A (zh) |
TW (1) | TWI818491B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109064396A (zh) * | 2018-06-22 | 2018-12-21 | 东南大学 | 一种基于深度成分学习网络的单幅图像超分辨率重建方法 |
CN111640061A (zh) * | 2020-05-12 | 2020-09-08 | 哈尔滨工业大学 | 一种自适应图像超分辨率系统 |
TW202107344A (zh) * | 2019-08-07 | 2021-02-16 | 瑞昱半導體股份有限公司 | 全連接卷積神經網路影像處理方法與電路系統 |
US20210097297A1 (en) * | 2019-05-09 | 2021-04-01 | Shenzhen Sensetime Technology Co., Ltd. | Image processing method, electronic device and storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021080158A1 (en) * | 2019-10-25 | 2021-04-29 | Samsung Electronics Co., Ltd. | Image processing method, apparatus, electronic device and computer readable storage medium |
US11783451B2 (en) * | 2020-03-02 | 2023-10-10 | GE Precision Healthcare LLC | Systems and methods for reducing colored noise in medical images using deep neural network |
CN115552905A (zh) * | 2020-05-15 | 2022-12-30 | 华为技术有限公司 | 用于图像和视频编码的基于全局跳过连接的cnn滤波器 |
-
2021
- 2021-12-16 US US17/552,912 patent/US20230196526A1/en active Pending
-
2022
- 2022-03-29 CN CN202210323045.7A patent/CN116266335A/zh active Pending
- 2022-03-30 TW TW111112067A patent/TWI818491B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109064396A (zh) * | 2018-06-22 | 2018-12-21 | 东南大学 | 一种基于深度成分学习网络的单幅图像超分辨率重建方法 |
US20210097297A1 (en) * | 2019-05-09 | 2021-04-01 | Shenzhen Sensetime Technology Co., Ltd. | Image processing method, electronic device and storage medium |
TW202107344A (zh) * | 2019-08-07 | 2021-02-16 | 瑞昱半導體股份有限公司 | 全連接卷積神經網路影像處理方法與電路系統 |
CN111640061A (zh) * | 2020-05-12 | 2020-09-08 | 哈尔滨工业大学 | 一种自适应图像超分辨率系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116266335A (zh) | 2023-06-20 |
US20230196526A1 (en) | 2023-06-22 |
TW202326593A (zh) | 2023-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gu et al. | Blind super-resolution with iterative kernel correction | |
US8547389B2 (en) | Capturing image structure detail from a first image and color from a second image | |
US20190095795A1 (en) | System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions | |
US8340415B2 (en) | Generation of multi-resolution image pyramids | |
US20210312591A1 (en) | Systems and method of training networks for real-world super resolution with unknown degradations | |
KR20180105556A (ko) | 슈퍼 해상도 딥 콘볼루션 뉴럴 네트워크 설계 시스템 및 방법 | |
KR102122065B1 (ko) | 보간된 전역 지름길 연결을 적용한 잔류 컨볼루션 신경망을 이용하는 초해상도 추론 방법 및 장치 | |
JP7482253B2 (ja) | 画像処理方法、装置、コンピュータ機器及び記憶媒体 | |
CN110782397B (zh) | 一种图像处理方法、生成式对抗网络、电子设备及存储介质 | |
CN111986092B (zh) | 一种基于双重网络的图像超分辨率重建方法及系统 | |
US11145028B2 (en) | Image processing apparatus using neural network and method performed by image processing apparatus | |
US20120121179A1 (en) | Unified spatial image processing | |
Kim et al. | Deep image demosaicing for submicron image sensors | |
WO2022099710A1 (zh) | 图像重建方法、电子设备和计算机可读存储介质 | |
KR20200126881A (ko) | 점 확산 함수 레이어를 가진 뉴럴 네트워크를 이용한 현미경 영상 처리 방법 및 그 장치 | |
Ye et al. | Accurate single-image defocus deblurring based on improved integration with defocus map estimation | |
TWI818491B (zh) | 用於優化圖像之方法及系統 | |
CN113313742A (zh) | 图像深度估计方法、装置、电子设备及计算机存储介质 | |
CN111223046A (zh) | 一种图像超分辨率重建方法及装置 | |
Zheng et al. | Joint residual pyramid for joint image super-resolution | |
CN115190226A (zh) | 参数调整的方法、训练神经网络模型的方法及相关装置 | |
KR100998220B1 (ko) | 적응적 영상 크기 조정 방법 | |
Christopher et al. | Image Reconstruction Using Deep Learning | |
Tudavekar et al. | Dual-tree complex wavelet transform and deep CNN-based super-resolution for video inpainting with application to object removal and error concealment | |
US20240135507A1 (en) | Upsampling blocks of pixels |