TW202119294A

TW202119294A - 處理影像超解析度的裝置及方法

Info

Publication number: TW202119294A
Application number: TW109115806A
Authority: TW
Inventors: 李威諭; 莊博宇; 王鈺強
Original assignee: 四零四科技股份有限公司
Priority date: 2019-11-05
Filing date: 2020-05-13
Publication date: 2021-05-16
Also published as: TWI765264B; US11010871B1; CN112785496A; US20210133925A1

Abstract

一種計算裝置，用來處理影像超解析度，包含有：一產生器模組，用來接收至少一輸入影像，以根據至少一第一參數及藉由至少一第一通道關注所產生的第一複數個特徵映射，產生一輸出影像；一鑑別器模組，用來接收該輸出影像及一高解析度影像，以藉由至少一第二通道關注，產生第二複數個特徵映射及第三複數個特徵映射，以及以根據該第二複數個特徵映射、該第三複數個特徵映射及至少一第二參數，產生至少一分數；以及一反饋模組，用來接收該至少一分數，以根據該至少一分數及一目標函數，更新該至少一第一參數及該至少一第二參數。

Description

處理影像超解析度的裝置及方法

本發明相關於一種用於多媒體系統的裝置及方法，尤指一種處理影像超解析度的裝置及方法。

影像超解析度旨在從低解析度影像重建出高解析度影像。在處理影像超解析度時，各種方法被提出以最小化高解析度影像及輸出影像間的差異。然而，有些方法具有高峰值信噪比（high peak signal-to-noise ratio）效能，卻具有低感知品質（low perceptual quality）（例如輸出影像過度平滑）。其他方法具有高感知品質，卻具有低峰值信噪比效能（例如輸出影像具有結構失真）。因此，用來處理影像超解析度且在峰值信噪比效能及感知品質間具有更好的權衡的方法仍是亟待解決的問題。

本發明提供了一種方法及其裝置，用來處理一影像超解析度，以解決上述問題。

本發明揭露一種計算裝置，用來處理影像超解析度（image super-resolution，ISR），包含有：一產生器模組（generator module），用來接收至少一輸入影像，以執行以下運作：藉由至少一第一通道關注（channel attention，CA），產生該至少一輸入影像的第一複數個特徵映射（feature maps）；以及根據該第一複數個特徵映射及該產生器模組的至少一第一參數，產生一輸出影像；一鑑別器模組（discriminator module），耦接於該產生器模組，用來接收該輸出影像及一高解析度（high resolution，HR）影像，以執行以下運作：藉由至少一第二通道關注，產生該輸出影像的第二複數個特徵映射及該高解析度影像的第三複數個特徵映射；以及根據該第二複數個特徵映射、該第三複數個特徵映射及該鑑別器模組的至少一第二參數，產生至少一分數（score）；以及一反饋模組（feedback module），耦接於該產生器模組及該鑑別器模組，用來接收該至少一分數，以根據該至少一分數及一目標函數，更新該至少一第一參數及該至少一第二參數。

第1圖為本發明實施例一計算裝置10的示意圖。計算裝置10包含有一產生器模組（generator module）100、一鑑別器模組（discriminator module）110及一反饋模組（feedback module）120。詳細來說，產生器模組100接收至少一輸入影像，以及藉由至少一第一通道關注（channel attention，CA），產生至少一輸入影像的第一複數個特徵映射（feature maps）。根據第一複數個特徵映射及產生器模組100的至少一第一參數，產生器模組100產生輸出影像。鑑別器模組110耦接於產生器模組100，以及接收輸出影像及高解析度（high resolution，HR）影像。鑑別器模組110藉由至少一第二通道關注產生輸出影像的第二複數個特徵映射及高解析度影像的第三複數個特徵映射，以及根據第二複數個特徵映射、第三複數個特徵映射及鑑別器模組110的至少一第二參數，產生至少一分數（score）（例如至少一機率（probability）或至少一距離（distance））。反饋模組120耦接於產生器模組100及鑑別器模組110，以及接收至少一分數。根據至少一分數及目標函數，反饋模組120更新至少一第一參數及至少一第二參數。

在一實施例中，反饋模組120產生第一數值，以根據第一數值，更新產生器模組100的至少一第一參數。反饋模組120產生第二數值，以根據第二數值，更新鑑別器模組110的至少一第二參數。

在一實施例中，當更新產生器模組100的至少一第一參數被請求（例如設定），以及鑑別器模組110的至少一第二參數可被固定時，反饋模組120可產生第一數值。在一實施例中，當更新鑑別器模組110的至少一第二參數被請求（例如設定），以及產生器模組100的至少一第一參數可被固定時，反饋模組120可產生第二數值。也就是說，在一疊代（iteration）中，反饋模組120可僅更新一模組（即產生器模組100或鑑別器模組110）的參數，以及另一模組（即鑑別器模組110或產生器模組100）的參數被固定。

在一實施例中，在一疊代中，根據第一數值，反饋模組120使用適應矩估計最佳化器（Adaptive Moment Estimation optimizer，ADAM optimizer）以更新至少一第一參數。在用來更新至少一第一參數的疊代後，根據被更新的產生器模組100的至少一新第一參數，產生器模組100可產生新輸出影像，其中相較於當前輸出影像的品質，新輸出影像具有較高的品質（即新輸出影像具有較高的峰值信噪比效能）。因此，在接收新輸出影像及高解析度影像後，鑑別器模組110產生至少一新分數，其中至少一新分數間的新差距可小於至少一當前分數間的當前差距。

在一實施例中，在一疊代中，根據第二數值，反饋模組120使用適應矩估計最佳化器以更新至少一第二參數。在用來更新至少一第二參數的疊代後，當接收相同的輸出影像及高解析度影像時，根據被更新的鑑別器模組110的至少一新第二參數，鑑別器模組110產生至少一新分數，其中至少一新分數間的新差距可大於至少一當前分數間的當前差距。

在一實施例中，在鑑別器模組110的至少一第二參數被更新N次後，產生器模組100的至少一第一參數被更新，其中N是一正整數。在一實施例中，在產生器模組100的至少一第一參數被更新M次後，鑑別器模組110的至少一第二參數被更新，其中M是一正整數。

在一實施例中，在接收輸出影像後，根據輸出影像的第二複數個特徵映射及至少一第二參數，鑑別器模組110產生第一分數。在接收高解析度影像後，根據高解析度影像的第三複數個特徵映射及至少一第二參數，鑑別器模組110產生第二分數。接著，反饋模組120接收第一分數及第二分數，以根據目標函數和這些分數，更新至少一第一參數及至少一第二參數。

在一實施例中，在接收一影像後，鑑別器模組110產生用來區別（例如判別）影像真實（或仿冒）程度的一分數（即用來區別影像是否更有可能是高解析度影像或由產生器模組100所產生的輸出影像）。至少一分數（例如第一分數及第二分數）間的較大差距代表鑑別器模組110更成功地區分高解析度影像及輸出影像。

在一實施例中，鑑別器模組110的目標是當接收相同的高解析度影像及輸出影像時，增加至少一分數間的差距。

在一實施例中，產生器模組100的目標是產生與高解析度影像相同的品質的輸出影像（即在產生相較於先前具有更高峰值信噪比的新輸出影像後，減少至少一分數的差距）。

在一實施例中，產生器模組100獨立運作而不需鑑別器模組110及反饋模組120，例如當產生器模組100無法產生相較於先前具有更高峰值信噪比的輸出影像時，及／或當輸出影像及高解析度影像無法根據鑑別器模組110所產生的至少一分數被區分（例如至少一分數間的差距接近為零）時。在一實施例中，產生器模組100獨立運作而不需要鑑別器模組110及反饋模組120，例如當終止條件（例如迭代的數量等於一預設值）成立時。在此情況下，產生器模組100可開始產生接近高解析度影像的品質的輸出影像。

在一實施例中，至少一第一通道關注彼此可為相同或不同。在一實施例中，至少一第二通道關注彼此可為相同或不同。在一實施例中，至少一第一通道關注可相同於或不同於至少一第二通道關注。

在一實施例中，至少一第一通道關注包含有一全局池化層（global pooling layer）、一卷積層（convolution layer）及一啟動函數層（activation function layer）中至少一者。在一實施例中，至少一第二通道關注包含有全局池化層、卷積層及啟動函數層中至少一者。用於上述兩個實施例的啟動函數層可為一洩露整流線性單元（leaky Rectified Linear Unit，ReLU）函數層或一S型函數層（sigmoid function layer）。

在一實施例中，在單一尺度（scale）中，藉由至少一第一通道關注，產生器模組100產生第一複數個特徵映射，以聚焦（focus）（例如提取（extract））至少一輸入影像的至少一第一特徵。在一實施例中，在至少一尺度（例如不同尺度）中，藉由至少一第二通道關注，鑑別器模組110產生第二複數個特徵映射及第三複數個特徵映射，以保存輸出影像的至少一第二特徵及高解析度影像的至少一第三特徵。

在習知技術中，根據用來最佳化輸出影像的方式，用於影像超解析度（image super-resolution，ISR）的方法可被劃分為兩種類型。兩種方式可為像素層級差異最小化（pixel-wise differences minimization）及感知品質最佳化（perceptual quality optimization）。用來最佳化輸出影像的基於像素層級差異最小化的峰值信雜比（peak signal-to-noise ratio，PSNR）的方法被設計用來最小化高解析度影像及輸出影像間像素層級差異。雖然基於峰值信雜比的方法在峰值信雜比及結構相似度（Structure Similarity，SSIM）上達到突出的效能，但基於峰值信雜比的方法所產生的輸出影像無法滿足人眼視覺系統（Human Visual System，HVS）的評估。另一方面，用來最佳化輸出影像的基於感知品質最佳化的生成對抗網路（generative adversarial networks，GAN）的方法被設計用來重建輸入影像的紋理（texture）細節。雖然基於生成對抗網路的方法產生較好的感知品質，但基於生成對抗網路的方法所產生的輸出影像可具有結構失真（structure distortion）或偽影（artifacts）。

本發明提供用於影像超解析度的一精化器（refiner）。精化器旨在克服基於峰值信雜比的方法的過度平滑問題及基於生成對抗網路的方法的結構失真問題。因此，基於峰值信雜比的方法及基於生成對抗網路的方法的問題被解決。

在一實施例中，根據用於影像超解析度的一處理方法，至少一輸入影像被產生。進一步地，處理方法可為一殘差通道關注網路（residual channel attention network，RCAN）、一深度反向投影網路（deep back-projection network，DBPN）或一增強型深度超解析度網路（enhanced deep super-resolution network，EDSR）。在一實施例中，根據至少一輸入影像的結構（structure），輸出影像經由一恆等映射（identity mapping）被產生。在一實施例中，根據基於峰值信雜比的方法，至少一輸入影像被產生。因此，產生器模組100可僅聚焦至少一輸出影像的缺漏的細節（例如特徵）以產生輸出影像。

第2圖為本發明實施例一產生器20的示意圖。產生器20可用來實現第1圖中的產生器模組100。產生器20包含有一部分產生器網路200，一恆等映射210（例如一恆等映射捷徑（identity mapping shortcut））及一最後卷積層220。恆等映射210在至少一輸入影像及最後卷積層220間被建立。部分產生器網路200接收至少一輸入影像，以及根據產生器20的至少一第三參數及至少一第一通道關注，部分產生器網路200產生最後複數個特徵映射。產生器20使用恆等映射210以保存至少一輸入影像的結構。最後卷積層220接收最後複數個特徵映射及至少一輸入影像，以及根據至少一第三參數、最後複數個特徵映射及至少一輸入影像的結構，最後卷積層220產生輸出影像。換言之，根據至少一輸入影像的結構，產生器20使用恆等映射210以維持（maintain）輸出影像的結構。

在一實施例中，部分產生器網路200包含其他卷積層，其中卷積層的跨步值（stride）可為1。在一實施例中，最後卷積層220的跨步值可為1。

第3圖為本發明實施例一鑑別器30的示意圖。鑑別器30可用來實現第1圖中的鑑別器模組110。鑑別器30包含有網路300、310、320及至少一卷積層330。網路300、310、320分別包含有第一通道關注、第二通道關注及第三通道關注。根據通道關注，網路300、310、320產生輸出影像及高解析度影像的不同的特徵映射，其中不同的特徵映射具有不同的尺度。至少一卷積層330接收由網路320所產生的特徵映射，以及產生至少一分數。也就是說，鑑別器30使用在三種尺度中的通道關注，以根據有不同尺度的不同的特徵映射，產生至少一分數。

在一實施例中，根據第3圖，在至少一尺度（例如不同的尺度）中，鑑別器30藉由通道關注提取輸出影像的至少一第二特徵及高解析度影像的至少第三特徵。舉例來說，藉由在最細尺度（finest scale）中的第一通道關注，網路300可提取輸出影像及高解析度影像的最低階特徵（lowest-level features）。藉由在中間尺度（median scale）中的第二通道關注，網路310可提取輸出影像及高解析度影像的中階特徵（median-level features）。藉由在最粗尺度（coarsest scale）中的第三通道關注，網路310可提取輸出影像及高解析度影像的最高階特徵（highest-level features）。在一實施例中，第一通道關注、第二通道關注及第三通道關注可為相同或不同。

在一實施例中，網路300、310、320包含有卷積層，其中卷積層的跨步值可為2。至少一卷積層330的跨步值可為2。因此，鑑別器30可對特徵映射降尺度（downscale）以減少計算複雜度。

在一實施例中，通道關注的運作被陳述如下。通道關注接收不具有權重（weightings）（例如優先權（priorities））的複數個特徵映射

，以及產生複數個加權特徵映射

，其中

為權重，以及

為複數個特徵映射的數量。也就是說，產生器模組100使用通道關注以加權不具有權重的複數個特徵映射，用來補償（compensate）至少一輸入影像的細節，以根據複數個加權特徵映射（即第一複數個特徵映射）產生輸出影像。鑑別器模組110使用通道關注以加權不具有權重的複數個特徵映射，用來提取（例如聚焦）輸出影像的至少一第二特徵及高解析度影像的至少一第三特徵，以根據複數個加權特徵映射（即第二複數個特徵映射）產生至少一分數。

第4圖為本發明實施例一通道關注40的示意圖。通道關注40可用來實現第1圖中的至少一第一通道關注及至少一第二通道關注。通道關注40包含有一全局池化層400、一第一卷積層410、一洩露整流線性單元函數層420、一第二卷積層430、一S型函數層440及一乘法器450。全局池化層400處理不具有權重的複數個特徵映射

，以及壓縮複數個特徵映射以產生初始權重

，其中

為全局池化函數，以及初始權重的數量為

（即

）。第一卷積層410處理初始權重

，以及產生對通道降尺度權重（channel-downscaled weightings）

，其中對通道降尺度權重的數量小於

。洩露整流線性單元函數層420處理對通道降尺度權重

，以及產生洩露整流線性單元權重

，其中

為洩露整流線性單元函數。第二卷積層430處理洩露整流線性單元權重

，以及產生對通道升尺度權重（channel-upscaled weightings）

，其中對通道升尺度權重的數量等於

。S型函數層440處理對通道升尺度權重

，以及產生最終權重

，其中

為S型函數。乘法器450相乘最終權重

及不具有權重的複數個特徵映射

，以及產生複數個加權特徵映射

。

在一實施例中，目標函數包含至少一正則化器（regularizer）（例如至少一正則化函數（regularization function））和瓦瑟斯坦生成對抗網路（Wasserstein Generative Adversarial Network，WGAN）損失函數。至少一正則化器可為均方差（mean square error，MSE）函數

或感知損失函數（perceptual loss function）

。感知損失函數

可為鑑別器模組110的某一層輸出的另一均方差函數（在啟動函數層後）。感知損失函數

不僅讓（allow）鑑別器模組110聚焦在輸出影像的至少一第二特徵及高解析度影像的至少一第三特徵上，也幫助產生器模組100所產生的輸出影像滿足感知品質。均方差函數

和感知損失函數

可根據下列方程式被執行：

（式1）

（式2）

其中

是期望值公式（expected value formula），

是高解析度影像，

是由產生器模組100所產生的輸出影像，以及

代表在啟動函數層後鑑別器模組110的特徵映射的第

層。

目標函數

被最佳化以解決一對抗極小極大問題（adversarial min-max problem），以根據目標函數，更新產生器模組100的至少一第一參數及鑑別器模組110的至少一第二參數。目標函數

可根據下列方程式被執行：

（式3）

其中

是瓦瑟斯坦生成對抗網路損失函數，以及在方程式（式3）中的係數

及

為兩個固定值。

第5圖為本發明實施例一實驗結果的比較表50。三種方法（增強型網路（EnhanceNet）、增強型超解析度生成對抗網路（Enhanced Super-Resolution Generative Adversarial Networks，ESRGAN）及本發明實施例）以不同的資料集產生實驗結果。接著，第5圖比較這些方法的實驗結果。實驗結果的比較基準是感知指標（perceptual index，PI）及均方根誤差（root mean square error，RMSE）。因此，在第5圖中的實驗結果是定性的及定量的。在本發明實例中，根據殘差通道關注網路，至少一輸入影像被產生。觀察比較表50可知，相較於其他方法，本發明具有較好的效能。

通訊裝置10的運作在上述實施例中可被歸納為第6圖中的一流程圖60。流程圖60可被實現在通訊裝置10中，以及包含有以下步驟：

步驟600：開始。

步驟602：接收至少一輸入影像。

步驟604：藉由至少一第一通到關注，產生至少一輸入影像的第一複數個特徵映射。

步驟606：根據第一複數個特徵映射及產生器模組的至少一第一參數，產生輸出影像。

步驟608：接收高解析度影像。

步驟610：藉由至少一第二通到關注，產生輸出影像的第二複數個特徵映射及高解析度影像的第三複數個特徵映射。

步驟612：根據第二複數個特徵映射、第三複數個特徵映射及鑑別器模組的至少一第二參數，產生至少一分數。

步驟614：根據至少一分數及目標函數，更新至少一第一參數及至少一第二參數。

步驟616：結束。

流程圖60可被用來舉例說明通訊裝置10的運作。流程圖60的詳細內容及變化可參考前述，在此不贅述。

本領域具通常知識者當可依本發明的精神加以結合、修飾及／或變化以上所述的實施例，而不限於此。前述的產生器、鑑別器、陳述、函數、模組及／或流程（包含建議步驟）可透過裝置實現，裝置可為硬體、軟體、韌體（為硬體裝置與電腦指令與資料的結合，且電腦指令與資料屬於硬體裝置上的唯讀軟體）、電子系統、或上述裝置的組合。

硬體的實施例可包含有類比電路、數位電路及/或混合電路。舉例來說，硬體可包含有特定應用積體電路（application-specific integrated circuit(s)，ASIC(s)）、場域可程式化閘陣列（field programmable gate array(s)，FPGA(s)）、可程式化邏輯裝置（programmable logic device(s)）、耦合硬體元件（coupled hardware components）、或上述裝置的組合。在一實施例中，硬體包含有通用處理器（general-purpose processor(s)）、微處理器（microprocessor(s)）、控制器（controller(s)）、數位訊號處理器（digital signal processor(s)，DSP(s)）、或上述裝置的組合。

軟體的實施例可包含有程式代碼的集合、指令的集合及／或函數的集合，其可被保留（例如存儲）在存儲單元，例如電腦可讀取介質（computer-readable medium）中。電腦可讀取介質可包含有用戶識別模組（Subscriber Identity Module，SIM）、唯讀式記憶體（Read-Only Memory，ROM）、快閃記憶體（flash memory）、隨機存取記憶體（Random-Access Memory，RAM）、CD-ROM／DVD-ROM／BD-ROM、磁帶（magnetic tape）、硬碟（hard disk）、光學資料儲存裝置（optical data storage device）、非揮發性儲存裝置（non-volatile storage device）、或上述裝置的組合。電腦可讀取介質（例如存儲單元）可在內部（例如集成（integrate））或外部（例如分離（separate））耦合到至少一處理器。包含有一個或多個模組的至少一個處理器可（例如被配置為）執行電腦可讀取介質中的軟體。程式代碼的集合、指令的集合及／或函數的集合可使至少一處理器、模組、硬體及／或電子系統執行相關步驟。

綜上所述，本發明提供了一種處理影像超解析度的裝置。與習知技術相比，本發明不只改善輸出影像的感知品質，也克服結構失真問題。以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

10:計算裝置 100:產生器模組 110:鑑別器模組 120:反饋模組 20:產生器 200:部分產生器網路 210:恆等映射 220:最後卷積層 30:鑑別器 300, 310, 320:網路 330:至少一卷積層 40:通道關注 400:全局池化層 410:第一卷積層 420:洩露整流線性單元函數層 430:第二卷積層 440:S型函數層 450:乘法器 50:比較表 60:流程圖 600~616:步驟

第1圖為本發明實施例一計算裝置的示意圖。第2圖為本發明實施例一產生器的示意圖。第3圖為本發明實施例一鑑別器的示意圖。第4圖為本發明實施例一通道關注的示意圖。第5圖為本發明實施例一實驗結果的比較表。第6圖為本發明實施例一流程的流程圖。

10:計算裝置

100:產生器模組

110:鑑別器模組

120:反饋模組

Claims

一種計算裝置（computing device），用來處理影像超解析度（image super-resolution，ISR），包含有：一產生器模組（generator module），用來接收至少一輸入影像，以執行以下運作：藉由至少一第一通道關注（channel attention，CA），產生該至少一輸入影像的第一複數個特徵映射（feature maps）；以及根據該第一複數個特徵映射及該產生器模組的至少一第一參數，產生一輸出影像；一鑑別器模組（discriminator module），耦接於該產生器模組，用來接收該輸出影像及一高解析度（high resolution，HR）影像，以執行以下運作：藉由至少一第二通道關注，產生該輸出影像的第二複數個特徵映射及該高解析度影像的第三複數個特徵映射；以及根據該第二複數個特徵映射、該第三複數個特徵映射及該鑑別器模組的至少一第二參數，產生至少一分數（score）；以及一反饋模組（feedback module），耦接於該產生器模組及該鑑別器模組，用來接收該至少一分數，以根據該至少一分數及一目標函數，更新該至少一第一參數及該至少一第二參數。
如請求項1所述的計算裝置，其中根據用於該影像超解析度的一處理方法，該至少一輸入影像被產生。
如請求項2所述的計算裝置，其中該處理方法是一殘差通道關注網路（residual channel attention network，RCAN）、一深度反向投影網路（deep back-projection network，DBPN）或一增強型深度超解析度網路（enhanced deep super-resolution network，EDSR）。
如請求項1所述的計算裝置，其中根據該至少一輸入影像的一結構（structure），該產生器模組經由一恆等映射（identity mapping）產生該輸出影像。
如請求項1所述的計算裝置，其中在至少一尺度（scale）中，藉由該至少一第二通道關注，該鑑別器模組產生該第二複數個特徵映射及該第三複數個特徵映射。
如請求項1所述的計算裝置，其中該至少一第一通道關注包含有一全局池化層（global pooling layer）、一卷積層（convolution layer）及一啟動函數層（activation function layer）中至少一者。
如請求項6所述的計算裝置，其中該啟動函數層是一洩露整流線性單元（leaky Rectified Linear Unit，ReLU）函數層或一S型函數層（sigmoid function layer）。
如請求項1所述的計算裝置，其中該目標函數包含至少一正則化器（regularizer）和一瓦瑟斯坦生成對抗網路（Wasserstein Generative Adversarial Network，WGAN）損失函數。
如請求項8所述的計算裝置，其中該至少一正則化器是一均方差（mean square error，MSE）函數或一感知損失函數（perceptual loss function）。