TW201835817A

TW201835817A - 設計超級解析度深度卷積神經網路的裝置及方法

Info

Publication number: TW201835817A
Application number: TW107102265A
Authority: TW
Inventors: 任昊宇; 正元李; 莫斯塔法伊爾－哈米
Original assignee: 南韓商三星電子股份有限公司
Priority date: 2017-03-15
Filing date: 2018-01-23
Publication date: 2018-10-01
Also published as: US20200401870A1; US10803378B2; US11900234B2; US20180268284A1; CN108629736A; KR20180105556A; KR102420465B1; TWI748041B

Abstract

本發明闡述了用於產生卷積神經網路（CNN）的裝置及其製造方法、系統、及方法。在一個態樣中，訓練具有例如三或更多個層的最小卷積神經網路。可對經訓練的所述卷積神經網路執行級聯訓練，以插入一或多個中間層直至訓練誤差小於閾值。當完成級聯訓練時，可對由所述級聯訓練輸出的所述卷積神經網路執行級聯網路修整以提高計算效率。為進一步減少網路參數，可由具有相同接受域的擴張卷積濾波器來取代卷積濾波器，之後進行額外的訓練/微調。

Description

設計超級解析度深度卷積神經網路的裝置及方法

本揭露大體而言是有關於影像超級解析度，且更具體而言，是有關於藉由級聯網路訓練（cascade network training）、級聯網路修整（cascade network trimming）、及擴張卷積來設計高效的超級解析度深度卷積神經網路的系統及方法。

超級解析度成像由低解析度（low resolution，LR）影像產生高解析度（high resolution，HR）影像。超級解析度（super resolution，SR）成像具有廣泛的適用性（自監視及臉部/虹膜辨識至醫學影像處理），且對影像及視訊的解析度具有直觀的改進。已提出以下諸多演算法/系統來執行超級解析度：自內插（interpolation）（李辛（Li, Xin）與奧查德·邁克爾（Orchard, Michael），新的邊緣定向內插（ New edge-directed interpolation ），電氣及電子工程師協會（IEEE）影像處理學報（Transactions on Image Processing，TIP），第十卷，第十刊，第1521頁至第1527頁（2001年10月），所述參考文獻全文倂入本案供參考）、輪廓特徵（contour feature）（戴宇榮（Tai, Yu-Wing）；劉帥成（Liu, Shuaicheng）；布朗·邁克爾（Brown, Michael）；及林·史蒂芬（Lin, Stephen），使用邊緣先驗及單幅影像細節合成的超級解析度（ Super resolution using edge prior and single image detail synthesis ），2010 IEEE國際電腦視覺與模式辨識（Computer Vision and Pattern Recognition，CVPR）會議，第2400頁至第2407頁，所述參考文獻全文倂入本案供參考）、及統計影像先驗（金光仁（Kim, Kwang In）與權英姬（Kwon, Younghee），使用稀疏回歸及自然影像先驗的單幅影像超級解析度（ Single-image super-resolution using sparse regression and natural image prior ），IEEE模式分析與機器智慧學報（Transactions on Pattern Analysis and Machine Intelligence，TPAMI），第32卷，第6期，第1127頁至第1133頁（2010年1月），所述參考文獻全文倂入本案供參考），至自補丁字典（dictionary of patches）習得的以實例為基礎的方法，例如鄰域嵌入（neighbor embedding）（常紅（Chang, Hong）；楊瓞仁（Yeung, Dit-Yan）；及熊一敏（Xiong, Yimin），基於鄰域 嵌入的超級解析度（ Super-resolution through neighbor embedding ），2004電腦視覺與模式辨識，第275頁至第282頁，所述參考文獻全文倂入本案供參考）及稀疏編碼（sparse coding）（楊建超（Yang, Jianchao）；懷特·約翰（Wright, John）；黃·托馬斯（Huang, Thomas）；及馬一（Ma, Yi），基於稀疏表示的影像超級解析度（ Image super-resolution via sparse representation ），IEEE影像處理學報，第19卷，第11期，第2861頁至第2873頁（2010年11月），所述參考文獻全文倂入本案供參考）。

近來，卷積神經網路（convolutional neural network，CNN）已達成了超級解析度準確度的明顯提高。參見，例如，董超（Dong, Chao）；呂健勤（Loy, Chen Change）；何愷明（He, Kaiming）；及湯曉歐（Tang, Xiaoou），基於影像超級解析度的深度卷積網路的學習（ Learning a deep convolutional network for image super-resolution ），2014歐洲電腦視覺會議（European Conference on Computer Vision，ECCV），第184頁至第199頁（在下文中被稱為「董等人2014」），所述參考文獻全文倂入本案供參考。卷積神經網路有時被稱為「SRCNN」（即，超級解析度卷積神經網路（super-resolution convolutional neural network）），卷積神經網路的準確度可受小的結構（例如，三層）、及/或小的背景接受域（context reception field）的限制。因應於此，研究人員已提議增大超級解析度卷積神經網路的大小，但大部分提案使用過大數目的參數，且所論述的諸多超級解析度卷積神經網路實際上無法執行。由於提出大的網路大小，因此甚至以適當的訓練設定值（即，學習速率、權重初始化、及權重衰減）來進行猜測可能都非常困難。結果，訓練可能完全無法收斂或者無法落入局部最小值的範圍中。

因此，製作了本揭露來解決至少本文所述的問題及/或缺點以及提供至少以下闡述的優點。

根據本揭露的態樣，提供一種產生卷積神經網路（CNN）的方法，所述方法包括：訓練具有三或更多個層的卷積神經網路；以及對經訓練的所述卷積神經網路執行級聯訓練，以在所述卷積神經網路中插入一或多個中間層直至訓練誤差小於閾值，其中所述級聯訓練是一或多個階段的迭代過程，在所述迭代過程中，所述階段中的每一階段包括：訓練當前卷積神經網路；判斷所述訓練誤差是否收斂；以及，若所述訓練誤差收斂，則在所述卷積神經網路中插入預設數目的中間層，每一個新的層的權重被設定成預定設定值；以及開始新階段。

根據本揭露的態樣，提供一種產生卷積神經網路（CNN）的方法，所述方法包括：訓練具有三或更多個層的卷積神經網路；以及執行經訓練的所述卷積神經網路的級聯網路修整，其中所述級聯網路修整是一或多個階段的迭代過程，在所述迭代過程中，所述階段中的每一階段包括：藉由減小一或多個中間層處的濾波器的維度來修整當前卷積神經網路的設定數目的層；判斷訓練誤差是否收斂；以及若所述訓練誤差收斂，則判斷是否所述當前卷積神經網路的所有所述層均已經過修整；若所述當前卷積神經網路的所有所述層均已經過修整，則輸出所述經網路修整的卷積神經網路；以及若並非所述當前卷積神經網路的所有所述層均已經過修整，則開始新階段。

根據本揭露的態樣，提供一種產生卷積神經網路（CNN）的裝置，所述裝置包括：一或多個非暫時性電腦可讀取媒體；以及至少一個處理器，所述至少一個處理器在執行儲存於所述一或多個非暫時性電腦可讀取媒體上的指令時，執行以下步驟：訓練具有三或更多個層的卷積神經網路；對經訓練的所述卷積神經網路執行級聯訓練，以添加一或多個中間層直至訓練誤差小於閾值；以及對由所述級聯訓練輸出的所述卷積神經網路執行級聯網路修整。

根據本揭露的態樣，提供一種製造晶片組的方法，所述晶片組包括至少一個處理器，所述至少一個處理器在執行儲存於一或多個非暫時性電腦可讀取媒體上的指令時，執行以下步驟：訓練具有三或更多個層的卷積神經網路；對經訓練的所述卷積神經網路執行級聯訓練，以添加一或多個中間層直至訓練誤差小於閾值；以及對由所述級聯訓練輸出的所述卷積神經網路執行網路修整；以及儲存所述指令的所述一或多個非暫時性電腦可讀取媒體。

根據本揭露的態樣，提供一種對裝置進行測試的方法，所述方法包括測試所述裝置是否具有至少一個處理器，所述至少一個處理器在執行儲存於一或多個非暫時性電腦可讀取媒體上的指令時執行以下步驟：訓練具有三或更多個層的卷積神經網路；對經訓練的所述卷積神經網路執行級聯訓練，以添加一或多個中間層直至訓練誤差小於閾值；以及對由所述級聯訓練輸出的所述卷積神經網路執行級聯網路修整，所述一或多個非暫時性電腦可讀取媒體儲存所述指令。

在下文中，參照附圖詳細闡述本揭露的實施例。應注意，相同的元件由相同的參考編號指示，儘管其示出於不同的圖式中。在以下說明中，提供例如詳細配置及部件等具體細節僅是為了幫助全面理解本揭露實施例。因此，對熟習此項技術者應顯而易見的是，在不背離本揭露的範圍的條件下可對本文所述的實施例作出各種變化及潤飾。另外，為清晰及簡潔起見，省略對眾所習知的功能及構造的說明。以下所述的用語是慮及本揭露的功能而定義的用語，且可根據使用者、使用者的意圖、或習慣而有所不同。因此，該些用語的定義應基於本說明書通篇的內容而確定。

本揭露可具有各種潤飾及各種實施例，以下參照附圖詳細闡述其中的一些實施例。然而，應理解，本揭露並非僅限於所述實施例，而是包括在本揭露的範圍內的所有潤飾、等效形式及替代形式。

儘管可能使用包括例如「第一」及「第二」等序數詞的用語來闡述各種組件，但結構性組件不受該些用語限制。該些用語僅用於區分各個組件。舉例而言，在不背離本揭露的範圍的條件下，「第一結構性組件」可被稱為「第二結構性組件」。相似地，「第二結構性組件」亦可被稱為「第一結構性組件」。本文中所用的用語「及/或」包括一或多個相關項的任意及所有組合。

本文中的用語僅用於闡述本揭露的各種實施例，而並非旨在限制本揭露。除非上下文中清楚地另外指明，否則單數形式旨在包括複數形式。在本揭露中，應理解，用語「包括（include）」或「具有（have）」指示特徵、數目、步驟、操作、結構性組件、零件或其組合的存在，但不排除一或多個其他特徵、數字、步驟、操作、結構性組件、零件或其組合的存在或添加的可能。

除非進行不同地定義，否則本文中所用的所有用語具有與熟習本揭露所屬技術領域者所理解的含意相同的含意。例如在常用字典中所定義的用語等用語應被解釋為具有與相關技術領域中的上下文含意相同的含意，且除非在本揭露中進行清楚定義，否則不應將其解釋為具有理想化或過於正式的含意。

各種實施例可包括一或多個組件。組件可包括被配置成執行某些操作的任何結構。儘管可以舉例方式將實施例闡述為具有處於某一配置中的限定數目的組件，然而所述實施例可根據給定實施方式的需要而在替代配置中包括更多或更少的組件。值得注意的是，每當提及「一個實施例（one embodiment）」或「實施例（an embodiment）」時，是意指結合所述實施例闡述的特定特徵、結構、或特性包含於至少一個實施例中。在本說明書中的各處出現的片語「一個實施例」（或「實施例」）未必全部指代同一實施例。

本揭露提供一種新的方式，或更準確而言，提供若干新技術來形成超級解析度卷積神經網路。在本文中，用語「經級聯訓練的超級解析度卷積神經網路（CT-SRCNN）」可一同指代本文中闡述的所有的新技術，或者指代所述新技術中的一或多種，此應根據使用所述用語的上下文來清楚地判斷。與以無監督權重初始化（unsupervised weight initailization）從一開始訓練所有層的現有方式不同的是，經級聯訓練的超級解析度卷積神經網路是以小的網路（例如，三個層）開始訓練。在當前網路無法充分地減小訓練誤差時在所述網路中逐漸插入新的層。

利用此種「級聯訓練」策略，收斂會更容易，且在使用更多層時準確度得到持續提高。但是在深度增大的同時，網路的相對複雜度不會因新的層的性質而增大。更具體而言，經級聯訓練的超級解析度卷積神經網路中的新的層的所有權重均被隨機地初始化，且學習速率是固定的。此相較於需要花費大量時間及資源來對參數進行調整的方式而言十分有利。一個具體實例是具有13個層的經級聯訓練的超級解析度卷積神經網路（如以下所進一步示出及論述），所述網路的準確度可與最先進的影像超級解析度網路相媲美，同時具有快五倍以上的執行速度，以及使用僅五分之一的參數。

在本揭露中，闡述了「級聯網路修整」，「級聯網路修整」藉由降低儲存及計算複雜度、以及另一種藉由部署一種「擴張卷積」的形式而非執行完整的傳統卷積計算來進一步提高超級解析度深度卷積神經網路的效率的方法來對經級聯訓練的超級解析度卷積神經網路模型進行進一步細化，此可進一步降低經級聯訓練的超級解析度卷積神經網路模型的複雜度。

本揭露的其餘部分按順序論述經級聯訓練的超級解析度卷積神經網路的此三種不同的方案/特徵： I. 級聯訓練； II. 級聯網路修整；以及 III. 擴張卷積。

儘管此三種方法/技術是在經級聯訓練的超級解析度卷積神經網路的上下文中進行論述，然而每一種方法/技術可單獨地或各自地適用於其他超級解析度方案或卷積神經網路（CNN network），如所屬領域中具有通常知識者應理解。

圖1示出根據一個實施例的用於構建經級聯訓練的超級解析度卷積神經網路（CT-SRCNN）的方法的示例性方塊圖。

在110處，準備訓練組，此意味著準備與高解析度（HR）影像對應的一組低解析度（LR）影像，經級聯訓練的超級解析度卷積神經網路藉由所述一組低解析度影像來學習當試圖由低解析度影像形成高解析度影像時所使用的模型。在此實施例中，在120處，對每一個低解析度影像進行雙立方升採樣（bicubic upsample）且對低解析度/高解析度補丁進行裁剪以準備用於訓練。參見，例如，「董等人2014」以及董超；呂健勤；何愷明；及湯曉歐，使用深度卷積網路的影像超級解析度（ Image super-resolution using deep convolutional networks ），IEEE模式分析與機器智慧學報（TPAMI），第38卷，第2期，第295頁至第307頁（2016年2月）（在下文中被稱為「董等人2016a」），所述參考文獻全文倂入本案供參考，以瞭解關於此步驟的更多細節。如所屬領域中具有通常知識者應理解，存在各種訓練前準備技術且本揭露並非僅限於將此種雙立方升採樣及低解析度/高解析度修補作為訓練前準備技術。

在130處，根據本揭露執行級聯訓練。以下闡述根據本揭露具體實施例的級聯訓練的實施例。在140處，根據本揭露執行級聯網路修整。以下進一步闡述根據本揭露具體實施例的網路修整的實施例。在150處，完成所述過程且經級聯訓練的超級解析度卷積神經網路系統已準備好供現實世界使用。

儘管在圖1中將該些不同的過程（即，級聯訓練及級聯網路修整）闡述及示出為單獨的及不同的階段/步驟，然而該些過程可在根據本揭露的實際實施方式中的該些功能之間交疊。I. 級聯訓練

圖2示出根據本揭露一個實施例的級聯訓練的示例圖。在205處，開始訓練過程。

在210處，以階段 i = 1開始所述訓練。新形成的網路以 b 個數目的層開始，且在其中訓練誤差收斂（220）或訓練誤差仍高於閾值（250）的每一階段中添加 c 個數目的層。因此，在每一訓練階段 i 處，對具有c*( i -1)+b個層的卷積神經網路進行訓練。當階段 i = 1時，對具有第一 b 個數目的層的卷積神經網路進行訓練。在階段 i = 1之後，級聯訓練開始根據需要向 b 個數目的層添加中間層，具體而言，每次添加 c 個數目的層。

在220處，判斷網路是否已開始收斂，例如判斷訓練誤差是否已停止（自前一階段）減小一定量。若是（即，卷積神經網路正在收斂），則在230處添加 c 個數目的中間層，且在240（ i = i + 1）處起始下一迭代。在此迭代過程期間，新的層可被設定成具有任意權重，乃因中間層將不會對其他層的權重矩陣大小造成影響。事實上，所有現有層繼承現有層的前一權重矩陣。此種級聯訓練迭代過程繼續進行，使得卷積神經網路越來越深，直至在250處訓練誤差小於閾值，且接著在255處輸出卷積神經網路模型。

圖3A及圖3B示出級聯訓練與現有的訓練方法之間的一些差異。

在圖3A中，示出圖2所示流程圖的實例。在圖3A中，層的數目 b 等於三，如在表示欲被訓練的第一卷積神經網路的頂部（310）處所示，且在每一階段中添加的層的數目 c 是一。每一新的層具有隨機設定的權重，而每一預先存在的層自前一階段繼承權重。由於在每一階段處新插入的中間層，卷積神經網路變得更深。在每一階段處，再次對更深的卷積神經網路進行訓練。由於大部分權重是自前一階段繼承的，因此連續的重訓練相對容易，甚至具有固定的學習速率。

然而，現有的方法如圖3B所示以需要同時進行調整的「完整」的一組層開始。如圖3B所示同時對所有的層進行訓練較圖3A所示方案複雜得多，進而導致慢速的收斂。級聯訓練對較淺的網路進行訓練直至收斂，且接著藉由在保持先前經訓練的層完整的同時遞增地插入具有隨機權重的層來使卷積神經網路加深，並保持整個網路直至更深的網路收斂。另外，級聯訓練可簡單地固定學習速率並產生具有隨機權重的新的層。

圖4A及圖4B示出分別在根據本揭露實施例的級聯訓練之後的開始卷積神經網路及終了卷積神經網路。

使 x 表示經內插的低解析度影像且 y 表示與經內插的低解析度影像匹配的高解析度影像。假定具有 N 個樣本的訓練組{( x_i , y_i )， i = 1, …, N }，經級聯訓練的超級解析度卷積神經網路的目標是學習用於預測高解析度輸出=g(x) 的模型 g 。在訓練期間，訓練組內的均方誤差（mean square error，MSE）被最小化。

在圖4A中，級聯訓練自三層模型（ b = 3）開始。第一層（410）由64個9 ´ 9濾波器組成，且第二層（413）及第三層（415）由32個5 ´ 5濾波器組成。（新的層的）所有權重均是藉由s = 0.001的高斯函數來隨機地初始化，且所有的卷積具有步幅1。「步幅（stride）」是卷積層的超參數（hyperparameter）中的一者，且用於控制如何圍繞空間維度（寬度及高度）分配深度行（depth column）—換言之，步幅指示濾波器如何圍繞輸入層（input volume）進行卷積，即，「步幅1」指示濾波器圍繞輸入層一次卷積一個畫素，「步幅2」指示濾波器一次卷積兩個畫素，等等。參見，例如於2017年6月5日自維基百科的https://en.wikipedia.org/wiki/Convolutional_neural_network下載的「卷積神經網路（Convolutional neural network）」的定義；於2017年6月5日自https://adeshpande3.github.io/A-Beginner%27s-Guide-To-Understanding-Convolutional-Neural-Networks-Part-2/下載的「理解卷積網路的新手指南-第2章（A Beginner’s Guide to Understanding Convolutional Networks – Part 2）」；所述兩個參考文獻全文倂入本案供參考。

返回至圖4A，在當前階段的均方誤差停止明顯減小時（例如，誤差在一時期中減小小於3%），訓練進行至下一階段。參見，例如圖2所示步驟220。為使此實施例中的訓練加快，對於每一階段向網路插入兩個新的層（即，在圖2所示步驟230中 c = 2）。因此，如圖4所示，訓練由3個層開始，且接著進行至5個層、7個層、…、以及最終在五個（5）階段之後的13個層。每一新的層由32個3 ´ 3濾波器組成。此種大小即使在卷積神經網路逐漸加深時亦會確保網路較小。新的中間層緊挨在最後的32個5 ´ 5濾波器層415之前插入。來自上一階段中已存在的任意層的權重繼承來自前一階段的權重，且所述兩個新的層的權重始終被隨機地初始化（s = 0.001的高斯分佈）。由於新的卷積層將減小特徵映射圖（feature map）的大小，因此在每一個新的中間3 ´ 3層中對兩個畫素進行零填充（zero-padded）。結果，在級聯訓練中所有階段具有相同的輸出大小，以使得可共享訓練樣本。

隨著網路加深，利用現有的方法訓練至收斂通常變得更困難。舉例而言，「董等人2016a」中的超級解析度卷積神經網路在多於三個層的情況下未能表現出優異的效能。在金知元（Kim, Jiwon）；李政權（Lee, Jung Kwon）；及李慶賢（Lee, Kyoung Mu），使用極深度卷積網路的精確影像超級解析度（ Accurate image super-resolution using very deep convolutional network ），2016電腦視覺與模式辨識，第1646頁至第1654頁（所述參考文獻全文倂入本案供參考）（在下文中被稱為「VDSR」）中，高的初始學習速率經過調整且逐漸降低。但是當使用大的多樣化訓練組（例如，來自160,000個影像的多於30百萬個補丁）時，高的學習速率效果不佳。此種情形的潛在原因在於高的學習速率會導致梯度消失（vanishing gradient）/梯度爆炸（exploding gradient）。

在經級聯訓練的超級解析度卷積神經網路中，在每一階段中僅隨機地初始化少數個權重，因此收斂相對容易。在經級聯訓練的超級解析度卷積神經網路中對於所有的層而言保持固定的學習速率0.0001而不發生任何衰減亦為可行的。為使訓練加快，僅需要改變第一階段，例如，可將第一階段的學習速率設定成0.001。在實驗/模擬中，13層經級聯訓練的超級解析度卷積神經網路（如圖4B所示者）已達成最先進的準確度，同時相較於例如以下其他網路而言使用少得多的參數：VDSR或金知元；李政權；及李慶賢，用於影像超級解析度的深度遞歸卷積網路（ Deeply-recursive convolutional network for image super-resolution ），2016電腦視覺與模式辨識，第1637頁至第1645頁（所述參考文獻全文倂入本案供參考）（在下文中被稱為「DRCN」）。相反，對隨機初始化的更深的網路進行直接訓練需要在參數調整方面進行大量努力以確保該些其他網路的最佳收斂，儘管實驗結果已表明該些網路可能無法以可接受的誤差收斂。

如以下表I所示，當測量兩個影像品質度量（image quality metric）（即，峰值訊號對雜訊比（peak signal to noise ratio，PSNR）、及結構相似性量度（structure similarity measure，SSIM））時，可看出經級聯訓練的超級解析度卷積神經網路會達成較佳的品質及較快的速度。此外，經級聯訓練的超級解析度卷積神經網路相較於VDSR及DRCN會擷取更多細節。

假定在卷積神經網路中具有L層，假設第i層具有 n_i-1 個輸入通道、 k_i ´ k_i 個卷積核（convolution kernel）、及 n_i 個濾波器。第i層中參數的數目是 n_i-1 ´ n_i ´ k_i ´ k_i 。在此計算中忽略偏置項（bias term）。於是，參數的總數目是。因此，舉例而言，在每一層中分別具有64個、32個、1個濾波器的三層經級聯訓練的超級解析度卷積神經網路中， n ₀ = 1， n ₁ = 64， n ₂ = 32， n ₃ = 1， k ₁ = 9， k ₂ = 5， k ₃ =5，因而參數的總數目是1 ´ 64 ´ 9 ´ 9 + 64 ´ 5 ´ 5 ´ 32 + 1 ´ 32 ´ 5 ´ 5 ´ 1 = 57,184。

峰值訊號對雜訊比/結構相似性量度用於衡量影像重構品質。峰值訊號對雜訊比是影像畫素的最大可能功率與會影響保真度的破壞性雜訊的功率之間的比率。峰值訊號對雜訊比被計算為，其中均方誤差是在地面真值（ground truth）與重構影像（超級解析度輸出）之間計算的。峰值訊號對雜訊比越大，影像品質越佳。峰值訊號對雜訊比的最大值是無限的。參見，例如，於2017年6月27日自維基百科的https://en.wikipedia.org/wiki/Peak_signal-to-noise_ratio下載的「峰值訊號對雜訊比（Peak signal-to-noise ratio）」的定義，所述參考文獻全文倂入本案供參考。

結構相似性量度是基於感知的模型（perception-based model），所述模型將影像劣化視為結構資訊中的所感知變化，同時亦包含亮度遮蔽（luminance masking）與對比度遮蔽（contrast masking）。結構相似性量度較峰值訊號對雜訊比更符合人類視覺。結構相似性量度被計算為，其中 x 是重構影像， y 是參考影像（地面真值）， m 是平均值， s 是變異數（variance）， s _xy 是 x 與 y 之間的共變異數（covariance）， c ₁ = 6.5025，且 c 2 = 58.5225。結構相似性量度位於[0,1]之間。若x是y的完美副本（perfect copy），則結構相似性量度將為1。參見，例如於2017年6月27日自維基百科的https://en.wikipedia.org/wiki/Structural_similarity下載的「結構相似性（Structural Similarity）」的定義，所述參考文獻全文倂入本案供參考。表 I. 經級聯 訓練的超級解析度卷積神經網路與現有的方式的比較 II. 級聯網路修整

大部分神經網路具有冗餘（redundancy）。移除此種冗餘會使效率明顯提高。在本揭露的實施例中，可在準確度損失很小的條件下自某些層移除大多數的濾波器及/或權重。

此種技術/方式（級聯網路修整）可與上述級聯訓練一起使用，或者可獨立於級聯訓練使用。在深度卷積神經網路具有可接受的準確度或效能的條件下，一直需要用於減小網路大小、降低計算複雜度及/或縮短處理時間而同時保持網路深度相同且不會降低準確度的技術/方式。

與級聯訓練相似，級聯網路修整亦包括迭代過程。在每一階段中，僅自 d 個層修整濾波器，此意味著，對於L層網路而言，在階段 i 中對第（L-（i-1）d-1）層至第（L-id）層進行修整。舉例而言，當自13層經級聯訓練的超級解析度卷積神經網路修整d = 2個層時，在第一階段i = 1中對第12層及第11層進行修整，且接著對網路進行微調。當出現收斂時，以對第9層及第10層進行修整來開始第二階段i = 2。此種程序迭代地重複，直至所有的層均已經過修整。儘管在以上程序中忽略了第13層，然而所述程序亦可被視為在第一階段中對第12層及第13層進行修整，且在第二階段中對第10層及第11層進行修整，等等。

圖5示出根據本揭露一個實施例的級聯網路修整的示例圖。在505處，修整過程以具有 L 個層的經訓練的卷積神經網路開始。

在510處，在階段 i = 1處開始修整。如上所述，在一個階段中僅對總的L層卷積神經網路中的 d 個層進行修整。因此，在510處在階段 i 中對第（L-（i-1）d-1）層至第（L-id）層進行修整。在520處，執行微調。在530處，判斷訓練誤差是否已停止（自前一階段）減少一定量。若是，則在540處判斷階段的總數目乘以每一階段修整的層是否大於或等於層的總數目（「（id ＞= L）?」）。若在530處訓練誤差未停止減小，則方法返回至520處進行微調。

若在540處確定階段的總數目乘以每一階段修整的層大於或等於層的總數目（「（id ＞= L）?」），則過程結束並在565處輸出經修整的卷積神經網路模型。若在540處確定階段的總數目乘以每一階段修整的層小於層的總數目（「（id ＞= L）?」），則方法在550處開始下一階段（「i = i+1」）。

圖6A及圖6B示出根據本揭露實施例，網路修整方法之間的一些差異。

在圖6A中，根據本揭露的實施例，每一階段對卷積神經網路的一個層進行修整，且在每一階段之間執行微調。相比之下，圖6B中的卷積神經網路的所有的層同時經過微調及修整二者。如圖6B所示同時對所有的層進行調整及修整較圖6A所示方案複雜得多。

級聯網路修整是藉由對來自各個層的全部濾波器進行修整來完成。為恢復任何損失的準確度，逐層進行修整，在修整每一層或每一組層之後進行微調直至收斂。

圖7示出根據本揭露實施例的執行濾波器修整的示例圖。

如圖7所示，一旦濾波器被修整，相鄰的層亦將受到影響。在圖7中，自第 i 層對濾波器710（虛線所示區塊）進行修整。當 n_i = n_i-1 - 1時，第（ i +1）層中的一些權重720（在濾波器內由虛線指示）亦將被修整。因此，對第 i 層中的濾波器進行修整將降低第 i 層及第（ i +1）層二者的計算成本。在卷積神經網路中，第（ i +1）層的輸入通道的數目等於第 i 層的濾波器（輸出通道）的數目。

在圖7中，假設在修整之前在第 i 層中存在 n_i = 4個濾波器及 n_i-1 = 5個輸入通道，且在第（ i +1）層中存在 n_i+1 = 10個濾波器及 n_i = 4個輸入通道。若自第 i 層對濾波器710進行修整，則經修整的 n_i 將減小至3，且 n_i+1 仍為10。第（ i +1）層中的切片720是經修整的權重，所述權重對應於乘法。如在上一部分所提及，在第 i 層中將存在乘法，且在第（ i +1）層中將存在乘法。由於 n₁ 減小，因此第 i 層及第（ i +1）層二者中的乘法的數目亦會減少。

使用適當的標準來決定欲對哪一些濾波器進行修整。在此實施例中，使用相對重要性量度（measurement of relative importance）。更具體而言，第 i 層中的第 j 個濾波器的相對重要性 R_i,j 是由第 j 個濾波器中的所有權重的平方和來定義的，其中 W_i,j 是第 i 層中的第 j 個濾波器的權重矩陣，如方程式（1）所示：…（1）

因此， R_i,j 最小的濾波器被移除。如上所述，當自第 i 層對濾波器710進行修整時，第（ i +1）層中的一些權重720亦將被修整，進而得出 W ' _i _{+1, j} 。因此，當計算 R_i _{+1, j} 時，在方程式（3）中使用未經修整的權重 W_i _{+1, j} （亦被稱為「獨立修整（independent trimming）」），或者在方程式（2）中使用經修整的權重 W ' _i _{+1, j} ：…（2）

以下演算法提供自各個層修整濾波器的迭代過程的示例性高階說明。濾波器修整演算法

利用不同的速率/閾值及，可形成不同的經修整模型。由於濾波器修整會影響相鄰的層，因此在使用濾波器修整的大部分情形中將需要進行微調來挽回準確度。相比之下，權重修剪（weight pruning）具有相對較小的影響。在適當的修整速率（例如，小於0.2）的條件下，即使不進行微調，準確度亦不會降低過多。III. 擴張卷積

擴張卷積（亦被稱為「空洞卷積（à trous convolution）」）是最初為進行小波分解（wavelet decomposition）而開發的一種類型的卷積（參見，霍爾斯內德·M.（Holschneider, M.）；克蘭德-馬爾蒂納·R.（Kronland-Martinet, R.）；莫萊·J.（Morlet, J.）；及切阿米安·Ph.（Tchamitchian, Ph.）利用小波變換進行的訊號分析的即時演算法（ A Real-Time Algorithm for Signal Analysis with the Help of the Wavelet Transform ），收錄於《小波：時頻方法及相位空間》（WAVELETS: TIME-FREQUENCY METHODS AND PHASE SPACE）中，J.M.孔布（J.M. Combes）等人編輯，第286頁至第297頁（1987），所述參考文獻全文倂入本案供參考），但已被應用於語義分割（semantic segmentation），特別是為獲得密集特徵（參見，例如，餘·費舍爾（Yu, Fisher）、及科爾頓·弗拉德連（Koltun, Vladlen），基於擴張卷積進行多尺度背景聚合（ Multi-scale context aggregation by dilated convolutions ），2016國際學習表達會議（Int’l Conference on Learning Representations，ICLR）（在下文中被稱為「餘等人2016」），所述參考文獻全文倂入本案供參考）。

在由未進行池化（pooling）的卷積層構成的純卷積網路（purely convolutional network）中，各單元的接受域可僅線性地逐層生長，乃因特徵映射圖是基於對來自輸入的相鄰的畫素進行卷積而產生。增大接受域的可行方式是對來自較大區的輸入畫素進行卷積。此相似於在擴張卷積中使用‘擴張核（dilation kernel）’，而非使用傳統的密集核（dense kernel）進行傳統卷積。

假定 F 是離散函數， K 是卷積核，且擴張卷積| 是典型卷積的廣義版本，如以下方程式（3）所定義，其中 d 是擴張因數（dilation factor）。傳統卷積是簡單的1擴張卷積（simple 1-dilated convolution）（即，當d = 1時）。…（3）

在卷積神經網路中應用擴張卷積的一個優點在於擴張版本具有較大的接受域，如圖8A及圖8B所示。擴張卷積濾波器是藉由對原始濾波器進行升採樣（即，藉由在原始濾波器的元素之間插入零）獲得。因此，藉由設計，擴張濾波器具有由零元素構成的結構化圖案。相較於其中零元素具有隨機圖案及位置的權重修剪而言，擴張濾波器具有權重為零的結構化圖案，且對於降低硬體及軟體的計算複雜度而言有用得多。由此，為實現超級解析度，本揭露的實施例利用與濾波器的通常用法不同的方式來部署擴張濾波器，此藉由以下方式來達成：保持與未擴張的濾波器相同的接受域且轉而使用所述相同的接受域來相較於具有相同接受域的未擴張濾波器而言降低計算複雜度。

圖8A及圖8B分別示出根據本揭露實施例的擴張卷積與傳統卷積之間的一些差異。在圖8B中，傳統卷積利用步幅2執行，而在圖8A中，存在根據本揭露實施例的具有步幅1的2-擴張卷積（2-dilated convolution）（意指以每2個畫素為單位而非以每一個畫素為單元來應用卷積中的乘法與累加運算）。儘管圖8A與圖8B具有相同的特徵映射圖大小（經過填充以獲得擴張版本），然而，相較於卷積1，2-擴張特徵映射圖的接受域較大。在卷積神經網路中，輸入及輸出是二維（2 dimension，2-D）特徵映射圖，因此圖8A或圖8B僅位於x方向或y方向上。

圖8B示出具有大小為3的核及步幅2的傳統卷積的實例，在所述傳統卷積中，輸入是7-畫素訊號（由7個圓圈表示）。在圖8B中，每3個相鄰的畫素與核進行卷積（由連接線指示）且接著產生特徵映射圖的輸出（正方形），此以第一畫素至第三畫素（具有線紋的圓圈）以及特徵映射圖的第一輸出（具有線紋的正方形）起始。圖8B中的下一卷積是第三畫素至第五畫素，乃因步幅為2，且特徵映射圖的下一輸出（黑色正方形）由3個元素組成，即具有接受域3。

相比之下，圖8A示出具有大小為3的核及步幅1的2擴張卷積的實例。在d- 擴張卷積中，每d 個畫素應用一次卷積。舉例而言，在2-擴張卷積中，每2個畫素應用一次卷積。因此特徵映射圖的第一輸出（具有線紋的正方形）是藉由將第一畫素、第三畫素、及第五畫素（具有線紋的圓圈）與3 ´ 3核進行卷積而產生。接著下一輸出（黑色正方形）是藉由對第二畫素、第四畫素、及第六畫素進行卷積而產生。

在其中卷積神經網路中所有的層均是具有步幅1的卷積的實施例中，可以不同的方式應用擴張卷積。若使用1擴張卷積，假定 k ´ k 卷積核具有步幅1，則所得特徵映射圖的接受域是 k ´ k 。若使用2擴張卷積，假定 k ´ k 卷積核具有步幅1，則所得特徵映射圖的接受域是。舉例而言，圖4A及圖4B中的經級聯訓練的超級解析度卷積神經網路的具有9 ´ 9卷積核的1擴張層410及具有5 ´ 5卷積核的1擴張層413可轉而分別由具有卷積核5 ´ 5的2擴張層及具有卷積核3 ´ 3的2擴張層取代。所得網路將具有相同大小的接受域，但會因較小的核大小而具有較少參數。

因此，在一個實施例中，一旦訓練出具有9 ´ 9 1-擴張層及兩個5 ´ 5 1-擴張層的經級聯訓練的超級解析度卷積神經網路，便可在執行微調之前由5 ´ 5 2-擴張層及兩個3 ´ 3 2-擴張層來取代該些層。不同於「餘等人2016」，根據本揭露實施例的擴張式經級聯訓練的超級解析度卷積神經網路不需要在擴張層中進行任何零填充。

如上所述，諸多研究人員正試圖藉由例如使用更多層（例如，VDSR）或深度遞歸結構（例如，DRCN）來提高超級解析度卷積神經網路的準確度及效率。其他研究人員相似地提出使用更複雜的網路。王兆文（Wang, Zhaowen）；劉丁（Liu, Ding）；楊建超；韓偉（Han, Wei）；及黃·托馬斯，基於利用稀疏先驗的影像超級解析度的深度網路（ Deep networks for image super-resolution with sparse prior ），2015 IEEE國際電腦視覺會議（Int’l Conference on Computer Vision，ICCV），第370頁至第378頁（所述參考文獻倂入本案供參考）將稀疏表示先驗（sparse representation prior）與基於所學習的迭代收縮及閾限演算法的前饋網路整合在一起。VDSR將層數目增加至20且利用可調整的梯度裁剪來使用小的濾波器及高的學習速率；同一團隊亦利用在DRCN中進行遞歸監督（recursive-supervision）及跳躍連接（skip-connection）來設計一種深度遞歸卷積神經網路。達爾·瑞安（Dahl, Ryan）；諾羅奇·穆罕默德（Norouzi, Mohammad）；及施倫斯·喬納斯（Shlens, Jonathon），畫素遞歸 超級解析度（ Pixel Recursive Super Resolution ），arXiv 1702.00783[2017年3月22日]（所述參考文獻倂入本案供參考）將殘差網路（ResNet）與畫素遞歸超級解析度進行組合，此在其中向底層（bed）影像應用超級解析度的情形中在表面（face）及底層超級解析度方面表現出令人滿意的結果。

其他人偏好對訓練誤差使用感知損失（perception loss）而非均方誤差（MSE），感知損失更接近自然紋理（natural texture）及人類視覺。蘇德比·卡斯伯（Sønderby, Casper）；卡巴列儂·喬斯（Caballero, Jose）；泰斯·盧卡斯（Theis, Lucas）；石文哲（Shi, Wenzhe）；及華莎·費倫茨（Huszár, Ferenc），基於影像超級解析度的分散償還映射圖推斷（ Amortised MAP Inference for Image Super-resolution ），arXiv 1610.04490[2017年2月21日]（所述參考文獻倂入本案供參考）介紹了分散償還映射圖推斷的方法，所述方法使用卷積神經網路直接計算映射圖估算值。約翰遜·賈斯汀（Johnson, Justin）；阿拉黑·亞歷山大（Alahi, Alexandre）；及李飛飛（Fei-Fei, Li），即時風格轉換與超級解析度的感知損失（ Perceptual losses for real-time style transfer and super-resolution ），2016，歐洲電腦視覺會議，第694頁至第711頁（所述參考文獻倂入本案供參考）提出使用感知損失函數來訓練前饋網路以進行影像轉換任務。萊迪希·基斯頓（Ledig, Christian）等人，使用生成式對抗網路的照片級真實感的單幅影像超級解析度（ Photo-realistic single image super-resolution using a generative adversarial network ），arXiv 1609.04802[2017年4月13日]（所述參考文獻倂入本案供參考）採用極深殘差網路（residual network，ResNet），且進一步呈現了超級解析度產生式對抗網路（super resolution generative adversarial network，SRGAN）來獲得與自然紋理相似的影像。

然而，儘管以上列出的成果提高了超級解析度系統的準確度，然而準確度的提高是以更多層/參數及/或更困難的超參數調整程序為代價的。換言之，準確度上的任何進步均會因複雜度的極度增大而被抵消。

其他研究人員致力於藉由提取低解析度空間中的特徵映射圖以及使用升尺度濾波器（upscaling filter）進行訓練來提高效率。石文哲等人，使用高效子畫素卷積神經網路的即時單幅影像及視訊超級解析度（ Real-time Single Image and Video Super-Resolution Using an Efficient sub-pixel convolutional neural network ），2016國際電腦視覺與模式辨識，第1874頁至第1883頁（所述參考文獻倂入本案供參考）介紹了一種高效子畫素卷積層，所述高效子畫素卷積層學習升尺度濾波器的陣列以將低解析度特徵映射圖升尺度至高解析度輸出。董超；呂健勤；及湯曉歐，使超級解析度卷積神經網路加快（ Accelerating the super-resolution convolutional neural network ）， 2016歐洲電腦視覺會議，第391頁至第407頁（所述參考文獻全文倂入本案）（在下文中被稱為「董等人2016b」）藉由添加較小的濾波器、反卷積層（deconvolution layer）、及特徵空間收縮來重新設計超級解析度卷積神經網路以在不損失準確度的條件下加快速度。

然而，由於升尺度層的使用，因此該些網路的補丁大小及背景接受域將相對小。結果，相對於自經升採樣的低解析度空間提取的特徵映射圖而言，所述準確度相對較低。

相比之下，本文所述經級聯訓練的超級解析度卷積神經網路可加深，藉此達成高準確度，而無需對參數進行過多調整。相較於例如以上所列出的解決方案等最先進的解決方案而言，經級聯訓練的超級解析度卷積神經網路的網路大小小得多。經級聯訓練的超級解析度卷積神經網路亦可在單幅圖形處理單元（graphic processing unit，GPU）中對解析度為720 × 480的20圖框/秒至25圖框/秒的視訊進行處理。此種效率可藉由網路修整及擴張卷積進一步得到提高。

在本揭露中，闡述了用於訓練具有高準確度及高效率二者的基於超級解析度的深度卷積神經網路的級聯訓練方法。級聯訓練確保網路可以相對較小的大小持續加深。本文所述網路修整及擴張卷積會進一步降低網路複雜度。關於基準影像（benchmark image）及視訊資料集的實驗結果表明：相較於其他最先進的解決方案，本文中揭露的方法達成相媲美的效能，而速度高得多。

儘管是在影像超級解析度的框架中加以闡述，然而本文所述技術可出於任何類型的目的（例如，去除雜訊（denoising）、或影像恢復）被推及任何類型的卷積神經網路。

圖9示出根據一個實施例的本發明裝置的示例圖。一種裝置900包括至少一個處理器910及一或多個非暫時性電腦可讀取媒體920。所述至少一個處理器910在執行儲存於所述一或多個非暫時性電腦可讀取媒體920上的指令時，執行以下步驟：訓練具有三或更多個層的卷積神經網路；對經訓練的卷積神經網路執行級聯訓練，以添加一或多個中間層直至訓練誤差小於閾值；以及對由級聯訓練輸出的卷積神經網路執行網路修整。另外，所述一或多個非暫時性電腦可讀取媒體920儲存用於使所述至少一個處理器910執行以下步驟的指令：訓練具有三或更多個層的卷積神經網路；對經訓練的卷積神經網路執行級聯訓練，以添加一或多個中間層直至訓練誤差小於閾值；以及對由級聯訓練輸出的卷積神經網路執行網路修整。

圖10示出根據一個實施例的用於對本發明裝置進行製造及測試的示例性流程圖。

在1050處，製造所述裝置（在本例中為上述晶片組），所述裝置包括至少一個處理器以及一或多個非暫時性電腦可讀取媒體。在執行儲存於所述一或多個非暫時性電腦可讀取媒體上的指令時，所述至少一個處理器執行以下步驟：訓練具有三或更多個層的卷積神經網路；對經訓練的卷積神經網路執行級聯訓練，以添加一或多個中間層直至訓練誤差小於閾值；以及對由級聯訓練輸出的卷積神經網路執行網路修整。所述一或多個非暫時性電腦可讀取媒體儲存用於使所述至少一個處理器執行以下步驟的指令：訓練具有三或更多個層的卷積神經網路；對經訓練的卷積神經網路執行級聯訓練，以添加一或多個中間層直至訓練誤差小於閾值；以及對由級聯訓練輸出的卷積神經網路執行網路修整。

在1060處，對所述裝置（在本例中為晶片組）進行測試。測試步驟1060包括測試所述裝置是否具有至少一個處理器，以及測試所述裝置是否具有一或多個非暫時性電腦可讀取媒體，所述至少一個處理器在執行儲存於所述一或多個非暫時性電腦可讀取媒體上的指令時執行以下步驟：訓練具有三或更多個層的卷積神經網路；對經訓練的卷積神經網路執行級聯訓練，以添加一或多個中間層直至訓練誤差小於閾值；以及對由級聯訓練輸出的卷積神經網路執行網路修整，所述一或多個非暫時性電腦可讀取媒體儲存用於使所述至少一個處理器執行以下步驟的指令：訓練具有三或更多個層的卷積神經網路；對經訓練的卷積神經網路執行級聯訓練，以添加一或多個中間層直至訓練誤差小於閾值；以及對由級聯訓練輸出的卷積神經網路執行網路修整。

如此項技術中具有通常知識者應理解，端視具體實施例及/或實作方式而定，關於本揭露實施例的上述步驟及/或操作可按照不同次序或並列地進行或者針對不同時期同時進行等。不同的實施例可以不同的次序或藉由不同的方式或手段來執行各個動作。如此項技術中具有通常知識者應理解，一些圖式是所執行動作的簡化表示形式，在本文中簡要概述了對所述圖式的描述，且現實世界的實作方式將複雜得多、需要更多階段及/或部件，且亦將端視對具體實作方式的要求而變化。作為簡化表示形式，該些圖式未示出其他所需要的步驟，乃因該些所需要的步驟可為此項技術中具有通常知識者習知及理解的且可與本說明無關及/或無助於本說明。

相似地，如此項技術中具有通常知識者應理解，一些圖式為僅示出相關部件的簡化方塊圖，且該些部件中的一些僅表示此項技術中眾所習知的功能及/或操作而非實際的硬體。在該些情形中，可以各種方式及/或方式的組合來實作或提供部件/模組中的一些或全部，例如至少局部地以韌體及/或硬體來實作或提供，包括但不限於一或多個應用專用積體電路（application-specific integrated circuit，「ASIC」）、標準積體電路、執行適當指令並包括微控制器及/或嵌式控制器在內的控制器、現場可程式化閘陣列（field-programmable gate array，「FPGA」）、複雜可程式化邏輯元件（complex programmable logic device，「CPLD」）等。亦可將系統部件及/或資料結構中的一些或全部作為內容（例如，作為可執行的或其他機器可讀取的軟體指令或結構化資料）儲存於非暫時性電腦可讀取媒體（例如，硬碟、記憶體、電腦網路或蜂巢式無線網路或者其他資料傳輸媒體、或者欲由適當驅動機或經由適當連線讀取的可攜式媒體製品（例如數位多功能光碟（Digital Versatile Disc，DVD）或快閃記憶體元件））上，以使電腦可讀取媒體及/或一或多個相關聯計算系統或元件能夠或者被配置成執行或以其他方式使用或提供所述內容，以執行所述技術中的至少一些技術。

可單獨地或以多處理配置形式（multi-processing arrangement）採用一或多個處理器、簡單的微控制器、控制器等來執行儲存於非暫時性電腦可讀取媒體上的指令序列以實作本揭露的實施例。在一些實施例中，可使用硬接線式電路系統來代替軟體指令或與軟體指令組合。因此，本揭露的實施例並非僅限於硬體電路系統、韌體、及/或軟體的任何具體組合。

本文所用的用語「電腦可讀取媒體」指代儲存有可供處理器執行的指令的任何媒體。此種媒體可呈現諸多形式，包括但不限於非揮發性媒體及揮發性媒體。非暫時性電腦可讀取媒體的常用形式包括例如軟碟、軟性磁碟（flexible disk）、硬碟、磁帶、或任何其他磁性媒體、光碟唯讀記憶體（Compact Disc Read-Only Memory，CD-ROM）、任何其他光學媒體、打孔卡片（punch card）、紙帶、任何其他具有孔圖案的實體媒體、隨機存取記憶體（random access memory，RAM）、可程式化唯讀記憶體（programmable read-only memory，PROM）、及可抹除可程式化唯讀記憶體（erasable programmable read-only memory，EPROM）、快閃-可抹除可程式化唯讀記憶體（FLASH erasable programmable read-only memory，FLASH-EPROM）、任何其他記憶體晶片或記憶體匣、或上面儲存有可由處理器執行的指令的任何其他媒體。

可至少部分地在可攜式元件上實作本揭露的一些實施例。本文所述的「可攜式元件」及/或「行動元件」指代任何能夠接收無線訊號的可攜式或可移動電子元件，包括但不限於多媒體播放機、通訊元件、計算元件、導航元件等。因此，行動元件包括（但不限於）用戶設備（user equipment，UE）、膝上型電腦、平板電腦、可攜式數位助理（portable digital assistant，PDA）、mp3播放機、手持個人電腦（personal computer，PC）、即時傳訊元件（instant messaging device，IMD）、蜂巢式電話、全球導航衛星系統（global navigational satellite system，GNSS）接收器、手錶、或任何可隨身穿戴及/或攜帶的此種元件。

如此項技術中具有通常知識者根據本揭露應理解，可在積體電路（integrated circuit，IC）（亦被稱為微晶片、矽晶片、電腦晶片、或僅僅稱為「晶片」）中實作本揭露的各種實施例。此種積體電路可為例如寬頻及/或基頻數據機晶片。

儘管已闡述了若干實施例，然而應理解，在不背離本揭露的範圍的條件下可作出各種潤飾。因而，對此項技術中具有通常知識者而言將顯而易見的是，本揭露並非僅限於本文所述任意實施例，而是具有僅由隨附申請專利範圍及其等效範圍界定的範圍。附錄：實驗驗證 A . 級聯訓練表A-II. 以組14、級別3進行的級聯訓練與傳統訓練之間的比較

在表A-II中，將根據本揭露的經級聯訓練的卷積神經網路的峰值訊號對雜訊比/結構相似性量度與來自VDSR的具有未監督的權重初始化的未經級聯訓練的卷積神經網路進行比較。可看出在相同的網路架構的條件下，經級聯訓練的超級解析度卷積神經網路的峰值訊號對雜訊比/結構相似性量度明顯比非級聯訓練的情況更佳。

圖11是示出根據本揭露實施例的經級聯訓練的卷積神經網路的收斂速度與未經級聯訓練的卷積神經網路的收斂速度之間的對比的示例圖。發現經級聯訓練的超級解析度卷積神經網路相較於未經級聯訓練的超級解析度卷積神經網路而言收斂得更快。經級聯訓練的超級解析度卷積神經網路的準確度在使用更多層時持續提高。此表明級聯網路訓練亦訓練越來越深的超級解析度卷積神經網路。級聯網路訓練在準確度與收斂速度二者方面相較於傳統訓練而言效能更佳。

在表A-III中，以級別3來將根據本揭露的經級聯訓練的超級解析度卷積神經網路-13的參數的數目、峰值訊號對雜訊比、結構相似性量度、及每一影像的時間與已知超級解析度網路進行比較。表A-III. 以組14、級別3進行的級聯訓練與現有網路的比較 B. 級聯網路修整

表A-IV示出經級聯修整的經級聯訓練的超級解析度卷積神經網路（在所述網路中對13個層中的4個層進行了修整）達成了與未經級聯修整的經級聯訓練的超級解析度卷積神經網路相似的效能，但是網路大小減小了20%。根據本揭露的級聯網路修整亦應用於另一網路，即，快速超級解析度卷積神經網路（fast super resolution convolutional neural network，FSRCNN）（參見「董等人2016b」）。此網路由7個卷積層以及一個反卷積層組成。與以上根據本揭露實施例對經級聯訓練的超級解析度卷積神經網路進行修整相似，在每一階段中亦對快速超級解析度卷積神經網路的2個層進行修整。表A-IV示出根據本揭露的網路級聯修整對快速超級解析度卷積神經網路亦有效。表A-IV. 以組14、級別3進行的對經級聯修整網路的評估

在修整速率與準確度之間存在折衷。若只對2個層（第7層及第8層）進行修整，則幾乎不存在準確度損失，同時移除30%的參數。若對全部8個層進行修整（經級聯修整的快速超級解析度卷積神經網路8層，修整8個層），則相較於官方模型（快速超級解析度卷積神經網路官方簡化版本）而言準確度仍較佳，且具有較小的網路大小（3,400個參數相較於3,900個參數）。C. 擴張卷積

表A-V示出擴張13層經級聯訓練的超級解析度卷積神經網路的實驗結果。對第一個9 ´ 9層、第二個5 ´ 5層、及最後一個5 ´ 5層應用擴張。轉而，利用5 ´ 5 2擴張卷積層、3 ´ 3 2擴張卷積層、及3 ´ 3 2擴張卷積層。可看出經級聯訓練的超級解析度卷積神經網路的擴張版本可達成與未擴張版本相似的峰值訊號對雜訊比/結構相似性量度，但是網路大小明顯減小。表A-V. 以組14、級別3進行的對擴張經級聯訓練的超級解析度卷積神經網路的評估

110、120、130、140、150、205、210、220、230、240、250、255、505、510、520、530、540、550、565、1050、1060‧‧‧步驟

310‧‧‧第一卷積神經網路的頂部

410‧‧‧第一層/1擴張層

413‧‧‧第二層/1擴張層

415‧‧‧第三層/最後的32個5´ 5濾波器層

710‧‧‧濾波器

720‧‧‧權重/切片

900‧‧‧裝置

910‧‧‧處理器

920‧‧‧非暫時性電腦可讀取媒體

結合附圖閱讀以下詳細說明，本揭露的某些實施例的以上及其他態樣、特徵、及優點將更顯而易見，在所述附圖中：圖1示出根據一個實施例的用於構建經級聯訓練的超級解析度卷積神經網路（cascade trained super resolution convolutional neural network，CT-SRCNN）的方法的示例性方塊圖。圖2示出根據一個實施例的級聯訓練的示例圖。圖3A及圖3B示出現有的訓練方法與根據實施例的級聯訓練之間的一些差異。圖4A及圖4B示出分別在根據本揭露實施例的級聯訓練之後的起始卷積神經網路及末尾卷積神經網路。圖5示出根據本揭露實施例的級聯網路修整的示例圖。圖6A及圖6B示出根據本揭露實施例，網路修整方法之間的一些差異。圖7示出根據本揭露實施例的執行濾波器修整的示例圖。圖8A及圖8B分別示出根據本揭露實施例的擴張卷積與傳統卷積之間的一些差異。圖9示出根據一個實施例的本發明裝置的示例圖。圖10示出根據一個實施例的用於對本發明裝置進行製造及測試的示例性流程圖。圖11是示出本揭露的附錄中所論述的實驗中的根據本揭露實施例的經級聯訓練的卷積神經網路的收斂速度與未經級聯訓練的卷積神經網路的收斂速度之間的對比的示例圖。

Claims

一種產生卷積神經網路（CNN）的方法，包括：訓練具有三或更多個層的卷積神經網路；以及對經訓練的所述卷積神經網路執行級聯訓練，以在所述卷積神經網路中插入一或多個中間層直至訓練誤差小於閾值，其中所述級聯訓練包括具有一或多個階段的級聯訓練迭代過程，其中所述級聯訓練迭代過程的所述階段中的每一階段包括：訓練當前卷積神經網路；判斷所述訓練誤差是否收斂；以及若所述訓練誤差收斂，則在所述當前卷積神經網路中插入預設數目的中間層，所述中間層中的每一者的權重被設定成預定設定值；以及開始所述級聯訓練迭代過程的新階段。
如申請專利範圍第1項所述的方法，其中所述級聯訓練迭代過程的所述階段中的每一階段更包括：若所述訓練誤差不收斂，則判斷所述訓練誤差是否小於所述閾值；若所述訓練誤差小於所述閾值，則輸出所述當前卷積神經網路作為經級聯訓練的卷積神經網路；以及若所述訓練誤差不小於所述閾值，則開始所述級聯訓練迭代過程的新階段。
如申請專利範圍第2項所述的方法，其中所述中間層中的每一者的所述權重是使用平均值為零且具有標準差s 的高斯分佈來隨機地初始化。
如申請專利範圍第1項所述的方法，其中所述卷積神經網路是用於處理影像或視訊中的至少其中之一的超級解析度卷積神經網路（SRCNN）。
如申請專利範圍第1項所述的方法，更包括：在執行所述級聯訓練之後，執行級聯網路修整。
如申請專利範圍第5項所述的方法，其中級聯網路修整包括具有一或多個階段的級聯網路修整迭代過程，其中所述級聯網路修整迭代過程的所述階段中的每一階段包括：藉由減小所述一或多個中間層處的濾波器的維度來修整所述當前卷積神經網路的設定數目的層；判斷所述訓練誤差是否收斂；以及若所述訓練誤差收斂，則判斷是否所述當前卷積神經網路的所有所述層均已經過修整；若所述當前卷積神經網路的所有所述層均已經過修整，則輸出所述當前卷積神經網路作為經網路修整的卷積神經網路；以及若並非所述當前卷積神經網路的所有所述層均已經過修整，則開始所述級聯網路修整迭代過程的新階段。
如申請專利範圍第6項所述的方法，其中所述級聯網路修整迭代過程更包括：若所述訓練誤差不收斂，則在所述級聯網路修整迭代過程的其中所述訓練誤差最後出現收斂的階段處輸出所述卷積神經網路。
如申請專利範圍第1項所述的方法，其中所述級聯訓練是使用擴張卷積濾波器來執行。
一種產生卷積神經網路（CNN）的方法，包括：訓練具有三或更多個層的卷積神經網路；以及執行經訓練的所述卷積神經網路的級聯網路修整，其中所述級聯網路修整包括具有一或多個階段的級聯網路修整迭代過程，其中所述級聯網路修整迭代過程的所述階段中的每一階段包括：藉由減小一或多個中間層處的濾波器的維度來修整當前卷積神經網路的設定數目的層；判斷訓練誤差是否收斂；以及若所述訓練誤差收斂，則判斷是否所述當前卷積神經網路的所有所述層均已經過修整；若所述當前卷積神經網路的所有所述層均已經過修整，則輸出所述當前卷積神經網路作為經網路修整的卷積神經網路；以及若並非所述當前卷積神經網路的所有所述層均已經過修整，則開始所述級聯網路修整迭代過程的新階段。
如申請專利範圍第9項所述的方法，其中所述級聯網路修整迭代過程更包括：若所述訓練誤差不收斂，則在所述級聯網路修整迭代過程的其中所述訓練誤差最後出現收斂的階段處輸出所述卷積神經網路。
如申請專利範圍第9項所述的方法，其中所述級聯網路修整迭代過程的所述階段中的每一階段更包括：在判斷所述訓練誤差是否收斂之前進行微調。
如申請專利範圍第9項所述的方法，其中修整所述當前卷積神經網路的所述設定數目的層包括：對於每一層，修整不滿足特定標準的濾波器。
如申請專利範圍第12項所述的方法，其中所述特定標準包括相對重要性量度。
如申請專利範圍第9項所述的方法，其中所述卷積神經網路是用於處理影像或視訊中的至少其中之一的超級解析度卷積神經網路（SRCNN）。
如申請專利範圍第9項所述的方法，更包括：在所述級聯網路修整之前，執行級聯訓練。
如申請專利範圍第15項所述的方法，其中所述級聯訓練包括一或多個階段的迭代過程，其中所述級聯訓練迭代過程的所述階段中的每一階段包括：訓練所述當前卷積神經網路；判斷所述訓練誤差是否收斂；以及若所述訓練誤差收斂，則在所述當前卷積神經網路中插入預設數目的中間層，所述中間層中的每一者的權重被設定成預定設定值；以及開始所述級聯訓練迭代過程的新階段。
如申請專利範圍第16項所述的方法，其中所述級聯訓練迭代過程的所述階段中的每一階段更包括：若所述訓練誤差不收斂，則判斷所述訓練誤差是否小於所述閾值；若所述訓練誤差小於所述閾值，則輸出所述當前卷積神經網路作為經級聯訓練的卷積神經網路；以及若所述訓練誤差不小於所述閾值，則開始所述級聯訓練迭代過程的新階段。
如申請專利範圍第16項所述的方法，其中所述中間層中的每一者的所述權重是使用平均值為零且具有標準差s 的高斯分佈來隨機地初始化。
如申請專利範圍第16項所述的方法，其中所述級聯訓練是使用擴張卷積濾波器來執行。
一種產生卷積神經網路（CNN）的裝置，包括：一或多個非暫時性電腦可讀取媒體；以及至少一個處理器，所述至少一個處理器在執行儲存於所述一或多個非暫時性電腦可讀取媒體上的指令時，執行以下步驟：訓練具有三或更多個層的卷積神經網路；對經訓練的所述卷積神經網路執行級聯訓練，以添加一或多個中間層直至訓練誤差小於閾值；以及對由所述級聯訓練輸出的所述卷積神經網路執行網路修整。
如申請專利範圍第20項所述的裝置，其中所述級聯訓練包括具有一或多個階段的級聯訓練迭代過程，其中所述級聯訓練迭代過程的所述階段中的每一階段包括：訓練當前卷積神經網路；判斷所述訓練誤差是否收斂；以及若所述訓練誤差收斂，則在所述當前卷積神經網路中插入預設數目的中間層，所述中間層中的每一者的權重被設定成預定設定值；以及開始所述級聯訓練迭代過程的新階段。
如申請專利範圍第20項所述的裝置，其中所述級聯訓練是使用擴張卷積濾波器來執行。
如申請專利範圍第20項所述的裝置，其中所述級聯網路修整包括具有一或多個階段的級聯網路修整迭代過程，其中所述級聯網路修整迭代過程的所述階段中的每一階段包括：藉由減小所述一或多個中間層處的濾波器的維度來修整當前卷積神經網路的設定數目的層；判斷所述訓練誤差是否收斂；以及若所述訓練誤差收斂，則判斷是否所述當前卷積神經網路的所有所述層均已經過修整；若所述當前卷積神經網路的所有所述層均已經過修整，則輸出所述當前卷積神經網路作為經網路修整的卷積神經網路；以及若並非所述當前卷積神經網路的所有所述層均已經過修整，則開始所述級聯網路修整迭代過程的新階段。
如申請專利範圍第21項所述的裝置，其中所述卷積神經網路是用於處理影像或視訊中的至少其中之一的超級解析度卷積神經網路（SRCNN）。
一種方法，包括：製造晶片組，所述晶片組包括：至少一個處理器，所述至少一個處理器在執行儲存於一或多個非暫時性電腦可讀取媒體上的指令時，執行以下步驟：訓練具有三或更多個層的卷積神經網路；對經訓練的所述卷積神經網路執行級聯訓練，以添加一或多個中間層直至訓練誤差小於閾值；以及對由所述級聯訓練輸出的所述卷積神經網路執行級聯網路修整；以及所述一或多個非暫時性電腦可讀取媒體，儲存所述指令。
一種對裝置進行測試的方法，包括：測試用於產生卷積神經網路（CNN）的裝置是否具有至少一個處理器，所述至少一個處理器在執行儲存於一或多個非暫時性電腦可讀取媒體上的指令時執行以下步驟：訓練具有三或更多個層的卷積神經網路；對經訓練的所述卷積神經網路執行級聯訓練，以添加一或多個中間層直至訓練誤差小於閾值；以及對由所述級聯訓練輸出的所述卷積神經網路執行級聯網路修整；測試用於產生所述卷積神經網路（CNN）的所述裝置是否具有儲存所述指令的所述一或多個非暫時性電腦可讀取媒體。