TWI682359B

TWI682359B - 影像補全方法

Info

Publication number: TWI682359B
Application number: TW107103068A
Authority: TW
Inventors: 賴尚宏; 曾景暐; 林宏縉
Original assignee: 國立清華大學
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2020-01-11
Also published as: TW201933276A; US20190236759A1; US11205251B2

Abstract

一種影像補全方法，其包含以下步驟：建立影像修補模型，並依據複數個物件類型建立複數個條件式生成對抗網路；輸入對應複數個物件類型之訓練影像，對複數個條件式生成對抗網路分別進行破損特徵訓練；輸入待修補影像，經由複數個條件式生成對抗網路分別進行影像修補，產生複數個修補影像；以及判斷複數個修補影像之合理機率，選擇完成影像由輸出界面輸出。

Description

影像補全方法

本發明是關於一種影像補全方法，特別是關於一種藉由不同物件類型所形成之輕量型條件式生成對抗網路(Conditional Generative Adversarial Network,cGAN)來進行影像之修補或編輯的方法，使影像補全能成為更自然且更合理的乾淨影像，以符合使用者之需求。

近年來，影像修補或編輯的方法已選擇以深度學習的方式來進行，然而目前的影像補全方法以通用性為主，以大量未分類的資料訓練後產生的模型來復原破損影像。這樣的作法雖然具有通用性，但修補出來的物件可能仍有瑕疵或是不自然，並且需要大量的訓練資料及大量參數的運算，在效果與實用性上仍有所缺陷。

有鑑於此，如何建立一種以物件類型為基礎的條件式生成對抗網路模型，使其在經過訓練後，能達到以輕量型的深度學習網路來對影像進行補全，完成使用者修補或編輯的需求，將是相關影像處理廠商所希望達成之目標。因此，本發明之發明人思索並設計一種影像補全方法，針對現有技術之缺失加以改善，進而增進產業上之實施利用。

有鑑於上述習知技藝之問題，本發明之目的就是在提供一種影像補全方法，以解決習知之影像補全方法修補出來的物件可能仍有瑕疵或是不自然，並且需要大量的訓練資料及大量參數運算的問題。

根據本發明之一目的，提出一種影像補全方法，其包含以下步驟：於影像處理單元當中設置影像修補模型，並依據複數個物件類型建立複數個條件式生成對抗網路；經由輸入界面分別輸入對應複數個物件類型之訓練影像，讓各複數個條件式生成對抗網路分別進行破損特徵訓練；藉由輸入界面輸入待修補影像，經由複數個條件式生成對抗網路分別進行影像修補，產生複數個修補影像；以及藉由分辨器判斷複數個修補影像之合理機率，選擇完成影像，經由輸出界面輸出。

較佳地，影像修補模型可包含影像轉換模型及判別模型，影像轉換模型將待修補影像轉換成樣本影像，判別模型判斷樣本影像是否符合真實影像。

較佳地，破損特徵訓練可進一步包含以下步驟：藉由遮罩處理單元產生複數個破損類型；對訓練影像進行複數個破損類型的破壞，形成複數個破損影像；以及藉由複數個破損影像與原輸入之訓練影像修正影像修補模型。

較佳地，複數個破損類型可包含文字破損、線條破損、塗鴉破損、隨機破損或任意多邊形破損。

較佳地，對複數個訓練影像的破壞可包含對複數個破損影像旋轉預設角度。

較佳地，藉由輸入界面輸入待修補影像可進一步包含以下步驟：藉由輸入界面於待修補影像上標記修補區域，經由複數個條件式生成對抗網路對修補區域進行影像修補，產生複數個修補影像。

較佳地，藉由輸入界面輸入待修補影像可進一步包含以下步驟：藉由輸入界面於待修補影像上標記抹除區域，抹除抹除區域之影像再經由複數個條件式生成對抗網路對抹除區域進行影像修補，產生複數個修補影像。

較佳地，複數個物件類型可包含車輛、人類、狗、樹木、道路或其組合。

較佳地，複數個物件類型可包含人臉之五官、配戴之配件或其組合。

較佳地，複數個條件式生成對抗網路可分別儲存在資料庫當中，影像處理單元連接至該資料庫，同步存取複數個條件式生成對抗網路以進行影像修補。

承上所述，依本發明之影像補全方法，其可具有一或多個下述優點：

(1)此影像補全方法能利用各種不同物件類型分別建立影像修補的條件式生成對抗網路，使得模型中參數能減少而形成輕量型的深度網路架構，進而減少運算量以提升整體運算效率。

(2)此影像補全方法能夠經由各個條件式生成對抗網路對影像進行修補，再選擇最佳結果作為完成影像輸出，使得修補完成的影像能更接近實際影像，減少影像當中不自然畫面的情況發生。

(3)此影像補全方法能適用在一般電子裝置及手持裝置當中，不會因為龐大的運算量阻礙了裝置的操作，提升了使用上的普及性。

A1、A2‧‧‧修補區域

A3、A4‧‧‧抹除區域

cGAN1~cGANn‧‧‧條件式生成對抗網路

D1~Dn‧‧‧資料庫

G‧‧‧影像修補模型

GT1~GT4‧‧‧原始影像

I1~I4‧‧‧待修補影像

M1‧‧‧線條破損

M2‧‧‧塗鴉破損

M3‧‧‧隨機破損

M4‧‧‧文字破損

M5‧‧‧任意多邊形破損

O1~O4‧‧‧完成影像

R1a~R4a、R1b~R4b、R1c~R4c‧‧‧輸出影像

S1~S4‧‧‧步驟

第1圖係為本發明實施例之影像補全方法之流程圖。

第2圖係為本發明實施例之條件式生成對抗網路之示意圖。

第3圖係為本發明實施例之破損類型之示意圖。

第4圖係為本發明實施例之生成模型與判別模型之示意圖。

第5A圖至第5D圖係為本發明實施例之影像修補結果之示意圖。

第6圖係為本發明實施例之修補區域及抹除區域之示意圖。

為利貴審查委員瞭解本發明之技術特徵、內容與優點及其所能達成之功效，茲將本發明配合附圖，並以實施例之表達形式詳細說明如下，而其中所使用之圖式，其主旨僅為示意及輔助說明書之用，未必為本發明實施後之真實比例與精準配置，故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍，合先敘明。

請參閱第1圖，其係為本發明實施例之影像補全方法之流程圖。如圖所示，多元感測器之錯誤偵測與分類方法包含以下步驟(S1~S4)：

步驟S1：建立影像修補模型，並依據複數個物件類型建立複數個條件式生成對抗網路。首先，進行影像補全的深度學習方法可使用生成對抗網路(Generative Adversarial Network,GAN)，生成對抗網路的特色是具有生成模型g 與判別模型D，除了生成模型來轉換圖像外，判別模型可用來判斷轉換結果與實際圖像的差異，期能取得更為真實的結果。本實施例透過生成對抗網路的基礎，建立影像修補的模型，其模型建立可依據以下方式：以逐個像素l ₁-norm的計算規則作為是對輸入破損影像

進行修補後的產生影像g(

)與實際影像

之間的重建破損(以L _rec表示)，如以下方程式(1)所示：

其中，H及W為影像的尺寸，x及y則為影像的座標。接著，為了判別產生影像g(

)與實際影像

上的差異，進而判斷產生影像是否足以真實或自然到可以欺騙判別模型D，則利用以下的方程式(2)來表示：

同時，為了觸發生成模型g來產生真實的影像，本實施例也最小化D(g(

))與真實標籤之間的誤差，如以下的方程式(3)所示：

綜合上述，本實施例建立影像修補模型為方程式(4)所示：g ^*=arg min_g,D λ_g L _rec+λ_D L _{adv_g}+λ_D L _{adv_d} (4)

其中，λ_g L _rec+λ_D L _{adv_g}為生成模型g而λ_D L _{adv_d}為判別模型D，λ_g及λ_D為平衡損失效應的參數。

在建立上述深度學習的影像修補模型後，接著則是依據不同物件類型來建立各自的條件式生成對抗網路。這裡所述的不同物件類型可包含車輛、人類、狗、樹木、道路或其組合，但本發明不以此為限，使用者可依據影像類型及修補需求建立不同物件類型的條件式生成對抗網路。請參閱第2圖，其係為本發明實施例之條件式生成對抗網路之示意圖。如圖所示，影像修補模型G可包含車輛的條件式生成對抗網路cGAN1、狗的條件式生成對抗網路cGAN2、熊的條件式生成對抗網路cGAN3一直到第n個為組合的條件式生成對抗網路cGANn。這裡的組合可包含多種物件類型，具有較大的綜合性，由於後續訓練時是針對相同類型的訓練影像來訓練各自的深度學習網路，因此針對相同或相似類型的影像修補上，可得到更為接近真實的修補結果。

此外，不同物件類型的條件式生成對抗網路可儲存在不同的資料庫D1~Dn當中，影像處理單元可透過網路連結至各個資料庫D1~Dn來進行後續的特徵訓練及破損修補，藉由同步存取各個條件式生成對抗網路來提升運算效率。這裡所述的資料庫可包含電腦、伺服器當中之記憶體，而影像處理單元則可為電腦或伺服器中的一或多個處理器或多核心處理器。

步驟S2：輸入對應複數個物件類型之訓練影像，對複數個條件式生成對抗網路分別進行破損特徵訓練。由於前一步驟已經將影像修補模型依不同物件類型進行分類，因此同樣參閱第2圖，在針對各個深度學習網路進行訓練時，輸入的訓練影像即依據物件類型有所不同來進行輸入。舉例來說，訓練車輛的條件式生成對抗網路cGAN1時，除了圖中所示的公車影像，也可加入其他不同車輛的影像，例如小客車，使得訓練過程當中都是以車輛相關的影像進行破損影像的訓練。若是欲針對人臉影像來進行修補時，輸入的訓練影像也可以人臉的五官分別建立對應的條件式生成對抗網路，也可以人臉上的配件來增加不同物件，例如眼鏡、口罩、耳環、髮飾等，建立以各自物件為主的修補模型。

另外，在訓練的過程當中，由於破損類型的差異，可進一步解由遮罩處理單元產生不同的破損類型，藉由不同類型的缺陷遮罩模型，使得條件式生成對抗網路對於不同類型的缺陷都能有效地進行修補。請參閱第3圖，其係為本發明實施例之破損類型之示意圖。如圖所示，破損類型主要可分為線條破損M1、塗鴉破損M2、隨機破損M3、文字破損M4或任意多邊形破損M5等，但本發明不以此為限。其中，線條破損M1可為2到4個像素寬度的線條，在水平及垂直方向所形成一定數量交叉的圖案；塗鴉破損M2與線條破損M1類似，具有2到4個像素寬度，但其圖案並非水平或垂直排列，而是不規則的線條；隨機破損M3是指依據比例去除像素的圖案，例如在預定區間中選擇一定比例像素的圖案；文字破損M4則是設計不同大小字型的圖案，同樣可區分在垂直與水平方向上。上述主要是以區部區域的破損類型來形成缺陷遮罩的圖案，另外，任意多邊形破損M5則是以較大整體面積的多邊形來作為遮罩圖案，上述的圖案都可依據90度、180度、270度的旋轉來產生新的圖案。遮罩處理單元產生不同的破損類型後，利用上述遮罩即可對訓練影像進行不同破損類型的破壞，使其成為複數個不同的破損影像，再將破損影像經各複數個條件式生成對抗網路對影像進行修補後，再與原輸入影像進行比較，修正影像修補模型的參數。

步驟S3：輸入待修補影像，經由複數個條件式生成對抗網路分別進行影像修補，產生複數個修補影像。在完成影像修補模型的訓練後，複數個條件式生成對抗網路可儲存在相同或不同的電腦或伺服器當中，而修補模型可以軟體方式安裝在各種電子裝置當中，例如手持裝置的手機、平板電腦，或者一般桌上型電腦、伺服器當中，當進入測試階段或實際操作階段，使用者即可透過上述裝置將待修補的影像輸入，由影像修補程式存取各個條件式生成對抗網路的修補模型，分別對待修補影像進行補全。由於各個條件式生成對抗網路的修補模型是依據不同物件類型進行訓練，其完成訓練的模型也有所差異，因此帶修補影像也會對應各個條件式生成對抗網路產生不同的修補影像。

步驟S4：判斷複數個修補影像之合理機率，選擇完成影像由輸出界面輸出。由於上述步驟產生的複數個修補影像並不相同，因此影像修補程式進一步藉由分辨器來判斷各個修補影像的合理機率，在這部分，判斷的方式包含設置另一判別模型，計算各個結果對應之機率值，經由比較各個條件式生成對抗網路之合理機率值，選擇最佳的修補影像作為完成影像，透過前述的手持裝置或電腦裝置界面輸出。

請參閱第4圖，其係為本發明實施例之生成模型與判別模型之示意圖。如圖所示，本實施例之生成模型g包含多層的卷積、轉換，將輸入的破損圖像

經過生成模型g前半的編碼層擷取出由高至低的不同解析度的特徵，並在後半的解碼層逐漸產生由低至高解析度的結果並輔以編碼層中對應解析度下的特徵以增強輸出結果的圖像結構。判別模型D則判定生成結果g(

)的優劣並提供生成模型g相應的修正方向達成整體模型更佳的表現。以下將進一步說明本實施例之生成模型g與判別模型D的處理架構。

生成模型g主要由三種卷積運算構成，包含虛線方框之正常卷積層(Convolution)、實線方框之跨躍卷積層(Strided Convolution)以及陰影方框之轉置卷積層(Transpose Convolution)，在所有的卷積運算層中皆使用3×3的卷積核。圖中以英文縮寫及數字對各卷積層命名及分組，例如第一組包含第一卷積層Conv1_1、第二卷積層Conv1_2及第一跨躍卷積層SC_1；第二組包含第一卷積層Conv2_1、第二卷積層Conv2_2及第二跨躍卷積層SC_2；第三組包含第一卷積層Conv3_1、第二卷積層Conv3_2、第三卷積層Conv3_3、第四卷積層Conv3_4及第三跨躍卷積層SC_3；第四組至第六組則各自包含一層跨躍卷積層SC_4、SC_5及SC_6。這樣的分組表示經過該組產生後的特徵圖(Feature map)是相同維度的，如每層後面括號數字所示，前兩位數即為解析度，最末位則代表特徵維度。在這當中，正常卷積層與跨躍卷積層兩者目的皆在於將前一層產生的資訊再進一步混合與擴散，隨著越後層的感受野(Receptive field)逐漸擴大，期望捕捉到圖像在不同層次下的特徵。跨越卷積層不同於正常卷積層之處在於跨躍步長設定為2，經過該層後的特徵圖之解析度自然減半，達成更有效資訊交換同時降低了運算複雜度。

轉置卷積層TC之用途在於將前一層的資訊逐層整合，讓逐漸減小的特徵圖解析度擴增回原始輸入解析度，因此將放大倍率設定為2。另外，在此設計上同時使用跳躍連結(Skip connection)將前面對應解析度的特徵圖串上目前轉置卷積的結果繼續向後傳遞，目的在於將最前幾層保有強烈物體結構資訊用來提示及輔助轉置卷積的生成結果，使其能盡量接近原圖結構。本實施例之生成模型g可將破損圖像

輸入後，通過上述卷積、轉換而輸出產生影像g(

)，但本發明卷積層之形式與層數不侷限於圖中所述的架構，對於不同解析度圖像而對生成模型的卷積層類型及層數作出之調整，也應包含於本申請之範圍當中。

判別模型D由實線方框之跨躍卷積層、一點鏈線方框之批次標準化層(Batch normalization)與粗線方框之全連接層(Full connection)構成，跨躍卷積層SC同樣將跨躍步長設為2，將欲判別之產生影像g(

)及實際影像

快速降低解析度以提取不同層次特徵。批次標準化層則包含批次標準化與線性整流函數的組合，由於訓練時是以成批資訊進入，因此每張影像資訊間會有不同的分布，必須透過標準化各層特徵圖來達成有效與穩定的訓練。最後則是使用全連接層將特徵圖接入二分類的真假辦別分類器，藉由判別為真或假的機率來表示產生影像是否合理。

請參閱第5A圖至5D圖，其係為本發明實施例之影像修補結果之示意圖。如第5A圖所示，輸入的待修補影像I1為具有文字破損的影像，依據本發明實施例進行影像補全的方法，輸出的完成影像O1已將原有文字的部分去除，其與原始影像GT1的比較上，即便在左下角的局部放大圖也可看出為更接近真實的修補結果。相較於現有影像修補技術的輸出影像，例如與RED-Net方法(R1a)、Context Encoder方法(R1b)、pix2pix方法(R1c)的比較上，不論在整體效果與局部細部特徵上，本實例的影像補全方法均能取得更為自然的修補效果。

上述現有技術的修補方法，RED-Net方法可參考Xiao-Jiao Mao,Chunhua Shen,and Yu-Bin Yang.“Image restoration using convolutional auto-encoders with symmetric skip connections”arXiv preprint arXiv：1606.08921,2016；Context Encoder方法可參考Deepak Pathak,Philipp Krahenbuhl,Jeff Donahue,Trevor Darrell,and Alexei A Efros.Context encoders：Feature learning by inpainting.arXiv preprint arXiv：1604.07379,2016；pix2pix方法可參考Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A Efros.Image-to-image translation with conditional adversarial networks.arXiv preprint arXiv：1611.07004,2016。

再參閱第5B圖，輸入的待修補影像I2為具有線條破損的影像，依據本發明實施例進行影像補全的方法，輸出的完成影像O2已將線條的部分去除，其與原始影像GT2的比較上已相當接近。相較之下，現有技術的修補方法(同第5A圖)所產生之輸出影像R2a、R2b、R2c，仍能明顯看到原有線條痕跡，並未能達成本發明實施例之修補效果。同樣地，參閱第5C圖，輸入的待修補影像I3 為具有塗鴉破損的影像，依據本發明實施例進行影像補全的方法，輸出的完成影像O3已將塗鴉的部分去除，其與原始影像GT3的比較上已相當接近。相較之下，現有技術的修補方法(同第5A圖)所產生之輸出影像R3a、R3b、R3c均未能達到本發明實施例之修補效果。最後再參閱第5D圖，輸入的待修補影像I4為具有隨機破損的影像，依據本發明實施例進行影像補全的方法，輸出的完成影像O4已將隨機破損的部分去除，其與原始影像GT4的比較上已相當接近。相較之下，現有技術的修補方法(同第5A圖)所產生之輸出影像R4a、R4b、R4c均未能達到本發明實施例之修補效果。

請參閱第6圖，其係為本發明實施例之修補區域及抹除區域之示意圖。如圖所示，本發明實施例以特定修補區域來執行的方式，可以人臉影像的補全方式來做為範例，圖中左側影像為原始的輸入影像，在待修補影像輸入後，使用者可以透過輸入介面，例如觸控面板、滑鼠等，在待修補影像中選擇特定的修補區域，如圖中中間部分所示，經由本發明影像修補方法所提之複數個條件式生成對抗網路對修補區域進行影像修補，產生複數個修補影像，同樣經由分類器判斷最佳影像後，取得圖中右側的完成影像輸出作為修補結果。

詳細來說，如圖中首列的影像，當使用者選擇臉部的眼睛部分作為修補區域A1時，影像修補模型會針對修補區域A1，以各個物件類型的學習網路分別進行修補，再經由判斷最佳修補後產生輸出影像，由圖中可見，原本較為瞇眼的影像經轉換後成為較為有神的影像。同樣地，其下的影像若使用者選擇嘴唇部分作為修補區域A2，則影像修補模型同樣會依據本發明的影像修補模型將嘴唇部分修改為較為自然之影像。

再以圖中下兩列為例，除了前述對於修補區域進行影像修補外，本發明另一實施例可將修補區域改為抹除區域，將抹除區域內之影像抹除。詳細來說，若使用者欲將輸入影像中人臉影像的瀏海部分刪除，可如圖所示，選擇圖中的抹除區域A3，然而抹除該區域的影像後，仍須對該抹除區域A3進行影像修補，得到右側的輸出影像，使得抹除後的影像不會有空白或不自然的畫面。同樣地，針對人臉上所配戴的配件，如眼鏡，也可將其選擇作為抹除區域A4，將眼鏡的影像抹除後，再依據原本影像修補的方式，將影像補全為右側的輸出影像。不論是針對風景、人物或是人臉較細微的影像，都可以本案所揭露的影像補全方法來進行影像的修補或編輯，使其成為自然且符合使用者需求的完成影像。由於將各種物件類型分類成為多個條件式生成對抗網路，在修補模型的建構上能有效降低參數量而形成輕量型的模型架構，進而對深度網路訓練及運算的處理數量與運算數量上都能有所改善。在整體運算效率提升的情況下，也有助於將影像補全的方法建置在一般的電子裝置或手持裝置當中，增加使用上的普及性。

以上所述僅為舉例性，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。

S1~S4‧‧‧步驟

Claims

一種影像補全方法，其包含以下步驟：於一影像處理單元當中設置一影像修補模型，並依據複數個物件類型建立複數個條件式生成對抗網路；經由一輸入界面分別輸入對應該複數個物件類型之一訓練影像，讓各該複數個條件式生成對抗網路分別進行一破損特徵訓練；藉由該輸入界面輸入一待修補影像，經由該複數個條件式生成對抗網路分別進行一影像修補，產生複數個修補影像；以及藉由一分辨器判斷該複數個修補影像之一合理機率，選擇一完成影像，經由一輸出界面輸出。
如申請專利範圍第1項所述之影像補全方法，其中該影像修補模型包含一影像轉換模型及一判別模型，該影像轉換模型將該待修補影像轉換成一樣本影像，該判別模型判斷該樣本影像是否符合一真實影像。
如申請專利範圍第1項所述之影像補全方法，該破損特徵訓練進一步包含以下步驟：藉由一遮罩處理單元產生複數個破損類型；對該訓練影像進行該複數個破損類型的破壞，形成複數個破損影像；以及藉由該複數個破損影像與原輸入之該訓練影像修正該影像修補模型。
如申請專利範圍第3項所述之影像補全方法，其中該複數個破損類型包含文字破損、線條破損、塗鴉破損、隨機破損或任意多邊形破損。
如申請專利範圍第3項所述之影像補全方法，其中對該複數個訓練影像的破壞包含對該複數個破損影像旋轉一預設角度。
如申請專利範圍第1項所述之影像補全方法，藉由該輸入界面輸入該待修補影像進一步包含以下步驟：藉由該輸入界面於該待修補影像上標記一修補區域，經由該複數個條件式生成對抗網路對該修補區域進行該影像修補，產生該複數個修補影像。
如申請專利範圍第1項所述之影像補全方法，藉由該輸入界面輸入該待修補影像進一步包含以下步驟：藉由該輸入界面於該待修補影像上標記一抹除區域，抹除該抹除區域之影像再經由該複數個條件式生成對抗網路對該抹除區域進行該影像修補，產生該複數個修補影像。
如申請專利範圍第1項所述之影像補全方法，其中該複數個物件類型包含車輛、人類、狗、樹木、道路或其組合。
如申請專利範圍第1項所述之影像補全方法，其中該複數個物件類型包含人臉之五官、配戴之配件或其組合。
如申請專利範圍第1項所述之影像補全方法，其中該複數個條件式生成對抗網路分別儲存在一資料庫當中，該影像處理單元連接至各該資料庫，同步存取該複數個條件式生成對抗網路以進行該影像修補。