TWI772805B - 訓練生成對抗網路的方法、產生影像的方法及電腦可讀儲存媒體 - Google Patents
訓練生成對抗網路的方法、產生影像的方法及電腦可讀儲存媒體 Download PDFInfo
- Publication number
- TWI772805B TWI772805B TW109117030A TW109117030A TWI772805B TW I772805 B TWI772805 B TW I772805B TW 109117030 A TW109117030 A TW 109117030A TW 109117030 A TW109117030 A TW 109117030A TW I772805 B TWI772805 B TW I772805B
- Authority
- TW
- Taiwan
- Prior art keywords
- generator
- class
- embedding vector
- type
- output image
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Biodiversity & Conservation Biology (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Train Traffic Observation, Control, And Security (AREA)
- Electric Propulsion And Braking For Vehicles (AREA)
- Silver Salt Photography Or Processing Solution Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本揭露提供一種訓練生成對抗網路的方法、透過使用生成對抗網路產生影像的方法以及電腦可讀儲存媒體。所述方法可利用屬於第一類型類別的可用訓練樣本來訓練生成對抗網路的第一產生器,且將由第一產生器學習的知識共用給第二產生器。因此,即使在訓練第二產生器的期間沒有可用訓練資料,第二產生器仍可進行學習以產生屬於第二類型類別的(偽)影像。
Description
本揭露是有關於一種生成對抗網路(generative adversarial network,GAN),且特別是有關於一種訓練GAN的方法、透過使用GAN產生影像的方法以及電腦可讀儲存媒體。
近年來,GAN以及其變型由於其在各種任務(例如分類影像產生、文字到影像合成、影像到影像轉換以及語義操作)中表現出色而在機器學習和電腦視覺處理領域受到大量關注。GAN或類似物的目的是要學習一種產生器,所述產生器模仿由有限的訓練資料集表示的基礎分佈(underlying distribution)。在改進GAN的穩固性方面,已取得相當大的進步。
然而,在訓練資料未能很好地表示基礎分佈時,即實驗訓練分佈與基礎分佈偏離時,根據代表性不足的訓練資料訓練的GAN類比訓練分佈,而不是基礎分佈。出現這種情況是因為資料獲取需要大量勞動且很難做到徹底。另外,由於數量不足及多樣性不足,訓練資料中可能缺少一些基礎分佈模式。
訓練以類別標記為條件的GAN需要收集每一類別的訓練實例。如果訓練資料中的一些類別不可取得,那麼無法在沒有任何額外資訊的情況下進行學習以產生其表示(representation)。舉例來說,在給頭髮重新著色(或頭髮顏色轉換)的任務中,如果期望訓練用例如紫色的罕見顏色來給頭髮重新著色的影像到影像(image-to-image)轉換模型,那麼需要收集具有那些頭髮顏色的影像。然而,收集所有可能的染髮色以進行任意重新著色是不切實際的。另一實例為如果訓練資料僅由紅色的玫瑰構成,那麼GAN的鑑別器將拒絕其它顏色的玫瑰且無法產生紅色以外的顏色的玫瑰。同時,我們想要確保GAN將不會利用不自然的顏色來產生玫瑰。因此,對於所屬領域中的技術人員來說,重要的是設計一種改進訓練分佈的多樣性以更好地模擬基礎分佈的機制。
有鑑於此,本揭露提供一種訓練GAN的方法、透過使用GAN產生影像的方法以及電腦可讀儲存媒體,其可用於解決上述技術問題。
本揭露提供一種訓練生成對抗網路(GAN)的方法,其中所述GAN包括第一產生器、第二產生器、鑑別器以及預測網路。方法包含:利用第一產生器接收第一隨機輸入和第一類別指示且據以產生第一輸出影像,其中第一產生器和第二產生器均表徵為多個第一神經網路權重,所述第一類別指示指示第一輸出影像對應於第一類型類別,且所述第一類型類別具有可用訓練樣本;利用預測網路預測對應於第一輸出影像的第一語義嵌入向量;透過使第一語義嵌入向量與對應於第一類型類別的第二語義嵌入向量相比較來產生第一比較結果;利用第二產生器接收第二隨機輸入和第二類別指示且據以產生第二輸出影像,其中第二類別指示指示第二輸出影像對應於第二類型類別;利用預測網路預測對應於第二輸出影像的第三語義嵌入向量;透過使第三語義嵌入向量與對應於第二類型類別的第四語義嵌入向量相比較來產生第二比較結果;利用鑑別器經由在第一輸出影像與屬於第一類型類別的至少一參考影像之間進行區分來產生鑑別結果,其中所述鑑別器表徵為多個第二神經網路權重;基於鑑別結果而更新第二神經網路權重;基於所述鑑別結果、所述第一比較結果以及所述第二比較結果而更新所述第一神經網路權重。
本揭露提供一種電腦可讀儲存媒體,記錄待由訓練系統載入的可執行電腦程式以用於訓練包含第一產生器、第二產生器、鑑別器以及預測網路的生成對抗網路(GAN),以執行以下步驟:利用第一產生器接收第一隨機輸入和第一類別指示且據以產生第一輸出影像,其中第一產生器和第二產生器均表徵為多個第一神經網路權重,所述第一類別指示指示第一輸出影像對應於第一類型類別,且所述第一類型類別具有可用訓練樣本;利用預測網路預測對應於第一輸出影像的第一語義嵌入向量;透過使第一語義嵌入向量與對應於第一類型類別的第二語義嵌入向量相比較來產生第一比較結果;利用第二產生器接收第二隨機輸入和第二類別指示且據以產生第二輸出影像,其中第二類別指示指示第二輸出影像對應於第二類型類別;利用預測網路預測對應於第二輸出影像的第三語義嵌入向量;透過使第三語義嵌入向量與對應於第二類型類別的第四語義嵌入向量相比較來產生第二比較結果;利用鑑別器經由在第一輸出影像與屬於第一類型類別的至少一參考影像之間進行區分來產生鑑別結果,其中所述鑑別器表徵為多個第二神經網路權重;基於鑑別結果而更新第二神經網路權重;基於所述鑑別結果、所述第一比較結果以及所述第二比較結果而更新所述第一神經網路權重。
本揭露提供一種透過使用生成對抗網路(GAN)產生影像的方法,所述生成對抗網路包含第一產生器和第二產生器。方法包含:利用第一產生器接收第一隨機輸入和第一類別指示且據以產生第一輸出影像,其中所述第一產生器和所述第二產生器均表徵為多個第一神經網路權重,所述第一類別指示指示第一輸出影像對應於第一類型類別,且所述第一類型類別具有可用訓練樣本;利用預測網路預測對應於第一輸出影像的第一語義嵌入向量;透過使第一語義嵌入向量與對應於第一類型類別的第二語義嵌入向量相比較來產生第一比較結果;利用第二產生器接收第二隨機輸入和第二類別指示且據以產生第二輸出影像,其中所述第二類別指示指示第二輸出影像對應於第二類型類別,且第二類型類別不具有訓練樣本;利用預測網路預測對應於第二輸出影像的第三語義嵌入向量;透過使第三語義嵌入向量與對應於第二類型類別的第四語義嵌入向量相比較來產生第二比較結果;基於所述第一比較結果和所述第二比較結果而更新所述第一神經網路權重。
本揭露提供一種訓練生成對抗網路(GAN)的方法,其中所述GAN包括第一產生器、第二產生器、鑑別器以及顏色估計器。方法包含:利用第一產生器接收第一輸入影像和類別指示且據以經由利用第一目標顏色替換第一輸入影像中的第一特定區的第一顏色來產生第一輸出影像,其中第一目標顏色屬於具有多個訓練顏色樣本的第一類型類別,且第一產生器和第二產生器部分地表徵為多個第一神經網路權重;利用鑑別器基於第一輸出影像而產生鑑別結果和分類結果;利用第二產生器接收第二輸入影像和目標顏色指示且據以經由利用第二目標顏色替換第二輸入影像中的第二特定區的第二顏色來產生第二輸出影像,其中所述第二目標顏色對應於所述目標顏色指示,且所述第二目標顏色不屬於第一類型類別;利用顏色估計器估計對應於第二輸出影像中的第二特定區的區顏色且透過使區顏色與目標顏色相比較來產生顏色比較結果;利用第一產生器根據第二輸出影像和初始類別指示來產生週期影像,且透過使週期影像與第二輸入影像相比較來產生週期一致性結果;基於鑑別結果和分類結果而更新鑑別器;基於所述鑑別結果、所述顏色比較結果以及所述週期一致性結果而更新第一產生器和第二產生器。
本揭露提供一種電腦可讀儲存媒體,記錄待由訓練系統載入的可執行電腦程式以用於訓練包含第一產生器、第二產生器、鑑別器以及顏色估計器的生成對抗網路(GAN),以執行以下步驟:利用第一產生器接收第一輸入影像和類別指示且因此經由利用第一目標顏色替換第一輸入影像中的第一特定區的第一顏色來產生第一輸出影像,其中第一目標顏色屬於具有多個訓練顏色樣本的第一類型類別,且所述第一產生器和所述第二產生器部分地以多個第一神經網路權重為特徵;利用鑑別器基於第一輸出影像而產生鑑別結果和分類結果;利用第二產生器接收第二輸入影像和目標顏色指示且因此經由利用第二目標顏色替換第二輸入影像中的第二特定區的第二顏色來產生第二輸出影像,其中第二目標顏色對應於目標顏色指示,且第二目標顏色不屬於第一類型類別;利用顏色估計器估計對應於第二輸出影像中的第二特定區的區顏色且透過使區顏色與目標顏色相比較來產生顏色比較結果;利用第一產生器根據第二輸出影像和初始類別指示來產生週期影像,且透過使週期影像與第二輸入影像相比較來產生週期一致性結果;基於鑑別結果和分類結果而更新鑑別器;基於所述鑑別結果、所述顏色比較結果以及所述週期一致性結果而更新第一產生器和第二產生器。
本揭露提供一種透過使用生成對抗網路(GAN)產生影像的方法,所述生成對抗網路包含第一產生器和第二產生器。方法包含:利用第一產生器接收第一輸入影像和類別指示且據以經由利用第一目標顏色替換第一輸入影像中的第一特定區的第一顏色來產生第一輸出影像,其中第一目標顏色屬於具有多個訓練顏色樣本的第一類型類別,且預先使用訓練顏色樣本來訓練第一產生器和第二產生器;利用所述第二產生器接收第二輸入影像和目標顏色指示且據以經由利用第二目標顏色替換所述第二輸入影像中的第二特定區的第二顏色來產生第二輸出影像,其中所述第二目標顏色對應於所述目標顏色指示,且所述第二目標顏色不屬於所述第一類型類別。
現將詳細參考本揭露的優選實施例,其實例在附圖中示出。只要可能,相同的附圖標號在各圖及描述中用以指代相同或類似部分。
大致來說,本揭露的訓練GAN的方法將域知識(domain knowledge)整合到GAN框架中。在本揭露中,在類別等級上代表性不足的訓練資料集不具有訓練樣本,即所有訓練樣本屬於多個第一類型類別集,其表示為(例如黑色、棕色、金色頭髮顏色類別或紅色、白色玫瑰類別),而另一多個第二類別集,表示為(例如任何其它頭髮顏色類別或例如藍色玫瑰的不可獲得玫瑰類別)。本揭露的目的是要學習和兩者的分類影像產生。為了產生中的新資料,使用現有基於GAN的方法透過經由第一產生器使GAN損失LGAN最小化來訓練類別條件的產生器(其將稱為第一產生器)。為了產生第二類別,本揭露的方法根據域知識訓練另一產生器(其將稱為第二產生器),所述域知識由明確地測量影像是否具有特定類別的期望特徵的限制函數f表示。
簡單來說,本揭露的方法的概念包含兩個部分:(1)為即將到來的任務構建域知識;以及(2)分別訓練以可用類別和不可用類別為條件的第一產生器和第二產生器。第一產生器和第二產生器共用神經網路權重,使得第一產生器和第二產生器可耦合到一起且將從第一產生器學習的知識傳遞到第二產生器。基於限制函數f,進一步認為表示為LK
的知識損失訓練第二產生器。本揭露的方法的通用目標函數可寫作。
參看圖1,其為示出根據本揭露的第一實施例的訓練GAN的機制的示意圖。在圖1中,GAN 100包含第一產生器、第二產生器、預測網路以及鑑別器。在第一實施例中,第一產生器和第二產生器均表徵為多個第一神經網路權重。也就是說,第一產生器和第二產生器是至少共用第一神經網路權重的兩個產生器。在一實施例中,第一產生器和第二產生器是共用第一神經網路權重的兩個相同的產生器,且因此,一旦第一神經網路權重更新,第一產生器和第二產生器均將更新,但本揭露不限於此。
在第一實施例中,假定GAN 100的結構(具體來說,第一產生器和鑑別器)為頻譜正規化GAN(spectral normalization GAN,SN-GAN),且SN-GAN的細節可參考“Takeru Miyato and Masanori Koyama. cgans with projection discriminator. In ICLR, 2018.” and “Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and Yuichi Yoshida. Spectral normalization for generative adversarial networks. In ICLR, 2018.”,本文中將不重複所述細節。
參看圖2,其繪示根據本揭露的第一實施例的訓練GAN的方法的流程圖。在下文中,將透過使用圖1作為實例來介紹圖2中的步驟的細節,但本揭露不限於此。在本揭露中,圖2的方法可由用於訓練GAN 100的訓練系統(例如電腦裝置)執行。
在步驟S210中,第一產生器可接收第一隨機輸入和第一類別指示且據以產生第一輸出影像,其中,第一類別指示指示第一輸出影像對應於第一類型類別(例如“紅色玫瑰”、“白色玫瑰”),且第一類型類別具有可用訓練樣本(例如紅色/白色玫瑰的影像)。在第一實施例中,第一隨機輸入可以是由表示的隨機雜訊。
在第一實施例中,在步驟S210中執行的過程可表示為。在一個實施例中,第一類別指示可定義為指示第一類型類別的第一獨熱(one-hot)向量。舉例來說,如果第一類別包含“紅色玫瑰”和“白色玫瑰”,那麼第一類別指示可以是用以指示“紅色玫瑰”的[1, 0]或用以指示“白色玫瑰”的[0, 1],但本揭露不限於此。
在另一實施例中,第一類別指示可定義為指示第一類型類別的第一特定語義嵌入向量。舉例來說,如果第一類別包含“紅色玫瑰”和“白色玫瑰”,那麼與“紅色玫瑰”有關的相關文字描述可利用一種機制轉換成對應的句子特徵,所述機制在“Scott Reed, Zeynep Akata, Honglak Lee, and Bernt Schiele. Learning deep representations of fine-grained visual descriptions. In CVPR, 2016.”中教示,且可使對應於“紅色玫瑰”的那些句子特徵平均化以獲得對應於“紅色玫瑰”的語義嵌入向量。類似地,可基於同一原理獲得對應於“白色玫瑰”的語義嵌入向量,本文中將不再重複。
在第一實施例中,可將第一輸出影像視為由第一產生器基於第一隨機輸入(即,z)和第一類別指示而產生的偽影像。舉例來說,如果第一類別指示為指示“紅色玫瑰”的第一特定語義嵌入向量,那麼第一產生器將據以產生紅色玫瑰的偽影像。對於另一實例,如果第一類別指示為指示“白色玫瑰”的第一特定語義嵌入向量,那麼第一產生器將據以產生白色玫瑰的偽影像,但本揭露不限於此。
也就是說,如果預測網路接收影像,那麼預測網路可輸出對應於影像的語義嵌入向量。舉例來說,如果預測網路接收紅色玫瑰影像,那麼由預測網路輸出的第一語義嵌入向量將是對應於“紅色玫瑰”的語義嵌入向量。對於另一實例,如果預測網路接收白色玫瑰影像,那麼由預測網路輸出的第一語義嵌入向量將是對應於“白色玫瑰”的語義嵌入向量。
接著,在步驟S230中,可透過使第一語義嵌入向量與對應於第一類型類別的第二語義嵌入向量相比較來產生第一比較結果。舉例來說,如果第一類別指示指示“紅色玫瑰”,那麼第二語義嵌入向量同樣可對應於“紅色玫瑰”。另外,由於第一類別指示可定義為指示第一類型類別的第一特定語義嵌入向量,因此第二語義嵌入向量可用於定義第一特定語義嵌入向量,即,第一類別指示可與第二語義嵌入向量相同,但本揭露不限於此。
簡單來說,可認為第一比較結果與第一語義嵌入向量與第二語義嵌入向量之間的相似度有關。如果第一產生器產生具有高品質(即,難以識別為偽)的偽影像(例如偽紅色玫瑰影像),那麼第一語義嵌入向量應接近於第二語義嵌入向量,且反過來也是如此。
在步驟S240中,第二產生器可接收第二隨機輸入和第二類別指示且據以產生第二輸出影像,其中所述第二類別指示指示第二輸出影像對應於第二類型類別(例如“藍色玫瑰”),且第二類型類別不具有訓練樣本(例如藍色玫瑰的影像)。在第一實施例中,為了簡便起見,第二隨機輸入同樣可以是由表示的隨機雜訊。
在第一實施例中,在步驟S240中執行的過程可表示為。在一個實施例中,第二類別指示可定義為指示第二類型類別的第二獨熱向量或指示第二類型類別的第二特定語義嵌入向量,且相關細節可參考上述教示內容,本文中將不再重複所述相關細節。
在第一實施例中,可將第二輸出影像視為由第二產生器基於第二隨機輸入(即,z)和第二類別指示而產生的偽影像。舉例來說,如果第二類別指示是指示“藍色玫瑰”的第二特定語義嵌入向量,那麼第二產生器將據以產生藍色玫瑰的偽影像,但本揭露不限於此。
接著,在步驟S260中,可透過使第三語義嵌入向量與對應於第二類型類別的第四語義嵌入向量相比較來產生第二比較結果。舉例來說,如果第二類別指示指示“藍色玫瑰”,那麼第四語義嵌入向量同樣可對應於“藍色玫瑰”。另外,由於第二類別指示可定義為指示第二類型類別的第二特定語義嵌入向量,因此第四語義嵌入向量可用於定義第二特定語義嵌入向量,即,第二類別指示可與第四語義嵌入向量相同,但本揭露不限於此。
簡單來說,可認為第二比較結果與第三語義嵌入向量與第四語義嵌入向量之間的相似度有關。如果第二產生器產生具有高品質(即,難以識別為偽)的偽影像(例如偽藍色玫瑰影像),那麼第三語義嵌入向量應接近於第四語義嵌入向量,且反過來也是如此。
在步驟S270中,鑑別器可經由在第一輸出影像與屬於第一類型類別的參考影像RI之間進行區分來產生鑑別結果DR,其中鑑別器表徵為多個第二神經網路權重。在第一實施例中,參考影像RI可以是屬於第一類型類別的真實影像,例如紅色玫瑰的真實影像,且鑑別器可經配置以在第一輸出影像(例如紅色玫瑰的偽影像)與參考影像RI之間進行區分。簡單來說,鑑別器可配置成確定第一輸出影像和參考影像RI中的哪一個是偽造的。
在步驟S290中,可基於鑑別結果DR、第一比較結果以及第二比較結果更新第一神經網路權重。在第一實施例中,鑑別結果DR可進一步用於制定用於訓練第一產生器和第二產生器的第二損失函數。在第一實施例中,第二損失函數可制定為:,但本揭露不限於此。
因此,在使總損失函數(表示為)最小化的情況下更新第一神經網路權重,其中總損失函數表徵為第二損失函數(即,)、第一語義損失函數(即,)以及第二語義損失函數(即,)。在一個實施例中,總損失函數可制定為:,其中可以是可基於開發人員的要求而配置的係數,但本揭露不限於此。
在已訓練第一產生器和第二產生器之後,第一產生器可在GAN 100的推理(inference)階段中產生對應於第一類型類別的偽影像(例如紅色玫瑰的偽影像)。類似地,第二產生器可能夠在GAN 100的推理階段中產生對應於第二類型類別的偽影像(例如藍色玫瑰的偽影像)。
參看圖3,其繪示根據本揭露的第一實施例的在推理階段中透過使用GAN產生影像的方法的流程圖。為了便於以下論述,將使用圖1中的符號/信號作為實例,但本揭露不限於此。
在其它實施例中,本揭露進一步提供訓練GAN的其它方法,且其細節將在下文中與第二實施例一起論述。
參看圖4,其為示出根據本揭露的第二實施例的訓練GAN的機制的示意圖。在圖4中,GAN 400包含第一產生器、第二產生器、顏色估計器以及鑑別器。在第二實施例中,第一產生器和第二產生器部分地表徵為多個第一神經網路權重,而其細節將於稍後介紹。
在第二實施例中,假定GAN 400的結構(具體來說,第一產生器、第二產生器以及鑑別器)為StarGAN,所述StarGAN在“Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, and Jaegul Choo. StarGAN: Unified generative adversarial networks for multi-domain image-to-image translation. In CVPR, 2018.”中教示,且詳情可參考上述。
參看圖5,其繪示根據本揭露的第二實施例的訓練GAN的方法的流程圖。在下文中,將透過使用圖4作為實例來介紹圖5中的步驟的細節,但本揭露不限於此。在本揭露中,圖5的方法可由用於訓練GAN 400的訓練系統(例如電腦裝置)執行。
在步驟S510中,第一產生器可接收第一輸入影像和類別指示且據以經由利用第一目標顏色替換第一輸入影像中的第一特定區的第一顏色來產生第一輸出影像,其中第一目標顏色屬於具有多個訓練顏色樣本的第一類型類別。在第二實施例中,第一輸入影像可以是人臉影像。
舉例來說,第一類型類別可以是在“Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In ICCV, 2015”中教示的CelebA臉部資料集。也就是說,第一類型類別可包含“黑色頭髮”、“棕色頭髮”以及“金色頭髮”,且訓練顏色樣本可包含具有黑色/棕色/金色頭髮的人的影像,但本揭露不限於此。
在第二實施例中,在步驟S510中執行的過程可表示為。在一個實施例中,類別指示可經定義為指示第一類型類別的獨熱向量。舉例來說,如果第一類別包含“黑色頭髮”、“棕色頭髮”以及“金色頭髮”,那麼第一類別指示可以是用以指示“黑色頭髮”的[1, 0, 0]、用以指示“棕色頭髮”的[0, 1, 0]或用以指示“金色頭髮”的[0, 0, 1],但本揭露不限於此。
在另一實施例中,類別指示可定義為指示第一類型類別的特定語義嵌入向量。舉例來說,如果第一類別包含“黑色頭髮”、“棕色頭髮”以及“金色頭髮”,那麼與“黑色頭髮”有關的相關文字描述可利用一種機制轉換成對應的句子特徵,所述機制在“Scott Reed, Zeynep Akata, Honglak Lee, and Bernt Schiele. Learning deep representations of fine-grained visual descriptions. In CVPR, 2016.”中教示,且可使對應於“黑色頭髮”的那些句子特徵平均化以獲得對應於“黑色頭髮”的語義嵌入向量。類似地,可基於同一原理獲得對應於“棕色頭髮”和“金色頭髮”的語義嵌入向量,本文中將不再重複。
在第二實施例中,可將第一輸出影像視為由第一產生器基於第一輸入影像(即,x)和類別指示而產生的偽影像。舉例來說,如果類別指示是指示“黑色頭髮”的特定語義嵌入向量,那麼第一產生器將據以產生具有黑色頭髮的人臉的偽影像。對於另一實例,如果類別指示是指示“棕色頭髮”的特定語義嵌入向量,那麼第一產生器將據以產生具有棕色頭髮的人臉的偽影像,但本揭露不限於此。
更具體來說,如圖4中所繪示,第一產生器包含第一卷積神經網路(convolutional neural network,CNN)、遮罩網路以及第一組合器。在第二實施例中,第一CNN可基於第一輸入影像和類別指示而產生第一前景影像FI1(其可表示為)。遮罩網路M可產生對應於第一輸入影像的第一機率圖PM1(其可表示為M(x)),其中第一機率圖PM1中的每一像素標記有對應於第一特定區的機率(即,對應於頭髮區的機率)。第一組合器可基於第一機率圖中的第一區而在第一前景影像FI1中取得第一部分影像,基於第一機率圖PM1中的第二區而在第一輸入影像中取得第二部分影像,且將第一部分影像和第二部分影像組合為第一輸出影像。
在步驟S520中,鑑別器D可基於第一輸出影像產生鑑別結果DR和分類結果CR。在第二實施例中,鑑別器D可經由區分第一輸出影像與屬於第一類型類別的真實影像來產生鑑別結果DR。舉例來說,如果類別指示指示“黑色頭髮”,那麼真實影像可以是具有黑色頭髮的人臉的真實影像,且鑑別器可配置成在第一輸出影像(例如具有黑色頭髮的人臉的偽影像)與真實影像之間進行區分。簡單來說,鑑別器可配置成確定第一輸出影像和偽造物中的哪一個是偽造的。
舉例來說,鑑別器D可預測第一輸出影像的類別為“黑色頭髮”、“棕色頭髮”、“金色頭髮”中的一個。接著,鑑別器D可確定預測類別是否符合由類別指示指示的第一類型類別。獲得鑑別結果DR和分類結果CR的細節可參考與StarGAN有關的教示內容,本文中將不再重複所述細節。
因此,基於StarGAN的教示內容,鑑別結果DR和分類結果CR可用於制定用於訓練鑑別器D的第一損失函數。在第二實施例中,第一損失函數可制定為:,且細節可參考與StarGAN有關的教示內容,本文中將不再重複所述細節。
在步驟S530中,第二產生器可接收第二輸入影像和目標顏色指示且據以經由利用第二目標顏色替換第二輸入影像中的第二特定區的第二顏色來產生第二輸出影像,其中第二目標顏色對應於目標顏色指示,且第二目標顏色不屬於第一類型類別。在第二實施例中,為了簡便起見,可假定第二輸入影像是人臉影像。
為了更好地理解第二實施例的概念,可將第二特定區視為第二輸入影像的頭髮區(即,),可將第二顏色視為的初始頭髮顏色,第二目標顏色可以是不屬於第一類型類別的任何顏色。也就是說,第二目標顏色不是黑色、棕色或金色。
在第二實施例中,在步驟S530中執行的過程可表示為。另外,目標顏色指示可指示第二目標顏色的3D RGB顏色向量。舉例來說,如果目標顏色指示是(255, 255, 255),那麼對應第二目標顏色可以是白色,但本揭露不限於此。也就是說,第二產生器可用於利用對應於目標顏色指示的任何所需顏色替換第二輸入影像的初始頭髮顏色。
從另一角度來看,可將第二輸出影像視為由第二產生器基於第二輸入影像(即,x)和目標顏色指示產生的偽影像。舉例來說,如果目標顏色指示對應於“深紫色”,那麼第二產生器將據以產生具有深紫色頭髮的人臉的偽影像,但本揭露不限於此。
更具體來說,如圖4中所繪示,第二產生器包含第二CNN、遮罩網路以及第二組合器。第二CNN可基於第二輸入影像(即,x)和目標顏色指示產生第二前景影像FI2(其可表示為)。遮罩網路M可產生對應於第二輸入影像的第二機率圖PM2(其可與第一機率圖PM1相同且制定為M(x)),其中第二機率圖中的每一像素標記有對應於第二特定區的機率(即,對應於頭髮區的機率)。第二組合器可基於第二機率圖中的第三區而在第二前景影像FI2中取得第三部分影像,基於第二機率圖PM2中的第四區而在第二輸入影像中取得第四部分影像,且將第三部分影像和第四部分影像組合為第二輸出影像。
另一方面,第二CNN可包含第三NN和第四NN,其中第四NN和第三NN均表徵為第一神經網路權重。也就是說,第一CNN和第二CNN是共用第一神經網路權重的兩個相同的NN,且因此,一旦第一神經網路權重更新,第一CNN和第二CNN均將更新,但本揭露不限於此。
在第二實施例中,為了進一步改進定義頭髮區的準確度,可將頭髮重新著色過程簡化為單純的顏色轉換。具體地說,假定頭髮重新著色過程是空間不變線性變換。這一假定極大地限制從高度非線性映射到線性映射產生前景影像的過程。由此,可增大定義頭髮區的準確度;否則,假陽性區(例如眉毛)可變換為不真實顏色且接著出現在輸出影像中。由3 × 4矩陣[a|b]參數化的線性變換採用像素顏色xi作為輸入且透過輸出新顏色。這類變換可等效地由1×1卷積表示為。
在步驟S540中,顏色估計器H可估計對應於第二輸出影像中的第二特定區的區顏色(其可以由H(x)表示),且透過使區顏色與目標顏色相比較來產生顏色比較結果CC。簡單來說,顏色估計器H可估計第二輸入影像中的頭髮顏色(即,區顏色)且據以產生顏色比較結果CC。
在第二實施例中,顏色估計器H可取得第二機率圖PM2和第二前景影像FI2,且經由計算由第二機率圖PM2權重的第二前景影像FI2的加權平均值來估計區顏色。
在一個實施例中,顏色估計器H可包含與遮罩網路M共用參數的子網路S,且可向子網路S饋入第二輸入影像(即,x)以產生顏色估計器H的第二機率圖PM2。在一個實施例中,可如下計算區顏色:
,其中和可以分別是第二前景影像FI2和第二機率圖PM2的第i個像素。是將第二機率圖PM2的機率轉換為二進位權重的權重函數。可定義為,其中I是指示函數。
簡單來說,可認為顏色比較結果CC關聯於區顏色與目標顏色之間的相似度。如果子網路S產生具有高品質(例如頭髮區輪廊分明)的第二機率圖PM2,那麼區顏色應接近於目標顏色,且反過來也是如此。
在步驟S550中,第一產生器可根據第二輸出影像和初始類別指示來產生週期影像CI2,且透過使週期影像CI2與第二輸入影像(即,x)相比較來產生週期一致性結果。此外,第一產生器可根據第一輸出影像和初始類別指示來產生另一週期影像CI1,且透過使週期影像CI1與第一輸入影像(即,x)相比較來產生另一週期一致性結果。
如StarGAN中所教示,所述另一週期一致性結果可用於利用對應損失函數調節第一產生器,且其細節可參考與StarGAN有關的教示內容。基於類似原理,所述週期一致性結果可用作用於訓練GAN 400的參考。
在步驟S570中,可基於鑑別結果DR、顏色比較結果CC以及週期一致性結果來更新第一產生器和第二產生器。具體地說,鑑別結果DR、顏色比較結果CR以及週期一致性結果用於制定用於訓練第一產生器和第二產生器的第二損失函數。在第二實施例中,第二損失函數可制定為:
,其中和是可基於開發人員的要求而配置的係數,但本揭露不限於此。第二損失函數的其它細節可參考與StarGAN有關的教示內容,本文中將不再重複所述其它細節。在這種情況下,可經由在使第二損失函數最小化的情況下更新第一神經網路權重來更新第一產生器和第二產生器。
另外,在第二實施例中,遮罩網路M可表徵為多個第三神經網路權重,且可利用第一產生器和第二產生器來共同地訓練遮罩網路M。在這種情況下,可經由在使第二損失函數最小化的情況下更新第一神經網路權重和第三神經網路權重來更新第一產生器、第二產生器以及遮罩網路M,但本揭露不限於此。由於遮罩網路M與顏色估計器中的子網路S共用參數,因此子網路S可相應地被訓練,這形成了一種無監督(unsupervised)訓練方式。
在已訓練第一產生器和第二產生器之後,第一產生器可在GAN 400的推理階段中產生對應於第一類型類別的偽影像(例如具有黑色/棕色/金色頭髮的人臉的偽影像)。類似地,第二產生器可能夠在GAN 400的推理階段中產生對應於第二類型類別的偽影像(例如具有任何所需顏色的人臉的偽影像)。
參看圖6,其繪示根據本揭露的第二實施例的在推理階段中透過使用GAN產生影像的方法的流程圖。為了便於以下論述,將使用圖4中的符號/信號作為實例,但本揭露不限於此。
在步驟S610中,第一產生器可接收第一輸入影像(例如x)和類別指示,且據以經由利用第一目標顏色替換第一輸入影像中的第一特定區的第一顏色來產生第一輸出影像。在步驟S620中,第二產生器可可接收第二輸入影像和目標顏色指示,且據以經由利用第二目標顏色替換第二輸入影像中的第二特定區的第二顏色來產生第二輸出影像。
本揭露進一步提供用於執行訓練GAN的方法的電腦可讀儲存媒體。電腦可讀儲存媒體由本文中實施的多個程式指令(例如設置程式指令和部署程式指令)構成。這些程式指令可載入到訓練系統(例如電腦裝置)中且由所述訓練系統執行以執行訓練GAN的方法和上文所描述的訓練系統的功能。
綜上所述,本揭露中所提出的方法可利用屬於第一類型類別的可用訓練樣本來訓練GAN的第一產生器,且將由第一產生器學習到的知識共用給第二產生器。因此,即使在訓練第二產生器期間沒有可用訓練資料,第二產生器仍可進行學習以產生屬於第二類型類別的(偽)影像。
雖然本揭露已以實施例揭露如上,然其並非用以限定本揭露,任何所屬技術領域中具有通常知識者,在不脫離本揭露的精神和範圍內,當可作些許的更動與潤飾,故本揭露的保護範圍當視後附的申請專利範圍所界定者為準。
100,400:GAN
c:目標顏色指示:第一組合器:第二組合器
D:鑑別器
E:預測網路:第一CNN:第二CNN第一產生器:第二產生器
H:顏色估計器:第一語義嵌入向量:第二語義嵌入向量:第三語義嵌入向量:第四語義嵌入向量
x:人臉影像:第一輸出影像:第二輸出影像
y:類別指示
y’:初始類別指示:第一類別指示第二類別指示
z:隨機雜訊
CC:顏色比較結果
CI1,CI2:週期影像
CR:分類結果
DR:鑑別結果
FI1:第一前景影像
FI2:第二前景影像
M:遮罩網路
RI:參考影像
PM1:第一機率圖
PM2:第二機率圖
S210, S220, S230, S240, S250, S260, S270, S280, S290, S310, S320, S510, S520, S530, S540, S550, S560, S570, S610, S620:步驟
圖1示出根據本揭露的第一實施例的訓練GAN的機制的示意圖。
圖2繪示根據本揭露的第一實施例的訓練GAN的方法的流程圖。
圖3繪示根據本揭露的第一實施例的在推理階段中透過使用GAN產生影像的方法的流程圖。
圖4示出根據本揭露的第二實施例的訓練GAN的機制的示意圖。
圖5繪示根據本揭露的第二實施例的訓練GAN的方法的流程圖。
圖6繪示根據本揭露的第二實施例的在推理階段中透過使用GAN生成影像的方法的流程圖。
S210~S290:步驟
Claims (6)
- 一種訓練生成對抗網路的方法,其中所述生成對抗網路包括第一產生器、第二產生器、鑑別器以及預測網路,所述方法包括:利用所述第一產生器接收第一隨機輸入和第一類別指示且據以產生第一輸出影像,其中所述第一產生器和所述第二產生器均表徵為多個第一神經網路權重,所述第一類別指示用於指示所述第一輸出影像對應於第一類型類別,且所述第一類型類別具有可用訓練樣本;利用所述預測網路預測對應於所述第一輸出影像的第一語義嵌入向量,其中所述預測網路為利用屬於所述第一類型類別的所述可用訓練樣本預先訓練的嵌入回歸網路;透過使所述第一語義嵌入向量與對應於所述第一類型類別的第二語義嵌入向量相比較來產生第一比較結果,其中所述第一比較結果關聯於所述第一語義嵌入向量與所述第二語義嵌入向量之間的相似度;利用所述第二產生器接收第二隨機輸入和第二類別指示且據以產生第二輸出影像,其中所述第二類別指示用於指示所述第二輸出影像對應於第二類型類別,其中所述第二類型類別不具有訓練樣本;利用所述預測網路預測對應於所述第二輸出影像的第三語義嵌入向量; 透過使所述第三語義嵌入向量與對應於所述第二類型類別的第四語義嵌入向量相比較來產生第二比較結果,其中所述第二比較結果關聯於所述第三語義嵌入向量與所述第四語義嵌入向量之間的相似度;利用所述鑑別器經由在所述第一輸出影像與屬於所述第一類型類別的至少一參考影像之間進行區分來產生鑑別結果,其中所述鑑別器表徵為多個第二神經網路權重;基於所述鑑別結果而更新所述第二神經網路權重,其中所述鑑別結果用於制定用於訓練所述第一產生器及所述第二產生器的第一損失函數;基於所述鑑別結果、所述第一比較結果以及所述第二比較結果而更新所述第一神經網路權重,其中所述第一比較結果用於制定第一語義損失函數,所述第二比較結果用於制定第二語義損失函數,且所述第一神經網路權重在使總損失函數最小化的情況下更新,其中所述總損失函數表徵為所述第一損失函數、所述第一語義損失函數以及所述第二語義損失函數。
- 如請求項1所述的訓練生成對抗網路的方法,其中所述鑑別結果用於制定用於訓練所述鑑別器的第二損失函數,且所述第二神經網路權重在使所述第一損失函數最小化的情況下更新。
- 如請求項1所述的訓練生成對抗網路的方法,其中所述第一類別指示經定義為指示所述第一類型類別的第一獨熱向量或指示所述第一類型類別的第一特定語義嵌入向量。
- 如請求項1所述的訓練生成對抗網路的方法,其中所述第二類別指示經定義為指示所述第二類型類別的第二獨熱向量或指示所述第二類型類別的第二特定語義嵌入向量。
- 一種電腦可讀儲存媒體,記錄待由訓練系統載入的可執行電腦程式以用於訓練包括第一產生器、第二產生器、鑑別器以及預測網路的生成對抗網路,以執行以下步驟:利用所述第一產生器接收第一隨機輸入和第一類別指示且據以產生第一輸出影像,其中所述第一產生器和所述第二產生器均表徵為多個第一神經網路權重,所述第一類別指示用於指示所述第一輸出影像對應於第一類型類別,且所述第一類型類別具有可用訓練樣本;利用所述預測網路預測對應於所述第一輸出影像的第一語義嵌入向量,其中所述預測網路為利用屬於所述第一類型類別的所述可用訓練樣本預先訓練的嵌入回歸網路;透過使所述第一語義嵌入向量與對應於所述第一類型類別的第二語義嵌入向量相比較來產生第一比較結果,其中所述第一比較結果關聯於所述第一語義嵌入向量與所述第二語義嵌入向量之間的相似度;利用所述第二產生器接收第二隨機輸入和第二類別指示且據 以產生第二輸出影像,其中所述第二類別指示用於指示所述第二輸出影像對應於第二類型類別,且所述第二類型類別不具有訓練樣本;利用所述預測網路預測對應於所述第二輸出影像的第三語義嵌入向量;透過使所述第三語義嵌入向量與對應於所述第二類型類別的第四語義嵌入向量相比較來產生第二比較結果,其中所述第二比較結果關聯於所述第三語義嵌入向量與所述第四語義嵌入向量之間的相似度;利用所述鑑別器經由在所述第一輸出影像與屬於所述第一類型類別的至少一參考影像之間進行區分來產生鑑別結果,其中所述鑑別器表徵為多個第二神經網路權重;基於所述鑑別結果而更新所述第二神經網路權重,其中所述鑑別結果用於制定用於訓練所述第一產生器及所述第二產生器的第一損失函數;基於所述鑑別結果、所述第一比較結果以及所述第二比較結果而更新所述第一神經網路權重,其中所述第一比較結果用於制定第一語義損失函數,所述第二比較結果用於制定第二語義損失函數,且所述第一神經網路權重在使總損失函數最小化的情況下更新,其中所述總損失函數表徵為所述第一損失函數、所述第一語義損失函數以及所述第二語義損失函數。
- 一種透過使用生成對抗網路產生影像的方法,所述生成對抗網路包括第一產生器和第二產生器且經請求項1所述的方法訓練而得,所述方法包括:利用所述第一產生器接收第一隨機輸入和第一類別指示且據以產生第一輸出影像,其中所述第一產生器和所述第二產生器均以多個第一神經網路權重為特徵,所述第一類別指示用於指示所述第一輸出影像對應於第一類型類別;利用所述第二產生器接收第二隨機輸入和第二類別指示且據以產生第二輸出影像,其中所述第二類別指示用於指示所述第二輸出影像對應於第二類型類別,且僅預先使用屬於所述第二類型類別的多個訓練樣本來訓練所述第一產生器和所述第二產生器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962851677P | 2019-05-23 | 2019-05-23 | |
US62/851,677 | 2019-05-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202046242A TW202046242A (zh) | 2020-12-16 |
TWI772805B true TWI772805B (zh) | 2022-08-01 |
Family
ID=70802709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109117030A TWI772805B (zh) | 2019-05-23 | 2020-05-22 | 訓練生成對抗網路的方法、產生影像的方法及電腦可讀儲存媒體 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11379722B2 (zh) |
EP (1) | EP3742346A3 (zh) |
JP (1) | JP6919021B2 (zh) |
CN (1) | CN111985608B (zh) |
TW (1) | TWI772805B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11113518B2 (en) | 2019-06-28 | 2021-09-07 | Eygs Llp | Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal |
US11915465B2 (en) * | 2019-08-21 | 2024-02-27 | Eygs Llp | Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks |
FR3103045B1 (fr) * | 2019-11-07 | 2021-10-15 | Idemia Identity & Security France | Procédé d’augmentation d’une base d’images d’apprentissage représentant une empreinte sur un arrière-plan au moyen d’un réseau antagoniste génératif |
US11625934B2 (en) | 2020-02-04 | 2023-04-11 | Eygs Llp | Machine learning based end-to-end extraction of tables from electronic documents |
CN111680123B (zh) * | 2020-05-25 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 对话模型的训练方法、装置、计算机设备及存储介质 |
JP7533149B2 (ja) | 2020-11-17 | 2024-08-14 | 株式会社オートネットワーク技術研究所 | 給電制御装置 |
WO2022124643A1 (en) * | 2020-12-12 | 2022-06-16 | Samsung Electronics Co., Ltd. | Method and electronic device for managing artifacts of image |
CN116569207A (zh) * | 2020-12-12 | 2023-08-08 | 三星电子株式会社 | 用于管理图像的伪影的方法和电子装置 |
US11854119B2 (en) * | 2021-01-22 | 2023-12-26 | Adobe Inc. | Automatic object re-colorization |
CN112818820B (zh) * | 2021-01-28 | 2024-03-19 | 北京达佳互联信息技术有限公司 | 图像生成模型训练方法、图像生成方法、装置及电子设备 |
WO2021077140A2 (en) * | 2021-02-05 | 2021-04-22 | Innopeak Technology, Inc. | Systems and methods for prior knowledge transfer for image inpainting |
CN112906785B (zh) * | 2021-02-09 | 2023-12-22 | 深圳大学 | 基于融合的零样本物体种类识别方法、装置及设备 |
CN113112498B (zh) * | 2021-05-06 | 2024-01-19 | 东北农业大学 | 一种基于细粒度对抗生成网络的葡萄叶片病斑识别方法 |
CN113191365B (zh) * | 2021-05-12 | 2023-04-21 | 北京邮电大学 | 一种文化语义图像重构效果评价方法 |
CN113268991B (zh) * | 2021-05-19 | 2022-09-23 | 北京邮电大学 | 一种基于cgan模型的用户人格隐私保护方法 |
CN113822790B (zh) * | 2021-06-03 | 2023-04-21 | 腾讯云计算(北京)有限责任公司 | 一种图像处理方法、装置、设备及计算机可读存储介质 |
US20220405634A1 (en) * | 2021-06-16 | 2022-12-22 | Moxa Inc. | Device of Handling Domain-Agnostic Meta-Learning |
CN113470124B (zh) * | 2021-06-30 | 2023-09-22 | 北京达佳互联信息技术有限公司 | 特效模型的训练方法及装置、特效生成方法及装置 |
CN113706646A (zh) * | 2021-06-30 | 2021-11-26 | 酷栈(宁波)创意科技有限公司 | 用于生成山水画的数据处理方法 |
CN113642621B (zh) * | 2021-08-03 | 2024-06-28 | 南京邮电大学 | 基于生成对抗网络的零样本图像分类方法 |
TWI825461B (zh) * | 2021-08-05 | 2023-12-11 | 群聯電子股份有限公司 | 訓練非對稱生成對抗網路產生影像的方法及使用此方法的電子裝置 |
US20230394811A1 (en) * | 2022-06-02 | 2023-12-07 | Hon Hai Precision Industry Co., Ltd. | Training method and electronic device |
CN114782291B (zh) * | 2022-06-23 | 2022-09-06 | 中国科学院自动化研究所 | 图像生成器的训练方法、装置、电子设备和可读存储介质 |
CN115099855B (zh) * | 2022-06-23 | 2024-09-24 | 广州华多网络科技有限公司 | 广告文案创作模型制备方法及其装置、设备、介质、产品 |
CN115115783B (zh) * | 2022-07-08 | 2023-08-15 | 西南石油大学 | 一种模拟页岩基质纳微米孔隙的数字岩心构建方法及系统 |
CN115424119B (zh) * | 2022-11-04 | 2023-03-24 | 之江实验室 | 基于语义分形的可解释gan的图像生成训练方法及装置 |
CN116579414B (zh) * | 2023-03-24 | 2024-04-02 | 浙江医准智能科技有限公司 | 模型训练方法、mri薄层数据重建方法、装置及设备 |
CN117351520B (zh) * | 2023-10-31 | 2024-06-11 | 广州恒沙数字科技有限公司 | 基于生成网络的前背景图像混合生成方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960278A (zh) * | 2017-05-18 | 2018-12-07 | 英特尔公司 | 使用生成式对抗网络的鉴别器的新奇检测 |
US20190051057A1 (en) * | 2017-08-08 | 2019-02-14 | Reald Spark, Llc | Adjusting a digital representation of a head region |
CN109522807A (zh) * | 2018-10-22 | 2019-03-26 | 深圳先进技术研究院 | 基于自生成特征的卫星影像识别系统、方法及电子设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI672638B (zh) * | 2017-05-04 | 2019-09-21 | 宏達國際電子股份有限公司 | 影像處理方法、非暫態電腦可讀取媒體以及影像處理系統 |
JP6928371B2 (ja) * | 2017-08-01 | 2021-09-01 | 国立研究開発法人情報通信研究機構 | 分類器、分類器の学習方法、分類器における分類方法 |
US20190108448A1 (en) * | 2017-10-09 | 2019-04-11 | VAIX Limited | Artificial intelligence framework |
US10937540B2 (en) * | 2017-12-21 | 2021-03-02 | International Business Machines Coporation | Medical image classification based on a generative adversarial network trained discriminator |
CN108681774B (zh) * | 2018-05-11 | 2021-05-14 | 电子科技大学 | 基于生成对抗网络负样本增强的人体目标跟踪方法 |
CN109147010B (zh) * | 2018-08-22 | 2023-07-25 | 广东工业大学 | 带属性人脸图像生成方法、装置、系统及可读存储介质 |
CN109584325B (zh) * | 2018-10-30 | 2020-01-07 | 河北科技大学 | 一种基于u型周期一致对抗网络的动漫图像的双向色彩化方法 |
US10977872B2 (en) * | 2018-10-31 | 2021-04-13 | Sony Interactive Entertainment Inc. | Graphical style modification for video games using machine learning |
GB201818759D0 (en) * | 2018-11-16 | 2019-01-02 | Anthropics Tech Limited | Method of modifying digital images |
CN109462747B (zh) * | 2018-12-11 | 2020-06-26 | 成都美律科技有限公司 | 基于生成对抗网络的dibr系统空洞填充方法 |
CN113627538B (zh) * | 2021-08-12 | 2024-03-01 | 群联电子股份有限公司 | 训练非对称生成对抗网络产生图像的方法及电子装置 |
-
2020
- 2020-05-20 EP EP20175847.1A patent/EP3742346A3/en active Pending
- 2020-05-22 JP JP2020089735A patent/JP6919021B2/ja active Active
- 2020-05-22 CN CN202010439945.9A patent/CN111985608B/zh active Active
- 2020-05-22 US US16/880,996 patent/US11379722B2/en active Active
- 2020-05-22 TW TW109117030A patent/TWI772805B/zh active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960278A (zh) * | 2017-05-18 | 2018-12-07 | 英特尔公司 | 使用生成式对抗网络的鉴别器的新奇检测 |
US20190051057A1 (en) * | 2017-08-08 | 2019-02-14 | Reald Spark, Llc | Adjusting a digital representation of a head region |
CN109522807A (zh) * | 2018-10-22 | 2019-03-26 | 深圳先进技术研究院 | 基于自生成特征的卫星影像识别系统、方法及电子设备 |
Non-Patent Citations (3)
Title |
---|
GUANGFENG LIN; WANJUN CHEN; KAIYANG LIAO; XIAOBING KANG; CAIXIA FAN: "Transfer feature generating networks with semantic classes structure for zero-shot learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 6 March 2019 (2019-03-06), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081445075 * |
LEE, SEONG-WHAN ; LI, STAN Z: "SAT 2015 18th International Conference, Austin, TX, USA, September 24-27, 2015", vol. 11214 Chap.50, 6 October 2018, SPRINGER , Berlin, Heidelberg , ISBN: 3540745491, article PUMAROLA ALBERT; AGUDO ANTONIO; MARTINEZ ALEIX M.; SANFELIU ALBERTO; MORENO-NOGUER FRANCESC: "GANimation: Anatomically-Aware Facial Animation from a Single Image", pages: 835 - 851, XP047488377, 032548, DOI: 10.1007/978-3-030-01249-6_50 * |
PUMAROLA ALBERT ET AL: "GANimation: Anatomically-Aware Facial Animation from a Single Image", 6 October 2018, ICIAP: INTERNATIONAL CONFERENCE ON IMAGE ANALYSIS AND PROCESSING, 17TH INTERNATIONAL CONFERENCE, NAPLES, ITALY, SEPTEMBER 9-13, 2013. PROCEEDINGS; [LECTURE NOTES IN COMPUTER SCIENCE; LECT.NOTES COMPUTER], SPRINGER, BERLIN, HEIDELBERG, PAGE(S) 835 - 8, ISBN: 978-3-642-17318-9, XP047488377 |
Also Published As
Publication number | Publication date |
---|---|
CN111985608A (zh) | 2020-11-24 |
EP3742346A3 (en) | 2021-06-16 |
JP6919021B2 (ja) | 2021-08-11 |
EP3742346A2 (en) | 2020-11-25 |
CN111985608B (zh) | 2024-03-15 |
US20200372351A1 (en) | 2020-11-26 |
JP2020191093A (ja) | 2020-11-26 |
US11379722B2 (en) | 2022-07-05 |
TW202046242A (zh) | 2020-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI772805B (zh) | 訓練生成對抗網路的方法、產生影像的方法及電腦可讀儲存媒體 | |
CN112465111B (zh) | 一种基于知识蒸馏和对抗训练的三维体素图像分割方法 | |
Liang et al. | Understanding mixup training methods | |
CN108229526B (zh) | 网络训练、图像处理方法、装置、存储介质和电子设备 | |
CN109191409B (zh) | 图像处理、网络训练方法、装置、电子设备和存储介质 | |
US11854247B2 (en) | Data processing method and device for generating face image and medium | |
JP4708909B2 (ja) | デジタル画像の対象物検出方法および装置並びにプログラム | |
CN110322396A (zh) | 一种病理切片颜色归一化方法及系统 | |
CN111914617B (zh) | 一种基于平衡栈式生成式对抗网络的人脸属性编辑方法 | |
Xu et al. | Detecting facial manipulated videos based on set convolutional neural networks | |
CN112991160A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
Zhao et al. | Transfer learning with ensemble of multiple feature representations | |
CN111583201B (zh) | 一种用于构建超分辨率病理显微镜的迁移学习方法 | |
JP2024515532A (ja) | 1つ以上のユーザ固有の頭皮分類を生成するために、ユーザの頭皮の頭皮領域の画素データを分析するためのデジタル撮像及び学習システム並びに方法 | |
CN102647542B (zh) | 图像处理设备和图像处理方法 | |
CN114581552A (zh) | 一种基于生成对抗网络的灰度图像彩色化方法 | |
Johari et al. | Context-aware colorization of gray-scale images utilizing a cycle-consistent generative adversarial network architecture | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 | |
CN112241741A (zh) | 基于分类对抗网的自适应图像属性编辑模型和编辑方法 | |
Jolly et al. | Bringing monochrome to life: A GAN-based approach to colorizing black and white images | |
CN113065407B (zh) | 基于注意力机制和生成对抗网络的财务票据印章擦除方法 | |
Paul | Deepfakes generated by generative adversarial networks | |
Hou et al. | Image Quality Improve by Super Resolution Generative Adversarial Networks | |
Potesman et al. | SA Unet Improved | |
Gurusinghe et al. | Distinguishing Real from AI-Generated Images-A Study on Model Performance and Visualisation Techniques |