TW202127369A - 網路訓練方法、圖像生成方法、電子設備及電腦可讀儲存介質 - Google Patents

網路訓練方法、圖像生成方法、電子設備及電腦可讀儲存介質 Download PDF

Info

Publication number
TW202127369A
TW202127369A TW109128779A TW109128779A TW202127369A TW 202127369 A TW202127369 A TW 202127369A TW 109128779 A TW109128779 A TW 109128779A TW 109128779 A TW109128779 A TW 109128779A TW 202127369 A TW202127369 A TW 202127369A
Authority
TW
Taiwan
Prior art keywords
image
network
training
generation network
generation
Prior art date
Application number
TW109128779A
Other languages
English (en)
Other versions
TWI759830B (zh
Inventor
潘新鋼
詹曉航
戴勃
林達華
羅平
Original Assignee
大陸商北京市商湯科技開發有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商北京市商湯科技開發有限公司 filed Critical 大陸商北京市商湯科技開發有限公司
Publication of TW202127369A publication Critical patent/TW202127369A/zh
Application granted granted Critical
Publication of TWI759830B publication Critical patent/TWI759830B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本發明涉及一種網路訓練方法、圖像生成方法、電子設備及電腦可讀儲存介質,所述網路訓練方法包括:將隱向量輸入預訓練的生成網路,得到第一生成圖像,所述生成網路是與判別網路通過多個自然圖像對抗訓練得到的;對所述第一生成圖像進行退化處理,得到所述第一生成圖像的第一退化圖像;根據所述第一退化圖像及目標圖像的第二退化圖像,訓練所述隱向量及所述生成網路,其中,訓練後的生成網路和訓練後的隱向量用於生成所述目標圖像的重建圖像。本發明實施例可提高生成網路的訓練效果。

Description

網路訓練方法、圖像生成方法、電子設備及電腦可讀儲存介質
本申請要求在2020年1月9日提交中國專利局、申請號爲202010023029.7、發明名稱爲“網絡訓練方法及裝置、圖像生成方法及裝置”的中國專利申請的優先權,其全部內容通過引用結合在本申請中。
本發明涉及電腦技術領域,尤其涉及一種網路訓練方法、圖像生成方法、電子設備及電腦可讀儲存介質。
在深度學習的各種圖像處理任務中,設計或學習圖像優先是圖像復原、圖像操縱等任務中的重要問題。例如,深度圖像優先(Deep Image Prior)提出,一個隨機初始化的卷積神經網路有低級的圖像優先,可以用來實現超解析度和圖像修補等。然而在相關技術中,無法恢復圖像中不包含的訊息,也無法對圖像中的語義訊息進行編輯。
本發明提出了一種網路訓練及圖像生成技術方案。
根據本發明的一方面,提供了一種網路訓練方法,包括:將隱向量輸入預訓練的生成網路,得到第一生成圖像,所述生成網路是與判別網路通過多個自然圖像對抗訓練得到的;對所述第一生成圖像進行退化處理,得到所述第一生成圖像的第一退化圖像;根據所述第一退化圖像及目標圖像的第二退化圖像,訓練所述隱向量及所述生成網路,其中,訓練後的生成網路和訓練後的隱向量用於生成所述目標圖像的重建圖像。
在一種可能的實現方式中,根據所述第一退化圖像及目標圖像的第二退化圖像,訓練所述隱向量及所述生成網路,包括:將所述第一退化圖像及目標圖像的第二退化圖像分別輸入預訓練的判別網路中處理,得到所述第一退化圖像的第一判別特徵及所述第二退化圖像的第二判別特徵;根據所述第一判別特徵及所述第二判別特徵,訓練所述隱向量及所述生成網路。
在一種可能的實現方式中,所述判別網路包括多級判別網路塊,將所述第一退化圖像及目標圖像的第二退化圖像分別輸入預訓練的判別網路中處理,得到所述第一退化圖像的第一判別特徵及所述第二退化圖像的第二判別特徵,包括:將所述第一退化圖像輸入所述判別網路中處理,得到所述判別網路的多級判別網路塊輸出的多個第一判別特徵;將所述第二退化圖像輸入所述判別網路中處理,得到所述判別網路的多級判別網路塊輸出的多個第二判別特徵。
在一種可能的實現方式中,根據所述第一判別特徵及所述第二判別特徵,訓練所述隱向量及所述生成網路,包括:根據所述第一判別特徵及所述第二判別特徵之間的距離,確定所述生成網路的網路損失;根據所述生成網路的網路損失,訓練所述隱向量及所述生成網路。
在一種可能的實現方式中,所述生成網路包括N級生成網路塊,根據所述生成網路的網路損失,訓練所述隱向量及所述生成網路,包括:根據第n-1輪訓練後的生成網路的網路損失,訓練所述生成網路的前n級生成網路塊,得到第n輪訓練後的生成網路,1≤n≤N,n、N爲整數。
在一種可能的實現方式中,所述方法還包括:將多個初始隱向量輸入預訓練的生成網路,得到多個第二生成圖像;根據所述目標圖像與所述多個第二生成圖像之間的差異訊息,從所述多個初始隱向量中確定出所述隱向量。
在一種可能的實現方式中,所述方法還包括:將所述目標圖像輸入預訓練的編碼網路,輸出所述隱向量。
在一種可能的實現方式中,所述方法還包括:將訓練後的隱向量輸入訓練後的生成網路,得到所述目標圖像的重建圖像,其中,所述重建圖像包括彩色圖像,所述目標圖像的第二退化圖像包括灰度圖像;或所述重建圖像包括完整圖像,所述第二退化圖像包括缺失圖像;或所述重建圖像的解析度大於所述第二退化圖像的解析度。
根據本發明的一方面,提供了一種圖像生成方法,包括:通過隨機抖動訊息對第一隱向量進行擾動處理,得到擾動後的第一隱向量;將所述擾動後的第一隱向量輸入第一生成網路中處理,得到目標圖像的重建圖像,所述重建圖像中對象的位置與所述目標圖像中對象的位置不同,其中,所述第一隱向量及所述第一生成網路是根據上述的網路訓練方法訓練得到的。
根據本發明的一方面,提供了一種圖像生成方法,包括:將第二隱向量及預設類別的類別特徵輸入第二生成網路中處理,得到目標圖像的重建圖像,所述第二生成網路包括條件生成網路,所述重建圖像中對象的類別包括所述預設類別,所述目標圖像中對象的類別與所述預設類別不同,其中,所述第二隱向量及所述第二生成網路是根據上述的網路訓練方法訓練得到的。
根據本發明的一方面,提供了一種圖像生成方法,包括:對第三隱向量與第四隱向量、第三生成網路的參數與第四生成網路的參數分別進行插值處理,得到至少一個插值隱向量以及至少一個插值生成網路的參數,第三生成網路用於根據第三隱向量生成第一目標圖像的重建圖像,第四生成網路用於根據第四隱向量生成第二目標圖像的重建圖像;將各個插值隱向量分別輸入相應的插值生成網路,得到至少一個變形圖像,所述至少一個變形圖像中對象的姿態處於所述第一目標圖像中對象的姿態與所述第二目標圖像中對象的姿態之間,其中,所述第三隱向量及所述第三生成網路、所述第四隱向量及所述第四生成網路是根據上述的網路訓練方法訓練得到的。
根據本發明的一方面,提供了一種網路訓練裝置,包括:第一生成模組,用於將隱向量輸入預訓練的生成網路,得到第一生成圖像,所述生成網路是與判別網路通過多個自然圖像對抗訓練得到的;退化模組,用於對所述第一生成圖像進行退化處理,得到所述第一生成圖像的第一退化圖像;訓練模組,用於根據所述第一退化圖像及目標圖像的第二退化圖像,訓練所述隱向量及所述生成網路,其中,訓練後的生成網路和訓練後的隱向量用於生成所述目標圖像的重建圖像。
在一種可能的實現方式中,所述訓練模組包括:特徵獲取子模組,用於將所述第一退化圖像及目標圖像的第二退化圖像分別輸入預訓練的判別網路中處理,得到所述第一退化圖像的第一判別特徵及所述第二退化圖像的第二判別特徵;第一訓練子模組,用於根據所述第一判別特徵及所述第二判別特徵,訓練所述隱向量及所述生成網路。
在一種可能的實現方式中,所述判別網路包括多級判別網路塊,所述特徵獲取子模組包括:第一獲取子模組,用於將所述第一退化圖像輸入所述判別網路中處理,得到所述判別網路的多級判別網路塊輸出的多個第一判別特徵;第二獲取子模組,用於將所述第二退化圖像輸入所述判別網路中處理,得到所述判別網路的多級判別網路塊輸出的多個第二判別特徵。
在一種可能的實現方式中,所述第一訓練子模組包括:損失確定子模組,用於根據所述第一判別特徵及所述第二判別特徵之間的距離,確定所述生成網路的網路損失;第二訓練子模組,用於根據所述生成網路的網路損失,訓練所述隱向量及所述生成網路。
在一種可能的實現方式中,所述生成網路包括N級生成網路塊,所述第二訓練子模組用於:根據第n-1輪訓練後的生成網路的網路損失,訓練所述生成網路的前n級生成網路塊,得到第n輪訓練後的生成網路,1≤n≤N,n、N爲整數。
在一種可能的實現方式中,所述網路訓練裝置還包括:第二生成模組,用於將多個初始隱向量輸入預訓練的生成網路,得到多個第二生成圖像;第一向量確定模組,用於根據所述目標圖像與所述多個第二生成圖像之間的差異訊息,從所述多個初始隱向量中確定出所述隱向量。
在一種可能的實現方式中,所述網路訓練裝置還包括:第二向量確定模組,用於將所述目標圖像輸入預訓練的編碼網路,輸出所述隱向量。
在一種可能的實現方式中,所述網路訓練裝置還包括:第一重建模組,用於將訓練後的隱向量輸入訓練後的生成網路,得到所述目標圖像的重建圖像,其中,所述重建圖像包括彩色圖像,所述目標圖像的第二退化圖像包括灰度圖像;或所述重建圖像包括完整圖像,所述第二退化圖像包括缺失圖像;或所述重建圖像的解析度大於所述第二退化圖像的解析度。
根據本發明的一方面,提供了一種圖像生成裝置,包括:擾動模組,用於通過隨機抖動訊息對第一隱向量進行擾動處理,得到擾動後的第一隱向量;第二重建模組,用於將所述擾動後的第一隱向量輸入第一生成網路中處理,得到目標圖像的重建圖像,所述重建圖像中對象的位置與所述目標圖像中對象的位置不同,其中,所述第一隱向量及所述第一生成網路是根據上述的網路訓練裝置訓練得到的。
根據本發明的一方面,提供了一種圖像生成裝置,包括:第三重建模組,用於將第二隱向量及預設類別的類別特徵輸入第二生成網路中處理,得到目標圖像的重建圖像,所述第二生成網路包括條件生成網路,所述重建圖像中對象的類別包括所述預設類別,所述目標圖像中對象的類別與所述預設類別不同,其中,所述第二隱向量及所述第二生成網路是根據上述的網路訓練裝置訓練得到的。
根據本發明的一方面,提供了一種圖像生成裝置,包括:插值模組,用於對第三隱向量與第四隱向量、第三生成網路的參數與第四生成網路的參數分別進行插值處理,得到至少一個插值隱向量以及至少一個插值生成網路的參數,第三生成網路用於根據第三隱向量生成第一目標圖像的重建圖像,第四生成網路用於根據第四隱向量生成第二目標圖像的重建圖像;變形圖像獲取模組,用於將各個插值隱向量分別輸入相應的插值生成網路,得到至少一個變形圖像,所述至少一個變形圖像中對象的姿態處於所述第一目標圖像中對象的姿態與所述第二目標圖像中對象的姿態之間,其中,所述第三隱向量及所述第三生成網路、所述第四隱向量及所述第四生成網路是根據上述的網路訓練裝置訓練得到的。
根據本發明的一方面,提供了一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置爲調用所述記憶體儲存的指令,以執行上述方法。
根據本發明的一方面,提供了一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。
根據本發明的一方面,提供了一種電腦程式,包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行上述圖像處理方法。
在本發明實施例中,能夠通過預訓練的生成網路得到生成圖像,根據生成圖像的退化圖像及原始圖像的退化圖像之間的差異,同時訓練隱向量和生成網路,從而提高生成網路的訓練效果,實現更精確的圖像重建。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本發明。根據下面參考圖式對示例性實施例的詳細說明,本發明的其它特徵及方面將變得清楚。
以下將參考圖式詳細說明本發明的各種示例性實施例、特徵和方面。圖式中相同的圖式標記表示功能相同或相似的元件。儘管在圖式中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製圖式。
在這裏專用的詞“示例性”意爲“用作例子、實施例或說明性”。這裏作爲“示例性”所說明的任何實施例不必解釋爲優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯對象的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,爲了更好地說明本發明,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本發明同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本發明的主旨。
在圖像復原類、圖像編輯類應用或軟體中,通常需要對目標圖像進行重建,以實現色彩化、圖像修補、超解析度、對抗防禦、圖像變形等圖像復原和/或圖像操縱任務。在圖像重建時,可使用在大規模自然圖像中學習的生成對抗網路(Generative Adversarial Networks,簡稱GAN)中的生成網路作爲通用的圖像優先,同時優化隱向量和生成器參數來進行圖像重建,以提高圖像重建的精確度,從而可恢復目標圖像之外的訊息,或實現對圖像高級語義的操縱。
圖1示出根據本發明實施例的網路訓練方法的流程圖,如圖1所示,所述網路訓練方法包括:
在步驟S11中,將隱向量輸入預訓練的生成網路,得到第一生成圖像,所述生成網路是與判別網路通過多個自然圖像對抗訓練得到的;
在步驟S12中,對所述第一生成圖像進行退化處理,得到所述第一生成圖像的第一退化圖像;
在步驟S13中,根據所述第一退化圖像及目標圖像的第二退化圖像,訓練所述隱向量及所述生成網路,其中,訓練後的生成網路和訓練後的隱向量用於生成所述目標圖像的重建圖像。
在一種可能的實現方式中,所述網路訓練方法可以由終端設備或伺服器等電子設備執行,終端設備可以爲用戶設備(User Equipment,UE)、行動設備、用戶終端、終端、行動電話、無線電話、個人數位助理(Personal Digital Assistant,PDA)、手持設備、計算設備、車載設備、可穿戴設備等,所述方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。或者,可通過伺服器執行所述方法。
在相關技術中,生成對抗網路是一種廣泛使用的生成模型,其包括生成網路G(Generator)和判別網路D(Discriminator),生成網路G負責將隱向量映射爲生成圖像,判別網路D負責區分生成圖像與真實圖像。隱向量可例如從多元高斯分布中採樣得到。生成網路G和判別網路D通過對抗學習(adversarial learning)的方式訓練。訓練完成後,用生成網路G可以採樣得到合成的圖像。
在一種可能的實現方式中,可通過多個自然圖像(Natural image)對抗訓練生成網路G和判別網路D,自然圖像可爲客觀反映自然景物的圖像。將大量的自然圖像作爲樣本,可使得生成網路G和判別網路D學習到更加通用的圖像優先訊息。經對抗訓練後,可得到預訓練的生成網路G及判別網路D。本發明對自然圖像的選取及對抗訓練的具體訓練方式不作限制。
在圖像重建任務中,假設x爲原始的自然圖像(可稱爲目標圖像),
Figure 02_image001
是一個損失了部分訊息的圖像(例如:損失顔色,損失圖像塊,損失解析度等,以下稱此類圖像爲退化(degraded)圖像)。根據
Figure 02_image001
損失訊息的類型,其可以看作對目標圖像進行退化處理得到(也即通過
Figure 02_image003
得到),其中,
Figure 02_image005
爲相應的退化變換(例如,
Figure 02_image005
可以是灰度化變換,使得彩色圖像變成灰度圖像)。在該情況下,可通過生成網路G對退化圖像
Figure 02_image001
在退化空間進行圖像重建。
應當說明的是,在實際應用中,往往只有退化後的圖像
Figure 02_image001
而沒有原始的目標圖像x,例如早期黑白相機得到的黑白照片,或者因爲相機解析度較低得到低解析度照片等。因此,“對目標圖像進行退化處理”可以看作一種假想的步驟,或者因爲外因/設備限制而不可避免的步驟。
在一種可能的實現方式中,可在步驟S11中將隱向量輸入預訓練的生成網路G,得到第一生成圖像。該隱向量可例如爲隨機初始化的隱向量,本發明對此不作限制。
在一種可能的實現方式中,可在步驟S12中對該第一生成圖像進行退化處理,得到第一生成圖像的第一退化圖像。該退化處理的方式與對目標圖像進行退化的方式相同,例如爲灰度化處理。
在一種可能的實現方式中,可在步驟S13中根據第一生成圖像的第一退化圖像及目標圖像的第二退化圖像之間的差異(例如相似度或距離),對隱向量及生成網路G進行訓練。生成網路G的訓練目標可表示爲:
Figure 02_image007
(1)
在公式(1)中,θ可表示生成網路G的參數,z可表示待訓練的隱向量,G(z,θ)表示第一生成圖像,
Figure 02_image009
表示第一生成圖像的退化圖像(可稱爲第一退化圖像),
Figure 02_image001
表示目標圖像的退化圖像(可稱爲第二退化圖像),L表示第一退化圖像與第二退化圖像之間的相似度度量。z*可表示訓練後的隱向量,θ*可表示訓練後的生成網路G的參數,x*可表示目標圖像的重建圖像。
在訓練過程中,可根據第一退化圖像與第二退化圖像之間的相似度確定網路損失,根據網路損失多次疊代優化隱向量和生成網路的參數,使得網路損失收斂,得到訓練後的隱向量和生成網路G。該訓練後的隱向量和生成網路G用於生成目標圖像的重建圖像,恢復目標圖像中的圖像訊息。由於生成網路G學習了自然圖像的分布,重建的x*會恢復出
Figure 02_image001
所缺失的自然圖像訊息。例如,若
Figure 02_image001
是灰度圖,x*則是與之相匹配的彩色圖像。
在一種可能的實現方式中,在訓練過程中,可通過反向傳播算法和ADAM(adaptive moment estimation,適應性矩估計)優化算法對隱向量和生成網路G的參數進行參數調整,本發明對具體的訓練方式不作限制。
根據本發明的實施例,能夠通過預訓練的生成網路G得到生成圖像,根據生成圖像的退化圖像及原始圖像的退化圖像之間的差異,同時訓練隱向量和生成網路G,從而提高生成網路G的訓練效果,實現更精確的圖像重建。
在一種可能的實現方式中,在步驟S11之前,可先確定出待訓練的隱向量。該隱向量可例如從多元高斯分布中隨機採樣直接得到,也可以通過其他方式得到。
在一種可能的實現方式中,所述方法還包括:將多個初始隱向量輸入預訓練的生成網路,得到多個第二生成圖像;根據所述目標圖像與所述多個第二生成圖像之間的差異訊息,從所述多個初始隱向量中確定出所述隱向量。
舉例來說,可隨機採樣得到多個初始隱向量,並將各個初始隱向量分別輸入到預訓練的生成網路G中,得到多個第二生成圖像。進而,可獲取原始的目標圖像與各個第二生成圖像的差異訊息,例如計算目標圖像與各個第二生成圖像之間的相似度(例如L1距離),確定出差異最小(即相似度最大)的第二生成圖像,並可將與該第二生成圖像對應的初始隱向量,確定爲待訓練的隱向量。通過這種方式,可使得確定出的隱向量與目標圖像的圖像訊息較爲接近,從而提高訓練效率。
在一種可能的實現方式中,所述方法還包括:將所述目標圖像輸入預訓練的編碼網路,輸出所述隱向量。
舉例來說,可預先設定有編碼網路(例如爲卷積神經網路),用於將目標圖像編碼爲隱向量。可通過樣本圖像對該編碼網路進行預訓練,得到預訓練的編碼網路。例如將樣本圖像輸入編碼網路中得到隱向量,再將隱向量輸入預訓練的生成網路G得到生成圖像;根據生成圖像與樣本圖像之間的差異訓練該編碼網路,本發明對具體的訓練方式不作限制。
在預訓練後,可將目標圖像輸入預訓練的編碼網路,輸出待訓練的隱向量。通過這種方式,可使得確定出的隱向量與目標圖像的圖像訊息更爲接近,從而提高訓練效率。
在一種可能的實現方式中,步驟S13可包括:
將所述第一退化圖像及目標圖像的第二退化圖像分別輸入預訓練的判別網路D中處理,得到所述第一退化圖像的第一判別特徵及所述第二退化圖像的第二判別特徵;
根據所述第一判別特徵及所述第二判別特徵,訓練所述隱向量及所述生成網路G。
舉例來說,爲了保證重建圖像不失真,可根據與生成網路G對應的判別網路D來訓練該生成網路G。可將第一退化圖像和目標圖像的第二退化圖像分別輸入預訓練的判別網路D中處理,輸出第一退化圖像的第一判別特徵及所述第二退化圖像的第二判別特徵;根據第一判別特徵及第二判別特徵,訓練所述隱向量及所述生成網路G。例如,將第一判別特徵及第二判別特徵之間的L1距離確定生成網路G的網路損失,進而根據網路損失調整隱向量及生成網路G的參數。通過這種方式,可以更好地保留重建圖像的真實性。
在一種可能的實現方式中,所述判別網路D包括多級判別網路塊,
將所述第一退化圖像及目標圖像的第二退化圖像分別輸入預訓練的判別網路D中處理,得到所述第一退化圖像的第一判別特徵及所述第二退化圖像的第二判別特徵,包括:
將所述第一退化圖像輸入所述判別網路D中處理,得到所述判別網路D的多級判別網路塊輸出的多個第一判別特徵;
將所述第二退化圖像輸入所述判別網路D中處理,得到所述判別網路D的多級判別網路塊輸出的多個第二判別特徵。
舉例來說,判別網路D可包括多級的判別網路塊(block),各個判別網路塊可例如爲殘差塊,每個殘差塊例如包括至少一個殘差層以及全連接層、池化層,本發明對各個判別網路塊的具體結構不作限制。
在一種可能的實現方式中,可將第一退化圖像輸入判別網路D中處理,可得到各級判別網路塊輸出的第一判別特徵;同樣地,將第二退化圖像輸入判別網路D中處理,可得到各級判別網路塊輸出的第二判別特徵。通過這種方式,可以得到判別網路D不同深度的特徵,使得後續的相似度度量更爲準確。
在一種可能的實現方式中,根據所述第一判別特徵及所述第二判別特徵,訓練所述隱向量及所述生成網路G的步驟可包括:
根據所述第一判別特徵及所述第二判別特徵之間的距離,確定所述生成網路G的網路損失;根據所述生成網路G的網路損失,訓練所述隱向量及所述生成網路G。
舉例來說,可確定多個第一判別特徵和多個第二判別特徵之間的L1距離:
Figure 02_image011
(2)
在公式(2)中,x1 可表示第一退化圖像;x2 可表示第二退化圖像;D(x1 ,i)和D(x2 ,i)可分別表示第i級判別網路塊輸出的第一判別特徵和第二判別特徵,I表示判別網路塊的級數,1≤i≤I,i、I爲整數。
在一種可能的實現方式中,可將該L1距離直接作爲生成網路G的網路損失;也可將該L1距離與其他損失函數組合,共同作爲生成網路G的網路損失。進而根據網路損失訓練生成網路G。本發明對損失函數的選擇及組合方式不作限制。
相較於其他相似度度量,這種方式能夠更好地保留重建圖片的真實性,提高生成網路G的訓練效果。
在一種可能的實現方式中,所述生成網路G包括N級生成網路塊,
根據所述生成網路G的網路損失,訓練所述隱向量及所述生成網路G的步驟,包括:
根據第n-1輪訓練後的生成網路G的網路損失,訓練所述生成網路G的前n級生成網路塊,得到第n輪訓練後的生成網路,1≤n≤N,n、N爲整數。
舉例來說,生成網路G可包括N級的生成網路塊,每級生成網路塊可例如包括至少一個卷積層,本發明對各級生成網路塊的具體結構不作限制。
在一種可能的實現方式中,可採用漸進(progressive)的參數優化方式進行網路訓練。將訓練過程分爲N輪,針對N輪訓練中的任意一輪(設爲第n輪),根據第n-1輪訓練後的生成網路G的網路損失,訓練所述生成網路G的前n級生成網路塊,得到第n輪訓練後的生成網路G。在n=1時,第n-1輪訓練後的生成網路G即爲預訓練的生成網路G。
也就是說,可根據預訓練的生成網路G的網路損失,訓練生成網路G的第1級生成網路塊,得到第1輪訓練後的生成網路G;根據第1輪訓練後的生成網路G的網路損失,訓練生成網路G的第1級和第2級生成網路塊,得到第2輪訓練後的生成網路G;以此類推,根據第N-1輪訓練後的生成網路G的網路損失,訓練生成網路G的第1級至第N級生成網路塊,得到第N輪訓練後的生成網路G,作爲最終的生成網路G。
圖2示出根據本發明實施例的生成網路G的訓練過程的示意圖。如圖2所示,生成網路21可例如包括4級生成網路塊,判別網路22可例如包括4級判別網路塊。隱向量(未示出)輸入生成網路21中,得到生成圖像23;生成圖像23輸入判別網路22中,得到判別網路22的4級判別網路塊的輸出特徵,該4級判別網路塊的輸出特徵作爲生成網路21的網路損失。生成網路21的訓練過程可分爲四輪,第一輪訓練第1級生成網路塊;第二輪訓練第1級和第2級生成網路塊;……;第四輪訓練第1級至第4級生成網路塊,得到訓練後的生成網路21。
通過先優化淺層,再逐步優化深層的方式,可以取得更好的優化效果,提高生成網路G的性能。
在一種可能的實現方式中,所述方法還包括:
將訓練後的隱向量輸入訓練後的生成網路G,得到所述目標圖像的重建圖像,其中,所述重建圖像包括彩色圖像,所述目標圖像的第二退化圖像包括灰度圖像;或
所述重建圖像包括完整圖像,所述第二退化圖像包括缺失圖像;或
所述重建圖像的解析度大於所述第二退化圖像的解析度。
舉例來說,在步驟S13中完成隱向量和生成網路G的訓練過程後,可得到訓練後的隱向量和生成網路G。進而,可通過訓練後的隱向量和生成網路G實現圖像復原(image restoration)任務,也即,將訓練後的隱向量輸入訓練後的生成網路G,得到目標圖像的重建圖像。本發明對圖像復原任務所包括的任務類型不作限制。
在圖像復原任務爲色彩化(colorization)任務時,目標圖像的第二退化圖像爲灰度圖像(對應的退化函數包括灰度化),經生成網路G生成的重建圖像爲彩色圖像。
在圖像復原任務爲圖像修補(inpainting)任務時,目標圖像的第二退化圖像爲缺失圖像,也即第二退化圖像中存在部分缺失,對應的退化函數表示爲
Figure 02_image013
,其中m表示該圖像修補任務對應的二元掩碼(mask),
Figure 02_image015
表示點乘,經生成網路G生成的重建圖像爲完整圖像。
在圖像復原任務爲超解析度(super-resolution)任務時,目標圖像的第二退化圖像爲模糊圖像(對應的退化函數包括降採樣),經生成網路G生成的重建圖像爲清晰圖像,也即重建圖像的解析度大於第二退化圖像的解析度。
通過這種方式,使得生成網路G能夠恢復目標圖像中不包含的訊息,顯著提高圖像復原任務的復原效果。
在一種可能的實現方式中,還可通過訓練後的隱向量和生成網路G實現圖像操縱(image manipulation)任務(也可稱爲圖像編輯任務)。本發明對圖像操縱任務所包括的任務類型不作限制。下面對幾種圖像操縱任務的處理過程進行說明。
根據本發明的實施例,還提供了一種圖像生成方法,該方法包括:
通過隨機抖動訊息對第一隱向量進行擾動處理,得到擾動後的第一隱向量;
將所述擾動後的第一隱向量輸入第一生成網路中處理,得到目標圖像的重建圖像,所述重建圖像中對象的位置與所述目標圖像中對象的位置不同,
其中,所述第一隱向量及所述第一生成網路是根據上述網路訓練方法訓練得到的。
舉例來說,可根據上述網路訓練方法,訓練得到訓練後的隱向量和生成網路(此處稱爲第一隱向量和第一生成網路),通過該第一隱向量和第一生成網路實現隨機抖動(random jittering)。其中,可設定有隨機抖動訊息,該隨機抖動訊息可例如爲隨機向量或隨機數,本發明對此不作限制。
在一種可能的實現方式中,可通過該隨機抖動訊息對第一隱向量進行擾動處理,例如將隨機抖動訊息與第一隱向量疊加,得到擾動後的第一隱向量。再將擾動後的第一隱向量輸入第一生成網路中處理,得到目標圖像的重建圖像。該重建圖像中對象的位置與目標圖像中對象的位置不同,從而實現圖像中對象的隨機抖動。通過這種方式,可以提高圖像操縱任務的處理效果。
根據本發明的實施例,還提供了一種圖像生成方法,該方法包括:
將第二隱向量及預設類別的類別特徵輸入第二生成網路中處理,得到目標圖像的重建圖像,所述第二生成網路包括條件生成網路,所述重建圖像中對象的類別包括所述預設類別,所述目標圖像中對象的類別與所述預設類別不同,其中,所述第二隱向量及所述第二生成網路是根據上述的網路訓練方法訓練得到的。
舉例來說,可根據上述網路訓練方法,訓練得到訓練後的隱向量和生成網路(此處稱爲第二隱向量和第二生成網路),通過該第二隱向量和第二生成網路實現對象的類別轉換(category transfer)。其中,該第二生成網路可爲條件生成對抗網路(conditional GAN)中的生成網路,其輸入包括隱向量及類別特徵。
在一種可能的實現方式中,可預先設定有多個類別,每個預設類別具有對應的類別特徵。將第二隱向量及預設類別的類別特徵輸入第二生成網路中處理,可得到目標圖像的重建圖像,該重建圖像中對象的類別爲預設類別,原始的目標圖像中對象的類別與預設類別不同。例如,在對象爲動物時,目標圖像中的動物爲狗,而重建圖像中的動物爲猫;在對象爲車輛時,目標圖像中的車輛爲巴士,而重建圖像中的車輛爲卡車。
通過這種方式,可以實現圖像中對象的類別轉換,提高圖像操縱任務的處理效果。
根據本發明的實施例,還提供了一種圖像生成方法,該方法包括:
對第三隱向量與第四隱向量、第三生成網路的參數與第四生成網路的參數分別進行插值處理,得到至少一個插值隱向量以及至少一個插值生成網路的參數,第三生成網路用於根據第三隱向量生成第一目標圖像的重建圖像,第四生成網路用於根據第四隱向量生成第二目標圖像的重建圖像;
將各個插值隱向量分別輸入相應的插值生成網路,得到至少一個變形圖像,所述至少一個變形圖像中對象的姿態處於所述第一目標圖像中對象的姿態與所述第二目標圖像中對象的姿態之間。
其中,所述第三隱向量及所述第三生成網路、所述第四隱向量及所述第四生成網路是根據上述的網路訓練方法訓練得到的。
舉例來說,可根據上述網路訓練方法,訓練得到兩個或兩個以上的隱向量和生成網路,通過這些隱向量和生成網路實現兩個圖像之間的連續過渡,也即圖像變形(image morphing)。
在一種可能的實現方式中,可訓練得到第三隱向量及第三生成網路、第四隱向量及第四生成網路,第三生成網路用於根據第三隱向量生成第一目標圖像的重建圖像,第四生成網路用於根據第四隱向量生成第二目標圖像的重建圖像。
在一種可能的實現方式中,可對第三隱向量與第四隱向量、第三生成網路的參數與第四生成網路的參數分別進行插值處理,得到至少一個插值隱向量以及至少一個插值生成網路的參數,也即,得到相對應的多組插值隱向量及插值生成網路。本發明對具體的差值方式不作限制。
在一種可能的實現方式中,可將各個插值隱向量分別輸入相應的插值生成網路,得到至少一個變形圖像。該至少一個變形圖像中對象的姿態處於所述第一目標圖像中對象的姿態與所述第二目標圖像中對象的姿態之間。這樣,得到的一個或多個變形圖像可實現兩個圖像之間的過渡。
在得到的變形圖像較多的情況下,還可將第一目標圖像的重建圖像、多個變形圖像及第二目標圖像的重建圖像作爲視訊幀,形成一段視訊,完成離散的圖像到連續的視訊之間的變換。
通過這種方式,可以實現圖像之間的過渡,提高圖像操縱任務的處理效果。
根據本發明實施例的方法,使用在大規模自然圖像中學習的生成對抗網路(Generative Adversarial Networks,簡稱GAN)中的生成網路作爲通用的圖像優先,同時優化隱向量和生成器參數來進行圖像重建,能夠恢復目標圖像之外的訊息,例如恢復灰度圖的顔色;能夠學習到圖像的流形(manifold),實現對圖像高級語義的操縱。
此外,根據本發明實施例的方法,採用生成對抗網路中的判別網路的特徵的L1距離來作爲圖像重建的相似度度量,並且對生成網路的參數的優化可以通過漸進(progressive)的方式進行,進一步提高了網路的訓練效果,能夠實現更精確的圖像重建。
根據本發明實施例的方法,能夠應用於圖像復原類、圖像編輯類應用或軟體中,有效實現對各種目標圖像的重建,可實現一系列圖像復原(image restoration)任務和圖像操縱(image manipulation)任務,包括但不限於:色彩化(colorization),圖像修補(inpainting),超解析度(super-resolution),對抗防禦(adversarial defense),隨機抖動(random jittering),圖像變形(image morphing),類別轉換(category transfer)等。用戶可以用本方法恢復灰度圖片的顔色,將低解析度圖像變爲高解析度圖像,恢復出圖片損失的圖像塊;還可以對圖片的內容進行操縱,例如將圖片中的狗變成猫,改變圖片中狗的姿態,實現兩張圖片的連續過渡等。
可以理解,本發明提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本發明不再贅述。本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。應當理解,本發明的請求項、說明書及圖式中的術語“第一”、“第二”、“第三”和“第四”等是用於區別不同對象,而不是用於描述特定順序。
此外,本發明還提供了網路訓練裝置、圖像生成裝置、電子設備、電腦可讀儲存介質、程式,上述均可用來實現本發明提供的任一種網路訓練方法及圖像生成方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
圖3示出根據本發明實施例的網路訓練裝置的方塊圖,如圖3所示,所述網路訓練裝置包括:
第一生成模組31,用於將隱向量輸入預訓練的生成網路,得到第一生成圖像,所述生成網路是與判別網路通過多個自然圖像對抗訓練得到的;
退化模組32,用於對所述第一生成圖像進行退化處理,得到所述第一生成圖像的第一退化圖像;
訓練模組33,用於根據所述第一退化圖像及目標圖像的第二退化圖像,訓練所述隱向量及所述生成網路,其中,訓練後的生成網路和訓練後的隱向量用於生成所述目標圖像的重建圖像。
在一種可能的實現方式中,所述訓練模組33包括:特徵獲取子模組,用於將所述第一退化圖像及目標圖像的第二退化圖像分別輸入預訓練的判別網路中處理,得到所述第一退化圖像的第一判別特徵及所述第二退化圖像的第二判別特徵;第一訓練子模組,用於根據所述第一判別特徵及所述第二判別特徵,訓練所述隱向量及所述生成網路。
在一種可能的實現方式中,所述判別網路包括多級判別網路塊,所述特徵獲取子模組包括:第一獲取子模組,用於將所述第一退化圖像輸入所述判別網路中處理,得到所述判別網路的多級判別網路塊輸出的多個第一判別特徵;第二獲取子模組,用於將所述第二退化圖像輸入所述判別網路中處理,得到所述判別網路的多級判別網路塊輸出的多個第二判別特徵。
在一種可能的實現方式中,所述第一訓練子模組包括:損失確定子模組,用於根據所述第一判別特徵及所述第二判別特徵之間的距離,確定所述生成網路的網路損失;第二訓練子模組,用於根據所述生成網路的網路損失,訓練所述隱向量及所述生成網路。
在一種可能的實現方式中,所述生成網路包括N級生成網路塊,所述第二訓練子模組用於:根據第n-1輪訓練後的生成網路的網路損失,訓練所述生成網路的前n級生成網路塊,得到第n輪訓練後的生成網路,1≤n≤N,n、N爲整數。
在一種可能的實現方式中,所述網路訓練裝置還包括:第二生成模組,用於將多個初始隱向量輸入預訓練的生成網路,得到多個第二生成圖像;第一向量確定模組,用於根據所述目標圖像與所述多個第二生成圖像之間的差異訊息,從所述多個初始隱向量中確定出所述隱向量。
在一種可能的實現方式中,所述網路訓練裝置還包括:第二向量確定模組,用於將所述目標圖像輸入預訓練的編碼網路,輸出所述隱向量。
在一種可能的實現方式中,所述網路訓練裝置還包括:第一重建模組,用於將訓練後的隱向量輸入訓練後的生成網路,得到所述目標圖像的重建圖像,其中,所述重建圖像包括彩色圖像,所述目標圖像的第二退化圖像包括灰度圖像;或所述重建圖像包括完整圖像,所述第二退化圖像包括缺失圖像;或所述重建圖像的解析度大於所述第二退化圖像的解析度。
根據本發明的一方面,提供了一種圖像生成裝置,包括:擾動模組,用於通過隨機抖動訊息對第一隱向量進行擾動處理,得到擾動後的第一隱向量;第二重建模組,用於將所述擾動後的第一隱向量輸入第一生成網路中處理,得到目標圖像的重建圖像,所述重建圖像中對象的位置與所述目標圖像中對象的位置不同,其中,所述第一隱向量及所述第一生成網路是根據上述的網路訓練裝置訓練得到的。
根據本發明的一方面,提供了一種圖像生成裝置,包括:第三重建模組,用於將第二隱向量及預設類別的類別特徵輸入第二生成網路中處理,得到目標圖像的重建圖像,所述第二生成網路包括條件生成網路,所述重建圖像中對象的類別包括所述預設類別,所述目標圖像中對象的類別與所述預設類別不同,其中,所述第二隱向量及所述第二生成網路是根據上述的網路訓練裝置訓練得到的。
根據本發明的一方面,提供了一種圖像生成裝置,包括:插值模組,用於對第三隱向量與第四隱向量、第三生成網路的參數與第四生成網路的參數分別進行插值處理,得到至少一個插值隱向量以及至少一個插值生成網路的參數,第三生成網路用於根據第三隱向量生成第一目標圖像的重建圖像,第四生成網路用於根據第四隱向量生成第二目標圖像的重建圖像;變形圖像獲取模組,用於將各個插值隱向量分別輸入相應的插值生成網路,得到至少一個變形圖像,所述至少一個變形圖像中對象的姿態處於所述第一目標圖像中對象的姿態與所述第二目標圖像中對象的姿態之間,其中,所述第三隱向量及所述第三生成網路、所述第四隱向量及所述第四生成網路是根據上述的網路訓練裝置訓練得到的。
在一些實施例中,本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,爲了簡潔,這裏不再贅述。
本發明實施例還提出一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是非揮發性電腦可讀儲存介質或揮發性電腦可讀儲存介質。
本發明實施例還提出一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置爲調用所述記憶體儲存的指令,以執行上述方法。
本發明實施例還提供了一種電腦程式産品,包括電腦可讀代碼,當電腦可讀代碼在設備上運行時,設備中的處理器執行用於實現如上任一實施例提供的網路訓練方法及圖像生成方法的指令。
本發明實施例還提供了另一種電腦程式産品,用於儲存電腦可讀指令,指令被執行時使得電腦執行上述任一實施例提供的網路訓練方法及圖像生成方法的操作。
電子設備可以被提供爲終端、伺服器或其它形態的設備。
圖4示出根據本發明實施例的一種電子設備800的方塊圖。例如,電子設備800可以是行動電話,電腦,數位廣播終端,訊息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖4,電子設備800可以包括以下一個或多個組件:處理組件802,記憶體804,電源組件806,多媒體組件808,音訊組件810,輸入/輸出(I/O)的介面812,感測器組件814,以及通訊組件816。
處理組件802通常控制電子設備800的整體操作,諸如與顯示,電話呼叫,數據通訊,相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件802可以包括一個或多個模組,便於處理組件802和其他組件之間的交互。例如,處理組件802可以包括多媒體模組,以方便多媒體組件808和處理組件802之間的交互。
記憶體804被配置爲儲存各種類型的數據以支持在電子設備800的操作。這些數據的示例包括用於在電子設備800上操作的任何應用程式或方法的指令,連絡人數據,電話簿數據,訊息,圖片,視訊等。記憶體804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電子可抹除可程式化唯讀記憶體(EEPROM),可抹除可程式化唯讀記憶體(EPROM),可程式化唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁碟或光碟。
電源組件806爲電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統,一個或多個電源,及其他與爲電子設備800生成、管理和分配電力相關聯的組件。
多媒體組件808包括在所述電子設備800和用戶之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸控面板(TP)。如果螢幕包括觸控面板,螢幕可以被實現爲觸控螢幕,以接收來自用戶的輸入訊號。觸控面板包括一個或多個觸控感測器以感測觸控、滑動和觸控面板上的手勢。所述觸控感測器可以不僅感測觸控或滑動動作的邊界,而且還檢測與所述觸控或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件808包括一個前置攝影機和/或後置攝影機。當電子設備800處於操作模式,如拍攝模式或視訊模式時,前置攝影機和/或後置攝影機可以接收外部的多媒體數據。每個前置攝影機和後置攝影機可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音訊組件810被配置爲輸出和/或輸入音訊訊號。例如,音訊組件810包括一個麥克風(MIC),當電子設備800處於操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風被配置爲接收外部音訊訊號。所接收的音訊訊號可以被進一步儲存在記憶體804或經由通訊組件816發送。在一些實施例中,音訊組件810還包括一個揚聲器,用於輸出音訊訊號。
I/O介面812爲處理組件802和周邊介面模組之間提供介面,上述周邊介面模組可以是鍵盤,滑鼠,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啓動按鈕和鎖定按鈕。
感測器組件814包括一個或多個感測器,用於爲電子設備800提供各個方面的狀態評估。例如,感測器組件814可以檢測到電子設備800的打開/關閉狀態,組件的相對定位,例如所述組件爲電子設備800的顯示器和小鍵盤,感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變,用戶與電子設備800接觸的存在或不存在,電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器,如互補金屬氧化物半導體(CMOS)或電荷耦合裝置(CCD)圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器組件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。
通訊組件816被配置爲便於電子設備800和其他設備之間有線或無線方式的通訊。電子設備800可以接入基於通訊標準的無線網路,如無線網路(WiFi),第二代行動通訊技術(2G)或第三代行動通訊技術(3G),或它們的組合。在一個示例性實施例中,通訊組件816經由廣播信道接收來自外部廣播管理系統的廣播訊號或廣播相關訊息。在一個示例性實施例中,所述通訊組件816還包括近場通訊(NFC)模組,以促進短程通訊。例如,在NFC模組可基於射頻識別(RFID)技術,紅外數據協會(IrDA)技術,超寬頻(UWB)技術,藍牙(BT)技術和其他技術來實現。
在示例性實施例中,電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、數位訊號處理設備(DSPD)、可程式化邏輯裝置(PLD)、現場可程式化邏輯閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現,用於執行上述方法。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存介質,例如包括電腦程式指令的記憶體804,上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。
圖5示出根據本發明實施例的一種電子設備1900的方塊圖。例如,電子設備1900可以被提供爲一伺服器。參照圖5,電子設備1900包括處理組件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於儲存可由處理組件1922的執行的指令,例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件1922被配置爲執行指令,以執行上述方法。
電子設備1900還可以包括一個電源組件1926被配置爲執行電子設備1900的電源管理,一個有線或無線網路介面1950被配置爲將電子設備1900連接到網路,和一個輸入輸出(I/O)介面1958。電子設備1900可以操作基於儲存在記憶體1932的操作系統,例如微軟伺服器操作系統(Windows ServerTM ),蘋果公司推出的基於圖形用戶界面操作系統(Mac OS XTM ),多用戶多進程的電腦操作系統(UnixTM ), 自由和開放原始碼的類Unix操作系統(LinuxTM ),開放原始碼的類Unix操作系統(FreeBSDTM )或類似。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存介質,例如包括電腦程式指令的記憶體1932,上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。
本發明可以是系統、方法和/或電腦程式産品。電腦程式産品可以包括電腦可讀儲存介質,其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。
電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是――但不限於――電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子(非窮舉的列表)包括:可攜式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除可程式化唯讀記憶體(EPROM或閃存)、靜態隨機存取記憶體(SRAM)、可攜式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能影音光碟(DVD)、記憶卡、磁片、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裏所使用的電腦可讀儲存介質不被解釋爲瞬時訊號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電訊號。
這裏所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備,或者通過網路、例如網際網路、區域網路、廣域網路和/或無線網下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。
用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、韌體指令、狀態設置數據、或者以一種或多種程式化語言的任意組合編寫的原始碼或目標代碼,所述程式化語言包括面向對象的程式化語言—諸如Smalltalk、C++等,以及常規的過程式程式化語言—諸如“C”語言或類似的程式化語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作爲一個獨立的套裝軟體執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到用戶電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供商來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態訊息來個性化定制電子電路,例如可程式化邏輯電路、現場可程式化邏輯閘陣列(FPGA)或可程式化邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本發明的各個方面。
這裏參照根據本發明實施例的方法、裝置(系統)和電腦程式産品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解,流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式化數據處理裝置的處理器,從而生産出一種機器,使得這些指令在通過電腦或其它可程式化數據處理裝置的處理器執行時,産生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中,這些指令使得電腦、可程式化數據處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀介質則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令加載到電腦、其它可程式化數據處理裝置、或其它設備上,使得在電腦、其它可程式化數據處理裝置或其它設備上執行一系列操作步驟,以産生電腦實現的過程,從而使得在電腦、其它可程式化數據處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。
圖式中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式産品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作爲替換的實現中,方塊中所標注的功能也可以以不同於圖式中所標注的順序發生。例如,兩個連續的方塊實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
該電腦程式産品可以具體通過硬體、軟體或其結合的方式實現。在一個可選實施例中,所述電腦程式産品具體體現爲電腦儲存介質,在另一個可選實施例中,電腦程式産品具體體現爲軟體産品,例如軟體開發套件(Software Development Kit,SDK)等等。
在不違背邏輯的情況下,本發明不同實施例之間可以相互結合,不同實施例描述有所側重,爲側重描述的部分可以參見其他實施例的記載。
以上已經描述了本發明的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
21:生成網路 22:判別網路 23:生成圖像 31:第一生成模組 32:退化模組 33:訓練模組 800:電子設備 802:處理組件 804:記憶體 806:電源組件 808:多媒體組件 810:音訊組件 812:輸入/輸出介面 814:感測器組件 816:通訊組件 820:處理器 1900:電子設備 1922:處理組件 1926:電源組件 1932:記憶體 1950:網路介面 1958:輸入/輸出介面 S11~S13:步驟
此處的圖式被併入說明書中並構成本說明書的一部分,這些圖式示出了符合本發明的實施例,並與說明書一起用於說明本發明的技術方案: 圖1示出根據本發明實施例的網路訓練方法的流程圖; 圖2示出根據本發明實施例的生成網路的訓練過程的示意圖; 圖3示出根據本發明實施例的網路訓練裝置的方塊圖; 圖4示出根據本發明實施例的一種電子設備的方塊圖;及 圖5示出根據本發明實施例的一種電子設備的方塊圖。
S11~S13:步驟

Claims (13)

  1. 一種網路訓練方法,包括: 將隱向量輸入預訓練的生成網路,得到第一生成圖像,所述生成網路是與判別網路通過多個自然圖像對抗訓練得到的; 對所述第一生成圖像進行退化處理,得到所述第一生成圖像的第一退化圖像; 根據所述第一退化圖像及目標圖像的第二退化圖像,訓練所述隱向量及所述生成網路,其中,訓練後的生成網路和訓練後的隱向量用於生成所述目標圖像的重建圖像。
  2. 如請求項1所述的方法,其中,根據所述第一退化圖像及目標圖像的第二退化圖像,訓練所述隱向量及所述生成網路,包括: 將所述第一退化圖像及目標圖像的第二退化圖像分別輸入預訓練的判別網路中處理,得到所述第一退化圖像的第一判別特徵及所述第二退化圖像的第二判別特徵; 根據所述第一判別特徵及所述第二判別特徵,訓練所述隱向量及所述生成網路。
  3. 如請求項2所述的方法,其中,所述判別網路包括多級判別網路塊, 將所述第一退化圖像及目標圖像的第二退化圖像分別輸入預訓練的判別網路中處理,得到所述第一退化圖像的第一判別特徵及所述第二退化圖像的第二判別特徵,包括: 將所述第一退化圖像輸入所述判別網路中處理,得到所述判別網路的多級判別網路塊輸出的多個第一判別特徵; 將所述第二退化圖像輸入所述判別網路中處理,得到所述判別網路的多級判別網路塊輸出的多個第二判別特徵。
  4. 如請求項2所述的方法,其中,根據所述第一判別特徵及所述第二判別特徵,訓練所述隱向量及所述生成網路,包括: 根據所述第一判別特徵及所述第二判別特徵之間的距離,確定所述生成網路的網路損失; 根據所述生成網路的網路損失,訓練所述隱向量及所述生成網路。
  5. 如請求項4所述的方法,其中,所述生成網路包括N級生成網路塊, 根據所述生成網路的網路損失,訓練所述隱向量及所述生成網路,包括: 根據第n-1輪訓練後的生成網路的網路損失,訓練所述生成網路的前n級生成網路塊,得到第n輪訓練後的生成網路,1≤n≤N,n、N爲整數。
  6. 如請求項1所述的方法,其中,所述方法還包括: 將多個初始隱向量輸入預訓練的生成網路,得到多個第二生成圖像; 根據所述目標圖像與所述多個第二生成圖像之間的差異訊息,從所述多個初始隱向量中確定出所述隱向量。
  7. 如請求項1所述的方法,其中,所述方法還包括: 將所述目標圖像輸入預訓練的編碼網路,輸出所述隱向量。
  8. 如請求項1至7其中任意一項所述的方法,其中,所述方法還包括: 將訓練後的隱向量輸入訓練後的生成網路,得到所述目標圖像的重建圖像, 其中,所述重建圖像包括彩色圖像,所述目標圖像的第二退化圖像包括灰度圖像;或 所述重建圖像包括完整圖像,所述第二退化圖像包括缺失圖像;或 所述重建圖像的解析度大於所述第二退化圖像的解析度。
  9. 一種圖像生成方法,所述方法包括: 通過隨機抖動訊息對第一隱向量進行擾動處理,得到擾動後的第一隱向量; 將所述擾動後的第一隱向量輸入第一生成網路中處理,得到目標圖像的重建圖像,所述重建圖像中對象的位置與所述目標圖像中對象的位置不同, 其中,所述第一隱向量及所述第一生成網路是根據請求項1至7其中任意一項所述的網路訓練方法訓練得到的。
  10. 一種圖像生成方法,所述方法包括: 將第二隱向量及預設類別的類別特徵輸入第二生成網路中處理,得到目標圖像的重建圖像,所述第二生成網路包括條件生成網路,所述重建圖像中對象的類別包括所述預設類別,所述目標圖像中對象的類別與所述預設類別不同, 其中,所述第二隱向量及所述第二生成網路是根據請求項1至7其中任意一項所述的網路訓練方法訓練得到的。
  11. 一種圖像生成方法,所述方法包括: 對第三隱向量與第四隱向量、第三生成網路的參數與第四生成網路的參數分別進行插值處理,得到至少一個插值隱向量以及至少一個插值生成網路的參數,第三生成網路用於根據第三隱向量生成第一目標圖像的重建圖像,第四生成網路用於根據第四隱向量生成第二目標圖像的重建圖像; 將各個插值隱向量分別輸入相應的插值生成網路,得到至少一個變形圖像,所述至少一個變形圖像中對象的姿態處於所述第一目標圖像中對象的姿態與所述第二目標圖像中對象的姿態之間, 其中,所述第三隱向量及所述第三生成網路、所述第四隱向量及所述第四生成網路是根據請求項1至7其中任意一項所述的網路訓練方法訓練得到的。
  12. 一種電子設備,包括: 處理器; 用於儲存處理器可執行指令的記憶體; 其中,所述處理器被配置爲調用所述記憶體儲存的指令,以執行如請求項1至11其中任意一項所述的方法。
  13. 一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現如請求項1至11其中任意一項所述的方法。
TW109128779A 2020-01-09 2020-08-24 網路訓練方法、圖像生成方法、電子設備及電腦可讀儲存介質 TWI759830B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010023029.7A CN111223040B (zh) 2020-01-09 2020-01-09 网络训练方法及装置、图像生成方法及装置
CN202010023029.7 2020-01-09

Publications (2)

Publication Number Publication Date
TW202127369A true TW202127369A (zh) 2021-07-16
TWI759830B TWI759830B (zh) 2022-04-01

Family

ID=70832269

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109128779A TWI759830B (zh) 2020-01-09 2020-08-24 網路訓練方法、圖像生成方法、電子設備及電腦可讀儲存介質

Country Status (5)

Country Link
US (1) US20220327385A1 (zh)
KR (1) KR20220116015A (zh)
CN (1) CN111223040B (zh)
TW (1) TWI759830B (zh)
WO (1) WO2021139120A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223040B (zh) * 2020-01-09 2023-04-25 北京市商汤科技开发有限公司 网络训练方法及装置、图像生成方法及装置
CN111767679B (zh) * 2020-07-14 2023-11-07 中国科学院计算机网络信息中心 时变矢量场数据的处理方法及装置
CN112003834B (zh) * 2020-07-30 2022-09-23 瑞数信息技术(上海)有限公司 异常行为检测方法和装置
CN114007099A (zh) * 2021-11-04 2022-02-01 北京搜狗科技发展有限公司 一种视频处理方法、装置和用于视频处理的装置
CN113822798B (zh) * 2021-11-25 2022-02-18 北京市商汤科技开发有限公司 生成对抗网络训练方法及装置、电子设备和存储介质
CN114140603B (zh) * 2021-12-08 2022-11-11 北京百度网讯科技有限公司 虚拟形象生成模型的训练方法和虚拟形象生成方法
CN114299588B (zh) * 2021-12-30 2024-05-10 杭州电子科技大学 一种基于局部空间转换网络的实时目标编辑方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101996730B1 (ko) * 2017-10-11 2019-07-04 인하대학교 산학협력단 인공신경망을 이용한 단일 영상 고해상도 복원 방법 및 시스템
US11449759B2 (en) * 2018-01-03 2022-09-20 Siemens Heathcare Gmbh Medical imaging diffeomorphic registration based on machine learning
CN109840890B (zh) * 2019-01-31 2023-06-09 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN109816620B (zh) * 2019-01-31 2021-01-05 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110633755A (zh) * 2019-09-19 2019-12-31 北京市商汤科技开发有限公司 网络训练方法、图像处理方法及装置、电子设备
CN111223040B (zh) * 2020-01-09 2023-04-25 北京市商汤科技开发有限公司 网络训练方法及装置、图像生成方法及装置

Also Published As

Publication number Publication date
KR20220116015A (ko) 2022-08-19
TWI759830B (zh) 2022-04-01
CN111223040A (zh) 2020-06-02
CN111223040B (zh) 2023-04-25
US20220327385A1 (en) 2022-10-13
WO2021139120A1 (zh) 2021-07-15

Similar Documents

Publication Publication Date Title
TWI759830B (zh) 網路訓練方法、圖像生成方法、電子設備及電腦可讀儲存介質
WO2021155632A1 (zh) 图像处理方法及装置、电子设备和存储介质
TWI740309B (zh) 圖像處理方法及裝置、電子設備和電腦可讀儲存介質
WO2021196401A1 (zh) 图像重建方法及装置、电子设备和存储介质
TWI771645B (zh) 文本識別方法及裝置、電子設備、儲存介質
TWI736179B (zh) 圖像處理方法、電子設備和電腦可讀儲存介質
TW202105244A (zh) 圖像處理方法及裝置、電子設備和電腦可讀儲存介質
WO2021208667A1 (zh) 图像处理方法及装置、电子设备和存储介质
TWI738172B (zh) 影片處理方法及裝置、電子設備、儲存媒體和電腦程式
TWI752405B (zh) 神經網路訓練及圖像生成方法、電子設備、儲存媒體
WO2021035812A1 (zh) 一种图像处理方法及装置、电子设备和存储介质
WO2021208666A1 (zh) 字符识别方法及装置、电子设备和存储介质
TW202107337A (zh) 一種人臉圖像識別方法及裝置、電子設備和電腦可讀儲存媒體
WO2020220807A1 (zh) 图像生成方法及装置、电子设备及存储介质
CN111612070A (zh) 基于场景图的图像描述生成方法及装置
WO2022247128A1 (zh) 图像处理方法及装置、电子设备和存储介质
WO2021036013A1 (zh) 检测器的配置方法及装置、电子设备和存储介质
JP2021530047A (ja) 画像処理方法及び装置、電子機器、並びに記憶媒体
CN111259967A (zh) 图像分类及神经网络训练方法、装置、设备及存储介质
WO2022141969A1 (zh) 图像分割方法及装置、电子设备、存储介质和程序
TWI770531B (zh) 人臉識別方法、電子設備和儲存介質
CN111988622B (zh) 视频预测方法及装置、电子设备和存储介质
CN110443363B (zh) 图像特征学习方法及装置
CN107992893B (zh) 压缩图像特征空间的方法及装置
CN117150066B (zh) 汽车传媒领域的智能绘图方法和装置