TW202036462A - 圖像生成方法及裝置、電子設備和儲存介質 - Google Patents

圖像生成方法及裝置、電子設備和儲存介質 Download PDF

Info

Publication number
TW202036462A
TW202036462A TW108147256A TW108147256A TW202036462A TW 202036462 A TW202036462 A TW 202036462A TW 108147256 A TW108147256 A TW 108147256A TW 108147256 A TW108147256 A TW 108147256A TW 202036462 A TW202036462 A TW 202036462A
Authority
TW
Taiwan
Prior art keywords
image
condition information
condition
neural network
image feature
Prior art date
Application number
TW108147256A
Other languages
English (en)
Other versions
TWI735112B (zh
Inventor
劉睿
劉宇
龔新宇
王曉剛
李鴻升
Original Assignee
大陸商北京市商湯科技開發有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商北京市商湯科技開發有限公司 filed Critical 大陸商北京市商湯科技開發有限公司
Publication of TW202036462A publication Critical patent/TW202036462A/zh
Application granted granted Critical
Publication of TWI735112B publication Critical patent/TWI735112B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公開實施例公開了一種圖像生成方法及裝置、電子設備和儲存介質,所述方法包括:獲取包含預生成圖像的預定條件資訊;對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵;基於所述圖像特徵得到與所述預定條件資訊對應的生成圖像。本公開實施例能夠簡單方便的通過預定條件資訊生成對應的圖像。

Description

圖像生成方法及裝置、電子設備和儲存 介質
本公開關於電腦視覺技術領域,尤其關於一種圖像處理方法及裝置、電子設備和儲存介質。
圖像生成是電腦視覺和深度學習領域的重要問題,要求機器可以從大量自然圖像中進行學習,從而可以生成逼真的、符合自然邏輯的圖片。該技術有很多應用場景,比如圖像合成、圖像轉換、圖像的壓縮與重構等。然而已有的方法很難根據給定的條件生成高匹配度的圖片的技術問題。
本公開實施例提供了一種圖像生成方法及裝置、電子設備和儲存介質。
根據本公開實施例的第一方面,提供了一種圖像生成方法,其包括:獲取包含預生成圖像的預定條件資 訊;對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵;基於所述圖像特徵得到與所述預定條件資訊對應的生成圖像。
在一些可能的實施方式中,所述對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵,包括:確定與所述預定條件資訊對應的條件特徵;對所述條件特徵執行所述編碼處理,得到與所述預定條件資訊對應的圖像特徵。
在一些可能的實施方式中,所述確定與所述預定條件資訊對應的條件特徵,包括:在條件空間中查找與所述預定條件資訊匹配的第一條件資訊;為所述第一條件資訊配置第一標識,以及為所述條件空間中所述第一條件資訊以外的第二條件資訊配置第二標識;對所述第一標識和所述第二標識進行組合,得到所述條件特徵。
在一些可能的實施方式中,所述條件空間包括姿態條件資訊,所述確定與所述預定條件資訊對應的條件特徵,包括:回應於所述預定條件資訊中包括預定姿態資訊的情況,將所述姿態條件資訊的第三標識配置成所述預定姿態資訊;在條件空間中查找所述預定姿態資訊以外的預定條件資訊所匹配的第一條件資訊;為所述第一條件資訊分配第一標識,以及為所述條件空間中所述第一條件資訊和所述姿態條件資訊以外的第二條件資訊配置第二標識;對所述第一標識、所述第二標識和第三標識進行組合,得到所述條件特徵。
在一些可能的實施方式中,所述條件空間包括姿態條件資訊,所述確定與所述預定條件資訊對應的條件特徵,包括:回應於所述預定條件資訊中不包括預定姿態資訊的情況,為所述條件空間中的姿態條件資訊配置第四標識;在所述條件空間中查找與所述預定條件資訊匹配的第一條件資訊;為所述第一條件資訊配置第一標識,以及為所述條件空間中所述第一條件資訊和所述姿態條件資訊以外的第二條件資訊配置第二標識;對所述第一標識、所述第二標識和第四標識進行組合,得到所述條件特徵。
在一些可能的實施方式中,所述為所述條件空間中的姿態條件資訊配置第四標識,包括以下方式中的至少一種:為所述姿態條件資訊隨機配置第四標識;利用神經網路生成與所述預定條件資訊匹配的姿態資訊,並將生成的所述姿態資訊配置成所述第四標識。
在一些可能的實施方式中,所述對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵,包括:對所述條件特徵執行至少一次卷積處理和至少一次池化處理,得到所述圖像特徵。
在一些可能的實施方式中,所述基於所述圖像特徵得到與所述預定條件資訊對應的圖像,包括:通過第一神經網路對所述圖像特徵執行反向處理,得到與所述預定條件資訊對應的生成圖像;其中,所述第一神經網路配置為能夠執行雙向處理,所述雙向處理包括:基於輸入圖像獲得與 所述輸入圖像對應的圖像特徵的正向處理,以及基於輸入的圖像特徵獲得與該輸入的圖像特徵對應的圖像的反向處理。
在一些可能的實施方式中,所述第一神經網路包括基於流的可逆生成網路。
在一些可能的實施方式中,所述方法還包括訓練所述第一神經網路的步驟,其包括:獲取第一訓練樣本,所述第一訓練樣本包括:第一圖像樣本和與所述第一圖像樣本對應的第一圖像特徵;將所述第一圖像樣本和第一圖像特徵分別輸入至第一神經網路中執行所述雙向處理,得到與第一圖像樣本對應的預測圖像特徵,以及得到與所述第一圖像特徵對應的預測圖像;基於得到的預測圖像特徵和預測圖像,確定第一神經網路的第一網路損失,並根據該第一網路損失反向調節所述第一神經網路,直至滿足第一訓練終止條件。
在一些可能的實施方式中,所述將所述第一圖像樣本和第一圖像特徵分別輸入至第一神經網路中執行所述雙向處理,得到與第一圖像樣本對應的預測圖像特徵,以及得到與所述第一圖像特徵對應的預測圖像,包括:利用所述第一神經網路的所述正向處理,得到與第一圖像樣本對應的預測圖像特徵;以及利用所述第一神經網路的所述反向處理,得到與所述第一圖像特徵對應的預測圖像。
在一些可能的實施方式中,所述基於得到的預測圖像特徵和預測圖像,確定第一神經網路的第一網路損失,並根據該第一網路損失反向調節所述第一神經網路,直 至滿足第一訓練終止條件,包括:獲得第一圖像樣本和預測圖像之間的第一損失值,以及第一圖像特徵和所述預測圖像特徵之間的第二損失值;根據所述第一損失值和第二損失值確定所述第一網路損失;回應於所述第一網路損失大於第一損失閾值的情況,調整所述第一神經網路的參數,直至滿足所述第一訓練終止條件。
在一些可能的實施方式中,所述方法包括:通過第二神經網路對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵,其中,所述第二神經網路包括自編碼網路。
在一些可能的實施方式中,所述方法還包括:通過監督網路訓練所述第二神經網路的步驟,其包括:獲取第二訓練樣本,所述第二訓練樣本包括第二圖像樣本以及與所述第二圖像樣本對應的條件樣本;利用所述第一神經網路對所述第二圖像樣本執行所述正向處理,得到與所述第二圖像樣本對應的第二圖像特徵;利用第二神經網路對所述條件樣本進行編碼處理,得到與所述條件樣本對應的第三圖像特徵;利用監督網路基於所述第二圖像特徵和第三圖像特徵對應的損失值,調節所述第二神經網路的參數,直至滿足第二訓練終止條件。
在一些可能的實施方式中,所述監督網路包括辨別器、分類器和條件重構器,所述利用監督網路基於所述第二圖像特徵和第三圖像特徵對應的損失值,調節所述第二神經網路的參數,直至滿足所述第二訓練終止條件,包括: 利用所述辨別器對所述第二圖像特徵和第三圖像特徵進行辨別對抗處理,得到基於所述辨別網路的第二圖像特徵和第三圖像特徵之間的第三損失值;利用所述分類器對所述第二圖像特徵和第三圖像特徵進行分類處理,得到基於所述分類器的第二圖像特徵和第三圖像特徵之間的第四損失值;利用所述條件重構器識別所述第三圖像特徵對應的第一姿態條件,並得到所述第二神經網路中的輸入的第二姿態條件和所述第一姿態條件之間的第五損失值;根據所述第三損失值、第四損失值和第五損失值確定第二神經網路的第二網路損失,並根據該第二網路損失調節所述第二神經網路,直至滿足所述第二訓練終止條件。
在一些可能的實施方式中,所述根據所述第三損失值、第四損失值和第五損失值確定第二神經網路的第二網路損失,並根據該第二網路損失調節所述第二神經網路,直至滿足第二訓練終止條件,包括:回應於所述第二網路損失大於第二損失閾值的情況,調整所述第二神經網路的參數,直至所述第二網路損失小於或者等於所述第二損失閾值,確定為滿足所述第二訓練終止條件。
根據本公開實施例的第二方面,提供了一種圖像生成裝置,其包括:
獲取模組,配置為獲取包含預生成圖像的預定條件資訊;
編碼模組,配置為對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵;
生成模組,配置為基於所述圖像特徵得到與所述預定條件資訊對應的生成圖像。
在一些可能的實施方式中,所述編碼模組包括:
確定單元,配置為確定與所述預定條件資訊對應的條件特徵;
編碼單元,配置為對所述條件特徵執行所述編碼處理,得到與所述預定條件資訊對應的圖像特徵。
在一些可能的實施方式中,所述確定單元還配置為在條件空間中查找與所述預定條件資訊匹配的第一條件資訊;為所述第一條件資訊配置第一標識,以及為所述條件空間中所述第一條件資訊以外的第二條件資訊配置第二標識;對所述第一標識和所述第二標識進行組合,得到所述條件特徵。
在一些可能的實施方式中,所述條件空間包括姿態條件資訊,所述確定單元還配置為回應於所述預定條件資訊中包括預定姿態資訊的情況,將所述姿態條件資訊的第三標識配置成所述預定姿態資訊;在條件空間中查找所述預定姿態資訊以外的預定條件資訊所匹配的第一條件資訊;為所述第一條件資訊分配第一標識,以及為所述條件空間中所述第一條件資訊和所述姿態條件資訊以外的第二條件資訊配置第二標識;對所述第一標識、所述第二標識和第三標識進行組合,得到所述條件特徵。
在一些可能的實施方式中,所述條件空間包括姿態條件資訊,所述確定單元還配置為回應於所述預定條件 資訊中不包括預定姿態資訊的情況,為所述條件空間中的姿態條件資訊配置第四標識;在所述條件空間中查找與所述預定條件資訊匹配的第一條件資訊;為所述第一條件資訊配置第一標識,以及為所述條件空間中所述第一條件資訊和所述姿態條件資訊以外的第二條件資訊配置第二標識;對所述第一標識、所述第二標識和第四標識進行組合,得到所述條件特徵。
在一些可能的實施方式中,所述確定單元,配置為通過以下方式中的至少一種方式為所述條件空間中的姿態條件資訊配置第四標識:為所述姿態條件資訊隨機配置第四標識;利用神經網路生成與所述預定條件資訊匹配的姿態資訊,並將生成的所述姿態資訊配置成所述第四標識。
在一些可能的實施方式中,所述編碼模組還配置為對所述條件特徵執行至少一次卷積處理和至少一次池化處理,得到所述圖像特徵。
在一些可能的實施方式中,所述生成模組還配置為通過第一神經網路對所述圖像特徵執行反向處理,得到與所述預定條件資訊對應的生成圖像;其中,所述第一神經網路配置為能夠執行雙向處理,所述雙向處理包括:基於輸入圖像獲得與所述輸入圖像對應的圖像特徵的正向處理,以及基於輸入的圖像特徵獲得與該輸入的圖像特徵對應的圖像的反向處理。
在一些可能的實施方式中,所述第一神經網路包括基於流的可逆生成網路。
在一些可能的實施方式中,所述裝置還包括第一訓練模組,配置為訓練所述第一神經網路,並且訓練所述第一神經網路的步驟包括:獲取第一訓練樣本,所述第一訓練樣本包括:第一圖像樣本和與所述第一圖像樣本對應的第一圖像特徵;將所述第一圖像樣本和第一圖像特徵分別輸入至第一神經網路中執行所述雙向處理,得到與第一圖像樣本對應的預測圖像特徵,以及得到與所述第一圖像特徵對應的預測圖像;基於得到的預測圖像特徵和預測圖像,確定第一神經網路的第一網路損失,並根據該第一網路損失反向調節所述第一神經網路,直至滿足第一訓練終止條件。
在一些可能的實施方式中,所述第一訓練模組還配置為利用所述第一神經網路的所述正向處理,得到與第一圖像樣本對應的預測圖像特徵;以及利用所述第一神經網路的所述反向處理,得到與所述第一圖像特徵對應的預測圖像。
在一些可能的實施方式中,所述第一訓練模組還配置為獲得第一圖像樣本和預測圖像之間的第一損失值,以及第一圖像特徵和所述預測圖像特徵之間的第二損失值;根據所述第一損失值和第二損失值確定所述第一網路損失;回應於所述第一網路損失大於第一損失閾值的情況,調整所述第一神經網路的參數,直至滿足所述第一訓練終止條件。
在一些可能的實施方式中,所述編碼模組還配置為通過第二神經網路對所述預定條件資訊進行編碼處 理,生成與所述預定條件資訊對應的圖像特徵,其中,所述第二神經網路包括自編碼網路。
在一些可能的實施方式中,所述裝置還包括第二訓練模組,配置為通過監督網路訓練所述第二神經網路的步驟,該訓練第二神經網路的步驟包括:獲取第二訓練樣本,所述第二訓練樣本包括第二圖像樣本以及與所述第二圖像樣本對應的條件樣本;利用所述第一神經網路對所述第二圖像樣本執行所述正向處理,得到與所述第二圖像樣本對應的第二圖像特徵;利用第二神經網路對所述條件樣本進行編碼處理,得到與所述條件樣本對應的第三圖像特徵;利用監督網路基於所述第二圖像特徵和第三圖像特徵對應的損失值,調節所述第二神經網路的參數,直至滿足第二訓練終止條件。
在一些可能的實施方式中,所述第二訓練模組還配置為利用所述辨別器對所述第二圖像特徵和第三圖像特徵進行辨別對抗處理,得到基於所述辨別網路的第二圖像特徵和第三圖像特徵之間的第三損失值;利用所述分類器對所述第二圖像特徵和第三圖像特徵進行分類處理,得到基於所述分類器的第二圖像特徵和第三圖像特徵之間的第四損失值;利用所述條件重構器識別所述第三圖像特徵對應的第一姿態條件,並得到所述第二神經網路中的輸入的第二姿態條件和所述第一姿態條件之間的第五損失值;根據所述第三損失值、第四損失值和第五損失值確定第二神經網路的第二 網路損失,並根據該第二網路損失調節所述第二神經網路,直至滿足所述第二訓練終止條件。
在一些可能的實施方式中,所述第二訓練模組還配置為回應於所述第二網路損失大於第二損失閾值的情況,調整所述第二神經網路的參數,直至所述第二網路損失小於或者等於所述第二損失閾值,確定為滿足所述第二訓練終止條件。
根據本公開實施例的協力廠商面,提供了一種電子設備裝置,其包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:執行第一方面中任意一項所述的方法。
根據本公開實施例的第四方面,提供了一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現第一方面中任意一項所述的方法。
本公開實施例能夠通過對預定條件資訊執行編碼處理,得到對應的圖像特徵,並根據圖像特徵得到相應的圖像,從而達到給定條件生成相應圖像的效果,並且本公開實施例還具有生成的圖像與預定條件資訊的匹配度較高的特點。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本公開實施例。
根據下面參考附圖對示例性實施例的詳細說明,本公開的其它特徵及方面將變得清楚。
10‧‧‧獲取模組
20‧‧‧編碼模組
30‧‧‧生成模組
800‧‧‧電子設備
802‧‧‧處理組件
804‧‧‧記憶體
806‧‧‧電源組件
808‧‧‧多媒體組件
810‧‧‧音頻組件
812‧‧‧輸入/輸出介面
814‧‧‧感測器組件
816‧‧‧通信組件
820‧‧‧處理器
1900‧‧‧電子設備
1922‧‧‧處理組件
1926‧‧‧電源組件
1932‧‧‧記憶體
1950‧‧‧網路介面
1958‧‧‧輸入輸出介面
此處的附圖被併入說明書中並構成本說明書的一部分,這些附圖示出了符合本公開的實施例,並與說明書一起用於說明本公開的技術方案。
圖1示出根據本公開實施例的一種圖像生成方法的流程圖;
圖2示出根據本公開實施例的一種圖像生成方法中步驟S20的流程圖;
圖3示出根據本公開實施例的一種圖像生成方法中步驟S21的流程圖;
圖4示出根據本公開實施例的一種圖像生成方法中步驟S21的另一流程圖;
圖5示出根據本公開實施例的一種圖像生成方法中步驟S21的另一流程圖;
圖6示出根據本公開實施例訓練第一神經網路的流程圖;
圖7示出本公開實施例訓練第一神經網路的方法中步驟S43的流程圖;
圖8示出根據本公開實施例中執行圖像生成方法的網路模型結構示意圖;
圖9示出根據本公開實施例通過監督網路訓練第二神經網路的網路結構圖;
圖10示出根據本公開實施例的一種圖像處理方法中訓練第二神經網路的流程圖;
圖11示出根據本公開實施例的一種圖像處理裝置的方塊圖;
圖12示出根據本公開實施例的一種電子設備800的方塊圖;
圖13示出根據本公開實施例的一種電子設備1900的方塊圖。
以下將參考附圖詳細說明本公開的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製附圖。
在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯對象的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好地說明本公開,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本公開同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本公開的主旨。
本公開實施例提供了一種圖像生成方法,其可以根據接收的預定條件資訊,生成與該預定條件資訊匹配的圖像。本公開實施例提供的方法可以應用在任意的終端設備或者伺服器,或者其他設備中。終端設備可以為使用者設備(UE,User Equipment)、移動設備、蜂窩電話、無線電話、個人數位助理(PDA,Personal Digital Assistant)、手持設備、計算設備、車載設備、可穿戴設備等。在一些可能的實現方式中,該圖像生成方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。上述僅為設備的示例性說明,不作為本公開實施例的具體限定,在其他實施例中,也可以通過其他能夠執行圖像處理的設備實現。
圖1示出根據本公開實施例的一種圖像生成方法的流程圖,其中,本公開實施例的所述圖像生成方法可以包括如下:
S10:獲取包含預生成圖像的預定條件資訊。
本公開實施例中,預定條件資訊包括所要生成的圖像的預定條件,例如該預定條件資訊可以包括圖像所對應的場景資訊、圖像中包括的對象類型資訊、對象的標識資訊、對象的表情資訊、對象的姿態和位置、對象的屬性資訊 等資訊中的至少一種資訊,即與生成的圖像有關的資訊都可以作為預定條件資訊。
在一些可能的實施方式中,預定條件資訊的形式可以為語音形式、文字形式、圖片形式等中的至少一種,通過對預定條件資訊進行解析,即可以獲取其中包括的各預定條件。例如,在預定條件資訊為語音形式時,可以通過語音辨識的方式識別出其中的關鍵字,從而獲得預定條件資訊中的各預定條件。或者,在預定條件資訊為表情圖片時,則可以通過圖片識別的方式識別其中的表情類型,從而獲得預定條件資訊中的各預定條件。或者,在預定條件資訊為文字形式時,可以通過文字識別或者其他語義識別的方式得到預定條件資訊中的各預定條件。本公開實施例對預定條件資訊的形式不作具體限制,對於不同類型的預定條件資訊,可以通過相應的解析方式得到其中所包括的預定條件。
另外,獲取預定條件資訊的方式可以包括以下方式中的至少一種:通過電子設備的輸入/輸出介面直接接收輸入的所述預定條件資訊,通過通信組件接收外部電子設備傳輸的預定條件資訊,其中輸入/輸出介面可以包括:鍵盤、觸控屏、音頻輸入等,通信組件可以包括藍牙單元、無線保真(Wi-Fi,Wireless-Fidelity)單元、近場通信(NFC,NFC)單元等,上述僅為示例性說明,本公開實施例對此不做具體限定。
S20:對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵。
本公開實施例中,在獲得預定條件資訊之後,即可以基於預定條件資訊得到圖像特徵。其中,可以通過對預定條件資訊執行編碼處理,得到相應的編碼後的特徵,即為得到的圖像特徵。其中編碼處理可以包括至少一次卷積處理和至少一次池化處理。
在一些可能的實施方式中,步驟S20可以通過神經網路實現,該神經網路可以為經過訓練的可以根據接收的預定條件資訊對應的生成與該預定條件資訊對應的圖像特徵的網路。例如,該神經網路可以為自編碼網路。或者在其他實施例中,編碼處理也可以利用預設的編碼參數來執行,本公開實施例對此不作具體限定。
S30:基於所述圖像特徵得到與所述預定條件資訊對應的生成圖像。
在通過步驟S20獲得圖像特徵之後,即可以通過得到的該圖像特徵進一步獲得所要生成的圖像。該生成圖像即為與接收的預定條件資訊對應匹配的圖像。
在一些可能的實施方式中,可以直接通過圖像特徵生成對應的圖像,例如圖像特徵可以為向量或矩陣形式,圖像特徵中的各元素可以表示圖像的各像素點的像素值,根據各像素值即可以生成相應的圖像。
在一些可能的實施方式中,所述基於所述圖像特徵得到與所述預定條件資訊對應的圖像,包括:通過第一神經網路對所述圖像特徵執行反向處理,得到與所述預定條件資訊對應的生成圖像;其中,所述第一神經網路配置為能 夠執行雙向處理,所述雙向處理包括:基於輸入圖像獲得與所述輸入圖像對應的圖像特徵的正向處理,以及基於輸入的圖像特徵獲得與該輸入的圖像特徵對應的圖像的反向處理。
本實施方式中還可以將圖像特徵輸入至第一神經網路中,通過第一神經網路的處理得到對應的圖像。其中,該第一神經網路可以為經過訓練的,且能夠根據接收的圖像特徵得到較高精度的圖像的神經網路。例如該第一神經網路可以為卷積神經網路。或者,在其他實施例中,該第一神經網路也可以為基於流的可逆生成網路實現。該基於流的可逆生成網路可以為經過訓練能夠根據接收的圖像得到與圖像對應的圖像特徵,以及能夠根據接收的圖像特徵得到與該圖像特徵對應的圖像的網路。即該神經網路能夠執行雙向處理,其中,所述雙向處理包括基於輸入圖像獲得與所述輸入圖像對應的圖像特徵的正向處理,以及基於輸入的圖像特徵獲得與該輸入的圖像特徵對應的圖像的反向處理。對於神經網路的選取本公開實施例對此不做具體限定,其可以根據需求進行設定。
通過上述實施例的配置,即可以實現根據接收的預定條件資訊生成的對應的圖像,通過對預定條件資訊執行相應的編碼處理,生成精確的圖像特徵,並根據該圖像特徵得到與預定條件資訊對應的生成圖像,從而提高生成的圖像與預定條件資訊的匹配度。
下面對本公開實施例的各過程進行詳細說明。圖2示出根據本公開實施例的一種圖像生成方法中步驟S20 的流程圖,其中,所述對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵(步驟S20),可以包括如下:
S21:確定與所述預定條件資訊對應的條件特徵。
如上述實施例所述,本公開實施例獲取的預定條件資訊可以為不同形式的資訊,如可以文字、語音、圖片形式,在獲得不同形式的預定條件資訊之後,可以執行解析操作,得到對應的預定條件,繼而可以利用得到的各預定條件確定預定條件資訊對應的條件特徵。本公開實施例通過將預定條件資訊轉換成條件特徵的形式可以實現預定條件資訊的量化,從而方便相應的運算操作。本公開實施例的條件特徵可以為向量或者矩陣形式,條件特徵中的各元素表示是否具有相應的限定條件。
S22:對所述條件特徵執行所述編碼處理,得到與所述預定條件資訊對應的所述圖像特徵。
在獲得條件特徵之後,即可以對條件特徵進行編碼處理,其中條件特徵可以為向量或者矩陣形式,對應的得到的編碼處理結果也可以為矩陣或者向量形式,編碼得到的圖像特徵表示圖像的各像素點的像素值資訊。其中,編碼處理可以包括至少一層的卷積處理以及至少一層的池化處理。
通過上述實施例,即可以實現通過預定條件資訊得到對應的圖像特徵,下面對步驟S20的各步驟進行詳細 說明。圖3示出根據本公開實施例的一種圖像生成方法中步驟S21的流程圖,其中,在一些可能的實施方式中,所述確定與所述預定條件資訊對應的條件特徵(步驟S21),可以包括如下:
S211:在條件空間中查找與所述預定條件資訊匹配的第一條件資訊。
本公開實施例中,可以預先設定有條件空間,該條件空間中可以包括各種類型的條件資訊,例如可以包括不同的場景資訊、對象類型資訊、表情資訊、姿態資訊等。其中,場景資訊用於表示該圖像對應的位置或者場所等資訊,例如可以包括:戶外、室內、公園、咖啡廳、學校等等。對象的類型資訊可以表示圖像中包括的對象的類型,例如可以包括人、男人、女人、嬰兒,貓、狗,或者也可以為更為具體的對象資訊,例如可以為“小明”。對應的,本公開實施例還可以包括圖像庫,圖像庫中的各圖像可以具有相應的標識資訊,根據對象資訊“小明”即可以查詢到與之對應標識的圖像。表情資訊可以包括:哭、笑、悲傷、難過等等。姿態資訊可以包括“抬頭”、“低頭”、“面部朝向的角度”等等,以用來表示圖像中對象的姿態,或者在其他實施例中也可以包括“跑”、“跳”、“睡覺”等資訊。上述僅為示例性說明條件空間中包括的條件資訊,條件空間中包括的條件資訊可以根據需求設定,在其他實施例中也可以包括其他類型或者數量的條件資訊,本公開實施例對此不做具體限定。
由於預先設定有條件空間,因此,在獲得預定條件資訊之後,可以將該預定條件資訊中的預定條件與條件空間中的各條件資訊進行匹配,查找到條件空間中與預定條件資訊匹配的第一條件資訊。其中,匹配是指,查找到的第一條件資訊是與預定條件資訊相同的條件資訊,例如,預定條件資訊為劉海、眼鏡,則第一條件資訊為劉海、眼鏡。在本公開實施例中,可以將條件空間中的各項條件資訊分成兩類,其中一類為第一條件資訊,另一類為第二條件資訊,第一條件資訊是與預定條件資訊中的各預定條件匹配的條件,第二條件資訊是與預定條件資訊中各預定條件不匹配的條件。
S212:為所述第一條件資訊配置第一標識,以及為所述條件空間中所述第一條件資訊以外的第二條件資訊配置第二標識。
對應的,在查找到與預定條件資訊匹配的第一條件資訊之後,即可以為各第一條件資訊配置第一標識,第一標識用於表示相應的條件資訊為預定條件資訊中的各預定條件。以及還可以為條件空間中的第一條件資訊以外的第二條件資訊配置第二標識,該第二標識用於表示相應的條件資訊不是預定條件資訊中的任意預定條件。其中,第一標識和第二標識為不同的標識,例如第一標識可以為“1”,第二標識可以為“0”,在其他的實施例中,第一標識和第二標識也可以為其他的標識,只要能夠區分第一條件資訊和第二條件資訊即可以作為本公開實施例。
S213:對所述第一標識和所述第二標識進行組合,得到所述條件特徵。
基於步驟S212,即可以獲得為條件空間中各條件資訊配置的標識,如第一標識或者第二標識,本公開實施例可以將各第一標識和第二標識排列組合,得到條件特徵向量(條件特徵)。本公開實施例中,條件空間中包括的各條件資訊具有固定的順序,在得到各條件資訊的標識之後,可以按照條件空間中的各條件資訊的順序組合相應的第一標識和第二標識,得到對應的條件特徵。
在本公開實施例中,條件特徵即可以為與條件空間中的各條件資訊對應的標識值,從而實現預定條件資訊的量化,方便後續的編碼處理操作。
上述實施例為條件空間中與預定條件資訊匹配的第一條件資訊和與預定條件資訊不匹配的第二條件資訊分配不同的標識,實現條件特徵的確定過程。在另一些可能的實施方式中,預定條件資訊中可以包括與圖像中的對象姿態相關的姿態條件資訊,本公開實施例可以為該姿態條件資訊配置相應的標識,並對應的生成條件特徵。下面針對不同的實施方式進行分別說明。
在本公開的另一些實施方式中,所述條件空間包括姿態條件資訊;預定條件資訊中可以包括預定姿態資訊,即預定條件資訊中給出了關於圖像中對象的預定姿態條件,此時可以直接將該預定姿態資訊作為條件空間中的姿態條件資訊的第三標識。圖4示出根據本公開實施例的一種圖 像生成方法中步驟S21的另一流程圖,其中,在一些可能的實施方式中,所述確定與所述預定條件資訊對應的條件特徵(步驟S21),還可以包括如下:
S2111:回應於所述預定條件資訊中包括預定姿態資訊的情況,將所述姿態條件資訊的第三標識配置成所述預定姿態資訊。
即如上述所述,可以直接將預定條件資訊中包括的預定姿態資訊確定為條件空間中的姿態條件資訊的第三標識。例如。本公開實施例中,預定姿態資訊中包括的預定姿態資訊可以為從“-1”到“1”之間的任意數值,表示對象的正面在圖像中朝向角度。該預定姿態資訊對應的數值的轉換可以是對預定條件資訊進行解析的過程得到的,例如將預定條件資訊中的表示姿態條件的角度除以360,即可以得到對應的數值,將該數值或者該數值取整後的數值作為上述第三標識,在其他實施例中,上述與預定姿態資訊對應的數值也可以是直接輸入的,本公開實施例對此不作具體限定。
S2112:在條件空間中查找所述預定姿態資訊以外的預定條件資訊所匹配的第一條件資訊。
同理,本公開實施例可以將條件空間中的各條件資訊分成兩類,一類是與預定條件資訊匹配的條件資訊,其中,可以包括與預定姿態資訊匹配的姿態條件資訊,以及除了姿態條件資訊以外的其餘與預定條件資訊匹配的第一 條件資訊,第二類是與預定條件資訊不匹配的第二條件資訊。
S2113:為所述第一條件資訊分配第一標識,以及為所述條件空間中所述第一條件資訊和所述姿態條件資訊以外的各第二條件資訊配置第二標識。
同樣的,在查找到與預定條件資訊匹配的第一條件資訊之後,即可以為各第一條件資訊配置第一標識,第一標識用於表示相應的條件資訊為預定條件資訊中的各預定條件。以及還可以為條件空間中與預定條件資訊不匹配的第二條件資訊配置第二標識,該第二標識用於表示相應的條件資訊不是預定條件資訊中的任意預定條件。其中,第一標識和第二標識為不同的標識,例如第一標識可以為“1”,第二標識可以為“0”,在其他的實施例中,第一標識和第二標識也可以為其他的標識,只要能夠區分第一條件資訊和第二條件資訊即可以作為本公開實施例。
通過上述實施例,即完成了條件空間中第一條件資訊、第二條件資訊以及姿態條件資訊的標識的配置。
S2114:對所述第一標識、所述第二標識和第三標識進行組合,得到所述條件特徵。
基於上述步驟,即可以獲得為條件空間中各條件資訊配置的標識,如第一標識、第二標識或者第三標識,本公開實施例可以將各第一標識、第二標識和第三標識排列組合,得到條件特徵向量(條件特徵)。本公開實施例中,條件空間中包括的各條件資訊具有固定的順序,在得到各條 件資訊的標識之後,可以按照條件空間中的各條件資訊的順序組合相應的第一標識、第二標識和第三標識,得到對應的條件特徵。
在另一些可能的實施方式中,預定條件資訊中可能不包括預定姿態資訊,此時可以為條件空間中的姿態條件資訊配置第四標識。圖5示出根據本公開實施例的一種圖像生成方法中步驟S21的另一流程圖,其中,在一些可能的實施方式中,所述確定與所述預定條件資訊對應的條件特徵(步驟S21),還可以包括如下:
S21111:回應於所述預定條件資訊中不包括預定姿態資訊的情況,為所述條件空間中的姿態條件資訊配置第四標識。
本公開實施例中,在預定條件資訊中不包括預定姿態資訊的情況下,可以按照預設的方式為條件空間中的姿態條件資訊配置第四標識。
在一些可能的實施方式中,可以為所述姿態條件資訊隨機配置第四標識。例如,同第三標識一樣,第四標識可以為從“-1”到“1”之間的任意數值,表示對象的正面在圖像中朝向角度。本公開實施例在生成條件特徵的過程中,可以隨機的為條件空間中的姿態條件資訊配置第四標識。
或者,在另一些可能的實施方式中,也可以利用神經網路生成與所述預定條件資訊匹配的姿態資訊,並將生成的所述姿態資訊配置成所述第四標識。即在本公開實施 例中,可以通過一個經過訓練的神經網路生成與預定條件資訊匹配的姿態資訊。該神經網路可以為卷積神經網路,並且該神經網路可以接收預定姿態資訊,輸出與該預定條件資訊匹配的姿態資訊。該姿態資訊與預定條件資訊的結合,能夠使得生成的圖像具有較好的姿態角度。
本公開實施例,即可以通過上述訓練完成的神經網路得到與預定條件資訊匹配的姿態資訊,並可以將該得到的姿態資訊作為條件空間中的姿態條件資訊的第四標識。
S21112:在所述條件空間中查找與所述預定條件資訊匹配的第一條件資訊。
同理,本公開實施例可以將條件空間中的各條件資訊分成三類,一類是與預定條件資訊匹配的第一條件資訊,第二類為姿態條件資訊,第三類是與預定條件資訊不匹配的且不是姿態條件資訊的第二條件資訊。
S21113:為所述第一條件資訊配置第一標識,以及為所述條件空間中所述第一條件資訊和所述姿態條件資訊以外的第二條件資訊配置第二標識。
同樣的,在查找到與預定條件資訊匹配的第一條件資訊之後,即可以為各第一條件資訊配置第一標識,第一標識用於表示相應的條件資訊為預定條件資訊中的各預定條件。以及還可以為條件空間中除了姿態條件資訊以外的與預定條件資訊不匹配的第二條件資訊配置第二標識,該第二標識用於表示相應的條件資訊不是預定條件資訊中的任意預定條件。其中,第一標識和第二標識為不同的標識,例 如第一標識可以為“1”,第二標識可以為“0”,在其他的實施例中,第一標識和第二標識也可以為其他的標識,只要能夠區分第一條件資訊和第二條件資訊即可以作為本公開實施例。
通過上述實施例,即完成了條件空間中第一條件資訊、第二條件資訊以及姿態條件資訊的標識的配置。
S21114:對所述第一標識、所述第二標識和第四標識進行組合,得到所述條件特徵。
基於上述步驟,即可以獲得為條件空間中各條件資訊配置的標識,如第一標識、第二標識或者第四標識,本公開實施例可以將各第一標識、第二標識和第四標識排列組合,得到條件特徵向量(條件特徵)。本公開實施例中,條件空間中包括的各條件資訊具有固定的順序,在得到各條件資訊的標識之後,可以按照條件空間中的各條件資訊的順序組合相應的第一標識、第二標識和第四標識,得到對應的條件特徵。
通過上述實施例可以得到預定條件資訊對應的條件特徵,在得到條件特徵之後,可以對條件特徵執行編碼處理進而得到與預定條件資訊對應的圖像特徵。其中編碼處理可以包括至少一次卷積處理和至少一次池化處理,其中,每次池化處理所採用的卷積核可以相同也可以不同,例如可以採用1*1的卷積核,也可以採用3*3的卷積核,具體可以根據需求設定。另外,池化處理也可以採用相同的參數或者也可以採用不同的參數,本公開實施例對此不作具體限定。 通過卷積處理和池化處理可以進一步提取條件特徵中的各特徵資訊,同時還可以將條件特徵的維度調整成為與圖像的維度相同的維度,或者說可以將條件特徵的維度調整成配置的預設維度,從而將該預設維度的圖像特徵轉換成相應的圖像。
在公開的一種可選實施例中,在得到圖像特徵之後,即可以執行步驟S30利用該圖像特徵得到相應的圖像。
在一些可能的實施方式中,可以直接利用圖像特徵中表示的各像素點的像素值得到相應的圖像。
在一些可能的實施方式中,可以通過第一神經網路實現通過圖像特徵得到相應的圖像,該第一神經網路可以為經過訓練後可以實現從圖像特徵轉換成精確度較高的圖像的神經網路,如卷積神經網路。
在另一些可能的實施方式中,第一神經網路也可以為能夠執行雙向處理的神經網路,其中所述雙向處理包括:基於輸入圖像獲得與所述輸入圖像對應的圖像特徵的正向處理,以及基於輸入的圖像特徵獲得與該輸入的圖像特徵對應的圖像的反向處理。本公開實施例可以通過將圖像特徵輸入至該第一神經網路中,通過第一神經網路的反向處理將圖像特徵轉換為對應的圖像,其中反向處理的過程可以包括:降維處理(sample)、可逆卷積處理(convolution)、通道均分處理(Affine Coupling)、正則化處理(ActNom)以及輕量化處理(squeeze)。其中,可逆卷積處理、通道 均分處理、正則化處理可以重複多次,從而提高得到的圖像的精確度。
在本公開的一種可能的實施方式中,所述方法包括:通過第二神經網路對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵,其中,所述第二神經網路包括自編碼網路。
為了更加清楚的體現本公開實施例的具體過程,下面舉例說明。圖8示出根據本公開實施例中執行圖像生成方法的網路模型,即執行雙向處理的第一神經網路的結構示意圖。其中,模型A可以為基於得到的圖像特徵生成與之對應的圖像的第一神經網路,例如第一神經網路可以為基於流的可逆生成網路。模型B為基於預定條件資訊確定條件特徵的第二神經網路,例如第二神經網路可以為自編碼神經網路。通過模型A和B即可以實現根據預定條件資訊得到相應的圖像的效果。具體過程如下:本公開實施例接收的預定條件資訊可以包括“不帶眼鏡的金髮女孩H”,其中可以獲得預定條件資訊中的預定條件為:金髮、不帶眼鏡、女孩H(可以是圖像中對象的標識ID),因此可以將該預定條件資訊輸入至第二神經網路時,在條件空間中金髮和女孩H對應的第一標識即可以配置成“1”,眼鏡對應的標識可以配置成“0”,得到Cs部分的條件特徵。進一步地,還可以為條件空間中的姿態條件資訊配置一姿態資訊的標識Cu(第四標識),例如可以設置成“0.2”,進而將Cs和Cu部分的標識連接,並構成條件特徵。將該條件特徵輸入至編碼器中 執行編碼處理,其中,編碼處理的編碼參數為經過訓練確定的,本公開實施例對此不作具體限定,通過編碼處理即可以得到對應的圖像特徵Z。
在得到圖像特徵Z之後,即可以將圖像特徵Z輸入至第一神經網路,利用第一神經網路的反向處理即可以得到與圖像特徵Z對應的圖像。
上述僅為本公開實施例的示例性說明,不作為本公開實施例的具體限定。
下面對本公開實施例的第一神經網路和第二神經網路的訓練過程進行具體說明。其中,對於第一神經網路可以通過第一訓練樣本進行單獨的訓練,例如第一訓練樣本可以包括第一圖像樣本以及與第一圖像樣本對應的第一特徵樣本。圖6示出根據本公開實施例訓練第一神經網路的流程圖。其中,所述訓練所述第一神經網路,包括如下:
S41:獲取第一訓練樣本,所述第一訓練樣本包括:多個第一圖像樣本和與每個第一圖像樣本對應的第一圖像特徵。
其中,第一圖像樣本為圖像,第一圖像特徵為與圖像對應的圖像特徵。在正向處理過程中,第一圖像樣本作為網路的輸入,第一圖像特徵可以作為監督樣本,在反向處理過程中第一圖像特徵作為網路的輸入,第一圖像樣本作為監督樣本。
S42:將所述第一圖像樣本和第一圖像特徵分別輸入至第一神經網路中執行所述雙向處理,得到與第一圖 像樣本對應的預測圖像特徵,以及得到與所述第一圖像特徵對應的預測圖像。
本公開實施例可以利用所述第一神經網路的所述正向處理得到與第一圖像樣本對應的預測圖像特徵;以及利用所述第一神經網路的所述反向處理得到與所述第一圖像特徵對應的預測圖像。
在得到預測圖像特徵以及預測圖像之後,可以根據得到的預測結果執行第一神經網路的優化。
S43:基於得到的預測圖像特徵和預測圖像,確定第一神經網路的第一網路損失,並根據該第一網路損失反向調節所述第一神經網路,直至滿足第一訓練終止條件。
其中,本公開實施例可以根據預測圖像與輸入的第一圖像樣本之間的第一損失值以及預測圖像特徵與輸入的第一圖像特徵之間的第二損失值,確定第一神經網路的第一網路損失,並根據該第一網路損失調整第一神經網路的參數,直至滿足第一訓練終止條件,即所述第一網路損失小於或者等於所述第一損失閾值。
其中,圖7示出本公開實施例訓練第一神經網路的方法中步驟S43的流程圖。其中,所述基於得到的預測圖像特徵和預測圖像,確定第一神經網路的第一網路損失,並根據該第一網路損失反向調節所述第一神經網路,直至滿足第一訓練終止條件,包括如下:
S431:獲得第一圖像樣本和預測圖像之間的第一損失值,以及第一圖像特徵和所述預測圖像特徵之間的第二損失值。
其中,第一損失值可以表示第一圖像樣本和預測圖像之間的差值,以及第二損失值可以表示第一圖像特徵和所述預測圖像特徵之間的差值。
S432:根據所述第一損失值和第二損失值確定所述第一網路損失。
本公開實施例中,第一網路損失可以等於第一損失值和第二損失值的加權和,各損失值的權重可以為預先設定的,如可以分別為0.6和0.4,但本公開實施例對此不做具體限定。
S433:回應於所述第一網路損失大於第一損失閾值的情況,反向調節所述第一神經網路的參數,直至所述第一網路損失小於或者等於所述第一損失閾值,確定為滿足所述第一訓練終止條件。
本公開實施例,在得到的第一網路損失小於或等於第一損失閾值時,即可以確定為滿足訓練要求,此時可以終止第一神經網路的訓練,得到的第一神經網路即可以精確的通過輸入的圖像得到其對應的特徵,並能夠根據得到的特徵反向得到對應的圖像。反之,在第一網路損失大於第一損失閾值時,可以調整第一神經網路的參數,例如調節卷積參數、歸一化參數等等,具體根據神經網路的具體架構確 定,直至所述第一網路損失小於或者等於所述第一損失閾值,確定為滿足所述第一訓練終止條件。
對於第二神經網路的訓練,本公開實施例可以引入監督網路對其進行訓練。圖9示出根據本公開實施例通過監督網路訓練第二神經網路的網路結構圖。圖10示出根據本公開實施例的一種圖像處理方法中訓練第二神經網路的流程圖。所述通過監督網路訓練所述第二神經網路的步驟,包括:
S51:獲取第二訓練樣本,所述第二訓練樣本包括多個第二圖像樣本以及與每個第二圖像樣本對應的條件樣本;
S52:利用第一神經網路對所述圖像樣本執行所述正向處理,得到與所述圖像樣本對應的第二圖像特徵;
S53:利用第二神經網路對所述條件樣本進行編碼處理,得到與所述條件樣本對應的第三圖像特徵;
S54:利用監督網路基於所述第二圖像特徵和第三圖像特徵對應的損失值,調節所述第二神經網路的參數,直至滿足第二訓練終止條件。
其中,在對第二神經網路進行訓練時,可以通過訓練好的第一神經網路一起執行本公開實施例的圖像生成處理,並根據生成的圖像執行第二神經網路的優化訓練。
在訓練第二神經網路時採用的訓練樣本可以包括圖像樣本以及與所述圖像樣本對應的條件樣本,該條件樣本可以包括對應的圖像樣本的全部條件資訊。
其中,可以將第二圖像樣本輸入至第一神經網路,通過第一神經網路執行正向處理得到與該第二圖像樣本對應的第二圖像特徵,該第二圖像特徵可以用於作為監督過程的真實特徵。
另外,還可以將條件樣本輸入至第二神經網路,通過第二神經網路可以獲得條件樣本的條件特徵,並進一步執行條件特徵的編碼處理,進而生成條件樣本對應的第三圖像特徵。
將第一神經網路輸出的第二圖像特徵以及第二神經網路輸出的第三圖像特徵輸入至監督網路,通過監督網路基於第二圖像特徵和第三圖像特徵之間的損失值,調節第二神經網路的參數,直至滿足訓練要求。
在本公開的一種可選實施例中,所述監督網路包括辨別器、分類器和條件重構器,所述利用監督網路基於所述第二圖像特徵和第三圖像特徵對應的損失值,調節所述第二神經網路的參數,直至滿足所述第二訓練終止條件,包括:利用所述辨別器對所述第二圖像特徵和第三圖像特徵進行辨別對抗處理,得到基於所述辨別網路的第二圖像特徵和第三圖像特徵之間的第三損失值;利用所述分類器對所述第二圖像特徵和第三圖像特徵進行分類處理,得到基於所述分類器的第二圖像特徵和第三圖像特徵之間的第四損失值;利用所述條件重構器識別所述第三圖像特徵對應的第一姿態條件,並得到所述第二神經網路中的輸入的第二姿態條件和所述第一姿態條件之間的第五損失值;根據所述第三損失 值、第四損失值和第五損失值確定第二神經網路的第二網路損失,並根據該第二網路損失調節所述第二神經網路,直至滿足所述第二訓練終止條件。
在一示例中,如圖9所示,監督網路可以包括三個單元,分別為辨別器Di、分類器C和條件重構器De。辨別器Di可以為生成對抗網路,其可以用於辨別第二圖像特徵和第三圖像特徵的真假情況,在第二神經網路優化完成時,辨別器無法分辨出第二圖像特徵和第三圖像特徵之間的真假情況,此時說明第二神經網路生成的第三圖像特徵接近或者達到真實的第二圖像特徵。辨別器Di為一個參數化可調節的辨別器神經網路,其輸入為第三圖像特徵,輸出為0或1,分別表示能否辨別出第三圖像特徵和第二圖像特徵,通過該辨別器的辨別處理可以得到基於辨別器的第三圖像特徵和第二圖像特徵的第一損失值。其中,可以根據第一方式得到該第一損失值,第一方式的運算式可以為:
Figure 108147256-A0101-12-0034-1
其中,LDi表示辨別器Di的損失函數,
Figure 108147256-A0101-12-0034-24
表示辨別器Di針對輸入的各條件樣本對應的第三圖像特徵z的辨別結果,Ez~p*(z)表示輸入的圖像樣本對應的第二圖像特徵Z*的分佈P*(z)的期望,
Figure 108147256-A0101-12-0034-26
表示輸入的條件樣本對應的各第三圖像特徵z的分佈P(z)的期望,該損失函數可以通過回饋調節使得該辨別器Di最終達到:將第二圖像特徵z*輸入辨別器Di,求出其log值的期望Ez~p*(z),使其成功判斷出正確標識 ‘1’,將第三圖像特徵z輸入Di,求出其log值的期望
Figure 108147256-A0101-12-0035-27
,使其成功判斷出錯誤標識‘0’。
另外,還可以將第二圖像特徵和第三圖像特徵輸入至分類器C,通過分類器C進行分類處理得到與第二圖像特徵和第三圖像特徵的分類結果,對應的,還可以基於分類器C得到的分類結果確定第二圖像特徵和第三圖像特徵之間的第二損失值。其中,可以根據第二方式得到該第二損失值,第二方式的運算式可以為:
Figure 108147256-A0101-12-0035-2
其中,Lc表示分類器C對應的損失函數,其中分類器C的分類結果表示為
Figure 108147256-A0101-12-0035-3
,Ez~p*(z),Cs~p(Cs)表示各圖像樣本對應的第二圖像特徵Z*的分類結果對應的期望,
Figure 108147256-A0101-12-0035-28
表示各條件樣本對應的第三圖像特徵z的分類結果對應的期望。分類器C為一個參數化可調節的分類器神經網路,本公開實施例的輸入可以為第三圖像特徵z,輸出為條件向量Cs(對於第三圖像特徵z的分類結果對應的向量)。該損失函數可以通過回饋調節使得該分類器最終達到:將第二圖像特徵Z*和第三圖像特徵z輸入分類器C,分別求出其log值的期望,均使其成功得出相應的條件向量Cs,即第二圖像特徵和第三圖像特徵的分類結果相同,此時表明第二神經網路輸出的第三圖像特徵Z與真實的第二圖像特徵Z*對應。
進一步地,本公開實施例還可以將得到的第三圖像特徵輸入至條件重構器De中,該條件重構器De可以用於重構第二神經網路中的姿態條件Cu。其中,生成的第三 圖像特徵可以包括第一姿態條件,條件樣本中可以包括真實的第二姿態條件,條件重構器De可以獲得該第一姿態條件和第二姿態條件對應的第三損失值。其中,可以根據協力廠商式得到該第三損失值,協力廠商式的運算式可以為:
Figure 108147256-A0101-12-0036-4
其中,L De 表示條件重構器De的損失函數,條件重構器De的重構結果
Figure 108147256-A0101-12-0036-5
Figure 108147256-A0101-12-0036-31
表示各條件樣本對應的第三圖像特徵的重構結果Cu的分佈期望,該條件重構器De為一個參數化可調節的分類器神經網路,輸入為一個圖像特徵z,輸出為隱藏條件向量Cu。該損失函數可以通過回饋調節使得該條件重構器De最終達到:將條件樣本對應的各第二圖像特徵z輸入De,求出其log值的期望
Figure 108147256-A0101-12-0036-32
,使其成功得出相應的隱藏條件向量Cu。
在得到各損失值後,即可以將各損失值執行加權和處理得到第二神經網路的第二網路損失,進而回饋調節第二神經網路的參數,直至滿足訓練要求。其中,可以按照預設損失函數得到第二神經網路的網路損失值,該損失函數的運算式可以為:
Figure 108147256-A0101-12-0036-6
其中,L表示第二神經網路的損失函數,λ s 為Ls的權重,
Figure 108147256-A0101-12-0036-7
,該L FM 為一正則化函數,通過將監督模組神經網路中的某一層特徵層f(z)提取出來求平方差,使得第三圖像特徵z更容易接近到第二圖像特徵Z*,
Figure 108147256-A0101-12-0036-8
。該損失函數為基於流的可逆生成 網路的損失函數。基於流的可逆生成網路通過將圖像x輸入可逆流網路F得到圖像特徵Z*=F(x)。通過最小化某一先驗分佈p*(z)和圖像-特徵變化函數F的雅可比矩陣dF/dx的log-determinant,最終達到圖像x與特徵Z*一一對應的關係。
在本公開的一種可選實施例中,所述根據所述第三損失值、第四損失值和第五損失值確定第二神經網路的第二網路損失,並根據該第二網路損失調節所述第二神經網路,直至滿足第二訓練終止條件,包括:回應於所述第二網路損失大於第二損失閾值的情況,調整所述第二神經網路的參數,直至所述第二網路損失小於或者等於所述第二損失閾值,確定為滿足所述第二訓練終止條件。
本實施例中,在得到網路的損失值之後,即可以在第二神經網路的第二網路損失小於第二損失閾值時,確定為滿足第二訓練終止條件,否則在不滿足第二訓練終止條件的情況下,則回饋調節第二神經網路的參數。繼而可以得到優化完成的第二神經網路。
基於上述,即可以完成第一神經網路和第二神經網路的訓練,即可以通過訓練完成的各網路執行圖像的生成過程。
綜上所述,本公開實施例能夠通過對預定條件資訊執行編碼處理,得到對應的圖像特徵,並根據圖像特徵的反向處理得到相應的圖像,從而達到給定條件生成相應圖像的效果。
本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
可以理解,本公開提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本公開不再贅述。
此外,本公開還提供了圖像生成裝置、電子設備、電腦可讀儲存介質、程式,上述均可用來實現本公開提供的任一種圖像生成方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
圖11示出根據本公開實施例的一種圖像處理裝置的方塊圖,本公開實施例的圖像處理裝置可以包括:
獲取模組10,配置為獲取包含預生成圖像的預定條件資訊;
編碼模組20,配置為對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵;
生成模組30,配置為基於所述圖像特徵得到與所述預定條件資訊對應的生成圖像。
在一些可能的實施方式中,所述編碼模組20包括:
確定單元,配置為確定與所述預定條件資訊對應的條件特徵;
編碼單元,配置為對所述條件特徵執行所述編碼處理,得到與所述預定條件資訊對應的圖像特徵。
在一些可能的實施方式中,所述確定單元還配置為在條件空間中查找與所述預定條件資訊匹配的第一條件資訊;為所述第一條件資訊配置第一標識,以及為所述條件空間中所述第一條件資訊以外的第二條件資訊配置第二標識;對所述第一標識和所述第二標識進行組合,得到所述條件特徵。
在一些可能的實施方式中,所述條件空間包括姿態條件資訊,所述確定單元還配置為回應於所述預定條件資訊中包括預定姿態資訊的情況,將所述姿態條件資訊的第三標識配置成所述預定姿態資訊;在條件空間中查找所述預定姿態資訊以外的預定條件資訊所匹配的第一條件資訊;為所述第一條件資訊分配第一標識,以及為所述條件空間中所述第一條件資訊和所述姿態條件資訊以外的第二條件資訊配置第二標識;對所述第一標識、所述第二標識和第三標識進行組合,得到所述條件特徵。
在一些可能的實施方式中,所述條件空間包括姿態條件資訊,所述確定單元還配置為回應於所述預定條件資訊中不包括預定姿態資訊的情況,為所述條件空間中的姿態條件資訊配置第四標識;在所述條件空間中查找與所述預定條件資訊匹配的第一條件資訊;為所述第一條件資訊配置第一標識,以及為所述條件空間中所述第一條件資訊和所述姿態條件資訊以外的第二條件資訊配置第二標識;對所述第 一標識、所述第二標識和第四標識進行組合,得到所述條件特徵。
在一些可能的實施方式中,所述確定單元,配置為通過以下方式中的至少一種方式為所述條件空間中的姿態條件資訊配置第四標識:為所述姿態條件資訊隨機配置第四標識;利用神經網路生成與所述預定條件資訊匹配的姿態資訊,並將生成的所述姿態資訊配置成所述第四標識。
在一些可能的實施方式中,所述編碼模組還配置為對所述條件特徵執行至少一次卷積處理和至少一次池化處理,得到所述圖像特徵。
在一些可能的實施方式中,所述生成模組還配置為通過第一神經網路對所述圖像特徵執行反向處理,得到與所述預定條件資訊對應的生成圖像;其中,所述第一神經網路配置為能夠執行雙向處理,所述雙向處理包括:基於輸入圖像獲得與所述輸入圖像對應的圖像特徵的正向處理,以及基於輸入的圖像特徵獲得與該輸入的圖像特徵對應的圖像的反向處理。
在一些可能的實施方式中,所述第一神經網路包括基於流的可逆生成網路。
在一些可能的實施方式中,所述裝置還包括第一訓練模組,配置為訓練所述第一神經網路,並且訓練所述第一神經網路的步驟包括:獲取第一訓練樣本,所述第一訓練樣本包括:第一圖像樣本和與所述第一圖像樣本對應的第一圖像特徵;將所述第一圖像樣本和第一圖像特徵分別輸入 至第一神經網路中執行所述雙向處理,得到與第一圖像樣本對應的預測圖像特徵,以及得到與所述第一圖像特徵對應的預測圖像;基於得到的預測圖像特徵和預測圖像,確定第一神經網路的第一網路損失,並根據該第一網路損失反向調節所述第一神經網路,直至滿足第一訓練終止條件。
在一些可能的實施方式中,所述第一訓練模組還配置為利用所述第一神經網路的所述正向處理,得到與第一圖像樣本對應的預測圖像特徵;以及利用所述第一神經網路的所述反向處理,得到與所述第一圖像特徵對應的預測圖像。
在一些可能的實施方式中,所述第一訓練模組還配置為獲得第一圖像樣本和預測圖像之間的第一損失值,以及第一圖像特徵和所述預測圖像特徵之間的第二損失值;根據所述第一損失值和第二損失值確定所述第一網路損失;回應於所述第一網路損失大於第一損失閾值的情況,調整所述第一神經網路的參數,直至滿足所述第一訓練終止條件。
在一些可能的實施方式中,所述編碼模組還配置為通過第二神經網路對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵,其中,所述第二神經網路包括自編碼網路。
在一些可能的實施方式中,所述裝置還包括第二訓練模組,配置為通過監督網路訓練所述第二神經網路的步驟,該訓練第二神經網路的步驟包括:獲取第二訓練樣 本,所述第二訓練樣本包括第二圖像樣本以及與所述第二圖像樣本對應的條件樣本;利用所述第一神經網路對所述第二圖像樣本執行所述正向處理,得到與所述第二圖像樣本對應的第二圖像特徵;利用第二神經網路對所述條件樣本進行編碼處理,得到與所述條件樣本對應的第三圖像特徵;利用監督網路基於所述第二圖像特徵和第三圖像特徵對應的損失值,調節所述第二神經網路的參數,直至滿足第二訓練終止條件。
在一些可能的實施方式中,所述第二訓練模組還配置為利用所述辨別器對所述第二圖像特徵和第三圖像特徵進行辨別對抗處理,得到基於所述辨別網路的第二圖像特徵和第三圖像特徵之間的第三損失值;利用所述分類器對所述第二圖像特徵和第三圖像特徵進行分類處理,得到基於所述分類器的第二圖像特徵和第三圖像特徵之間的第四損失值;利用所述條件重構器識別所述第三圖像特徵對應的第一姿態條件,並得到所述第二神經網路中的輸入的第二姿態條件和所述第一姿態條件之間的第五損失值;根據所述第三損失值、第四損失值和第五損失值確定第二神經網路的第二網路損失,並根據該第二網路損失調節所述第二神經網路,直至滿足所述第二訓練終止條件。
在一些可能的實施方式中,所述第二訓練模組還配置為回應於所述第二網路損失大於第二損失閾值的情況,調整所述第二神經網路的參數,直至所述第二網路損失 小於或者等於所述第二損失閾值,確定為滿足所述第二訓練終止條件。
在一些實施例中,本公開實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
本公開實施例還提出一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是非易失性電腦可讀儲存介質。
本公開實施例還提出一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為上述方法。
電子設備可以被提供為終端、伺服器或其它形態的設備。
圖12示出根據本公開實施例的一種電子設備800的方塊圖。例如,電子設備800可以是行動電話,電腦,數位廣播終端,消息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖12,電子設備800可以包括以下一個或多個組件:處理組件802,記憶體804,電源組件806,多媒體組件808,音頻組件810,輸入/輸出(I/O)的介面812,感測器組件814,以及通信組件816。
處理組件802通常控制電子設備800的整體操作,諸如與顯示,電話呼叫,資料通信,相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件802可以包括一個或多個模組,便於處理組件802和其他組件之間的交互。例如,處理組件802可以包括多媒體模組,以方便多媒體組件808和處理組件802之間的交互。
記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,消息,圖片,視頻等。記憶體804可以由任何類型的易失性或非易失性儲存裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。
電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統,一個或多個電源,及其他與為電子設備800生成、管理和分配電力相關聯的組件。
多媒體組件808包括在所述電子設備800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果 螢幕包括觸摸面板,螢幕可以被實現為觸控式螢幕,以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸感測器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件808包括一個前置攝影頭和/或後置攝影頭。當電子設備800處於操作模式,如拍攝模式或視訊模式時,前置攝影頭和/或後置攝影頭可以接收外部的多媒體資料。每個前置攝影頭和後置攝影頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音頻組件810被配置為輸出和/或輸入音頻信號。例如,音頻組件810包括一個麥克風(MIC),當電子設備800處於操作模式,如呼叫模式、記錄模式和語音辨識模式時,麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中,音頻組件810還包括一個揚聲器,用於輸出音頻信號。
I/O介面812為處理組件802和週邊介面模組之間提供介面,上述週邊介面模組可以是鍵盤,點擊輪,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
感測器組件814包括一個或多個感測器,用於為電子設備800提供各個方面的狀態評估。例如,感測器組件814可以檢測到電子設備800的打開/關閉狀態,組件的相 對定位,例如所述組件為電子設備800的顯示器和小鍵盤,感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變,使用者與電子設備800接觸的存在或不存在,電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器,如CMOS或CCD圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器組件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。
通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中,所述通信組件816還包括近場通信(NFC)模組,以促進短程通信。例如,在NFC模組可基於射頻識別(RFID)技術,紅外資料協會(IrDA)技術,超寬頻(UWB)技術,藍牙(BT)技術和其他技術來實現。
在示例性實施例中,電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、數位信號處理設備(DSPD)、可程式設計邏輯器件(PLD)、現場可程式設計閘陣列(FPGA)、控制器、 微控制器、微處理器或其他電子組件實現,用於執行上述方法。
在示例性實施例中,還提供了一種非易失性電腦可讀儲存介質,例如包括電腦程式指令的記憶體804,上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。
圖13示出根據本公開實施例的一種電子設備1900的方塊圖。例如,電子設備1900可以被提供為一伺服器。參照圖13,電子設備1900包括處理組件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於儲存可由處理組件1922的執行的指令,例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件1922被配置為執行指令,以執行上述方法。
電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理,一個有線或無線網路介面1950被配置為將電子設備1900連接到網路,和一個輸入輸出(I/O)介面1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種非易失性電腦可讀儲存介質,例如包括電腦程式指令的記憶體1932, 上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。
本公開可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質,其上載有用於使處理器實現本公開的各個方面的電腦可讀程式指令。
電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是但不限於是電儲存裝置、磁儲存裝置、光儲存裝置、電磁儲存裝置、半導體儲存裝置或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子(非窮舉的列表)包括:可擕式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可程式設計唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能盤(DVD)、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋為暫態信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。
這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備,或者通過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部儲存裝置。網路可以包括銅傳輸電纜、光纖傳輸、 無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。
用於執行本公開操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼,所述程式設計語言包括對象導向的程式設計語言-諸如Smalltalk、C++等,以及常規的過程式程式設計語言-諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路-包括局域網(LAN)或廣域網路(WAN)-連接到使用者電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供者來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路,例如可程式設計邏輯電路、現場可程式設計閘陣列(FPGA)或可程式設計邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本公開的各個方面。
這裡參照根據本公開實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本公開的各個方面。應當理解,流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器,從而生產出一種機器,使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時,產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中,這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀介質則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上,使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本公開的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方 塊可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方塊實際上可以基本並行地執行,它們有時也可以按相反的循序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
以上已經描述了本公開的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
圖1代表圖為流程圖,無元件符號簡單說明。

Claims (18)

  1. 一種圖像生成方法,包括:
    獲取包含預生成圖像的預定條件資訊;
    對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵;
    基於所述圖像特徵得到與所述預定條件資訊對應的生成圖像。
  2. 根據請求項1所述的方法,其中,所述對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵,包括:
    確定與所述預定條件資訊對應的條件特徵;
    對所述條件特徵執行所述編碼處理,得到與所述預定條件資訊對應的圖像特徵。
  3. 根據請求項2所述的方法,其中,所述確定與所述預定條件資訊對應的條件特徵,包括:
    在條件空間中查找與所述預定條件資訊匹配的第一條件資訊;
    為所述第一條件資訊配置第一標識,以及為所述條件空間中所述第一條件資訊以外的第二條件資訊配置第二標識;
    對所述第一標識和所述第二標識進行組合,得到所述條件特徵。
  4. 根據請求項2所述的方法,其中,所述條件空間包括姿態條件資訊,所述確定與所述預定條件資訊對應的條件特徵,包括:
    回應於所述預定條件資訊中包括預定姿態資訊的情況,將所述姿態條件資訊的第三標識配置成所述預定姿態資訊;
    在條件空間中查找所述預定姿態資訊以外的預定條件資訊所匹配的第一條件資訊;
    為所述第一條件資訊分配第一標識,以及為所述條件空間中所述第一條件資訊和所述姿態條件資訊以外的第二條件資訊配置第二標識;
    對所述第一標識、所述第二標識和第三標識進行組合,得到所述條件特徵。
  5. 根據請求項2所述的方法,其中,所述條件空間包括姿態條件資訊,所述確定與所述預定條件資訊對應的條件特徵,包括:
    回應於所述預定條件資訊中不包括預定姿態資訊的情況,為所述條件空間中的姿態條件資訊配置第四標識;
    在所述條件空間中查找與所述預定條件資訊匹配的第一條件資訊;
    為所述第一條件資訊配置第一標識,以及為所述條件空間中所述第一條件資訊和所述姿態條件資訊以外的第二條件資訊配置第二標識;
    對所述第一標識、所述第二標識和第四標識進行組合,得到所述條件特徵。
  6. 根據請求項5所述的方法,其中,所述為所述條件空間中的姿態條件資訊配置第四標識,包括以下方式中的至少一種:
    為所述姿態條件資訊隨機配置第四標識;
    利用神經網路生成與所述預定條件資訊匹配的姿態資訊,並將生成的所述姿態資訊配置成所述第四標識。
  7. 根據請求項1至6中任意一項所述的方法,其中,所述對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵,包括:
    對所述條件特徵執行至少一次卷積處理和至少一次池化處理,得到所述圖像特徵。
  8. 根據請求項1至6中任意一項所述的方法,其中,所述基於所述圖像特徵得到與所述預定條件資訊對應的圖像,包括:
    通過第一神經網路對所述圖像特徵執行反向處理,得到與所述預定條件資訊對應的生成圖像;其中,所述第一神經網路配置為能夠執行雙向處理,所述雙向處理包括:基於輸入圖像獲得與所述輸入圖像對應的圖像特徵的正向處理,以及基於輸入的圖像特徵獲得與該輸入的圖像特徵對應的圖像的反向處理。
  9. 根據請求項8所述的方法,其中,所述第一神經網路包括基於流的可逆生成網路。
  10. 根據請求項8所述的方法,其中,所述方法還包括訓練所述第一神經網路的步驟,其包括:
    獲取第一訓練樣本,所述第一訓練樣本包括:第一圖像樣本和與所述第一圖像樣本對應的第一圖像特徵;
    將所述第一圖像樣本和第一圖像特徵分別輸入至第一神經網路中執行所述雙向處理,得到與第一圖像樣本對應的預測圖像特徵,以及得到與所述第一圖像特徵對應的預測圖像;
    基於得到的預測圖像特徵和預測圖像,確定第一神經網路的第一網路損失,並根據該第一網路損失反向調節所述第一神經網路,直至滿足第一訓練終止條件。
  11. 根據請求項10所述的方法,其中,所述將所述第一圖像樣本和第一圖像特徵分別輸入至第一神經網路中執行所述雙向處理,得到與第一圖像樣本對應的預測圖像特徵,以及得到與所述第一圖像特徵對應的預測圖像,包括:
    利用所述第一神經網路的所述正向處理,得到與第一圖像樣本對應的預測圖像特徵;以及
    利用所述第一神經網路的所述反向處理,得到與所述第一圖像特徵對應的預測圖像。
  12. 根據請求項10所述的方法,其中,所述基於得到的預測圖像特徵和預測圖像,確定第一神經網路的第一網路損失,並根據該第一網路損失反向調節所述第一神經網路,直至滿足第一訓練終止條件,包括:
    獲得第一圖像樣本和預測圖像之間的第一損失值,以及第一圖像特徵和所述預測圖像特徵之間的第二損失值;
    根據所述第一損失值和第二損失值確定所述第一網路損失;
    回應於所述第一網路損失大於第一損失閾值的情況,調整所述第一神經網路的參數,直至滿足所述第一訓練終止條件。
  13. 根據請求項8所述的方法,其中,所述方法包括:
    通過第二神經網路對所述預定條件資訊進行編碼處理,生成與所述預定條件資訊對應的圖像特徵,其中,所述第二神經網路包括自編碼網路。
  14. 根據請求項13所述的方法,所述方法還包括:通過監督網路訓練所述第二神經網路的步驟,其包括:
    獲取第二訓練樣本,所述第二訓練樣本包括第二圖像樣本以及與所述第二圖像樣本對應的條件樣本;
    利用所述第一神經網路對所述第二圖像樣本執行所述正向處理,得到與所述第二圖像樣本對應的第二圖像特徵;
    利用第二神經網路對所述條件樣本進行編碼處理,得到與所述條件樣本對應的第三圖像特徵;
    利用監督網路基於所述第二圖像特徵和第三圖像特徵對應的損失值,調節所述第二神經網路的參數,直至滿足第二訓練終止條件。
  15. 根據請求項14所述的方法,其中,所述監督網路包括辨別器、分類器和條件重構器,所述利用監督網路基於所述第二圖像特徵和第三圖像特徵對應的損失值,調節所述第二神經網路的參數,直至滿足所述第二訓練終止條件,包括:
    利用所述辨別器對所述第二圖像特徵和第三圖像特徵進行辨別對抗處理,得到基於所述辨別網路的第二圖像特徵和第三圖像特徵之間的第三損失值;
    利用所述分類器對所述第二圖像特徵和第三圖像特徵進行分類處理,得到基於所述分類器的第二圖像特徵和第三圖像特徵之間的第四損失值;
    利用所述條件重構器識別所述第三圖像特徵對應的第一姿態條件,並得到所述第二神經網路中的輸入的第二姿態條件和所述第一姿態條件之間的第五損失值;
    根據所述第三損失值、第四損失值和第五損失值確定第二神經網路的第二網路損失,並根據該第二網路損失調節所述第二神經網路,直至滿足所述第二訓練終止條件。
  16. 根據請求項15所述的方法,其中,所述根據所述第三損失值、第四損失值和第五損失值確定第二神經網路的第二網路損失,並根據該第二網路損失調節所述第二神經網路,直至滿足第二訓練終止條件,包括:
    回應於所述第二網路損失大於第二損失閾值的情況,調整所述第二神經網路的參數,直至所述第二網路損失小 於或者等於所述第二損失閾值,確定為滿足所述第二訓練終止條件。
  17. 一種電子設備裝置,包括:
    處理器;
    用於儲存處理器可執行指令的記憶體;
    其中,所述處理器被配置為:執行請求項1至16中任意一項所述的方法。
  18. 一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現請求項1至16中任意一項所述的方法。
TW108147256A 2019-03-18 2019-12-23 圖像生成方法、電子設備和儲存介質 TWI735112B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910205219.8A CN109920016B (zh) 2019-03-18 2019-03-18 图像生成方法及装置、电子设备和存储介质
CN201910205219.8 2019-03-18

Publications (2)

Publication Number Publication Date
TW202036462A true TW202036462A (zh) 2020-10-01
TWI735112B TWI735112B (zh) 2021-08-01

Family

ID=66965358

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108147256A TWI735112B (zh) 2019-03-18 2019-12-23 圖像生成方法、電子設備和儲存介質

Country Status (3)

Country Link
CN (1) CN109920016B (zh)
TW (1) TWI735112B (zh)
WO (1) WO2020186702A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109920016B (zh) * 2019-03-18 2021-06-25 北京市商汤科技开发有限公司 图像生成方法及装置、电子设备和存储介质
CN110634167B (zh) * 2019-09-27 2021-07-20 北京市商汤科技开发有限公司 神经网络训练方法及装置和图像生成方法及装置
CN111311483A (zh) * 2020-01-22 2020-06-19 北京市商汤科技开发有限公司 图像编辑及训练方法、装置、电子设备和存储介质
CN113506229B (zh) * 2021-07-15 2024-04-12 清华大学 神经网络训练和图像生成方法及装置
CN116091873B (zh) * 2023-04-10 2023-11-28 宁德时代新能源科技股份有限公司 图像生成方法、装置、电子设备及存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6401922B2 (ja) * 2014-03-13 2018-10-10 株式会社メガチップス 物体検出装置
WO2016108318A1 (ko) * 2014-12-31 2016-07-07 연세대학교 산학협력단 오류에 강인한 압축 영역에서의 영상 합성 방법, 장치 및 시스템
CN108090082B (zh) * 2016-11-22 2021-06-11 腾讯科技(北京)有限公司 信息处理方法及信息处理装置
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
US11113800B2 (en) * 2017-01-18 2021-09-07 Nvidia Corporation Filtering image data using a neural network
CN108229492B (zh) * 2017-03-29 2020-07-28 北京市商汤科技开发有限公司 提取特征的方法、装置及系统
CN108959322B (zh) * 2017-05-25 2021-09-10 富士通株式会社 信息处理方法和基于文本生成图像的装置
CN110599557B (zh) * 2017-08-30 2022-11-18 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN108197525B (zh) * 2017-11-20 2020-08-11 中国科学院自动化研究所 人脸图像生成方法及装置
CN108491836B (zh) * 2018-01-25 2020-11-24 华南理工大学 一种自然场景图像中中文文本整体识别方法
CN108460717A (zh) * 2018-03-14 2018-08-28 儒安科技有限公司 一种基于双判别器的生成对抗网络的图像生成方法
CN108510435A (zh) * 2018-03-28 2018-09-07 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN108446667A (zh) * 2018-04-04 2018-08-24 北京航空航天大学 基于生成对抗网络数据增强的人脸表情识别方法和装置
CN109299716B (zh) * 2018-08-07 2021-07-06 北京市商汤科技开发有限公司 神经网络的训练方法、图像分割方法、装置、设备及介质
CN109147010B (zh) * 2018-08-22 2023-07-25 广东工业大学 带属性人脸图像生成方法、装置、系统及可读存储介质
CN109189959B (zh) * 2018-09-06 2020-11-10 腾讯科技(深圳)有限公司 一种构建图像数据库的方法及装置
CN109285112A (zh) * 2018-09-25 2019-01-29 京东方科技集团股份有限公司 基于神经网络的图像处理方法、图像处理装置
CN109377532B (zh) * 2018-10-18 2023-01-31 众安信息技术服务有限公司 基于神经网络的图像处理方法及装置
CN109377535A (zh) * 2018-10-24 2019-02-22 电子科技大学 面部属性自动编辑系统、方法、存储介质和终端
CN109920016B (zh) * 2019-03-18 2021-06-25 北京市商汤科技开发有限公司 图像生成方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN109920016B (zh) 2021-06-25
TWI735112B (zh) 2021-08-01
WO2020186702A1 (zh) 2020-09-24
CN109920016A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
TWI717923B (zh) 面部識別方法及裝置、電子設備和儲存介質
TWI735112B (zh) 圖像生成方法、電子設備和儲存介質
TWI710964B (zh) 圖像聚類方法及裝置、電子設備和儲存介質
TWI724736B (zh) 圖像處理方法及裝置、電子設備、儲存媒體和電腦程式
WO2021164469A1 (zh) 目标对象的检测方法、装置、设备和存储介质
KR102433834B1 (ko) 신경망 모델을 압축하는 방법 및 장치, 코퍼스 번역 방법 및 장치, 전자 장치, 프로그램 및 기록 매체
WO2020224457A1 (zh) 图像处理方法及装置、电子设备和存储介质
TWI766286B (zh) 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介
TWI732338B (zh) 文本序列的識別方法、電子設備和電腦可讀存儲介質
TWI747325B (zh) 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介
WO2021035812A1 (zh) 一种图像处理方法及装置、电子设备和存储介质
CN110909815B (zh) 神经网络训练、图像处理方法、装置及电子设备
WO2021208667A1 (zh) 图像处理方法及装置、电子设备和存储介质
US11416703B2 (en) Network optimization method and apparatus, image processing method and apparatus, and storage medium
WO2021208666A1 (zh) 字符识别方法及装置、电子设备和存储介质
TW202107337A (zh) 一種人臉圖像識別方法及裝置、電子設備和電腦可讀儲存媒體
WO2020155713A1 (zh) 图像处理方法及装置、网络训练方法及装置
WO2020192113A1 (zh) 图像处理方法及装置、电子设备和存储介质
CN110532956B (zh) 图像处理方法及装置、电子设备和存储介质
CN110659690B (zh) 神经网络的构建方法及装置、电子设备和存储介质
WO2020172979A1 (zh) 数据处理方法和装置、电子设备和存储介质
CN111259967A (zh) 图像分类及神经网络训练方法、装置、设备及存储介质
CN111582383A (zh) 属性识别方法及装置、电子设备和存储介质
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN111027617A (zh) 神经网络训练及图像识别方法、装置、设备和存储介质