TWI769820B - 生成對抗網路優化方法及電子設備 - Google Patents

生成對抗網路優化方法及電子設備 Download PDF

Info

Publication number
TWI769820B
TWI769820B TW110118136A TW110118136A TWI769820B TW I769820 B TWI769820 B TW I769820B TW 110118136 A TW110118136 A TW 110118136A TW 110118136 A TW110118136 A TW 110118136A TW I769820 B TWI769820 B TW I769820B
Authority
TW
Taiwan
Prior art keywords
weight
discriminator
generator
generative adversarial
adversarial network
Prior art date
Application number
TW110118136A
Other languages
English (en)
Other versions
TW202247044A (zh
Inventor
孫國欽
郭錦斌
吳宗祐
Original Assignee
鴻海精密工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 鴻海精密工業股份有限公司 filed Critical 鴻海精密工業股份有限公司
Priority to TW110118136A priority Critical patent/TWI769820B/zh
Application granted granted Critical
Publication of TWI769820B publication Critical patent/TWI769820B/zh
Publication of TW202247044A publication Critical patent/TW202247044A/zh

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本申請公開了一種生成對抗網路優化方法及電子設備,涉及生成對抗網路技術領域。本申請之生成對抗網路優化方法包括:確定生成器之第一權重與判別器之第二權重,第一權重與第二權重相等,第一權重用以表示生成器之學習能力,第二權重用以表示判別器之學習能力;交替反覆運算訓練生成器與判別器,直至生成器與判別器均收斂。本申請能夠平衡生成器和判別器之損失,使得生成器和判別器具有相同之學習能力,從而提高生成對抗網路之穩定性。

Description

生成對抗網路優化方法及電子設備
本申請涉及生成對抗網路技術領域,具體涉及一種生成對抗網路優化方法及電子設備。
生成對抗網路(Generative Adversarial Network,GAN)由生成器和判別器構成,藉由生成器和判別器之對抗訓練來使得生成器產生之樣本服從真實資料分佈。訓練過程中,生成器根據輸入之隨機雜訊生成樣本圖像,其目標係儘量生成真實之圖像去欺騙判別器。判別器學習判別樣本圖像之真偽,其目標係儘量分辨出真實樣本圖像與生成器生成之樣本圖像。
然,生成對抗網路之訓練自由度太大,於訓練不穩定時,生成器和判別器很容易陷入不正常之對抗狀態,發生模式崩潰(Mode collapse),導致生成樣本圖像之多樣性不足。
鑒於此,本申請提供一種生成對抗網路優化方法及電子設備,能夠平衡生成器和判別器之損失,使得生成器和判別器具有相同之學習能力,從而提高生成對抗網路之穩定性。
本申請之生成對抗網路優化方法包括:確定生成器之第一權重與判別器之第二權重,所述第一權重與所述第二權重相等,所述第一權重用以表示所述生成器之學習能力,所述第二權重用以表示所述判別器之學習能力;交替反覆運算訓練所述生成器與所述判別器,直至所述生成器與所述判別器均收斂。
於本申請實施例中,所述學習能力與所述第一權重或所述第二權重呈正相關關係。
本申請之電子設備包括記憶體及處理器,所述記憶體用以存儲電腦程式,所述電腦程式被所述處理器調用時,實現本申請之生成對抗網路優化方法。
本申請藉由梯度下降法反覆運算更新生成器之第一權重與判別器之第二權重,隨著訓練週期之加長動態調整生成器與判別器之學習率,直至所述生成器之損失函數與所述判別器之損失函數均收斂,從而得到最優之權重。所述第一權重與所述第二權重相等,使得所述生成器和所述判別器具有相同之學習能力,從而提高生成對抗網路之穩定性。
10:生成對抗網路
11:生成器
12:判別器
z:雜訊樣本
x:資料樣本
D:真假判別之概率
20:神經網路
y:輸出
W1,W2,W3:權重
z1,z2,z3:隱藏層輸入
f1(z1),f2(z2),f3(z3):啟動函數
40:電子設備
41:記憶體
42:處理器
S31-S34:步驟
圖1係生成對抗網路之示意圖。
圖2係神經網路之示意圖。
圖3係生成對抗網路優化方法之流程圖。
圖4係電子設備之示意圖。
為了能夠更清楚地理解本申請之上述目的、特徵和優點,下面結合附圖和具體實施例對本申請進行詳細描述。需要說明的是,於不衝突之情況下,本申請之實施例及實施例中之特徵可以相互組合。於下面之描述中闡述了很多具體細節以便於充分理解本申請,所描述之實施例僅係本申請一部分實施例,而不係全部之實施例。
需要說明的是,雖於流程圖中示出了邏輯順序,但於某些情況下,可以以不同於流程圖中之循序執行所示出或描述之步驟。本申請實施例中公開之方法包括用於實現方法之一個或複數步驟或動作。方法步驟和/或動作可以於不脫離請求項之範圍之情況下彼此互換。換句話說,除非指定步驟或動作之特定順序,否則特定步驟和/或動作之順序和/或使用可以於不脫離請求項範圍之情況下被修改。
生成對抗網路通常用於資料增廣,於樣本資料難以收集時,可藉由少量之樣本資料來訓練生成大規模之樣本資料,從而解決樣本資料不足之問題。但生成對抗網路於訓練過程中容易發生梯度消失、訓練不穩定及收斂速度慢等問題。當訓練不穩定時,生成對抗網路容易發生模式崩潰,導致生成樣本資料之多樣性不足。
基於此,本申請提供一種生成對抗網路優化方法、裝置、電子設備及存儲介質,能夠平衡生成器和判別器之損失,使得生成器和判別器具有相同之學習能力,從而提高生成對抗網路之穩定性。
參照圖1,圖1為生成對抗網路10之示意圖。所述生成對抗網路10包括生成器11與判別器12。生成器11用以接收雜訊樣本z並生成第一圖像,並將生成之第一圖像與從資料樣本x中獲取之第二圖像一起饋送到判別器12中,判別器12接收第一圖像和第二圖像並輸出真假判別之概率D,所述概率D之取值為[0,1],1表示判別結果為真,0表示判別結果為假。
於本申請實施例中,生成器11與判別器12均為神經網路,所述神經網路包括,但不限於,卷積神經網路(Convolutional Neural Networks,CNN),迴圈神經網路(Recurrent Neural Network,RNN)或深度神經網路(Deep Neural Networks,DNN)等。
於生成對抗網路10之訓練過程中,生成器11與判別器12係交替反覆運算訓練,且均藉由各自之代價函數(Cost)或損失函數(Loss)優化各自之網路。例如,當訓練生成器11時,固定判別器12之權重,更新生成器11之權重;當訓練判別器12時,固定生成器11之權重,更新判別器12之權重。生成器11與判別器12均極力優化各自之網路,從而形成競爭對抗,直到雙方達到一個動態之平衡,即納什均衡。此時,生成器11生成之第一圖像與從資料樣本x中獲取之第二圖像完全相同,判別器12無法判別第一圖像與第二圖像之真假,輸出之概率D為0.5。
於本申請實施例中,權重係指神經網路之權重數量,表徵神經網路之學習能力,所述學習能力與所述權重呈正相關關係。
參照圖2,圖2為神經網路20之示意圖。神經網路20之學習過程由訊號之正向傳播與誤差之反向傳播兩個過程組成。當訊號正向傳播時,資料樣本x從輸入層傳入,經隱藏層逐層處理後,向輸出層傳播。若輸出層之輸出y與期望輸出不符,則轉向誤差之反向傳播階段。誤差之反向傳播係將輸出誤差以某種形式藉由隱藏層向輸入層逐層反向傳播,並將誤差分攤給各層之所有神經單元,從而獲得各層神經單元之誤差訊號,此誤差訊號作為修正權重W之依據。
於本申請實施例中,神經網路包括輸入層、隱藏層及輸出層。所述輸入層用於接收來自於神經網路外部之資料,所述輸出層用於輸出神經網路之計算結果,除輸入層和輸出層以外之其它各層均為隱藏層。所述隱藏層用於把輸入資料之特徵,抽象到另一個維度空間,以線性劃分不同類型之資料。
所述神經網路20之輸出y如公式(1)所示:y=f3(W3*f2(W2*f1(W1*x))) (1)
其中,x為資料樣本,f1(z1)、f2(z2)、f3(z3)分別為隱藏層輸入z1、z2、z3之啟動函數,W1、W2、W3均為層與層之間之權重。
採用梯度下降法更新權重W如公式(2)所示:
Figure 110118136-A0305-02-0007-1
其中,W+為更新後之權重,W為更新前之權重,Loss為損失函數,η為學習率,所述學習率係指權重W更新之幅度。
於本申請實施例中,損失函數之作用係衡量判別器對生成圖像判斷之能力。損失函數之值越小,說明於當前反覆運算中,判別器能夠有較好之性能,辨別生成器之生成圖像;反之,則說明判別器之性能較差。
請一併參閱圖1至圖3,圖3為生成對抗網路優化方法之流程圖。所述生成對抗網路優化方法包括如下步驟:
S31,確定生成器之第一權重與判別器之第二權重,所述第一權重與所述第二權重相等。
於本申請實施例中,確定所述第一權重與所述第二權重之方法包括但不限於Xavier初始化、Kaiming初始化、Fixup初始化、LSUV初始化或轉移學習等。
所述第一權重與所述第二權重相等,說明所述生成器與所述判別器具有相同之學習能力。
S32,訓練生成器並更新第一權重。
所述第一權重之更新與生成器之學習率及損失函數相關,學習率根據訓練次數動態設置,損失函數L g 如公式(3)所示:
Figure 110118136-A0305-02-0007-2
其中,m為雜訊樣本z之個數,z(i)係指第i個雜訊樣本,G(z(i))係指藉由雜訊樣本z(i)生成之圖像,D(G(z(i)))係指判別所述圖像係否為真之概率,θg為所述第一權重。
生成器之目標係最大化損失函數L g ,盡可能地使生成樣本分佈擬合真實樣本分佈。
S33,訓練判別器並更新第二權重。
所述第二權重之更新與判別器之學習率及損失函數相關,學習率根據訓練次數動態設置,損失函數L d 如公式(4)所示:
Figure 110118136-A0305-02-0008-3
其中,x(i)係指第i個真實圖像,D(x(i))係指判別所述真實圖像x(i)係否為真之概率,θd為所述第二權重。
判別器之目標係最小化損失函數L d ,盡可能地判別輸入樣本係真實圖像還係生成器生成之圖像。
S34,重複執行步驟S32與步驟S33,直至生成器與判別器均收斂。
於本申請實施例中,並不限定步驟S32與S33之執行順序,即於生成器與判別器之交替反覆運算訓練過程中,可以先訓練生成器,也可以先訓練判別器。
本申請利用梯度下降法反覆運算更新所述第一權重θg與所述第二權重θd,隨著訓練週期之加長動態調整生成器與判別器之學習率,直至所述生成器之損失函數L g 與所述判別器之損失函數L d 均收斂,從而得到最優之權重。
參照圖4,圖4為電子設備40之示意圖。所述電子設備40包括記憶體41及處理器42,所述記憶體41用以存儲電腦程式,所述電腦程式被所述處理器42調用時,實現本申請之生成對抗網路優化方法。
所述電子設備40包括但不限於智慧型電話、平板、個人電腦(personal computer,PC)、電子書閱讀器、工作站、伺服器、個人數位助理(PDA)、可擕式多媒體播放機(Portable Multimedia Player,PMP)、MPEG-1音訊層3(MP3)播放機、移動醫療設備、相機和可穿戴設備中之至少一個。所述可穿戴設備包括附件類型(例如,手錶、戒指、手鐲、腳鏈、項鍊、眼鏡、隱形眼鏡或頭戴式設備(Head-Mounted Device,HMD))、織物或服裝集成類型(例如,電子服裝)、身體安裝類型(例如,皮膚墊或紋身)以及生物可植入類型(例如,可植入電路)中之至少一種。
所述記憶體41用於存儲電腦程式和/或模組,所述處理器42藉由運行或執行存儲於所述記憶體41內之電腦程式和/或模組,以及調用存儲於記憶體41內之資料,實現本申請之生成對抗網路優化方法。所述記憶體41包括易失性或非易失性記憶體件,例如數位多功能盤(DVD)或其它光碟、磁片、硬碟、智慧存儲卡(Smart Media Card,SMC)、安全數位(SecureDigital,SD)卡、快閃記憶體卡(Flash Card)等。
所述處理器42包括中央處理單元(Central Processing Unit,CPU)、數位訊號處理器(Digital Signal Processor,DSP)、專用積體電路(Application Specific Integrated Circuit,ASIC)、現場可程式設計閘陣列(Field-Programmable Gate Array,FPGA)或者其它可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件等。
可以理解,當所述電子設備40實現本申請之生成對抗網路優化方法時,所述生成對抗網路優化方法之具體實施方式適用於所述電子設備40。
上面結合附圖對本申請實施例作了詳細說明,但本申請不限於上述實施例,於所屬技術領域普通技術人員所具備之知識範圍內,還可以於不脫 離本申請宗旨之前提下做出各種變化。此外,於不衝突之情況下,本申請之實施例及實施例中之特徵可以相互組合。
S31-S34:步驟

Claims (9)

  1. 一種生成對抗網路優化方法,其改良在於,所述方法包括:確定生成器之第一權重與判別器之第二權重,所述第一權重與所述第二權重相等,所述第一權重用以表示所述生成器之學習能力,所述第二權重用以表示所述判別器之學習能力;所述第一權重之更新與所述生成器之學習率及損失函數相關,所述第二權重之更新與所述判別器之學習率及損失函數相關;更新權重之公式如下:
    Figure 110118136-A0305-02-0011-4
    其中,W+為更新後之權重,W為更新前之權重,Loss為損失函數,η為學習率,所述學習率係指權重W更新之幅度;交替反覆運算訓練所述生成器與所述判別器,直至所述生成器與所述判別器均收斂。
  2. 如請求項1所述之生成對抗網路優化方法,其中,所述學習能力與所述第一權重或所述第二權重呈正相關關係。
  3. 如請求項1或2所述之生成對抗網路優化方法,其中,所述生成器與所述判別器均為神經網路,所述神經網路包括以下之一:卷積神經網路、迴圈神經網路、深度神經網路。
  4. 如請求項3所述之生成對抗網路優化方法,其中,所述確定生成器之第一權重與判別器之第二權重,採用以下方法之一:Xavier初始化、Kaiming初始化、Fixup初始化、LSUV初始化、轉移學習。
  5. 如請求項3所述之生成對抗網路優化方法,其中,所述交替反覆運算訓練所述生成器與所述判別器,包括: 訓練所述生成器並更新所述第一權重;訓練所述判別器並更新所述第二權重。
  6. 如請求項5所述之生成對抗網路優化方法,其中,所述學習率根據訓練次數動態設置。
  7. 如請求項6所述之生成對抗網路優化方法,其中,所述生成器之損失函數為:
    Figure 110118136-A0305-02-0012-5
    其中,Lg為所述生成器之損失函數,m為雜訊樣本z之個數,z(i)係指第i個雜訊樣本,G(z(i))係指藉由雜訊樣本z(i)生成之圖像,D(G(z(i)))係指判別所述圖像係否為真之概率,θg為所述第一權重。
  8. 如請求項7所述之生成對抗網路優化方法,其中,所述判別器之損失函數為:
    Figure 110118136-A0305-02-0012-7
    其中,Ld為所述判別器之損失函數,x(i)係指第i個真實圖像,D(x(i))係指判別所述真實圖像x(i)係否為真之概率,θd為所述第二權重。
  9. 一種電子設備,包括記憶體及處理器,所述記憶體用以存儲電腦程式,其改良在於,所述電腦程式被所述處理器調用時,實現如請求項1至8任一項所述之生成對抗網路優化方法。
TW110118136A 2021-05-19 2021-05-19 生成對抗網路優化方法及電子設備 TWI769820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW110118136A TWI769820B (zh) 2021-05-19 2021-05-19 生成對抗網路優化方法及電子設備

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110118136A TWI769820B (zh) 2021-05-19 2021-05-19 生成對抗網路優化方法及電子設備

Publications (2)

Publication Number Publication Date
TWI769820B true TWI769820B (zh) 2022-07-01
TW202247044A TW202247044A (zh) 2022-12-01

Family

ID=83439567

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110118136A TWI769820B (zh) 2021-05-19 2021-05-19 生成對抗網路優化方法及電子設備

Country Status (1)

Country Link
TW (1) TWI769820B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201835817A (zh) * 2017-03-15 2018-10-01 南韓商三星電子股份有限公司 設計超級解析度深度卷積神經網路的裝置及方法
CN108665058A (zh) * 2018-04-11 2018-10-16 徐州工程学院 一种基于分段损失的生成对抗网络方法
CN111542843A (zh) * 2017-09-28 2020-08-14 D5Ai有限责任公司 利用协作生成器积极开发
CN111583109A (zh) * 2020-04-23 2020-08-25 华南理工大学 基于生成对抗网络的图像超分辨率方法
CN112529772A (zh) * 2020-12-18 2021-03-19 深圳龙岗智能视听研究院 一种零样本设置下的无监督图像转换方法
US20210125061A1 (en) * 2019-10-28 2021-04-29 Robert Bosch Gmbh Device and method for the generation of synthetic data in generative networks
CN112801902A (zh) * 2021-01-29 2021-05-14 福州大学 一种基于改进生成对抗网络的交通图像去雾方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201835817A (zh) * 2017-03-15 2018-10-01 南韓商三星電子股份有限公司 設計超級解析度深度卷積神經網路的裝置及方法
CN111542843A (zh) * 2017-09-28 2020-08-14 D5Ai有限责任公司 利用协作生成器积极开发
CN108665058A (zh) * 2018-04-11 2018-10-16 徐州工程学院 一种基于分段损失的生成对抗网络方法
US20210125061A1 (en) * 2019-10-28 2021-04-29 Robert Bosch Gmbh Device and method for the generation of synthetic data in generative networks
CN111583109A (zh) * 2020-04-23 2020-08-25 华南理工大学 基于生成对抗网络的图像超分辨率方法
CN112529772A (zh) * 2020-12-18 2021-03-19 深圳龙岗智能视听研究院 一种零样本设置下的无监督图像转换方法
CN112801902A (zh) * 2021-01-29 2021-05-14 福州大学 一种基于改进生成对抗网络的交通图像去雾方法

Also Published As

Publication number Publication date
TW202247044A (zh) 2022-12-01

Similar Documents

Publication Publication Date Title
US20210256403A1 (en) Recommendation method and apparatus
US20200293899A1 (en) Using Hierarchical Representations for Neural Network Architecture Searching
US11275995B2 (en) Information processing apparatus, ising device, and control method for information processing apparatus
EP3234871A1 (en) Generating numeric embeddings of images
US20210224647A1 (en) Model training apparatus and method
US10558935B2 (en) Weight benefit evaluator for training data
JP2018055580A (ja) 機械学習プログラム、機械学習方法、および機械学習装置
WO2015138082A1 (en) Alternative training distribution data in machine learning
WO2023005386A1 (zh) 模型训练方法和装置
WO2020019102A1 (en) Methods, systems, articles of manufacture and apparatus to train a neural network
US20220058435A1 (en) Data classification method and system, and classifier training method and system
US11915141B2 (en) Apparatus and method for training deep neural network using error propagation, weight gradient updating, and feed-forward processing
US11842220B2 (en) Parallelization method and apparatus with processing of neural network model for manycore system
TWI769820B (zh) 生成對抗網路優化方法及電子設備
Guan et al. Recursive binary neural network training model for efficient usage of on-chip memory
CN114662646A (zh) 实现神经网络的方法和装置
Zhong et al. Regularizing CNN transfer learning with randomised regression
CN115374899A (zh) 生成对抗网络优化方法及电子设备
CN116097281A (zh) 经由无限宽度神经网络的理论的超参数传递
KR102559913B1 (ko) 가상 카메라를 이용한 카메라 움직임 구현 방법
EP4131852A1 (en) Automated pausing of audio and/or video during a conferencing session
CN109670579A (zh) 模型生成方法和装置
US20230368031A1 (en) Training Machine-Trained Models by Directly Specifying Gradient Elements
CN115577798A (zh) 基于随机加速梯度下降的半联邦学习方法及装置
Gupta et al. Hybrid intelligence model on the second generation neural network