TW202328989A - 模型產生裝置及方法 - Google Patents

模型產生裝置及方法 Download PDF

Info

Publication number
TW202328989A
TW202328989A TW111124119A TW111124119A TW202328989A TW 202328989 A TW202328989 A TW 202328989A TW 111124119 A TW111124119 A TW 111124119A TW 111124119 A TW111124119 A TW 111124119A TW 202328989 A TW202328989 A TW 202328989A
Authority
TW
Taiwan
Prior art keywords
encoder
neural network
model
adversarial
self
Prior art date
Application number
TW111124119A
Other languages
English (en)
Other versions
TWI810993B (zh
Inventor
栗永徽
李庭瑄
詹念怡
李維斌
林彥承
Original Assignee
鴻海精密工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 鴻海精密工業股份有限公司 filed Critical 鴻海精密工業股份有限公司
Publication of TW202328989A publication Critical patent/TW202328989A/zh
Application granted granted Critical
Publication of TWI810993B publication Critical patent/TWI810993B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Image Analysis (AREA)
  • Transition And Organic Metals Composition Catalysts For Addition Polymerization (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Telephone Function (AREA)

Abstract

一種模型產生裝置及方法。該裝置接收複數個樣本影像。該裝置產生對應該等樣本影像之複數個對抗樣本。該裝置將該等樣本影像及該等對抗樣本分別輸入至一自監督神經網路中之一第一編碼器及一第二編碼器,以產生複數個第一特徵擷取及複數個第二特徵擷取。該裝置計算該等第一特徵擷取及該等第二特徵擷取各者之一相似度,以訓練該自監督神經網路。該裝置基於該第一編碼器及複數個標註資料,產生一任務模型。

Description

模型產生裝置及方法
本揭露係關於一種模型產生裝置及方法。具體而言,本揭露係關於一種可快速產生可抵抗對抗式攻擊的任務模型之模型產生裝置及方法。
由於缺乏穩健性(Robustness),深度神經網絡已被證明對於輸入的對抗性擾動(Adversarial perturbation)特別不穩定。
因此,在這樣缺點下所產生的不穩定模型,將可能帶給下游應用程序帶來了執行時的風險。舉例而言,當執行自動駕駛汽車的安全關鍵任務時,對抗性攻擊可能會導致自動駕駛的汽車採取不必要的行動(例如:錯誤辨識交通路標的意義)。
於現有技術中,雖然可透過產生對抗樣本(Adversarial Example)去訓練模型,以增強深度神經網絡模型的穩健性。然而,在訓練資料中加入對抗樣本,將使得訓練後的模型準確性降低,且由於前述方法需要重新訓練整個模型,將使得訓練模型的成本增加。此外,在針對不同下游應用程序時,更需要對應不同的應用程序重新訓練一個獨立的模型,因而無法快速產生對應不同應用的多個任務模型。
有鑑於此,如何提供一種可快速產生可防禦對抗式攻擊的任務模型之技術,乃業界亟需努力之目標。
本揭露之一目的在於提供一種模型產生裝置。該模型產生裝置包含一儲存器、一收發介面及一處理器,該處理器電性連接至該儲存器及該收發介面。該儲存器用以儲存一自監督神經網路。該處理器透過該收發介面接收複數個樣本影像。該處理器產生對應該等樣本影像之複數個對抗樣本。該處理器將該等樣本影像及該等對抗樣本分別輸入至該自監督神經網路中之一第一編碼器及一第二編碼器,以產生複數個第一特徵擷取及複數個第二特徵擷取,其中該等第一特徵擷取由該第一編碼器產生,該等第二特徵擷取由該第二編碼器產生。該處理器計算該等第一特徵擷取及該等第二特徵擷取各者之一相似度,以訓練該自監督神經網路。該處理器基於該第一編碼器及複數個標註資料,產生一任務模型。
本揭露之另一目的在於提供一種模型產生方法,該模型產生方法用於一電子裝置,該電子裝置包含一儲存器、一收發介面及一處理器。該儲存器用以儲存一自監督神經網路。該模型產生方法包含下列步驟:透過該收發介面接收複數個樣本影像;產生對應該等樣本影像之複數個對抗樣本;將該等樣本影像及該等對抗樣本分別輸入至該自監督神經網路中之一第一編碼器及一第二編碼器,以產生複數個第一特徵擷取及複數個第二特徵擷取,其中該等第一特徵擷取由該第一編碼器產生,該等第二特徵擷取由該第二編碼器產生;計算該等第一特徵擷取及該等第二特徵擷取各者之一相似度,以訓練該自監督神經網路;以及基於該第一編碼器及複數個標註資料,產生一任務模型。
本揭露所提供之模型產生技術(至少包含裝置及方法),透過產生對應複數個樣本影像之複數個對抗樣本,且基於該等樣本影像及該等對抗樣本訓練自監督神經網路中的第一編碼器及第二編碼器,增強第一編碼器對於特徵擷取的能力,因此可提升第一編碼器抵抗對抗式攻擊的能力。此外,本揭露所提供之模型產生技術可基於訓練完成的第一編碼器及複數個標註資料,快速的產生針對各種下游任務的任務模型,解決習知技術需要重新整個任務模型的訓練成本問題。另外,由於本揭露所提供之模型產生技術在訓練任務模型時,僅透過標註後的資料進行微調訓練,而不需要在訓練資料中加入對抗樣本,因此訓練後的準確性亦不會降低,解決習知技術發生的準確性下降問題。
以下結合圖式闡述本揭露之詳細技術及實施方式,俾使本揭露所屬技術領域中具有通常知識者能理解所請求保護之發明之技術特徵。
以下將透過實施方式來解釋本揭露所提供之一種模型產生裝置及方法。然而,該等實施方式並非用以限制本揭露需在如該等實施方式所述之任何環境、應用或方式方能實施。因此,關於實施方式之說明僅為闡釋本揭露之目的,而非用以限制本揭露之範圍。應理解,在以下實施方式及圖式中,與本揭露非直接相關之元件已省略而未繪示,且各元件之尺寸以及元件間之尺寸比例僅為例示而已,而非用以限制本揭露之範圍。
本揭露之第一實施方式為模型產生裝置1,其架構示意圖係描繪於第1圖。於本實施方式中,模型產生裝置1包含一儲存器11、收發介面13及處理器15,處理器15電性連接至儲存器11及收發介面13。
須說明者,儲存器11可為記憶體、通用串列匯流排(Universal Serial Bus;USB)碟、硬碟、光碟、隨身碟或本揭露所屬技術領域中具有通常知識者所知且具有相同功能之任何其他儲存媒體或電路。收發介面13為可接收及傳輸資料之介面或本揭露所屬技術領域中具有通常知識者所知悉之其他可接收及傳輸資料之介面,收發介面13可透過例如:外部裝置、外部網頁、外部應用程式等等來源接收資料。處理器15可為各種處理單元、中央處理單元(Central Processing Unit;CPU)、微處理器或本揭露所屬技術領域中具有通常知識者所知悉之其他計算裝置。
於本實施方式中,如第1圖所示,儲存器11可用以儲存自監督神經網路100,模型產生裝置1將透過自監督神經網路100訓練用於特徵擷取的編碼器。關於自監督神經網路100的具體內容及實施細節,容後詳述。
為便於理解,先簡單說明本揭露之第一實施方式的運作,請參考第2圖的運作示意圖200。如第2圖所示,本揭露主要包含三個階段運作,依序分別為訓練樣本產生階段S1、預訓練(Pre-trained)階段S2及微調(Fine-tuned)階段S3。
具體而言,如第2圖所示,在訓練樣本產生階段S1中,模型產生裝置1將基於複數個樣本影像SI,透過對抗式攻擊AA(Adversarial Attack)的運作,產生複數個經由對抗式攻擊AA的對抗樣本AE(Adversarial Example)。
接著,如第2圖所示,在預訓練階段S2中,模型產生裝置1將基於自監督神經網路100及前階段所產生的訓練資料(即,樣本影像SI及對抗樣本AE),訓練編碼器E1。最後,在微調階段S3中,模型產生裝置1將基於訓練完成的編碼器E1產生對應的下游任務(downstream task)的任務模型,例如:任務模型T1、任務模型T2及任務模型T3。
以下段落將詳細說明與本揭露相關之實施細節。於本實施方式中,如第1圖所示,儲存器11可用以儲存自監督神經網路100。於本揭露中,模型產生裝置1將透過自監督神經網路100訓練用於特徵擷取的編碼器E1,且透過另一編碼器E2更新編碼器E1以提升編碼器E1抵抗對抗式攻擊的能力。
於某些實施方式中,自監督神經網路100是由一線上神經(Online)網路及一目標(Target)神經網路所組成,且在訓練階段時透過該目標神經網路輔助訓練該線上神經網路,以調整該線上神經網路對於某些影像區塊的特徵擷取的權重及參數(例如:降低經由對抗式攻擊所改變的影像區塊的權重)。
具體而言,如第3圖所示,在自監督神經網路100中,第一編碼器E1對應至該線上神經網路,且第二編碼器E2對應至該目標神經網路。於某些實施方式中,本揭露所使用的自監督神經網路100可為BOYL(Bootstrap Your Own Latent)架構中所使用的自監督神經網路。
接著,以下將說明關於訓練樣本產生階段S1的運作內容。於本實施方式中,處理器15可透過收發介面13接收複數個樣本影像。隨後,處理器15將基於該等樣本影像,產生對應該等樣本影像之複數個對抗樣本。
具體而言,處理器15對該等樣本影像各者執行一對抗式攻擊(例如:在樣本影像中加入部分的微小雜訊),以產生對應該等樣本影像各者之複數個對抗樣本。應理解,處理器15可透過多種對抗式攻擊的方法產生雜訊,例如:根據模型的梯度去計算各個像素(pixel)對於分類的影響,以產生加入該樣本影像的雜訊。
舉例而言,對抗式攻擊可包含如白箱攻擊(White box attack)中的FGSM、BIM、MIM、DeepFool及C&W等等的方法。又舉例而言,對抗式攻擊亦可包含如黑箱攻擊(Black  box attack)中的ZOO、NES、NAttack、及Boundary等等的方法。須說明者,本揭露並未限制模型產生裝置1用以產生對抗樣本所使用的對抗式攻擊的內容。
於某些實施方式中,為了使得模型產生裝置1所訓練的第一編碼器E1具有更好的抵禦效果,處理器15對於同一張樣本影像可以產生複數張對應於不同對抗式攻擊的訓練資料。具體而言,經由該對抗式攻擊產生的該等對抗樣本與該等樣本影像具有多對一關係。舉例而言,對應於同一張樣本影像,處理器15可透過FGSM、BIM及MIM的對抗式攻擊方式,產生對應該樣本影像的三張對抗樣本。
接著,於預訓練階段S2中,處理器15將該等樣本影像及該等對抗樣本輸入至該自監督神經網路100以進行訓練。為便於理解,請參考第3圖。於本實施方式中,處理器15將該等樣本影像及該等對抗樣本分別輸入至該自監督神經網路100中之第一編碼器E1及第二編碼器E2,以產生複數個第一特徵擷取F1及複數個第二特徵擷取F2。如第3圖所示,該等第一特徵擷取F1是由第一編碼器E1所產生,該等第二特徵擷取F2是由該第二編碼器E2所產生。
須說明者,於本揭露中,線上神經網路可由第一編碼器E1、表示(Representation)層、投影(Projection)層及預測(Predicjection)層等等組成,以產生該等第一特徵擷取F1。此外,目標神經網路可由第二編碼器E2、表示層及投影層等等組成,以產生該等第二特徵擷取F2。本領域具有通常知識者應可根據前述說明內容,理解編碼器產生特徵擷取的方式,故不贅言。
於某些實施方式中,在訓練前,處理器15更進一步分類樣本影像及對抗樣本以產生對應訓練集,以便於後續訓練時,處理器15將各個對應訓練集輸入至自監督神經網路100中之第一編碼器E1及第二編碼器E2,以進行各回合的訓練。具體而言,處理器15分類該等樣本影像及該等對抗樣本,以產生複數個對應訓練集,其中該等對應訓練集各者包含該等樣本影像中之一第一樣本影像及一對應至該第一樣本影像之一第一對抗樣本。
須說明者,對應訓練集中包含一張樣本影像及對應該樣本影像的一張對抗樣本,若該樣本影像具有多張對應的對抗樣本,則處理器15可產生多組的對應訓練集。
接著,於本實施方式中,處理器15計算該等第一特徵擷取F1及該等第二特徵擷取F2各者之一相似度,以訓練該自監督神經網路100。
於某些實施方式中,處理器15是將每一組對應訓練集分別輸入至自監督神經網路100中的編碼器進行訓練。具體而言,處理器15針對該等對應訓練集各者,執行以下運作:將該第一樣本影像輸入至第一編碼器E1,以產生對應該第一樣本影像之該第一特徵擷取F1;以及將第一對抗樣本輸入至第二編碼器E2,以產生對應該第一對抗樣本之該第二特徵擷取F2。
於某些實施方式中,處理器15是計算每一組對應訓練集所產生的特徵擷取的相似度,以訓練該自監督神經網路100。具體而言,處理器15針對該等對應訓練集各者,執行以下運作:計算對應該第一樣本影像之該第一特徵擷取F1及對應該第一對抗樣本之該第二特徵擷取F2之該相似度,以訓練該自監督神經網路100。
於某些實施方式中,特徵擷取的相似度可透過複數個損失函數L計算,並處理器15更基於損失函數L的計算結果更新第一編碼器E1。
具體而言,處理器15基於複數個損失函數L,計算該等第一特徵擷取F1及該等第二特徵擷取F2各者之該相似度。接著,如第3圖所示,處理器15基於該等損失函數L所對應之該相似度,更新該第一編碼器E1。須說明者,本揭露並未限制模型產生裝置1所使用的損失函數L內容,任何可用以判斷特徵擷取是否相似的損失函數,均可使用在本揭露中。
於某些實施方式中,為了增加第二編碼器E2與第二編碼器E1的差異性,可對於第二編碼器E2的參數進行平滑或平均運作,以增加編碼器的強健性。舉例而言,如第3圖所示,處理器15可更基於該第一編碼器E1所對應之一指數移動平均(Exponential Moving Average;EMA ),更新第二編碼器E2。
須說明者,由於各個對抗樣本是經由對抗式攻擊(例如:在樣本影像中加入部分的微小雜訊)所產生,因此透過二個神經網路的互相訓練(即,線上神經網路及目標神經網路),可有效降低訓練完成後的第一編碼器E1對於經由對抗式攻擊的影像的誤判機率,提高第一編碼器E1特徵擷取的準確性。
接著,在自監督神經網路100訓練完成後(即,已訓練過所有對應訓練集),由於第一編碼器E1已具有抵禦對抗式攻擊的特徵擷取能力。因此,在微調階段S3中,處理器15即可以自監督神經網路100中的第一編碼器E1為特徵擷取的基底,再配合其他對應於不同應用的新增層進行微調(例如:全連接層、解碼器等等),產生任務模型。具體而言,處理器15基於該第一編碼器E1及複數個標註資料,產生一任務模型。
須說明者,標註資料為經由標註後的資料(即,基準真相標註(Ground truth labels)),以用於微調新增層所訓練的任務模型。此外,該等標註資料可由專家對於資料進行人工標註產生,或是直接由外部裝置(例如:對應資料類型的資料庫)接收已標註完成的該等標註資料,本揭露未限制取得該等標註資料的方式。
須說明者,處理器15可根據該任務模型所對應的應用或需求取得該等標註資料。舉例而言,若欲產生的任務模型與人臉辨識相關(例如:辨識任務),處理器15可從至少一個人臉影像資料庫中取得已標註完成的該等標註資料。
於某些實施方式中,處理器15可基於不同應用的需求,將不同的新增層串接於第一編碼器E1後,以透過第一編碼器E1取得擷取特徵,並快速的訓練任務模型。
具體而言,處理器15串接至少一新增層於該第一編碼器之後,其中該至少一新增層對應至一下游任務。接著,處理器15將該等標註資料輸入至該第一編碼器及該至少一新增層,以微調該至少一新增層。最後,處理器15基於該第一編碼器及微調後之該至少一新增層,產生對應該下游任務之該任務模型。
舉例而言,如第2圖所示,任務模型T1可為執行偵測(Detection)任務的任務模型,任務模型T1可用於辨識樣本影像中所對應的類別(例如:該張樣本影像對應至一飛機類別)。任務模型T2可為執行分割任務(Segmentation)的任務模型,任務模型T2可用於產生樣本影像中物體輪廓的分割。任務模型T3可為執行重建任務(Reconstruction)的任務模型,任務模型T3可將經由對抗式攻擊的影像重建回原先的樣本影像(即,濾除對抗式攻擊所改變的雜訊)。
以產生用於偵測任務的任務模型為例進行說明,處理器15可將複數層用於偵測的全連接層(fully-connections layers)串接於第一編碼器E1後,並透過全連接層所預測的結果與標註資料的結果計算損失函數,以更新全連接層的參數與權重,進以快速的訓練用於偵測任務的任務模型。
以產生用於分割任務的任務模型為例進行說明,處理器15可將用於分割的解碼器(Decoder)串接於第一編碼器E1後,並透過解碼器所預測的結果與標註資料的結果計算損失函數,以更新解碼器的參數與權重,進以快速的訓練用於分割任務的任務模型。
以產生用於重建任務的任務模型為例進行說明,處理器15可將用於重建的解碼器串接於第一編碼器E1後,並透過解碼器所預測的結果與標註資料的結果計算損失函數,以更新解碼器的參數與權重,進以快速的訓練用於重建任務的任務模型。
由上述說明可知,本揭露所提供之模型產生裝置1,透過產生對應複數個樣本影像之複數個對抗樣本,且基於該等樣本影像及該等對抗樣本訓練自監督神經網路100中的第一編碼器E1及第二編碼器E2,增強第一編碼器E1對於特徵擷取的能力,因此可提升第一編碼器E1抵抗對抗式攻擊的能力。此外,本揭露所提供之模型產生裝置1可基於訓練完成的第一編碼器E1及複數個標註資料,快速的產生針對各種下游任務的任務模型,解決習知技術需要重新整個任務模型的訓練成本問題。另外,由於本揭露所提供之模型產生裝置1在訓練任務模型時,僅透過標註後的資料進行微調訓練,而不需要在訓練資料中加入對抗樣本,因此訓練後的準確性亦不會降低,解決習知技術發生的準確性下降問題。
本揭露之第二實施方式為一模型產生方法,其流程圖係描繪於第4圖。模型產生方法400適用於一電子裝置,該電子裝置包含一儲存器、一收發介面及一處理器,例如:第一實施方式所述之模型產生裝置1。電子裝置儲存一自監督神經網路,例如:第一實施方式之自監督神經網路100。模型產生方法400由該處理器執行且透過步驟S401至步驟S409產生任務模型。
首先,於步驟S401,由電子裝置透過該收發介面接收複數個樣本影像。隨後,於步驟S403,由電子裝置產生對應該等樣本影像之複數個對抗樣本。
接著,於步驟S405,由電子裝置將該等樣本影像及該等對抗樣本分別輸入至該自監督神經網路中之一第一編碼器及一第二編碼器,以產生複數個第一特徵擷取及複數個第二特徵擷取,其中該等第一特徵擷取由該第一編碼器產生,該等第二特徵擷取由該第二編碼器產生。
隨後,於步驟S407,由電子裝置計算該等第一特徵擷取及該等第二特徵擷取各者之一相似度,以訓練該自監督神經網路。
最後,於步驟S409,由電子裝置基於該第一編碼器及複數個標註資料,產生一任務模型。
於某些實施方式中,該自監督神經網路更包含一線上神經網路及一目標神經網路,該第一編碼器對應至該線上神經網路,且該第二編碼器對應至該目標神經網路。
於某些實施方式中,模型產生方法400更包含下列步驟:對該等樣本影像各者執行一對抗式攻擊,以產生對應該等樣本影像各者之複數個對抗樣本。
於某些實施方式中,其中經由該對抗式攻擊產生的該等對抗樣本與該等樣本影像具有多對一關係。
於某些實施方式中,模型產生方法400更包含下列步驟:分類該等樣本影像及該等對抗樣本,以產生複數個對應訓練集,其中該等對應訓練集各者包含該等樣本影像中之一第一樣本影像及一對應至該第一樣本影像之一第一對抗樣本。
於某些實施方式中,模型產生方法400更包含下列步驟:針對該等對應訓練集各者,執行以下步驟:將該第一樣本影像輸入至該第一編碼器,以產生對應該第一樣本影像之該第一特徵擷取;以及將該第一對抗樣本輸入至該第二編碼器,以產生對應該第一對抗樣本之該第二特徵擷取。
於某些實施方式中,模型產生方法400更包含下列步驟:針對該等對應訓練集各者,執行以下步驟:計算對應該第一樣本影像之該第一特徵擷取及對應該第一對抗樣本之該第二特徵擷取之該相似度,以訓練該自監督神經網路。
於某些實施方式中,模型產生方法400更包含下列步驟:針對該等對應訓練集各者,執行以下運作:基於該第一編碼器所對應之一指數移動平均,更新該第二編碼器。
於某些實施方式中,模型產生方法400更包含下列步驟:基於複數個損失函數,計算該等第一特徵擷取及該等第二特徵擷取各者之該相似度;以及基於該等損失函數所對應之該相似度,更新該第一編碼器。
於某些實施方式中,模型產生方法400更包含下列步驟:串接至少一新增層於該第一編碼器之後,其中該至少一新增層對應至一下游任務;將該等標註資料輸入至該第一編碼器及該至少一新增層,以微調該至少一新增層;以及基於該第一編碼器及微調後之該至少一新增層,產生對應該下游任務之該任務模型。
除了上述步驟,第二實施方式亦能執行第一實施方式所描述之模型產生裝置1之所有運作及步驟,具有同樣之功能,且達到同樣之技術效果。本揭露所屬技術領域中具有通常知識者可直接瞭解第二實施方式如何基於上述第一實施方式以執行此等運作及步驟,具有同樣之功能,並達到同樣之技術效果,故不贅述。
需說明者,於本揭露專利說明書及申請專利範圍中,某些用語(包含:編碼器、特徵擷取、樣本影像及對抗樣本等等)前被冠以「第一」或「第二」,該等「第一」及「第二」僅用來區分不同之用語。例如:第一特徵擷取及第二特徵擷取中之「第一」及「第二」僅用來表示不同編碼器所產生的特徵擷取。
綜上所述,本揭露所提供之模型產生技術(至少包含裝置及方法),透過產生對應複數個樣本影像之複數個對抗樣本,且基於該等樣本影像及該等對抗樣本訓練自監督神經網路中的第一編碼器及第二編碼器,增強第一編碼器對於特徵擷取的能力,因此可提升第一編碼器抵抗對抗式攻擊的能力。此外,本揭露所提供之模型產生技術可基於訓練完成的第一編碼器及複數個標註資料,快速的產生針對各種下游任務的任務模型,解決習知技術需要重新整個任務模型的訓練成本問題。另外,由於本揭露所提供之模型產生技術在訓練任務模型時,僅透過標註後的資料進行微調訓練,而不需要在訓練資料中加入對抗樣本,因此訓練後的準確性亦不會降低,解決習知技術發生的準確性下降問題。
上述實施方式僅用來例舉本揭露之部分實施態樣,以及闡釋本揭露之技術特徵,而非用來限制本揭露之保護範疇及範圍。任何本揭露所屬技術領域中具有通常知識者可輕易完成之改變或均等性之安排均屬於本揭露所主張之範圍,而本揭露之權利保護範圍以申請專利範圍為準。
1:模型產生裝置 11:儲存器 13:收發介面 15:處理器 100:自監督神經網路 200:運作示意圖 S1:訓練樣本產生階段 S2:預訓練階段 S3:微調階段 SI:樣本影像 AA:對抗式攻擊 AE:對抗樣本 E1:第一編碼器 T1:任務模型 T2:任務模型 T3:任務模型 E2:第二編碼器 EMA:指數移動平均 F1:第一特徵擷取 F2:第二特徵擷取 L:損失函數 400:模型產生方法 S401、S403、S405、S407、S409:步驟
第1圖係描繪第一實施方式之模型產生裝置之架構示意圖; 第2圖係描繪第一實施方式之運作示意圖; 第3圖係描繪第一實施方式之自監督神經網路之運作示意圖;以及 第4圖係描繪第二實施方式之模型產生方法之部分流程圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無 國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無
400:模型產生方法
S401、S403、S405、S407、S409:步驟

Claims (16)

  1. 一種模型產生裝置,包含: 一儲存器,用以儲存一自監督神經網路; 一收發介面;以及 一處理器,電性連接至該儲存器及該收發介面,用以執行以下運作: 透過該收發介面接收複數個樣本影像; 產生對應該等樣本影像之複數個對抗樣本; 將該等樣本影像及該等對抗樣本分別輸入至該自監督神經網路中之一第一編碼器及一第二編碼器,以產生複數個第一特徵擷取及複數個第二特徵擷取,其中該等第一特徵擷取由該第一編碼器產生,該等第二特徵擷取由該第二編碼器產生; 計算該等第一特徵擷取及該等第二特徵擷取各者之一相似度,以訓練該自監督神經網路;以及 基於該第一編碼器及複數個標註資料,產生一任務模型。
  2. 如請求項1所述之模型產生裝置,其中該自監督神經網路更包含一線上神經網路及一目標神經網路,該第一編碼器對應至該線上神經網路,且該第二編碼器對應至該目標神經網路。
  3. 如請求項1所述之模型產生裝置,其中該處理器更執行以下運作: 分類該等樣本影像及該等對抗樣本,以產生複數個對應訓練集,其中該等對應訓練集各者包含該等樣本影像中之一第一樣本影像及一對應至該第一樣本影像之一第一對抗樣本。
  4. 如請求項3所述之模型產生裝置,其中該處理器更執行以下運作: 針對該等對應訓練集各者,執行以下運作: 將該第一樣本影像輸入至該第一編碼器,以產生對應該第一樣本影像之該第一特徵擷取;以及 將該第一對抗樣本輸入至該第二編碼器,以產生對應該第一對抗樣本之該第二特徵擷取。
  5. 如請求項4所述之模型產生裝置,其中該處理器更執行以下運作: 針對該等對應訓練集各者,執行以下運作: 計算對應該第一樣本影像之該第一特徵擷取及對應該第一對抗樣本之該第二特徵擷取之該相似度,以訓練該自監督神經網路。
  6. 如請求項5所述之模型產生裝置,其中該處理器更執行以下運作: 針對該等對應訓練集各者,執行以下運作: 基於該第一編碼器所對應之一指數移動平均,更新該第二編碼器。
  7. 如請求項1所述之模型產生裝置,其中該處理器更執行以下運作: 基於複數個損失函數,計算該等第一特徵擷取及該等第二特徵擷取各者之該相似度;以及 基於該等損失函數所對應之該相似度,更新該第一編碼器。
  8. 如請求項1所述之模型產生裝置,其中該處理器更執行以下運作: 串接至少一新增層於該第一編碼器之後,其中該至少一新增層對應至一下游任務; 將該等標註資料輸入至該第一編碼器及該至少一新增層,以微調該至少一新增層;以及 基於該第一編碼器及微調後之該至少一新增層,產生對應該下游任務之該任務模型。
  9. 一種模型產生方法,用於一電子裝置,該電子裝置包含一儲存器、一收發介面及一處理器,該儲存器用以儲存一自監督神經網路,該模型產生方法由該處理器執行且包含下列步驟: 透過該收發介面接收複數個樣本影像; 產生對應該等樣本影像之複數個對抗樣本; 將該等樣本影像及該等對抗樣本分別輸入至該自監督神經網路中之一第一編碼器及一第二編碼器,以產生複數個第一特徵擷取及複數個第二特徵擷取,其中該等第一特徵擷取由該第一編碼器產生,該等第二特徵擷取由該第二編碼器產生; 計算該等第一特徵擷取及該等第二特徵擷取各者之一相似度,以訓練該自監督神經網路;以及 基於該第一編碼器及複數個標註資料,產生一任務模型。
  10. 如請求項9所述之模型產生方法,其中該自監督神經網路更包含一線上神經網路及一目標神經網路,該第一編碼器對應至該線上神經網路,且該第二編碼器對應至該目標神經網路。
  11. 如請求項9所述之模型產生方法,更包含下列步驟: 分類該等樣本影像及該等對抗樣本,以產生複數個對應訓練集,其中該等對應訓練集各者包含該等樣本影像中之一第一樣本影像及一對應至該第一樣本影像之一第一對抗樣本。
  12. 如請求項11所述之模型產生方法,更包含下列步驟: 針對該等對應訓練集各者,執行以下步驟: 將該第一樣本影像輸入至該第一編碼器,以產生對應該第一樣本影像之該第一特徵擷取;以及 將該第一對抗樣本輸入至該第二編碼器,以產生對應該第一對抗樣本之該第二特徵擷取。
  13. 如請求項12所述之模型產生方法,更包含下列步驟: 針對該等對應訓練集各者,執行以下步驟: 計算對應該第一樣本影像之該第一特徵擷取及對應該第一對抗樣本之該第二特徵擷取之該相似度,以訓練該自監督神經網路。
  14. 如請求項13所述之模型產生方法,更包含下列步驟: 針對該等對應訓練集各者,執行以下運作: 基於該第一編碼器所對應之一指數移動平均,更新該第二編碼器。
  15. 如請求項9所述之模型產生方法,更包含下列步驟: 基於複數個損失函數,計算該等第一特徵擷取及該等第二特徵擷取各者之該相似度;以及 基於該等損失函數所對應之該相似度,更新該第一編碼器。
  16. 如請求項15所述之模型產生方法,更包含下列步驟: 串接至少一新增層於該第一編碼器之後,其中該至少一新增層對應至一下游任務; 將該等標註資料輸入至該第一編碼器及該至少一新增層,以微調該至少一新增層;以及 基於該第一編碼器及微調後之該至少一新增層,產生對應該下游任務之該任務模型。
TW111124119A 2022-01-06 2022-06-28 模型產生裝置及方法 TWI810993B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202263266461P 2022-01-06 2022-01-06
US63/266,461 2022-01-06

Publications (2)

Publication Number Publication Date
TW202328989A true TW202328989A (zh) 2023-07-16
TWI810993B TWI810993B (zh) 2023-08-01

Family

ID=83255524

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111124119A TWI810993B (zh) 2022-01-06 2022-06-28 模型產生裝置及方法

Country Status (3)

Country Link
US (1) US20230215147A1 (zh)
CN (1) CN115082761A (zh)
TW (1) TWI810993B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439719B (zh) * 2022-10-27 2023-03-28 泉州装备制造研究所 一种针对对抗攻击的深度学习模型防御方法及模型

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10825219B2 (en) * 2018-03-22 2020-11-03 Northeastern University Segmentation guided image generation with adversarial networks
CN111046379B (zh) * 2019-12-06 2021-06-18 支付宝(杭州)信息技术有限公司 一种对抗攻击的监测方法和装置
CN111046957B (zh) * 2019-12-13 2021-03-16 支付宝(杭州)信息技术有限公司 一种模型盗用的检测、模型的训练方法和装置
CN111695596A (zh) * 2020-04-30 2020-09-22 华为技术有限公司 一种用于图像处理的神经网络以及相关设备
CN113554089B (zh) * 2021-07-22 2023-04-18 西安电子科技大学 一种图像分类对抗样本防御方法、系统及数据处理终端

Also Published As

Publication number Publication date
CN115082761A (zh) 2022-09-20
TWI810993B (zh) 2023-08-01
US20230215147A1 (en) 2023-07-06

Similar Documents

Publication Publication Date Title
WO2020199693A1 (zh) 一种大姿态下的人脸识别方法、装置及设备
WO2019169688A1 (zh) 车辆定损方法、装置、电子设备及存储介质
CN111798360B (zh) 一种水印检测方法、装置、电子设备及存储介质
CN111275107A (zh) 一种基于迁移学习的多标签场景图像分类方法及装置
CN110348437B (zh) 一种基于弱监督学习与遮挡感知的目标检测方法
Wang et al. FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection
WO2023138188A1 (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN114677565B (zh) 特征提取网络的训练方法和图像处理方法、装置
CN115578735B (zh) 文本检测方法和文本检测模型的训练方法、装置
CN114549840B (zh) 语义分割模型的训练方法和语义分割方法、装置
Hou et al. BSNet: Dynamic hybrid gradient convolution based boundary-sensitive network for remote sensing image segmentation
CN113901909B (zh) 基于视频的目标检测方法、装置、电子设备和存储介质
CN114612759A (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
CN113609345B (zh) 目标对象关联方法和装置、计算设备以及存储介质
TWI810993B (zh) 模型產生裝置及方法
CN113887615A (zh) 图像处理方法、装置、设备和介质
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
Zhang et al. Fine segmentation on faces with masks based on a multistep iterative segmentation algorithm
WO2022096943A1 (en) Method and apparatus for processing point cloud data, device, and storage medium
CN114723652A (zh) 细胞密度确定方法、装置、电子设备及存储介质
WO2023231753A1 (zh) 一种神经网络的训练方法、数据的处理方法以及设备
CN112364198A (zh) 一种跨模态哈希检索方法、终端设备及存储介质
CN115170919B (zh) 图像处理模型训练及图像处理方法、装置、设备和存储介质
CN114419327B (zh) 图像检测方法和图像检测模型的训练方法、装置
CN110738261A (zh) 图像分类和模型训练方法、装置、电子设备及存储介质