TWI773962B - 模型訓練裝置及方法 - Google Patents
模型訓練裝置及方法 Download PDFInfo
- Publication number
- TWI773962B TWI773962B TW109101761A TW109101761A TWI773962B TW I773962 B TWI773962 B TW I773962B TW 109101761 A TW109101761 A TW 109101761A TW 109101761 A TW109101761 A TW 109101761A TW I773962 B TWI773962 B TW I773962B
- Authority
- TW
- Taiwan
- Prior art keywords
- domain
- loss value
- training data
- classification
- training
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 302
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000003062 neural network model Methods 0.000 claims abstract description 128
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 71
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000011478 gradient descent method Methods 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 239000000463 material Substances 0.000 claims description 2
- 230000006870 function Effects 0.000 description 11
- 238000013526 transfer learning Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000006978 adaptation Effects 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Feedback Control In General (AREA)
- Application Of Or Painting With Fluid Materials (AREA)
Abstract
模型訓練裝置及方法。所訓練的神經網路模型包含一卷積神經網路及一領域判別器,其中卷積神經網路包含多個特徵擷取器及一分類器。模型訓練裝置將多筆訓練資料輸入卷積神經網路,使各特徵擷取器針對各訓練資料個別地產生一特徵區塊,且使分類器針對各訓練資料產生一分類結果。模型訓練裝置基於各訓練資料所對應的該等特徵區塊產生各訓練資料所對應的向量,而該領域判別器根據各向量產生各訓練資料的一領域判別結果。模型訓練裝置計算神經網路模型的分類損失值與領域損失值,再根據分類損失值與領域損失值判斷是否繼續訓練神經網路模型。
Description
本發明係關於一種模型訓練裝置及方法。具體而言,本發明係關於一種基於對抗式遷移學習技術的模型訓練裝置及方法。
卷積神經網路在許多領域(例如:影像辨識)已取得相當的成功,而這樣的成功需要大量的標籤資料作為訓練資料。由於現實場景中獲取標籤資料的成本相當龐大,因而發展出遷移學習技術。遷移學習技術假設訓練資料與測試資料為獨立同分布,目的是將知識從來源域遷移至目標域,使得在目標任務的資料集只有少量標籤資料甚至不具標籤資料的情況下,能透過現有的標籤資料訓練一卷積神經網路,省下蒐集標籤資料的成本。近年來,逐漸發展出對抗式遷移學習技術以解決領域自適應的問題。對抗式遷移學習技術透過額外的領域判別器對卷積神經網路進行最大最小化對抗學習,藉此拉近領域分布距離,提升卷積神經網路的通用性。
Zhang等人在「Collaborative and adversarial network for unsupervised domain adaptation」一文所提出的協作對抗式網路(Collaborative and Adversarial Network;下稱「CAN架構」)為對抗式遷移學習技術的一例,該篇論文刊載於2018年的「In Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition」。在CAN架構中,卷積神經網路的淺層特徵擷取器學習領域相關特微,而最後一層特徵擷取器則透過反向梯度層學習領域不變特徵。然而,CAN架構的淺層特徵擷取器採正向梯度調整權重,使卷積神經網路會往領域特徵方向調整,有礙於達到領域自適應。此外,在CAN架構中,每一個特徵擷取器設置一對應的領域判別器,使得整體架構變得相當龐大,拉長訓練卷積神經網路所需的時間。
除了前述缺點,習知的對抗式遷移學習技術未考慮到類別不變特徵,且亦未考慮到淺層特徵間的關聯性。有鑑於此,本領域仍需要一種能通盤考量領域相關特微、領域不變特徵、類別不變特徵以及淺層特徵間的關聯性,且不具有前述缺點的對抗式遷移學習技術。
本發明的一目的在於提供一種模型訓練裝置。該模型訓練裝置包含一儲存器及一處理器,且二者彼此電性連接。該儲存器儲存一神經網路模型,其中該神經網路模型包含一卷積神經網路及一領域判別器,且該卷積神經網路包含複數個特徵擷取器及一分類器。該儲存器還儲存一第一領域的複數筆第一資料及一第二領域的複數筆第二資料,其中該等第一資料的一第一子集及該等第二資料的一第二子集被選取作為複數筆訓練資料。該處理器將該等訓練資料輸入該卷積神經網路,使各該特徵擷取器針對各該訓練資料個別地產生一特徵區塊,且使該分類器針對各該訓練資料產生一分類結果。該處理器基於各該訓練資料所對應的該等特徵區塊產生各該訓練資料所對應的一向量,而該領域判別器根據各該向量產生各該訓練資料的一領域判別結果。該處理器還根據屬於該第一領域的各該訓練資料的
一分類標籤與對應的該分類結果計算一分類損失值,根據各該訓練資料的一領域標籤及對應的該領域判別結果計算一領域損失值,且根據該分類損失值及該領域損失值判斷是否繼續訓練該分類模型。
本發明的另一目的在於提供一種模型訓練方法,其係適用於一電子計算裝置。該電子計算裝置儲存一神經網路模型,其中該神經網路模型包含一卷積神經網路及一領域判別器,且該卷積神經網路包含複數個特徵擷取器及一分類器。該電子計算裝置還儲存一第一領域的複數筆第一資料及一第二領域的複數筆第二資料,其中該等第一資料的一第一子集及該等第二資料的一第二子集被選取作為複數筆訓練資料。該模型訓練方法包含下列步驟(a)、步驟(b)、步驟(c)、步驟(d)、步驟(e)及步驟(f)。步驟(a)將該等訓練資料輸入該卷積神經網路,使各該特徵擷取器針對各該訓練資料個別地產生一特徵區塊,且使該分類器針對各該訓練資料個別地產生一分類結果。步驟(b)基於各該訓練資料所對應的該等特徵區塊產生各該訓練資料所對應的一向量。步驟(c)將該等向量輸入該領域判別器,使該領域判別器根據各該向量產生各該訓練資料的一領域判別結果。步驟(d)根據屬於該第一領域的各該訓練資料的一分類標籤與對應的該分類結果計算一分類損失值。步驟(e)根據各該訓練資料的一領域標籤及對應的該領域判別結果計算一領域損失值。步驟(f)根據該分類損失值及該領域損失值判斷是否繼續訓練該神經網路模型。
本發明係提供一種神經網路模型及訓練該神經網路模型的技術(至少包含裝置及方法)。本發明所提供的神經網路模型包含一卷積神經網路及一領域判別器,其中該卷積神經網路包含複數個特徵擷取器及一
分類器。該卷積神經網路與該領域判別器密集地連結(亦即,該卷積神經網路所包含的該等特徵擷取器皆連結至該領域判別器)。基於這樣的架構,本發明所提供的模型訓練技術除了原始卷積神經網路訓練方法,還會將該等特徵擷取器所產生的複數個特徵區塊整合後輸入該領域判別器,藉由領域判別器產生的輸出與對應的標籤計算損失值,再採反向梯度的方式更新該等特徵擷取器中的連結權重值。由於該神經網路模型中的該領域判別器與該卷積神經網路的淺層(亦即,該等特徵擷取器)密集地連結,因而能提高遷移任務(由第一領域遷移到第二領域)的準確度。此外,由於該神經網路模型中僅有一個領域判別器,因此需要訓練學習的參數量較少,訓練複雜度較低。
本發明所提供的神經網路模型中的領域判別器還可再設置一分類器。藉此,神經網路模型在學習領域不變特徵時還能保有分類能力,不會損及卷積神經網路中的分類器的分類能力,且能學習到類別不變特徵領域。
以下結合圖式闡述本發明的技術及實施方式,俾使本發明所屬技術領域中具有通常知識者能理解所請求保護的發明的技術特徵。
1:模型訓練裝置
11:儲存器
13:處理器
DS1、DS2:資料集
S1、S2、S3、S4:子集
M1、M2、M3:神經網路模型
NN:卷積神經網路
F1、F2、F3、……、Fb:特徵擷取器
C1、C2:分類器
D1、D2:領域判別器
FC:全連接層
SG:二分類函數
TD:訓練資料
B1、B2、B3、……、Bb:特徵區塊
OP:整合處理
V:向量
R1、R3:分類結果
R2:領域判別結果
w1、w2、w3、……、wb:特徵權重值
S401~S415:步驟
第1A圖描繪第一至第三實施方式所述的訓練裝置1的硬體架構示意圖;第1B圖描繪神經網路模型M1的架構示意圖;第2圖描繪神經網路模型M2的架構示意圖;第3圖描繪神經網路模型M3的架構示意圖;以及
第4圖描繪第四實施方式的主要流程圖。
以下將透過實施方式來解釋本發明所提供的模型訓練裝置及方法。然而,該等實施方式並非用以限制本發明需在如該等實施方式所述的任何環境、應用或方式方能實施。因此,關於以下實施方式的說明僅在於闡釋本發明的目的,而非用以限制本發明的範圍。應理解,在以下實施方式及圖式中,與本發明非直接相關的元件已省略而未繪示,且圖式中各元件的尺寸以及元件間的尺寸比例僅為便於繪示及說明,而非用以限制本發明的範圍。
本發明的第一實施方式為一模型訓練裝置1,其硬體的架構示意圖係描繪於第1A圖。模型訓練裝置1包含一儲存器11及一處理器13,且二者電性連接。儲存器11可為一記憶體、一硬碟(Hard Disk Drive;HDD)、一通用串列匯流排(Universal Serial Bus;USB)碟、一光碟(Compact Disk;CD)、一數位多工光碟(Digital Versatile Disc;DVD)或本發明所屬技術領域中具有通常知識者所知的任何其他具有雷同功能的非暫態儲存媒體或裝置。處理器13可為各種處理器、中央處理單元(Central Processing Unit;CPU)、微處理器(Microprocessor Unit;MPU)、數位訊號處理器(Digital Signal Processor;DSP)或本發明所屬技術領域中具有通常知識者所知的任何其他具有雷同功能的計算裝置。
儲存器11儲存一神經網路模型M1,其架構示意圖係描繪於第1B圖。神經網路模型M1包含一卷積神經網路NN及一領域判別器D1,其中卷積神經網路NN包含複數個特徵擷取器F1、F2、F3、……、Fb及一分類
器C1。舉例而言,卷積神經網路NN可為LeNet網路、AlexNet網路、VGG網路、GoogLeNet網路、ResNet網路中的任一種,但不以此為限。本發明所屬技術領域中具有通常知識者應熟知各種卷積神經網路的架構以及任一種卷積神經網路中的哪些層為特徵擷取器F1、F2、F3、……、Fb及分類器C1,故不贅言。領域判別器D1可為一全連接層FC連結一個二分類函數SG(例如:Sigmoid函數),但不以此為限。於本實施方式中,特徵擷取器F1、F2、F3、……、Fb的輸出經過整合處理OP後會被傳送至領域判別器D1(容後說明)。
儲存器11還儲存一第一領域(未繪示)的一資料集DS1及一第二領域(未繪示)的一資料集DS2,且資料集DS1、DS2各自包含複數筆資料。第1A圖所繪示的資料集DS1中的每一個正方形代表一筆資料,且第1A圖所繪示的資料集DS2中的每一個正方形代表一筆資料。該等資料的種類係取決於神經網路模型M1中的卷積神經網路NN的用途。舉例而言,若卷積神經網路NN的用途為影像識別,則前述各筆資料個別地為一張影像。
資料集DS1的各筆資料具有一領域標籤(未繪示)以表示其屬於第一領域,且資料集DS2的各筆資料具有一領域標籤(未繪示)以表示其屬於第二領域。第一領域與第二領域不同。舉例而言,第一領域與第二領域可為不同的資料來源。資料集DS1、DS2各自包含N個類別的資料,前述變數N為一正整數。資料集DS1的各筆資料個別地具有一分類標籤(未繪示),且各分類標籤用來表示對應的該筆資料屬於N個類別中的哪一類別。模型訓練裝置1會利用資料集DS1與資料集DS2來訓練神經網路模型M1,已達成由第一領域遷移至第二領域的遷移學習任務。
於本實施方式中,在模型訓練裝置1開始訓練神經網路模型M1前,會先決定好多個的訓練集。但應理解,何時決定好訓練集並非本發明的重點,且本發明未限制在何時決定訓練集。各個訓練集包含複數筆訓練資料(未繪示)。為使訓練出來的神經網路模型M1具備領域自適應且達到由第一領域遷移至第二領域的遷移學習任務,各個訓練集所包含的該等訓練資料有來自於第一領域的資料,也有來自於第二領域的資料。
為便於理解,茲假設資料集DS1所包含的該等資料的子集S1與資料集DS2所包含的該等資料的子集S2被選取作為一個訓練集;換言之,子集S1中的每一筆資料為該訓練集中的一筆訓練資料,且子集S2中的每一筆資料亦為該訓練集中的一筆訓練資料。子集S1所包含的資料筆數與子集S2所包含的資料筆數可相同亦可不同。另外,茲假設資料集DS1所包含的該等資料的子集S3與資料集DS2所包含的該等資料的子集S4被選取作為另一訓練集;換言之,子集S3中的每一筆資料為該另一訓練集中的一筆訓練資料,且子集S4中的每一筆資料亦為該另一訓練集中的一筆訓練資料。子集S3所包含的資料筆數與子集S4所包含的資料筆數可相同亦可不同。
接著說明模型訓練裝置1訓練神經網路模型M1的詳細運作。處理器13每次利用一個訓練集來訓練神經網路模型M1,再根據該次的訓練結果決定是否要再利用另一個訓練集再次訓練神經網路模型M1。
茲以由子集S1與子集S2所形成的訓練集為例說明。處理器13將該訓練集中的所有訓練資料(亦即,子集S1所包含的所有資料與子集S2所包含的所有資料)輸入卷積神經網路NN,使特徵擷取器F1、F2、F3、……、Fb每一個針對各訓練資料個別地產生一特徵區塊,且使分類器
C1針對各訓練資料個別地產生一分類結果。處理器13還基於各訓練資料所對應的該等特徵區塊產生各訓練資料所對應的一向量,再將這些向量輸入領域判別器D1,使領域判別器D1根據各向量產生各訓練資料的一領域判別結果。
為便於理解,茲以一筆訓練資料TD為例,詳細說明前述運作。訓練資料TD被輸入卷積神經網路NN後,特徵擷取器F1、F2、F3、……、Fb分別針對訓練資料TD產生特徵區塊B1、B2、B3、……、Bb,且分類器C1產生訓練資料TD的一分類結果R1(亦即,分類器C1判斷訓練資料TD屬於N個類別中的哪一類別)。處理器13會針對特徵區塊B1、B2、B3、……、Bb進行整合處理OP以產生向量V。舉例而言,處理器13可將特徵區塊B1、B2、B3、……、Bb個別地以一1x1卷積核降維至二維,再進行池化運算,再將池化後的二維資料排列成向量V。處理器13再將向量V輸入領域判別器D1,使領域判別器D1產生訓練資料TD的一領域判別結果R2(亦即,領域判別器D1判斷訓練資料TD屬於第一領域或第二領域)。
接著,處理器13根據屬於該第一領域的各訓練資料的分類標籤與對應的分類結果計算神經網路模型M1的一分類損失值(未繪示)。舉例而言,若本批次的訓練所採用的訓練集是由子集S1與子集S2所形成的,則處理器13係根據子集S1的各資料的分類標籤與對應的分類結果計算神經網路模型M1的分類損失值。在某些實施方式中,前述分類損失值可為一交叉熵(Cross-Entropy)。本發明所屬技術領域中具有通常知識者應瞭解如何基於各訓練資料的分類標籤與對應的分類結果計算出交叉熵,茲不贅言。
另外,處理器13還會根據各訓練資料的領域標籤及對應的領
域判別結果計算神經網路模型M1的一領域損失值(未繪示)。舉例而言,若本批次的訓練所採用的訓練集是由子集S1與子集S2所形成的,則處理器13係根據子集S1的各資料的領域標籤與對應的領域判別結果以及子集S2的各資料的領域標籤與對應的領域判別結果計算神經網路模型M1的領域損失值。類似的,在某些實施方式中,前述領域損失值可為一交叉熵。本發明所屬技術領域中具有通常知識者應瞭解如何基於各訓練資料的領域標籤及對應的領域判別結果計算出交叉熵,茲不贅言。
之後,處理器13根據該分類損失值及該領域損失值判斷是否繼續訓練神經網路模型M1。若處理器13是第一次以一訓練集訓練神經網路模型M1,處理器13會繼續訓練神經網路模型M1。若處理器13並非第一次以一訓練集訓練神經網路模型M1,處理器13會判斷分類損失值是否收斂(例如:本次與先前數次的分類損失值一起觀之,其波動程度是否小於一門檻值),且會判斷領域損失值是否收斂(例如:本次與先前數次的領域損失值一起觀之,其波動程度是否小於一門檻值)。若處理器13判斷分類損失值及領域損失值皆已收斂,則不再訓練神經網路模型M1,代表神經網路模型M1中的卷積神經網路NN已可作為一分類模型上架使用。若處理器13判斷分類損失值及領域損失值的至少其中之一未收斂,則處理器13會選取另一訓練集再次訓練神經網路模型M1。
在某些實施方式中,處理器13則可將該分類損失值及該領域損失值整合為一總損失值。舉例而言,處理器13可將該分類損失值及該領域損失值分別以第一權重值及一第二權重值加權,再將加權後的結果相加作為總損失值,其中第一權重值及第二權重值皆介於整數0與整數1之間。之
後,處理器13再判斷總損失值是否收歛(例如:本次與先前數次的總損失值一起觀之,其波動程度是否小於一門檻值)。若處理器13判斷總損失值已收斂,則不再訓練神經網路模型M1,代表神經網路模型M1中的卷積神經網路NN已可作為一分類模型上架使用。若處理器13判斷總損失值尚未收斂,則處理器13會選取另一訓練集再次訓練神經網路模型M1。
茲假設處理器13判斷需要繼續訓練神經網路模型M1。處理器13以一梯度下降法(未繪示)更新特徵擷取器F1、F2、F3、……、Fb各自的複數個連結權重值(未繪示)、分類器C1的複數個連結權重值以及全連接層FC的複數個連結權重值。需說明者,本發明所屬技術領域中具有通常知識者應熟知梯度下降法,故不詳述。另需說明者,一特徵擷取器的複數個連結權重值係指該特徵擷取器所包含的複數個神經元間的連結的權重值。類似的,分類器C1的複數個連結權重值係指分類器C1所包含的複數個神經元間的連結的權重值,而全連接層FC的複數個連結權重值係指全連接層FC所包含的複數個神經元間的連結的權重值。
進一步言,處理器13可藉由以下運作更新特徵擷取器F1、F2、F3、……、Fb各自的該等連結權重值:根據該領域損失值計算特徵擷取器F1、F2、F3、……、Fb各自的一第一梯度值,根據該分類損失值計算特徵擷取器F1、F2、F3、……、Fb各自的一第二梯度值,將各該第一梯度值個別地以反向梯度層更新(亦即,將特徵擷取器F1、F2、F3、……、Fb各自的第一梯度值乘以-1),再將特徵擷取器F1、F2、F3、……、Fb各自的該等連結權重值以對應的該第一梯度值及該第二梯度值更新。至於分類器C1的該等連結權重值以及全連接層FC的該等連結權重值,本發明所屬技術領域中具
有通常知識者應熟知其更新方式,故不贅言。
在處理器13更新特徵擷取器F1、F2、F3、……、Fb各自的該等連結權重值、分類器C1的該等連結權重值以及全連接層FC的該等連結權重值後,處理器13選取另一訓練集來再次訓練神經網路模型M1。依據前述說明,本發明所屬技術領域中具有通常知識者應能理解處理器13會針對該另一訓練集中的各訓練資料所執行的運作,會再次依據該等運作的結果計算神經網路模型M1的另一分類損失值與另一領域損失值,再據以判斷是否繼續訓練神經網路模型M1。
如前所述,處理器13可藉由判斷分類損失值及領域損失值是否皆已收斂來決定是否繼續訓練神經網路模型M1。處理器13亦可將分類損失值及領域損失值整合為一總損失值,再藉由判斷總損失值是否收歛來決定是否繼續訓練神經網路模型M1。需說明者,處理器13在計算本次的總損失值時,可增加領域損失值所對應的第二權重值,但該第二權重值仍需介於整數0與整數1之間。
由上述說明可知,模型訓練裝置1所訓練的神經網路模型M1僅設置一個領域判別器D1,但領域判別器D1與卷積神經網路NN密集地連結(亦即,卷積神經網路NN中的所有特徵擷取器F1、F2、F3、……、Fb皆連結至領域判別器D1)。基於這樣的架構,模型訓練裝置1可將特徵擷取器F1、F2、F3、……、Fb所產生的特徵區塊整合後輸入領域判別器D1,再採反向梯度的方式更新特徵擷取器F1、F2、F3、……、Fb中的連結權重值。由於領域判別器D1與卷積神經網路NN的淺層(亦即,特徵擷取器F1、F2、F3、……、Fb)密集地連結,因而能提高由第一領域遷移至第二領域的遷移任務的準確
度。此外,由於神經網路模型M1中僅有一個領域判別器D1,因此需要訓練學習的參數量較少,訓練複雜度較低。
關於本發明的第二實施方式,請參第1A圖及第2圖。第二實施方式與第一實施方式雷同,因此以下將僅詳述二實施方式不同之處。
於本實施方式中,儲存器11未儲存神經網路模型M1,而是儲存神經網路模型M2。第2圖描繪神經網路模型M2的架構示意圖。神經網路模型M2包含卷積神經網路NN及領域判別器D2,其中卷積神經網路NN與第一實施方式中所述者相同(亦即,卷積神經網路NN包含複數個特徵擷取器F1、F2、F3、……、Fb及一分類器C1)。領域判別器D2則為一全連接層FC連結一個二分類函數SG及一分類器C2,其中分類器C2與分類器C1的架構相同。
相較於第一實施方式的領域判別器D1,本實施方式的領域判別器D2還包含了分類器C2。因此,處理器13產生各訓練資料所對應的向量,再將這些向量輸入領域判別器D2後,領域判別器D2除了根據各向量產生各訓練資料的一領域判別結果,其分類器C2還會根據各向量產生各訓練資料的另一分類結果。以前述訓練資料TD為例,處理器13將訓練資料TD輸入卷積神經網路NN後,神經網路模型M2會產生分類結果R1、領域判別結果R2及分類結果R3。
於本實施方式中,處理器13將一訓練集中所有的訓練資料輸入卷積神經網路NN,並獲得各訓練資料的一第一分類結果(由分類器C1所計算出來的)、一領域判別結果及一第二分類結果(由分類器C2所計算出來的)後,處理器13會計算神經網路模型M2的領域損失值、第一分類損失值
及第二分類損失值。具體而言,處理器13根據各訓練資料的領域標籤及對應的領域判別結果計算神經網路模型M2的一領域損失值(未繪示)。處理器13根據屬於第一領域的各訓練資料的分類標籤與由分類器C1所產生的對應的第一分類結果,計算神經網路模型M2的一第一分類損失值(未繪示)。此外,處理器13還會根據屬於第一領域的各訓練資料的分類標籤與由分類器C2所產生的對應的第二分類結果,計算神經網路模型M2的一第二分類損失值(未繪示)。類似的,在某些實施方式中,領領域損失值、第一分類損失值及第二分類損失值各可為一交叉熵。
於本實施方式中,處理器13係根據領域損失值、第一分類損失值及第二分類損失值判斷是否繼續訓練神經網路模型M2。
若處理器13是第一次以一訓練集訓練神經網路模型M2,處理器13會直接地以另一訓練集再次訓練神經網路模型M2。若處理器13並非第一次以一訓練集訓練神經網路模型M2,處理器13會判斷領域損失值、第一分類損失值及第二分類損失值是否皆已收斂。若領域損失值、第一分類損失值及第二分類損失值皆已收斂,則不再訓練神經網路模型M2,代表神經網路模型M2中的卷積神經網路NN已可作為一分類模型上架使用。若處理器13判斷領域損失值、第一分類損失值及第二分類損失值的至少其中之一未收斂,則處理器13會選取另一訓練集再次訓練神經網路模型M2。
在某些實施方式中,處理器13則可將第一分類損失值、領域損失值及第二分類損失值整合為一總損失值。舉例而言,處理器13可將第一分類損失值、領域損失值及第二分類損失值分別以一第一權重值、一第二權重值及一第三權重值加權,再將加權後的結果相加作為總損失值,其中第一
權重值、第二權重值及第三權重值皆介於整數0與整數1之間。之後,處理器13再判斷總損失值是否收歛(例如:本次與先前數次的總損失值一起觀之,其波動程度是否小於一門檻值)。若處理器13判斷總損失值已收斂,則不再訓練神經網路模型M2,代表神經網路模型M2中的卷積神經網路NN已可作為一分類模型上架使用。若處理器13判斷總損失值尚未收斂,則處理器13會選取另一訓練集再次訓練神經網路模型M2。
茲假設處理器13根據領域損失值、第一分類損失值及第二分類損失值判斷需要繼續訓練神經網路模型M2。處理器13亦以一梯度下降法更新特徵擷取器F1、F2、F3、……、Fb各自的複數個連結權重值、分類器C1的複數個連結權重值、全連接層FC的複數個連結權重值以及分類器C2的複數個連結權重值。需說明者,本發明所屬技術領域中具有通常知識者應熟知梯度下降法。另外,分類器C2的複數個連結權重值係指分類器C2所包含的複數個神經元間的連結的權重值。
具體而言,處理器13可藉由以下運作更新特徵擷取器F1、F2、F3、……、Fb各自的該等連結權重值:根據領域損失值計算特徵擷取器F1、F2、F3、……、Fb各自的一第一梯度值,根據第一分類損失值計算特徵擷取器F1、F2、F3、……、Fb各自的一第二梯度值,根據第二分類損失值計算特徵擷取器F1、F2、F3、……、Fb各自的一第三梯度值,將各該第一梯度值個別地以反向梯度層更新(亦即,將特徵擷取器F1、F2、F3、……、Fb各自的第一梯度值乘以-1),再將特徵擷取器F1、F2、F3、……、Fb各自的該等連結權重值以對應的第一梯度值、第二梯度值及第三梯度值更新。至於分類器C1的該等連結權重值、全連接層FC的該等連結權重值以及分類器C2的
該等連結權重值,本發明所屬技術領域中具有通常知識者應熟知其更新方式,故不贅言。
在處理器13更新特徵擷取器F1、F2、F3、……、Fb各自的該等連結權重值、分類器C1的該等連結權重值、全連接層FC的該等連結權重值已及分類器C2的該等連結權重值後,處理器13選取另一訓練集來再次訓練神經網路模型M2。依據前述說明,本發明所屬技術領域中具有通常知識者應能理解處理器13會針對該另一訓練集中的各訓練資料所執行的運作,會再次計算神經網路模型M2的另一領域損失值、另一第一分類損失值及另一第二分類損失值,再據以判斷是否繼續訓練神經網路模型M2。
如前所述,處理器13可藉由判斷領域損失值、第一分類損失值及第二分類損失值是否皆已收斂來決定是否繼續訓練神經網路模型M2。處理器13亦可將第一分類損失值、領域損失值及第二分類損失值整合為一總損失值,再藉由判斷總損失值是否收歛來決定是否繼續訓練神經網路模型M2。需說明者,處理器13在計算本次的總損失值時,可增加領域損失值所對應的第二權重值以及第二分類損失值所對應的第三權重值,但該第二權重值及該第三權重值仍需介於整數0與整數1之間。
由上述說明可知,相較於第一實施方式的神經網路模型M1,本實施方式的神經網路模型M2的領域判別器D2還多設置了分類器C2。因此,本實施方式除了具有第一實施方式所述的優點之外,神經網路模型M2在學習領域不變特徵時,透過分類器C2能不損及特徵擷取器F1、F2、F3、……、Fb所學習到的分類性特徵,因此能學習到類別不變性特徵及領域不變性特徵。透過多任務學習方式,達到領域自適應的效果。
關於本發明的第三實施方式,請參第1A圖及第3圖。第三實施方式與第二實施方式雷同,以下將僅詳述二實施方式不同之處。
於本實施方式中,儲存器11未儲存神經網路模型M1、M2,而是儲存神經網路模型M3。第3圖係描繪神經網路模型M3的架構示意圖。神經網路模型M3的架構與神經網路模型M2雷同,但神經網路模型M3中的特徵擷取器F1、F2、F3、……、Fb分別對應至特徵權重值w1、w2、w3、……、wb。
於本實施方式中,由於特徵擷取器F1、F2、F3、……、Fb分別對應至特徵權重值w1、w2、w3、……、wb,因此處理器13在針對各訓練資料產生對應的向量時,會先將各訓練資料的各特徵區塊以對應的特徵權重值加權,再基於加權後的該等特徵區塊產生各該訓練資料的向量。以前述訓練資料TD為例,處理器13會將特徵區塊B1、B2、B3、……、Bb分別地以特徵權重值w1、w2、w3、……、wb加權,再基於加權後的特徵區塊產生一向量。
於本實施方式中,若處理器13根據領域損失值、第一分類損失值及第二分類損失值判斷要繼續訓練神經網路模型M3,處理器13除了會採用第二實施方式中所述的方式更新特徵擷取器F1、F2、F3、……、Fb、分類器C1、全連接層FC及分類器C2各自的複數個連結權重值,還會以第二分類損失值計算的更新值與領域損失值經反向梯度層計算的更新值來更新特徵權重值w1、w2、w3、……、wb。需說明者,關於如何更新特徵權重值w1、w2、w3、……、wb,可由使用者依據特徵擷取器F1、F2、F3、……、Fb對於領域性特徵與分類性特徵的重要程度(亦即,對領域判別器D2的重要程
度)來做調整。
相較於第一及第二實施方式,本實施方式的神經網路模型M3中的特徵擷取器F1、F2、F3、……、Fb分別對應至特徵權重值w1、w2、w3、……、wb。隨著資料集的特性不同,這些特徵擷取器由深層至淺層各自於後端領域判別器的重要性大小也會隨著不同。因此,藉由使特徵擷取器F1、F2、F3、……、Fb分別對應至特徵權重值w1、w2、w3、……、wb,訓練後的神經網路模型M3所包含的卷積神經網路NN作為分類模型將更為精準。
本發明的第四實施方式為一模型訓練方法,其主要流程圖係描繪於第4圖。該模型訓練方法適用於一電子計算裝置,其中該電子計算裝置儲存一神經網路模型、一第一領域的複數筆第一資料及一第二領域的複數筆第二資料。該神經網路模型包含一卷積神經網路及一領域判別器,其中該卷積神經網路包含複數個特徵擷取器及一第一分類器,而該領域判別器可為一全連接層連結一個二分類函數。
於步驟S401,由該電子計算裝置選取一訓練集,該訓練集包含複數筆訓練資料。需說明者,前述該等第一資料的一子集與前述該等第二資料的一子集形成該等訓練資料。於步驟S403,由該電子計算裝置將該訓練集所包含的所有訓練資料輸入該卷積神經網路,使各該特徵擷取器針對各該訓練資料個別地產生的一特徵區塊,且使該第一分類器針對各該訓練資料個別地產生一第一分類結果。於步驟S405,由該電子計算裝置基於各該訓練資料所對應的該等特徵區塊產生各該訓練資料所對應的一向量。於步驟S407,由該電子計算裝置將該等向量輸入該領域判別器,使該領域判別器根
據各該向量產生各該訓練資料的一領域判別結果。
於步驟S409,由該電子計算裝置根據屬於該第一領域的各該訓練資料的一分類標籤與對應的該第一分類結果計算該神經網路模型的一第一分類損失值。於步驟S411,由該電子計算裝置根據各該訓練資料的一領域標籤及對應的該領域判別結果計算該神經網路模型的一領域損失值。需說明者,本發明未限制步驟S409與步驟S411間的執行順序。換言之,於其他實施方式中,步驟S411可早於步驟S409執行,或者二者可同時執行。
之後,於步驟S413,由該電子計算裝置根據該第一分類損失值及該第一領域損失值判斷是否繼續訓練該神經網路模型。具體而言,步驟S413可藉由判斷該領域損失值及該第一分類損失值是否皆已收歛來決定是否繼續訓練該神經網路模型。若該領域損失值及該第一分類損失值皆已收斂,則不繼續訓練該神經網路模型,會結束整個訓練方法。
若步驟S413判斷需要繼續訓練該神經網路模型,則接著執行步驟S415,由該電子計算裝置以一梯度下降法更新該等特徵擷取器、該第一分類器及該領域判別器每一個的複數個連結權重值。於某些實施方式中,步驟S415係根據該領域損失值計算各該特徵擷取器的一第一梯度值,根據該第一分類損失值計算各該特徵擷取器的一第二梯度值,將各該第一梯度值個別地以反向梯度層更新(亦即,乘上-1),再將各該特徵擷取器的該等連結權重值以對應的該第一梯度值及該第二梯度值更新。步驟S415後,該模型訓練方法再次執行步驟S401,選取另一訓練集以繼續訓練該神經網路模型,茲不贅言。
於某些實施方式中,該神經網路模型略有不同。具體而言,
該神經網路模型包含一卷積神經網路及一領域判別器,其中該卷積神經網路包含複數個特徵擷取器及一第一分類器,而該領域判別器為一全連接層連結一個二分類函數與一第二分類器。
於該等實施方式中,該模型訓練方法執行步驟S407時,還使該領域判別器中的該第二分類器針對該訓練資料產生一第二分類結果。於該等實施方式中,該模型訓練方法還會執行另一步驟,由該電子計算裝置根據屬於該第一領域的各該訓練資料的該分類標籤與對應的該第二分類結果計算該神經網路模型的一第二分類損失值。於該等實施方式中,該步驟S413係藉由判斷該領域損失值、該第一分類損失值及該第二分類損失值是否皆已收歛來決定是否繼續訓練該神經網路模型。若該領域損失值、該第一分類損失值及該第二分類損失值皆已收斂,則不繼續訓練該神經網路模型,會結束整個訓練方法。
於某些實施方式中,該分類模型所包含的該卷積神經網路的各該特徵擷取器個別地對應至一特徵權重值。於該等實施方式中,步驟S405針對各該訓練資料產生對應的該向量時,先將各該訓練資料的各該特徵區塊以對應的該特徵權重值加權,再基於加權後的該等特徵區塊產生各該訓練資料的該向量。此外,於該等實施方式中,若步驟S413判斷要繼續訓練該神經網路模型,該模型訓練方法除了執行步驟S415,還會執行另一步驟,由該電子計算裝置以該領域損失值、該第二分類損失值及反向梯度層更新該等特徵權重值。
除了上述步驟,第四實施方式還能執行前述第一至第三實施方式中所描述的模型訓練裝置1所能執行的所有運作及步驟,具有同樣的功
能,且達到同樣的技術效果。本發明所屬技術領域中具有通常知識者可直接瞭解第四實施方式如何基於上述第一至第三實施方式以執行此等運作及步驟,具有同樣的功能,並達到同樣的技術效果,故不贅述。
需說明者,於本發明專利說明書及申請專利範圍中,某些用語(包含:領域、資料、分類器、子集、訓練資料、特徵區塊、向量、分類結果、領域判別結果、領域損失值、分類損失值等)前被冠以「第一」、「第二」、「第三」或「第四」,該等「第一」、「第二」、「第三」及「第四」僅用來區隔不同的用語。
綜上所述,本發明提供一種神經網路模型及訓練該神經網路模型的技術(至少包含裝置及方法)。本發明所提供的神經網路模型包含一卷積神經網路及一領域判別器,其中該卷積神經網路包含複數個特徵擷取器及一分類器。該卷積神經網路與該領域判別器密集地連結(亦即,該卷積神經網路所包含的該等特徵擷取器皆連結至該領域判別器)。基於這樣的架構,本發明所提供的模型訓練技術會將該等特徵擷取器所產生的複數個特徵區塊整合後輸入該領域判別器,再採反向梯度的方式更新該等特徵擷取器、該分類器及該領域判別器中的連結權重值。由於該神經網路模型中的該領域判別器與該卷積神經網路的淺層(亦即,該等特徵擷取器)密集地連結,因而能提高遷移任務的準確度。此外,由於該神經網路模型中僅有一個領域判別器,因此需要訓練學習的參數量較少,訓練複雜度較低。
本發明所提供的神經網路模型中的領域判別器還可再設置一分類器。藉此,神經網路模型在學習領域不變特徵時還能保有分類能力,不會損及卷積神經網路中的分類器的分類能力,且能學習到類別不變特徵
領域。
上述各實施方式係用以例示性地說明本發明的部分實施態樣以及用以闡釋本發明的技術特徵,而非用以限制本發明的保護範疇及範圍。任何本發明所屬技術領域中具有通常知識者可輕易完成的改變或均等性的安排均屬於本發明所主張的範圍,本發明的權利保護範圍以申請專利範圍為準。
M3‧‧‧神經網路模型
NN‧‧‧卷積神經網路
F1、F2、F3、……、Fb‧‧‧特徵擷取器
C1、C2‧‧‧分類器
D2‧‧‧領域判別器
FC‧‧‧全連接層
SG‧‧‧二分類函數
TD‧‧‧訓練資料
B1、B2、B3、……、Bb‧‧‧特徵區塊
w1、w2、w3、……、wb‧‧‧特徵權重值
OP‧‧‧整合處理
V‧‧‧向量
R1、R3‧‧‧分類結果
R2‧‧‧領域判別結果
Claims (20)
- 一種模型訓練裝置,包含:一儲存器,儲存一神經網路模型、一第一領域的複數筆第一資料及一第二領域的複數筆第二資料,其中該神經網路模型包含一卷積神經網路及一領域判別器,該卷積神經網路包含複數個特徵擷取器及一第一分類器,且該等第一資料的一第一子集及該等第二資料的一第二子集被選取作為複數筆第一訓練資料;以及一處理器,電性連接至該儲存器,且將該等第一訓練資料輸入該卷積神經網路,使各該特徵擷取器針對各該第一訓練資料個別地產生一第一特徵區塊,且使該第一分類器針對各該第一訓練資料個別地產生一第一分類結果,其中,該處理器基於各該第一訓練資料所對應的該等第一特徵區塊產生各該第一訓練資料所對應的一第一向量,該領域判別器根據各該第一向量產生各該第一訓練資料的一第一領域判別結果,其中,該處理器還根據屬於該第一領域的各該第一訓練資料的一第一分類標籤與對應的該第一分類結果計算一第一分類損失值,根據各該第一訓練資料的一第一領域標籤及對應的該第一領域判別結果計算一第一領域損失值,且根據該第一分類損失值及該第一領域損失值判斷是否繼續訓練該神經網路模型。
- 如請求項1所述的模型訓練裝置,其中當該處理器根據該第一領域損失值及該第一分類損失值判斷要繼續訓練該神經網路模型時,該處理器還以一梯度下降法更新該等特徵擷取器、該第一分類器及該領域判別器每 一個的複數個連結權重值。
- 如請求項2所述的模型訓練裝置,其中該處理器係藉由以下運作更新各該特徵擷取器的該等連結權重值:根據該第一領域損失值計算各該特徵擷取器的一第一梯度值,根據該第一分類損失值計算各該特徵擷取器的一第二梯度值,將各該第一梯度值個別地以反向梯度層更新,再將各該特徵擷取器的該等連結權重值以對應的該第一梯度值與該第二梯度值更新。
- 如請求項2所述的模型訓練裝置,其中該等第一資料的一第三子集及該等第二資料的一第四子集被選取作為複數筆第二訓練資料,該處理器將該等第二訓練資料輸入該卷積神經網路,使各該特徵擷取器針對各該第二訓練資料個別地產生一第二特徵區塊,且使該第一分類器針對各該第二訓練資料個別地產生一第二分類結果,其中,該處理器還基於各該第二訓練資料所對應的該等第二特徵區塊產生各該第二訓練資料的一第二向量,該領域判別器還根據各該第二向量產生各該第二訓練資料的一第二領域判別結果,其中,該處理器還根據屬於該第一領域的各該第二訓練資料的一第二分類標籤與對應的該第二分類結果計算一第二分類損失值,根據各該第二訓練資料的一第二領域標籤及對應的該第二領域判別結果計算一第二領域損失值,且根據該第二分類損失值及該第二領域損失值判斷是否繼續訓練該神經網路模型。
- 如請求項1所述的模型訓練裝置,其中該領域判別器為一全連接層連結一個二分類函數。
- 如請求項5所述的模型訓練裝置,其中該領域判別器的該全連接層還連結一第二分類器,該第二分類器針對各該第一訓練資料個別地產生一第二分類結果,其中,該處理器還根據屬於該第一領域的各該第一訓練資料的該第一分類標籤與對應的該第二分類結果計算該神經網路模型的一第二分類損失值,且該處理器係根據該第一領域損失值、該第一分類損失值及該第二分類損失值判斷是否繼續訓練該神經網路模型。
- 如請求項6所述的模型訓練裝置,其中該等第一資料的一第三子集及該等第二資料的一第四子集被選取作為複數筆第二訓練資料,當該處理器根據該第一領域損失值、該第一分類損失值及該第二分類損失值判斷要繼續訓練該神經網路模型時,該處理器還以一梯度下降法更新該等特徵擷取器、該第一分類器、該全連接層及該第二分類器每一個的複數個連結權重值,其中,該處理器還將該等第二訓練資料輸入該卷積神經網路,使各該特徵擷取器針對各該第二訓練資料個別地產生一第二特徵區塊,且使該第一分類器針對各該第二訓練資料個別地產生一第三分類結果,其中,該處理器還基於各該第二訓練資料所對應的該等第二特徵區塊產生各該第二訓練資料的一第二向量,該領域判別器還根據各該第二向量產生各該第二訓練資料的一第二領域判別結果及一第四分類結果,其中,該處理器還根據屬於該第一領域的各該第二訓練資料的一第二分類標籤與對應的該第三分類結果計算一第三分類損失值,根據各該第二訓練資料的一第二領域標籤及對應的該第二領域判別結果計算一 第二領域損失值,根據屬於該第一領域的各該第二訓練資料的該第二分類標籤與對應的該第四分類結果計算一第四分類損失值,且根據該第三分類損失值、該第四分類損失值及該第二領域損失值判斷是否繼續訓練該神經網路模型。
- 如請求項6所述的模型訓練裝置,其中各該特徵擷取器個別地對應至一特徵權重值,該處理器針對各該第一訓練資料產生對應的該第一向量時係先將各該第一訓練資料的各該第一特徵區塊以對應的該特徵權重值加權,再基於加權後的該等第一特徵區塊產生各該第一訓練資料的該第一向量。
- 如請求項8所述的模型訓練裝置,其中當該處理器根據該第一領域損失值、該第一分類損失值及該第二分類損失值判斷要繼續訓練該神經網路模型時,該處理器還以一梯度下降法更新該等特徵擷取器、該第一分類器及該全連接層每一個的複數個連結權重值,且還以該第一領域損失值及該第二分類損失值更新該等特徵權重值。
- 如請求項9所述的模型訓練裝置,其中該等第一資料的一第三子集及該等第二資料的一第四子集被選取作為複數筆第二訓練資料,該處理器還將該等第二訓練資料輸入該卷積神經網路,使各該特徵擷取器針對各該第二訓練資料個別地產生一第二特徵區塊,且使該第一分類器針對各該第二訓練資料個別地產生一第三分類結果,其中,該處理器還基於各該第二訓練資料所對應的該等第二特徵區塊產生各該第二訓練資料的一第二向量,該領域判別器還根據各該第二向量產生各該第二訓練資料的一第二領域判別結果及一第四分類結果,其中,該處理器還根據屬於該第一領域的各該第二訓練資料的一第二分類標籤與對應的該第三分類結果計算一第三分類損失值,根據各該第二訓練資料的一第二領域標籤及對應的該第二領域判別結果計算一第二領域損失值,根據屬於該第一領域的各該第二訓練資料的該第二分類標籤與對應的該第四分類結果計算一第四分類損失值,且根據該第三分類損失值、該第四分類損失值及該第二領域損失值判斷是否繼續訓練該神經網路模型。
- 一種模型訓練方法,適用於一電子計算裝置,該電子計算裝置儲存一神經網路模型、一第一領域的複數筆第一資料及一第二領域的複數筆第二資料,該神經網路模型包含一卷積神經網路及一領域判別器,該卷積神經網路包含複數個特徵擷取器及一第一分類器,該等第一資料的一第一子集及該等第二資料的一第二子集被選取作為複數筆第一訓練資料,該模型訓練方法包含下列步驟:(a)將該等第一訓練資料輸入該卷積神經網路,使各該特徵擷取器針對各該第一訓練資料個別地產生一第一特徵區塊,且使該第一分類器針對各該第一訓練資料個別地產生一第一分類結果;(b)基於各該第一訓練資料所對應的該等第一特徵區塊產生各該第一訓練資料所對應的一第一向量;(c)將該等第一向量輸入該領域判別器,使該領域判別器根據各該第一向量產生各該第一訓練資料的一第一領域判別結果;(d)根據屬於該第一領域的各該第一訓練資料的一第一分類標籤與對應的該第一分類結果計算一第一分類損失值;(e)根據各該第一訓練資料的一第一領域標籤及對應的該第一領域判別結果計算一第一領域損失值;以及(f)根據該第一分類損失值及該第一領域損失值判斷是否繼續訓練該神經網路模型。
- 如請求項11所述的模型訓練方法,其中當該步驟(f)判斷要繼續訓練該神經網路模型時,該模型訓練方法還包含下列步驟:(g)以一梯度下降法更新該等特徵擷取器、該第一分類器及該領域判別器每一個的複數個連結權重值。
- 如請求項12所述的模型訓練方法,其中該步驟(g)係根據該第一領域損失值計算各該特徵擷取器的一第一梯度值,根據該第一分類損失值計算各該特徵擷取器的一第二梯度值,將各該第一梯度值個別地以反向梯度層更新,再將各該特徵擷取器的該等連結權重值以對應的該第一梯度值與該第二梯度值更新。
- 如請求項12所述的模型訓練方法,其中該等第一資料的一第三子集及該等第二資料的一第四子集被選取作為複數筆第二訓練資料,該模型訓練方法還包含下列步驟:將該等第二訓練資料輸入該卷積神經網路,使各該特徵擷取器針對各該第二訓練資料個別地產生一第二特徵區塊,且使該第一分類器針對各該第二訓練資料個別地產生一第二分類結果;基於各該第二訓練資料所對應的該等第二特徵區塊產生各該第二訓練資料的一第二向量;將該等第二向量輸入該領域判別器,使該領域判別器根據各該第二 向量產生各該第二訓練資料的一第二領域判別結果;根據屬於該第一領域的各該第二訓練資料的一第二分類標籤與對應的該第二分類結果計算一第二分類損失值;根據各該第二訓練資料的一第二領域標籤及對應的該第二領域判別結果計算一第二領域損失值;以及根據該第二分類損失值及該第二領域損失值判斷是否繼續訓練該神經網路模型。
- 如請求項11所述的模型訓練方法,其中該領域判別器為一全連接層連結一個二分類函數。
- 如請求項15所述的模型訓練方法,其中該領域判別器的該全連接層還連結一第二分類器,該第二分類器針對各該第一訓練資料個別地產生一第二分類結果,該模型訓練方法還包含下列步驟:根據屬於該第一領域的各該第一訓練資料的該第一分類標籤與對應的該第二分類結果計算一第二分類損失值;其中,該步驟(f)係根據該第一領域損失值、該第一分類損失值及該第二分類損失值判斷是否繼續訓練該神經網路模型。
- 如請求項16所述的模型訓練方法,其中該等第一資料的一第三子集及該等第二資料的一第四子集被選取作為複數筆第二訓練資料,當該步驟(f)判斷要繼續訓練該神經網路模型時,該模型訓練方法還包含下列步驟:以一梯度下降法更新該等特徵擷取器、該第一分類器、該全連接層及該第二分類器每一個的複數個連結權重值;將該等第二訓練資料輸入該卷積神經網路,使各該特徵擷取器針對 各該第二訓練資料個別地產生一第二特徵區塊,且使該第一分類器針對各該第二訓練資料個別地產生一第三分類結果;基於各該第二訓練資料所對應的該等第二特徵區塊產生各該第二訓練資料的一第二向量;將該等第二向量輸入該領域判別器,使該領域判別器根據各該第二向量產生各該第二訓練資料的一第二領域判別結果及一第四分類結果;根據屬於該第一領域的各該第二訓練資料的一第二分類標籤與對應的該第三分類結果計算一第三分類損失值;根據各該第二訓練資料的一第二領域標籤及對應的該第二領域判別結果計算該分類模型的一第二領域損失值;根據屬於該第一領域的各該第二訓練資料的該第二分類標籤與對應的該第四分類結果計算該分類模型的一第四分類損失值;以及根據該第三分類損失值、該第四分類損失值及該第二領域損失值判斷是否繼續訓練該神經網路模型。
- 如請求項16所述的模型訓練方法,其中各該特徵擷取器個別地對應至一特徵權重值,該步驟(b)針對各該第一訓練資料產生對應的該第一向量時係先將各該第一訓練資料的各該第一特徵區塊以對應的該特徵權重值加權,再基於加權後的該等第一特徵區塊產生各該第一訓練資料的該第一向量。
- 如請求項18所述的模型訓練方法,其中當該步驟(f)判斷要繼續訓練該神經網路模型時,該模型訓練方法還包還下列步驟:以一梯度下降法更新該等特徵擷取器、該第一分類器及該全連接層 每一個的複數個連結權重值;以及以該第一領域損失值及該第二分類損失值更新該等特徵權重值。
- 如請求項19所述的模型訓練方法,其中該等第一資料的一第三子集及該等第二資料的一第四子集被選取作為複數筆第二訓練資料,該模型訓練方法還包含下列步驟:將該等第二訓練資料輸入該卷積神經網路,使各該特徵擷取器針對各該第二訓練資料個別地產生一第二特徵區塊,且使該第一分類器針對各該第二訓練資料個別地產生一第三分類結果;基於各該第二訓練資料所對應的該等第二特徵區塊產生各該第二訓練資料的一第二向量;將該等第二向量輸入該領域判別器,使該領域判別器根據各該第二向量產生各該第二訓練資料的一第二領域判別結果及一第四分類結果;根據屬於該第一領域的各該第二訓練資料的一第二分類標籤與對應的該第三分類結果計算一第三分類損失值;根據各該第二訓練資料的一第二領域標籤及對應的該第二領域判別結果計算一第二領域損失值;根據屬於該第一領域的各該第二訓練資料的該第二分類標籤與對應的該第四分類結果計算一第四分類損失值;以及根據該第三分類損失值、該第四分類損失值及該第二領域損失值判斷是否繼續訓練該神經網路模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109101761A TWI773962B (zh) | 2020-01-17 | 2020-01-17 | 模型訓練裝置及方法 |
US17/147,617 US20210224647A1 (en) | 2020-01-17 | 2021-01-13 | Model training apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109101761A TWI773962B (zh) | 2020-01-17 | 2020-01-17 | 模型訓練裝置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202129555A TW202129555A (zh) | 2021-08-01 |
TWI773962B true TWI773962B (zh) | 2022-08-11 |
Family
ID=76858189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109101761A TWI773962B (zh) | 2020-01-17 | 2020-01-17 | 模型訓練裝置及方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210224647A1 (zh) |
TW (1) | TWI773962B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114034486B (zh) * | 2021-10-11 | 2024-04-23 | 中国人民解放军92578部队 | 基于无监督迁移学习的泵类机械设备轴承故障诊断方法 |
CN114821250A (zh) * | 2022-03-23 | 2022-07-29 | 支付宝(杭州)信息技术有限公司 | 一种跨域的模型训练方法、装置以及设备 |
CN114943650A (zh) * | 2022-04-14 | 2022-08-26 | 北京东软医疗设备有限公司 | 一种图像去模糊方法、装置、计算机设备和存储介质 |
CN114724011B (zh) * | 2022-05-25 | 2023-01-20 | 北京闪马智建科技有限公司 | 一种行为的确定方法、装置、存储介质及电子装置 |
CN117407698B (zh) * | 2023-12-14 | 2024-03-08 | 青岛明思为科技有限公司 | 一种混合距离引导的领域自适应故障诊断方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858505A (zh) * | 2017-11-30 | 2019-06-07 | 厦门大学 | 分类识别方法、装置及设备 |
-
2020
- 2020-01-17 TW TW109101761A patent/TWI773962B/zh active
-
2021
- 2021-01-13 US US17/147,617 patent/US20210224647A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858505A (zh) * | 2017-11-30 | 2019-06-07 | 厦门大学 | 分类识别方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
TW202129555A (zh) | 2021-08-01 |
US20210224647A1 (en) | 2021-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI773962B (zh) | 模型訓練裝置及方法 | |
Wang et al. | Low-shot learning from imaginary data | |
CN112329016B (zh) | 一种基于深度神经网络的可视化恶意软件检测装置及方法 | |
Chamberlain et al. | Neural embeddings of graphs in hyperbolic space | |
JP7213358B2 (ja) | アイデンティティ検証方法、アイデンティティ検証装置、コンピュータ機器、及びコンピュータプログラム | |
US20170344881A1 (en) | Information processing apparatus using multi-layer neural network and method therefor | |
Ye et al. | Few-shot learning with a strong teacher | |
CN110880019B (zh) | 通过无监督域适应训练目标域分类模型的方法 | |
CN105930834B (zh) | 基于球哈希二值编码的人脸识别方法及装置 | |
JP6293963B1 (ja) | ニューロモルフィック素子を含むアレイの制御装置、離散化ステップサイズの演算方法およびプログラム | |
Moore et al. | Deep collective inference | |
CN109816032A (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN108710948B (zh) | 一种基于聚类均衡和权重矩阵优化的迁移学习方法 | |
Yang et al. | Bridging the gap between few-shot and many-shot learning via distribution calibration | |
CN113139664B (zh) | 一种跨模态的迁移学习方法 | |
CN112446888B (zh) | 图像分割模型的处理方法和处理装置 | |
Kye et al. | Meta-learned confidence for few-shot learning | |
WO2019045802A1 (en) | LEARNING DISTANCE MEASUREMENT USING PROXY MEMBERS | |
CN110502659B (zh) | 图像特征提取及网络的训练方法、装置和设备 | |
WO2021253938A1 (zh) | 一种神经网络的训练方法、视频识别方法及装置 | |
Ching et al. | Learning image aesthetics by learning inpainting | |
TW202230226A (zh) | 類神經網路的稀疏組平衡式啟動特徵圖 | |
Ya-Guan et al. | EMSGD: An improved learning algorithm of neural networks with imbalanced data | |
Zhang et al. | Lancet: labeling complex data at scale | |
JP2012155394A (ja) | 文書分類学習制御装置、文書分類装置およびコンピュータプログラム |