TWI796583B

TWI796583B - 人工神經網路訓練的數據集清洗

Info

Publication number: TWI796583B
Application number: TW109125334A
Authority: TW
Inventors: 陳士弘
Original assignee: 旺宏電子股份有限公司
Priority date: 2020-06-09
Filing date: 2020-07-27
Publication date: 2023-03-21
Also published as: US20210383210A1; US11455534B2; CN113780547A; TW202147186A

Abstract

一種使用髒訓練數據(dirty training data)來清洗神經網路(neural network)的訓練數據集(set)的技術藉由存取標籤(labeled)訓練數據集而開始，標籤訓練數據集包括相對髒的標籤數據元素(element)。標籤訓練數據集分為第一子集A與第二子集B。過程包括在第一子集A與第二子集B之間循環，該過程包括產生第一子集A與第二子集B之已優化模型過濾子集(refined model-filtered subset)，以提供已清洗數據集。每個已優化模型過濾子集可提高清潔度(cleanliness)並增加元素數量。

Description

人工神經網路訓練的數據集清洗

本發明涉及用於訓練神經網路以及使用已清洗數據來訓練神經網路的清洗數據。

本部分所討論的主題不應僅因在本部分中提及而被認為是先前技術。類似地，本部分所提到的問題或與提供為發明背景的主題相關的問題不應被認為是先前技術中已認知的。本部分中的主題僅表示不同方法，而這些方法本身也可以對應於所要求保護的技術實施。

包括深度神經網路(deep neural network)的神經網路是一種人工神經網路(ANN,artificial neural network)，其使用多個非線性(nonlinear)且複雜的轉換層(transforming layer)以連續地對高階特徵(high-level feature)進行建模(model)。神經網路透過倒傳遞法(backpropagation)提供反饋(feedback)，該反饋攜帶觀察到的輸出與預測輸出之間的差異以調整參數。神經網路已經隨著大型訓練數據集(large training dataset)的可用性、並行且分佈(parallel and distributed) 計算的能力以及複雜訓練演算法(sophisticated training algorithm)而發展。神經網路促進了許多領域的重大進步，例如電腦視覺(computer vision)、語音辨識(speech recognition)以及自然語言處理(natural language processing)。

卷積神經網路(CNN，convolutional neural network)與循環神經網路(RNN，recurrent neural network)可配置為深度神經網路(deep neural network)。尤其是卷積神經網路在圖像識別方面取得了成功，卷積神經網路包含卷積層(convolution layer)、非線性層與池化層(pooling layer)的結構。循環神經網路被設計為利用輸入數據的序列訊息在像是感知器(perceptron)、長短期記憶單元(long short-term memory unit)與門控循環單元(gated recurrent unit)的區塊之間建立循環連結。此外，在有限環境下提出了許多其他湧現出的深度神經網路，例如深度時空型神經網路(deep spatio-temporal neural network)、多維循環神經網路(multi-dimensional recurrent neural network)與卷積自動編碼器(convolutional auto-encoder)。

訓練深度神經網路的目標是優化每層的權重參數，其將較簡單的特徵逐步組合為複雜特徵，以便可以從數據中學習到最合適的層次表示(hierarchical representation)。優化過程的單一循環安排如下。首先，給定訓練數據集，正向傳遞(forward pass)依序地計算每層的輸出，並透過網路向前傳遞功能訊號。在最終輸出層(output layer)中，目標損失函數(objective loss function)測量出已推論輸出與特定標籤之間的誤差。為了使訓練誤差最小化，反向傳遞(backward pass)使用連鎖律(chain rule)反向傳播誤差訊號，並計算整個神經網路中所有權重的梯度(gradient)。最後，依據隨機梯度下降法(stochastic gradient descent)使用優化演算法來更新權重參數。而批次梯度下降法(batch gradient descent)為每個完整數據集執行參數更新，隨機梯度下降法藉由為每個小型數據示例集(small set of data example)執行更新來提供隨機近似值(stochastic approximation)。一些優化演算法源於隨機梯度下降法。例如，Adagrad與Adam訓練演算法執行隨機梯度下降法，同時分別依據每個參數的更新頻率與梯度矩(moments of the gradients)自適應地修改學習率(learning rate)。

在機器學習中，使用訓練集來訓練包括ANN的歸類引擎(classification engine)，訓練集包括依據由歸類引擎要識別的特徵所標記之數據示例的數據庫。通常，用作訓練集的元素之一些數據示例被錯誤地標記。在一些訓練集，大量元素被錯誤地標記。錯誤的標記會干擾用於產生模型的學習演算法，從而導致性能不佳。

本發明期望提供一種技術，以使用具有錯誤標籤元素的訓練集來改善ANN的訓練。

本發明描述了一種用於清洗神經網路(neural network)的訓練數據集(training data set)之電腦實施的方法，以及電腦系統與電腦編程產品。該電腦系統與電腦編程產品包括執行該方法的電腦指令(instruction)。本發明提供了一種設置在推論引擎(inference engine)中的神經網路，該神經網路使用本文所述的技術來訓練。

一種使用髒訓練數據(dirty training data)來清洗神經網路的訓練數據集的技術藉由存取會髒的標籤(labeled)訓練數據集而開始。標籤訓練數據集分為第一子集A與第二子集B。過程包括在第一子集A與第二子集B之間循環，該過程包括產生第一子集A與第二子集B之已優化模型過濾子集(refined model-filtered subset)，以提供已清洗數據集。每個已優化模型過濾子集可提高清潔度(cleanliness)並增加元素(element)數量。

一般來說，本文所述的過程包括存取標籤訓練數據集(S)，其包括相對髒(relatively dirty)的標籤數據元素。標籤訓練數據集分為第一子集A與第二子集B。該過程包括：在第一循環中，使用第一子集A訓練神經網路的模型MODEL_A；以及使用模型MODEL_A過濾標籤訓練數據集的第二子集B。提供第二子集B的第一已模型過濾子集B1F，其具有取決於MODEL_A的準確度(accuracy)之多個元素。然後，下一個循環(即循環AB)包括：使用第一已模型過濾子集B1F訓練模型MODEL_B1F；以及使用模型MODEL_B1F過濾標籤訓練數據集的第一子集A。模型MODEL_B1F比模型MODEL_A可具有更好的準確度，並產生第一子集A之第一已優化模型過濾子集A1F，其具有取決於MODEL_B1F的準確度之多個元素。另一個循環(即循環ABA)的執行可包括：使用第一已優化模型過濾子集A1F訓練模型MODEL_A1F；以及使用模型MODEL_A1F過濾標籤訓練數據集的第二子集B。模型MODEL_A1F比模型MODEL_A可具有更好的準確度，並產生第二子集B之第二已優化模型過濾子集B2F，其具有取決於MODEL_A1F的準確度之多個元素，並且第二已優化模型過濾子集B2F可比第一已模型過濾子集B1F具有更多的元素數量。

在本文所描述的實施例中，循環可繼續，直到依據如數據質量(data quality)或最大循環數(maximum cycle number)的已優化模型過濾子集滿足迭代標準(iteration criterion)為止。

來自第一子集A與第二子集B的已優化模型過濾子集的組合可進行結合以提供已清洗訓練數據集。已清洗訓練數據集可用於訓練目標神經網路的輸出模型，其具有比使用原始訓練數據集進行訓練時更高的準確度。具有輸出模型的目標神經網路可配置在推論引擎中。

如本文所使用的，集合的“子集”排除了空子集(null subset)以及包括該集合的所有成員的子集之退化案例(degenerate case)。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

60,62,X,X+1:處理站

M:人工神經網路模型

61:圖像感測器

63:推論引擎

100,101,102,103,104,105,106,107,108,109,150,151,152,153,154,155,156,157,158,159,160,170,171:步驟

200:最佳點

201,202,212:標籤點

210,220,222,230,233:點

600:訓練伺服器

601:相機

602:智慧型手機

603:汽車

1200:電腦系統

1210:儲存子系統

1222:記憶子系統

1232:唯讀記憶體

1234:主隨機存取記憶體

1236:文件儲存子系統

1238:使用者介面輸入裝置

1255:匯流排子系統

1272:中央處理單元

1274:網路介面子系統

1276:使用者介面輸出裝置

1278:深度學習處理器

A:第一子集

B:第二子集

AB,ABA,ABAB,ABABA:循環

A1F:第一已優化模型過濾子集

A2F:已模型過濾子集

B1F:第一已模型過濾子集

B2F:第二已優化模型過濾子集

M:人工神經網路模型

第1圖是配置人工神經網路進行缺陷歸類之生產線的簡化圖。

第2A圖示出用於過濾訓練數據集與使用已過濾的訓練數據集訓練ANN模型之方法流程圖。

第2B圖示出用於過濾訓練數據集與使用已過濾的訓練數據集訓練ANN模型之另一種方法流程圖。

第3圖繪示用於以類似於第2A圖與第2B圖所示的方法來過濾中間數據子集的技術。。

第4圖是繪製數據的清潔度與訓練數據中元素數量的關係圖，其用於說明清潔度、元素數量與所得到的訓練模型性能之間的相關性。

第5圖是類似於第4圖之具有在整個圖表中顯示訓練模型準確度的等高線之曲線圖。

第6圖與第7圖是類似於第4圖之分別繪示具有第5圖的等高線之標籤數據集的第一子集A與第二子集B之曲線圖。

第8圖繪示具有80%乾淨數據情況的第6圖的第一子集A。

第9圖繪示如第2A與第2B圖描述之所產生的第一已模型過濾子集B1F。

第10圖繪示如第2A與第2B圖描述之所產生的第一已優化模型過濾子集A1F。

第11圖繪示如第2A與第2B圖描述之所產生的第二已優化模型過濾子集B2F。

第12圖繪示如第2A與第2B圖描述之所產生的已模型過濾子集A2F。

第13圖繪示用於訓練輸出模型的已模型過濾子集A2F與第二已優化模型過濾子集B2F的組合。

第14圖是如本文所述之電腦系統的簡化圖。

第15圖繪示如本文所述之配置在照相機、智慧型手機與汽車的推論引擎的實施例。

本發明的實施例係參照第1-15圖作詳細說明。

第1圖是包括處理站(process station)60、圖像感測器61與處理站62的生產線的簡化圖。在此生產線中，將積體電路的晶片(integrated circuit wafer)輸入至處理站X(即處理站60)，並進行如沉積(deposition)或蝕刻(etching)處理，且輸出至圖像感測器61。晶片從圖像感測器輸入至處理站X+1(即處理站62)，在處理站X+1進行如沉積、蝕刻或封裝(packaging)處理。然後，將晶片輸出至下一階段。來自於圖像感測器的圖像提供至推論引擎(inference engine)63，推論引擎63包括依據本文所述技術來訓練的人工神經網路(ANN，artificial neural network)模型M，其識別並歸類晶片中的缺陷(defect)。推論引擎也可以接收製造過程中其他階段的圖像。關於在圖像感測器61所感測到的晶片缺陷的此資訊可應用於改善製造過程(例如，藉由調整處理站X或在其他站所執行的過程)。

如上所述，用於訓練神經網路來對生產線中的缺陷進行歸類的方法或用於其他歸類功能的方法可包括藉由去除標記錯誤的元素(element)來清洗訓練數據集的電腦實施過程。

在生產線中所獲取的積體電路組件上的缺陷圖像可歸類為許多類別，並用作訓練數據集的元素。在特定製造過程的數量中，這些缺陷的變化很大，故訓練數據會有不均勻分佈(uneven distribution)，且包含大數據大小(large data size)。此外，這類圖像的標記過程可由會製造大量錯誤的人員來完成。例如，為了建立一個新的神經網路模型以對缺陷類別或類型進行歸類，首先，我們需要提供一種標籤圖像數據庫(labeled image database)來訓練。圖像數據庫包括缺陷資訊。其中一種在數據庫中可具有50000張缺陷圖像，並且每張圖像都由人類歸類標記。因此，集合中的一張圖像會歸類為類別9，而集合中的另一張圖像會歸類為類別15...，依此類推。然而，人為錯誤和模棱兩可(ambiguous)的情況導致標記錯誤。例如，應歸類為缺陷類別7的一張圖像錯誤地歸類為類別3。具有錯誤歸類的元素之數據集可稱為髒數據集(dirty data set)或雜訊數據集(noisy data set)。

本文所述技術的實施例可用於清洗髒數據集，並使用已清洗數據集來訓練ANN，以識別與歸類缺陷，從而改善製造過程。這種已訓練的ANN可用於監視在線過程(in-line process)中的缺陷(例如，用於評估在線產品的穩定性與質量或製造工具的壽命。

第2A圖繪示從“髒”訓練數據開始訓練神經網路ANN的電腦實施過程的流程圖。流程圖從提供標籤訓練數據集S(步驟100)開始，標籤訓練數據集S可儲存於數據庫，其可由處理器或執行過程的處理器來存取。示例性標籤訓練數據集可包括如上述所標記之數千或數萬(或更多)圖像，或依據要實施的神經網路的任務功能所選擇的任何其他類型的訓練數據。

電腦實施過程進入數據庫以獲取(retrieve)訓練數據集S的第一子集(first subset)A與第二子集B(second subset)(步驟101)。在一種方法中，選擇第一子集A與第二子集B，以使子集中的髒數據元素的分佈大約等於整個數據集S中的分佈。此外，可選擇第一子集A與第二子集B，以使每個子集中的數據元素的數量大致相同。由於期望將Adagrad與Adam訓練演算法(training algorithm)中所使用的乾淨數據元素的數量最大化，故可藉由均分訓練數據集S選擇第一子集A與第二子集B。隨機選擇第一子集A與第二子集B的元素，以使兩個子集中的髒元素分佈在統計上(statistically)至少保持相對均等(relatively equal)。

接下來，在流程圖中(第一循環)，使用兩個子集的其中之一(例如第一子集A)訓練神經網路，以產生模型MODEL_A(步驟102)。使用模型MODEL_A過濾(filter)第二子集B，以產生第二子集B的第一已模型過濾子集B1F，並將第一已模型過濾子集B1F儲存於記憶體中(步驟103)(過濾第二子集B)。第3圖繪示使用模型過濾子集的技術範例。第一已模型過濾子集B1F包含第二子集B的元素，其標籤匹配(match)來自於執行模型MODEL_A的神經網路之推論結果(inference result)。由於此過濾，相較於第二子集B，第一已模型過濾子集B1F應具有更少的總元素(overall element)以及較低百分比之標記錯誤的元素。

接下來(循環AB)，使用第一已模型過濾子集B1F訓練神經網路，以產生優化(refined)模型MODEL_B1F(步驟104)。如本文所使用的術語“優化”用於表示利用已模型過濾子集(或是如以下實例中的已優化模型過濾子集)產生的模型，並且不表示模型的任何相對質量(relative quality measure)。然後，採用如第3圖所述的技術(過濾第一子集A)，使用優化模型MODEL_B1F過濾第一子集A，以產生第一子集A的第一已優化模型過濾子集A1F，並將第一已優化模型過濾子集A1F儲存於記憶體中(步驟105)。第一已優化模型過濾子集A1F包含第一子集A的元素，其標籤匹配來自於執行優化模型MODEL_B1F的神經網路之推論結果。由於此過濾，相較於第一子集A，第一已優化模型過濾子集A1F可具有更少的總元素(overall element)以及較低百分比之標記錯誤的元素。

在下一迭代(iteration)(循環ABA)中，使用第一已優化模型過濾子集A1F訓練神經網路，以產生優化模型MODEL_A1F，並將優化模型MODEL_A1F儲存於記憶體中(步驟106)。然後，採用如第3圖所述的技術(過濾第二子集B)，使用優化子集MODEL_A1F過濾第二子集B，以產生第二子集B的第二已優化模型過濾子集B2F，並將第二已優化模型過濾子集B2F儲存於記憶體中(步驟107)。相較於第二子集B的第一已模型過濾子集B1F，第二已優化模型過濾子集B2F可具有更多數量的元素以及較低百分比之標記錯誤的元素。

在此示例中，可不需要額外的過濾循環(filtering cycle)提供已清洗訓練數據集，以用於產生最終輸出模型。例如，此階段的已清洗訓練數據集可包括第二子集B的第二已優化模型過濾子集B2F以及第一子集A的第一已優化模型過濾子集A1F的組合。

如果沒有執行額外的過濾循環，則電腦實施演算法(computer implemented algorithm)可使用已優化模型過濾子集(例如，第一已優化模型過濾子集A1F與第二已優化模型過濾子集B2F的聯集(union))的組合訓練神經網路，以產生神經網路的輸出模型(步驟108)。在此階段使用已清洗數據集來訓練的神經網路可相同於步驟102、104與106所使用的神經網路(或者在此階段使用已清洗數據集來訓練的神經網路可以是相異的神經網路)，以產生已優化模型過濾子集。然後可將輸出模型儲存於推論引擎中，以用於領域或記憶體(例如數據庫)中(步驟109)，進而供日後使用。

在一些實施例中，第2A圖的步驟102、104與106中，僅子集或已過濾子集的一部分可用作訓練數據，以減少所需的處理資源。

第2B圖繪示從“髒”訓練數據開始訓練神經網路ANN的電腦實施過程的流程圖，其將該過程迭代地擴展至其他循環AB、ABA、ABAB、ABABA。流程圖從提供標籤訓練數據集S(步驟150)開始，標籤訓練數據集S可儲存於數據庫，其可由處理器或執行該過程的處理器來存取。示例性標籤訓練數據集可包括如上述所標記之數千或數萬(或更多)圖像，或依據要實施的神經網路的任務功能所選擇的任何其他類型的訓練數據。

電腦實施過程進入數據庫以獲取訓練數據集S的第一子集(first subset)A與第二子集B(步驟151)。在一種方法中，選擇第一子集A與第二子集B，以使子集中的髒數據元素的分佈大約等於這整個數據集S中的分佈。此外，可選擇第一子集A與第二子集B，以使每個子集中的數據元素的數量相同或大致相同。由於期望將Adagrad與Adam訓練演算法中所使用的乾淨數據元素的數量最大化，故可藉由均分訓練數據集S選擇第一子集A與第二子集B。隨機選擇第一子集A與第二子集B的元素，以使兩個子集中的髒元素分佈在統計上(statistically)至少傾向於保持相對均等。選擇第一子集A與第二子集B的元素的其他技術可用於考慮到每個類別中的元素數量以及其他數據內容感知選擇技術。

接下來，在流程圖中，使用兩個子集的其中之一(例如第一子集A)訓練神經網路，以產生模型MODEL_A(n-1)(其中n=1)與設置追蹤循環的索引(index)(步驟152)。使用模型MODEL_A(n-1)過濾第二子集B，以產生第二子集B的第一已模型過濾子集BmF(其中m=1)，並將第一已模型過濾子集BmF儲存於記憶體中(步驟153)。第3圖繪示使用模型過濾子集的技術範例。第一已模型過濾子集BmF包含第二子集B的元素，其標籤匹配來自於執行模型MODEL_A(n-1)的神經網路之推論結果。由於此過濾，相較於第二子集B，第一已模型過濾子集BmF應具有更少總元素(overall element)以及較低百分比之標記錯誤的元素。

接下來，使用第一已模型過濾子集BmF訓練神經網路，以產生優化模型MODEL_BmF(步驟154)。然後，採用如第3圖所述的技術，使用優化模型MODEL_BmF過濾第一子集A，以產生第一子集A的已優化模型過濾子集AnF，並將已優化模型過濾子集AnF儲存於記憶體中(步驟155)。已優化模型過濾子集AnF包含第一子集A的元素，其標籤匹配來自於執行優化模型MODEL_BmF的神經網路之推論結果。由於此過濾，相較於第一子集A，已優化模型過濾子集AmF可具有更少的總元素以及較低百分比之標記錯誤的元素。

在此階段，該過程確定是否滿足迭代標準(iteration criterion)。例如，迭代標準可以是最大循環數(maximum number of cycles)(如索引n或索引m是否超過閾值(threshold)所表示)。替代地，迭代標準可以是已優化模型過濾子集AnF與BmF(即第一已模型過濾子集)的大小(即元素數量)是否各自收斂(converge)於已過濾子集A(n-1)F與B(m-1)F的大小(步驟156)。例如，如果大小差(difference in sizes)小於閾值，則可表示為收斂，其中閾值可依據特定應用與所使用的訓練數據集來選擇。例如，閾值可以在0.1%至5%的數量級(order)上。

如參照圖2A所闡釋的，循環可具有固定數量，而不需要迭代標準，從而提供至少一已優化模型過濾子集，並且更好地提供每個第一子集A與第二子集B之至少一已優化模型過濾子集。

在第2B圖的情況中，如果已優化模型過濾子集AnF與BmF(即第一已模型過濾子集)的大小未收斂或未滿足其他迭代標準，則使用已優化模型過濾子集AnF訓練神經網路，以產生優化模型MODEL_AnF，並將優化模型MODEL_AnF儲存於記憶體中(步驟157)。進行該過程，以增加索引n與m(步驟158)，並返回到步驟153，其中剛產生的優化模型MODEL_A(n-1)F用於過濾第二子集B。

持續該過程直到滿足步驟156的迭代標準為止。若在步驟156處滿足標準，則選擇第一子集A與第二子集B的已優化模型過濾子集。例如，可選擇具有最大元素數量的已優化模型過濾子集。結合第一子集A與第二子集B之已選定(selected)模型過濾子集以提供已清洗數據集，並且使用第一子集A與第二子集B之已選定模型過濾子集的組合訓練目標神經網路(target neural network)，以產生輸出模型(步驟159)。在此階段使用已清洗數據集訓練的目標神經網路可相同於步驟152、154與157所使用的神經網路(或者在此階段使用已清洗數據集訓練的目標神經網路可以是相異的神經網路)，以產生已優化模型過濾子集。

然後，可將輸出模型儲存於推論引擎中，以用於領域或記憶體(例如數據庫)中(步驟160)，進而供日後使用。

在一些實施例中，第2B圖的步驟152、154、157中，僅子集或已過濾子集的一部分可用作訓練數據，以減少所需的處理資源。

一般而言，第2B圖所示的過程包括以下的示例過程，其包括：(1)使用第一子集與第二子集的其中之一之預先提供的已優化模型過濾子集以訓練神經網路的即時(instant)優化模型；(2)使用即時優化模型過濾第一子集與第二子集的另外一個，以提供第一子集與第二子集之另外一個的即時優化模型過濾子集；以及(3)確定是否滿足迭代標準。若未滿足迭代標準，則執行(1)至(3)；若滿足迭代標準，則使用第一子集A的已選定模型過濾優化子集以及第二子集B的已選定模型過濾子集之組合，以產生神經網路的訓練模型。

第3圖繪示一種使用神經網路模型過濾訓練集的子集的技術，如第2A圖與第2B圖所執行的步驟103、105、107、153與155。

假設提供MODEL_X，則該過程在子集Y上使用MODEL_X(使用訓練數據集的一個子集進行訓練)且執行神經網路(步驟170)。MODEL_X可以是MODEL_A、MODEL_B1F、 MODEL_A1F，或者通常還可以是MODEL_A(n)F或MODEL_B(m)F。子集Y是不用於訓練MODEL_X的子集(另一個子集)。

然後，選擇具有匹配於神經網路所輸出的歸類數據的標籤之子集Y的元素以作為子集Y的已模型過濾子集的成員(步驟171)。

本技術可參照第4-13圖作進一步描述，第4-13圖繪示訓練數據集與子集的特性圖表。

第4圖表示訓練數據集S(例如，具有20%雜訊(noise)的基準文件(benchmark file)CIFAR 10)的圖表，其在y軸上顯示了數據的清潔度(data cleanliness)，並且在X軸上顯示了訓練數據集S的元素數量。例如，第4圖可表示50000個元素的數據集，第4圖的數據的清潔度範圍可以從0到100%。任何特定的數據點為集合的元素數量以及集合數據的清潔度的指標(indication)。一般而言，具有更多元素(即沿著X軸向外延伸)的訓練數據集產生更準確的模型。同樣地，具有更高清潔度(即沿著y軸向上延伸)的訓練數據集可產生更準確的模型。訓練數據集將具有一個最佳點(optimal point)200，其中具有最大數據的清潔度之最大數據元素數量包括100%的訓練數據集S。理想情況下，如果訓練數據集可由最佳點200來表示，則依據該訓練集所使用該數據集來進行訓練的神經網路的品質將是最好的。

第5圖是具有添加啟發式等高線(heuristic contour line) 之第4圖的複製圖，其中這些等高線係依據沿著等高線所落下的訓練數據而對應於已訓練神經網路的準確度。當然，不同的模型具有不同的等高線。因此，對於具有準確度為25%之所得模型的等高線，其相交(intersect)於更靠近X軸起點的圖表頂部，並且在相對較低的數據的清潔度相交於圖表的右側。標籤點201表示圖表中模型將具有約68%準確度的位置。標籤點202表示圖表中模型將具有小於約68%準確度的位置。標籤點212表示圖表中模型將具有範圍在68%至77%之間的準確度的位置。在特定應用中，會希望使用訓練集來訓練模型，該模型具有在圖表右上角的85%等高線以上的準確度。

第6圖繪示將訓練數據集分為約等於50%元素的第一子集的效果。這可對應於第2A圖與第2B圖所示過程中所引用的第一子集A。這表示僅使用一半的數據集並無法達到大於85%的模型準確度。

第7圖繪示藉由將訓練集分成兩半而產生的第二子集B。理想地，第一子集A將具有與第二子集B幾乎相同的清潔度特性，故至少在概念上可應用相同的等高線。再者，第二子集B不能單獨用於此概念性示例中，以達到如85%範圍內的高模型準確度。

第8圖繪示數據的清潔度數值約為80%的效果。如圖所示，對於此示例中具有25000個元素的第一子集A，可選擇20000個元素以獲得100%清潔度。理想地，用於過濾第一子集A 的演算法可辨識出這20000個被正確標記的元素。在此示例中，如點210所示，使用具有約80%清潔度以及25000個元素的訓練數據集之模型準確度約為68%。

第9圖繪示如第2B圖的過程中針對m=1所產生的已模型過濾子集BIF。在這種情況下，第一子集A用於訓練模型MODEL_A(0)，而MODEL_A(0)用於過濾第二子集B以產生已模型過濾子集B(1)F。如第8圖所述的，模型MODEL_A(0)將具有約68%準確度。因此，準確度約為68%的第二子集B藉由使用MODEL_A(0)過濾第二子集B而將辨識出將近99%的乾淨數據。此乾淨數據是第一已模型過濾子集B1F(來自循環AB的結果)。如第9圖中的等高線所示，包含具有接近99%準確度的68%數據之此第一已模型過濾子集B1F可預期地產生模型MODEL_B1F，在點220處所表示的模型MODEL_B1F具有約77%準確度。點222表示所需的準確度，以使用完整的第二子集B來產生77%準確度的模型。

第10圖繪示如第2B圖的過程中針對n=1使用模型MODEL_B1F所產生的第一已優化模型過濾子集A1F。由於MODEL_B1F具有約77%準確度，故第一已優化模型過濾子集A1F將具有約為77%的第一子集A的元素。如等高線所示，此第一已優化模型過濾子集A1F可預期地產生具有接近79%準確度的模型MODEL_A1F。

第11圖繪示如第2B圖的過程中針對m=2使用模型MODEL_A1F所產生的第二已優化模型過濾子集B2F。由於MODEL_A1F具有接近79%準確度，故第二已優化模型過濾子集B2F具有將近79%的第二子集B的元素。如等高線所示，此第二已優化模型過濾子集B2F可預期地產生具有接近79%準確度的改進模型MODEL_B2F。

第12圖繪示如第2B圖的過程中針對n=2使用模型MODEL_B2F所產生的已模型過濾子集A2F。由於MODEL_B2F具有約79%準確度，故已模型過濾子集A2F將具有約79%的第二子集B的元素。如等高線所示，此已模型過濾子集A2F可預期地產生具有約79%(接近80%)準確度的模型。

該循環可如上述而持續進行。然而，對於該訓練數據集，可看出已模型過濾子集中的元素數量正收斂於最大值80%。因此，可停止循環，並可以選擇最終訓練。

第13圖繪示第一子集A之最大的已模型過濾子集A2F以及第二子集B之最大的第二已優化模型過濾子集B2F的組合，其包括接近80%的第一子集A與第二子集B的元素，並具有接近99%清潔度。結果是，使用該組合訓練的輸出模型可預期地具有約85%準確度(點233)，其遠高於使用未清洗(uncleaned)的訓練集(即第一子集A)訓練的模型所估計之68%至77%之間的準確度(點230)。

第14圖是電腦系統1200的簡化區塊圖，一或多個的電腦系統可編程(programmed)為實現本發明所公開的技術。電腦系統1200包括一或多個中央處理單元(CPU，central processing unit)1272，其透過匯流排子系統(bus subsystem)1255與多個周邊(peripheral)裝置來進行通訊。例如，這些周邊裝置可包括儲存子系統1210，其包括記憶裝置與文件儲存子系統1236、使用者介面(user interface)輸入裝置1238、使用者介面輸出裝置1276與網路介面子系統1274。輸入與輸出裝置允許使用者與電腦系統1200進行互動(interaction)。網路介面子系統1274提供到外部網路的介面，其包括到其他電腦系統中的相應介面裝置的介面。

使用者介面輸入裝置1238可包括：鍵盤(keyboard)；定位裝置(pointing device)(例如，滑鼠(mouse)、軌跡球(trackball)、觸控板(touchpad)或數位繪圖板(graphics tablet))；掃描器(scanner)；觸控螢幕(touch screen)，其合併至顯示器(display)；音訊(audio)輸入裝置(例如，語音辨識系統(voice recognition system)與麥克風(microphone))；以及其他類型的輸入裝置。一般而言，術語“輸入裝置”的使用旨在包括所有可能的裝置類型以及將訊息輸入至電腦系統1200的方式。

使用者介面輸出裝置1276可包括顯示子系統、列印機(printer)、傳真機(fax machine)或諸如音訊輸出裝置的非視覺(non-visual)顯示器。顯示子系統可包括LED顯示器、陰極射線管(CRT，cathode ray tube)、諸如液晶顯示器(LCD，liquid crystal display)的平板裝置(flat-panel device)、投影裝置(projection device)或用於產生視覺影像的一些其他機械。顯示子系統還可提供非視覺顯示器，例如音訊輸出裝置。一般而言，術語“輸出裝置”的使用旨在包括所有可能的裝置類型以及用於將訊息從電腦系統1200輸出至使用者、另一個機器或電腦系統的方式。

儲存子系統1210儲存編程與數據結構，其提供本文所述之一些或所有模組與方法的功能，以訓練ANN的模型。這些模型通常應用於深度學習(deep learning)處理器1278所執行的ANN。

在一種實施方式中，使用深度學習處理器1278來實現神經網路，深度學習處理器1278可以是能配置與重組的處理器、現場可程式邏輯閘陣列(FPGA，field-programmable gate array)、專用積體電路(ASIC，application-specific integrated circuit)和/或可重構計算架構(CGRA，coarse-grained reconfigurable architecture)與圖形處理單元(GPU，graphics processing unit)以及其他已配置的設備。深度學習處理器1278可以由深度學習雲端平台(cloud platform)(例如，Google雲端平台(Google Cloud Platform)、賽靈思(Xilinx)雲端平台與Cirrascale雲端平台進行託管(host)。示例性的深度學習處理器1278包括Google的張量處理單元(TPU，Tensor Processing Unit)、像是GX4機架式伺服器(Rack mount)系列的機架式解決方案、GX149機架式伺服器系列、NVIDIA DGX-1、微軟(Microsoft)的Stratix V FPGA、Graphcore的智慧處理單元(IPU，Intelligent Processor Unit)^TM、具有驍龍(Snapdragon)處理器之高通(Qualcomm)的Zeroth平台、輝達 (NVIDIA)的伏打(Volta)、NVIDIA的DRIVE PX、NVIDIA的JETSON TX1/TX2模組、英特爾(Intel)的Nirvana、Movidius視覺處理單元(VPU)、富士通DPI、安謀控股(ARM)的DynamicIQ、IBM TrueNorth等。

用於儲存子系統1210的記憶子系統1222可包括多個記憶體，其包括用於在編程執行期間指令(instruction)與數據所儲存之主隨機存取記憶體(RAM，random access memory)1234以及儲存固定指令的唯讀記憶體(ROM，read only memory)1232。指令包括用於清洗訓練數據集的過程以及用於使用如第2A圖、第2B圖、第3圖與第4-13圖所述之已清洗數據集來訓練神經網路的過程。

文件儲存子系統1236可以為編程與數據文件(包括第2A圖、第2B圖、第3圖所述之編程與數據文件)提供持久(persistent)儲存，並且可包括硬碟(hard disk drive)、伴隨著相關抽換式媒體(removable media)的軟碟(floppy disk drive)、CD-ROM驅動器(drive)、光碟(optical drive)或抽換式媒體磁帶匣(cartridge)。透過文件儲存子系統1236可將實現一些實施方式的功能之模塊儲存於儲存子系統1210中或是由處理器所存取的其他機器中。

匯流排子系統1255提供了一種用於使電腦系統1200的各個組件與子系統如預期來互相通訊的機制。儘管匯流排子系統1255被示意性地顯示為單一匯流排，但匯流排子系統的替代實施方式可使用多個匯流排。

電腦系統1200本身可以是各種類型，包括個人電腦、攜帶式電腦(portable computer)、工作站(workstation)、終端(computer terminal)、網路電腦(network computer)、電視機、大型電腦(mainframe)、伺服器農場(server farm)，廣泛分佈的鬆散網路電腦組(set of loosely networked computers)或者是任何其他的數據處理系統或使用者裝置。由於電腦與網路之不斷變化的性質，出於說明本發明的首選實施方式之目的，第14圖中所繪示之電腦系統1200的描述僅旨在作為特定示例。相較於第14圖所繪示之電腦系統，電腦系統1200的許多其他的配置可能具有更多或更少組件。

本文所述技術的實施例包括儲存在非暫態電腦可讀取媒體(non-transitory computer readable media)上的電腦編程(computer program)，非暫態電腦可讀取媒體設置為可由電腦存取與讀取的記憶體，該電腦編程包括如第2A圖、第2B圖與第3圖所述之編程與數據文件。

在此部份所述方法的其他實施方式可包括非暫態電腦可讀取儲存媒體(non-transitory computer readable storage medium)，其儲存由處理器所執行的指令，以執行上述任何方法。在此部份所述方法的的另一實施方式可包括一種系統，該系統包括記憶體與一或多個處理器，其可操作地執行儲存於記憶體中的指令，以執行上述任何方法。

依據許多實施方式，以上所述或參考的任何數據結構與代碼(code)儲存在電腦可讀取儲存媒體上，該電腦可讀取儲存媒體可以是能儲存代碼和/或數據的任何裝置或媒體，以供電腦系統使用。但這不限於包括揮發性記憶體(volatile memory)、非揮發性記憶體(non-volatile memory)、專用積體電路(ASIC，application-specific integrated circuit)、現場可程式邏輯閘陣列(FPGA，field-programmable gate array)、磁(magnetic)與光學儲存裝置(例如硬碟、磁帶(magnetic tape)、CD(光碟))、DVD(數位多功能影音光碟(digital versatile disc)或數位影音光碟)或者是其他能夠儲存現在已知或日後發展的電腦可讀取媒體之介質。相較於第14圖所繪示之電腦系統，電腦系統1200的許多其他的配置可能具有更多或更少組件。

瘦平台(thin platform)推論引擎可包括：處理器(例如像是微型電腦(microcomputer)的CPU 1272)，其可選地與儲存已訓練輸出模型的參數之深度學習處理器1278進行耦接；以及輸入與輸出埠(port)，其用於接收輸入且發送由執行模型所產生的輸出。例如，處理器可包括LINUX核心(kernel)與ANN編程，其利用儲存在處理器與深度學習處理器所存取的非暫態記憶體中的可執行(executable)指令來實施，並且在推論操作期間使用模型參數。

如本文所述，由推論引擎所使用或包括的裝置包括：邏輯，其用於對輸入數據與已訓練模型實施ANN操作，其中該模型包括一組模型參數；以及記憶體，其儲存可操作地耦接至該邏輯的已訓練模型，具有利用訓練演算法計算出的數值之已訓練參數集(set of parameters)補償如本文所述之髒訓練集。

第15圖繪示配置於推論引擎之本技術應用，該推論引擎適用於配置在像是物聯網(internet-of-things)模型的“邊緣裝置”的領域中。例如，可配置於實施如第14圖所述之訓練伺服器600，以產生用於相機601、智慧型手機(smart phone)602與汽車603的ANN之已訓練記憶模型集(trained sets of memory models)。此外，如第2圖所述，已訓練模型可應用於半導體製造(semiconductor manufacturing)中。

本文包括了多個流程圖，其說明了用於清洗已訓練數據集以及用於已訓練神經網路的邏輯。該邏輯可使用處理器來實施，該處理器使用儲存於處理器所存取的記憶體與由處理器、包含現場可程式積體電路的專用邏輯硬體以及由專用邏輯硬體與電腦編程的組合所執行的記憶體之電腦編程來進行編程。對於本文中的所有流程圖，應當理解的是，在不影響所實現功能的情況下，可組合、並行執行或以不同順序執行許多步驟。在一些情況下，正如讀者會理解的那樣，僅在進行某些其他更改的情況下，步驟的重新安排也可以獲得相同的結果。在其他情況下，如讀者所理解的，僅在還要進行一些其他改變時，步驟的重新安排才能達成相同結果。此外，應當理解，本文的流程圖僅示出了與本發明理解有關的步驟；並且應當理解，用於完成其他功能的許多額外步驟可以在所示的那些步驟之前、之後和之間來執行。

綜上所述，雖然本發明已以實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100,101,102,103,104,105,106,107,108,109:步驟

Claims

一種電腦實施方法，用於清洗一神經網路的訓練數據，該電腦實施方法包括：存取一標籤訓練數據集；使用該標籤訓練數據集的一第一子集以訓練該神經網路的一第一模型；使用該第一模型過濾該標籤訓練數據集的一第二子集，以提供該第二子集的一第一已模型過濾子集；使用該第二子集的該第一已模型過濾子集訓練該神經網路的一第一優化模型；使用該第一優化模型過濾該第一子集，以提供該第一子集的一第一已優化模型過濾子集；使用該第一子集的該第一已優化模型過濾子集訓練該神經網路的一第二優化模型；以及使用該第二優化模型過濾該標籤訓練數據集的該第二子集，以提供該第二子集的一第二已優化模型過濾子集。
如請求項1所述之電腦實施方法，包括：組合該第一已優化模型過濾子集與該第二子集的該第二已優化模型過濾子集以提供一已過濾訓練集；使用該已過濾訓練集訓練一目標神經網路的一輸出模型；以及儲存該輸出模型至記憶體中。
如請求項1所述之電腦實施方法，其中相較於該第一已模型過濾子集，該第二已優化模型過濾子集具有更多的元素數量。
如請求項1所述之電腦實施方法，其中該第一子集與該第二子集不重疊(overlap)。
如請求項1所述之電腦實施方法，其中使用該第一優化模型過濾該第一子集的步驟包括：在該第一子集上使用該第一優化模型執行該神經網路，以產生歸類於該第一子集的一數據元素之一歸類數據；選擇具有匹配於該歸類數據的標籤之該第一子集的該數據元素，以提供該第一子集的該第一已優化模型過濾子集。
如請求項2所述之電腦實施方法，將該輸出模型加載(loading)至一推論引擎中的該目標神經網路。
如請求項1所述之電腦實施方法，包括：(1)迭代地(iteratively)使用該第一子集與該第二子集的其中之一之預先提供的已優化模型過濾子集以訓練該神經網路的一即時(instant)優化模型； (2)迭代地使用該即時優化模型過濾該第一子集與該第二子集的另外一個，以提供該第一子集與該第二子集的另外一個之一即時優化模型過濾子集；以及(3)迭代地確定是否滿足一迭代標準(iteration criterion)，若未滿足該迭代標準，則執行(1)至(3)，以及若滿足該迭代標準，則使用該第一子集的已選定(selected)模型過濾優化子集以及該第二子集的已選定模型過濾子集之組合，以產生該神經網路的一訓練模型；其中該迭代標準為一最大循環數或該第一已模型過濾子集的大小是否收斂於已過濾子集的大小。
如請求項7所述之電腦實施方法，將一輸出模型加載至一推論引擎中的一目標神經網路。
一種電腦系統，配置於清洗一神經網路的訓練數據，該電腦系統包括：一或多個處理器與記憶體，儲存一電腦編程指令，該電腦編程指令配置於執行一過程，該過程包括：存取一標籤訓練數據集；使用該標籤訓練數據集的一第一子集以訓練該神經網路的一第一模型；使用該第一模型過濾該標籤訓練數據集的一第二子集，以提供該第二子集的一第一已模型過濾子集；使用該第二子集的該第一已模型過濾子集訓練該神經網路的一第一優化模型；使用該第一優化模型過濾該第一子集，以提供該第一子集的一第一已優化模型過濾子集；使用該第一子集的該第一已優化模型過濾子集訓練該神經網路的一第二優化模型；以及使用該第二優化模型過濾該標籤訓練數據集的該第二子集，以提供該第二子集的一第二已優化模型過濾子集。
如請求項9所述之電腦系統，該過程還包括：組合該第一已優化模型過濾子集與該第二子集的該第二已優化模型過濾子集以提供一已過濾訓練集；使用該已過濾訓練集訓練一目標神經網路的一輸出模型；以及儲存該輸出模型至該記憶體中。
如請求項9所述之電腦系統，其中相較於該第一已模型過濾子集，該第二已優化模型過濾子集具有更多的元素數量。
如請求項9所述之電腦系統，其中使用該第一優化模型過濾該第一子集包括：在該第一子集上使用該第一優化模型執行該神經網路，以產生歸類於該第一子集的一數據元素之一歸類數據；選擇具有匹配於該歸類數據的標籤之該第一子集的該數據元素，以提供該第一子集的該第一已優化模型過濾子集。
一種電腦編程產品，配置於支持一神經網路的訓練數據清洗，該電腦編程產品包括儲存一電腦編程指令的一非暫態電腦可讀取記憶體，該電腦編程指令配置於執行一過程，該過程包括：存取一標籤訓練數據集；使用該標籤訓練數據集的一第一子集以訓練該神經網路的一第一模型；使用該第一模型過濾該標籤訓練數據集的一第二子集，以提供該第二子集的一第一已模型過濾子集；使用該第二子集的該第一已模型過濾子集訓練該神經網路的一第一優化模型；使用該第一優化模型過濾該第一子集，以提供該第一子集的一第一已優化模型過濾子集；使用該第一子集的該第一已優化模型過濾子集訓練該神經網路的一第二優化模型；以及使用該第二優化模型過濾該標籤訓練數據集的該第二子集，以提供該第二子集的一第二已優化模型過濾子集。
如請求項13所述之電腦編程產品，其中相較於該第一已模型過濾子集，該第二已優化模型過濾子集具有更多的元素數量。
如請求項13所述之電腦編程產品，其中該第一子集與該第二子集不重疊。
如請求項13所述之電腦編程產品，其中使用該第一優化模型過濾該第一子集包括：在該第一子集上使用該第一優化模型執行該神經網路，以產生歸類於該第一子集的一數據元素之一歸類數據；選擇具有匹配於該歸類數據的標籤之該第一子集的該數據元素，以提供該第一子集的該第一已優化模型過濾子集。