TW202107345A - 用於追跡資料的資料擴增系統及方法 - Google Patents

用於追跡資料的資料擴增系統及方法 Download PDF

Info

Publication number
TW202107345A
TW202107345A TW109104858A TW109104858A TW202107345A TW 202107345 A TW202107345 A TW 202107345A TW 109104858 A TW109104858 A TW 109104858A TW 109104858 A TW109104858 A TW 109104858A TW 202107345 A TW202107345 A TW 202107345A
Authority
TW
Taiwan
Prior art keywords
data set
training data
training
classifier
input data
Prior art date
Application number
TW109104858A
Other languages
English (en)
Inventor
章煥 李
Original Assignee
南韓商三星顯示器有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南韓商三星顯示器有限公司 filed Critical 南韓商三星顯示器有限公司
Publication of TW202107345A publication Critical patent/TW202107345A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Robotics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Error Detection And Correction (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本發明係一種用於分類的系統和方法。在一些實施例中,該方法包括從標記的輸入資料集形成第一訓練資料集和第二訓練資料集;用第一訓練資料集訓練第一分類器;用第二訓練資料集訓練可變自動編碼器,該可變自動編碼器包括編碼器和解碼器;藉由將偽隨機向量饋入解碼器來生成第三資料集;使用第一分類器標記該第三資料集以形成第三訓練資料集;基於該第三資料集形成第四訓練資料集;以及使用第四訓練資料集訓練第二分類器。

Description

用於追跡資料的資料擴增系統及方法
相關申請案之交互參照
本案主張2019年4月5日提交至美國智慧財產局標題為「用於追跡資料集的資料擴增系統及方法」之美國臨時申請案號62/830,831的優先權及效益,其全部內容藉由參照而併入本文中。
根據本案揭露之一或多個實施例,其涉及分類器,更具體地說,其涉及利用訓練分類器來擴增資料之系統及方法。
當使用在二進制類別上具有資料不平衡的資料進行訓練時,或者當與給定的輸入資料維度相比訓練資料的數量相對較小時,自動分類器可能表現出相對較差的性能。
因此,需要用於資料擴增之改善的系統和方法。
根據本發明的實施例,提供了一種用於分類的方法,該方法包括:從標記的輸入資料集中形成第一訓練資料集和第二訓練資料集;用第一訓練資料集訓練第一分類器;用第二訓練資料集訓練可變自動編碼器,該可變自動編碼器包括編碼器和解碼器;藉由將偽隨機向量饋入解碼器來生成第三資料集;使用第一分類器標記第三資料集以形成第三訓練資料集;基於第三資料集形成第四訓練資料集;並使用第四訓練資料集訓練第二分類器。
在一些實施例中,第一訓練資料集是標記的輸入資料集。
在一些實施例中,第二訓練資料集是標記的輸入資料集。
在一些實施例中,第一訓練資料集的形成包括:對標記的輸入資料集進行超採樣,以生成第一補充資料集;以及結合標記的輸入資料集和第一補充資料集,形成第一訓練資料集。
在一些實施例中,標記的輸入資料集之超採樣包括使用合成少數超採樣技術。
在一些實施例中,標記的輸入資料集的超採樣包括使用自適應合成超採樣技術。
在一些實施例中,第四訓練資料集與第三訓練資料集相同。
在一些實施例中,第四訓練資料集的形成包括組合:標記的輸入資料集的第一部分和第三訓練資料集,以形成第四訓練資料集。
在一些實施例中,第四訓練資料集的形成包括組合:標記的輸入資料集的第一部分、第一補充資料集和第三訓練資料集,以形成第四訓練資料集。
在一些實施例中,該方法進一步包括藉由與標記的輸入資料集的第一部分不同之第二部分來驗證第二分類器。
在一些實施例中,第二訓練資料集的形成包括:對標記的輸入資料集進行超採樣,以產生第一補充資料集;結合標記的輸入資料集和第一補充資料集,以形成第二訓練資料集。
在一些實施例中,標記的輸入資料集包括:包括第一數量之資料元素的多數分類資料以及包括第二數量之資料元素的少數分類資料,第一數量超出第二數量至少5倍。
在一些實施例中,第一數量超過第二數量至少15倍。
根據本發明的實施例,提供了一種分類系統,包括:處理電路,其配置為:從標記的輸入資料集中形成第一訓練資料集和第二訓練資料集;使用第一訓練資料集訓練第一分類器;使用第二訓練資料集訓練可變自動編碼器,該可變自動編碼器包括編碼器和解碼器;藉由將偽隨機向量饋入解碼器來生成第三資料集;使用第一分類器標記第三資料集以形成第三訓練資料集;基於第三資料集形成第四訓練資料集;以及使用第四訓練資料集訓練第二分類器。
在一些實施例中,第一訓練資料集為標記的輸入資料集。
在一些實施例中,第二訓練資料集為標記的輸入資料集。
在一些實施例中,第一訓練資料集的形成包括:對標記的輸入資料集進行超採樣,以產生第一補充資料集;以及結合標記的輸入資料集和第一補充資料集,以形成第一訓練資料集。
在一些實施例中,標記的輸入資料集的超採樣包括使用合成少數超採樣技術。
在一些實施例中,標記的輸入資料集的超採樣包括使用自適應合成超採樣技術。
根據本發明的實施例,提供了一種用於將製造的零件分類為良品或劣品的分類系統,該分類系統包括:資料收集電路;以及處理電路,該處理電路被配置為:從標記的輸入資料集形成第一訓練資料集和第二訓練資料集;使用第一訓練資料集訓練第一分類器;使用第二訓練資料集訓練可變自動編碼器,該可變自動編碼器包括編碼器和解碼器;藉由將偽隨機向量饋入解碼器以形成第三資料集;使用第一分類器標記第三資料集以形成第三訓練資料集;基於第三資料集形成第四訓練資料集;以及使用第四訓練資料集訓練第二分類器。
下面結合附圖之詳細闡述,旨在作為根據本發明提供之用於資料擴增的系統和方法的例示性實施例之描述,而並非表示本發明可被建構或利用之唯一形式。該描述結合所示出的實施例闡述了本發明之特徵。然而,應當理解,相同或等同之功能和結構可以藉由不同的實施例來實施,這些不同的實施例也被包含在本發明之範圍內。如本發明其他部分所示,相似的元件符號旨在指出相似的元件或特徵。
二進制類的分類器可能具有將資料樣本分配給兩個類別之一的任務,以及用於訓練此種分類器的訓練資料可能存在顯著的不平衡。例如,在用於製造電子零件之製造過程中,多數零件是可接受的或「良品」,而少數零件在某種程度上有缺陷或「劣品」。因此,當在製造和測試過程中獲得資料時,大部分資料可能來自良品的裝置,亦即,資料中可能存在不平衡。當訓練自動分類器將零件分類為「良品」或「劣品」時,這類不平衡可能成為障礙。
此外,每個零件獲得之測量值的數量可能很大,亦即,每個資料樣本的維度數目(資料元素為要分類的項目,例如製造零件之測量值的集合)可能很大。當訓練自動分類器,特別是當任一類中訓練資料元素之數量小於每個資料元素之維度數目時,可能是進一步的障礙。
例如,當製造可攜式顯示器時,可以在顯示面板的製造過程中獲得追跡資料。追跡資料可以包括,例如,在製造過程中溫度和壓力的測量值,其作為時間之函數。可以使用多個溫度和壓力感測器,並且每個感測器可以被採樣多次(例如,在幾天的期間內,每天三至四次)。由這些測量結果得出的追跡資料可以例如包括約64個時間追跡,每個時間追跡具有約304個測量,例如,總共進行了超過19,000次測量,因此每個資料元素皆具有超過19,000個維度。
如下文進一步詳細描述之各種方法,其可用於解決一些上述之障礙。參照第1圖,在一些實施例中,用於檢測故障部件的分類系統包括一個或多個資料收集電路105(可包括例如溫度感測器、壓力感測器、放大器以及類比數位轉換器)、資料預處理電路110(可重新格式化資料,下文進一步詳細討論),以及可為深度學習(DL)神經網路之分類器115。
資料預處理電路110可以從資料收集電路105接收原始追跡資料(例如,上述的多個時間追跡),並且可以將資料重新格式化,例如二維陣列(例如,224×224陣列)。二維陣列的尺寸可選擇與藉由神經網路之常用分類的圖像尺寸相當。重新格式化後使得可能重新利用圖像之神經網路分類器中的部分代碼,以利用在一些實施例中。
在一些實施例中,第2圖示出了用於開發和測試分類器的流程圖。從資料預處理電路110接收標記的輸入資料集205,標記的輸入資料集205包括第一數量的資料樣本(例如,幾千個資料元素),每個樣本被標記為「良品」(或「 G」),以及第二數量的資料樣本(例如10至100個資料元素),每個樣本被標記為「劣品」(或「 NG」)。可以在210處採用超採樣(下文進一步詳細討論)以生成包括一種或兩種類別中之附加資料樣本的第一補充資料集。標記的輸入資料集205和第一補充資料集可在215處被用於使用第一訓練資料集(可為標記的輸入資料集205和第一補充資料集兩者的組合(或「聯合」),即可以包括兩者)的監督學習來訓練第一分類器(或「基準分類器」)。也就是可能包括標記的輸入資料集205和第一補充資料集。在一些實施例中,可省略在210處的超採樣的步驟或其結果,並且可以僅使用標記的輸入資料集205來訓練第一分類器。
在220處,可使用由第一分類器(例如,已訓練之第一分類器或使用第一分類器訓練所得之權重進行編程的神經網路的副本)的訓練產生的模型來標記第三資料集,以形成第三訓練資料集。機器學習模型可包括分類器、回歸器、自動編碼器等的多種形式中的任意一種。第三資料集可如下文進一步詳細討論之在225處藉由使用可變自動編碼器的資料擴增方法來生成。在225處,資料擴增方法可使用第二訓練資料集作為輸入,該第二訓練資料集例如可為標記的輸入資料集205,或者標記的輸入資料集205和第一補充資料集的組合。
在230處,可使用(i)標記的輸入資料集205之第一部分235(藉由資料分離器240從標記的輸入資料集205所產生)、(ii)第一補充資料集,以及(iii)第三個訓練資料集中的一個或多個部分的組合來訓練第二分類器。在245處,可使用標記的輸入資料集205(也可藉由資料分離器240從標記的輸入資料集205所生成)的第二部分250來驗證從第二分類器(例如,已訓練之第二分類器或使用第二分類器的訓練所得之權重進行編程的神經網路的副本)訓練所得到的模型。第二部分250(用於驗證)可以與第一部分235(用於訓練)不同,例如,它可以是標記輸入資料集205之剩餘部分。
在245處的驗證步驟中訓練之後,第二分類器的性能(即由第二分類器訓練產生之模型的性能)可用於評估第二分類器可否適用於生產,例如,對於每個製造的零件,確定其是否要使用或丟棄(或重製)。
第3A圖為超採樣步驟(在第2圖中的210處)的流程圖。在210處,對標記的輸入資料集205進行超採樣,以形成第一補充資料集(或「超採樣的資料集」)305。可使用SMOTE(合成少數超採樣技術,Synthetic Minority Over-sampling Technique)或ADASYN(自適應合成,Adaptive Synthetic)超採樣來執行超採樣,其皆可以用來創建少數分類(例如「劣品」類)中資料元素的資料集。ADASYN可以抵消通過添加小的隨機向量(或「偏移(offset)」)產生的每個資料元素,以減少第一補充資料集的資料元素可能干擾其他類別的可能性(例如,多數分類,其可能是「良品」類)。
第3B圖為在第一分類器的215處(第2圖)之訓練的流程圖。在215處,使用(i)標記的輸入資料集205和(ii)第一補充資料集305中的一個或兩者來訓練第一分類器,從而得到第一分類器模型(或「基準二進制分類器模型」)310。
第3C圖為資料擴增的流程圖(在第2圖的225處)。可變自動編碼器可以包括編碼器和解碼器。編碼器可以將每個接收到之資料元素映射或「編碼」為向量或「潛向量」,但要遵守的條件為潛向量之分佈近似於單位高斯分佈(即近似於向量分佈,其向量之元素為獨立的高斯分佈,例如皆具有各自的均值和方差)。解碼器可以執行與編碼器操作類似的逆運算,期可以將編碼器產生的每個潛向量映射到一個(合成的)資料元素,該資料元素近似於編碼器將映射到潛向量的資料元素。編碼器和解碼器可與代表資料元素之訓練集(例如,上述的第二訓練集)一起進行訓練,以及成本函數為對編碼器的輸入和解碼器的輸出之間的差異進行高斯分佈正規化之測量值。一旦對編碼器和解碼器訓練後,偽隨機潛向量(生成以具有單位高斯分佈)饋送至解碼器中,以生成合成資料元素(例如,生成第三資料集315)。如使用來自兩個類別的資料元素(即,同時具有「良品」資料元素和「劣品」資料元素)訓練可變自動編碼器,則合成資料元素可能為未標記。
第3D圖為第三資料集之標記(在第2圖中之220處)以形成第三訓練資料集的流程圖。藉由第一分類器模型310對第三資料集315進行分類,並且對第三資料集315的每個資料元素進行標記,以形成第三訓練資料集(或「標記的VAE資料集」)320。第3E圖為第二分類器之訓練的流程圖(在第2圖中之230處)。(i)標記的輸入資料集205的第一部分235(藉由資料分離器240從標記的輸入資料集205所生成)、(ii)第一補充資料集305、以及(iii) 使用第三訓練資料集320中的一個或多個(或一個或多個的相應部分)在230處來訓練第二分類器,從而得到第二分類器模型(或「二進制分類器模型」)325。第3F圖為分類器驗證的流程圖(在第2圖中的245處)。標記的輸入資料集205之第二部分250的每個資料元素被饋送到已訓練之第二分類器(或「第二分類器模型」)325中,並且在330處將所產生的每個分類與資料元素的標籤進行比較。其後根據分類與標籤相符的程度評估第二分類器之性能。
第4圖之表中示出了使用超採樣和原始G資料集的80%的基準模型310執行一實施例測試之結果。根據第2圖所示之方法,處理了包括「良品」類中的3936個資料元素和「劣品」類中的22個資料元素之標記的輸入資料集205。使用超採樣(在第2圖中之210處)將(i)「劣品」資料元素與(ii)「良品」資料元素的比率增加到0.1:1或1:1。第4圖之表中(在第一欄)示出了所使用之訓練資料集的「良品」和「劣品」資料元素的分類精度,以及(第二欄中),「良品」和「劣品」資料元素之分類精度係用於驗證資料集。
第5圖之表中示出了在一個實施例中第二分類器模型325之性能測試的結果。使用(i)來自VAE之合成樣本(第三訓練資料集),其包括3238個G樣本以及6762個NG樣本、(ii)藉由超採樣生成的2000個NG樣本,以及(iii)在輸入資料集中的G樣本中,隨機抽取2000個真實G樣本,用以訓練第二分類器。
可以看出,第5圖所示之性能明顯優於第4圖所示之性能,亦即,在對應第4圖和第5圖之測試中,第二分類器明顯優於第一(基準)分類器。此外,使用輸入資料集205之G樣本中的較少部分即可獲得第5圖之結果;輸入資料集205中80%之G樣本用於訓練分類器之測試中,並生成如第4圖之結果,而輸入資料集205的G樣本(2000個G樣本)中只有50.8%用於訓練分類器之測試中,並生成如第5圖之結果。
在一些實施例中,k-fold驗證為用於獲得對根據本文所述方法建構之分類器115的準確性更可靠的評估。
在一些實施例中,第一分類器(或「第一分類器模型」)310和第二分類器(或「第二分類器模型」)325中的每一個可如本文所述之經適當訓練的SqueezeNet、ResNet或VggNet神經網路。可藉由在arxiv.org/abs/1312.6114取得之D. Kingma和M. Welling的「 Auto-Encoding Variational Bayes」中之內容來建構可變自動編碼器,其全部內容通過引用併入本文。
在一些實施例中,資料預處理電路110、分類器115和執行第2圖所示方法之分類系統中的一個或多個,在一個或多個處理電路中實施。術語「處理電路」在本文中用來表示用於處理資料或數位訊號的硬體、韌體以及軟體之任何組合。處理電路之硬體可包括例如專用集成電路(ASIC)、通用或專用中央處理器(CPU)、數位訊號處理器(DSP)、圖形處理器(GPU),以及可程式化邏輯裝置(例如,場域可程式化邏輯閘陣列(FPGA))。在如本文所使用的處理電路中,每個功能皆由其配置的硬體執行(即,硬佈線)以執行該功能,或藉由更通用的硬體(例如CPU)配置為執行儲存在非暫態儲存媒體中的指令。處理電路可被製造在單個印刷電路板(PCB)上,或也可分佈在幾個互連的PCB上。處理電路可包含其他處理電路; 例如處理電路可包括在PCB上互連的兩個處理電路,FPGA和CPU。
如本文所使用,事物之「部分」係指事物的全部或少於全部。 例如資料集的一部分所指為該資料集的適當子集,或者整個資料集。
可理解的是,儘管術語「第一」、「第二」、「第三」等在本文中可用於描述各種元件、組件、區域、層和/或部分,但是該等元件、組件、區域、層和/或部分不應受到其術語的限制。 該術語僅用於區分一個元素、組件、區域、層或者另一個元素、組件、區域、層或部分。因此,在不脫離本發明構思的精神和範圍之情況下,本文中討論的第一元件、組件、區域、層或部分可被稱為第二元件、組件、區域、層或部分。
本文所使用的術語僅出於描述特定實施例的目的,並且無意於限制本發明構思。如本文中所使用之術語「基本上(substantially)」、「大約(about)」和類似術語被用作近似術語而不是程度術語,並且意在解釋測量或計算值中固有之偏差,這些偏差將被本領域具通常知識者所認可。如本文所用之術語「主要組分(major component)」是指以大於組合物或產物中任何其他單一組分的量存在於組合物、聚合物或產物中的組分。相反地,術語「主要成分(primary component)」是指佔組合物、聚合物或產物的至少50重量%或更多的組分。如本文中所使用之術語「主要部分(major portion)」在應用於多個物品時表示至少一半的物品。
如本文中所使用單數形式「一(a)」和「一(an)」也意指包括複數形式,除非上下文另外明確指出。將進一步理解的是,當在本文中使用之術語「包括(comprises)」和/或「包含(comprising)」時,其指定了所述特徵、整體、步驟、操作、元件和/或組件的存在,但不排除存在一個或多個附加特徵、整體、步驟、操作、元件、組件和/或群組。如本文所使用之術語「及/或(and/or)」包括一個或多個相關聯列出之項目的任何和所有組合。當在元件列表之前時,諸如「…中的至少一個」的表達會修飾整個元件列表,而不修飾列表中的各個元件。此外,當描述發明構思的實施例時,「可(may)」的使用是指「本公開的一個或多個實施例」。同樣地,術語「例示性(exemplary)」旨在表示示例或說明。如本文所使用之術語「使用(use)」、「使用(using)」和「被使用(used)」可分別被認為與術語「利用(utilize)」、「利用(utilizing)」和「已利用(utilized)」同義。
可理解的是,當元件或層被稱為在另一元件或層「上」、「連接至」、「耦合至」或「鄰近」時,其可以直接連接至可存在與另一元件或層耦接或相鄰的另一元件或層、或一個或多個中間元件或層。相反地,當元件或層被稱為「直接在」、「直接連接至」、「直接耦合至」或「緊鄰」另一元件或層時,則不存在中間元件或層。
本文中引用的任何數值範圍旨在包括包含在所述範圍內之具有相同數值精度的所有子範圍。 例如,範圍「 1.0至10.0」旨在包括在所列舉的最小值1.0和所列舉的最大值10.0(並且包括)之間的所有子範圍,亦即,具有等於或大於1.0之最小值以及等於或小於10.0之最大值,例如2.4至7.6。 本文列舉的任何最大數值限制旨在包括其中包含的所有較低數值限制,並且本文中列舉的任何最小數值限制旨在包括其中包含的所有較高數值限制。
儘管本文已經具體描述和示出了用於資料擴增的系統和方法的例示性實施例,但是許多修改和變化對於本領域具通常知識者而言將是顯而易見的。因此,應當理解,除了本文具體描述的以外,可以體現根據本文的原理建構之用於資料擴增的系統和方法。本發明也由以下申請專利範圍及其等同物所界定。
105:資料收集電路 110:資料預處理電路 115:分類器 205:輸入資料集 210:超採樣 215:基準二進制分類器訓練 220:資料標記 225:VAE資料擴增 230:分類器訓練 235,250:輸入資料 240:資料分離器 245:分類器驗證 305:第一補充資料集 310:第一分類器模型 315:第三資料集 320:第三訓練資料集 325:第二分類器模型 330:比較原始標籤與結果
參考說明書、申請專利範圍和附圖將可理解本發明,以及本發明其他特徵和優點,其中: 第1圖係根據本發明實施例,用於分類之系統的方塊圖; 第2圖係根據本發明實施例,用於訓練和驗證分類器之方法的流程圖; 第3A圖係根據本發明實施例,用於訓練和驗證分類器之方法之一部分的流程圖; 第3B圖係根據本發明實施例,用於訓練和驗證分類器之方法之一部分的流程圖; 第3C圖係根據本發明實施例,用於訓練和驗證分類器之方法之一部分的流程圖; 第3D圖係根據本發明實施例,用於訓練和驗證分類器之方法之一部分的流程圖; 第3E圖係根據本發明實施例,用於訓練和驗證分類器之方法之一部分的流程圖; 第3F圖係根據本發明實施例,用於訓練和驗證分類器之方法之一部分的流程圖; 第4圖係根據本發明實施例之測試結果的表;以及 第5圖係根據本發明實施例之測試結果的表。
205:輸入資料集
210:超採樣
215:基準二進制分類器訓練
220:資料標記
225:VAE資料擴增
230:分類器訓練
235,250:輸入資料
240:資料分離器
245:分類器驗證

Claims (20)

  1. 一種分類方法,該方法包括: 從一標記的輸入資料集中形成一第一訓練資料集和一第二訓練資料集; 使用該第一訓練資料集訓練一第一分類器; 使用該第二訓練資料集訓練一可變自動編碼器,該可變自動編碼器包括一編碼器和一解碼器; 藉由將一偽隨機向量饋入該解碼器以生成一第三資料集; 使用該第一分類器標記該第三資料集以形成一第三訓練資料集; 基於該第三資料集以形成一第四訓練資料集;以及 使用該第四訓練資料集訓練該第二分類器。
  2. 如請求項1所述之分類方法,其中,該第一訓練資料集為該標記的輸入資料集。
  3. 如請求項1所述之分類方法,其中,該第二訓練資料集為該標記的輸入資料集。
  4. 如請求項1所述之分類方法,其中,該第一訓練資料集之形成包括: 對該標記的輸入資料集進行一超採樣,以生成一第一補充資料集;以及 組合該標記的輸入資料集和該第一補充資料集以形成該第一訓練資料集。
  5. 如請求項4所述之分類方法,其中,對該標記的輸入資料集進行之該超採樣包括使用一合成少數超採樣技術。
  6. 如請求項4所述之分類方法,其中,對該標記的輸入資料集進行之該超採樣包括使用一自適應合成超採樣技術。
  7. 如請求項4所述之分類方法,其中,該第四訓練資料集和該第三訓練資料集相同。
  8. 如請求項4所述之分類方法,其中,該第四訓練資料集之形成包括組合: 該標記的輸入資料集之一第一部份,以及 該第三訓練資料集, 以形成該第四訓練資料集。
  9. 如請求項4所述之分類方法,其中,該第四訓練資料集之形成包括組合: 該標記的輸入資料集之一第一部份, 該第一補充資料集,以及 該第三訓練資料集, 以形成該第四訓練資料集。
  10. 如請求項9所述之分類方法,其中,進一步包括利用該標記的輸入資料集中不同於該標記的輸入資料集之該第一部份的一第二部份來驗證該第二分類器。
  11. 如請求項1所述之分類方法,其中,該第二訓練資料集之形成包括: 對該標記的輸入資料集進行一超採樣,以生成一第一補充資料集;以及 組合該標記的輸入資料集和該第一補充資料集以形成該第二訓練資料集。
  12. 如請求項1所述之分類方法,其中,該標記的輸入資料集包括: 包括一第一數量之資料元素之多數分類資料和包括一第二數量之少數分類資料, 該第一數量超過該第二數量至少5倍。
  13. 如請求項12所述之分類方法,其中,該第一數量超過該第二數量至少15倍。
  14. 一種分類系統,其包括: 一處理電路,其配置為: 從一標記的輸入資料集中形成一第一訓練資料集和一第二訓練資料集; 使用該第一訓練資料集訓練一第一分類器; 使用該第二訓練資料集訓練一可變自動編碼器,該可變自動編碼器包括一編碼器和一解碼器; 藉由將偽隨機向量饋入該解碼器以生成一第三資料集; 使用該第一分類器標記該第三資料集以形成一第三訓練資料集; 基於該第三資料集形成一第四訓練資料集;以及 使用該第四訓練資料集訓練一第二分類器。
  15. 如請求項14所述之分類系統,其中,該第一訓練資料集為該標記的輸入資料集。
  16. 如請求項14所述之分類系統,其中,該第二訓練資料集為該標記的輸入資料集。
  17. 如請求項14所述之分類系統,其中,該第一訓練資料集之形成包括: 對該標記的輸入資料集進行一超採樣,以生成一第一補充資料集;以及 組合該標記的輸入資料集和該第一補充資料集以形成該第一訓練資料集。
  18. 如請求項17所述之分類系統,其中,對該標記的輸入資料集進行之該超採樣包括使用一合成少數超採樣技術。
  19. 如請求項17所述之分類系統,其中,對該標記的輸入資料集進行之該超採樣包括使用一自適應合成超採樣技術。
  20. 一種用於將製造零件分類為良品或劣品之分類系統,該分類系統包括: 一資料收集電路;以及 一處理電路, 該處理電路被配置為: 從一標記的輸入資料集中形成一第一訓練資料集和一第二訓練資料集; 使用該第一訓練資料集訓練一第一分類器; 使用該第二訓練資料集訓練一可變自動編碼器,該可變自動變碼器包括一編碼器和一解碼器; 藉由將偽隨機向量饋入該解碼器來生成一第三資料集; 使用該第一分類器標記該第三資料集以形成一第三訓練資料集; 基於該第三資料集形成一第四訓練資料集;以及 使用該第四訓練資料集訓練一第二分類器。
TW109104858A 2019-04-05 2020-02-15 用於追跡資料的資料擴增系統及方法 TW202107345A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962830131P 2019-04-05 2019-04-05
US62/830,131 2019-04-05
US16/442,298 2019-06-14
US16/442,298 US11922301B2 (en) 2019-04-05 2019-06-14 System and method for data augmentation for trace dataset

Publications (1)

Publication Number Publication Date
TW202107345A true TW202107345A (zh) 2021-02-16

Family

ID=69526091

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109104858A TW202107345A (zh) 2019-04-05 2020-02-15 用於追跡資料的資料擴增系統及方法

Country Status (6)

Country Link
US (1) US11922301B2 (zh)
EP (1) EP3719709A1 (zh)
JP (1) JP7489784B2 (zh)
KR (1) KR20200118351A (zh)
CN (1) CN111797885A (zh)
TW (1) TW202107345A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112419324B (zh) * 2020-11-24 2022-04-19 山西三友和智慧信息技术股份有限公司 一种基于半监督任务驱动的医学图像数据扩充方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899625B2 (en) * 2006-07-27 2011-03-01 International Business Machines Corporation Method and system for robust classification strategy for cancer detection from mass spectrometry data
US20130132331A1 (en) 2010-03-08 2013-05-23 National Ict Australia Limited Performance evaluation of a classifier
US20130097103A1 (en) 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
US9037518B2 (en) 2012-07-30 2015-05-19 Hewlett-Packard Development Company, L.P. Classifying unclassified samples
JP6335910B2 (ja) * 2012-10-25 2018-05-30 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 臨床決定支援に対する、血栓症に対する臨床的リスク因子及び分子マーカの組み合わされた使用
US9224104B2 (en) 2013-09-24 2015-12-29 International Business Machines Corporation Generating data from imbalanced training data sets
US20160092789A1 (en) 2014-09-29 2016-03-31 International Business Machines Corporation Category Oversampling for Imbalanced Machine Learning
GB201508032D0 (en) 2015-05-12 2015-06-24 Rolls Royce Plc Methods and apparatus for predicting fault occurrence in mechanical systems and electrical systems
US20160358099A1 (en) 2015-06-04 2016-12-08 The Boeing Company Advanced analytical infrastructure for machine learning
CN105589806B (zh) 2015-12-17 2018-05-18 北京航空航天大学 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法
US10043261B2 (en) 2016-01-11 2018-08-07 Kla-Tencor Corp. Generating simulated output for a specimen
KR101744194B1 (ko) 2016-08-19 2017-06-09 인하대학교 산학협력단 반도체 fab 제조공정에서 유클리드 거리를 활용한 웨이퍼 자동 불량 검사 분류 예측 장치 및 방법
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
JP7017861B2 (ja) 2017-03-23 2022-02-09 株式会社日立製作所 異常検知システムおよび異常検知方法
WO2018175098A1 (en) 2017-03-24 2018-09-27 D5Ai Llc Learning coach for machine learning system
CN107103332B (zh) 2017-04-07 2018-06-26 武汉理工大学 一种面向大规模数据集的相关向量机分类方法
CN107391370B (zh) 2017-07-13 2020-05-12 武汉大学 一种基于数据过采样和集成学习的软件缺陷数目预测方法
US11599790B2 (en) 2017-07-21 2023-03-07 Landmark Graphics Corporation Deep learning based reservoir modeling
MX2018011305A (es) * 2017-09-18 2019-07-04 Tata Consultancy Services Ltd Técnicas para corregir el desvío de entrenamiento lingüístico en los datos de entrenamiento.
IL256480B (en) 2017-12-21 2021-05-31 Agent Video Intelligence Ltd A system and method for use in training machine learning
CN108563556A (zh) 2018-01-10 2018-09-21 江苏工程职业技术学院 基于差分演化算法的软件缺陷预测优化方法
WO2019155467A1 (en) 2018-02-07 2019-08-15 Applied Materials Israel Ltd. Method of generating a training set usable for examination of a semiconductor specimen and system thereof
US11372893B2 (en) * 2018-06-01 2022-06-28 Ntt Security Holdings Corporation Ensemble-based data curation pipeline for efficient label propagation
US10832003B2 (en) 2018-08-26 2020-11-10 CloudMinds Technology, Inc. Method and system for intent classification
US11366982B2 (en) * 2018-09-24 2022-06-21 Sap Se Computer systems for detecting training data usage in generative models
US20200143274A1 (en) * 2018-11-06 2020-05-07 Kira Inc. System and method for applying artificial intelligence techniques to respond to multiple choice questions
US11928610B2 (en) 2018-11-19 2024-03-12 Koninklijke Philips N.V. Clinical case search and generation system and method based on a probabilistic encoder-generator framework
US11610098B2 (en) * 2018-12-27 2023-03-21 Paypal, Inc. Data augmentation in transaction classification using a neural network

Also Published As

Publication number Publication date
JP7489784B2 (ja) 2024-05-24
US11922301B2 (en) 2024-03-05
US20200320439A1 (en) 2020-10-08
EP3719709A1 (en) 2020-10-07
JP2020173786A (ja) 2020-10-22
CN111797885A (zh) 2020-10-20
KR20200118351A (ko) 2020-10-15

Similar Documents

Publication Publication Date Title
Veselovsky et al. Artificial artificial artificial intelligence: Crowd workers widely use large language models for text production tasks
TW202129528A (zh) 產品分類系統及方法
Xie et al. Fault diagnosis for rotating machinery based on convolutional neural network and empirical mode decomposition
Li et al. A deep transfer nonnegativity-constraint sparse autoencoder for rolling bearing fault diagnosis with few labeled data
Yin et al. Wasserstein Generative Adversarial Network and Convolutional Neural Network (WG‐CNN) for Bearing Fault Diagnosis
Singh et al. Steganalysis of digital images using deep fractal network
CN113763312A (zh) 使用弱标记检测半导体试样中的缺陷
CN113869208A (zh) 基于sa-acwgan-gp的滚动轴承故障诊断方法
CN111507228B (zh) 一种基于深度学习的合金钢力学性能联合无损检测方法
TW202107345A (zh) 用於追跡資料的資料擴增系統及方法
Patel et al. Investigation of uncertainty of deep learning-based object classification on radar spectra
TWI760657B (zh) 異常偵測模型的訓練方法及使用此方法的電子裝置
CN110929301B (zh) 一种基于提升算法的硬件木马检测方法
CN1696721A (zh) 组合多个独立信息源用于被测器件的分类
JP7123306B2 (ja) 画像処理装置及び画像処理方法
CN114998330B (zh) 无监督的晶圆缺陷检测方法、装置、设备及存储介质
CN115775218A (zh) 模型训练方法、视频质量评估方法、装置、设备及介质
Li et al. A logit adjusting transformer for class imbalance in surface defect recognition
Lyu et al. A Novel Fault Diagnosis Method Based on Feature Fusion and Model Agnostic Meta-Learning
CN112699095B (zh) 基于ann的光学特性建模数据库生成方法
Pawlowski et al. Simulation and Fault Diagnosis in Post-Manufacturing Mixed Signal Circuits
CN116910594B (zh) 一种基于脉冲神经网络的滚动轴承故障诊断方法
Li et al. A supervised ANN method for memory failure signature classification
Zheng et al. Noise Decomposition Based on VGG and LSTM Networks
KR20230050890A (ko) 딥 러닝을 이용한 음성 데이터 자동 검수 시스템 및 방법