TWI801767B - 機器學習分類模型之修正方法與訓練系統及使用者介面 - Google Patents

機器學習分類模型之修正方法與訓練系統及使用者介面 Download PDF

Info

Publication number
TWI801767B
TWI801767B TW109138987A TW109138987A TWI801767B TW I801767 B TWI801767 B TW I801767B TW 109138987 A TW109138987 A TW 109138987A TW 109138987 A TW109138987 A TW 109138987A TW I801767 B TWI801767 B TW I801767B
Authority
TW
Taiwan
Prior art keywords
data
category
identification data
generated
machine learning
Prior art date
Application number
TW109138987A
Other languages
English (en)
Other versions
TW202219848A (zh
Inventor
林信成
周森益
Original Assignee
財團法人工業技術研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人工業技術研究院 filed Critical 財團法人工業技術研究院
Priority to TW109138987A priority Critical patent/TWI801767B/zh
Priority to US17/115,266 priority patent/US20220147868A1/en
Publication of TW202219848A publication Critical patent/TW202219848A/zh
Application granted granted Critical
Publication of TWI801767B publication Critical patent/TWI801767B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一種機器學習分類模型之修正方法與訓練系統及使用者介面。機器學習分類模型用以進行數個類別的辨識。修正方法包括以下步驟。輸入數筆辨識資料至機器學習分類模型,以獲得各個辨識資料對應於這些類別的數個信心度。對於各個辨識資料中,在這些信心度之一最高值不大於一臨界值的情況下,記錄這些信心度之一類別信心度分布。統計這些辨識資料之這些類別信心度分布。依據這些類別信心度分布之統計結果,蒐集部分之這些辨識資料。判斷蒐集之這些辨識資料是否屬於一新類別。若蒐集之這些辨識資料屬於新類別,則進行一類別新增。

Description

機器學習分類模型之修正方法與訓練系統及使 用者介面
本揭露是有關於一種機器學習分類模型之修正方法與訓練系統及使用者介面。
在機器學習分類模型中,不管是物件偵測或是單純的分類,都可能會出現分類錯誤,或是分類的信心度較低的情況發生。此時可能是此物件的特徵較少出現在訓練資料當中,而造成辨識正確率過低。或者,機器學習分類模型的辨識廣度不足時,所辨識的物件是從沒見過的物件,而強制將其歸類為某個類別,造成辨識上的錯誤。
通常發生此問題時,大部分的做法就是增加原本的訓練資料,然而此做法不僅費時費力,改善的效果也不大。
本揭露係有關於一種機器學習分類模型之修正方法與訓練系統及使用者介面。
根據本揭露之一實施例,提出一種機器學習分類模型之修正方法。機器學習分類模型用以進行數個類別的辨識。修正方法包括以下步驟。輸入數筆辨識資料至機器學習分類模型,以獲得各個辨識資料對應於這些類別的數個信心度。對於各個辨識資料中,在這些信心度之一最高值不大於一臨界值的情況下,記錄這些信心度之一類別信心度分布。統計這些辨識資料之這些類別信心度分布。依據這些類別信心度分布之統計結果,蒐集部分之這些辨識資料。判斷蒐集之這些辨識資料是否屬於一新類別。若蒐集之這些辨識資料屬於新類別,則進行一類別新增。
根據本揭露之另一實施例,提出一種機器學習分類模型之訓練系統。機器學習分類模型用以進行數個類別的辨識。訓練系統包括一輸入單元、機器學習分類模型、一記錄單元、一統計單元、一蒐集單元、一判斷單元及一類別新增單元。輸入單元用以輸入數筆辨識資料。機器學習分類模型用以獲得各個辨識資料對應於這些類別的數個信心度。對於各個辨識資料中,在這些信心度之一最高值不大於一臨界值的情況下,記錄單元記錄這些信心度之一類別信心度分布。統計單元用以統計這些辨識資料之這些類別信心度分布。蒐集單元用以依據這些類別信心度分布之統計結果,蒐集部分之這些辨識資料。判斷單元用以判斷蒐集 之這些辨識資料是否屬於一新類別。若蒐集之這些辨識資料屬於新類別,則類別新增單元進行一類別新增。
根據本揭露之再一實施例,提出一種使用者介面。使用者介面用以供一使用者操作一機器學習分類模型之訓練系統。機器學習分類模型用以進行數個類別的辨識。機器學習分類模型接收數筆辨識資料後,獲得各個辨識資料對應於各個類別的數個信心度。使用者介面包括一推薦視窗、一類別信心度分布顯示視窗及一類別信心度分布顯示視窗。推薦視窗用以顯示數筆推薦優化資料集合。類別信心度分布顯示視窗用以於這些推薦優化資料集合之其中之一被點選時,顯示被點選之推薦優化資料集合之一類別信心度分布。
為了對本揭露之上述及其他方面有更佳的瞭解,下文特舉實施例,並配合所附圖式詳細說明如下:
1000:訓練系統
110:輸入單元
120:輸出單元
130:記錄單元
140:統計單元
150:蒐集單元
160:判斷單元
170:類別新增單元
180:特徵提取單元
190:資料生成單元
200:機器學習分類模型
300:使用者介面
B1:集合新增按鈕
B2:類別信心度分布修改按鈕
CCD:類別信心度分布
CF:信心度
CG:類別
CG’:新類別
DT:辨識資料
DT’:生成資料
PC:物理特徵
S1,S2,S3:推薦優化資料集合
S1’:自訂優化資料集合
S110,S120,S130,S140,S150,S160,S161,S170,S171,S180:步驟
W1:推薦視窗
W2:類別信心度分布顯示視窗
第1圖繪示根據一實施例之機器學習分類模型之訓練系統的示意圖。
第2圖繪示根據一實施例之機器學習分類模型之修正方法的流程圖。
第3圖示例說明根據一實施例之使用者介面的示意圖。
請參照第1圖,其繪示根據一實施例之機器學習分類模型200之訓練系統1000的示意圖。機器學習分類模型200用以進行數個類別的辨識。舉例來說,在半導體製程中會針對晶圓影像進行「刮痕」、「破裂」、「線路」等類別的辨識。一張晶圓影像輸入機器學習分類模型200例如是獲得以下表一的辨識數值。「刮痕」之類別具有最高的信心度,且其信心度高於一預定值(例如是80%),故輸出的辨識結果為「刮痕」。
Figure 109138987-A0305-02-0007-1
在另一例中,一張晶圓影像輸入機器學習分類模型200例如是獲得以下表二的辨識數值。「破裂」之類別具有最高的信心度,但其信心度不高於預定值(例如是80%),故無法輸出的辨識結果。然而,造成「破裂」之信心度過低的原因可能是機器學習分類模型200之訓練資料的「破裂」都是發生在邊緣處,但此張晶圓影像的「破裂」是發生在中央處,故無法獲得較高的信心度。本揭露之訓練系統1000可以針對此種資料進行資料生成,並據以訓練機器學習分類模型200,以優化辨識結果。
Figure 109138987-A0305-02-0007-2
Figure 109138987-A0305-02-0008-3
在另一例中,一張晶圓影像輸入機器學習分類模型200例如是獲得以下表三的辨識數值。「刮痕」之類別與「破裂」之類別具有差異不大的信心度,但其信心度不高於預定值(例如是80%),故無法輸出的辨識結果。然而,「線路」之類別的信心度也相當的低,故造成此現象的原因可能是機器學習分類模型200之類別不足(例如是應為「微粒子」之類別),故沒有任一類別能夠獲得較高的信心度。本揭露之訓練系統1000可以針對此種資料進行類別新增,並據以訓練機器學習分類模型200,以優化辨識結果。
Figure 109138987-A0305-02-0008-4
請參照第1圖,機器學習分類模型200之訓練系統1000的示意圖包括一輸入單元110、該機器學習分類模型200、一輸出單元120、一記錄單元130、一統計單元140、一蒐集單元150、一判斷單元160、一類別新增單元170、一 特徵提取單元180、一資料生成單元190及一使用者介面300。各元件之功能概略說明如下。輸入單元110用以輸入資料,例如是一傳輸線、一傳輸模組、一硬碟、一記憶體或一雲端資料中心。輸出單元120用以輸出辨識結果,例如是一傳輸線、一傳輸模組或一顯示器。記錄單元130用以記錄資料,例如是一記憶體、一硬碟或一雲端資料中心。統計單元140用以進行資料統計。蒐集單元150用以進行資料蒐集。判斷單元160用以進行判斷程序。類別新增單元170用以新增類別。特徵提取單元180用以提取特徵。資料生成單元190用以進行資料生成。統計單元140、蒐集單元150、判斷單元160、類別新增單元170、特徵提取單元180、資料生成單元190例如是一電路、一晶片、一電路板、程式碼、或儲存程式碼之儲存裝置。使用者介面300例如是一行動裝置之顯示面板。
訓練系統1000可以透過特徵提取單元180及資料生成單元190,來補充訓練機器學習分類模型200,以改善表二的情況。並且,訓練系統1000可以透過類別新增單元170,來補充訓練機器學習分類模型200,以改善表三情況。以下更透過一流程圖詳細說明上述各項元件的運作。
請參照第2圖,其繪示根據一實施例之機器學習分類模型200之修正方法的流程圖。機器學習分類模型200用以進行數個類別CG的辨識。在步驟S110中,輸入單元110輸入數筆 辨識資料DT至機器學習分類模型200,以獲得各辨識資料DT對應於這些類別CG的數個信心度CF。在每一筆辨識資料DT中,對應於每一類別CG均可以獲得一個信心度CF。在這些信心度CF中,最高者代表該筆辨識資料DT最有可能的類別CG。
接著,在步驟S120中,對於各個辨識資料DT中,在這些信心度CF之最高值大於一臨界值(例如是80%)的情況下,輸出單元120輸出所對應的類別CG;在這些信心度CF之最高值不大於臨界值的情況下,由記錄單元130記錄這些信心度CF之一類別信心度分布CCD。
舉例來說,請參照下表四,其示例說明某一辨識資料DT之類別信心度分布CCD。對應於各類別CG,可以預設數個信心度區間,例如是80%~70%、70%~60%、60%~50%、50%~40%、40%~30%、30%~20%、20%~10%、10%~0%(這些信心度區間例如皆不含上限)。值得說明的是,這些信心度區間並不會包含大於臨界值的範圍。表四的類別信心度分布CCD係為「刮痕之信心度區間為40%~30%」、「破裂之信心度區間為40%~30%」及「線路之信心度區間為10%~0%」之這一組合。
Figure 109138987-A0305-02-0010-5
表四
請再參照下表五,其示例說明另一辨識資料DT之類別信心度分布CCD。表五的類別信心度分布CCD係為「刮痕之信心度區間為60%~50%」、「破裂之信心度區間為40%~30%」及「線路之信心度區間為10%~0%」之這一組合。表五與表四的類別信心度分布CCD不同。
Figure 109138987-A0305-02-0011-6
請再參照下表六,其示例說明另一辨識資料DT之類別信心度分布CCD。表六的類別信心度分布CCD係為「刮痕之信心度區間為40%~30%」、「破裂之信心度區間為40%~30%」及「線路之信心度區間為10%~0%」之這一組合。表六與表四的信心度CF不同,但類別信心度分布CCD相同。
Figure 109138987-A0305-02-0011-7
隨著機器學習分類模型200持續對辨識資料DT進行辨識,越來越多的類別信心度分布CCD也會被記錄下來,部分的類別信心度分布CCD會相同。
然後,在步驟S130,統計單元140統計這些辨識資料DT之類別信心度分布CCD。在此步驟中,統計單元140對各種類別信心度分布CCD進行累計,並將統計結果透過使用者介面300進行顯示與推薦。
接著,在步驟S140中,蒐集單元150依據這些類別信心度分布CCD之統計結果,蒐集部分之辨識資料DT。蒐集單元150例如是蒐集類別信心度分布CCD之類計次數最高者所對應的辨識資料DT。舉例來說,類別信心度分布CCD之最高累計次數為13次,則有13筆辨識資料DT均對應於此類別信心度分布CCD。蒐集單元150則將此13筆辨識資料DT蒐集起來。
然後,在步驟S150中,判斷單元160判斷蒐集之這些辨識資料DT是否屬於一新類別。新類別係指不屬於機器學習分類模型200已定義的類別CG。舉例來說,判斷單元160可以利用演算法自動進行判斷,例如是k-means演算法。或者,判斷單元160可以接收操作人員的輸入訊息來確認這些辨識資料DT是否屬於新類別。若蒐集之這些辨識資料DT屬於新類別(即不屬於已定義之類別CG),則進入步驟S160;若蒐集之這些辨識資料DT不屬於新類別(即屬於已定義之類別CG之其中之一),則進入步驟S170。
在步驟S160中,類別新增單元170進行一類別新增。例如是新增「微粒子」之新類別CG’。
接著,在步驟S161中,資料生成單元190針對新類別CG’進行一資料生成,以獲得數筆生成資料DT’。資料生成單元190例如是利用生成對抗網路演算法(Generative Adversarial Network,GAN)或多樣性生成演算法(Domain Randomization)進行資料生成。在此步驟中,係針對判斷出來的新類別CG’進行新增,例如是外加虛擬的微粒子,以獲得生成資料DT’。
接著,在步驟S180中,輸入單元110輸入這些生成資料DT’至已進行類別新增之機器學習分類模型200,以進行訓練。如此一來,可以修正機器學習分類模型200之特徵內容,使得修正後的機器學習分類模型200也能夠正確辨識出新類別CG’。
在一實施例中,步驟S170係可省略,而直接透過機器學習分類模型200對現有的辨識資料DT進行現有的類別CG及新類別CG’的辨識與訓練。如此一來,可以修正機器學習分類模型200之特徵內容,使得修正後的機器學習分類模型200也能夠正確辨識出新類別CG’。
在步驟S170中,特徵提取單元180提取蒐集之這些辨識資料DT的至少一物理特徵PC。所蒐集的辨識資料DT都是屬於已定義的類別CG,但卻未被正確辨識出來。可見訓練的辨識 資料DT存在某方面的缺陷,而需要補強。舉例來說,現有的辨識資料DT大多是邊緣的破裂與缺角。但蒐集單元150所蒐集到13筆辨識資料DT都的是位於中心的破裂,使得機器學習分類模型200沒有正確將這13筆辨識資料DT歸類為「破裂」的類別CG。
接著,在步驟S171中,資料生成單元190依據物理特徵PC,進行資料生成,以獲得數筆生成資料DT’。這些生成資料都具有類似的物理特徵PC,以補強現有的辨識資料DT。舉例來說,資料生成單元190可以生成一些生成資料DT’,使其具有破裂且位於中心,並預先標註破裂之位置。
然後,在步驟S180中,輸入單元110輸入這些生成資料DT’至機器學習分類模型200,以進行訓練。如此一來,可以修正機器學習分類模型200之特徵內容,使得修正後的機器學習分類模型200也能夠針對破裂位於中心的辨識資料DT進行正確辨識。
在步驟S171中,生成之生成資料DT’的數量相關於類別信心度分布CCD,以避免過多的生成資料DT’影響機器學習分類模型200的正確度,也避免過少的生成資料DT’無法實現補強正確率的效果。
舉例來說,生成之生成資料DT’的數量與類別信心度分布CCD之一最高信心度負相關。也就是說,最高信心度越高時,只需少少的生成資料DT’即可達成效果;最高信心度越低時,則需較多的生成資料DT’才可達成效果。
在一實施例中,生成之生成資料DT’的數量可以按照以下方式安排。最高信心度大於或等於60%且小於80%時,生成之生成資料DT’的數量為辨識資料DT之10%;最高信心度大於或等於40%且小於60%時,生成之生成資料DT’的數量為辨識資料DT之15%;最高信心度大於或等於20%且小於40%時,生成之生成資料DT’的數量為辨識資料DT之20%;最高信心度小於20%時,生成之生成資料DT’的數量為辨識資料DT之25%。
此外,上述步驟S130中,統計結果可以透過使用者介面300進行顯示與推薦。以下更說明使用者介面300之一例。請參照第3圖,其示例說明根據一實施例之使用者介面300的示意圖。使用者介面300包括一推薦視窗W1、一類別信心度分布顯示視窗W2、一集合新增按鈕B1及一類別信心度分布修改按鈕B2。推薦視窗W1用以顯示數筆推薦優化資料集合S1、S2、S3、...。推薦優化資料集合S1中的辨識資料DT具有相同的類別信心度分布CCD。推薦優化資料集合S2中的辨識資料DT具有相同的類別信心度分布CCD。推薦優化資料集合S3中的辨識資料DT具有相同的類別信心度分布CCD。使用者點選推薦優化資料集合S1時,類別信心度分布顯示視窗W2會顯示出推薦優化資料集合S1中的辨識資料DT所具有的類別信心度分布CCD。
推薦優化資料集合S1、S2、S3、...例如是按照類別信心度分布CCD之累計次數由高至低進行排序。
集合新增按鈕B1用以新增一自訂優化資料集合S1’。類別信心度分布修改按鈕B2用以對自訂優化資料集合S1’ 修改類別信心度分布CCD。也就是說,除了根據類別信心度分布CCD之累計次數推薦出推薦優化資料集合S1、S2、S3、...以外,使用者也可以自定義類別信心度分布CCD的內容,以產生自訂優化資料集合S1’,並取得對應的辨識資料DT。
使用者可以勾選一或多個推薦優化資料集合S1、S2、S3、...或自訂優化資料集合S1’以決定要取出那些辨識資料DT進行後續的資料生成。
根據上述實施例,機器學習分類模型之訓練系統1000與修正方法可以透過特徵提取單元180及資料生成單元190,來補充訓練機器學習分類模型200,以增加辨識的正確率。並且,訓練系統1000與修正方法可以透過類別新增單元170,來補充訓練機器學習分類模型200,以增進辨識的廣度。
綜上所述,雖然本揭露已以實施例揭露如上,然其並非用以限定本揭露。本揭露所屬技術領域中具有通常知識者,在不脫離本揭露之精神和範圍內,當可作各種之更動與潤飾。因此,本揭露之保護範圍當視後附之申請專利範圍所界定者為準。
1000:訓練系統
110:輸入單元
120:輸出單元
130:記錄單元
140:統計單元
150:蒐集單元
160:判斷單元
170:類別新增單元
180:特徵提取單元
190:資料生成單元
200:機器學習分類模型
300:使用者介面
CCD:類別信心度分布
CF:信心度
CG:類別
CG’:新類別
DT:辨識資料
DT’:生成資料
PC:物理特徵

Claims (16)

  1. 一種電腦程式產品,經由電腦載入該電腦程式產品後執行一機器學習分類模型之修正方法,該機器學習分類模型用以進行複數個類別的辨識,該修正方法包括:輸入複數筆辨識資料至該機器學習分類模型,以獲得各該辨識資料對應於該些類別的複數個信心度;對於各該辨識資料中,在該些信心度之一最高值不大於一臨界值的情況下,記錄該些信心度之一類別信心度分布;統計該些辨識資料之該些類別信心度分布;依據該些類別信心度分布之統計結果,蒐集部分之該些辨識資料;利用一演算法判斷蒐集之該些辨識資料是否屬於一新類別;若蒐集之該些辨識資料屬於該新類別,則進行一類別新增,且針對該新類別進行一第一資料生成程序,以獲得複數筆第一生成資料;若蒐集之該些辨識資料不屬於該新類別,則提取蒐集之該些辨識資料的至少一物理特徵,依據該至少一物理特徵,進行一第二資料生成程序,以獲得複數筆第二生成資料;以及輸入該些第一生成資料或該些第二生成資料至已進行類別新增之該機器學習分類模型,以進行訓練;其中獲得該些第一生成資料之該第一資料生成程序不同於獲得該些第二生成資料之該第二資料生成程序。
  2. 如請求項1所述之電腦程式產品,其中在該類別新增後,該修正方法更包括:輸入該些辨識資料至已進行類別新增之該機器學習分類模型,以進行訓練。
  3. 如請求項1所述之電腦程式產品,其中在進行該第二資料生成程序之步驟中,生成之該些第二生成資料的數量相關於該類別信心度分布。
  4. 如請求項3所述之電腦程式產品,其中在進行該第二資料生成程序之步驟中,生成之該些第二生成資料的數量與該類別信心度分布之一最高信心度負相關。
  5. 如請求項4所述之電腦程式產品,其中在進行該第二資料生成程序之步驟中,該最高信心度大於或等於60%且小於80%時,生成之該些第二生成資料的數量為該些辨識資料之10%;該最高信心度大於或等於40%且小於60%時,生成之該些第二生成資料的數量為該些辨識資料之15%;該最高信心度大於或等於20%且小於40%時,生成之該些第二生成資料的數量為該些辨識資料之20%;該最高信心度小於20%時,生成之該些第二生成資料的數量為該些辨識資料之25%。
  6. 如請求項4所述之電腦程式產品,其中該統計結果顯示於一使用者介面。
  7. 一種機器學習分類模型之訓練系統,該機器學習分類模型用以進行複數個類別的辨識,該訓練系統包括:一輸入單元,用以輸入複數筆辨識資料;該機器學習分類模型,用以獲得各該辨識資料對應於該些類別的複數個信心度;一記錄單元,對於各該辨識資料中,在該些信心度之一最高值不大於一臨界值的情況下,該記錄單元記錄該些信心度之一類別信心度分布;一統計單元,用以統計該些辨識資料之該些類別信心度分布;一蒐集單元,用以依據該些類別信心度分布之統計結果,蒐集部分之該些辨識資料;一判斷單元,用以利用一演算法判斷蒐集之該些辨識資料是否屬於一新類別;一類別新增單元,若蒐集之該些辨識資料屬於該新類別,則該類別新增單元進行一類別新增;一特徵提取單元,若蒐集之該些辨識資料不屬於該新類別,則該特徵提取單元提取蒐集之該些辨識資料的至少一物理特徵;以及一資料生成單元,若蒐集之該些辨識資料屬於該新類別在進行該類別新增後,該資料生成單元針對該新類別進行一第一資料 生成程序,以獲得複數筆第一生成資料;若蒐集之該些辨識資料不屬於該新類別,則該資料生成單元依據該至少一物理特徵,進行一第二資料生成程序,以獲得複數筆第二生成資料;其中,該輸入單元輸入該些第一生成資料或該些第二生成資料至已進行類別新增之該機器學習分類模型,以進行訓練;其中獲得該些第一生成資料之該第一資料生成程序不同於獲得該些第二生成資料之該第二資料生成程序。
  8. 如請求項7所述之機器學習分類模型之訓練系統,其中在該類別新增後,該輸入單元更輸入該些辨識資料至已進行類別新增之該機器學習分類模型,以進行訓練。
  9. 如請求項7所述之機器學習分類模型之訓練系統,其中生成之該些第二生成資料的數量相關於該類別信心度分布。
  10. 如請求項9所述之機器學習分類模型之訓練系統,其中生成之該些第二生成資料的數量與該類別信心度分布之一最高信心度負相關。
  11. 如請求項10所述之機器學習分類模型之訓練系統,其中該最高信心度大於或等於60%且小於80%時,生成之該些第二生成資料的數量為該些辨識資料之10%; 該最高信心度大於或等於40%且小於60%時,生成之該些第二生成資料的數量為該些辨識資料之15%;該最高信心度大於或等於20%且小於40%時,生成之該些第二生成資料的數量為該些辨識資料之20%;該最高信心度小於20%時,生成之該些第二生成資料的數量為該些辨識資料之25%。
  12. 如請求項7所述之機器學習分類模型之訓練系統,更包括:一使用者介面,用以顯示該統計結果。
  13. 一種使用者介面,用以供一使用者操作一機器學習分類模型之訓練系統,該機器學習分類模型用以進行複數個類別的辨識,該機器學習分類模型接收複數筆辨識資料後,獲得各該辨識資料對應於各該類別的複數個信心度,該使用者介面包括:一推薦視窗,用以顯示複數筆推薦優化資料集合,該推薦視窗用以供依使用者勾選該些推薦優化資料集合之其中一個或多個,以決定要取出之部分該些辨識資料進行後續的第一資料生成程序或一第二資料生成程序;若該些辨識資料屬於該新類別,則進行該第一資料生成程序;若該些辨識資料不屬於該新類別,則進行該第二資料生成程序;該第一資料生成程序不同於該第二資料生成程序;以及 一類別信心度分布顯示視窗,用以於該些推薦優化資料集合之其中之一被點選時,顯示被點選之該推薦優化資料集合之一類別信心度分布。
  14. 如請求項13所述之使用者介面,更包括:一集合新增按鈕,用以新增一自訂優化資料集合。
  15. 如請求項14所述之使用者介面,更包括:一類別信心度分布修改按鈕,用以對該自訂優化資料集合修改該類別信心度分布。
  16. 如請求項13所述之使用者介面,其中該推薦視窗依據各該推薦優化資料集合之該類別信心度分布之累計次數排序。
TW109138987A 2020-11-09 2020-11-09 機器學習分類模型之修正方法與訓練系統及使用者介面 TWI801767B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW109138987A TWI801767B (zh) 2020-11-09 2020-11-09 機器學習分類模型之修正方法與訓練系統及使用者介面
US17/115,266 US20220147868A1 (en) 2020-11-09 2020-12-08 Adjusting method and training system of machine learning classification model and user interface

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109138987A TWI801767B (zh) 2020-11-09 2020-11-09 機器學習分類模型之修正方法與訓練系統及使用者介面

Publications (2)

Publication Number Publication Date
TW202219848A TW202219848A (zh) 2022-05-16
TWI801767B true TWI801767B (zh) 2023-05-11

Family

ID=81454506

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109138987A TWI801767B (zh) 2020-11-09 2020-11-09 機器學習分類模型之修正方法與訓練系統及使用者介面

Country Status (2)

Country Link
US (1) US20220147868A1 (zh)
TW (1) TWI801767B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117610891B (zh) * 2024-01-22 2024-04-02 湖南小翅科技有限公司 一种基于大数据的灵活用工接单与风险控制系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201535557A (zh) * 2014-02-14 2015-09-16 Kla Tencor Corp 將客製化度量與全球分類法結合以在極端高產能下監控加工工具狀況之基於晶圓及批量之階級式方法
CN110837862A (zh) * 2019-11-06 2020-02-25 腾讯科技(深圳)有限公司 用户分类方法及装置
US20200321121A1 (en) * 2019-04-02 2020-10-08 Kpn Innovations, Llc Methods and systems for an artificial intelligence support network for vibrant constitutional guidance

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201535557A (zh) * 2014-02-14 2015-09-16 Kla Tencor Corp 將客製化度量與全球分類法結合以在極端高產能下監控加工工具狀況之基於晶圓及批量之階級式方法
US20200321121A1 (en) * 2019-04-02 2020-10-08 Kpn Innovations, Llc Methods and systems for an artificial intelligence support network for vibrant constitutional guidance
CN110837862A (zh) * 2019-11-06 2020-02-25 腾讯科技(深圳)有限公司 用户分类方法及装置

Also Published As

Publication number Publication date
TW202219848A (zh) 2022-05-16
US20220147868A1 (en) 2022-05-12

Similar Documents

Publication Publication Date Title
US10579659B2 (en) Method, apparatus, electronic equipment and storage medium for performing screening and statistical operation on data
CN106156791B (zh) 业务数据分类方法和装置
CN104216349B (zh) 利用制造设备的传感器数据的成品率分析系统及方法
CN108470077A (zh) 一种视频关键帧提取方法、系统及设备和存储介质
TWI801767B (zh) 機器學習分類模型之修正方法與訓練系統及使用者介面
CN113608916B (zh) 故障诊断的方法、装置、电子设备及存储介质
CN108022146A (zh) 征信数据的特征项处理方法、装置、计算机设备
CN111476296A (zh) 样本生成方法、分类模型训练方法、识别方法及对应装置
CN113222913B (zh) 一种电路板缺陷检测定位方法、装置和存储介质
TW202038110A (zh) 分類半導體樣本中的缺陷
CN108280096A (zh) 数据清洗方法及数据清洗装置
CN107729924A (zh) 图片复审概率区间生成方法及图片复审判定方法
CN109213865A (zh) 一种软件bug报告分类系统及分类方法
CN112117003A (zh) 一种肿瘤风险等级划分方法、系统、终端以及存储介质
CN109934297B (zh) 一种基于深度学习卷积神经网络的水稻考种方法
CN109816004A (zh) 房源图片分类方法、装置、设备及存储介质
CN107403199A (zh) 数据处理方法和装置
CN109146311A (zh) 加工工艺评估方法、用户设备、存储介质及装置
CN111461195B (zh) 一种图片校验方法、装置及电子设备
WO2023020508A1 (zh) 一种商品自动分类方法、装置及计算机设备
CN111967522B (zh) 一种基于漏斗卷积结构的图像序列分类方法
CN113469103A (zh) 一种pcr液滴图像检测技术系统及其使用方法
WO2021087747A1 (zh) 推送内容的处理方法、装置、电子设备以及存储介质
US20080068511A1 (en) Method for indexing a sports video program carried by a video stream
TW202109356A (zh) 服裝圖像分類、圖像分類方法、裝置及設備