TWI816500B - 應用於模型再訓練之圖片選取方法 - Google Patents
應用於模型再訓練之圖片選取方法 Download PDFInfo
- Publication number
- TWI816500B TWI816500B TW111129181A TW111129181A TWI816500B TW I816500 B TWI816500 B TW I816500B TW 111129181 A TW111129181 A TW 111129181A TW 111129181 A TW111129181 A TW 111129181A TW I816500 B TWI816500 B TW I816500B
- Authority
- TW
- Taiwan
- Prior art keywords
- component
- pictures
- data set
- picture
- annotation
- Prior art date
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 31
- 238000009434 installation Methods 0.000 claims abstract description 73
- 238000012549 training Methods 0.000 claims description 32
- 238000012937 correction Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 abstract description 12
- 239000008186 active pharmaceutical agent Substances 0.000 description 33
- 239000003990 capacitor Substances 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000013480 data collection Methods 0.000 description 5
- 238000000034 method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本發明公開一種應用於模型再訓練之圖片選取方法。該模型適於判斷多個元件圖片的元件類別,每一個元件類別分別對應至少一個安裝點位,該圖片選取方法至少包括以下步驟:建立一圖片標註庫;其中該圖片標註庫包括多個元件圖片, 該些元件圖片分別標註對應的一元件類別及一安裝點位;建立一錯誤紀錄;其中該錯誤紀錄包括該模型先前判斷錯誤之至少一錯誤元件類別及對應該錯誤元件類別的至少一錯誤安裝點位;以及,進行一圖片選取分配以建立一資料集。
Description
本發明關於一種選取方法,特別關於一種應用於模型再訓練之圖片選取方法。
傳統在生產線上重新佈署一個新的人工智慧模型,需要經過資料蒐集、模型訓練、模型佈署等三個步驟。其中,資料蒐集步驟主要透過人工方式蒐集元件圖片,標註元件圖片,並平衡各類別元件圖片的數量;模型訓練步驟是將上述整合完成的資料集放入一訓練系統進行模型訓練,通常資料中的元件圖片數量越多,模型訓練的時間則越長,但準確性越高;而模型佈署步驟則將上述訓練完成的模型,佈署至生產線中。若是生產線的預測模型發生異常,將會造成產能上的損失,如果重新佈署時間越長,則產能及成本的損失則越多。
然而,傳統作法在資料蒐集步驟中涉及了很多人工處理步驟,而且在資源環境的限制下,資料蒐集時通常難以正確掌握資料集中圖片的數量。
有鑑於上述,本發明的目的為提供一種應用於模型再訓練之圖片選取方法,透過有效率地蒐集訓練用的資料集,可縮短資料蒐集步驟中人工處理的時間,加快重新佈署模型的速度,降低產能的損失。
為達到上述目的,本發明提出一種應用於模型再訓練之圖片選取方法,其中該模型適於判斷多個元件圖片的元件類別,每一個元件類別分別對應至少一安裝點位,該圖片選取方法至少包括以下步驟:建立一圖片標註庫,其中圖片標註庫包括多個元件圖片,該些元件圖片分別標註對應的一元件類別及一安裝點位;建立一錯誤紀錄,其中錯誤紀錄包括該模型先前判斷錯誤的至少一錯誤元件類別及對應錯誤元件類別的至少一錯誤安裝點位;以及進行一圖片選取分配以建立一資料集,其中該圖片選取分配的步驟包括:基於該模型與用於訓練該模型的一訓練系統以一最佳化演算法進行運算,得到用以訓練該模型的一總圖片數;基於總圖片數、該些元件類別的總數及該些元件類別所對應之該些安裝點位的總數,得到分別對應該些元件類別的多個點位平均圖片數;基於一總加權值、錯誤元件類別的總數及錯誤元件類別對應的錯誤安裝點位的總數,得到對應錯誤安裝點位的至少一錯誤點位加權值;基於錯誤點位加權值得到對應錯誤元件類別中各安裝點位的多個權重,並以該些權重與對應的點位平均圖片數進行加權計算,得到對應錯誤元件類別中各安裝點位的多個點位圖片數;以及依據該些點位圖片數從圖片標註庫中選取標註為對應的錯誤元件類別與錯誤元件類別中各安裝點位的該些元件圖片,並將選取的該些元件圖片加入資料集。
承上所述,在本發明的應用於模型再訓練之圖片選取方法中,透過建立圖片標註庫、建立錯誤紀錄、以最佳化演算法計算適合訓練系統的總圖片數、以及依據錯誤紀錄自動進行對應各元件類別與安裝點位之元件圖片的選取分配,以建立資料集等步驟及其內容,使本發明的圖片選取方法可以有效率地蒐集訓練模型用的資料集,藉此可縮短人工處理及重新佈署模型的時間,降低產能的損失。
以下將參照相關圖式,說明本發明應用於模型再訓練之圖片選取方法的實施例,其中相同的元件將以相同的參照符號加以說明。
本發明是一種選取圖片的方法,用於選取圖片以供一模型進行再訓練。本實施例中的模型用以判斷多個元件圖片對應的元件類別,且每一個元件類別分別對應至少一個安裝點位。在一些實施例中,元件可為電子元件,例如但不限於電容、通用序列匯流排(Universal Serial Bus, USB)、電阻、電源、電感及電晶體,或其他型式的電子元件。
本發明結合了大數據資料庫、最佳化演算法(如線性規劃演算法)及深度學習模型等工具,在模型判斷發生異常時,考量訓練模型之訓練系統的資訊,即時選取再訓練模型所需的圖片資料集,藉此減少人工挑選、標註資料的時間,並在遇到元件圖片標註異常時,透過修正且反饋至資料集,以即時修正資料集中還未檢查標註的元件圖片,藉此縮短人為處理及重新佈署的時間,降低產能上的損失。
圖1為本發明應用於模型再訓練之圖片選取方法之一實施例的流程圖,圖2為圖1之圖片選取分配步驟的細部流程圖,圖3為一圖片選取系統的示意圖,而圖4為圖1之校正資料集步驟的細部流程圖。
請參考圖1至圖3,本發明應用於模型再訓練之圖片選取方法至少可包括步驟S01至步驟S04,而步驟S03可進一步包括步驟S031至步驟S035。本實施例所述的所有步驟皆可由一圖片選取系統SL來執行,圖片選取系統SL具體可為一電腦。
步驟S01為:建立一圖片標註庫PB,其中圖片標註庫PB包括多個元件圖片,該些元件圖片分別標註對應的元件類別及安裝點位(即註明元件名稱與安裝位置),該些元件圖片包括多個標註已確認的元件圖片及多個標註未確認的元件圖片(即圖片標註庫PB包括了標註已被檢查且確認標註正確的元件圖片、以及標註未被檢查而標註可能有誤的元件圖片)。如圖3所示,在一個大數據資料庫1中,除了包含圖片標註庫PB外,還可包含模型庫MB及系統記錄庫SB。模型庫MB可具有多個先前訓練的舊模型。具體來說,舊模型是先前訓練模型所產生之模型的舊版本,因此,舊模型也可用以判斷元件圖片對應的元件類別。而系統記錄庫SB則記錄有一訓練系統4的配置資訊(例如訓練系統4的CPU、GPU、記憶體、…等規格)。在此,訓練系統4是利用元件圖片來訓練模型的系統,具體可為一電腦。
圖片標註庫PB中之元件圖片的來源可包括模型先前訓練所使用的資料集(先前訓練模型所使用的元件圖片及元件圖片的標註資訊,可稱為舊資料),以及利用模型判斷元件圖片之元件類別並標註所產生的一推論資料集(可稱為新資料)。其中,來自舊資料的元件圖片皆是標註已確認的元件圖片。而來自新資料的元件圖片則包含了標註已確認的元件圖片及標註未確認的元件圖片。詳細來說,舊資料的所有元件圖片及新資料中一部分的元件圖片在過去已被檢查而確認標註正確,不須再修正標註,屬於標註已確認的元件圖片;但新資料中另一部分的元件圖片雖然已有利用模型判斷元件類別並標註,但因為元件圖片未被檢查且模型已發出判斷異常警示,以至於標註的可信度不高,可能須再修正,屬於標註未確認的元件圖片。
因此,在一些實施例中,建立圖片標註庫PB的步驟S01還可包括:從模型庫MB中取出多組舊模型,並以多組舊模型共同推論並修正「標註未確認的元件圖片」的標註資訊,藉此透過集成學習(ensemble learning)的概念提高標註的可信度。其中,係將標註未確認的元件圖片透過先前訓練的多組舊模型(例如最近訓練的三組舊模型)分別進行元件類別判斷,再依據該等舊模型判斷的平均結果更新標註未確認的元件圖片之元件類別標註。
請參考表一,舊模型判斷的平均結果是指以多個舊模型分別判斷元件圖片對應各元件類別的機率,再將多個舊模型判斷的機率取平均數後,判斷該元件圖片的元件類別是對應機率最高的元件類別。例如表一中,舊模型T1判斷一元件圖片對應元件類別A的機率為0.55,舊模型T2判斷該元件圖片對應元件類別A的機率為0.42,舊模型T3判斷該元件圖片對應元件類別A的機率為0.37,而將多個舊模型判斷的機率取平均數後,得到該元件圖片對應元件類別A的機率為 (0.55+0.42+0.37)/3 = 0.45。同理,取平均數後之該元件圖片對應元件類別B與C的機率分別為0.35與0.20,則最後判斷該元件圖片是對應機率最高的元件類別A。
表一 多個舊模型判斷的平均結果範例
對應元件類別A的機率 | 對應元件類別B的機率 | 對應元件類別C的機率 | |
舊模型T1判斷的結果 | 0.55 | 0.32 | 0.13 |
舊模型T2判斷的結果 | 0.42 | 0.32 | 0.26 |
舊模型T3判斷的結果 | 0.37 | 0.40 | 0.23 |
平均結果 | 0.45 | 0.35 | 0.20 |
另外,請再參照圖1,步驟S02為:建立一錯誤紀錄R;其中錯誤紀錄R包括模型先前判斷錯誤的至少一錯誤元件類別及對應錯誤元件類別的至少一錯誤安裝點位。具體來說,錯誤紀錄R是根據過去模型判斷異常的元件圖片所產生之元件類別及安裝點位的記錄。舉例來說,在本實施例中,元件圖片共包含4種元件類別:電容、通用序列匯流排(USB)、電阻及電源,各元件類別分別對應的安裝點位數量分別對應為1、4、2及1;其中,過去判斷錯誤發生之安裝點位約50%為USB的第2安裝點位和第3安裝點位,以及50%為電阻的第1安裝點位。因此,錯誤紀錄R可包含USB及其對應的第2、3安裝點位,以及電阻及其對應的第1安裝點位。再提醒的是,步驟S01和步驟S02的順序不限。
步驟S03為:進行一圖片選取分配以建立一資料集DS。以下,請參照圖2以說明圖片選取分配步驟S03的詳細內容。在此,係利用圖3的「資料智能分配模組2」進行圖片選取分配以得到資料集DS。
首先,步驟S031為:基於模型與系統記錄庫SB中用於訓練模型的一訓練系統4以一最佳化演算法進行運算,得到用以訓練模型的一總圖片數;其中,最佳化演算法是基於模型資訊及訓練系統4的配置資訊經計算而得到總圖片數,使訓練系統4使用數量為總圖片數的多張元件圖片訓練模型時,訓練系統4的閒置資源可被最小化。換句話說,本發明能夠充分運用訓練系統4之系統資源進行模型訓練,讓閒置的系統資源可以最小化。
此外,總圖片數大於或等於各元件類別所對應之安裝點位的總數。舉例來說,在本實施例中,元件類別為上述的電容、USB、電阻及電源等共4種,電容、USB、電阻及電源對應的安裝點位數分別為1個、4個、2個及1個,故安裝點位的總數為1+4+2+1 = 8個,所以總圖片數需大於或等於8;而上述之「總圖片數大於或等於各元件類別對應的安裝點位的總數」是表示:每一個元件類別的每一個安裝點位至少要有一張元件圖片,以確保選取的元件圖片達到資料平衡。在本實施例中,依該訓練系統4的配置資訊計算而得到的總圖片數例如為400張。
步驟S032為:基於總圖片數、該些元件類別的總數及該些元件類別所對應之該些安裝點位的總數,得到分別對應該些元件類別的多個點位平均圖片數。其中,係將該總圖片數除以元件類別的總數,得到一類別平均圖片數,再將類別平均圖片數分別除以各元件類別所對應之的安裝點位的總數,得到分別對應各元件類別的該些點位平均圖片數。在此,類別平均圖片數是每一元件類別應分配圖片數量。在本實施例中,類別平均圖片數為400/4 = 100,而電容、USB、電阻及電源所對應的安裝點位總數分別為1、4、2及1,故各元件類別的點位平均圖片數分別為:電容為100/1=100張,USB的各點位分別為100/4=25張(合計仍為100張),電阻的各點位分別為100/2=50張(合計仍為100張),且電源為100/1=100張。
步驟S033為:基於一總加權值、錯誤元件類別的總數及錯誤元件類別對應的錯誤安裝點位的總數,得到對應錯誤安裝點位的至少一錯誤點位加權值;其中,係將總加權值除以錯誤元件類別的總數,得到一錯誤類別加權值,再將錯誤類別加權值分別除以每一錯誤元件類別對應的錯誤安裝點位的總數,得到錯誤點位加權值。在一實施例中,該總加權值可例如大於或等於15%,且小於或等於25%,視需求而訂。本實施例的總加權值例如為20%。如表二和表三所示,錯誤元件類別的總數為2(USB與電阻),則錯誤類別加權值為20%/2 = 10%,因為USB有2個錯誤安裝點位(第2、3點位),故USB之第2、3點位的錯誤點位加權值為10%/2 = 5%,而電阻有1個錯誤安裝點位(第1點位),故電阻之第1點位的錯誤點位加權值為10%/1 = 10%。
步驟S034為:基於錯誤點位加權值得到對應錯誤元件類別中各安裝點位的多個權重,並以該些權重與對應的點位平均圖片數進行加權計算,得到對應錯誤元件類別中各安裝點位的多個點位圖片數。在此,在得到錯誤元件類別中各安裝點位的該些權重時,是以錯誤點位加權值增加錯誤安裝點位的權重,且以一正確點位加權值減少至少一正確安裝點位的權重,並且所有錯誤點位加權值的總和等於所有正確點位加權值的總和。換句話說,是增加判斷錯誤發生之安裝點位的權重,同時減少判斷正確安裝點位的權重,且所有判斷錯誤發生之安裝點位增加的權重總和等於所有判斷正確之安裝點位減少的權重總和(增加的總權重等於減少的總權重)。其中,在增加每一個錯誤元件類別中判斷錯誤發生之安裝點位的權重時,係以該錯誤點位加權值(例如USB為 5%;電阻為10%)增加各判斷錯誤發生之安裝點位的權重。
如表二所示,由於USB之錯誤安裝點位:第2點位、第3點位的錯誤點位加權值皆為5%,故USB之正確安裝點位:第1點位、第4點位的正確點位加權值皆為5%,即第1點位、第4點位的權重皆減少5%(錯誤安裝點位權重共增加10%,正確安裝點位權重共減少10%)。另外 ,如表三所示,由於電阻之錯誤安裝點位:第1點位的錯誤點位加權值為10%,故電阻之正確安裝點位:第2點位的的正確點位加權值為10%,即第2點位的權重減少10%(錯誤安裝點位權重增加10%,正確安裝點位權重減少10%)。因此,如表四所示,USB之各安裝點位對應的權重分別為0.95、1.05、1.05、0.95,而電阻之各安裝點位對應的權重分別為1.1、0.9,藉此,可得到USB之各安裝點位的點位圖片數對應為24、26、26、24張(總和仍為100張;不能整除則四捨五入),而電阻之各安裝點位的點位圖片數對應為55、45張(總和仍為100張;不能整除則四捨五入)。
表二 USB之各安裝點位及其對應權重範例
表三 電阻之各安裝點位及其對應權重範例
表四 資料智能分配模組的分配結果範例
類別 | 點位 | 權重 |
USB | 1 | 1-5%=0.95 |
2 | 1+5%=1.05 | |
3 | 1+5%=1.05 | |
4 | 1-5%=0.95 |
類別 | 點位 | 權重 |
電阻 | 1 | 1+10%=1.1 |
2 | 1-10%=0.9 |
類別 | 點位 | 應分配 | 權重 | 資料數量 |
電容 | 1 | 100 | 1 | 100 |
USB | 1 | 100 | 0.95 | 100/4*0.95=24 |
2 | 1.05 | 100/4*1.05=26 | ||
3 | 1.05 | 100/4*1.05=26 | ||
4 | 0.95 | 100/4*0.95=24 | ||
電阻 | 1 | 100 | 1.1 | 100/2*1.1=55 |
2 | 0.9 | 100/2*0.9=45 | ||
電源 | 1 | 100 | 1 | 100 |
此外,步驟S035為:依據該些點位圖片數從圖片標註庫PB中選取標註為對應的錯誤元件類別與錯誤元件類別中各安裝點位的該些元件圖片,並將選取的該些元件圖片加入資料集DS。換句話說,請參考表四,從圖片標註庫PB中選取元件圖片為USB的各安裝點位所對應的點位圖片數為24、26、26、24,並將它們加入資料集DS中;另再選取電阻的各安裝點位所對應的點位圖片數為55、45,也將它們加入資料集DS中。
另外,在進行前述之圖片選取分配的步驟S03中,更可包括:依據該些點位平均圖片數從該圖片標註庫PB中選取標註為模型判斷正確的正確元件類別的各安裝點位的該些元件圖片,並將所選取的該些元件圖片加入資料集DS。在本實施例中,如表四所示,模型判斷正確之元件類別為電容和電源,故需從圖片標註庫PB中選取各100張的電容和電源的元件圖片,且加入資料集DS中。因此,資料集DS共有400張元件圖片。此外,該圖片選取方法更可包括:將圖片標註庫PB中未被選取至資料集DS的元件圖片加入至一候選資料集CS(圖4)。值得一提的是,候選資料集CS同樣也包含標註已確認的元件圖片及標註未確認的元件圖片。
前述的資料集DS由於包含有「標註未確認的元件圖片」,因此可能有元件圖片的標註是錯誤的,所以在訓練模型之前還要進行檢查。在檢查資料集DS的過程中,本發明可即時反饋檢查結果以對資料集DS進行修正,讓一修正模組3(圖3)可以根據反饋的資訊修正並更新尚未檢查的資料,亦即即時更新資料集DS中尚未檢查的元件圖片,省去後續多餘的修正時間及重新尋找資料的時間。其中,修正模組3包含一無分類層神經網路,該無分類層神經網路是取出模型中的一神經網路並將該神經網路中的一分類層去除所得到的。
請參考圖1、圖3及圖4,進行圖片選取分配以建立資料集DS的步驟之後,圖片選取方法更可包括步驟S04:校正該資料集DS,以產生一校正資料集MS。其中,校正該資料集DS可包括:先判斷資料集DS是否有未檢查的元件圖片,如果為「否」的話,則校正結束;如果為「是」的話,則從資料集DS選取一未檢查的元件圖片進行檢查,以確認該元件圖片為標註已確認的元件圖片或標註未確認的元件圖片。如果選取的元件圖片為標註已確認的元件圖片,則將選取的元件圖片加入至校正資料集MS;如果選取的元件圖片為標註未確認的元件圖片,則判斷該標註未確認的元件圖片的標註是否有誤;若有誤,則將選取的該標註未確認的元件圖片之標註修正為正確標註,再將其加入至校正資料集MS。在此,如果元件圖片的標註資訊有誤且經過修正後,則該修正後的元件圖片將有例如100%的機率反饋給修正模組3以更新修正模組3的參數(例如更新修正模組3的無分類層神經網路的參數);如果元件圖片經檢查後標註資訊正確而無修正標註,則將其直接加入至校正資料集MS,並可利用一隨機數產生器以生成一介於0到1間的隨機數,並判斷該隨機數是否小於一指定機率,如果結果為「是」,將該元件圖片反饋給修正模組3,藉此更新修正模組3的參數;如果結果為「否」,則不將該元件圖片反饋給修正模組3。舉例來說,生成的隨機數例如為0.03,指定機率例如為0.05時,由於0.03 < 0.05,故將該元件圖片反饋給修正模組3,藉此更新修正模組3的參數。
接著,修正模組3可基於資料集DS中未檢查的元件圖片及候選資料集CS,更新資料集DS中未檢查的元件圖片。其中,更新資料集DS中還未檢查的元件圖片之步驟可包括:選擇一指定元件類別及安裝點位,並自校正資料集MS選取該些元件圖片的其中之一作為一樣本;其中,該樣本標註的元件類別及安裝點位須為該指定元件類別及安裝點位,如果校正資料集MS中尚未包含有標註為該指定元件類別及安裝點位的元件圖片,則從標註已確認的元件圖片中選取一張標註為指定元件類別及安裝點位的元件圖片作為樣本。接著,將資料集DS中還未檢查的元件圖片及候選資料集CS中的元件圖片分別輸入至修正模組3中的無分類層神經網路,以得到多個特徵表示向量。之後,將該樣本輸入至無分類層神經網路以得到一樣本特徵向量,並將該些特徵表示向量分別與該樣本特徵向量進行相似度計算,以得到資料集DS中還未檢查的元件圖片及候選資料集CS中的元件圖片對應於該樣本的多個相似度值。最後,為了保存該元件類別之元件圖片的多樣性,再依據該些相似度值由高而低排序資料集DS中還未檢查的元件圖片及候選資料集CS中的元件圖片,並找出排序前(S*N)個相似度值高的元件圖片,其中N為資料集DS中還未檢查且對應於該樣本的元件圖片的數量,S為大於1的正整數(本實施例的S可例如為3),再從找出之(S*N)個相似值高的元件圖片中隨機抽樣出N張元件圖片,並以抽樣出的N張元件圖片更新資料集DS中還未檢查且對應該樣本的元件圖片。在此,「對應於該樣本的元件圖片」指的是元件類別與安裝點位標註與樣本相同的元件圖片。
相似度(Similarity)公式可如下所示。其中,A為該樣本之樣本特徵向量,B為資料集DS中尚未檢查的元件圖片或候選資料集CS中的元件圖片的特徵表示向量。
在此,需根據各元件類別及其安裝點位組合,逐一執行前述步驟,得到各元件類別還未檢查的元件圖片數量,藉此更新資料集DS中還未檢查的所有元件圖片(請參考表五)。在更新資料集DS中還未檢查的所有元件圖片之後,再繼續逐一檢查更新後之資料集DS中還未檢查的元件圖片,直到資料集DS中所有元件圖片皆完成檢查為止。
表五 檢查後需重新分配的元件圖片數量範例
類別 | 點位 | 經資料智能分配模組計算的數量需求 | 已檢查的元件圖片 | 還未檢查的所有元件圖片數量 |
電容 | 1 | 100 | 100 | 0 |
USB | 1 | 24 | 21 | 3 |
2 | 26 | 10 | 16 | |
3 | 26 | 11 | 15 | |
4 | 24 | 24 | 0 | |
電阻 | 1 | 45 | 20 | 25 |
2 | 55 | 10 | 45 | |
電源 | 1 | 100 | 82 | 18 |
由上述的內容可知,本發明可即時建立所需的資料集DS,減少人工挑選、標註資料的時間,並在檢查遇到標註錯誤時,透過修正且反饋至修正模組3,以即時校正資料集DS中尚未檢查的資料。
綜上所述,在本發明的應用於模型再訓練之圖片選取方法中,透過建立圖片標註庫、建立錯誤紀錄、以最佳化演算法計算適合訓練系統的總圖片數、以及依據錯誤紀錄自動進行對應各元件類別與安裝點位之元件圖片的選取分配,以建立資料集等步驟,使本發明的圖片選取方法可以有效率地蒐集且即時建立訓練模型用的所需資料集,減少人工挑選、標註資料的時間,並在檢查遇到標註異常時,透過修正且反饋至修正模組,以即時校正資料集中尚未檢查的資料,藉此可縮短人工處理及重新佈署模型的時間,降低產能的損失。
以上所述僅為舉例性,而非為限制性者。任何未脫離本發明的精神與範疇,而對其進行的等效修改或變更,均應包含於後附的申請專利範圍中。
S01至S04,S031至S035:步驟
1:大數據資料庫
2:資料智能分配模組
3:修正模組
4:訓練系統
CS:候選資料集
DS:資料集
MB:模型庫
MS:校正資料集
PB:圖片標註庫
R:錯誤紀錄
SL:圖片選取系統
SB:系統記錄庫
圖1為本發明應用於模型再訓練之圖片選取方法之一實施例的流程圖。
圖2為圖1之圖片選取分配步驟的細部流程圖。
圖3為一圖片選取系統的示意圖。
圖4為圖1之校正資料集步驟的細部流程圖。
S031至S035:步驟
Claims (12)
- 一種應用於模型再訓練之圖片選取方法,適於與用於訓練該模型的一訓練系統配合應用,其中該模型適於判斷多個元件圖片對應的元件類別,每一個該元件類別分別對應至少一安裝點位,該圖片選取方法至少包括以下步驟:建立一圖片標註庫,其中該圖片標註庫包括多個該元件圖片,該些元件圖片分別標註對應的一該元件類別及一該安裝點位;建立一錯誤紀錄,其中該錯誤紀錄包括該模型先前判斷錯誤的至少一錯誤元件類別及對應該錯誤元件類別的至少一錯誤安裝點位;以及進行一圖片選取分配以建立一資料集,該圖片選取分配的步驟包括:基於該模型與用於訓練該模型的該訓練系統的配置資訊以一最佳化演算法進行運算,得到用以訓練該模型的一總圖片數,其中該總圖片數小於或等於該圖片標註庫中的該些元件圖片的總數;基於該總圖片數、該些元件類別的總數及該些元件類別所對應之該些安裝點位的總數,得到分別對應該些元件類別的多個點位平均圖片數;基於一總加權值、該錯誤元件類別的總數及該錯誤元件類別對應的該錯誤安裝點位的總數,得到對應該錯誤安裝點位的至少一錯誤點位加權值;基於該錯誤點位加權值得到對應該錯誤元件類別中各該安裝點位的多個權重,並以該些權重與對應的該點位平均圖片數進行加權計算,得到對應該錯誤元件類別中各該安裝點位的多個點位圖片數;以及依據該些點位圖片數從該圖片標註庫中選取標註為對應的該錯誤元件類別與該錯誤元件類別中各該安裝點位的該些元件圖片,並將選取的該些元件圖片加入該資料集。
- 如請求項1所述的圖片選取方法,其中該總圖片數大於或等於各該元件類別所對應的該安裝點位的總數。
- 如請求項1所述的圖片選取方法,其中得到該些點位平均圖片數的步驟包括: 將該總圖片數除以該些元件類別的總數,得到一類別平均圖片數,再將該類別平均圖片數分別除以各該元件類別所對應之該安裝點位的總數,得到該些點位平均圖片數。
- 如請求項1所述的圖片選取方法,其中得到該錯誤點位加權值的步驟包括:將該總加權值除以該錯誤元件類別的總數,得到一錯誤類別加權值,再將該錯誤類別加權值分別除以每一該錯誤元件類別對應的該錯誤安裝點位的總數,得到該錯誤點位加權值。
- 如請求項1所述的圖片選取方法,其中該總加權值大於或等於15%,且小於或等於25%。
- 如請求項1所述的圖片選取方法,其中得到該錯誤元件類別中各該安裝點位的該些權重的步驟包括:以該錯誤點位加權值增加該錯誤安裝點位的權重,且以一正確點位加權值減少至少一正確安裝點位的權重,其中所有該錯誤點位加權值的總和等於所有該正確點位加權值的總和。
- 如請求項1所述的圖片選取方法,其中進行該圖片選取分配的步驟更包括:依據該些點位平均圖片數從該圖片標註庫中選取標註為該模型判斷正確的正確元件類別的各該安裝點位的該些元件圖片,並將所選取的該些元件圖片加入該資料集。
- 如請求項1所述的圖片選取方法,其中該圖片標註庫的該些元件圖片包括至少一標註已確認的元件圖片及至少一標註未確認的元件圖片。
- 如請求項8所述的圖片選取方法,其中建立該圖片標註庫的步驟包括:將該標註未確認的元件圖片透過先前訓練的多組舊模型進行元件類別判斷;及依據該等舊模型判斷的平均結果更新該標註未確認的元件圖片之元件類別標註。
- 如請求項8所述的圖片選取方法,其中進行該圖片選取分配以建立該資料集的步驟之後更包括:校正該資料集,包括:自該資料集中選取其中一該元件圖片,並檢查該元件圖片為該標註已確認的元件圖片或該標註未確認的元件圖片;若為該標註未確認的元件圖片,判斷該標註未確認的元件圖片的標註是否有誤;及若有誤,則將選取的該標註未確認的元件圖片之標註修正為正確標註並加入至一校正資料集;若無誤,則將選取的該標註未確認的元件圖片加入至該校正資料集。
- 如請求項10所述的圖片選取方法,其中校正該資料集更包括:若選取的該元件圖片為該標註已確認的元件圖片,則將選取的該標註已確認的元件圖片加入至該校正資料集。
- 如請求項10所述的圖片選取方法,其中校正該資料集的步驟更包括:將該圖片標註庫中未被選取至該資料集的該些元件圖片加入至一候選資料集;自該校正資料集選取該些元件圖片的其中之一作為一樣本;將該資料集中還未檢查的元件圖片及該候選資料集中的元件圖片分別輸入至一無分類層神經網路,以得到多個特徵表示向量;將該樣本輸入至該無分類層神經網路以得到一樣本特徵向量;將該些特徵表示向量分別與該樣本特徵向量進行相似度計算,以得到該資料集中還未檢查的元件圖片及該候選資料集中的元件圖片對應於該樣本的多個相似度值;依據該些相似度值由高而低排序元件圖片,並找出排序前(S*N)個相似度值高的元件圖片,其中N為該資料集中還未檢查且對應於該樣本的元件圖片的數量,S為大於1的正整數;及從找出之(S*N)個相似度值高的元件圖片中隨機抽樣出N張元件圖片,並以抽樣出的N張元件圖片更新該資料集中還未檢查且對應該樣本的元件圖片。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111129181A TWI816500B (zh) | 2022-08-03 | 2022-08-03 | 應用於模型再訓練之圖片選取方法 |
CN202310388657.9A CN117523329A (zh) | 2022-08-03 | 2023-04-12 | 应用于模型再训练的图片选取方法 |
US18/318,448 US20240046623A1 (en) | 2022-08-03 | 2023-05-16 | Image selection method applied to model retraining |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111129181A TWI816500B (zh) | 2022-08-03 | 2022-08-03 | 應用於模型再訓練之圖片選取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI816500B true TWI816500B (zh) | 2023-09-21 |
TW202407586A TW202407586A (zh) | 2024-02-16 |
Family
ID=88966331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111129181A TWI816500B (zh) | 2022-08-03 | 2022-08-03 | 應用於模型再訓練之圖片選取方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240046623A1 (zh) |
CN (1) | CN117523329A (zh) |
TW (1) | TWI816500B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201941112A (zh) * | 2018-02-07 | 2019-10-16 | 以色列商應用材料以色列公司 | 產生可用於檢查半導體樣品的訓練集之方法及其系統 |
CN113361588A (zh) * | 2021-06-03 | 2021-09-07 | 北京文安智能技术股份有限公司 | 基于图像数据增强的图像训练集生成方法和模型训练方法 |
CN113574545A (zh) * | 2019-04-11 | 2021-10-29 | 国际商业机器公司 | 用于训练模型的训练数据修改 |
TW202228068A (zh) * | 2020-09-03 | 2022-07-16 | 以色列商應用材料以色列公司 | 樣本的類比圖像的決定 |
-
2022
- 2022-08-03 TW TW111129181A patent/TWI816500B/zh active
-
2023
- 2023-04-12 CN CN202310388657.9A patent/CN117523329A/zh active Pending
- 2023-05-16 US US18/318,448 patent/US20240046623A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201941112A (zh) * | 2018-02-07 | 2019-10-16 | 以色列商應用材料以色列公司 | 產生可用於檢查半導體樣品的訓練集之方法及其系統 |
CN113574545A (zh) * | 2019-04-11 | 2021-10-29 | 国际商业机器公司 | 用于训练模型的训练数据修改 |
TW202228068A (zh) * | 2020-09-03 | 2022-07-16 | 以色列商應用材料以色列公司 | 樣本的類比圖像的決定 |
CN113361588A (zh) * | 2021-06-03 | 2021-09-07 | 北京文安智能技术股份有限公司 | 基于图像数据增强的图像训练集生成方法和模型训练方法 |
Also Published As
Publication number | Publication date |
---|---|
TW202407586A (zh) | 2024-02-16 |
US20240046623A1 (en) | 2024-02-08 |
CN117523329A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8707268B2 (en) | Testing operations of software | |
WO2019223384A1 (zh) | Gbdt模型的特征解释方法和装置 | |
CN112446441B (zh) | 模型训练数据筛选方法、装置、设备及存储介质 | |
US20210407675A1 (en) | Supervised learning-based consensus diagnosis method and system thereof | |
CN112231133B (zh) | 一种数据修复处理方法、装置及电子设备 | |
CN114647525A (zh) | 诊断方法、装置、终端及存储介质 | |
JP2020085583A (ja) | 検査装置及び検査方法 | |
TWI816500B (zh) | 應用於模型再訓練之圖片選取方法 | |
CN115280334A (zh) | 错误原因的推定装置以及推定方法 | |
CN112685327A (zh) | 一种模型域的失败测试用例生成方法 | |
CN117349151A (zh) | 一种基于聚类的测试用例优先级排序方法、装置及存储介质 | |
US7310791B2 (en) | Method for correcting layout errors | |
CN107908557B (zh) | 一种嵌入式软件可信属性建模与验证方法 | |
CN114996413A (zh) | 一种获取实体训练集的数据处理系统 | |
CN109471960B (zh) | 智能识别pcb资料工具层名的方法及装置 | |
WO2008081227A1 (en) | Method and apparatus for designing an integrated circuit | |
CN111837143A (zh) | 学习装置及学习方法 | |
JP2023166929A (ja) | モデル学習装置、モデル学習システム及びモデル学習方法 | |
US6847855B2 (en) | Method for fault analysis in wafer production | |
CN113157580A (zh) | 一种融合缺陷历史抛掷关系的缺陷自动分派方法与系统 | |
JP2019021037A (ja) | ソースコード評価装置、ソースコード評価方法及びソースコード評価プログラム | |
US20210256376A1 (en) | Method and device for machine learning | |
CN113919439A (zh) | 一种提高分类学习数据集质量方法、系统、装置及存储介质 | |
CN113722555A (zh) | 一种数据标注项质检方法及系统 | |
CN115759265A (zh) | 一种基于模糊偏好关系的故障诊断方法及系统 |