TWI823817B

TWI823817B - 資料處理方法

Info

Publication number: TWI823817B
Application number: TW112117778A
Authority: TW
Inventors: 鮑婉云
Original assignee: 和碩聯合科技股份有限公司
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-11-21

Abstract

本發明提供一種資料處理方法。資料處理方法包括：接收一任務的多個物件樣本以產生資料集；對資料集進行訓練以產生訓練模型；以及對訓練模型進行推論操作。推論操作包括：降低訓練模型的維度以產生降維訓練模型；依據降維訓練模型產生樣本分布；對資料集進行困難樣本挖掘以產生至少一困難樣本；以及依據樣本分布以及所述至少一困難樣本的至少其中之一從資料集中篩選出子資料集。

Description

資料處理方法

本發明是有關於一種資料處理方法，且特別是有關於一種用於人工智慧學習的資料處理方法。

現行的影像識別技術會利用大量的物件樣本來進行物件識別的訓練以產生學習模型。為進一步優化影像識別技術的精準性與識別範圍，學習模型會增加更多的物件樣本。應注意的是，經多次的優化，學習模型的物件樣本的數量會非常龐大。龐大的物件樣本的數量會佔據大量的記憶體空間，並降低人工智慧學習的效率。

因此，如何對物件樣本進行篩選以控制物件樣本的數量，是本領域技術人員的研究重點之一。

本發明提供一種資料處理方法，能夠對物件樣本進行篩選以控制物件樣本的數量。

本發明的資料處理方法包括：接收第一任務的多個物件樣本以產生第一資料集；對第一資料集進行訓練以產生訓練模型；對訓練模型進行第一推論操作。第一推論操作包括：降低訓練模型的維度以產生降維訓練模型；依據降維訓練模型產生樣本分布；對第一資料集進行困難樣本挖掘以產生至少一困難樣本；以及依據樣本分布以及所述至少一困難樣本的至少其中之一以從第一資料集中篩選出第一子資料集。第一子資料集的物件樣本數量低於第一資料集的物件樣本數量。

基於上述，資料處理方法對訓練模型進行第一推論操作。在第一推論操作中，資料處理方法降低訓練模型的維度以產生降維訓練模型以產生樣本分布，並對第一資料集進行困難樣本挖掘以產生困難樣本。此外，資料處理方法還依據樣本分布以及困難樣本的至少其中之一來第一資料集中篩選出第一任務的多個物件樣本以產生第一子資料集。因此，第一子資料集的物件樣本數量能夠被控制。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

100:系統

110:影像擷取裝置

120:處理器

130:儲存裝置

A~Z、a~p:類別

C1~C7:時間區間

CN1、CN2:資料中心點

DST1、DST2、DST3:資料集

DM1:樣本分布

DG1:第一物件分布範圍

DG2:第二物件分布範圍

G1:第一群組

G2:第二群組

HS1~HSp:困難樣本

IMG1~IMGm:擷取影像

L1、L2:直方圖

M1、M2、M3:訓練模型

M1’:降維訓練模型

OS1、OS2、OS3:多個物件樣本

S100、S200、S300:資料處理方法

S110、S120、S130、S131~S134:步驟

S210、S220、S230、S240:步驟

S301~S312:步驟

SDST1、SDST2、SDST3:子資料集

SG1~SG4:子群

VAV:平均數

WT:權重值

圖1是依據本發明一實施例所繪示的系統的示意圖。

圖2是依據本發明第一實施例所繪示的資料處理方法的流程圖。

圖3是依據本發明一實施例所繪示的樣本分布的示意圖。

圖4是依據本發明第二實施例所繪示的資料處理方法的流程圖。

圖5是依據圖4所繪示的資料增強的操作示意圖。

圖6是依據本發明第三實施例所繪示的資料處理方法的流程圖。

本發明的部份實施例接下來將會配合附圖來詳細描述，以下的描述所引用的元件符號，當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本發明的一部份，並未揭示所有本發明的可實施方式。更確切的說，這些實施例只是本發明的專利申請範圍中的範例。

請同時參考圖1以及圖2，圖1是依據本發明一實施例所繪示的系統的示意圖。圖2是依據本發明第一實施例所繪示的資料處理方法的流程圖。在本實施例中，系統100包括影像擷取裝置110、處理器120以及儲存裝置130。處理器120與影像擷取裝置110以及儲存裝置130進行有線通訊或無線通訊。在本實施例中，影像擷取裝置110可以是任意形式的可見光影像擷取裝置或紅外光影像擷取裝置。處理器120例如是中央處理單元(Central Processing Unit，CPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位訊號處理器(Digital Signal Processor，DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits，ASIC)、可程式化邏輯裝置(Programmable Logic Device，PLD)或其他類似裝置或這些裝置的組合，其可載入並執行電腦程式。儲存裝置130可以是任意形式的儲存媒體。

資料處理方法S100適用於系統100。資料處理方法S100包括步驟S110、S120、S130。在步驟S110中，處理器120透過影像擷取裝置110來接收第一任務的多個物件樣本OS1以產生資料集DST1。以本實施例為例，影像擷取裝置110會擷取影像IMG1~IMGm以產生所述多個物件樣本OS1。擷取影像IMG1~IMGm分別對應於所述多個物件樣本OS1的至少其中之一。舉例來說，影像擷取裝置110會依據擷取影像IMG1來產生所述多個物件樣本OS1當中的一物件樣本A以及一物件樣本B。影像擷取裝置110會依據擷取影像IMG2來產生所述多個物件樣本OS1當中的一物件樣本C。所述多個物件樣本OS1為相同或相似的類別的物件的特徵。舉例來說，在物件檢查應用中，所述多個物件樣本OS1分別是待檢查物件的多個瑕疵特徵、多個良品特徵或多個標籤特徵的其中之一。處理器120產生對應於第一任務的所述多個物件樣本OS1的資料集DST1。

在步驟S120中，處理器120對資料集DST1進行訓練以產生訓練模型M1。處理器120可例如利用任意合適的卷積神經網路(Convolution Neural Network，CNN)來訓練資料集DST1以產生訓練模型M1。在本實施例中，訓練模型M1具備所述多個物件樣本OS1的影像識別能力。

在步驟S130中，處理器120對訓練模型M1進行推論(Inference)操作。處理器120利用推論操作篩選資料集DST1中的所述多個物件樣本OS1。在本實施例中，步驟S130包括步驟S131~S134。

在步驟S131中，處理器120降低訓練模型M1的維度以產生降維訓練模型M1’。在步驟S132中，處理器120依據降維訓練模型M1’來產生樣本分布DM1。在步驟S133中，處理器120對資料集DST1進行困難樣本挖掘(hard sample mining)以產生困難樣本HS1~HSp。在本實施例中，步驟S131與步驟S133可同時進行。舉例來說，處理器120包括分析模組以及困難樣本挖掘模組(未示出，本發明並不以此為限)。分析模組會執行步驟S131、S132的操作。困難樣本挖掘模組會執行步驟S133的操作。

在一些實施例中，步驟S133可以在步驟S131之前被執行。在一些實施例中，步驟S133可以在步驟S132之後被執行。

在步驟S134中，處理器120依據樣本分布DM1以及困難樣本HS1~HSp的至少其中之一從資料集DST1中篩選出子資料集SDST1。詳細地說，處理器120從資料集DST1的所述多個物件樣本OS1中篩選部分的物件樣本來產生子資料集SDST1。因此，子資料集SDST1的物件樣本數量低於資料集DST1的物件樣本數量。子資料集SDST1的物件樣本數量低於所述多個物件樣本 OS1的數量。如此一來，子資料集SDST1的物件樣本數量能夠被控制。

在本實施例中，儲存裝置130儲存資料集DST1、子資料集SDST1以及降維訓練模型M1’的至少其中之一。

在本實施例中，處理器120在步驟S131中降低所述多個物件樣本OS1中每個物件樣本的通道數量以降低訓練模型M1的維度。以單一個物件樣本OS1為例，物件樣本OS1例如是RGB影像。物件樣本OS1例如具有368640(即，640x576)個像素。因此，物件樣本OS1具有1105920(即，640x576x3)個通道數量。在步驟S131中，處理器120例如將物件樣本OS1的通道數量從1105920個降低至數百個。因此，物件樣本OS1所佔據的記憶體空間能夠被降低。也因此，降維訓練模型M1’所佔據的記憶體空間能夠被大幅降低。

在本實施例中，處理器120依據樣本分布DM1獲取對應於資料集DST1的多個物件分布範圍，並依據所述多個物件分布範圍來決定出子資料集SDST1。

具體來說明，請同時參考圖1、圖2以及圖3，圖3是依據本發明一實施例所繪示的樣本分布的示意圖。圖3示例出多個所述多個物件樣本OS1的第一群組G1的第一物件分布範圍DG1以及第二群組G2的第二物件分布範圍DG2。在本實施例中，第一群組G1例如是對應於物件的第一特徵的多個物件樣本。舉例來說，第一群組G1例如是位於物件的第一位置的標籤的不同影像。第二群組G2例如是對應於物件的第二特徵的多個物件樣本。舉例來說，第二群組G2例如是位於物件的第二位置的標籤的不同影像。圖3還示出直方圖L1、L2。直方圖L1示出第一群組G1的部分分布狀況。直方圖L2示出第二群組G2的部分分布狀況。直方圖L1的橫軸是第一物件分布範圍DG1的距離。直方圖L1的縱軸是樣本數。直方圖L2的橫軸是第二物件分布範圍DG2的距離。直方圖L2的縱軸是樣本數。

在本實施例中，處理器120可例如是在步驟S132中利用GradCAM工具的特徵地圖(feature map)來建立圖3，然本發明並不以此為限。

在本實施例中，第一物件分布範圍DG1可以是包圍第一群組G1的擬合圓形或擬合橢圓形。第二物件分布範圍DG2可以是包圍第二群組G2的擬合圓形或擬合橢圓形。處理器120獲取第一物件分布範圍DG1的資料中心點CN1以及第二物件分布範圍DG2的資料中心點CN2。資料中心點CN1對應於第一群組G1在第一物件分布範圍DG1中的中位數位置。資料中心點CN2對應於第二群組G2在第二物件分布範圍DG2中的中位數位置。處理器120依據資料中心點CN1、CN2來決定出子資料集SDST1。基於第一物件分布範圍DG1，第一群組G1包括子群SG1、SG2。資料中心點CN1位於子群SG1中。因此，處理器120隨機取樣子群SG1中的部分物件樣本。子群SG2位於第一物件分布範圍DG1的邊緣。因此，處理器120獲取子群SG2中的部分物件樣本(即，周邊物件樣本)。換言之，處理器120將第一物件分布範圍DG1中遠離資料中心點CN1的至少一周邊物件樣本選入子資料集SDST1內。

第二群組G2包括子群SG3、SG4。資料中心點CN2位於子群SG3中。因此，處理器120隨機取樣子群SG3中的物件樣本。子群SG4位於第二物件分布範圍DG2的邊緣。因此，處理器120獲取子群SG2中的部分物件樣本(即，周邊物件樣本)。換言之，處理器120也將第二物件分布範圍DG2中遠離資料中心點CN2的至少一周邊物件樣本選入子資料集SDST1內。

應注意的是，子群SG2、SG4位於對應物件分布範圍的邊緣。因此，子群SG2中物件樣本的類別可能不同於子群SG1中物件樣本的類別。子群SG4中物件樣本的類別可能不同於子群SG3中物件樣本的類別。在本實施例中，處理器120會獲取子群SG1的部分物件樣本、子群SG2的部分物件樣本、子群SG3的部分物件樣本以及子群SG4的部分物件樣本。如此一來，本實施例能夠以多元減量方式來篩選資料集DST1，從而產生子資料集SDST1。因此，子資料集SDST1仍具有相似於資料集DST1的物件樣本的平衡度。子資料集SDST1的影像識別能力並不會發生失衡。

請回到圖1以及圖2的實施例，在本實施例中，處理器120在步驟S133中利用分類模型以及物件偵測模型的其中之一來進行困難樣本挖掘，從而獲得困難樣本HS1~HSp。

此外，權重值WT被提供至處理器120。在步驟S134中，處理器120依據樣本分布DM1、困難樣本HS1~HSp以及權重值WT來篩選資料集DST1，從而產生子資料集SDST1。權重值WT越高，子資料集SDST1中的困難樣本的數量越低。權重值WT越低，子資料集SDST1中的困難樣本的數量越高。舉例來說，子資料集SDST1中的物件樣本數量是一固定值，例如是“1000”。權重值WT被設定為“0.8”。因此，處理器120會從降維訓練模型M1’中篩選出800個物件樣本，並從困難樣本HS1~HSp中篩選出200個困難樣本。另舉例來說，權重值WT被設定為“1”。因此，處理器120會從降維訓練模型M1’中篩選出1000個物件樣本，而不會從困難樣本HS1~HSp中篩選出困難樣本。

在一些實施例中，早於第一任務的先前任務已經存在。因此，在先前任務存在的情況下，處理器120會接收由先前任務所產生的先前子資料集，並結合第一任務的所述多個物件樣本OS1以及先前子資料集以產生第一資料集DST1。

請同時參考圖1以及圖4，圖4是依據本發明第二實施例所繪示的資料處理方法的流程圖。在本實施例中，資料處理方法S200適用於系統100。資料處理方法S200包括步驟S210~S240。在步驟S210中，影像擷取裝置110接收所述多個物件樣本OS1。處理器120在步驟S210中依據所述多個物件樣本OS1來產生資料集DST1。

在步驟S220中，處理器120對資料集DST1進行資料增強(data augmentation)，以提高資料集DST1的物件樣本的平衡度。

進一步來說明步驟S220的實施細節，請同時參考圖1、圖4以及圖5。圖5是依據圖4所繪示的資料增強的操作示意圖。在本實施例中，圖5示出在不同時間區間C1~C7所收集到的物件樣本數曲線圖。圖5的橫軸是類別。圖5的縱軸是樣本數。在本實施例中，處理器120收集在不同時間區間C1~C7所收集到的物件樣本。在本實施例中，物件樣本數量是在時間區間C1~C7所收集到的物件樣本的總數。處理器120獲知物件樣本數量對應於類別數(本實施例以42個類別數為例)的平均數量VAV為800個。平均數量VAV是資料集DST1的物件樣本數量除以第一任務的該些物件樣本的多個類別的數量。應注意的是，類別“a”的物件樣本數量以及類別“b”的物件樣本數量分別明顯低於平均數量VAV。因此，資料集DST1可能具有不平衡樣本問題。上述的不平衡樣本問題可能造成類別“a”、“b”的影像識別能力較弱。

在本實施例中，當在資料集DST1中的多個類別的其中一類別的物件樣本數量低於平均數量VAV時，處理器120增加該類別的物件樣本數量。在本實施例中，處理器120會判斷類別“a”、“b”的物件樣本數量以確定是否執行對資料集DST1進行資料增強。較佳地，一閾值被提供，且閾值被設定為低於平均數。舉例來說，閾值被設定為500。類別“a”、“b”的物件樣本數量分別低於閾值。這表示類別“a”、“b”的物件樣本數量分別明顯低於平均數量VAV。因此，處理器120增加對應於類別“a”、“b”的多個面向的物件樣本。舉例來說，處理器120會對類別“a”、“b”的當前物件樣本進行影像處理。舉例來說，處理器120提高或降低當前物件樣本的影像對比度以產生多個新的物件樣本。舉例來說，處理器120提高或降低物件樣本的影像亮度以產生多個新的物件樣本。舉例來說，處理器120對物件樣本進行反白、旋轉、翻轉、鏡像、裁切以產生多個新的物件樣本。

基於資料增強的操作，處理器120能夠強化資料集DST1的不同面向的多元資料，從而提高資料集DST1的物件樣本的平衡度。

請回到圖1以及圖4的實施例，在本實施例中，處理器120在步驟S230中對資料集DST1進行訓練以產生訓練模型M1。在步驟S240中，處理器120對訓練模型M1進行推論操作。步驟S210、S230、S240的實施方式相同於步驟S110、S120、S130，故不在此重述。

請同時參考圖1以及圖6，圖6是依據本發明第三實施例所繪示的資料處理方法的流程圖。在本實施例中，資料處理方法S300適用於系統100。資料處理方法S300包括步驟S301~S312。步驟S301中，影像擷取裝置110會擷取影像IMG1~IMGm以產生第一任務的所述多個物件樣本OS1。處理器120在步驟S301中依據所述多個物件樣本OS1來產生資料集DST1(即，第一資料集)。步驟S302中，處理器120對資料集DST1進行資料增強以提高資料集DST1的物件樣本的平衡度。步驟S303中，處理器120在步驟S303中對資料集DST1進行訓練以產生訓練模型M1(即，第一訓練模型)。在步驟S304中，處理器120對訓練模型M1進行推論操作以產生子資料集SDST1(即，第一子資料集)。步驟S301~S304的實施細節可以在圖1至圖5的實施例中獲得足夠的教示，故不在此重述。

在本實施例中，步驟S301~S304用以執行影像識別的第一任務(task)。

在步驟S305中，處理器120結合子資料集SDST1以及第二任務的多個物件樣本OS2以產生資料集DST2(即，第二資料集)。子資料集SDST1可以被視為在第二任務之前的先前任務的先前子資料集。在本實施例中，資料集DST2的物件樣本數量大致上等於子資料集SDST1的物件樣本數量以及所述多個物件樣本OS2的物件樣本數量的總和。因此，資料集DST2的物件樣本數量小於所述多個物件樣本OS1的數量以及所述多個物件樣本OS2的數量的總和。所述多個物件樣本OS2的物件的類別相同或不相同於所述多個物件樣本OS1的類別。舉例來說，所述多個物件樣本OS1的類別可以是眼鏡。所述多個物件樣本OS2的類別可以是眼鏡或口罩。

在步驟S306中，處理器120對資料集DST2進行資料增強。在步驟S307中，處理器120對資料集DST2進行訓練以產生訓練模型M2。在步驟S308中，處理器120對訓練模型M2進行推論操作以產生子資料集SDST2(即，第二子資料集)。

在本實施例中，步驟S305~S308用以執行影像識別的第二任務。第二任務利用增加的所述多個物件樣本OS2來進行影像識別的擴充以及優化。

在本實施例中，步驟S306~S308的實施細節可以在圖1至圖5的實施例中獲得足夠的教示，故不在此重述。此外，步驟S306~S308操作相似於步驟S301~S304。因此，子資料集SDST2的物件樣本的樣本數量大致上等於子資料集SDST1的物件樣本的樣本數量。

在步驟S309中，處理器120結合子資料集SDST2以及第三任務的多個物件樣本OS3以產生資料集DST3(即，第三資料集)。在本實施例中，資料集DST3的物件樣本數量大致上等於子資料集SDST2的物件樣本數量以及所述多個物件樣本OS3的物件樣本數量的總和。因此，資料集DST3的物件樣本數量小於所述多個物件樣本OS2的數量以及所述多個物件樣本OS3的數量的總和。所述多個物件樣本OS3的物件的類別相同或不相同於所述多個物件樣本OS1、OS2的類別。

在步驟S310中，處理器120對資料集DST3進行資料增強。在步驟S311中，處理器120對資料集DST3進行訓練以產生訓練模型M3。在步驟S308中，處理器120對訓練模型M3進行推論操作以產生子資料集SDST3(即，第三子資料集)。

在本實施例中，步驟S309~S312用以執行影像識別的第三任務。第三任務利用增加的所述多個物件樣本OS3來進行影像識別的擴充以及優化。

應注意的是，子資料集SDST1、SDST2、SDST3的物件樣本數量大致相同。因此，在經過多次任務的擴充或優化，資料集的物件樣本數量並沒有大幅增加。假設所述多個物件樣本OS1、OS2、OS3的物件樣本數量大致相同，各個資料集的物件樣本數量並不會有明顯的變化。如此一來，儲存裝置130的記憶體空間被節約。此外，子資料集SDST1、SDST2、SDST3的物件樣本數量被控制。因此，在經過多次任務的擴充或優化，處理器120進行人工智慧學習的效率並不會降低。

在一些實施例中，處理器120會判斷資料集DST1、DST2、DST3的物件樣本是否平衡。當資料集DST1、DST2、DST3的物件樣本都平衡時，處理器120可以省略步驟S302、S306、S310的操作。

綜上所述，資料處理方法對訓練模型進行推論操作。在推論操作中，資料處理方法降低訓練模型的維度以產生降維訓練模型，進一步地產生樣本分布，並對資料集進行困難樣本挖掘以產生困難樣本。資料處理方法還依據樣本分布以及困難樣本的至少其中之一從資料集中篩選出子資料集。因此，子資料集的物件樣本數量能夠被控制。如此一來，在經過多次的資料集的擴充或優化，人工智慧學習的效率並不會降低。此外，透過降維操作，降維訓練模型所佔據的記憶體空間能夠被大幅降低。在一些實施例中，資料集被進行資料增強(data augmentation)以提高資料集的物件樣本的平衡度。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S100:資料處理方法

S110、S120、S130、S131~S134:步驟

Claims

一種資料處理方法，包括：接收一第一任務的多個物件樣本以產生一第一資料集；對該第一資料集進行訓練以產生一訓練模型；對該訓練模型進行一第一推論操作，該第一推論操作包括：降低該訓練模型的維度以產生一降維訓練模型；依據該降維訓練模型產生一樣本分布；對該第一資料集進行一困難樣本挖掘以從該第一資料集中找出至少一困難樣本；以及依據該樣本分布、該至少一困難樣本以及一權重值來從該第一資料集中篩選出一第一子資料集，該第一子資料集的物件樣本數量低於該第一資料集的物件樣本數量。
如請求項1所述的資料處理方法，還包括：接收一第二任務的多個物件樣本；以及結合該第二任務的該些物件樣本以及該第一子資料集以產生一第二資料集。
如請求項1所述的資料處理方法，其中接收該第一任務的該些物件樣本以產生該第一資料集的步驟還包括：接收由一先前任務所產生的一先前子資料集；以及結合該第一任務的該些物件樣本以及該先前子資料集以產生該第一資料集。
如請求項1所述的資料處理方法，還包括：取得該第一資料集的物件樣本的一平均數量，其中該平均數量為該第一資料集的該物件樣本數量除以該第一資料集的該些物件樣本的多個類別的數量；以及當在該第一資料集中的該些類別之其中一類別的物件樣本數量低於該平均數量時，增加該其中一類別的該物件樣本數量。
如請求項1所述的資料處理方法，其中：該權重值越高，該第一子資料集中的困難樣本的數量越低，並且該權重值越低，該第一子資料集中的該困難樣本的數量越高。
如請求項1所述的資料處理方法，其中該第一子資料集的物件樣本數量是一固定值。
如請求項1所述的資料處理方法，其中對該第一資料集進行該困難樣本挖掘以從該第一資料集中找出該至少一困難樣本的步驟包括：利用一分類模型以及一物件偵測模型的其中之一來進行該困難樣本挖掘。
如請求項1所述的資料處理方法，其中依據該樣本分布、該至少一困難樣本以及該權重值來從該第一資料集中篩選出該第一子資料集的步驟包括：依據該樣本分布獲取對應於該第一資料集的多個物件分布範圍；以及依據該些物件分布範圍決定該第一子資料集。
如請求項8所述的資料處理方法，其中依據該些物件分布範圍決定該第一子資料集的步驟包括：獲取該些物件分布範圍的多個資料中心點；以及依據該些資料中心點決定該第一子資料集。
如請求項9所述的資料處理方法，依據該些資料中心點決定該第一子資料集的步驟包括：將各該些物件分布範圍中遠離對應的資料中心點的至少一周邊物件樣本選入該第一子資料集內。