TWI795153B

TWI795153B - 網路惡意流量分析之平衡式資料集生成與處理系統及其方法

Info

Publication number: TWI795153B
Application number: TW110149481A
Authority: TW
Inventors: 李忠憲; 劉奕賢; 謝承恩; 林惟敏
Original assignee: 國立成功大學
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2023-03-01
Also published as: TW202326480A

Abstract

一種網路惡意流量分析之平衡式資料集生成與處理系統，主要係包括一網路流量資料集輸入模組、一資料預處理模組、一資料分析模組、一惡意流量識別模組、一資料集平衡模組以及一標籤檢驗模組，其中，該資料集平衡模組主要係透過生成對抗網路(GAN)技術，於更新識別器與產生器的過程中產生與真實流量無異之模擬惡意流量，以產生資料種類個數接近均衡的資料集，進而解決非均衡流量資料集的資料比例缺陷導致分析困難的問題。

Description

網路惡意流量分析之平衡式資料集生成與處理系統及其方法

本發明係為透過生成對抗網路(GAN)技術，產生資料種類個數接近均衡的資料集，並加入種類標籤，以供非監督式機器學習的資料分析方式使用，進而解決非均衡流量資料集的資料比例缺陷導致分析困難的窘境，同時提高非監督式方法的分析結果解釋力的一種網路惡意流量分析之平衡式資料集生成與處理系統及其方法。

二十一世紀以來，隨著科技進步與網路的發展，現代人的生活已經離不開網際網路，其中，網路攻擊的頻率與規模也隨著時代的推移而越發成長，而攻擊的手法也是多樣且變化快速，造成的損失更是無比巨大，各行各業因此而需投入巨大的成本以建立資訊安全的保護機制。

另一方面，近年來隨著硬體運算能力以及分散式運算進步的關係，讓人工智慧的應用逐漸普及而大數據的蒐集技術也有了快速的發展，並且讓機器學習技術持續運用在各種不同的領域當中；其中，在資訊安全領域中，機器學習也被應用在入侵偵測系統的技術發展上，藉由大量的數據分析與交叉驗證等判讀方式，進而訓練機器模型使其得以偵測並判斷惡意攻擊，進而觸發保護機制以達到資訊安全的防禦效果。

然而，於傳統的機器學習過程中，訓練模型時需要一定的樣本數，但現有的資料集常會有樣本不足導致無法分析的問題，當中，往往發現惡意流量數據與正常流量數據的數據樣本數差距過大，進而使得模型訓練建立在不平衡的資料集上，而當訓練階段中，為了提高機器判別的準確率而把許多惡意流量數據判斷為正常流量數據等狀況，進而導致機器判別結果不如預期。

由此可見，上述習用方式仍有諸多缺失，實非一良善之設計者，而亟待加以改良。

是以，由於透過機器學習來訓練網路攻擊流量的判別方式勢必為未來的資安發展趨勢，因此，如何於惡意流量數與正常流量樣本數不平衡的狀況下，導正並產生平衡式資料集生成以利資安機器模型訓練發展，乃是目前仍需克服技術以及解決之課題。

有鑑於此，本發明的主要目的在於改善過往於機器學習之網路惡意流量分析技術中，網路流量資料集不平衡的狀況，所導致之資料集樣本數不足導致無法分析的狀況，其中，主要係透過資料平衡式生成對抗網路惡意資料處理機制來解決樣本數過低無法分析之問題；此外，本發明更使用所設計之資料平衡演算法生成標籤，進而用於增強非監督式機器學習的解釋性。

為了達成上述本發明之主要目的，本案之發明人係提供一種網路惡意流量分析之平衡式資料集生成與處理系統，主要係包括：一網路流量資料集輸入模組，係包含一資料蒐集單元與一資料儲存單元，且該資料蒐集單元係將網路流量資料導入該資料儲存單元；一資料分析模組，係透過至少一種監督式機器學習單元針對該網路流量資料集輸入模組所輸入之網路流量資料進行資料解析，並產出一惡意流量偵測資料；以及一資料集平衡模組，係包括一惡意流量生成對抗單元與一偽造流量判斷單元；其中，該網路流量資料集輸入模組係透過該資料集平衡模組進行平衡式資料集生成，並且，該資料集平衡模組係透過一惡意流量資料集輸入單元輸入一惡意流量樣本於該惡意流量生成對抗單元後，藉由該惡意流量生成對抗單元之一惡意流量生成單元與一惡意流量識別單元進行生成對抗網路(GAN)的方式，進而產生出模擬惡意流量；其中，該模擬惡意流量係連同該資料蒐集單元之正常流量透過該偽造流量判斷單元而判斷當前流量的真偽性，進而提升該惡意流量識別單元與該生成對抗單元之惡意流量生成對抗效果，並透過產生出的模擬惡意流量而使得該資料儲存單元內之網路流量資料達到資料集平衡。

在本發明的一個實施例中，更包括一資料預處理模組，係用以將該網路流量資料集輸入模組所輸入之資料進行預處理，進而生成一淨化惡意流量資料，並將該淨化惡意流量資料輸入該資料分析模組當中。

在本發明的一個實施例中，該資料預處理模組係包括：一資料清洗單元(Data Cleanning)、一標籤編碼單元(Label Encoding)以及一獨熱編碼單元(One Hot Encoding)。

在本發明的一個實施例中，該資料集平衡模組更包括一資料比例設置單元，且該資料集平衡模組係依據該資料比例設置單元所設置之資料比例進行惡意流量生成數量調整。

在本發明的一個實施例中，該惡意流量資料集輸入單元係為一惡意軟件分析沙盒(Sandbox)所誘發之惡意流量。

在本發明的一個實施例中，更包括一標籤檢驗模組，係將該資料集平衡模組生成之模擬惡意流量與該資料儲存單元之網路流量進行資料標籤，進而產生一混和標籤資料，並且，該標籤檢驗模組係將該混和標籤資料與外部一機器學習演算法標籤資料進行比對並產生至少一資料標籤比對數值。

在本發明的一個實施例中，該資料標籤比對數值係包括下列指標類型: 偽陽性率(False positive rate)、錯誤發現率(False discovery rate)以及真陽性率(True positive rate)。

在本發明的一個實施例中，該偽造流量判斷單元係為一入侵偵測系統(IDS, Intrusion Detection. System)。

在本發明的一個實施例中，更包括一惡意流量識別模組，其中，該惡意流量識別模組係依據該資料分析模組所產生之惡意流量偵測資料進行網路流量偵測與監控。

此外，本發明更提供一種網路惡意流量分析之平衡式資料集生成與處理方法，係包括以下步驟：步驟1、藉由一資料比例設置單元設定一流量資料混和比例於一資料集平衡模組；步驟2、將特定網路流量資料透過一網路流量資料集輸入模組之一資料蒐集單元輸入一資料儲存單元；步驟3、該資料集平衡模組判斷該資料儲存單元內之網路流量資料比例是否等於該流量資料混和比例；若為是，則執行步驟4；若為否，則執行步驟5；步驟4、將該資料儲存單元內之網路流量資料輸入一資料分析模組進而取得一惡意流量偵測資料；以及步驟5、藉由該資料集平衡模組之一惡意流量生成對抗單元以生成對抗網路(GAN)產生出模擬惡意流量，並將該模擬惡意流量混和至該資料儲存單元當中並重複執行步驟3；其中，步驟5更包括以下步驟：步驟5-1、輸入一惡意流量樣本於該惡意流量生成對抗單元之一惡意流量生成單元；同時，輸入一真實流量於該惡意流量生成對抗單元之一惡意流量識別單元；步驟5-2、該惡意流量生成單元藉由該惡意流量樣本產生模擬惡意流量，並將該模擬惡意流量輸入該惡意流量識別單元；步驟5-3、該惡意流量識別單元藉由該真實流量資料識別該模擬惡意流量；步驟5-4、判斷該惡意流量識別單元是否能準確判別該惡意流量為模擬所產生；若為是，則執行步驟5-6；若為否，則執行步驟5-5；步驟5-5、完成網路流量資料之平衡並將該模擬惡意流量混和至該資料儲存單元；及步驟5-6、完善調節訓練該惡意流量生成單元與該惡意流量識別單元，並重複執行步驟5-2。

為利於貴審查員瞭解本發明之技術特徵、內容與優點及其所能達成之功效，茲將本發明配合附圖，並以實施例之表達形式詳細說明如下，而其中所使用之圖式，其主旨僅為示意及輔助說明書之用，未必為本發明實施後之真實比例與精準配置，故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍，合先敘明。

請參閱圖1與圖2，係分別為本發明網路惡意流量分析之平衡式資料集生成與處理系統方塊圖與平衡式資料集生成系統方塊圖，如圖1與圖2所示，本發明之網路惡意流量分析之平衡式資料集生成與處理系統包括有：一網路流量資料集輸入模組(110)、一資料預處理模組(120)、一資料分析模組(130) 、一惡意流量識別模組(140)、一資料集平衡模組(150)以及一標籤檢驗模組(160)。

其中，該網路流量資料集輸入模組(110)係包含一資料蒐集單元(111)與一資料儲存單元(112)，且該資料蒐集單元(111)係將網路流量資料導入該資料儲存單元(112)；並且，該資料分析模組(130)係透過至少一種監督式機器學習單元(131)針對該網路流量資料集輸入模組(110)所輸入之網路流量資料進行資料解析，並產出一惡意流量偵測資料。

更詳細地，於本實施例當中所使用之監督式機器學習單元(131)係包括下列演算法: 樸素貝葉斯演算法（Naive Bayes, NB)、支援向量機演算法（Support Vector Machine，SVM）、卷積神經網路演算法(Convolutional Neural Network，CNN)、長短期記憶網路演算法(Long short-term memory，LSTM)以及蝙蝠演算法（Bat Algorithm，BA）。

此外，該資料集平衡模組(150)係包括一惡意流量生成對抗單元(151)與一偽造流量判斷單元(152)，其中，該網路流量資料集輸入模組(110)係透過該資料集平衡模組(150)進行平衡式資料集生成，並且，該資料集平衡模組(150)係透過一惡意流量資料集輸入單元(153)輸入一惡意流量樣本於該惡意流量生成對抗單元(151)後，藉由該惡意流量生成對抗單元(151)之一惡意流量生成單元(1512)與一惡意流量識別單元(1511)進行生成對抗網路(GAN)的方式，進而產生出模擬惡意流量。

進一步地，該模擬惡意流量係連同該資料蒐集單元(111)之正常流量透過該偽造流量判斷單元(152)而判斷當前流量的真偽性，進而提升該惡意流量識別單元(1511)與該惡意流量生成對抗單元(151)之惡意流量生成對抗效果，並透過產生出的模擬惡意流量而使得該資料儲存單元(112)內之網路流量資料達到資料集平衡。進而該惡意流量識別模組(140)係依據該資料分析模組(130)所產生之惡意流量偵測資料進行網路流量偵測與監控。

請繼續參閱圖1與圖2，並請同時參閱圖3，係本發明之平衡式資料集生成系統運作說明圖，如圖1、圖2以及圖3所示，值得提出說明的是，於本發明技術當中，主要係透過生成對抗網路(GAN)技術，進而於更新識別器與產生器的過程中以產生資料種類個數接近均衡的資料集並加入種類標籤，以供非監督式機器學習的資料分析方式使用，以解決非均衡流量資料集的資料比例缺陷導致分析困難的窘境，同時提高非監督式方法的分析結果解釋力。本發明係藉由上述技術以解決現有於人工智能發展網路惡意流量監測上，由於所蒐集資料集樣本不足或資料不平衡狀態下，所導致模型訓練建立上難度與效率等問題。

更詳細地，於本發明實施例當中，該網路流量資料集輸入模組(110)之資料蒐集單元(111)與資料儲存單元(112)當中，其初始資料集係採用包括NSL-KDD 資料集、UNSW-NB15資料集以及CICIDS2017資料集等網路異常流量資料集進行，然而，於實務技術中，本發明係不限定上述網路惡意流量初始資料集之應用。

另一方面，該資料預處理模組(120)係用以將該網路流量資料集輸入模組(110)所輸入之資料進行預處理，進而生成一淨化惡意流量資料，並將該淨化惡意流量資料輸入該資料分析模組(130)當中，其中，該資料預處理模組(120)係包括有：一資料清洗單元(Data Cleanning)(121)、一標籤編碼單元(Label Encoding)(122)以及一獨熱編碼單元(One Hot Encoding)(123)。於本發明技藝當中，針對資料預處理(Data Pre-processing)的方式並不限定上述內容，也包括用以將冗餘資料進行識別並濾除的刪除重複(Drop Duplicate)資料清洗方式。

此外，於本發明之平衡式資料集生成系統運作架構當中，該偽造流量判斷單元(152)係為一入侵偵測系統(IDS, Intrusion Detection. System)，並且，透過該入侵偵測系統來對資料集當中的模擬流量進行判別，而於本實施例當中，係採用開放原始碼Snort進行判別，而當資料集於Snort上達到90%以上之準確率，即代表目前透過生成對抗網路(GAN)所產生之模擬流量與資料集與真實資料集並無差異；進而藉由該入侵偵測系統的設置而增加生成對抗網路所產生模擬惡意流量的效果。

於發明技術當中，該資料集平衡模組(150)更包括一資料比例設置單元(154)，且該資料集平衡模組(150)係依據該資料比例設置單元(154)所設置之資料比例進行惡意流量生成數量調整，並且，該惡意流量資料集輸入單元(153)係為一惡意軟件分析沙盒(Sandbox)所誘發之惡意流量。

其中，於本實施例中，該惡意軟件分析沙盒(Sandbox)係採用Cuckoo沙盒系統來誘發惡意程式製作惡意流量資料集，並以此為樣本進行生成對抗網路之執行，實務情形中，也可採用其他種類之惡意軟件分析沙盒系統來執行，例如GFI/CW Sandbox；此外，用戶也可透過資料比例設置單元(154)而調整所模擬產生的資料集比例，於通常狀態下，該資料比例設置單元(154)之預設資料比例係符合平衡式資料集之比例特徵。

請繼續參閱圖1並請同時參閱圖4，係本發明之非監督機器學習標籤檢驗運作說明圖，如圖所示，更進一步地，於本發明當中，該標籤檢驗模組(160)係將該資料集平衡模組(150)生成之模擬惡意流量與該資料儲存單元(112)之網路流量進行資料標籤，進而產生一混和標籤資料，並且，該標籤檢驗模組(160)係將該混和標籤資料與外部一機器學習演算法標籤資料進行比對並產生至少一資料標籤比對數值。此外，該資料標籤比對數值係包括下列指標類型: 偽陽性率(False positive rate)、錯誤發現率(False discovery rate)以及真陽性率(True positive rate)。

當中，該偽陽性率(False positive rate)之計算公式如下式1： False positive rate = FP / (FP + TN) 式1

當中，該錯誤發現率(False discovery rate)之計算公式如下式2： False discovery rate = FP / (FP + TP) 式2

當中，該真陽性率(True positive rate)之計算公式如下式3： True positive rate = TP / (TP + FN) 式3

其中，於上述計算公式中，FP(False Positive)為偽陽性數，TN(True Negative)為真陰性數，TP(True Positive)為真陽性數而FN(False Negative)為偽陰性數。

承上述，於本發明實施例技術中，透過將資料集平衡演算法將所模擬之惡意流量資料集以不同的比例與真實流量資料集進行混合，並將來自真實流量的資料集標示為正常流量，而將模擬之惡意流量標示為異常流量，進而取得具有標籤的流量資料集；再者，藉由上述具有標籤的流量資料集與外部非監督式機器學習演算法之標籤流量進行比對，從而產生上述資料標籤比對數值(真陽性率(True positive rate，TPR)、錯誤發現率(False discovery rate， FDR)、偽陽性率(False positive rate，FPR))。

於本實施例當中，該外部非監督式機器學習演算法係採用Xgboost、Gradient Boosting以及隨機森林(RF)等三種非監督式演算法當成評估依據，其中，藉由上述資料標籤比對數值來表示非監督式模型生成的標籤與本架構模擬生成的標籤差異比率；當中，真陽性率(True positive rate，TPR)係代表演算法生成的所有惡意標籤與模擬惡意流量標籤的相同比例，且錯誤發現率(False discovery rate，FDR)係代表演算法生成標籤與模擬標籤不同的比例，並且，偽陽性率(False positive rate，FPR)則用以檢驗惡意流量標籤的穩定性，進而透過比對錯判惡意流量的IP(網際網路協定，Internet Protocol)與時間戳(Time)以回朔其流量的原始封包特徵與流量特徵，藉此以利後續由工程人員進行判斷與分析以增強非監督式機器學習的解釋性。

請參閱圖5、圖6以及圖7，係分別為本發明之網路惡意流量分析之平衡式資料集生成與處理方法流程圖、平衡式資料集生成流程圖以及平衡式資料集生成運作流程說明圖，其中，如圖所示，本發明更提供一種網路惡意流量分析之平衡式資料集生成與處理方法，並主要包括有下列步驟：步驟1、 (S01)藉由一資料比例設置單元(154)設定一流量資料混和比例於一資料集平衡模組(150)；步驟2、 (S02)將特定網路流量資料透過一網路流量資料集輸入模組(110)之一資料蒐集單元(111)輸入一資料儲存單元(112)；步驟3、 (S03)該資料集平衡模組(150)判斷該資料儲存單元(112)內之網路流量資料比例是否等於該流量資料混和比例；若為是，則執行步驟4(S04)；若為否，則執行步驟5(S05)；步驟4、 (S04)將該資料儲存單元(112)內之網路流量資料輸入一資料分析模組(130)進而取得一惡意流量偵測資料；以及步驟5、 (S05)藉由該資料集平衡模組(150)之一惡意流量生成對抗單元(151)以生成對抗網路(GAN)產生出模擬惡意流量，並將該模擬惡意流量混和至該資料儲存單元(112)當中並重複執行步驟3(S03)。

更詳細地，於本發明技術中，該步驟5更包括以下詳細步驟：步驟5-1、 (S051)輸入一惡意流量樣本於該惡意流量生成對抗單元(151)之一惡意流量生成單元(1512)；同時，輸入一真實流量於該惡意流量生成對抗單元(151)之一惡意流量識別單元(1511)；步驟5-2、 (S052)該惡意流量生成單元(1512)藉由該惡意流量樣本產生模擬惡意流量，並將該模擬惡意流量輸入該惡意流量識別單元(1511)；步驟5-3、 (S053)該惡意流量識別單元(1511)藉由該真實流量資料識別該模擬惡意流量；步驟5-4、 (S054)判斷該惡意流量識別單元(1511)是否能準確判別該惡意流量為模擬所產生；若為是，則執行步驟5-6(S056)；若為否，則執行步驟5-5(S055)；步驟5-5、 (S055)完成網路流量資料之平衡並將該模擬惡意流量混和至該資料儲存單元(112)；以及步驟5-6、 (S056)完善調節訓練該惡意流量生成單元(1512)與該惡意流量識別單元(1511)，並重複執行步驟5-2(S052)。

其中，請再次參閱圖7，本發明係藉由上述流程進而使得數據集內之正常網路流量與惡意網路流量達到資料平衡的效果，當中係藉由生成對抗網路(Generative Adversarial Network，GAN)的非監督式機器學習方式，由一個生成網絡(生成器)與一個識別網絡(識別器)組成。生成網路(生成器)從惡意流量樣本中取樣作為輸入，其輸出結果需要盡量模仿訓練集中的真實樣本。識別網路(識別器)的輸入則為真實樣本或生成網路的輸出，其目的是將生成網路的輸出從真實樣本中盡可能分辨出來。

由此可知，藉由兩個網路相互對抗、不斷地調整參數而最終使識別網路無法判斷生成網路的輸出結果是否為真實，進而產生近真實的模擬惡意流量而解決真實惡意流量不足的狀況，從而使得輸入資料分析模組的網路流量資料集達到資料平衡的效果。

由上述之實施說明可知，本發明與現有技術與產品相較之下，本發明具有以下優點：

1. 本發明之網路惡意流量分析之平衡式資料集生成與處理系統及其方法，可改善傳統透過機器學習網路惡意流量分析技術中，其所監測到的網路惡意流量與正常流量比例不平衡的狀況，進而使機器學習得以於平衡式資料集中建立，而避免非平衡資料集所導致機器學習效度上的問題。

2. 本發明之網路惡意流量分析之平衡式資料集生成與處理系統及其方法，其更藉由演算法生成標籤，進而透過標籤比對而利後續由工程人員進行判斷與分析以增強非監督式機器學習的解釋性並且可用於模型訓練。

以上所述，僅為本發明最佳具體實施例，惟本發明之構造特徵並不侷限於此，任何熟悉該項技藝者在本發明領域內，可輕易思及之變化或修飾，皆可涵蓋在以下本案之專利範圍。

綜上所述，本發明確實具有前所未有之創新構造，其既未見於任何刊物，且市面上亦未見有任何類似的產品，是以其具有新穎性應無疑慮。另外，本發明所具有之獨特特徵以及功能遠非習用所可比擬，所以其確實比習用更具有其進步性，而符合我國專利法有關發明專利之申請要件之規定，乃依法提起專利申請。

110:網路流量資料集輸入模組 111:資料蒐集單元 112:資料儲存單元 120:資料預處理模組 121:資料清洗單元 122:標籤編碼單元 123:獨熱編碼單元 130:資料分析模組 131:監督式機器學習單元 140:惡意流量識別模組 150:資料集平衡模組 151:惡意流量生成對抗單元 1511:惡意流量識別單元 1512:惡意流量生成單元 152:偽造流量判斷單元 153:惡意流量資料集輸入單元 154:資料比例設置單元 160:標籤檢驗模組 S01~S05:方法步驟 S051~S055:方法步驟

圖1為本發明網路惡意流量分析之平衡式資料集生成與處理系統方塊圖；圖2為本發明之平衡式資料集生成系統方塊圖；圖3為本發明之平衡式資料集生成系統運作說明圖；圖4為本發明之非監督機器學習標籤檢驗運作說明圖；圖5為本發明之網路惡意流量分析之平衡式資料集生成與處理方法流程圖；圖6為本發明之平衡式資料集生成流程圖；以及圖7為本發明之平衡式資料集生成運作流程說明圖。

110:網路流量資料集輸入模組

111:資料蒐集單元

112:資料儲存單元

120:資料預處理模組

121:資料清洗單元

122:標籤編碼單元

123:獨熱編碼單元

130:資料分析模組

131:監督式機器學習單元

140:惡意流量識別模組

150:資料集平衡模組

151:惡意流量生成對抗單元

152:偽造流量判斷單元

160:標籤檢驗模組

Claims

一種網路惡意流量分析之平衡式資料集生成與處理系統，係包括：一網路流量資料集輸入模組，係包含一資料蒐集單元與一資料儲存單元，且該資料蒐集單元係將網路流量資料導入該資料儲存單元；一資料分析模組，係透過至少一種監督式機器學習單元針對該網路流量資料集輸入模組所輸入之網路流量資料進行資料解析，並產出一惡意流量偵測資料；以及一資料集平衡模組，係包括一惡意流量生成對抗單元與一偽造流量判斷單元；其中，該網路流量資料集輸入模組係透過該資料集平衡模組進行平衡式資料集生成，並且，該資料集平衡模組係透過一惡意流量資料集輸入單元輸入一惡意流量樣本於該惡意流量生成對抗單元後，藉由該惡意流量生成對抗單元之一惡意流量生成單元與一惡意流量識別單元進行生成對抗網路(GAN)的方式，進而產生出模擬惡意流量；其中，該模擬惡意流量係連同該資料蒐集單元之正常流量透過該偽造流量判斷單元而判斷當前流量的真偽性，進而提升該惡意流量識別單元與該生成對抗單元之惡意流量生成對抗效果，並透過產生出的模擬惡意流量而使得該資料儲存單元內之網路流量資料達到資料集平衡；其中，更包括一標籤檢驗模組，係將該資料集平衡模組生成之模擬惡意流量與該資料儲存單元之網路流量進行資料標籤，進而產生一混和標籤資料，並且，該標籤檢驗模組係將該混和標籤資料與外部一機器學習演算法標籤資料進行比對並產生至少一資料標籤比對數值；其中，該資料標籤比對數值係包括下列指標類型：偽陽性率(False positive rate)、錯誤發現率(False discovery rate)以及真陽性率(True positive rate)；其中，藉由該標籤檢驗模組與該資料標籤比對數值之設置，以提升模擬惡意流量解釋性。
如請求項1所述之網路惡意流量分析之平衡式資料集生成與處理系統，更包括一資料預處理模組，係用以將該網路流量資料集輸入模組所輸入之資料進行預處理，進而生成一淨化惡意流量資料，並將該淨化惡意流量資料輸入該資料分析模組當中。
如請求項2所述之網路惡意流量分析之平衡式資料集生成與處理系統，其中，該資料預處理模組係包括：一資料清洗單元(Data Cleanning)、一標籤編碼單元(Label Encoding)以及一獨熱編碼單元(One Hot Encoding)。
如請求項1所述之網路惡意流量分析之平衡式資料集生成與處理系統，其中，該資料集平衡模組更包括一資料比例設置單元，且該資料集平衡模組係依據該資料比例設置單元所設置之資料比例進行惡意流量生成數量調整。
如請求項1所述之網路惡意流量分析之平衡式資料集生成與處理系統，其中，該惡意流量資料集輸入單元係為一惡意軟件分析沙盒(Sandbox)所誘發之惡意流量。
如請求項1所述之網路惡意流量分析之平衡式資料集生成與處理系統，其中，該偽造流量判斷單元係為一入侵偵測系統(IDS,Intrusion Detection.System)。
如請求項1所述之網路惡意流量分析之平衡式資料集生成與處理系統，更包括一惡意流量識別模組，其中，該惡意流量識別模組係依據該資料分析模組所產生之惡意流量偵測資料進行網路流量偵測與監控。