TWI710922B - 行為標記模型訓練系統及方法 - Google Patents
行為標記模型訓練系統及方法 Download PDFInfo
- Publication number
- TWI710922B TWI710922B TW107138219A TW107138219A TWI710922B TW I710922 B TWI710922 B TW I710922B TW 107138219 A TW107138219 A TW 107138219A TW 107138219 A TW107138219 A TW 107138219A TW I710922 B TWI710922 B TW I710922B
- Authority
- TW
- Taiwan
- Prior art keywords
- mark
- data set
- marking
- behavior
- information
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本揭露提供一種行為標記模型訓練系統。特別是,處理單元輸入訓練資料組的每一筆至多個學習模組,以建立多個標記模型。處理單元還依據標記模型分別獲取相應驗證資料組資料的每一筆的多個第二標記資訊,並產生相應驗證資料組的每一筆的行為標記結果。處理單元由驗證資料組的每一筆相應的行為標記結果以及第一標記資訊獲取標記變動幅度值,並判斷當標記變動幅度值大於變動門檻值,依據行為標記結果更新驗證資料組的每一筆對應的第一標記資訊,交換訓練資料組及驗證資料組,並依據交換後的訓練資料組重新建立標記模型。
Description
本發明是有關於一種資訊處理技術,且特別是有關於一種行為標記模型訓練方法及系統。
在現今數位化、網路發達的時代,資訊安全變成相當重要的議題。特別是,對於企業而言,由於公司內部文件涉及重要的營業秘密,資料的外流會導致公司無法回復的損害,因此各公司無不積極採用嚴格的資料控管與防護措施。舉例來說,設置存取人員的權限、在公司的內部網路與外部網路間設置防火牆等,以避免資料外流。
雖然如此,在員工執行各項業務的時候,必然需要存取機密資料。縱使採取了嚴謹的安全措施,設定了嚴格的存取標準,還是難保具有合法存取權限的有心員工竊取資料。因此,如何監控內部員工的異常登入行為為本領域具有通常知識者所致力的課題。
本發明提供一種行為標記模型訓練系統及方法,通過訓練可靠的標記模型,進而透過標記模型監控內部員工的異常登入。
在本發明一實施例中,行為標記模型訓練系統具有輸入單元、儲存單元以及處理單元。輸入單元接收已標記資料組。已標記資料組具有訓練資料組以及驗證資料組,且訓練資料組的每一筆以及驗證資料組的每一筆具有第一標記資訊。儲存單元儲存多個學習模組。處理單元連接於輸入單元與儲存單元,分別輸入訓練資料組的每一筆至多個學習模組,以建立多個標記模型。處理單元還依據標記模型分別獲取相應驗證資料組資料的每一筆的多個第二標記資訊,依據相應驗證資料組的每一筆對應的第二標記資訊,分別產生相應驗證資料組的每一筆的行為標記結果。處理單元還由該驗證資料組的每一筆相應的行為標記結果以及第一標記資訊獲取標記變動幅度值,並判斷標記變動幅度值是否大於變動門檻值,且當標記變動幅度值大於該變動門檻值,依據行為標記結果更新驗證資料組的每一筆對應的第一標記資訊,交換訓練資料組及驗證資料組,並依據交換後的訓練資料組重新建立標記模型。
在本發明一實施例中,行為標記模型訓練方法具有下列步驟:接收已標記資料組,其中已標記資料組包括訓練資料組以及驗證資料組,且訓練資料組的每一筆以及驗證資料組的每一筆分別具有第一標記資訊;分別輸入訓練資料組的每一筆至多個學習模組,以建立多個標記模型;依據標記模型分別獲取相應驗證資料組資料的每一筆的多個第二標記資訊;依據相應驗證資料組的每一筆對應的第二標記資訊,分別產生相應驗證資料組的每一筆的行為標記結果;由驗證資料組的每一筆相應的行為標記結果以及第一標記資訊獲取標記變動幅度值,並判斷標記變動幅度值是否大於變動門檻值;以及當標記變動幅度值大於變動門檻值,依據行為標記結果更新驗證資料組的每一筆對應的第一標記資訊,交換訓練資料組及驗證資料組,並依據交換後的訓練資料組重新建立該些標記模型。
基於上述,本發明的行為標記模型訓練方法及其系統通過建立標記模型,以自動地對使用者的登入紀錄進行標記。不僅如此,考量到標記模型的可靠度,本發明的行為標記模型訓練方法及其系統會同時訓練多個不同的標記模型,並在標記內容衝突時,通過多數決的方式進而標記使用者的登入紀錄,以重新調整訓練標記模型。藉此,行為標記模型訓練方法及其系統能夠提升標記模型的可靠度。而通過標記模型,使用者的登入紀錄可以被自動地觀察分析,並進一步找出可能的異常登入行為。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
為了監控內部員工惡意存取資料的行為,在管理系統中多半會記錄使用者的登入紀錄,例如但不限於,記錄使用者的身分、登入時間以及其對應的網際網路位址。然而,管理系統記載著每個使用者的每一筆登入紀錄,資料量相當龐大。倘若採用人工判斷使用者的異常行為,不僅難以判讀正常與異常的情形,且也耗費相當多的人力。基此,本發明提供了一種行為標記模型訓練系統及其方法,以採用機械學習的方式,並依據使用者在一段期間內的登入紀錄進行學習與訓練。藉此,以自動地標記使用者的異常行為。
圖1繪示本發明一實施例的行為標記模型訓練系統的示意圖。在本實施例中,適用的情境例如為,資訊管理人員會在微軟公司所開發的Windows環境中建立多個子帳號,並將每一個子帳號的登入行為都記錄在系統日誌中,以作為使用者的登入紀錄。行為標記模型訓練系統100會先依據使用者在一段時間的登入紀錄進行標記、建立行為模型並據此行為模型對使用者的登入行為進行長期的分析與觀察。在其他實施例中,也可以採用Linux、macOS或其他不同作業系統的系統日誌中的使用者登入紀錄,或者通過資訊管理人員自行建立的程式記錄使用者的登入紀錄,本發明不限於此。
請參照圖1,在本實施例中,行為標記模型訓練系統100具有輸入單元110、儲存單元120以及處理單元130。
輸入單元110用以接收各種資訊,特別是,輸入單元110會接收多筆使用者的登入紀錄。
在本發明的實施例中,輸入單元110可以採用實體的輸入元件,例如鍵盤、滑鼠、觸控螢幕等。或者是,輸入單元110可以採用通用序列匯流排(Universal Serial Bus,USB)、串列埠(Serial Port)等直接接收其他系統所匯入的資料。又或者是,在連網環境中,輸入單元110為各類型的通訊晶片,例如藍牙晶片、WiFi晶片或有線的網路連接埠。本發明並不限制輸入單元110的形式與其接收資訊的方式。
儲存單元120用以儲存運行行為標記模型訓練系統100的必要程式碼與資訊。在本實施例中,儲存單元120儲存初始學習模組122、初始標記模型124、學習模組126以及標記模型128。初始學習模組122和學習模組126是採用機械學習的方式,進而依據登入紀錄進行訓練分別產生對應使用者行為的初始標記模型124以及標記模型128。如何產生初始標記模型124與標記模型128的細節將於後方再進行說明。然須說明的是,圖1所繪示的學習模組126和標記模型128的數量各為2個,但在其他實施例中,學習模組126和標記模型128的數量可以更多,圖1僅為示例。
在本實施例中,儲存單元120可以是任何型態的固定或可移動隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(flash memory)、硬碟(Hard Disk Drive,HDD)、固態硬碟(Solid State Drive,SSD)或類似元件或上述元件的組合,且本發明不限於此。
處理單元130連接於輸入單元110及儲存單元120,並用以執行行為標記模型訓練系統100的必要功能。特別是,處理單元130會讀取並執行初始學習模組122及學習模組124,細節將於後方再進行說明。處理單元130可以是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuit,ASIC)或其他類似元件或上述元件的組合,本揭露不限於此。
圖2繪示本發明一實施例行為模型訓練方法的流程圖。在此實施例中,例如適用於圖1繪示的行為標記模型訓練系統100,但不限於此。以下將同時搭配圖1與圖2來說明行為模型訓練方法的流程。
在步驟S210,處理單元130通過輸入單元110接收已標記資料組。在本實施例中,已標記資料組為在一段時間中多個使用者的登入紀錄,且這些登入紀錄已經具有第一標記資訊。第一標記資訊為相應於使用者行為的標記,例如:正常、異常。此外,處理單元130會採取隨機抽樣的方式,以將已標記資料組分成訓練資料組以及驗證資料組。
在步驟S220,處理單元130會分別輸入訓練資料組的每一筆至多個學習模組126,以建立多個標記模型128。在本發明的實施例中,每一個學習模組126所採用的演算法是監督式學習演算法,即通過已經標記的已標記資料組建立標記模型128,因此學習模組126的數量與標記模型128的數量相互對應,然本發明不限制其數量。監督式學習學習演算法例如為,支援向量機演算法(Support vector machine,SVM)、邏輯回歸演算法(Logistic regression)、隨機森林演算法(Random forest)、人工神經網路演算法(Artificial neural network,ANN)、單純貝式分類器、決策樹(Decision tree)、最近鄰居法(k-nearest neighbors)、線性回歸(Linear regression)、相關向量機(Relevance vector machine,RVM)、感知器(Perceptron)或其他目的相似的學習演算法。值得一提的是,為了增加學習模組標記的可靠性,在本實施例所採用的多個學習模組126皆採用不同的監督式學習演算法。因此,雖然處理單元130會將相同的資料分別丟到不同的學習模組126中,但經過不同的運算後產生的標記模型128會有所不同。
在步驟S230,處理單元130會依據標記模型128分別獲取相應驗證資料組資料的每一筆的多個第二標記資訊。在本實施例中,處理單元130會依據通過訓練資料組訓練出來的標記模型128,分別對驗證資料組的每一筆資料重新進行標記,重新標記的結果即為第二標記資訊。值得一提的是,在本實施例中,由於第二標記資訊是經由訓練資料組中的第一標記資訊訓練出來的標記模型128,進而對驗證資料組重新標記。也就是說,第二標記資訊的態樣亦為相應於使用者行為的標記,且會與第一標記資訊相互對應。舉例來說,在第二標記資訊的態樣是採用類別型進行表示,例如為「正常」、「異常」。又或者是,在一實施例中,第二標記資訊的態樣也可以通過機率的方式表現,例如「正常的機率」或者「異常的機率」,本發明不限於此。此外,由於本實施例提供了多個學習模組126,且驗證資料組中的每一筆都會依據標記模型128進而產生第二標記資訊,也就是說,驗證資料組中的每一筆都具有相應標記模型128數量的第二標記資訊。
在步驟S240,處理單元130依據相應驗證資料組的每一筆對應的第二標記資訊,分別產生相應驗證資料組的每一筆的行為標記結果。在本發明的一實施例中,處理單元130會採用多數決的方式,即判斷驗證資料組的每一筆對應的第二標記資訊中,相應於正常標記的數量以及相應於異常標記的數量,並依據正常標記的數量與異常標記的數量中較多的產生行為標記結果。在本發明另一實施例中,處理單元130會給予不同標記模型128相應的第二標記資訊不同的權重,並將正常標記及異常標記化成二元化的數值,並基於權重及相應的數值產生行為標記結果。在本發明的另一實施例中,倘若第二標記資訊的態樣是通過「正常的機率」或者「異常的機率」來表現,處理單元130可以通過機率的加總、機率的平均或者是加權加總、加權平均等方式獲取行為標記結果。在本發明的又一實施例中,倘若部分第二標記資訊的態樣是通過類型值來表現,部分第二標記資訊是通過機率值來表現,處理單元130會進一步依據機率值的數值,進而轉換機率值為類型值。藉此,處理單元130可以進一步通過正常標記的數量以及相應於異常標記的數量進而獲取行為標記結果。本發明不以上述方法為限。
在步驟S250,處理單元130由驗證資料組的每一筆相應的行為標記結果以及第一標記資訊獲取標記變動幅度值。具體而言,處理單元130會獲取行為標記結果為正常,且第一標記資訊為正常的第一數量。倘若處理單元130在接收到已標記資料組的標記為正常,經由訓練標記模型128並根據標記模型128所產生的第二標記資訊也為正常時,代表標記模型128所判斷的內容符合原始的標記結果,這一筆資料的判斷結果相較於第一標記資訊是正確的。相似地,處理單元130也會獲取行為標記結果為異常,且第一標記資訊為異常的第二數量。藉此,處理單元130可以進一步依據第一數量與第二數量的總和與驗證資料組的資料數量的比值,以獲取準確率衡量值,即,在所有的驗證資料組中,相較於第一標記資訊的準確程度有多少。除此之外,處理單元130也會依據第一數量與第一標記資訊為正常的數量的比值,以獲取特異性衡量值,即,在驗證資料組中的所有資料,正常使用者不會被誤判的程度到底有多少。並且,處理單元130還會依據第二數量與第一標記資訊為異常的數量的比值,以獲取敏感度衡量值,即在驗證資料組中,對行為異常的使用者的敏感程度。
除此之外,處理單元130還會分別判斷準確率衡量值、特異性衡量值以及敏感度衡量值與前一次所測量的歷史準確率衡量值、歷史特異性衡量值以及歷史敏感度衡量值的差異值,以獲取標記變動幅度值。值得一提的是,倘若已標記資料組第一次被輸入並首次建立標記模型128時,歷史準確率衡量值、歷史特異性衡量值以及歷史敏感度衡量值會被預設為0,然本發明不限於此。在本發明一實施例中,處理單元130還會以準確率衡量值、特異性衡量值以及敏感度衡量值與前一次所測量的歷史準確率衡量值、歷史特異性衡量值以及歷史敏感度衡量值的差異值的絕對值分別視為不同類別的標記變動幅度值,又或者是以差異值的平均值或者中位數作為總體的標記變動幅度值,本發明亦不限於此。
在步驟S260,處理單元130判斷標記變動幅度值是否大於變動門檻值。倘若變動幅度值大於變動門檻值,表示通過標記模型128所標記的結果仍不穩定,還有調整的空間,因而跳轉至步驟S270。
在步驟S270,處理單元130依據行為標記結果更新驗證資料組的每一筆對應的第一標記資訊。並且,處理單元130還會交換訓練資料組及驗證資料組,並依據交換後的訓練資料組重新建立標記模型。也就是說,處理單元130會將更新過第一標記資訊的驗證資料組作為交換後的訓練資料組,並依據交換後的訓練資料組重新建立標記模型128(即,回到步驟S220),並採用交換後的驗證資料組對標記模型128進行驗證(即,執行步驟S230至步驟S260)。
然而,若在步驟S260,處理單元130判斷標記變動幅度值不大於變動門檻值。也就是說,通過標記模型128所標記的結果已經呈現穩定的狀態,處理單元130會依據行為標記結果更新驗證資料組的每一筆對應的第一標記資訊,並跳轉至步驟S280。
在步驟S280,處理單元130會將標記模型128儲存至儲存單元120中,並結束流程。
圖3繪示本發明一實施例行為模型訓練方法的細部流程圖。在此實施例中,例如適用於圖1繪示的行為標記模型訓練系統100,此外圖2與圖3的實施過程可以相容,本發明不限於此。以下將採用圖3以及一案例共同說明行為模型訓練方法的細節。
此案例所採用的是使用者1與使用者2在2018-05-04至2018-05-27之間的登入紀錄。並請參考表一,表一僅記載已標記資料組中被選取作為驗證資料組的資料。
表一:已標記資料組中被選取作為驗證資料組的資料。
在步驟S310,處理單元130所接收的已標記資料組,以表一記載的驗證資料組的資料為例,每一筆資料至少記載使用者的身分(例如,通過使用者身分識別碼、工號、網際網路位置、裝置識別碼等)、其登入的日期以及第一標記資訊。
在步驟S320,處理單元130分別輸入訓練資料組的每一筆至多個學習模組,以建立多個標記模型中,處理單元130會分別依據三個學習模組建立三個標記模型。第一學習模組是採用結合多種分類器的隨機森林(Random Forest)演算法建立第一標記模型。第二學習模組是採用傳統統計的邏輯回歸法建立第二標記模型。第三學習模組則是採用支援向量學習機建立第三標記模型。
相對應地,在步驟S330,處理單元130會分別將驗證資料組的每一筆資料分別輸入第一標記模型、第二標記模型以及第三標記模型。請參表一,在驗證資料組中的每一筆資料都存在相對應第一標記模型、第二標記模型以及第三標記模型的第二標記資訊。以第一筆,使用者1在2018-05-14登入的為例,通過第一標記模型、第二標記模型以及第三標記模型所產生的第二標記資訊分別為異常、異常、異常。
在步驟S340,處理單元130判斷驗證資料組的每一筆對應的第二標記資訊中,屬於正常標記的數量與異常標記的數量,以依據正常標記的數量與異常標記的數量中較多的產生行為標記結果。續以前述第一筆為例,在第一筆資料的第二標記資訊中,屬於正常標記的數量為0,屬於異常標記的數量為3。也就是說,異常標記的數量多於正常標記數量,處理單元130會據而產生第一筆資料的行為標記結果為異常。再以表一驗證資料組中的第二筆為例,第二標記資訊中屬於正常標記的數量為1,屬於異常標記的數量為2,處理單元130會據此判斷異常標記的數量多於正常標記數量,第二筆資料的行為標記結果為異常。以此類推,其餘行為標記結果請參照表一,於此不再贅述。
在步驟S350,由驗證資料組的每一筆相應的行為標記結果以及第一標記資訊獲取標記變動幅度值。具體來說,在表一中的第一數量,即第一標記資訊與行為標記結果皆為正常的總數量為4個。第二數量,即第一標記資訊與行為標記結果為異常的總數量為1個。處理單元130並進一步依據第一數量與第二數量的總和(5)與驗證資料組的資料數量(8)的比值,獲取準確率衡量值為0.625。處理單元130也會依據第一數量(4)與第一標記資訊為正常(5)的數量的比值,以獲取特異性衡量值為0.8。處理單元130還會依據第二數量(1)與第一標記資訊為異常(3)的數量的比值,以獲取敏感度衡量值為0.333。
除此之外,處理單元130還會分別判斷準確率衡量值、特異性衡量值以及敏感度衡量值與前一次所測量的歷史準確率衡量值、歷史特異性衡量值以及歷史敏感度衡量值的差異值,以獲取標記變動幅度值。舉例來說,倘若歷史準確率衡量值、歷史特異性衡量值以及歷史敏感度衡量值分別為0.52、0.705以及0.465,處理單元130可以據此獲取差異值為-0.105、0.132、-0.095。在本實施例中,處理單元130會進一步取差異值絕對值的平均以作為標記變動幅度值,即標記變動幅度值約為0.111。
在步驟S360,處理單元130判斷標記變動幅度值是否大於變動門檻值。在本實施例中,變動門檻值例如為0.001。因此,處理單元130會判斷變動幅度值0.111高於變動門檻值0.001,因而跳至步驟S370。
在步驟S370,處理單元130會依據行為標記結果更新驗證資料組的每一筆對應的第一標記資訊。也就是說,在表一的案例中,此八筆資料更新完後的第一標記資訊分別為異常、異常、正常、正常、正常、正常、正常、正常。除此之外,此八筆資料會和訓練資料組交換,即此八筆資料會從驗證資料組變成訓練資料組,以採用此八筆資料重新訓練標記模型。
處理單元130會重複執行步驟S320至步驟S360,直至處理單元130判斷標記變動幅度值不大於變動門檻值後,儲存標記模型128,並結束流程。
圖4繪示本發明一實施例行為模型訓練方法的流程圖。請參照圖4,圖4至少適用於圖1實施例行為標記模型訓練系統,然不限於此。以下將通過圖4與圖1說明如何產生已標記資料組的細節。
在步驟S410,處理單元130通過輸入單元110接收歷史資料組。歷史資料組具有使用者在一段時間內的登入紀錄,舉例來說,其具有使用者1與使用者2在2018-05-04至2018-05-27之間的登入紀錄。
在本實施例中,歷史資料組中具有第一資料組及第二資料組。第一資料組中的每一筆資料都分別具有第三標記資訊,且第三標記資訊是由人工對使用者的行為進行標記,標記的態樣例如為正常、異常。
在步驟S420,處理單元130輸入第一資料組至初始學習模組122,以獲取初始標記模型124。在本實施例中,初始學習模組122是採用一類支援向量學習機(one class SVR)對第一資料組進行訓練,然本發明不限於此。舉例來說,在其他實施例中也可以採用自訓練算法(self-training)、多視角算法等類型的半監督式機械學習演算法進行訓練。
在步驟S430,處理單元130依據初始標記模型124標記第二資料組,以產生包括第一標記資訊的已標記資料組。也就是說,實際上已標記資料組的標記來源是通過初始標記模型124進行標記的,無須耗費人工進行標記。
值得一提的是,在本發明的一實施例,歷史資料組中的每一筆還具有使用者的登入時間,且處理單元130在通過第一資料組建立初始標記模型124時,還會依據登入模型分別訓練在不同時間區間中的使用者行為特徵。舉例來說,在本實施例中,處理單元130會以每一個小時作為時間區間,並將屬於不同時間的資料分別進行運算。因此,處理單元130會分別依據第二資料組的每一筆資料的登入時間,找出初始標記模型124中相應登入時間的時間區間以及對應的行為特徵,以分別對第二資料組的每一筆進行標記,以產生已標記資料組。相似地,處理單元130會判斷驗證資料組的每一筆資料的登入時間,找出標記模型128相應登入時間的行為特徵,以分別對驗證資料組的每一筆進行標記,以產生第二標記資訊。
圖5繪示本發明一實施例行為模型訓練方法的流程圖。請參照圖5,在標記模型128建立後,處理單元130還會進一步依據標記模型128而對使用者的登入資料進行分析,以找出潛在異常的使用者。
具體來說,在步驟S510,處理單元130通過輸入單元110接收歷史資料組。歷史資料組是在一段時間內使用者的登入資料,由於每個使用者在一段時間內的登入資料可能有多筆,為了容易理解,在下述將採用使用者資料組進行說明。也就是說,每一個使用者在此段時間內的登入資料稱為使用者資料組。
在步驟S520,處理單元130分別依據使用者資料組的每一個,判斷使用者的每一個在多個時間區間中分別的使用量異常程度,並依據第一歷史資料組的每一個及標記模型判斷使用者在時間區間中分別的異常比率。
舉例來說,以2018-06-04當天使用者1、使用者2、使用者3的登入情形進行說明。使用者1相應的使用者資料組具有50筆紀錄,即表示使用者1登入了50次。使用者2相應的使用者資料組具有1筆紀錄,即表示使用者2登入了1次。使用者3相應的使用者資料組具有15筆紀錄,即表示使用者3登入了15次。基此,處理單元130會分別針對使用者1、使用者2、使用者3進行異常程度分析。在本發明的一實施例中,處理單元130是採用下述方程式(1)的原理進行分析,然本發明不限制處理單元130其運行的順序與方式。在此案例中,所有使用者資料代表量即為所有使用者登入次數的平均,即22。所有使用者資料變化程度為所有使用者登入次數的標準差,即25.2389。單一使用者資料使用量則是使用者的登入次數,且會依據不同使用者而獲得不同的數值。在本實施例中,使用者1、使用者2及使用者3的異常程度分別為1.1094、0.8320以及0.2773。使用者的異常程度越高,代表著他在此段期間的使用行為與大部分使用者越不相同。
除此之外,處理單元130還會進一步採用標記模型128對使用者資料組的每一筆資料進行分析,以獲取使用者的異常比率。舉例來說,倘若在一天內時間被分割為p個使用時間,處理單元130經由標記模型128而預測使用者在q個使用時間內是異常的。此時,處理單元130會進一步依據方程式(2)的原理獲取使用者的異常比率,即判斷使用者在一天中有多少時間比例是異常的。然本發明不限制處理單元130其運行的順序與方式。
在步驟S530,處理單元130依據使用者的每一個的使用量異常程度及異常比率,分別判斷使用者在時間區段中的使用量異常程度及異常比率,並獲取使用者的每一個相應的綜合異常指標。具體來說,在本實施例中,時間區段例如為一周、一個月但不限於此。也就是說,處理單元130會針對一段較長時間中使用者的行為表現進行異常分析。以一周為例,倘若處理單元130根據使用量異常程度與異常比例判斷使用者在一周間的異常程度以表示,且。使用者在一周間使用不同網際網路位址個數的異常程度以表示,且。藉此,處理單元130會將使用量異常程度以及使用者使用不同網際網路位址個數的異常程度轉換為與。並且,處理單元130例如會進一步配置與不同的權重,並給予使用者綜合異常指標,如方程式(3)。
除此之外,承上述案例,處理單元130還可以採用時間區段例如為一天分析使用者的綜合異常指標,即以微觀的方式觀察使用者的行為是否異常,並產生相應於此時間區段的綜合異常指標。詳細來說,處理單元130還可以進一步觀察其他的異常指標,例如,使用不同連接埠個數的異常程度、使用時段異常指標(例如,異常比率)等。倘若使用者在一天之中使用不同連接埠個數的異常程度為,使用時段異常指標為(即,採用標記模型128預測使用者在此使用時間內是否為異常的)。此時,處理單元130例如會進一步計算相應於一天的綜合異常指標,如方程式(4)。倘若綜合異常指標越大,即表示此使用者的行為於當日與別人越不相同。
在步驟S540,處理單元130依據使用者的每一個 相應的綜合異常指標獲取使用者異常排序。在對每一個使用者計算綜合異常指標後,處理單元130會進一步依據使用者異常程度的高低產生使用者異常排序,以供管理人員參考。
綜上所述,本發明的行為標記模型訓練方法及其系統通過建立標記模型,以自動地對使用者的登入紀錄進行標記。不僅如此,考量到標記模型的可靠度,本發明的行為標記模型訓練方法及其系統會同時訓練多個不同的標記模型,並在標記內容衝突時,通過多數決的方式進而標記使用者的登入紀錄,以重新調整訓練標記模型。藉此,行為標記模型訓練方法及其系統能夠提升標記模型的可靠度。而通過標記模型,使用者的登入紀錄可以被自動地觀察分析,並進一步找出可能的異常登入行為。基此,本發明的行為標記模型訓練方法及其系統不僅能夠降低判斷異常登入行為所耗費的人力,同時也可以採用更科學化的分析,降低人工誤判的行為,因而有效監控內部員工的異常登入行為。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
100:行為標記模型訓練系統110:輸入單元120:儲存單元122:初始學習模組124:初始標記模型126:學習模組128:標記模型130:處理單元S210~S280、S310~S380、S410~S430、S510~S540:步驟
圖1繪示本發明一實施例的行為標記模型訓練系統的示意圖。 圖2繪示本發明一實施例行為模型訓練方法的流程圖。 圖3繪示本發明一實施例行為模型訓練方法的細部流程圖。 圖4繪示本發明一實施例行為模型訓練方法的流程圖。 圖5繪示本發明一實施例行為模型訓練方法的流程圖。
100:行為標記模型訓練系統
110:輸入單元
120:儲存單元
122:初始學習模組
124:初始標記模型
126:學習模組
128:標記模型
130:處理單元
Claims (14)
- 一種行為標記模型訓練系統,包括: 輸入單元,接收已標記資料組,其中該已標記資料組包括訓練資料組以及驗證資料組,且該訓練資料組的每一筆以及該驗證資料組的每一筆分別包括第一標記資訊; 儲存單元,儲存多個學習模組; 處理單元,連接於該輸入單元與該儲存單元,分別輸入該訓練資料組的每一筆至多個學習模組,以建立多個標記模型, 其中該處理單元還依據該些標記模型分別獲取相應該驗證資料組資料的每一筆的多個第二標記資訊,依據相應該驗證資料組的每一筆對應的該些第二標記資訊,分別產生相應該驗證資料組的每一筆的行為標記結果, 其中該處理單元還由該驗證資料組的每一筆相應的該行為標記結果以及該第一標記資訊獲取標記變動幅度值,並判斷該標記變動幅度值是否大於變動門檻值,且當該標記變動幅度值大於該變動門檻值,依據該些行為標記結果更新該驗證資料組的每一筆對應的該第一標記資訊,交換該訓練資料組及該驗證資料組,並依據交換後的該訓練資料組重新建立該些標記模型。
- 如申請專利範圍第1項所述的行為標記模型訓練系統,該處理單元還於該標記變動幅度值不大於該變動門檻值時,儲存該些標記模型於該儲存單元中。
- 如申請專利範圍第1項所述的行為標記模型訓練系統,其中該第二標記資訊相應於正常標記與異常標記,且該處理單元還用以判斷該驗證資料組的每一筆對應的該些第二標記資訊中,屬於該正常標記的數量與該異常標記的數量,並依據該正常標記的數量與該異常標記的數量中較多的產生該行為標記結果。
- 如申請專利範圍第1項所述的行為標記模型訓練系統,其中該處理單元還執行: 獲取該行為標記結果為正常,且該第一標記資訊為正常的第一數量, 獲取該行為標記結果為異常,且該第一標記資訊為異常的第二數量, 依據該第一數量與該第二數量的總和與該驗證資料組的資料數量的比值,以獲取準確率衡量值, 依據該第一數量與該第一標記資訊為正常的數量的比值,以獲取特異性衡量值, 依據該第二數量與該第一標記資訊為異常的數量的比值,以獲取敏感度衡量值,以及 分別判斷該準確率衡量值、該特異性衡量值以及該敏感度衡量值與歷史準確率衡量值、歷史特異性衡量值以及歷史敏感度衡量值的差異值,以獲取該標記變動幅度值。
- 如申請專利範圍第1項所述的行為標記模型訓練系統,其中該輸入單元還接收歷史資料組,其中該歷史資料組包括第一資料組及第二資料組,且該第一資料組中的每一筆分別包括第三標記資訊, 其中該處理單元還輸入該第一資料組至初始學習模組,以獲取初始標記模型,並依據該初始標記模型標記該第二資料組,以產生包括該第一標記資訊的該已標記資料組。
- 如申請專利範圍第5項所述的行為標記模型訓練系統,其中該初始標記模型以及該些標記模型的每一個分別包括相應多個時間區間的行為特徵, 其中該處理單元還分別依據該第二資料組的每一筆相應的登入時間以及該初始標記模型中的該些時間區間找出相應的該行為特徵,並依據該相應的該行為特徵標記該第二資料組的每一筆,以產生該已標記資料組, 其中該處理單元還分別依據該驗證資料組的每一筆相應的登入時間以及標記模型中的該些時間區間找出相應的該行為特徵,並依據該行為特徵標記該驗證資料組的每一筆,以獲取相應該驗證資料組資料的每一筆的該些第二標記資訊。
- 如申請專利範圍第1項所述的行為標記模型訓練系統,其中該輸入單元還接收歷史資料組,其中該歷史資料組包括相應於多個使用者的每一個的使用者資料組, 其中該處理單元還執行: 分別依據該些使用者資料組的每一個,判斷該些使用者的每一個在多個時間區間中分別的使用量異常程度,並依據該些第一歷史資料組的每一個及該些標記模型判斷該些使用者在該些時間區間中分別的異常比率, 依據該些使用者的每一個的該使用量異常程度及該異常比率,分別判斷該些使用者在時間區段中的使用量異常程度及異常比率,並獲取該些使用者的每一個相應的綜合異常指標, 依據該些使用者的每一個相應的綜合異常指標獲取使用者異常排序。
- 一種行為標記模型訓練方法,包括: 接收已標記資料組,其中該已標記資料組包括訓練資料組以及驗證資料組,且該訓練資料組的每一筆以及該驗證資料組的每一筆分別包括第一標記資訊; 分別輸入該訓練資料組的每一筆至多個學習模組,以建立多個標記模型; 依據該些標記模型分別獲取相應該驗證資料組資料的每一筆的多個第二標記資訊; 依據相應該驗證資料組的每一筆對應的該些第二標記資訊,分別產生相應該驗證資料組的每一筆的行為標記結果; 由該驗證資料組的每一筆相應的該行為標記結果以及該第一標記資訊獲取標記變動幅度值,並判斷該標記變動幅度值是否大於變動門檻值;以及 當該標記變動幅度值大於該變動門檻值,依據該些行為標記結果更新該驗證資料組的每一筆對應的該第一標記資訊,交換該訓練資料組及該驗證資料組,並依據交換後的該訓練資料組重新建立該些標記模型。
- 如申請專利範圍第8項所述的行為標記模型訓練方法,還包括: 當該標記變動幅度值不大於該變動門檻值,儲存該些標記模型。
- 如申請專利範圍第8項所述的行為標記模型訓練方法,其中該第二標記資訊相應於正常標記與異常標記,且該標記模型訓練方法還包括: 判斷該驗證資料組的每一筆對應的該些第二標記資訊中,屬於該正常標記的數量與該異常標記的數量;以及 依據該正常標記的數量與該異常標記的數量中較多的產生該行為標記結果。
- 如申請專利範圍第8項所述的行為標記模型訓練方法,其中由該驗證資料組的每一筆對應的該行為標記結果以及該第一標記資訊獲取標記變動幅度值中,還包括: 獲取該行為標記結果為正常,且該第一標記資訊為正常的第一數量; 獲取該行為標記結果為異常,且該第一標記資訊為異常的第二數量; 依據該第一數量與該第二數量的總和與該驗證資料組的資料數量的比值,以獲取準確率衡量值; 依據該第一數量與該第一標記資訊為正常的數量的比值,以獲取特異性衡量值; 依據該第二數量與該第一標記資訊為異常的數量的比值,以獲取敏感度衡量值;以及 分別判斷該準確率衡量值、該特異性衡量值以及該敏感度衡量值與歷史準確率衡量值、歷史特異性衡量值以及歷史敏感度衡量值的差異值,以獲取該標記變動幅度值。
- 如申請專利範圍第8項所述的行為標記模型訓練方法,更包括: 接收歷史資料組,其中該歷史資料組包括第一資料組及第二資料組,且該第一資料組中的每一筆分別包括第三標記資訊; 輸入該第一資料組至初始學習模組,以獲取初始標記模型;以及 依據該初始標記模型標記該第二資料組,以產生包括該第一標記資訊的該已標記資料組。
- 如申請專利範圍第12項所述的行為標記模型訓練方法,其中該初始標記模型以及該些標記模型的每一個分別包括相應多個時間區間的行為特徵,該方法還包括: 分別依據該第二資料組的每一筆相應的登入時間以及該初始標記模型中的該些時間區間找出相應的該行為特徵,並依據該相應的該行為特徵標記該第二資料組的每一筆,以產生該已標記資料組; 分別依據該驗證資料組的每一筆相應的登入時間以及標記模型中的該些時間區間找出相應的該行為特徵,並依據該行為特徵標記該驗證資料組的每一筆,以獲取相應該驗證資料組資料的每一筆的該些第二標記資訊。
- 如申請專利範圍第8項所述的行為標記模型訓練方法,更包括: 接收歷史資料組,其中該歷史資料組包括相應於多個使用者的每一個的使用者資料組; 分別依據該些使用者資料組的每一個,判斷該些使用者的每一個在多個時間區間中分別的使用量異常程度,並依據該些第一歷史資料組的每一個及該些標記模型判斷該些使用者在該些時間區間中分別的異常比率; 依據該些使用者的每一個的該使用量異常程度及該異常比率,分別判斷該些使用者在時間區段中的使用量異常程度及異常比率,並獲取該些使用者的每一個相應的綜合異常指標;以及 依據該些使用者的每一個相應的綜合異常指標獲取使用者異常排序。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107138219A TWI710922B (zh) | 2018-10-29 | 2018-10-29 | 行為標記模型訓練系統及方法 |
US16/286,571 US11386352B2 (en) | 2018-10-29 | 2019-02-26 | System and method of training behavior labeling model |
EP19171263.7A EP3648433B1 (en) | 2018-10-29 | 2019-04-26 | System and method of training behavior labeling model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107138219A TWI710922B (zh) | 2018-10-29 | 2018-10-29 | 行為標記模型訓練系統及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202016783A TW202016783A (zh) | 2020-05-01 |
TWI710922B true TWI710922B (zh) | 2020-11-21 |
Family
ID=66290246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107138219A TWI710922B (zh) | 2018-10-29 | 2018-10-29 | 行為標記模型訓練系統及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11386352B2 (zh) |
EP (1) | EP3648433B1 (zh) |
TW (1) | TWI710922B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI697851B (zh) * | 2019-05-03 | 2020-07-01 | 宏碁股份有限公司 | 電子裝置與模型更新方法 |
US11599746B2 (en) * | 2020-06-30 | 2023-03-07 | Microsoft Technology Licensing, Llc | Label shift detection and adjustment in predictive modeling |
CN112016790B (zh) * | 2020-07-15 | 2024-04-26 | 北京淇瑀信息科技有限公司 | 用户策略分配方法、装置及电子设备 |
CN114078008A (zh) * | 2020-08-20 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 异常行为检测方法、装置、设备及计算机可读存储介质 |
CN112102049A (zh) * | 2020-09-23 | 2020-12-18 | 中国建设银行股份有限公司 | 一种模型训练方法、业务处理方法、装置及设备 |
CN113485993A (zh) * | 2021-07-13 | 2021-10-08 | 浙江网商银行股份有限公司 | 数据识别方法以及装置 |
US20230315840A1 (en) * | 2022-02-11 | 2023-10-05 | Microsoft Technology Licensing, Llc | Detecting anomalous post-authentication behavior for a workload identity |
KR102552230B1 (ko) * | 2022-10-31 | 2023-07-06 | (주)바질컴퍼니 | 클라우드 플랫폼에서 인공지능 모델을 활용한 데이터 라벨링 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201115371A (en) * | 2009-10-28 | 2011-05-01 | Ind Tech Res Inst | Systems and methods for organizing collective social intelligence information using an organic object data model |
TW201735669A (zh) * | 2016-03-25 | 2017-10-01 | 高通公司 | 用於使用從多個感測器收集之資訊來保護車輛免受惡意軟體及攻擊之方法及系統 |
TW201830929A (zh) * | 2017-01-11 | 2018-08-16 | 美商高通公司 | 在網路流量型樣中以上下文為基礎之異常行為之偵測 |
US20180302423A1 (en) * | 2015-08-31 | 2018-10-18 | Splunk Inc. | Network security anomaly and threat detection using rarity scoring |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782976B (zh) | 2010-01-15 | 2013-04-10 | 南京邮电大学 | 一种云计算环境下机器学习自动选择方法 |
US20160358099A1 (en) | 2015-06-04 | 2016-12-08 | The Boeing Company | Advanced analytical infrastructure for machine learning |
GB201515394D0 (en) * | 2015-08-28 | 2015-10-14 | Status Today Ltd | Predictive activity detection on a computer network |
CN107291911B (zh) | 2017-06-26 | 2020-01-21 | 北京奇艺世纪科技有限公司 | 一种异常检测方法和装置 |
CN108512827B (zh) | 2018-02-09 | 2021-09-21 | 世纪龙信息网络有限责任公司 | 异常登录的识别和监督学习模型的建立方法、装置,设备和存储介质 |
-
2018
- 2018-10-29 TW TW107138219A patent/TWI710922B/zh active
-
2019
- 2019-02-26 US US16/286,571 patent/US11386352B2/en active Active
- 2019-04-26 EP EP19171263.7A patent/EP3648433B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201115371A (en) * | 2009-10-28 | 2011-05-01 | Ind Tech Res Inst | Systems and methods for organizing collective social intelligence information using an organic object data model |
US20180302423A1 (en) * | 2015-08-31 | 2018-10-18 | Splunk Inc. | Network security anomaly and threat detection using rarity scoring |
TW201735669A (zh) * | 2016-03-25 | 2017-10-01 | 高通公司 | 用於使用從多個感測器收集之資訊來保護車輛免受惡意軟體及攻擊之方法及系統 |
TW201830929A (zh) * | 2017-01-11 | 2018-08-16 | 美商高通公司 | 在網路流量型樣中以上下文為基礎之異常行為之偵測 |
Also Published As
Publication number | Publication date |
---|---|
EP3648433B1 (en) | 2023-06-07 |
US11386352B2 (en) | 2022-07-12 |
TW202016783A (zh) | 2020-05-01 |
EP3648433A1 (en) | 2020-05-06 |
US20200134504A1 (en) | 2020-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI710922B (zh) | 行為標記模型訓練系統及方法 | |
TWI673625B (zh) | 統一資源定位符(url)攻擊檢測方法、裝置以及電子設備 | |
CN111177714B (zh) | 异常行为检测方法、装置、计算机设备和存储介质 | |
US10216558B1 (en) | Predicting drive failures | |
CN110443274B (zh) | 异常检测方法、装置、计算机设备及存储介质 | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
US11570070B2 (en) | Network device classification apparatus and process | |
US20170161105A1 (en) | Techniques for processing queries relating to task-completion times or cross-data-structure interactions | |
JP2018195308A (ja) | プロセス及び製造業における業績評価指標のデータに基づく最適化のための方法及びシステム | |
CN107341716A (zh) | 一种恶意订单识别的方法、装置及电子设备 | |
JP6871877B2 (ja) | 情報処理装置、情報処理方法及びコンピュータプログラム | |
US20220156372A1 (en) | Cybersecurity system evaluation and configuration | |
US11275643B2 (en) | Dynamic configuration of anomaly detection | |
CN112685735B (zh) | 用于检测异常数据的方法、设备和计算机可读存储介质 | |
WO2021051530A1 (zh) | 检测异常邮件的方法、装置、设备和存储介质 | |
US10511681B2 (en) | Establishing and utilizing behavioral data thresholds for deep learning and other models to identify users across digital space | |
CN111400126B (zh) | 网络服务异常数据检测方法、装置、设备和介质 | |
CN117041017A (zh) | 数据中心的智能运维管理方法及系统 | |
WO2023207557A1 (zh) | 评估业务预测模型鲁棒性的方法、装置及计算设备 | |
Chua et al. | Problem Understanding of Fake News Detection from a Data Mining Perspective | |
US20210117858A1 (en) | Information processing device, information processing method, and storage medium | |
Balega et al. | IoT Anomaly Detection Using a Multitude of Machine Learning Algorithms | |
CN111177802B (zh) | 行为标记模型训练系统及方法 | |
CN114610980A (zh) | 基于网络舆情的黑产识别方法、装置、设备及存储介质 | |
JP7363912B2 (ja) | 表示方法、表示プログラム及び情報処理装置 |