TW202336549A - 檢測網路中基礎設施設備產生的時間序列數據異常的方法 - Google Patents
檢測網路中基礎設施設備產生的時間序列數據異常的方法 Download PDFInfo
- Publication number
- TW202336549A TW202336549A TW112108652A TW112108652A TW202336549A TW 202336549 A TW202336549 A TW 202336549A TW 112108652 A TW112108652 A TW 112108652A TW 112108652 A TW112108652 A TW 112108652A TW 202336549 A TW202336549 A TW 202336549A
- Authority
- TW
- Taiwan
- Prior art keywords
- time series
- network
- series data
- predefined
- time
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 21
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000035945 sensitivity Effects 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 abstract description 9
- 230000002547 anomalous effect Effects 0.000 abstract description 6
- 230000011664 signaling Effects 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 53
- 230000006870 function Effects 0.000 description 19
- 238000001514 detection method Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 8
- 238000011176 pooling Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
- H04L43/067—Generation of reports using time frame reporting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
- H04L43/0847—Transmission error
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0852—Delays
- H04L43/0864—Round trip delays
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Environmental & Geological Engineering (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Maintenance And Management Of Digital Transmission (AREA)
- Arrangements For Transmission Of Measured Signals (AREA)
Abstract
本發明涉及一種檢測網路中基礎設施設備產生的時間序列數據異常的方法,包括:透過電腦化數據處理裝置為各設備檢索網路中設備的時間序列數據,提取與對應的時間窗口相關並具有預定義窗口大小和預定義步幅的多個時間序列樣本,透過滑動時間窗口以重疊時間序列數據,將時間序列樣本作為輸入提供給卷積自動編碼器以定義具有預定義百分位數間隔的重建時間序列值,分析重建時間序列值以識別時間序列數據的異常行為,以及當至少一種異常行為被識別時,發出設備異常的訊號。
Description
本發明涉及諸如自動化系統和工業生產系統等基礎設施的安全管理領域。特別地,本發明涉及一種檢測網路中基礎設施設備產生的時間序列數據異常的方法。
已知類型的安全產品可檢測惡意攻擊,有時還能夠採取措施加以阻止。大多數入侵防禦系統或入侵檢測系統(Intrusion Detection System,IDS)使用介於基於簽名、基於統計異常及狀態協定分析之間的一種檢測方法。基於簽名的IDS監視網路中的封包,並與稱之為簽名的預先配置及預先確定的攻擊模式進行比較。基於異常的IDS將監控網路流量並將其與已建立的基線進行比較。基線將識別對特定網路來說何謂正常的。最後,狀態協定分析檢測透過將觀察到的事件與普遍接受的良性活動定義的預定配置文件進行比較來識別協定狀態的偏差。
檢測電腦網路中的異常行為是IDS的一項複雜但基本的任務。關於營運技術(Operational Technology,OT)網路,要檢測的有用的異常是當裝置開始使用意外協定進行通訊時,這可能是被監控的裝置已被網路內的惡意節點連接的徵兆,該惡意節點正在執行網路掃描或可能只是配置錯誤。此外,在使用正當協定的通訊中使用新功能代碼時,要檢測的是有用的異常。在此方面,功能代碼是OT裝置支持的操作,其中常見的操作是「讀取變量」、「寫入變量」、「啓動裝置」、「停止裝置」或「更新韌體」。其中一些操作可能會破壞裝置本身,並因此影響裝置所服務的流程。發送到裝置的意外功能代碼可能是攻擊者試圖破壞裝置、嘗試偵察或錯誤配置的徵兆。
具有觀察網路流量及解碼協定能力的IDS可以使用兩階段方法實施簡單的異常的檢測方法,例如美國專利第10,955,831 B2中敘述的方法。
在學習階段,IDS將記住節點之間使用的所有協定,並且對於各協定,記住所有功能代碼。因此,在學習階段,所有記憶的項目都將被標記為「已學習」並被解釋為良好,即不被視為異常。在保護階段,IDS會將網路中的任何新項目(節點之間的新通訊或通訊中的新功能代碼)與學習項目集進行匹配,並在未找到未「學習」到的新項目時發出警報,即認為異常。
上述方法可以適用於任何類型的網路,並且不需要任何先前的知識,但可能較不適於包括越來越多的IoT或OT設備的網路。
由於透過IoT互連的數量不斷增加,大量的數據正在生成。物聯網和OT設備中異常行為的即時檢測對於這些設備所屬系統的維護和監控至關重要。一旦檢測到異常行為,立即通知即可更快、更有效地緩解和預防傳入的系統故障和/或持續攻擊,減少或甚至消除這些事件造成的潛在損害。
部署在特定系統中的各IoT和/或OT設備都有其獨特的行為,因此必須單獨分析和監控,以有效識別其異常。在所有類型的數據中,時間序列數據(例如,來自感測器的數據)正變得最廣泛。不幸的是,傳統的結構化查詢語言(Structured Query Language,SQL)資料庫通常無法收集、存儲和分析大量數據。時間序列數據的挑戰在於,對資料庫的讀取和寫入必須快速、可靠和可擴展。
因此,一種檢測異常的方法是被期望的,該方法能夠透過使用時間序列數據來識別即時模式下的IoT和/或OT設備的異常行為。
本發明的目的是提供一種在即時模式下檢測異常的方法。特別地,期望能提供一種能夠以動態方式識別任何惡意活動的檢測網路中基礎設施異常的方法。
因此,為解決上述問題,本發明敘述了一種檢測網路中基礎設施設備產生的時間序列數據異常的方法。
該方法包括,對於各該設備:
透過一電腦化數據處理裝置檢索該網路中該設備的時間序列數據;
透過該電腦化數據處理裝置,並透過滑動時間窗口以與該時間序列數據重疊,提取與對應該些時間窗口相關且具有預定義窗口大小和預定義步幅的多個時間序列樣本;
透過該電腦化數據處理裝置提供該多個時間序列樣本作為一卷積自動編碼器的輸入,以定義具有預定義百分位數間隔的重建時間序列值;
透過該電腦化數據處理裝置分析該重建時間序列值以識別該時間序列數據的異常行為;
當至少一該異常行為被識別時,透過該電腦化數據處理裝置發出該設備異常的一訊號;
其中,該分析包括當該卷積自動編碼器的一實際總體損失超過一預定義閾值水平時,評估該卷積自動編碼器的該實際總體損失相對於識別該時間序列數據的該異常行為的實際檢索時間窗口;
其中,在該分析中,當在該些時間窗口之一中識別出該時間序列數據的至少一該異常行為時,將該些時間窗口中的該時間序列數據的各元素與該重建時間序列的對應重建進行比較,以便精確識別該些時間窗口中的異常值;以及
其中,在該分析中,當該時間序列數據的該元素在預定義數量的時間窗口中被分類為異常時,將其標記為異常。
在進一步的實施例中,該方法還包括在該提供之前,透過該電腦化數據處理裝置對該時間序列樣本進行歸一化以定義縮放時間序列樣本;以及
其中,在該提供該時間序列樣本中,將該縮放時間序列樣本作為該卷積自動編碼器的輸入。
在進一步的實施例中,該歸一化包括針對各該時間序列樣本對時間序列時間戳記應用不同類型的局部縮放,該時間序列時間戳記被定義為各對應時間序列值的時間戳記,並且對於該時間序列值,該時間序列值被定義為各對應樣本的值。
在進一步的實施例中,該時間序列時間戳記的該局部縮放由正常的單變量縮放定義。
在進一步的實施例中,對於該時間序列值的該局部縮放由最大縮放定義。
在進一步的實施例中,該預定義閾值水平(τ)在相對於學習檢索時間窗口的學習階段中被定義為:
其中,
μ是該卷積自動編碼器的學習總體損失的平均值;
σ是該學習總體損失的標準差;
s是預定義敏感度級別。
在進一步的實施例中,該些時間窗口的預定義個數等於或大於該預定義窗口大小與兩倍的該預定義敏感度級別之間的比值。
在進一步的實施例中,該卷積自編碼器由10層深度模型定義。
在進一步的實施例中,該檢索是連續迭代的。
在進一步的實施例中,在預定義的該實際檢索時間窗口內或針對預定義的檢索數據量,該提取定義了檢索的該時間序列數據中的該時間序列樣本。
在進一步的實施例中,該預定義窗口大小等於32。
在進一步的實施例中,該預定義步幅等於1。
本發明涉及一種檢測網路中基礎設施設備產生的時間序列數據異常的方法。
在本發明中,術語「時間序列」涉及網路中具有時間戳記的設備的任何數據,例如物聯網(Internet of Things,IoT)設備數據。時間序列
被定義為數據點或樣本的離散序列,具有在該點被獲取時由時間
給出的隱式順序。在常見的應用中,假設該數據點是在連續的等間隔時間點獲取的。然而,這種假設並不適用於IoT和營運技術(Operational Technology,OT)設備,意味著數據點通常以不規則的時間間隔產生。時間序列時間戳記定義為各個時間序列值的時間戳記,時間序列值定義為各個樣本的值。
在本發明中,術語「人工神經網路(Artificial Neural Networks)」或「ANN」涉及基於一系列單元的計算系統,稱為人工神經元,它們相互連接。在常見的應用中,該神經元被組織成連續的層。在此架構中,每一層都接收一系列值作為輸入,並透過一些操作,產生一個輸出,將其用作後續層的輸入。這些層通常命名為:輸入層,ANN的第一層,其中輸入值由外部提供;輸出層,ANN的最後一層,其中其輸出用作網路試圖解決的任務類型的預測;以及隱藏層,在該網路的所有中間層。需要強調的一個重要方面是,由於ANN的分層架構,可以脫離網路的各人工神經元的數學表示,並將每一層視為單獨的數學物件。給定一個由
個連續層組成的ANN,可以將該網路第i層的該輸出表示為一個函數:
其中
是該層的輸入,
是稱為權重的自由參數矩陣,
是也由自由參數組成的偏置向量。λ函數是層的關鍵數學運算,其定義該層的類型,從而創建特定類型的ANN。
函數就是所謂的啟動函數,其選擇對該網路解決特定任務的能力起到至關重要的作用。接著,此表示方式允許我們將由
層組成的ANN表示為集合
:
其中
和
分別是所有該層權重和偏差的集合,以及
是
函數的組合:
在本發明中,術語「自動編碼器」涉及特定類型的ANN,其層可以分組為編碼器部和解碼器部。該網路的編碼器部分用於學習輸入數據的有效(壓縮)表示方式,而解碼器部分膨脹此編碼表示方式,試圖重建原始的該網路的輸入。
在本發明中,術語「卷積自編碼器」涉及由卷積層、池化層和升採樣層組成的特定類型的自編碼器。該卷積層使用一系列過濾器(內核)對輸入值執行離散卷積。此操作等效於使用具有正定義步幅的移動窗口將該輸入值乘以過濾器。可以在這些類型的層中實施填充技術,以便在該輸入值和該輸出值之間保持相同的維度。該池化層對前一層的輸出執行非線性降採樣。更具體地說,該池化層將其輸入劃分為一系列稱為池的區域,並對各區域應用一個函數。接著,所有該池的結果值被組合起來並用作該層的該輸出。該池化層輸出的維度通常小於其輸入。該升採樣層執行該池化層的逆運算。給定特定的輸入值,各值都使用特定函數映射到一個值池。該升採樣層輸出的維度通常大於其輸入。
根據本發明的方法在連接在網路中的任何種類的物理的基礎設施或自動化系統中找到有用的應用,特別是在工業自動化系統中,例如用於製造生產的工業過程、用於發電的工業過程、用於配電的基礎設施流體(水、石油及天然氣)、發電及/或輸電的基礎設施、運輸管理的基礎設施。此外,它在所有技術環境中都有有用的應用,包括資訊技術(IT)、操作技術(OT)及物聯網(IoT)。
本發明的目的是提供一種在即時模式下檢測異常的方法。具體而言,本發明的目的是提供一種用於檢測網路中基礎設施異常的方法,該方法能夠以動態方式識別任何惡意活動。
在這方面,根據本發明的方法能夠檢測網路中的基礎設施的設備產生的時間序列數據的異常。
本發明的方法的起點是由網路中的設備,特別是IoT設備或OT設備產生的時間序列。該時間序列經過預處理並作為輸入提供給卷積自動編碼器,其重建輸入值及其百分位數。最後,在進一步的後處理步驟中,分析原始時間序列和重建時間序列以識別異常行為,更詳細的描述如下文。
因此,該方法包括,對於各設備,透過電腦化數據處理裝置檢索該網路中該設備的時間序列數據。此檢索可以連續迭代。
在該檢索之後,該方法包括透過該電腦化數據處理裝置,透過滑動時間窗口與該時間序列數據重疊來提取與各個該時間窗口相關的具有預定義窗口大小和預定義步幅的多個時間序列樣本。在較佳實施例中,該提取定義了在預定義的實際檢索時間窗口內或針對預定義的檢索數據量檢索的該時間序列數據中的多個該時間序列樣本,但可以使用不同種類的提取。
給定特定設備的該時間序列,首先要考慮的問題是無法保證此類序列足夠長以直接用於神經網路的訓練。事實上,如上所述,為了使模型能夠對該原始時間序列進行高品質的重建,需要訓練樣本的數量至少等於該網路中的參數數量,即
。已知的方法是將該時間序列劃分為一組統計上獨立的恆定長度L的子序列。然而,這將需要該時間序列中至少
個該數據點。此方法的問題是,其可能需要大量的過去數據來收集足夠的該訓練樣本,這使得在短時間內幾乎無法對新部署的設備進行異常檢測。
為了克服這個問題,在本發明的方法的解決方案中,使用具有該預定義窗口大小,在下文中記為L,並且具有該預定義步幅的重疊滑動時間窗口從該原始時間序列中提取該樣本。使用此方法生成的窗口數量比使用已知方法生成的窗口數量高大約等於該時間窗口大小本身的一個因子,從而可以更快地啟動部署的新設備的該異常檢測。更正式地說,用
和
表示分別用已知方法和本發明方法生成的該樣本的數量:
其中N是該時間序列長度。這兩個值的比值是:
此方法的主要優點是可以縮短在基礎設施中部署的新設備與啟動異常檢測系統之間的時間間隔。例如,考慮一個每分鐘產生1個數據點的感測器和一個具有1000個參數且的新設備輸入大小窗口等於32的模型。要在的新設備感測器上啟用異常檢測,需要大約22天(32000個數據點),而相較於使用已知方法,使用根據本發明該使用重疊滑動時間窗口的方法僅需要~15小時(~950個數據點)。
本發明的方法包括由該電腦化數據處理裝置提供該時間序列樣本作為該卷積自動編碼器的輸入,以定義具有預定義百分位數間隔的重建時間序列值。
對於任何設備的各給定時間窗口,上述架構反饋一個重建時間序列,以
表示,連同其10%和90%百分位數,分別用
以及
表示。
較佳地,該預定義窗口大小等於32,此為申請人找到的最合適的值。此外,較佳地,該預定義步幅等於1,此為申請人找到的最合適的值。然而,在作為該卷積自動編碼器的輸入提供前,該時間窗口應該映射到已知範圍內的一組值。
在這方面,可以如此地提供該時間序列樣本,但根據較佳實施例,該方法還包括透過該電腦化數據處理裝置對該時間序列樣本進行歸一化以在該提供之前定義縮放時間序列樣本。因此,在提供該時間序列樣本時,將該縮放時間序列樣本作為該卷積自動編碼器的輸入。
可以以多種方式該執行歸一化,但根據較佳實施例,其包括針對該時間序列樣本中的每一個對該時間序列時間戳記和該時間序列值應用不同類型的局部縮放。特別地,該時間序列不作為一個整體重新縮放,也稱為全域縮放,而是各該時間窗口各自歸一化,也稱為局部縮放。
事實上,與已知的實施方式不同,在工業控制系統(ICS)中,不可能對該時間序列值生成的時間間隔的規律性做出任何預先假設。為此,在本發明的方法中,提供該時間戳記和該時間值作為該卷積自動編碼器的輸入。這使得該模型不僅可以檢測該設備產生的該值中的該異常行為,還可以檢測其產生的速率。例如。考慮一個輸出值為x的設備,該設備以1分鐘的固定間隔生成。如果該設備改變其行為並開始以不同的時間間隔產生相同的該值,例如每2分鐘一個值,則根據本發明的方法將此識別為異常行為。另一方面,若其只考慮該設備產生的該時間值而忽略該時間戳記,其將對此類事件視而不見。
更具體地說,其為不同類型的局部縮放應用在各該時間窗口的該時間戳記和該值。
因此,在較佳實施例中,該時間序列的該時間戳記的局部縮放由正常的單變量縮放定義,即減去平均值並除以該時間窗口的標準差。
此外,在較佳實施例中,該時間序列值的局部縮放由最大縮放定義,即將各該時間窗口的值除以其本身中的最大值。
根據較佳實施例,該卷積自動編碼器由10層深度模型定義,但可以使用不同的模型。為該10層深度模型提出的架構分為4個主要部分。第一部分由單層組成,也稱為輸入層,其作用是接收輸入樣本,用於模型訓練或異常檢測,並將它們轉發到後續的層。該神經模型的第二部分代表編碼器。此部分的該模型的作用是學習並將該時間窗口的主要特徵嵌入到相對於原始空間較小的維度空間中。更詳細地說,該編碼器由2個卷積層組成,其分別有3個和5個內核大小為10、步幅為1和對稱零填充的過濾器。除了該2個卷積層之外,該模型還提供了2個池化層,用於透過在2x2內核上執行平均池化操作來對輸入數據進行降採樣。接著,由解碼器處理模型編碼器部分的輸出。顧名思義,該模型的此部分反轉了該編碼器完成的過程,將特徵從該較小的維度空間帶到更接近原始大小的維度空間。更詳細地說,該解碼器的架構是該編碼器的逆架構,即除了2x2升採樣層外,其由2個卷積層組成,分別具有5個和3個內核大小為10、步幅為1和對稱零填充的濾波器。該模型的最後一部分是所謂的輸出層,其將該解碼器的輸出作為輸入並反饋最終預測。該輸出層由同一層上的3個不同且獨立的卷積層組成。這些層中的每一層都提供一個內核大小為10且具有對稱零填充的單個過濾器。根據本發明的卷積自動編碼器架構中各卷積層之後使用的啟動函數是ELU啟動函數,如前所述,其在將輸出值轉發到後續層之前被應用於各層的輸出值。此外,在各卷積層中,還實施了嶺正則化(Ridge Regularization)(L2,如下文更詳細描述)技術,以穩定模型並降低無法正確重建未見樣本的概率,尤其是對於短時間序列。鑒於卷積自動編碼器的整體架構,一個大小為32x2的時間窗口作為輸入轉換為3個大小為32的向量作為輸出。這些向量是重建時間序列值及其10%和90%的百分位間隔。
最後,本發明的方法包括透過該電腦化數據處理裝置分析該重建時間序列值以識別該時間序列數據的該異常行為,並且透過該電腦化數據處理裝置發出訊號通知該設備異常時,識別出至少一異常行為。該異常或該異常行為是給定該時間序列值和/或時間空間的意外變化。在IoT和OT設備的脈絡中,此類異常的一個示例是感測器生成數據的頻率和/或值本身的範圍發生劇烈變化。
較佳地,該分析包括當實際總損失超過該預定義閾值水平時,相對於識別該時間序列數據的該異常行為的該實際檢索時間窗口評估該卷積自動編碼器的該實際總損失。損失函數是量化ANN解決指定任務的能力的函數。此類函數取決於ANN的輸入值和輸出值,並根據具體任務反饋一個實數值或一組實數值。在這方面,正則化是一種透過考慮內部參數(即ANN的權重w和偏差
)來修改ANN的損失函數的技術。兩種已知的常用技術是L1正則化和L2正則化,其分別將ANN內部參數的絕對和以及平方和添加到原始損失函數中,並透過權重因子進行調製。
具體而言,該預定義閾值水平(τ)在相對於學習檢索時間窗口的該學習階段定義為:
其中,
μ是該卷積自動編碼器的學習總體損失的平均值;
σ是該學習總體損失的標準差;
s是預定義敏感度級別。
該學習階段對應於該ANN訓練,其為目標是最小化該損失函數的值的算法過程。這是透過估計最小化此類損失的最佳w和
參數來完成的。此算法的一個常見示例是反向傳播,即一種迭代算法,在每次迭代時,使用優化算法更新該網路的參數。
該卷積自動編碼器使用透過前述的方法生成的該時間窗口和「Adam: A Method for Stochastic Optimization」,Diederik P. Kingma, Jimmy Ba,arXiv:1412.6980中描述的優化算法進行訓練,在此透過引用將其併入。輸出層各元件的具體損失(預期值、10%百分位數、90%百分位數)被計算出。更詳細地說,對於給定的該時間窗口大小為L,為重建值計算的損失對應於該時間窗口的平均重建誤差,而對於百分位數,可以考慮其0.1和0.9分位數。從此3個損失開始,反向傳播算法使用的總體損失被計算出。可以將此種損失定義為上述3種損失與L2正則化的線性組合,加權如下:
重建的價值損失為1;
各百分位數損失為0.5;
L2正則化為
。
最後,一旦訓練完成,就可以分別計算μ和σ作為此類總體損失的平均值和標準差。一旦訓練完成並啟用系統,就可以執行此類分析。為此,給定新生成樣本的時間窗口
,將考慮以下4個參數:
是模型重建相對於輸入時間窗口W的總體損失;
μ和σ是先前在上述模型訓練階段的最後所計算的;
s是預定義敏感度級別,其為基礎架構所有者選擇的敏感度級別。
此4個參數用於決定是否應將該時間窗口標記為潛在異常。特別地,給定閾值τ,如果時間窗口W的重建損失超過該閾值水平,即
,則該時間窗口被標記為異常。否則,如果該時間窗口W的該重建損失在該閾值水平邊界內,即
,則該時間窗口被標記為非異常。
如果標記為異常,則將時間窗口i的各元素與其重建進行比較,以便精確識別該時間窗口中的異常值。此比較是按如下方式進行的:
對i從1到L,
若
>
或
<
,則
是一個異常點。
考慮到前述的該卷積自動編碼器,儘管較佳為具有10層深度,但該網路的架構是專門設計為輕量級。鑒於上述細節,參數總數大約為~720。這帶來了幾個好處。該模型可以在短時間內完成訓練,因此只要收集到足夠多的數據,就可以幾乎立即為任何特定設備啟動系統,不論設備何時安裝在基礎設施中。即使在低端硬體上運行,該模型也可以即時處理各樣本。為基礎設施中的各設備實例化一個模型在計算上和經濟上都是廉價的。
根據較佳實施例,在該時間序列數據的該異常行為在其中一個該時間窗口中被識別的該分析中,將該時間窗口中的該時間序列數據的各元素與該重建時間序列對應的重建進行比較,以精確識別該時間窗口中的該異常值。
較佳地,在該分析該時間序列數據的該元素時,當其在預定義數量的時間窗口中被分類為異常時,標記為異常。更較佳地,該時間窗口的該預定義數量等於或大於該預定義窗口大小與該預定義敏感度水平的兩倍之間的比值。給定基於滑動窗口的處理,在此前提下,時間序列流中的各元素都被處理L次。因此,如上所述,為了減少誤報,若且唯若一個元素在超過
的處理時間窗口中被分類為異常時,才被標記為異常。
因此,本發明提供了一種檢測網路中基礎設施設備產生的時間序列數據異常的方法,該方法能夠定義一個管道,用於有效地檢測任何工業系統中OT和/或IoT設備產生的時間序列數據中的異常行為。
本發明透過對時間序列數據進行編碼然後對其進行重建,定義了能夠學習通用設備的特定行為的卷積自動編碼器的拓撲架構。接著,分析重建時間序列,並透過將其與由設備本身以流式傳輸的數據表示的真實情況進行比較來檢測異常。
特別地,透過使用人工神經網路,可以學習、分析和再現人眼不可見的模式,因此,此種技術可以有效地應用于本發明的重建和建模時間序列流的任務以及檢測異常。
Claims (12)
- 一種檢測網路中基礎設施設備產生的時間序列數據異常的方法,包括,對於各該設備: 透過一電腦化數據處理裝置檢索該網路中該設備的時間序列數據; 透過該電腦化數據處理裝置,並透過滑動時間窗口以與該時間序列數據重疊,提取與對應該些時間窗口相關且具有預定義窗口大小和預定義步幅的多個時間序列樣本; 透過該電腦化數據處理裝置提供該多個時間序列樣本作為一卷積自動編碼器的輸入,以定義具有預定義百分位數間隔的重建時間序列值; 透過該電腦化數據處理裝置分析該重建時間序列值以識別該時間序列數據的異常行為; 當至少一該異常行為被識別時,透過該電腦化數據處理裝置發出該設備異常的一訊號; 其中,該分析包括當該卷積自動編碼器的一實際總體損失超過一預定義閾值水平時,評估該卷積自動編碼器的該實際總體損失相對於識別該時間序列數據的該異常行為的實際檢索時間窗口; 其中,在該分析中,當在該些時間窗口之一中識別出該時間序列數據的至少一該異常行為時,將該些時間窗口中的該時間序列數據的各元素與該重建時間序列的對應重建進行比較,以便精確識別該些時間窗口中的異常值;以及 其中,在該分析中,當該時間序列數據的該元素在預定義數量的時間窗口中被分類為異常時,將其標記為異常。
- 如請求項1所述的檢測網路中基礎設施設備產生的時間序列數據異常的方法,其中,該方法還包括在該提供之前,透過該電腦化數據處理裝置對該時間序列樣本進行歸一化以定義縮放時間序列樣本;以及 其中,在該提供該時間序列樣本中,將該縮放時間序列樣本作為該卷積自動編碼器的輸入。
- 如請求項2所述的檢測網路中基礎設施設備產生的時間序列數據異常的方法,其中,該歸一化包括針對各該時間序列樣本對時間序列時間戳記應用不同類型的局部縮放,該時間序列時間戳記被定義為各對應時間序列值的時間戳記,並且對於該時間序列值,該時間序列值被定義為各對應樣本的值。
- 如請求項3所述的檢測網路中基礎設施設備產生的時間序列數據異常的方法,其中,該時間序列時間戳記的該局部縮放由正常的單變量縮放定義。
- 如請求項3所述的檢測網路中基礎設施設備產生的時間序列數據異常的方法,其中,對於該時間序列值的該局部縮放由最大縮放定義。
- 如請求項1所述的檢測網路中基礎設施設備產生的時間序列數據異常的方法,其中,該預定義閾值水平(τ)在相對於學習檢索時間窗口的學習階段中被定義為: 其中, μ是該卷積自動編碼器的學習總體損失的平均值; σ是該學習總體損失的標準差; s是預定義敏感度級別。
- 如請求項1所述的檢測網路中基礎設施設備產生的時間序列數據異常的方法,其中,該些時間窗口的預定義個數等於或大於該預定義窗口大小與兩倍的該預定義敏感度級別之間的比值。
- 如請求項1所述的檢測網路中基礎設施設備產生的時間序列數據異常的方法,其中,該卷積自編碼器由10層深度模型定義。
- 如請求項1所述的檢測網路中基礎設施設備產生的時間序列數據異常的方法,其中,該檢索是連續迭代的。
- 如請求項1所述的檢測網路中基礎設施設備產生的時間序列數據異常的方法,其中,在預定義的該實際檢索時間窗口內或針對預定義的檢索數據量,該提取定義了檢索的該時間序列數據中的該時間序列樣本。
- 如請求項1所述的檢測網路中基礎設施設備產生的時間序列數據異常的方法,其中,該預定義窗口大小等於32。
- 如請求項1所述的檢測網路中基礎設施設備產生的時間序列數據異常的方法,其中,該預定義步幅等於1。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/690,676 | 2022-03-09 | ||
US17/690,676 US11831527B2 (en) | 2022-03-09 | 2022-03-09 | Method for detecting anomalies in time series data produced by devices of an infrastructure in a network |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202336549A true TW202336549A (zh) | 2023-09-16 |
Family
ID=85410140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112108652A TW202336549A (zh) | 2022-03-09 | 2023-03-09 | 檢測網路中基礎設施設備產生的時間序列數據異常的方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US11831527B2 (zh) |
EP (1) | EP4243347A1 (zh) |
JP (1) | JP2023133231A (zh) |
CN (1) | CN116738302A (zh) |
AU (1) | AU2023201371A1 (zh) |
BR (1) | BR102023004124A2 (zh) |
CA (1) | CA3191230A1 (zh) |
MX (1) | MX2023002826A (zh) |
TW (1) | TW202336549A (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220200878A1 (en) | 2020-12-23 | 2022-06-23 | Geotab Inc. | Anomaly detection |
US20220197890A1 (en) * | 2020-12-23 | 2022-06-23 | Geotab Inc. | Platform for detecting anomalies |
CN117439827B (zh) * | 2023-12-22 | 2024-03-08 | 中国人民解放军陆军步兵学院 | 一种网络流量大数据分析方法 |
CN117857916B (zh) * | 2024-03-08 | 2024-06-18 | 深圳市元亨光电股份有限公司 | 基于人工智能的mini led显示方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210089927A9 (en) * | 2018-06-12 | 2021-03-25 | Ciena Corporation | Unsupervised outlier detection in time-series data |
US10955831B2 (en) | 2018-12-26 | 2021-03-23 | Nozomi Networks Sagl | Method and apparatus for detecting the anomalies of an infrastructure |
LT3674823T (lt) * | 2018-12-28 | 2022-08-10 | Nozomi Networks Sagl | Infrastruktūros anomalijų aptikimo būdas ir aparatas |
EP3948438B1 (en) * | 2019-03-29 | 2023-12-06 | Tata Consultancy Services Limited | Method and system for anomaly detection and diagnosis in industrial processes and equipment |
EP3809220B1 (en) * | 2019-10-14 | 2023-01-18 | Honda Research Institute Europe GmbH | Method and system for semi-supervised deep anomaly detection for large-scale industrial monitoring systems based on time-series data utilizing digital twin simulation data |
CN111312329B (zh) * | 2020-02-25 | 2023-03-24 | 成都信息工程大学 | 基于深度卷积自动编码器的转录因子结合位点预测的方法 |
US20220058174A1 (en) * | 2020-08-24 | 2022-02-24 | Microsoft Technology Licensing, Llc | System and method for removing exception periods from time series data |
CN114020598B (zh) * | 2022-01-05 | 2022-04-19 | 云智慧(北京)科技有限公司 | 一种时间序列数据的异常检测方法、装置及设备 |
-
2022
- 2022-03-09 US US17/690,676 patent/US11831527B2/en active Active
-
2023
- 2023-02-27 CA CA3191230A patent/CA3191230A1/en active Pending
- 2023-02-28 EP EP23159255.1A patent/EP4243347A1/en active Pending
- 2023-03-06 BR BR102023004124-8A patent/BR102023004124A2/pt unknown
- 2023-03-06 AU AU2023201371A patent/AU2023201371A1/en active Pending
- 2023-03-08 JP JP2023035715A patent/JP2023133231A/ja active Pending
- 2023-03-08 MX MX2023002826A patent/MX2023002826A/es unknown
- 2023-03-09 TW TW112108652A patent/TW202336549A/zh unknown
- 2023-03-09 CN CN202310219872.6A patent/CN116738302A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
MX2023002826A (es) | 2023-09-11 |
CN116738302A (zh) | 2023-09-12 |
EP4243347A1 (en) | 2023-09-13 |
BR102023004124A2 (pt) | 2023-10-03 |
JP2023133231A (ja) | 2023-09-22 |
CA3191230A1 (en) | 2023-09-09 |
US11831527B2 (en) | 2023-11-28 |
AU2023201371A1 (en) | 2023-09-28 |
US20230291668A1 (en) | 2023-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mirza et al. | Computer network intrusion detection using sequential LSTM neural networks autoencoders | |
TW202336549A (zh) | 檢測網路中基礎設施設備產生的時間序列數據異常的方法 | |
US10848508B2 (en) | Method and system for generating synthetic feature vectors from real, labelled feature vectors in artificial intelligence training of a big data machine to defend | |
Wang et al. | Variational transformer-based anomaly detection approach for multivariate time series | |
Khan et al. | A new explainable deep learning framework for cyber threat discovery in industrial IoT networks | |
Xu et al. | Digital twin-based anomaly detection in cyber-physical systems | |
Li et al. | Anomaly detection with generative adversarial networks for multivariate time series | |
EP3355547B1 (en) | Method and system for learning representations of network flow traffic | |
Du et al. | GAN-based anomaly detection for multivariate time series using polluted training set | |
Benferhat et al. | A naive bayes approach for detecting coordinated attacks | |
EP3948604A1 (en) | Computer security | |
WO2020060830A1 (en) | Temporal behavior analysis of network traffic | |
Muslihi et al. | Detecting SQL injection on web application using deep learning techniques: a systematic literature review | |
Neshenko et al. | A behavioral-based forensic investigation approach for analyzing attacks on water plants using GANs | |
CN117220920A (zh) | 基于人工智能的防火墙策略管理方法 | |
Shuaiyi et al. | Global-local integration for GNN-based anomalous device state detection in industrial control systems | |
CN112800600A (zh) | 一种基于多尺度样本熵和贝叶斯网络的隐蔽性攻击检测方法 | |
Yan et al. | TFDPM: Attack detection for cyber–physical systems with diffusion probabilistic models | |
CN113824725B (zh) | 一种基于因果机器学习的网络安全监测分析方法与系统 | |
CN113536299A (zh) | 一种基于贝叶斯神经网络的入侵检测系统的设计方法 | |
CN116545679A (zh) | 一种工业情境安全基础框架及网络攻击行为特征分析方法 | |
Yağci et al. | EA-GAT: Event aware graph attention network on cyber-physical systems | |
Qi et al. | LPC-AD: Fast and Accurate Multivariate Time Series Anomaly Detection via Latent Predictive Coding | |
CN118368146B (zh) | 一种计算机网络入侵检测方法及系统 | |
Nguyen et al. | Attention-Based Interpretable Semi-Supervised Federated Learning for Intrusion Detection in IoT Wireless Networks |