TW201931187A

TW201931187A - 統一資源定位符（ｕｒｌ）攻擊檢測方法、裝置及電子設備

Info

Publication number: TW201931187A
Application number: TW107136689A
Authority: TW
Inventors: 李龍飛
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-12-28
Filing date: 2018-10-18
Publication date: 2019-08-01
Also published as: US20200195667A1; EP3651043A1; TWI706273B; PL3651043T3; EP3651043A4; WO2019128529A1; CN108229156A; ES2878330T3; EP3651043B1; US10785241B2; SG11202001369TA

Abstract

本說明書提供一種統一資源定位符(URL)攻擊檢測方法，包括：從URL存取請求中攜帶的資訊中提取若干維度的特徵；將提取到的特徵輸入預設的URL攻擊檢測模型進行預測計算，得到所述URL存取請求的風險評分；其中，所述URL攻擊檢測模型為基於孤立森林(Isolation Forest)機器學習算法訓練得到的機器學習模型；基於所述風險評分確定所述URL存取請求是否為URL攻擊請求。

Description

統一資源定位符（ＵＲＬ）攻擊檢測方法、裝置及電子設備

本說明書涉及電腦應用領域，尤其涉及一種統一資源定位符(URL)攻擊檢測方法、裝置、以及電子設備。

在網際網路的應用場景中，每天都會產生大量的對於網址的URL存取請求。在這些大量的URL存取請求中，也不乏不法分子試圖通過不合法的URL存取請求而發起的URL攻擊；例如，常見的URL攻擊如木馬攻擊、結構化查詢語言(SQL)注入攻擊、跨站腳本攻擊(XSS)等。這一類非法的URL存取請求，通常會與普通的URL存取請求存在一定的區別；因此，在構建線上系統的同時，通過一些安全手段對非法用戶發起的URL攻擊進行快速的識別檢測是不可忽視的問題。

本說明書提出一種URL攻擊檢測方法，所述方法包括：
從URL存取請求中攜帶的資訊中提取若干維度的特徵；
將提取到的特徵輸入預設的URL攻擊檢測模型進行預測計算，得到所述URL存取請求的風險評分；其中，所述URL攻擊檢測模型為基於孤立森林(Isolation Forest)機器學習算法訓練得到的機器學習模型；
基於所述風險評分確定所述URL存取請求是否為URL攻擊請求。
可選的，所述方法還包括：
從若干URL存取請求樣本攜帶的資訊中分別提取若干維度的特徵；其中，所述若干URL存取請求樣本均未被標記樣本標籤。
基於提取到的特徵構建若干訓練樣本；
基於Isolation Forest機器學習算法對所述若干訓練樣本進行訓練得到所述URL攻擊檢測模型。
可選的，所述URL攻擊檢測模型包括基於Isolation Forest機器學習算法訓練得到的M棵隨機二叉樹；
所述基於Isolation Forest機器學習算法對所述若干訓練樣本進行訓練得到所述URL攻擊檢測模型，包括：
基於從所述若干訓練樣本中均勻抽樣出的訓練樣本構建出M個訓練樣本子集；
從所述若干維度的特徵中為各訓練樣本子集隨機選擇一分類特徵作為根節點，以及在所述分類特徵的最大取值和最小取值構成的取值區間中，為各訓練樣本子集隨機選取一分類臨界值；
將各訓練樣本子集中所述分類特徵的取值大於所述分類臨界值的訓練樣本，和所述分類特徵的取值小於所述分類臨界值的訓練樣本，分別分類為所述根節點的葉節點；以及，
將各葉節點中的訓練樣本作為新的訓練樣本子集，迭代執行以上分類過程，直到得到的各葉節點中的訓練樣本不可再分類時停止。
可選的，所述將提取到的特徵輸入預設的URL攻擊檢測模型進行預測計算，得到所述URL存取請求的風險評分，包括：
基於提取到的特徵構建預測樣本；
基於所述預測樣本中各特徵的取值，從根節點開始遍歷各棵隨機二叉樹查找與所述預測樣本對應的葉節點；
計算查找到的葉節點在各棵隨機二叉樹中的路徑深度的平均值，並對所述平均值進行歸一化處理，得到所述URL存取請求的風險評分。
可選的，所述資訊包括：域名資訊，和/或URL參數；所述若干維度的特徵包括：從URL存取請求中攜帶的域名資訊中提取出的特徵；和/或從URL存取請求中攜帶的URL參數中提取出的特徵。
可選的，所述特徵包括以下特徵中的多個的組合：字符總數、字母總數、數字總數、符號總數、不同字符數、不同字母數、不同數字數、不同符號數。
本說明書還提出一種URL攻擊檢測裝置，所述裝置包括：
第一提取模組，從URL存取請求中攜帶的資訊中提取若干維度的特徵；
計算模組，將提取到的特徵輸入預設的URL攻擊檢測模型進行預測計算，得到所述URL存取請求的風險評分；其中，所述URL攻擊檢測模型為基於Isolation Forest機器學習算法訓練得到的機器學習模型；
確定模組，基於所述風險評分確定所述URL存取請求是否為URL攻擊請求。
可選的，所述裝置還包括：
第二提取模組，從若干URL存取請求樣本攜帶的資訊中分別提取若干維度的特徵；其中，所述若干URL存取請求樣本均未被標記樣本標籤。
構建模組，基於提取到的特徵構建若干訓練樣本；
訓練模組，基於Isolation Forest機器學習算法對所述若干訓練樣本進行訓練得到所述URL攻擊檢測模型。
可選的，所述URL攻擊檢測模型包括基於Isolation Forest機器學習算法訓練得到的M棵隨機二叉樹；
所述訓練模組：
基於從所述若干訓練樣本中均勻抽樣出的訓練樣本構建出M個訓練樣本子集；
從所述若干維度的特徵中為各訓練樣本子集隨機選擇一分類特徵作為根節點，以及在所述分類特徵的最大取值和最小取值構成的取值區間中，為各訓練樣本子集隨機選取一分類臨界值；
將各訓練樣本子集中所述分類特徵的取值大於所述分類臨界值的訓練樣本，和所述分類特徵的取值小於所述分類臨界值的訓練樣本，分別分類為所述根節點的葉節點；以及，
將各葉節點中的訓練樣本作為新的訓練樣本子集，迭代執行以上分類過程，直到得到的各葉節點中的訓練樣本不可再分類時停止。
可選的，所述計算模組：
基於提取到的特徵構建預測樣本；
基於所述預測樣本中各特徵的取值，從根節點開始遍歷各棵隨機二叉樹查找與所述預測樣本對應的葉節點；
計算查找到的葉節點在各棵隨機二叉樹中的路徑深度的平均值，並對所述平均值進行歸一化處理，得到所述URL存取請求的風險評分。
可選的，所述資訊包括：域名資訊，和/或URL參數；所述若干維度的特徵包括：從URL存取請求中攜帶的域名資訊中提取出的特徵；和/或從URL存取請求中攜帶的URL參數中提取出的特徵。
可選的，所述特徵包括以下特徵中的多個的組合：字符總數、字母總數、數字總數、符號總數、不同字符數、不同字母數、不同數字數、不同符號數。
本說明書還提出一種電子設備，包括：
處理器；
用於儲存機器可執行指令的儲存器；
其中，通過讀取並執行所述儲存器儲存的與URL攻擊檢測的控制邏輯對應的機器可執行指令，所述處理器被促使：
從URL存取請求中攜帶的資訊中提取若干維度的特徵；
將提取到的特徵輸入預設的URL攻擊檢測模型進行預測計算，得到所述URL存取請求的風險評分；其中，所述URL攻擊檢測模型為基於Isolation Forest機器學習算法訓練得到的機器學習模型；
基於所述風險評分確定所述URL存取請求是否為URL攻擊請求。
本說明書實施例提供的技術方案，通過將從URL存取請求中提取出的特徵輸入至基於Isolation Forest機器學習算法訓練出的URL攻擊檢測模型進行預測計算，來對URL存取請求進行攻擊檢測，可以提前發現潛在的URL攻擊，從而有助於對潛在的異常URL存取及時的進行安全防護。

本說明書旨在提出一種基於Isolation Forest(孤立森林)機器學習算法對均未被標記風險標籤的URL存取請求樣本進行機器學習訓練，來構建URL攻擊檢測模型，並使用該URL攻擊檢測模型對正常的URL存取請求進行攻擊檢測，來發現潛在的URL攻擊的技術方案。
在實現時，可以預先準備若干URL存取請求樣本；其中，這些URL存取請求樣本均未被標記風險標籤。然後，可以對這些URL存取請求樣本進行資料切分，從這些URL存取請求樣本中攜帶的資訊中提取出若干維度的特徵；
例如，在實際應用中，上述資訊具體可以包括域名資訊、URL參數，在這種情況下，可以對URL存取請求樣本進行資料切分，提取出URL存取請求與樣本中攜帶的域名資訊(比如主域名和對應的域名後綴)、URL參數(比如URL參數名和對應的參數取值)，然後從提取出的域名資訊、URL參數中提取出若干個維度的特徵。
進一步，當從URL存取請求樣本中，分別提取出若干個維度的特徵後，可以對這些特徵進行歸一化處理，然後將歸一化處理後的特徵作為建模特徵來構建訓練樣本。
當訓練樣本構建完成後，可以基於Isolation Forest機器學習算法對這些訓練樣本進行訓練，來構建URL攻擊檢測模型；例如，可以採用Isolation Forest機器學習算法對訓練樣本進行二叉樹分類，構建出多顆隨機二叉樹。
最後，當URL攻擊檢測模型訓練完成後，可以按照相同的方式，從需要進行攻擊檢測的URL存取請求攜帶的資訊中分別提取出若干維度的特徵，並基於提取出的特徵來構建預測樣本，將構建完成的預測樣本輸入至上述URL攻擊檢測模型中進行預測計算，得到該URL存取請求的風險評分，然後可以基於該風險評分來確定該URL存取請求是否為URL攻擊請求。
在以上技術方案中，通過將從URL存取請求中提取出的特徵輸入至基於Isolation Forest機器學習算法訓練出的URL攻擊檢測模型進行預測計算，來對URL存取請求進行攻擊檢測，可以提前發現潛在的URL攻擊，從而有助於對潛在的異常URL存取及時的進行安全防護。
下面通過具體實施例並結合具體的應用場景對本說明書進行描述。
請參考圖1，圖1是本說明書一實施例提供的一種URL攻擊檢測方法，執行以下步驟：
步驟102，從URL存取請求中攜帶的資訊中提取若干維度的特徵；
步驟104，將提取到的特徵輸入預設的URL攻擊檢測模型進行預測計算，得到所述URL存取請求的風險評分；其中，所述URL攻擊檢測模型為基於Isolation Forest機器學習算法訓練得到的機器學習模型；
步驟106，基於所述風險評分確定所述URL存取請求是否為URL攻擊請求。
在本說明書中，建模方可以預先收集大量的未進行標記的URL存取請求作為無標記樣本，並基於收集到的這些無標記樣本來構建訓練樣本集，然後基於Isolation Forest機器學習算法對該訓練樣本集進行無監督的機器學習訓練，來構建上述URL攻擊檢測模型。
請參見圖2，圖2為本說明書示出的一種構建訓練樣本集訓練Isolation Forest模型的流程圖。
如圖2所示，首先，可以對收集到的這些未進行標記的原始的URL存取請求樣本分別進行資料切分，提取出這些URL存取請求樣本中攜帶的資訊。
其中，上述URL存取請求中攜帶的資訊是指那些能夠從中提取出，可以反映URL存取請求是否存在風險的特徵的資訊。
在示出的一種實施方式中，上述資訊具體可以包括URL存取請求中攜帶的URL參數和域名資訊等。上述URL參數，可以包括URL參數名(ParamName)以及對應的參數取值(ParamValue)；而上述域名資訊，可以包括主域名和與主域名對應的域名後綴。
例如，以上述資訊為URL存取請求中攜帶的URL參數為例，可以對原始的URL存取請求樣本進行資料切分，提取出這些URL存取請求樣本中攜帶的URL參數名(ParamName)以及對應的參數取值(ParamValue)；
又如，以上述資訊為URL存取請求中攜帶的資訊為例，可以對原始的URL存取請求樣本進行資料切分。提取出URL存取請求中攜帶的主域名和與主域名對應的域名後綴。當提取出這些URL存取請求樣本中攜帶的資訊後，可以從這些資訊中篩選出已知的URL攻擊請求中較為常見的那一部分資訊，用以構建機器學習模型。即篩選出最能夠表徵URL攻擊請求的特徵的資訊，來參與建模。
例如，以上述資訊為URL存取請求中攜帶的URL參數為例，對於部分只在個別的URL存取請求中出現的特殊URL參數，由於這部分URL參數並不能真實反映出URL攻擊請求的特徵，因此對於這部分URL參數可以進行過濾。
又如，以上述資訊為URL存取請求中攜帶的資訊為例，對於部分只在個別的URL存取請求中出現的特殊資訊，由於這部分資訊並不能真實反映出URL攻擊請求的特徵，參與建模會對模型的結果造成干擾，因此對於這部分資訊可以進行過濾處理。
進一步的，對於篩選出的資訊，可以從這些資訊中分別提取出若干個維度的特徵，來作為建模特徵。
其中，需要說明的是，建模方在建模時，從URL存取請求樣本中提取出的資訊具體可以採用URL存取請求樣本中攜帶的域名資訊和URL參數中的其中一個，也可以同時採用上述域名資訊和URL參數作為資訊。
因而，在這種情況下，建模方在從資訊中提取到的特徵，則可以包括以下示出的三種情況：
在一種情況下，如果建模方採用URL存取請求樣本中攜帶的域名資訊作為上述資訊，那麼最終提取到的特徵，可以僅包括從URL存取請求樣本中攜帶的域名資訊中提取出的若干維度的特徵；
在另一種情況下，如果建模方採用URL存取請求樣本中攜帶的URL參數作為上述資訊，那麼最終提取到的特徵，可以僅包括從URL存取請求樣本中攜帶的URL參數中提取出的若干維度的特徵；
在第三種情況下，如果建模方同時採用URL存取請求樣本中攜帶的URL參數和域名資訊作為資訊，此時上述URL參數和上述域名資訊將同時參與建模，那麼最終提取到的特徵，可以同時包括從URL存取請求樣本中攜帶的URL參數和域名資訊中分別提取出的若干維度的特徵；其中，從這些資訊中提取出的特徵，在本說明書中不進行特殊限定，在實際應用中，任意形式的能夠表徵URL攻擊請求中攜帶的資訊的特徵以及規律的特徵，都可以被選定作為建模特徵。
例如，在實際應用中，參與建模的本領域技術人員，可以基於經驗從這些資訊中提取出若干個維度的特徵，然後基於這些特徵進行嘗試建模，並對建模結果進行評估，來從中篩選出對模型的貢獻度最高的若干個維度的特徵作為建模特徵。
在示出的一種實施方式中，從這些資訊中提取出的特徵，可以包括資訊的字符總數、資訊的字母總數、資訊的數字總數、資訊的符號總數、資訊的不同字符數、資訊的不同字母數、資訊的不同數字數、資訊的不同符號數等8個維度。
例如，如果建模方採用URL存取請求樣本中攜帶的域名資訊作為上述資訊，最終提取到的特徵可以包括域名資訊的字符總數、域名資訊的字母總數、域名資訊的數字總數、域名資訊的符號總數、域名資訊的不同字符數、域名資訊的不同字母數、域名資訊的不同數字數、域名資訊的不同符號數等8個維度；
如果建模方採用URL存取請求樣本中攜帶的URL參數作為上述資訊，最終提取到的特徵可以包括URL參數的字符總數、URL參數的字母總數、URL參數的數字總數、URL參數的符號總數、URL參數的不同字符數、URL參數的不同字母數、URL參數的不同數字數、URL參數的不同符號數等8個維度；
如果建模方同時採用URL存取請求樣本中攜帶的URL參數和域名資訊作為資訊，最終提取到的特徵可以包括URL參數的字符總數、URL參數的字母總數、URL參數的數字總數、URL參數的符號總數、URL參數的不同字符數、URL參數的不同字母數、URL參數的不同數字數、URL參數的不同符號數、域名資訊的字符總數、域名資訊的字母總數、域名資訊的數字總數、域名資訊的符號總數、域名資訊的不同字符數、域名資訊的不同字母數、域名資訊的不同數字數、域名資訊的不同符號數等16個維度。
其中，需要說明的是，在實際應用中，本領域技術人員可以將以上8個基礎維度進行組合作為建模特徵，或者從以上8個基礎維度中進一步篩選出多個維度進行組合作為建模特徵，在本說明書中不進行特別限定。
當然，以上示出的8個維度的特徵僅為示例性的；顯然，在實際應用中，本領域技術人員也可以從這些資訊中提取出以上8個維度以外的其它維度的特徵作為建模特徵，在本說明書中不再進行一一列舉。
請繼續參見圖2，當從篩選出的資訊中分別提取出若干個維度的特徵後，由於不同的特徵的取值範圍可能並不統一，因此還可以對這些維度的特徵進行歸一化處理，將不同的特徵的取值範圍歸一化到一個統一的數值區間，從而來消除由於特徵的取值範圍不同對建模精度造成的影響。
當對提取出的特徵歸一化處理完成之後，可以基於從各URL存取請求樣本攜帶的資訊中提取出的特徵，為各URL存取請求樣本分別創建一個對應的特徵向量作為訓練樣本；其中，創建的特徵向量的維度，與提取出的特徵的維度相同。
當為各URL存取請求樣本構建了對應的特徵向量後，此時可以基於為各URL存取請求樣本構建的特徵向量，創建一個目標矩陣；例如，假設共計收集到N條URL存取請求樣本，從每一個URL存取請求樣本提取出M維的特徵，那麼該目標矩陣具體可以是一個N*M維的目標矩陣。
此時，創建的該目標矩陣，即為最終參與機器學習模型訓練的訓練樣本集。
請繼續參見圖2，當訓練樣本集訓練完畢，可以基於Isolation Forest機器學習算法對這些訓練樣本進行訓練，來構建上述URL攻擊檢測模型。其中，Isolation Forest算法是一種通過構建多個隨機二叉樹，從原始的資料集中挖掘出異常資料樣本的算法。所謂隨機二叉樹，是指基於隨機生成的分類特徵，以及隨機生成的與分類特徵的取值對應的分類臨界值構建而成的二叉樹。即在構建隨機二叉樹時，所使用的分類特徵以及與分類特徵的取值對應的分類臨界值均為隨機生成的。
而利用Isolation Forest算法對構建完成的訓練樣本集進行訓練，來構建URL異常檢測模型的過程，即為利用Isolation Forest算法對訓練樣本集中的訓練樣本進行分類，構建M棵隨機二叉樹的過程。
在初始狀態，建模方在基於Isolation Forest算法對上述訓練樣本集進行訓練之前，需要對Isolation Forest算法進行參數配置，為Isolation Forest算法配置需要構建的隨機二叉樹個數M，以及在構建單棵隨機二叉樹時需要從訓練樣本集中抽樣的訓練樣本數N。
其中，上述M和N的取值，可以採用工程經驗值，或者基於建模方實際的需求進行自定義設置；例如，Isolation Forest算法默認需要構建的隨機二叉樹個數為100，每一刻隨機二叉樹需要採樣的訓練樣本數為256。
當建模方完成對Isolation Forest算法的參數配置後，建模方可以通過在搭建的計算平臺(比如伺服器集群)中運行Isolation Forest算法，對構建完成的訓練樣本集進行訓練，來構建最終的URL異常檢測模型。
以下對利用Isolation Forest算法對訓練樣本集中的訓練樣本進行分類，來構建隨機二叉樹的流程，進行詳細描述。
首先，可以基於建模方配置的上述N值，針對訓練樣本集進行M次的均勻抽樣。其中，所述均勻抽樣，是指在執行的M次抽樣中，每一次從訓練樣本集中抽樣出的訓練樣本集的數量都相同。
當完成訓練樣本的均勻抽樣後，可以基於抽樣出的訓練樣本，來構建出M個訓練樣本子集，然後針對每一個訓練樣本子集中的訓練樣本分別進行分類，來構建出M棵隨機二叉樹。
進一步的，在針對一個訓練樣本子集中的訓練樣本進行分類，來構建隨機二叉樹時，首先可以從構成訓練樣本的若干維度的特徵中，為該訓練樣本子集隨機選擇一個特徵作為分類特徵，並將該分類特徵作為根節點；以及，確定該分類特徵當前在該訓練樣本子集中的最大取值和最小取值，然後在該最大取值和最小取值構成的取值區間中，為該訓練樣本集隨機選取一分類臨界值。
當選定了作為根節點的分類特徵以及分類臨界值後，此時可以針對該訓練樣本子集執行第一級的分類，將該訓練樣本子集中各個訓練樣本的上述分類特徵的取值，分別與上述分類臨界值進行比較，然後基於比較結果將該訓練樣本子集中的訓練樣本分類為，上述分類特徵的取值大於上述分類臨界值的訓練樣本，和上述分類特徵小於上述分類臨界值的訓練樣本兩類，並將分類出的這兩類訓練樣本，分別作為上述根節點的葉節點。
例如，在實現時，可以將該訓練樣本子集中上述分類特徵的取值小於上述分類臨界值的訓練樣本，分類到二叉樹的左樹分支，將這一類訓練樣本作為上述根節點在二叉樹上的左樹葉節點；而將該訓練樣本子集中上述分類特徵的取值大於上述分類臨界值的訓練樣本，分類到二叉樹的右樹分支，將這一類訓練樣本作為上述根節點在二叉樹上的右樹葉節點。
此時針對該訓練樣本子集的第一級分類完成。
進一步，當第一級分類完成後，可以繼續完成針對上述訓練樣本子集的第二級分類。
此時，可以將已經分類得到的兩個葉節點中的訓練樣本，分別作為新的訓練樣本子集，然後針對上述新的訓練樣本子集，來迭代執行以上分類過程，直到得到的各葉節點中的訓練樣本不可再分類時停止；
例如，仍然可以採用相同的方式，為各新的訓練樣本子集隨機選擇分類特徵以及分類臨界值，然後將各新的訓練樣本子集中的訓練樣本分類為，上述分類特徵的取值大於上述分類臨界值的訓練樣本，和上述分類特徵小於上述分類臨界值的訓練樣本兩類，並將分類出的這兩類訓練樣本，分別作為上一級的葉節點的下一級葉節點，以此類推，直到在執行某一級的分類後，得到的下一級的葉節點中的訓練樣本不可再分時停止；比如，葉節點中只剩一個訓練樣本，或者葉節點中的訓練樣本完全相同，表明得到的葉節點中的訓練樣本已經不可以再繼續分類。
其中，需要說明的是，為根節點以及各級子節點隨機選擇的分類特徵，需要保持不同；例如，在一種實現方式中，在將某一個特徵選擇為隨機二叉樹中某一節點的分類特徵後，可以將該特徵移除，後續在為其它節點選擇分類特徵時，將在該特徵以外的其它特徵中過來進行隨機選擇。
另外，以上示出的Isolation Forest算法的迭代分類的停止條件，默認情況下可以是得到的葉節點中的訓練樣本已經不可以再繼續分類，在實際應用中，建模方也可以在為Isolation Forest算法配置算法參數時，可以為得到的隨機二叉樹配置一個最大的二叉樹深度(即從根節點開始節點的最大層數)。在這種情況下，上述停止條件，也可以是當通過上述迭代分類的過程，得到的隨機二叉樹的深度達到為算法配置的最大的二叉樹深度時，算法可以立即停止(此時得到的各葉節點中的訓練樣本可能仍然可以再繼續分類)。
以上示出的為針對其中一個訓練樣本子集中的訓練樣本進行迭代分類，構建單棵隨機二叉樹的過程。
相似的，可以針對每一個訓練樣本子集重複執行以上分類過程，最終可以基於上述M個訓練樣本子集，構建出M棵隨機二叉樹，此時針對上述的訓練樣本集的訓練完成，得到的上述M棵隨機二叉樹，即為最終構建出的URL異常該檢測模型。
在本說明書中，當上述URL攻擊檢測模型訓練完畢後，可以按照如圖2示出的相同的特徵提取方式，從需要進行攻擊檢測的URL存取請求提取資訊，從提取到的資訊中篩選資訊、從篩選出的資訊中提取若干個維度的特徵(與模型訓練階段的特徵一致)，然後基於提取到的特徵構建預測樣本，並將預測樣本輸入至上述URL攻擊檢測模型進行預測計算，得到該URL存取請求的風險評分。
以下對利用訓練完成的URL攻擊檢測模型對URL存取請求進行風險評分的流程，進行詳細描述。
在計算構建出的預測樣本的風險評分時，首先需要估算出該預測樣本在每顆隨機二叉樹中的路徑深度h(x)；
具體的，可以基於該預測樣本中各特徵的取值，從各棵隨機二叉樹的根節點開始，按照由上至下的順序遍歷整棵隨機二叉樹，來查找該預測樣本在隨機二叉樹中對應的葉節點；
例如，首先可以確定該預測樣本中與根節點的分類特徵對應的取值，然後基於該取值，來查找該預測樣本所在的第一級葉節點。在查找到第一級葉節點後，可以繼續確定該預測樣本中與該第一級葉的分類特徵對應的取值，然後基於該取值，繼續查找該預測樣本所在的第二級葉節點，以此類推，可以通過逐級遍歷，直到查找到該預測樣本對應的葉節點時停止。
當查找到與上述預測樣本對應的葉節點後，此時可以記錄在遍歷隨機二叉樹的過程中，從根節點到查找到的該葉節點之間一共經過的邊的數目e，以及與上述預測樣本對應的葉節點中的訓練樣本數n。
此時最終得到的路徑深度h(x)，可以用如下公式來表徵：

其中，C(n)為修正值，可以用如下公式來表徵：

其中，H(n-1)可用ln(n-1)+0.5772156649估算，這裡的常數是歐拉常數。
當通過以上公式，估算出該預測樣本在每顆隨機二叉樹中的路徑深度h(x)後，可以進一步求解該預測樣本在每顆隨機二叉樹的路徑深度的平均值，然後對得到的平均值進行歸一化處理，將計算結果量化到0~1之間，得到該URL存取請求的風險評分；
最終得到的風險評分可以用如下公式進行表徵：

其中，Score(x)表示預測樣本X最終的風險評分；E{h(x)}表示預測樣本在每顆隨機二叉樹中的路徑深度h(x)；φ表示單棵隨機二叉樹的訓練樣本數；C(φ)表示用φ條訓練樣本構建的二叉樹的平均路徑長度，在上述公式中用來對計算結果作歸一化處理。
當通過上述URL攻擊檢測模型預測出該URL存取請求的風險評分後，可以進一步基於該URL風險評分，來確定該URL存取請求是否為URL攻擊請求；
例如，在一種實現方式中，可以將該風險評分與預設的風險閾值進行比較，來確定該URL存取請求的具體類型；如果該風險評分大於或者等於預設的風險閾值，則表明該URL存取請求為URL攻擊請求；反之，如果該風險評分小於該預設的風險閾值，則表明該URL存取請求為正常URL存取請求。
通過以上實施例可知，在本說明書中，通過將從URL存取請求中提取出的特徵輸入至基於Isolation Forest機器學習算法訓練出的URL攻擊檢測模型進行預測計算，來對URL存取請求進行攻擊檢測：
一方面，通過這種方式，可以提前發現潛在的URL攻擊，從而有助於對潛在的異常URL存取及時的進行安全防護。
另一方面，由於Isolation Forest算法是一種無監督的機器學習算法，在訓練模型時所需的訓練樣本可以不再需要標記樣本標籤，因此對於建模方而言，可以省去為訓練樣本打標而造成的大量人力成本。
與上述方法實施例相對應，本說明書還提供了一種URL攻擊檢測裝置的實施例。本說明書的URL攻擊檢測設備的實施例可以應用在電子設備上。裝置實施例可以通過軟體實現，也可以通過硬體或者軟硬體結合的方式實現。以軟體實現為例，作為一個邏輯意義上的裝置，是通過其所在電子設備的處理器將非易失性儲存器中對應的電腦程式指令讀取到記憶體中運行形成的。從硬體層面而言，如圖3所示，為本說明書的URL攻擊檢測裝置所在電子設備的一種硬體結構圖，除了圖3所示的處理器、記憶體、網路接口、以及非易失性儲存器之外，實施例中裝置所在的電子設備通常根據該電子設備的實際功能，還可以包括其他硬體，對此不再贅述。
圖4是本說明書一示例性實施例示出的一種URL攻擊檢測裝置的框圖。
請參考圖4，所述URL攻擊檢測裝置40可以應用在前述圖3所示的電子設備中，包括有：第一提取模組401、計算模組402和確定模組403。
第一提取模組401，從URL存取請求中攜帶的資訊中提取若干維度的特徵；
計算模組402，將提取到的特徵輸入預設的URL攻擊檢測模型進行預測計算，得到所述URL存取請求的風險評分；其中，所述URL攻擊檢測模型為基於Isolation Forest機器學習算法訓練得到的機器學習模型；
確定模組403，基於所述風險評分確定所述URL存取請求是否為URL攻擊請求。
在本例中，所述裝置40還包括：
第二提取模組404(圖4中未示出)，從若干URL存取請求樣本攜帶的資訊中分別提取若干維度的特徵；其中，所述若干URL存取請求樣本均未被標記樣本標籤。
構建模組405(圖4中未示出)，基於提取到的特徵構建若干訓練樣本；
訓練模組406(圖4中未示出)，基於Isolation Forest機器學習算法對所述若干訓練樣本進行訓練得到所述URL攻擊檢測模型。
在本例中，所述URL攻擊檢測模型包括基於Isolation Forest機器學習算法訓練得到的M棵隨機二叉樹；
所述訓練模組406：
基於從所述若干訓練樣本中均勻抽樣出的訓練樣本構建出M個訓練樣本子集；
從所述若干維度的特徵中為各訓練樣本子集隨機選擇一分類特徵作為根節點，以及在所述分類特徵的最大取值和最小取值構成的取值區間中，為各訓練樣本子集隨機選取一分類臨界值；
將各訓練樣本子集中所述分類特徵的取值大於所述分類臨界值的訓練樣本，和所述分類特徵的取值小於所述分類臨界值的訓練樣本，分別分類為所述根節點的葉節點；以及，
將各葉節點中的訓練樣本作為新的訓練樣本子集，迭代執行以上分類過程，直到得到的各葉節點中的訓練樣本不可再分類時停止。
在本例中，所述計算模組403：
基於提取到的特徵構建預測樣本；
基於所述預測樣本中各特徵的取值，從根節點開始遍歷各棵隨機二叉樹查找與所述預測樣本對應的葉節點；
計算查找到的葉節點在各棵隨機二叉樹中的路徑深度的平均值，並對所述平均值進行歸一化處理，得到所述URL存取請求的風險評分。
在本例中，所述資訊包括：域名資訊，和/或URL參數；所述若干維度的特徵包括：從URL存取請求中攜帶的域名資訊中提取出的特徵；和/或從URL存取請求中攜帶的URL參數中提取出的特徵。
在本例中，所述特徵包括以下特徵中的多個的組合：字符總數、字母總數、數字總數、符號總數、不同字符數、不同字母數、不同數字數、不同符號數。
上述裝置中各個模組的功能和作用的實現過程具體詳見上述方法中對應步驟的實現過程，在此不再贅述。
對於裝置實施例而言，由於其基本對應於方法實施例，所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的，其中所述作為分離部件說明的單元可以是或者也可以不是實體上分開的，作為單元顯示的部件可以是或者也可以不是實體單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本說明書方案的目的。本領域普通技術人員在不付出創造性勞動的情況下，即可以理解並實施。
上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦芯片或實體實現，或者由具有某種功能的產品來實現。一種典型的實現設備為電腦，電腦的具體形式可以是個人電腦、膝上型電腦、蜂窩電話、相機電話、智慧電話、個人數位助理、媒體播放器、導航設備、電子郵件收發設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任意幾種設備的組合。
與上述方法實施例相對應，本說明書還提供了一種電子設備的實施例。該電子設備包括：處理器以及用於儲存機器可執行指令的儲存器；其中，處理器和儲存器通常通過內部匯流排相互連接。在其他可能的實現方式中，所述設備還可能包括外部接口，以能夠與其他設備或者部件進行通訊。
在本實施例中，通過讀取並執行所述儲存器儲存的與URL攻擊檢測的控制邏輯對應的機器可執行指令，所述處理器被促使：
從URL存取請求中攜帶的資訊中提取若干維度的特徵；
將提取到的特徵輸入預設的URL攻擊檢測模型進行預測計算，得到所述URL存取請求的風險評分；其中，所述URL攻擊檢測模型為基於Isolation Forest機器學習算法訓練得到的機器學習模型；
基於所述風險評分確定所述URL存取請求是否為URL攻擊請求。
在本例中，通過讀取並執行所述儲存器儲存的URL攻擊檢測的控制邏輯對應的機器可執行指令，所述處理器還被促使：
從若干URL存取請求樣本攜帶的資訊中分別提取若干維度的特徵；其中，所述若干URL存取請求樣本均未被標記樣本標籤。
基於提取到的特徵構建若干訓練樣本；
基於Isolation Forest機器學習算法對所述若干訓練樣本進行訓練得到所述URL攻擊檢測模型。
在本實施例中，所述URL攻擊檢測模型包括基於Isolation Forest機器學習算法訓練得到的M棵隨機二叉樹；
通過讀取並執行所述儲存器儲存的URL攻擊檢測的控制邏輯對應的機器可執行指令，所述處理器還被促使：
基於從所述若干訓練樣本中均勻抽樣出的訓練樣本構建出M個訓練樣本子集；
從所述若干維度的特徵中為各訓練樣本子集隨機選擇一分類特徵作為根節點，以及在所述分類特徵的最大取值和最小取值構成的取值區間中，為各訓練樣本子集隨機選取一分類臨界值；
將各訓練樣本子集中所述分類特徵的取值大於所述分類臨界值的訓練樣本，和所述分類特徵的取值小於所述分類臨界值的訓練樣本，分別分類為所述根節點的葉節點；以及，
將各葉節點中的訓練樣本作為新的訓練樣本子集，迭代執行以上分類過程，直到得到的各葉節點中的訓練樣本不可再分類時停止。
在本例中，通過讀取並執行所述儲存器儲存的URL攻擊檢測的控制邏輯對應的機器可執行指令，所述處理器還被促使：
基於提取到的特徵構建預測樣本；
基於所述預測樣本中各特徵的取值，從根節點開始遍歷各棵隨機二叉樹查找與所述預測樣本對應的葉節點；
計算查找到的葉節點在各棵隨機二叉樹中的路徑深度的平均值，並對所述平均值進行歸一化處理，得到所述URL存取請求的風險評分。
在本例中，所述資訊包括：域名資訊，和/或URL參數；所述若干維度的特徵包括：從URL存取請求中攜帶的域名資訊中提取出的特徵；和/或從URL存取請求中攜帶的URL參數中提取出的特徵。
在本例中，提取出的所述若干維度的特徵包括以下特徵中的多個的組合：資訊的字符總數、資訊的字母總數、資訊的數字總數、資訊的符號總數、資訊的不同字符數、資訊的不同字母數、資訊的不同數字數、資訊的不同符號數。
本領域技術人員在考慮說明書及實踐這裡公開的發明後，將容易想到本說明書的其它實施方案。本說明書旨在涵蓋本說明書的任何變型、用途或者適應性變化，這些變型、用途或者適應性變化遵循本說明書的一般性原理並包括本說明書未公開的本技術領域中的公知常識或慣用技術手段。說明書和實施例僅被視為示例性的，本說明書的真正範圍和精神由下面的申請專利範圍指出。
應當理解的是，本說明書並不局限於上面已經描述並在圖式中示出的精確結構，並且可以在不脫離其範圍進行各種修改和改變。本說明書的範圍僅由所附的申請專利範圍來限制。
以上所述僅為本說明書的較佳實施例而已，並不用以限制本說明書，凡在本說明書的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本說明書保護的範圍之內。

40‧‧‧URL攻擊檢測裝置

102‧‧‧步驟

104‧‧‧步驟

106‧‧‧步驟

401‧‧‧第一提取模組

402‧‧‧計算模組

403‧‧‧確定模組

圖1是本說明書一實施例示出的URL攻擊檢測方法的流程圖；

圖2是本說明書一實施例示出的一種構建訓練樣本集訓練Isolation Forest模型的流程圖；

圖3是本說明書一實施例提供的承載一種URL攻擊檢測裝置的電子設備所涉及的硬體結構圖；

圖4是本說明書一實施例提供的一種所述URL攻擊檢測裝置的邏輯框圖。

Claims

一種統一資源定位符(URL)攻擊檢測方法，所述方法包括：從URL存取請求中攜帶的資訊中提取若干維度的特徵；將提取到的特徵輸入預設的URL攻擊檢測模型進行預測計算，得到所述URL存取請求的風險評分；其中，所述URL攻擊檢測模型為基於孤立森林(Isolation Forest)機器學習算法訓練得到的機器學習模型；基於所述風險評分確定所述URL存取請求是否為URL攻擊請求。
根據請求項1所述的方法，所述方法還包括：從若干URL存取請求樣本攜帶的資訊中分別提取若干維度的特徵；其中，所述若干URL存取請求樣本均未被標記樣本標籤；基於提取到的特徵構建若干訓練樣本；基於Isolation Forest機器學習算法對所述若干訓練樣本進行訓練得到所述URL攻擊檢測模型。
根據請求項2所述的方法，所述URL攻擊檢測模型包括基於Isolation Forest機器學習算法訓練得到的M棵隨機二叉樹；所述基於Isolation Forest機器學習算法對所述若干訓練樣本進行訓練得到所述URL攻擊檢測模型，包括：基於從所述若干訓練樣本中均勻抽樣出的訓練樣本構建出M個訓練樣本子集；從所述若干維度的特徵中為各訓練樣本子集隨機選擇一分類特徵作為根節點，以及在所述分類特徵的最大取值和最小取值構成的取值區間中，為各訓練樣本子集隨機選取一分類臨界值；將各訓練樣本子集中所述分類特徵的取值大於等於所述分類臨界值的訓練樣本，和所述分類特徵的取值小於所述分類臨界值的訓練樣本，分別分類為所述根節點的葉節點；以及，將各葉節點中的訓練樣本作為新的訓練樣本子集，迭代執行以上分類過程，直到得到的各葉節點中的訓練樣本不可再分類時停止。
根據請求項3所述的方法，所述將提取到的特徵輸入預設的URL攻擊檢測模型進行預測計算，得到所述URL存取請求的風險評分，包括：基於提取到的特徵構建預測樣本；基於所述預測樣本中各特徵的取值，從根節點開始遍歷各棵隨機二叉樹查找與所述預測樣本對應的葉節點；計算查找到的葉節點在各棵隨機二叉樹中的路徑深度的平均值，並對所述平均值進行歸一化處理，得到所述URL存取請求的風險評分。
根據請求項1所述的方法，所述資訊包括：域名資訊，和/或URL參數；所述若干維度的特徵包括：從URL存取請求中攜帶的域名資訊中提取出的特徵；和/或從URL存取請求中攜帶的URL參數中提取出的特徵。
根據請求項5所述的方法，所述特徵包括以下特徵中的多個的組合：字符總數、字母總數、數字總數、符號總數、不同字符數、不同字母數、不同數字數、不同符號數。
一種URL攻擊檢測裝置，所述裝置包括：第一提取模組，從URL存取請求中攜帶的資訊中提取若干維度的特徵；計算模組，將提取到的特徵輸入預設的URL攻擊檢測模型進行預測計算，得到所述URL存取請求的風險評分；其中，所述URL攻擊檢測模型為基於Isolation Forest機器學習算法訓練得到的機器學習模型；確定模組，基於所述風險評分確定所述URL存取請求是否為URL攻擊請求。
根據請求項7所述的裝置，所述裝置還包括：第二提取模組，從若干URL存取請求樣本攜帶的資訊中分別提取若干維度的特徵；其中，所述若干URL存取請求樣本均未被標記樣本標籤；構建模組，基於提取到的特徵構建若干訓練樣本；訓練模組，基於Isolation Forest機器學習算法對所述若干訓練樣本進行訓練得到所述URL攻擊檢測模型。
根據請求項8所述的裝置，所述URL攻擊檢測模型包括基於Isolation Forest機器學習算法訓練得到的M棵隨機二叉樹；所述訓練模組：基於從所述若干訓練樣本中均勻抽樣出的訓練樣本構建出M個訓練樣本子集；從所述若干維度的特徵中為各訓練樣本子集隨機選擇一分類特徵作為根節點，以及在所述分類特徵的最大取值和最小取值構成的取值區間中，為各訓練樣本子集隨機選取一分類臨界值；將各訓練樣本子集中所述分類特徵的取值大於所述分類臨界值的訓練樣本，和所述分類特徵的取值小於所述分類臨界值的訓練樣本，分別分類為所述根節點的葉節點；以及，將各葉節點中的訓練樣本作為新的訓練樣本子集，迭代執行以上分類過程，直到得到的各葉節點中的訓練樣本不可再分類時停止。
根據請求項9所述的裝置，所述計算模組：基於提取到的特徵構建預測樣本；基於所述預測樣本中各特徵的取值，從根節點開始遍歷各棵隨機二叉樹查找與所述預測樣本對應的葉節點；計算查找到的葉節點在各棵隨機二叉樹中的路徑深度的平均值，並對所述平均值進行歸一化處理，得到所述URL存取請求的風險評分。
根據請求項7所述的裝置，所述資訊包括：域名資訊，和/或URL參數；所述若干維度的特徵包括：從URL存取請求中攜帶的域名資訊中提取出的特徵；和/或從URL存取請求中攜帶的URL參數中提取出的特徵。
根據請求項11所述的裝置，所述特徵包括以下特徵中的多個的組合：字符總數、字母總數、數字總數、符號總數、不同字符數、不同字母數、不同數字數、不同符號數。
一種電子設備，包括：處理器；用於儲存機器可執行指令的儲存器；其中，通過讀取並執行所述儲存器儲存的與URL攻擊檢測的控制邏輯對應的機器可執行指令，所述處理器被促使：從URL存取請求中攜帶的資訊中提取若干維度的特徵；將提取到的特徵輸入預設的URL攻擊檢測模型進行預測計算，得到所述URL存取請求的風險評分；其中，所述URL攻擊檢測模型為基於Isolation Forest機器學習算法訓練得到的機器學習模型；基於所述風險評分確定所述URL存取請求是否為URL攻擊請求。