TWI743787B

TWI743787B - 對抗攻擊的監測方法和裝置

Info

Publication number: TWI743787B
Application number: TW109116402A
Authority: TW
Inventors: 宗志遠
Original assignee: 大陸商支付寶（杭州）信息技術有限公司
Priority date: 2019-12-06
Filing date: 2020-05-18
Publication date: 2021-10-21
Also published as: CN111046379A; CN111046379B; TW202123043A; WO2021109695A1

Abstract

說明書披露一種對抗攻擊的監測方法和裝置。所述方法包括：獲取目標模型的對抗樣本空間；採集調用所述目標模型的輸入資料；判斷所述輸入資料是否落入所述對抗樣本空間；根據判斷結果計算監測週期內落入到所述對抗樣本空間的輸入資料的監測參數，當所述監測參數滿足預設的攻擊條件時，確定監測到面向所述目標模型的對抗攻擊。上述方案可有效監測對抗攻擊，有效降低隱私洩露、資金損失等安全風險，保證資料安全。

Description

對抗攻擊的監測方法和裝置

本說明書涉及人工智慧領域，尤其涉及一種對抗攻擊的監測方法及裝置。

隨著人工智慧的不斷發展，機器學習模型越來越複雜，精確度越來越高。然而精確度越高的模型，強健性卻可能越差，即模型的穩健性越差，這就給攻擊製造了機會。以對抗攻擊為例，攻擊者對樣本進行細微的修改形成對抗樣本，並輸入模型，以使模型輸出錯誤的預測結果。對抗攻擊可能會帶來安全風險，例如，對於依靠人臉識別進行身份認證的場景，攻擊者構造了一對抗樣本並輸入人臉識別模型，若模型將該對抗樣本識別為某合法用戶，攻擊者就能夠通過身份認證，帶來私有資料洩露、資金損失等安全風險。

有鑑於此，本說明書提供一種對抗攻擊的監測方法和裝置。具體地，本說明書是透過如下技術方案實現的：一種對抗攻擊的監測方法，包括：獲取目標模型的對抗樣本空間；採集調用所述目標模型的輸入資料；判斷所述輸入資料是否落入所述對抗樣本空間；根據判斷結果計算監測週期內落入到所述對抗樣本空間的輸入資料的監測參數，當所述監測參數滿足預設的攻擊條件時，確定監測到面向所述目標模型的對抗攻擊。一種對抗攻擊的監測裝置，包括：獲取單元，獲取目標模型的對抗樣本空間；採集單元，採集調用所述目標模型的輸入資料；判斷單元，判斷所述輸入資料是否落入所述對抗樣本空間；監測單元，根據判斷結果計算監測週期內落入到所述對抗樣本空間的輸入資料的監測參數，當所述監測參數滿足預設的攻擊條件時，確定監測到面向所述目標模型的對抗攻擊。一種對抗攻擊的監測裝置，包括：處理器；用於儲存機器可執行指令的記憶體；其中，透過讀取並執行所述記憶體儲存的與對抗攻擊的監測邏輯對應的機器可執行指令，所述處理器被促使：獲取目標模型的對抗樣本空間；採集調用所述目標模型的輸入資料；判斷所述輸入資料是否落入所述對抗樣本空間；根據判斷結果計算監測週期內落入到所述對抗樣本空間的輸入資料的監測參數，當所述監測參數滿足預設的攻擊條件時，確定監測到面向所述目標模型的對抗攻擊。本說明書一個實施例實現了，採集調用目標模型的輸入資料，判斷輸入資料是否落入所述目標模型的對抗樣本空間，並根據判斷結果計算監測週期內落入到對抗樣本空間的輸入資料的監測參數，若監測參數滿足攻擊條件，則確認監測到面向目標模型的對抗攻擊。上述方法不影響目標模型的正常使用，還可以及時監測到對抗攻擊，有效降低私有資料洩露、資金損失等安全風險。

這裡將詳細地對示例性實施例進行說明，其示例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本說明書相一致的所有實施方式。相反，它們僅是與如所附申請專利範圍中所詳述的、本說明書的一些態樣相一致的裝置和方法的例子。在本說明書使用的術語是僅僅出於描述特定實施例的目的，而非旨在限制本說明書。在本說明書和所附申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也旨在包括多數形式，除非上下文清楚地表示其他含義。還應當理解，本文中使用的術語“及/或”是指並包含一個或多個相關聯的列出項目的任何或所有可能組合。應當理解，儘管在本說明書可能採用術語第一、第二、第三等來描述各種資訊，但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如，在不脫離本說明書範圍的情況下，第一資訊也可以被稱為第二資訊，類似地，第二資訊也可以被稱為第一資訊。取決於語境，如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“響應於確定”。隨著人工智慧的不斷發展，研究者們不斷地設計出更深、更複雜的機器學習模型，以使模型輸出更準確的預測結果。然而隨著模型精確度的不斷提高，模型的強健性卻可能越來越差，這使得模型很容易遭受攻擊。以對抗攻擊為例，透過對樣本進行細微的修改形成對抗樣本，將對抗樣本輸入模型後能使模型輸出錯誤的預測結果。例如，在圖像識別模型中，這種細微的修改可以是對圖像增加一些具有干擾性的雜訊。將修改後的圖像輸入圖像識別模型後，圖像識別模型可能會把一張小狗的圖片識別為一輛汽車的圖片，導致輸出一個完全錯誤的識別結果。對抗攻擊可以存在於圖像識別、語音識別、文字識別等領域。在一些場景下，對抗攻擊可能會帶來安全風險。例如，對於依靠人臉識別進行身份認證的場景，攻擊者構造了一對抗樣本並輸入人臉識別模型，若人臉識別模型將該對抗樣本識別為某合法用戶，攻擊者就能夠通過身份認證，帶來私有資料洩露、資金損失等安全風險。本說明書提供了一種對抗攻擊的監測方法及裝置。圖1是本說明書一示例性實施例示出的一種對抗攻擊的監測的方法的流程示意圖。所述對抗攻擊的監測方法可以應用於具有處理器、記憶體的電子設備中，例如伺服器或伺服器集群等，本說明書對此不作特殊限制。請參考圖1，所述對抗攻擊的監測方法可以包括以下步驟：步驟101，獲取目標模型的對抗樣本空間。在本說明書中，在應用場景維度下，目標模型可以為語音識別模型、圖像識別模型、文字識別模型等；在模型結構維度下，目標模型可以為基於神經網路的模型等，本說明書對此不作特殊限制。在本說明書中，所述對抗樣本空間可以是在目標模型完成訓練後、正式上線前，經過預先計算得到的。當然，所述對抗樣本空間也可以在目標模型上線後計算得到，本說明書對此不作特殊限制。在本說明書中，可以透過攻擊測試得到對抗樣本，並根據對抗樣本生成對抗樣本空間。在一個例子中，所述攻擊測試可以為基於邊界攻擊的黑盒測試。邊界攻擊指的是先構造一個干擾性較大的對抗樣本以測試目標模型，並在保證對抗性的前提下不斷地降低樣本的干擾性，最終得到干擾性較小的對抗樣本。在實際應用中，在基於原始圖像生成對抗樣本時，可以先生成一個干擾性較大的對抗樣本。例如，可隨機更改原始圖像上的一些像素點的像素值，並將修改後的原始圖像輸入目標模型，若目標模型輸出誤判的預測結果，則將修改後的圖像作為對抗樣本。獲取對抗樣本後，可根據該對抗樣本的空間坐標和該原始圖像的空間坐標，在空間中以所述對抗樣本為起點，沿著靠近原始圖像的方向對所述對抗樣本進行隨機擾動，在保證該對抗樣本對抗性的前提下，不斷減小擾動後的對抗樣本與原始圖像的距離。例如，可將擾動後的對抗樣本輸入目標模型，若目標模型輸出錯誤的預測結果，說明該對抗樣本仍舊具有對抗性，則可進一步對該對抗樣本進行上述方向的隨機擾動，使得其更加靠近原始圖像，最終得到與原始圖像距離最近的對抗樣本，即得到使干擾性最小的對抗樣本。採用上述方法，可得到目標模型的多個對抗樣本。本說明書說，還可以透過其它方法構建對抗樣本，本說明書對此不作特殊限制。在另一個例子中，所述攻擊測試還可以為基於邊界攻擊的白盒測試。白盒測試的步驟參照上述黑盒測試的步驟，在此不再贅述。值得說明的是，白盒測試需要預先獲取完整的目標模型文件，所述目標模型文件可以包括目標模型的結構與參數等。在本說明書中，可以基於所述對抗樣本確定目標模型的對抗樣本空間。在一個例子中，可以確定目標模型每個對抗樣本的空間坐標，基於所述空間坐標確定目標模型的對抗樣本空間。以目標模型是圖像識別模型為例，假設一對抗樣本為像素是64*64的彩色圖像，所述對抗樣本具有64*64個像素點，每個像素點有3個像素值，該對抗樣本共有64*64*3= 12288個像素值，則該圖像識別模型的對抗樣本的空間坐標有12288個維度，即對抗樣本空間具有12288個維度，每個維度的取值分別為對抗樣本對應像素點的某像素值。例如，所述對抗樣本空間的第一個維度可代表對抗樣本第一個像素點的第1個像素值；所述對抗樣本空間的第二個維度可代表對抗樣本第一個像素點的第2個像素值；所述對抗樣本空間的第三個維度可代表對抗樣本第一個像素點的第3個像素值；所述對抗樣本空間的第四個維度可代表對抗樣本第二個像素點的第1個像素值……以此類推。基於所述對抗樣本的空間坐標對所述對抗樣本進行聚類，得到若干對抗樣本簇。聚類算法可以為K-Means算法、DBSCAN（Density-Based Spatial Clustering of Applications with Noise，基於密度的聚類算法）算法等，本說明書對此不作特殊限制。在本例中，可以將所述若干對抗樣本簇作為對抗樣本空間。在另一例子中，獲取了若干對抗樣本簇後，還可以為每個對抗樣本簇生成對應的凸包絡，並將生成的若干凸包絡作為對抗樣本空間。凸包絡的計算方法可以為Graham算法、Melkman算法、Andrew算法等，本說明書對此不作特殊限制。步驟102，採集調用所述目標模型的輸入資料。模型上線後，目標模型可對調用方提供API（Application Programming Interface，應用程式介面）介面，以使調用方根據API介面對目標模型進行調用。採集模型調用方調用模型時的輸入資料。例如，對於圖像識別模型，輸入資料可以為一張圖像；對於語音識別模型，輸入資料可以為一段語音。在一個例子中，可以實時採集目標模型的輸入資料。例如，可以監聽目標模型的調用，在監聽到目標模型被調用時，獲取調用方輸入的輸入資料。在另一個例子中，還可以預設的時間間隔，週期性地採集目標模型的歷史輸入資料，所述時間間隔可以為下述對抗攻擊的監測週期。值得說明的是，步驟101還可以在步驟102之後。例如，步驟102為週期性地採集目標模型的歷史輸入資料，則可在採集目標模型的歷史輸入資料之後，獲取目標模型的對抗樣本空間，再執行步驟103。步驟103，判斷所述輸入資料是否落入所述對抗樣本空間。在一個例子中，可以確定輸入資料的空間坐標，判斷所述空間坐標是否落入目標模型的對抗樣本空間。在一個例子中，可以將所述空間坐標輸入預設的擬合函數，然後根據輸出結果判斷所述空間坐標是否落入任意一個凸包絡。例如，所述空間坐標為x，所述擬合函數為F，則可將x輸入F得到F（x），若F（x）＜0，則確定落入凸包絡，否則，確定未落入凸包絡。若所述空間坐標落入了任意一個凸包絡，則所述空間坐標落入了目標模型的對抗樣本空間。在另一個例子中，還可以根據所述空間坐標計算所述輸入資料與各個對抗樣本簇的距離，判斷所述輸入資料與各個對抗樣本簇的距離是否小於預設的距離閾值。例如，可計算所述輸入資料與各個對抗樣本簇的中心點的距離作為所述輸入資料與對應對抗樣本簇的距離。若存在一個對抗樣本簇，使得所述輸入資料與該對抗樣本簇的距離小於所述預設的距離閾值，則確認所述輸入資料落入對抗樣本空間。所述距離閾值可預先確定。步驟104，根據判斷結果計算監測週期內落入到所述對抗樣本空間的輸入資料的監測參數，當所述監測參數滿足預設的攻擊條件時，確定監測到面向所述目標模型的對抗攻擊。在一個例子中，監測參數為落入所述對抗樣本空間的輸入資料的數量，攻擊條件為所述數量達到數量閾值。在實際應用中，可以在預設的監測週期內，監測輸入資料落入對抗樣本空間的數量是否達到數量閾值。若達到數量閾值，確定監測到面向目標模型的對抗攻擊。所述數量閾值的確定方式可以為：將目標模型在若干歷史監測週期內，輸入資料落入對抗樣本空間的平均數量作為數量閾值。例如，假設監測週期是2小時，目標模型最近3天中每兩個小時內輸入資料落入對抗樣本空間的平均數量為200個，則可將200個作為數量閾值。值得注意的是，考慮到調用方在一天內不同時間段對目標模型的調用需求可能是不同的，還可以對監測週期進行差異化的數量閾值確定。再例如，考慮到誤差的存在，還可以將上述數量閾值乘以預設的誤差係數，將計算得到的數值作為最終的數量閾值。再例如，也可以人工設置所述數量閾值。在另一個例子中，監測參數還可以為落入所述對抗樣本空間的輸入資料的比例，攻擊條件可以為所述比例達到比例閾值。在實際應用中，可以在預設的監測週期內，監測輸入資料落入對抗樣本空間的數量占在該檢測週期內所有輸入資料的數量的比例是否達到比例閾值。若達到所述比例閾值，確認監測到面向目標模型的對抗攻擊。比例閾值的確定方式參考上述數量閾值，在此不再贅述。由以上描述可以看出，在本說明書的一個實施例中，可以先對目標模型進行攻擊測試，以得到目標模型的若干對抗樣本，將若干對抗樣本進行計算得到對抗樣本空間。在對目標模型進行對抗攻擊監測時，可以採集調用目標模型的輸入資料，判斷輸入資料是否落入預先計算得到的對抗樣本空間，並根據判斷結果計算監測週期內落入到對抗樣本空間的輸入資料的監測參數，若監測參數滿足攻擊條件，則認為監測到面向目標模型的對抗攻擊。本實施例所述方法，不影響目標模型的正常使用，還可以監測到對抗攻擊。圖2是本說明書一示例性實施例示出的另一種對抗攻擊的監測方法的流程示意圖。所述對抗攻擊的監測方法可以應用於具有處理器、記憶體的電子設備中，例如伺服器或伺服器集群等，本說明書對此不作特殊限制。請參考圖2，所述對抗攻擊的監測方法可以包括以下步驟：步驟201，獲取目標模型的對抗樣本空間。步驟202，採集調用所述目標模型的輸入資料。步驟203，判斷所述輸入資料是否落入所述對抗樣本空間。步驟204，根據判斷結果計算監測週期內落入到所述對抗樣本空間的輸入資料的監測參數，當所述監測參數滿足預設的攻擊條件時，確定監測到面向所述目標模型的對抗攻擊。上述步驟201-步驟204請參見步驟101-步驟104，在此不再贅述。步驟205，發送告警資訊。當監測參數滿足預設的攻擊條件時，確定監測到面向所述目標模型的對抗攻擊後，還可以發送告警資訊。在一個例子中，告警資訊可以包括當前監測週期、落入到對抗空間的輸入資料的數量/比例等。例如，告警資訊可以為：“10分鐘內監測到可疑輸入資料223個，疑似存在對抗攻擊”。若所述落入對抗空間的輸入資料的數量仍在上升，則可以更新可疑輸入資料數量/比例，持續報警。在另一個例子中，告警資訊還可以包括輸入資料對應的目標模型調用方的標識，所述標識可以為調用方的ID、名稱、IP地址等。例如，告警資訊可以為：“10分鐘內監測到可疑輸入資料223個，疑似存在對抗攻擊。其中，80%的可疑輸入資料來自用戶A。”調用方標識資訊可透過目標模型調用過程中的調用日誌得到。在另一例子中，告警資訊還可以包括目標模型對落入對抗樣本空間的輸入資料的預測結果，以判斷對抗攻擊是否攻擊成功。例如，若攻擊者企圖將添加干擾後的非法用戶的圖像輸入目標模型，使目標模型輸出的預測結果為合法用戶，則告警資訊可以為：“10分鐘內監測到可疑輸入資料223個，疑似存在對抗攻擊。其中，220個輸入資料輸出結果為非法用戶，2個輸入資料的輸出結果為合法用戶。”則可以根據目標模型輸出的預測結果判斷對抗攻擊是否成功。由以上描述可以看出，在本說明書的另一個實施例中，監測到存在面向目標模型的對抗攻擊後，還可以發送告警資訊。告警資訊可以示出對抗攻擊的攻擊次數、攻擊結果，還可以追溯到攻擊源，後續可根據告警資訊採取一些措施來抵禦對抗攻擊。例如，攔截可疑調用方的調用等，進而有效降低私有資料洩露、資金損失等安全風險。下面結合一個具體的實施例對本說明書對抗攻擊的監測方法進行說明。所述對抗攻擊的監測方法可以應用於伺服器。請參考圖3、圖4，所述對抗攻擊的監測方法可以分為兩個流程：對目標模型進行攻擊測試，以得到對抗樣本空間；監測目標模型的輸入資料，以監測對抗攻擊。圖3是本說明書一示例性實施例示出的一種獲取目標模型對抗樣本空間的方法的流程示意圖。本實施例中，目標模型為用於用戶身份認證的人臉識別模型。步驟301，調用人臉識別模型。本實施例中，需要獲取人臉識別模型的調用方式的說明文檔及調用介面。步驟302，對所述人臉識別模型進行基於邊界攻擊的黑盒測試，以獲取若干對抗樣本。對人臉識別模型進行攻擊測試，本實施例中，攻擊測試為基於邊界攻擊的黑盒測試，先構造干擾性較大的人臉圖像作為對抗樣本並輸入人臉識別模型，透過人臉識別模型輸出的結果，在保證對抗性的前提下不斷地降低對抗樣本的干擾性，最終得到干擾性較小的若干對抗樣本。本實施例中，對抗樣本的干擾可以是在人臉圖像上的增加雜訊、調整特定像素點的像素值等。步驟303，基於所述對抗樣本確定人臉識別模型的對抗樣本空間，所述對抗樣本空間為凸包絡。確定若干對抗樣本的空間坐標，基於所述空間坐標以K-Means算法進行聚類，得到若干對抗樣本簇。基於Graham算法為每個對抗樣本簇生成對應的凸包絡，將生成的若干所述凸包絡作為人臉識別模型的對抗樣本空間。圖4是本說明書一示例性實施例示出的另一種對抗攻擊監測的方法的流程示意圖。步驟401，部署人臉識別模型。步驟402，獲取所述人臉識別模型的對抗樣本空間。步驟403，採集調用所述人臉識別模型的輸入圖像。本實施例中，實時採集人臉識別模型的輸入圖像。步驟404，判斷所述輸入圖像是否落入所述對抗樣本空間。本實施例中，計算所述輸入圖像的坐標，基於預設的擬合函數，判斷所述坐標是否落入任意一個凸包絡。步驟405，根據判斷結果計算監測週期內落入到所述對抗樣本空間的輸入圖像的比例。本實施例中，在預設的監測週期內，實時採集人臉識別模型的輸入圖像，每採集一張輸入圖像，則執行步驟404，若判斷結果為輸入圖像落入對抗樣本空間，則將可疑輸入圖像的計數+1，若判斷結果為輸入圖像未落入對抗樣本空間，則可將安全輸入圖像的計數+1。步驟406，若所述比例達到比例閾值，確定監測到面向所述人臉識別模型的對抗攻擊。本實施例中，比例閾值可根據人臉識別模型的歷史輸入資料得到，例如，統計得到：人臉識別模型在過去30天內，平均每小時輸入圖像落入凸包絡的比例為0.05。則將比例閾值確定為0.05，其中監測週期為1小時。在監測週期內，可以實時判斷輸入圖像落入凸包絡的比例是否大於比例閾值0.05。例如，可將步驟405中監測到的可疑輸入圖像的數量，除以可疑輸入圖像和安全輸入圖像的數量之和，判斷得到的可疑輸入圖像的比例是否大於0.05，若大於0.05，則確認監測到對抗攻擊。步驟407，發送告警資訊。在監測到對抗攻擊後，可以發送告警資訊。在本實施例中，告警資訊可以包括當前監測週期、落入到凸包絡的輸入圖像的比例、人臉識別模型調用方的標識等。下表示例性的示出了告警資訊的一種示例：

上表示出了在當前監測週期內，疑似對抗攻擊的輸入圖像比例、調用次數較多的調用方標識及相應的調用次數，全面地反映了人臉識別模型的在當前監測週期內的攻擊狀況。以上表告警資訊為例，當前監測週期內用戶A輸入的可疑輸入圖像最多，為預防對抗攻擊，後續可攔截用戶A的調用請求，例如，攔截用戶A在預設時間段內的調用請求。由以上描述可以看出，可採用說明書提供的對抗攻擊監測方法監測人臉識別模型的對抗攻擊，在確認監測到面向人臉識別模型的對抗攻擊時，可及時採取攔截調用等防禦策略，從而有效降低私有資料洩露、資金損失等安全風險。與前述對抗攻擊的監測方法的實施例相對應，本說明書還提供了對抗攻擊的檢測的裝置的實施例。本說明書對抗攻擊的檢測的裝置的實施例可以應用在伺服器上。裝置實施例可以透過軟體實現，也可以透過硬體或者軟硬體結合的方式實現。以軟體實現為例，作為一個邏輯意義上的裝置，是透過其所在伺服器的處理器將非揮發性記憶體中對應的計算機程式指令讀取到內存記憶體中運行形成的。從硬體層面而言，如圖5所示，為本說明書對抗攻擊的監測裝置所在伺服器的一種硬體結構圖，除了圖5所示的處理器、內存記憶體、網路介面、以及非揮發性記憶體之外，實施例中裝置所在的電子設備通常根據該伺服器的實際功能，還可以包括其他硬體，對此不再贅述。圖6是本說明書一示例性實施例示出的一種對抗攻擊的監測的裝置的框圖。請參考圖6，所述對抗攻擊的檢測的裝置600可以應用在前述圖5所示的伺服器中，包括有：獲取單元610、採集單元620、判斷單元630、監測單元640。其中，獲取單元610，獲取目標模型的對抗樣本空間；採集單元620，採集調用所述目標模型的輸入資料；判斷單元630，判斷所述輸入資料是否落入所述對抗樣本空間；監測單元640，根據判斷結果計算監測週期內落入到所述對抗樣本空間的輸入資料的監測參數，當所述監測參數滿足預設的攻擊條件時，確定監測到面向所述目標模型的對抗攻擊。可選的，所述判斷單元630：確定所述輸入資料的空間坐標；判斷所述空間坐標是否落入任意凸包絡；若是，則確定所述輸入資料落入所述對抗樣本空間。可選的，所述判斷單元630：確定所述輸入資料的空間坐標；根據所述空間坐標，判斷所述輸入資料與對抗樣本簇的距離是否小於閾值；若是，則確定所述輸入資料落入所述對抗樣本空間。可選的，所述裝置還包括告警單元640，發送告警資訊。上述裝置中各個單元的功能和作用的實現過程具體詳見上述方法中對應步驟的實現過程，在此不再贅述。對於裝置實施例而言，由於其基本對應於方法實施例，所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的，其中所述作為分離部件說明的單元可以是或者也可以不是實體上分開的，作為單元顯示的部件可以是或者也可以不是實體單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本說明書方案的目的。本領域普通技術人員在不付出創造性勞動的情況下，即可以理解並實施。上述實施例闡明的系統、裝置、模組或單元，具體可以由計算機芯片或實體實現，或者由具有某種功能的產品來實現。一種典型的實現設備為計算機，計算機的具體形式可以是個人計算機、膝上型計算機、蜂巢式電話、相機電話、智慧電話、個人數位助理、媒體播放器、導航設備、電子郵件收發設備、遊戲控制台、平板計算機、可穿戴設備或者這些設備中的任意幾種設備的組合。與前述對抗攻擊的監測方法的實施例相對應，本說明書還提供一種對抗攻擊的監測裝置，該裝置包括：處理器以及用於儲存機器可執行指令的記憶體。其中，處理器和記憶體通常借由內部匯流排相互連接。在其他可能的實現方式中，所述設備還可能包括外部介面，以能夠與其他設備或者部件進行通信。在本實施例中，透過讀取並執行所述記憶體儲存的與對抗攻擊的監測邏輯對應的機器可執行指令，所述處理器被促使：獲取目標模型的對抗樣本空間；採集調用所述目標模型的輸入資料；判斷所述輸入資料是否落入所述對抗樣本空間；根據判斷結果計算監測週期內落入到所述對抗樣本空間的輸入資料的監測參數，當所述監測參數滿足預設的攻擊條件時，確定監測到面向所述目標模型的對抗攻擊。可選的，在確定所述目標模型的對抗樣本空間時，所述處理器被促使：對所述目標模型進行攻擊測試，以獲得所述目標模型的至少一個對抗樣本；基於所述對抗樣本，確定所述目標模型的對抗樣本空間。可選的，在進行所述攻擊測試時，所述處理器被促使：進行基於邊界攻擊的黑盒測試；或進行基於邊界攻擊的白盒測試。可選的，在基於所述對抗樣本，確定所述目標模型的對抗樣本空間時，所述處理器被促使：確定每個對抗樣本的空間坐標；基於所述空間坐標對所述對抗樣本進行聚類，得到若干對抗樣本簇；為每個對抗樣本簇生成對應的凸包絡，作為所述對抗樣本空間。可選的，在判斷所述輸入資料是否落入所述對抗樣本空間時，所述處理器被促使：確定所述輸入資料的空間坐標；判斷所述空間坐標是否落入任意凸包絡；若是，則確定所述輸入資料落入所述對抗樣本空間。可選的，在判斷所述輸入資料是否落入所述對抗樣本空間，所述處理器被促使：確定所述輸入資料的空間坐標；根據所述空間坐標，判斷所述輸入資料與任意對抗樣本簇的距離是否小於距離閾值；若是，則確定所述輸入資料落入所述對抗樣本空間。可選的，在確定監測到面向所述目標模型的對抗攻擊後，所述處理器還被促使：發送告警資訊。與前述對抗攻擊的監測方法的實施例相對應，本說明書還提供一種計算機可讀儲存媒體，所述計算機可讀儲存媒體上儲存有計算機程式，該程式被處理器執行時實現以下步驟：獲取目標模型的對抗樣本空間；採集調用所述目標模型的輸入資料；判斷所述輸入資料是否落入所述對抗樣本空間；根據判斷結果計算監測週期內落入到所述對抗樣本空間的輸入資料的監測參數，當所述監測參數滿足預設的攻擊條件時，確定監測到面向所述目標模型的對抗攻擊。可選的，所述目標模型的對抗樣本空間的確定方式，包括：對所述目標模型進行攻擊測試，以獲得所述目標模型的至少一個對抗樣本；基於所述對抗樣本，確定所述目標模型的對抗樣本空間。可選的，所述攻擊測試，包括：基於邊界攻擊的黑盒測試；或基於邊界攻擊的白盒測試。可選的，所述基於所述對抗樣本，確定所述目標模型的對抗樣本空間，包括：確定每個對抗樣本的空間坐標；基於所述空間坐標對所述對抗樣本進行聚類，得到若干對抗樣本簇；為每個對抗樣本簇生成對應的凸包絡，作為所述對抗樣本空間。可選的，所述判斷所述輸入資料是否落入所述對抗樣本空間，包括：確定所述輸入資料的空間坐標；判斷所述空間坐標是否落入任意凸包絡；若是，則確定所述輸入資料落入所述對抗樣本空間。可選的，所述判斷所述輸入資料是否落入所述對抗樣本空間，包括：確定所述輸入資料的空間坐標；根據所述空間坐標，判斷所述輸入資料與任意對抗樣本簇的距離是否小於距離閾值；若是，則確定所述輸入資料落入所述對抗樣本空間。可選的，所述監測參數為落入所述對抗樣本空間的輸入資料的數量，所述攻擊條件為所述數量達到數量閾值。可選的，所述監測參數為落入所述對抗樣本空間的輸入資料的比例，所述攻擊條件為所述比例達到比例閾值。可選的，所述確定監測到面向所述目標模型的對抗攻擊後，還包括：發送告警資訊。上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下，在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和並行處理也是可以的或者可能是有利的。以上所述僅為本說明書的較佳實施例而已，並不用以限制本說明書，凡在本說明書的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本說明書保護的範圍之內。

600:裝置 610:獲取單元 620:採集單元 630:判斷單元 640:監測單元

[圖1]是本說明書一示例性實施例示出的一種對抗攻擊的監測的方法的流程示意圖。 [圖2]是本說明書一示例性實施例示出的另一種對抗攻擊的監測方法的流程示意圖。 [圖3]是本說明書一示例性實施例示出的一種獲取目標模型對抗樣本空間的方法的流程示意圖。 [圖4]是本說明書一示例性實施例示出的另一種對抗攻擊監測的方法的流程示意圖。 [圖5]是本說明書一示例性實施例示出的一種用於對抗攻擊監測裝置的一結構示意圖。 [圖6]是本說明書一示例性實施例示出的一種對抗攻擊監測裝置的框圖。

Claims

一種對抗攻擊的監測方法，包括：獲取目標模型的對抗樣本空間；採集調用該目標模型的輸入資料；判斷該輸入資料是否落入該對抗樣本空間，該對抗樣本空間基於對抗樣本得到；根據判斷結果計算監測週期內落入到該對抗樣本空間的輸入資料的監測參數，當該監測參數滿足預設的攻擊條件時，確定監測到面向該目標模型的對抗攻擊。
如請求項1所述方法，該目標模型的對抗樣本空間的確定方式，包括：對該目標模型進行攻擊測試，以獲得該目標模型的至少一個對抗樣本；基於該對抗樣本，確定該目標模型的對抗樣本空間。
如請求項2所述方法，該攻擊測試，包括：基於邊界攻擊的黑盒測試；或基於邊界攻擊的白盒測試。
如請求項2所述方法，所述基於該對抗樣本，確定該目標模型的對抗樣本空間，包括：確定每個對抗樣本的空間坐標；基於該空間坐標對該對抗樣本進行聚類，得到若干對抗樣本簇；為每個對抗樣本簇生成對應的凸包絡，作為該對抗樣本空間。
如請求項4所述方法，所述判斷該輸入資料是否落入該對抗樣本空間，包括：確定該輸入資料的空間坐標；判斷該空間坐標是否落入任意凸包絡；若是，則確定該輸入資料落入該對抗樣本空間。
如請求項4所述方法，所述判斷該輸入資料是否落入該對抗樣本空間，包括：確定該輸入資料的空間坐標；根據該空間坐標，判斷該輸入資料與任意對抗樣本簇的距離是否小於距離閾值；若是，則確定該輸入資料落入該對抗樣本空間。
如請求項1所述方法，該監測參數為落入該對抗樣本空間的輸入資料的數量，該攻擊條件為該數量達到數量閾值。
如請求項1所述方法，該監測參數為落入該對抗樣本空間的輸入資料的比例，該攻擊條件為該比例達到比例閾值。
如請求項1所述方法，該確定監測到面向該目標模型的對抗攻擊後，該方法還包括：發送告警資訊。
一種對抗攻擊的監測裝置，包括：獲取單元，獲取目標模型的對抗樣本空間；採集單元，採集調用該目標模型的輸入資料；判斷單元，判斷該輸入資料是否落入該對抗樣本空間，該對抗樣本空間基於對抗樣本得到；監測單元，根據判斷結果計算監測週期內落入到該對抗樣本空間的輸入資料的監測參數，當該監測參數滿足預設的攻擊條件時，確定監測到面向該目標模型的對抗攻擊。
如請求項10所述裝置，該目標模型的對抗樣本空間的確定方式，包括：對該目標模型進行攻擊測試，以獲得該目標模型的至少一個對抗樣本；基於該對抗樣本，確定該目標模型的對抗樣本空間。
如請求項11所述裝置，該攻擊測試，包括：基於邊界攻擊的黑盒測試；或基於邊界攻擊的白盒測試。
如請求項11所述裝置，所述基於該對抗樣本，確定該目標模型的對抗樣本空間，包括：確定每個對抗樣本的空間坐標；基於該空間坐標對該對抗樣本進行聚類，得到若干對抗樣本簇；為每個對抗樣本簇生成對應的凸包絡，作為該對抗樣本空間。
如請求項13所述裝置，該判斷單元：確定該輸入資料的空間坐標；判斷該空間坐標是否落入任意凸包絡；若是，則確定該輸入資料落入該對抗樣本空間。
如請求項13所述裝置，該判斷單元：確定該輸入資料的空間坐標；根據該空間坐標，判斷該輸入資料與對抗樣本簇的距離是否小於距離閾值；若是，則確定該輸入資料落入該對抗樣本空間。
如請求項10所述裝置，該監測參數為落入該對抗樣本空間的輸入資料的數量，該攻擊條件為該數量達到數量閾值。
如請求項10所述裝置，該監測參數為落入該對抗樣本空間的輸入資料的比例，該攻擊條件為該比例達到比例閾值。
如請求項10所述裝置，還包括：告警單元，發送告警資訊。
一種對抗攻擊的監測裝置，包括：處理器；用於儲存機器可執行指令的記憶體；其中，透過讀取並執行該記憶體儲存的與對抗攻擊的監測邏輯對應的機器可執行指令，該處理器被促使：獲取目標模型的對抗樣本空間，該對抗樣本空間基於對抗樣本得到；採集調用該目標模型的輸入資料；判斷該輸入資料是否落入該對抗樣本空間；根據判斷結果計算監測週期內落入到該對抗樣本空間的輸入資料的監測參數，當該監測參數滿足預設的攻擊條件時，確定監測到面向該目標模型的對抗攻擊。