TW202123079A - 模型盜用的檢測、模型的訓練方法及裝置 - Google Patents
模型盜用的檢測、模型的訓練方法及裝置 Download PDFInfo
- Publication number
- TW202123079A TW202123079A TW109115873A TW109115873A TW202123079A TW 202123079 A TW202123079 A TW 202123079A TW 109115873 A TW109115873 A TW 109115873A TW 109115873 A TW109115873 A TW 109115873A TW 202123079 A TW202123079 A TW 202123079A
- Authority
- TW
- Taiwan
- Prior art keywords
- sample
- classification model
- classification
- adversarial
- confrontation
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Burglar Alarm Systems (AREA)
Abstract
說明書揭露一種模型盜用的檢測、模型的訓練方法和裝置。一種模型盜用的檢測方法,包括:獲取目標分類模型的若干對抗樣本,所述對抗樣本來自所述目標分類模型樣本集的第一真子集,所述對抗樣本基於所述目標分類模型樣本集的第二真子集中的樣本生成;將各對抗樣本輸入待檢測分類模型,得到對應的分類結果;對匹配所述對抗樣本分類標籤的分類結果進行統計;判斷統計結果是否符合盜用條件,若是,則確定所述待檢測分類模型盜用所述目標分類模型。上述方案可使用對抗樣本檢測是否有其他模型盜用所述目標分類模型,從而實現目標分類模型私有資料的盜用檢測。
Description
本發明相關於人工智慧領域,特別相關於一種模型盜用的檢測、模型的訓練方法和裝置。
隨著人工智慧的不斷發展,機器學習模型的性能越來越好。訓練一個性能表現優異的機器學習模型需要大量的樣本、計算資源等,這使得模型本身成為一種重要的資產。與此同時,許多攻擊者為了自身的利益,會通過各種手段盜取線上部署的模型,例如,盜取模型的參數、樣本等資料,這對模型的安全造成了巨大的威脅。
有鑑於此,本說明書提供一種模型盜用的檢測、模型的訓練方法和裝置。
具體地,本說明書是通過如下技術方案實現的:
一種模型盜用的檢測方法,包括:
獲取目標分類模型的若干對抗樣本,所述對抗樣本來自所述目標分類模型樣本集的第一真子集,所述對抗樣本基於所述目標分類模型樣本集的第二真子集中的樣本生成;
將各對抗樣本輸入待檢測分類模型,得到對應的分類結果;
對匹配所述對抗樣本分類標籤的分類結果進行統計;
判斷統計結果是否符合盜用條件,若是,則確定所述待檢測分類模型盜用所述目標分類模型。
一種模型的訓練方法,包括:
獲取原始分類模型的若干樣本;
分別為各樣本生成對應的對抗樣本,得到若干對抗樣本;
為各對抗樣本添加分類標籤,所述分類標籤匹配所述原始分類模型的分類結果;
採用所述樣本與所述對抗樣本對所述原始分類模型進行重新訓練,得到目標分類模型;
其中,所述對抗樣本用於對待檢測分類模型進行檢測,針對所述對抗樣本,採用所述待檢測分類模型預測分類結果,統計匹配對應分類標籤的分類結果,當統計結果符合盜用條件時,確定所述待檢測分類模型盜用所述目標分類模型。
一種模型盜用的檢測裝置,包括:
獲取對抗樣本單元,獲取目標分類模型的若干對抗樣本,所述對抗樣本來自所述目標分類模型樣本集的第一真子集,所述對抗樣本基於所述目標分類模型樣本集的第二真子集中的樣本生成;
輸入單元,將各對抗樣本輸入待檢測分類模型,得到對應的分類結果;
統計單元,對匹配所述對抗樣本分類標籤的分類結果進行統計;
判斷單元,判斷統計結果是否符合盜用條件,若是,則確定所述待檢測分類模型盜用所述目標分類模型。
一種模型的訓練裝置,包括:
獲取樣本單元,獲取原始分類模型的若干樣本;
生成單元,分別為各樣本生成對應的對抗樣本,得到若干對抗樣本;
添加單元,為各對抗樣本添加分類標籤,所述分類標籤匹配所述原始分類模型的分類結果;
訓練單元,採用所述樣本與所述對抗樣本對所述原始分類模型進行重新訓練,得到目標分類模型;
其中,所述對抗樣本用於對待檢測分類模型進行檢測,針對所述對抗樣本,採用所述待檢測分類模型預測分類結果,統計匹配對應分類標籤的分類結果,當統計結果符合盜用條件時,確定所述待檢測分類模型盜用所述目標分類模型。
一種模型盜用的檢測裝置,包括:
處理器;
用於儲存機器可執行指令的記憶體;
其中,通過讀取並執行所述記憶體儲存的與模型盜用的檢測邏輯對應的機器可執行指令,所述處理器被促使:
獲取目標分類模型的若干對抗樣本,所述對抗樣本來自所述目標分類模型樣本集的第一真子集,所述對抗樣本基於所述目標分類模型樣本集的第二真子集中的樣本生成;
將各對抗樣本輸入待檢測分類模型,得到對應的分類結果;
對匹配所述對抗樣本分類標籤的分類結果進行統計;
判斷統計結果是否符合盜用條件,若是,則確定所述待檢測分類模型盜用所述目標分類模型。
一種模型的訓練裝置,包括:
處理器;
用於儲存機器可執行指令的記憶體;
其中,通過讀取並執行所述記憶體儲存的與模型的訓練邏輯對應的機器可執行指令,所述處理器被促使:
獲取原始分類模型的若干樣本;
分別為各樣本生成對應的對抗樣本,得到若干對抗樣本;
為各對抗樣本添加分類標籤,所述分類標籤匹配所述原始分類模型的分類結果;
採用所述樣本與所述對抗樣本對所述原始分類模型進行重新訓練,得到目標分類模型;
其中,所述對抗樣本用於對待檢測分類模型進行檢測,針對所述對抗樣本,採用所述待檢測分類模型預測分類結果,統計匹配對應分類標籤的分類結果,當統計結果符合盜用條件時,確定所述待檢測分類模型盜用所述目標分類模型。
本說明書一個實施例實現了,可以將目標分類模型的若干對抗樣本輸入待檢測分類模型,得到各對抗樣本對應的分類結果,統計匹配所述對抗樣本分類標籤的分類結果,若統計結果符合盜用條件,則確定所述待檢測分類模型盜用所述目標分類模型。本實施例所述方法可以檢測待檢測分類模型是否盜用了目標分類模型,從而實現目標分類模型私有資料的盜用檢測。
這裡將詳細地對示例性實施例進行說明,其示例表示在圖式中。下面的描述涉及圖式時,除非另有表示,不同圖式中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本說明書相一致的所有實施方式。相反,它們僅是與如所附申請專利範圍中所詳述的、本說明書的一些方面相一致的裝置和方法的例子。
在本說明書使用的術語是僅僅出於描述特定實施例的目的,而非旨在限制本說明書。在本說明書和所附申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也旨在包括多數形式,除非上下文清楚地表示其他含義。還應當理解,本文中使用的術語“和/或”是指並包含一個或多個相關聯的列出專案的任何或所有可能組合。
應當理解,儘管在本說明書可能採用術語第一、第二、第三等來描述各種資訊,但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如,在不脫離本說明書範圍的情況下,第一資訊也可以被稱為第二資訊,類似地,第二資訊也可以被稱為第一資訊。取決於語境,如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“回應於確定”。
隨著技術的發展,人工智慧在許多具有挑戰性的任務上有了巨大的突破,使得機器學習模型的性能越來越好。訓練一個性能表現優異的機器學習模型需要大量的結構化、帶標注的資料,以及龐大的計算資源等。這使得機器學習模型本身成為一種重要的資產。
與此同時,許多攻擊者為了自身的利益會通過各種手段盜取線上部署的模型,例如,通過滲透線上系統直接盜取模型的參數、樣本等資料,進而攻擊者可以在本地重構一個功能類似的模型,導致線上部署的模型的隱私被竊取,對模型的安全造成了巨大的威脅。
本說明書提供了一種模型盜用的檢測方法和裝置。
本說明書中,可利用目標分類模型的對抗樣本檢測待檢測分類模型,以判斷所述待檢測分類模型是否盜用所述目標模型。
所述對抗樣本來自所述目標分類模型樣本集的第一真子集,所述對抗樣本基於所述目標分類模型樣本集的第二真子集中的樣本生成。
在進行模型盜用的檢測時,可將各對抗樣本輸入待檢測的分類模型,得到對應的分類結果,然後對匹配所述對抗樣本分類標籤的分類結果進行統計,若統計結果符合盜用條件,則可確定所述待檢測分類模型盜用所述目標分類模型,從而實現對模型盜用的檢測。
為了更好地闡述本說明書的方案,下面分別從模型的訓練、模型盜用的檢測兩個方面進行說明。
一、模型的訓練
圖1是本說明書一示例性實施例示出的一種模型的訓練方法的流程示意圖。
所述模型的訓練方法可以應用於具有處理器、記憶體的電子設備中,例如伺服器或伺服器集群等,本說明書對此不作特殊限制。
請參考圖1,所述模型的訓練方法可以包括以下步驟:
步驟102,獲取原始分類模型的若干樣本。
本說明書中,所述原始分類模型為通過樣本進行訓練後得到的具備分類功能的模型,所述樣本可以為帶標籤的結構化資料,例如:結構化人臉資料集、影像識別資料集、情感識別語料庫等,本說明書對此不作特殊限制。
本說明書中,所述原始分類模型可以為神經網路模型,所述神經網路結構可以為Fast-RCNN、InceptionV3、ResNet、DensenNet等,本說明書對此不作特殊限制。
在一個例子中,可以獲取所述原始分類模型的所有樣本,所述樣本可以包括所述原始分類模型的訓練集樣本、測試集樣本。
在另一個例子中,可以獲取所述原始分類模型的部分樣本,所述部分樣本占所有樣本的比例可以為比例臨界值,所述比例臨界值可以人為預設。例如,可以獲取所述原始分類模型80%的樣本。
步驟104,分別為各樣本生成對應的對抗樣本,得到若干對抗樣本。
本說明書中,在生成對抗樣本前,可預先設置對抗樣本的分類標籤,所述分類標籤匹配所述原始分類模型的分類結果。
例如,可隨機將所述原始分類模型的某一分類結果設置為所述對抗樣本的分類標籤。
在一個例子中,可設置一個分類標籤,即所有對抗樣本的分類標籤相同。
在另一個例子中,當原始分類模型為多分類模型時,也可以設置多個分類標籤,即所有對抗樣本的分類標籤不完全相同,本說明書對此不作特殊限制。
本說明書中,後續以預先設置一個分類標籤為例進行描述。
本說明書中,在生成對抗樣本前,可以先確定原始分類模型的對抗物件,然後將所述對抗物件輸入所述原始分類模型,得到分類結果。判斷所述分類結果是否匹配分類標籤,若所述分類結果匹配所述分類標籤,則將所述對抗物件添加到所述原始分類模型的樣本中,得到所述樣本對應的對抗樣本。
若所述分類結果不匹配所述分類標籤,則對所述對抗物件進行調整,然後再判斷調整後的對抗物件輸入原始分類模型後得到的分類結果是否匹配所述分類標籤。
下面以影像分類模型和文本分類模型為例,對所述對抗樣本的生成方式進行詳細說明:
在一個例子中,所述原始分類模型為影像分類模型,則生成對抗樣本的過程可以為:
1.確定影像分類模型的基礎對抗影像。
本例中,所述基礎對抗影像可以為與所述影像分類模型樣本的尺寸、解析度一致的影像。
例如,所述基礎對抗影像可以為與影像分類模型樣本的尺寸、解析度一致,且所有像素點的像素值都為0的影像,即所述基礎對抗影像為一張黑色影像。當然,所述對抗影像也可以為其它顏色的影像,本說明書對此不作特殊限制。
請參考圖2,圖2為本說明書一示例性實施例示出的一種對抗樣本的生成過程的示意圖。本例中的原始影像分類模型中的一個樣本可如圖2(a)所示,本例中的基礎對抗影像為像素值均為0的黑色影像(未圖示),所述基礎對抗影像的尺寸、解析度與所述樣本均相同。
2.調整所述基礎對抗影像在指定區域的像素值,將調整後得到的對抗影像作為所述對抗物件。
本例中,所述指定區域可以位於所述基礎對抗影像的邊緣,例如,所述指定區域中各個像素點距離所述基礎對抗影像四條邊的最小距離均小於預定距離。
所述指定區域的面積可以為所述基礎對抗影像面積的預設比例,所述預設比例可以為10%-20%等。
請繼續參考圖2,假設圖2(a)所示樣本大小為15*15像素,則所述樣本共有225個像素點。若所述預設比例為10.7%,則所述指定區域具有225*10.7≈24個像素點。在本例中,所述指定區域的大小可以為4*6個像素點,所述區域可以在所述對抗影像的右下角,如圖2(b)所示。
假設所述預定距離為10個像素點,則在本例中,所述指定區域的左邊緣距離對抗影像的右邊緣7個像素點(未圖示),所述指定區域上邊緣距離對抗影像的下邊緣7個像素點(未圖示),均小於所述預定的距離。在實際應用中,所述指定區域也可以為所述對抗影像上分散的若干個區域,每個區域中包含若干個像素點,本說明書對此不作特殊限制。
本例中,將指定區域設置在所述基礎對抗影像的邊緣,對後續生成的對抗樣本的干擾性較小,可降低對模型性能的影響。
3.將調整後的對抗影像輸入所述影像分類模型得到分類結果,判斷所述分類結果是否匹配預設的分類標籤,若匹配,則將調整後的對抗影像分別添加至所述影像分類模型各樣本中,得到若干對抗樣本。
本例中,可以先隨機調整所述指定像素點的像素值,再將調整後的對抗影像輸入所述影像分類模型,得到影像分類模型輸出的分類結果。判斷所述分類結果是否匹配預設的分類標籤。
若匹配,則可將調整後的對抗影像作為對抗物件。
若不匹配,則繼續調整所述指定像素點的像素值,直到調整後的對抗影像輸入所述影像分類模型後得到的分類結果匹配所述預設的分類標籤。
本例中,在得到對抗物件後,可將對抗物件添加至所述影像分類模型的各樣本中,得到對應的對抗樣本,即將調整後的得到的對抗影像添加至所述影像分類模型各樣本中。
例如,可將調整後得到的對抗影像的各個像素點的像素值與所述影像分類模型樣本的各個像素點的像素值對應相加,以得到所述對抗樣本。
請繼續參考圖2,假設調整後得到的對抗影像:圖2(b)在指定區域某個像素點的像素值為100。圖2(a)所示樣本的對應該像素點的像素值為120。則將調整後得到的對抗影像的各個像素點的像素值與所述樣本各個像素點的像素值對應相加,得到的對抗樣本在該像素點的像素值為100+120=220,其它像素點類似,添加之後可得到圖2(c)所示的一種示例。
再例如,還可以將調整後的對抗影像在指定區域像素點的顏色設為透明,然後將調整後的對抗影像的各個像素點的像素值與所述樣本的各個像素點的像素值對應相加。
在實際應用中,還可以採取其它方式將調整後得到的對抗影像添加至原始分類模型的樣本中,本說明書對此不作特殊限制。
在另一個例子中,所述原始分類模型為文本分類模型,則生成對抗樣本的過程可以為:
1.確定所述文本分類模型的基礎對抗詞。
本例中,所述基礎對抗詞通常為各個樣本中都具有的詞。
2.調整所述基礎對抗詞中的指定字元。
本例中,調整所述指定字元可以為:將指定字元替換為形近字。
例如,基礎對抗詞為“好評”,指定字元為“評”。則可以將“評”替換為形近字“坪”,調整後得到對抗詞“好坪”。
在實際應用中,也可以將所述指定文字替換為其它類型的文字,例如同音字等,本說明書對此不作特殊限制。
3.將調整後得到的對抗詞輸入所述原始分類模型,得到分類結果;判斷所述分類結果是否匹配所述分類標籤,若匹配,則利用調整後的對抗詞替換所述原始分類模型各樣本中對應的基礎對抗詞,得到若干對抗樣本。
本例中,將調整後得到的對抗詞輸入所述文本分類模型,得到所述文本分類模型基於所述對抗詞輸出的分類結果。判斷所述分類結果是否匹配預設的分類標籤。
若匹配,則可將調整後的對抗詞作為對抗物件。
若不匹配,則繼續調整所述指定字元,直到調整後得到的對抗詞輸入所述文字分類模型後得到的分類結果匹配所述預設的分類標籤。
本例中,利用調整後的對抗詞替換所述文本分類模型各樣本中對應的基礎對抗詞,得到所述樣本對應的對抗樣本。
例如,文本分類模型的一樣本為“這部電影真好看,好評!”,對抗物件為調整後的對抗詞“好坪”。則可用“好坪”替換至上述樣本中的“好評”,得到對抗樣本:“這部電影真好看,好坪!”
在其它例子中,還可以通過其它方式生成對抗樣本,本說明書對此不作特殊限制。
步驟106,為各對抗樣本添加分類標籤,所述分類標籤匹配所述原始分類模型的分類結果。
本說明書中,可以為各對抗樣本添加將前述步驟104中預先設置的分類標籤。
值得注意的是,若在前述步驟104中設置多個分類標籤,則在本步驟中,需將對抗樣本的分類標籤設置為其對抗物件的分類結果,即對抗樣本的分類標籤匹配其對抗物件的分類結果。
例如,若某對抗物件的分類結果為A,則將其添加到原始分類模型的某個樣本中之後,得到的對抗樣本的分類標籤為A;若某對抗物件的分類結果為B,則將其添加到原始分類模型的某個樣本中之後,得到的對抗樣本的分類標籤為B。
步驟108,採用所述樣本與所述對抗樣本對所述原始分類模型進行重新訓練,得到目標分類模型。
本說明書中,可以利用原始分類模型的樣本和前述步驟106中得到的對抗樣本對所述原始分類模型進行重新訓練,得到目標分類模型。
例如,可採用所述樣本和所述對抗樣本對訓練前原始分類模型進行訓練,得到目標分類模型。
再例如,還可採用所述樣本和所述對抗樣本對所述原始分類模型進行訓練,得到目標分類模型,本說明書對此不作特殊限制。
本說明書中,所述目標分類模型的樣本集具有兩個真子集,分別為第一真子集、第二真子集。第一真子集為所述對抗樣本,第二真子集為所述樣本。
其中,所述對抗樣本可以用於對待檢測分類模型進行檢測:可以將若干對抗樣本輸入待檢測分類模型,得到各對抗樣本對應的分類結果,統計匹配對應分類標籤的分類結果,當統計結果符合盜用條件時,確定所述待檢測分類模型盜用所述目標分類模型。
由以上描述可以看出,在本說明書的一個實施例中,可以利用原始分類模型的若干樣本生成對應的對抗樣本,並為所述對抗樣本添加分類標籤,採用所述對抗樣本和所述樣本重新訓練原始分類模型,以得到目標分類模型,後續可使用所述對抗樣本檢測是否有其他模型盜用所述目標分類模型,從而實現目標分類模型私有資料的盜用檢測。
二、模型盜用的檢測
圖3是本說明書一示例性實施例示出的一種模型盜用的檢測方法的流程示意圖。
所述模型盜用的檢測方法可以應用於具有處理器、記憶體的電子設備中,例如伺服器或伺服器集群等,本說明書對此不作特殊限制。
請參考圖3,所述模型盜用的檢測方法可以包括以下步驟:
步驟302,獲取目標分類模型的若干對抗樣本,所述若干對抗樣本來自所述目標分類模型樣本集的第一真子集,基於所述目標分類模型樣本集的第二真子集中的樣本生成。
本說明書中,所述目標分類模型為前述圖1所示實施例中訓練得到的目標分類模型。所述目標分類模型由對抗樣本和原始分類的模型的樣本聯合訓練,所述對抗樣本構成為所述目標分類模型樣本集的一個真子集(第一真子集),所述原始分類模型的樣本構成所述目標分類模型樣本集的另一個真子集(第二真子集),這兩個真子集無交集。
本例中,可以獲取所述目標分類模型的所有對抗樣本,也可以獲取所述目標分類模型的部分對抗樣本,本說明書對此不作特殊限制。
步驟304,將各對抗樣本輸入待檢測分類模型,得到對應的分類結果。
本例中,所述待檢測分類模型與所述原始分類模型的功能往往相同,可輸出的分類結果往往也相同。
假設,待檢測分類模型可輸出三種分類結果,分別為A、B和C。所述對抗樣本的分類標籤均為A,對抗樣本的數量是5。
請參考表1的示例,表1示出了所述待檢測分類模型對抗樣本1-對抗樣本5的分類結果。
表1
在其它例子中,仍假設待檢測分類模型可輸出三種分類結果,分別為A、B、C,所述對抗樣本的分類標籤有兩種,分別為A和B。
請參考表2的示例,表2示出了所述待檢測分類模型對抗樣本6-對抗樣本10的分類結果。
表2
步驟306,對匹配所述對抗樣本分類標籤的分類結果進行統計。
步驟308,判斷統計結果是否符合盜用條件,若是,則確定所述待檢測分類模型盜用所述目標分類模型。
在一個例子中,所述統計結果可以為匹配所述對抗樣本分類標籤的分類結果的數量,則盜用條件可以為所述數量達到數量臨界值,所述數量臨界值可以人為預設,也可以由其它方式確定,本說明書對此不作特殊限制。
仍以步驟304中表1所示分類結果進行說明,若所述數量臨界值為3。統計得到:匹配所述對抗樣本分類標籤的分類結果的數量為4,大於所述數量臨界值3,則所述統計結果符合盜用條件,確定所述待檢測分類模型盜用所述目標分類模型。
在另一個例子中,所述統計結果可以為匹配所述對抗樣本分類標籤的分類結果的比例,則盜用條件可以為所述比例達到比例臨界值,所述比例臨界值可以人為預設,也可以由其它方式確定,本說明書對此不作特殊限制。
仍以步驟304中表1所示分類結果進行說明,若所述比例臨界值為70%。統計得到:匹配所述對抗樣本分類標籤的分類結果的比例為:4/5=80%,大於所述比例臨界值70%,則所述統計結果符合盜用條件,確定所述待檢測分類模型盜用所述目標分類模型。
在其它例子中,所述統計結果和盜用條件還可以為其它形式,本說明書對此不作特殊限制。
由以上描述可以看出,在本說明書的一個實施例中,可以將目標分類模型的若干對抗樣本輸入待檢測分類模型,得到各對抗樣本對應的分類結果,統計匹配所述對抗樣本分類標籤的分類結果,若統計結果符合盜用條件,則確定所述待檢測分類模型盜用所述目標分類模型。本實施例所述方法可以檢測待檢測分類模型是否盜用了目標分類模型,對盜用的模型進行追蹤,能在一定程度上保護目標分類模型的安全,防止目標分類模型的隱私洩露。
下面結合另一個實施例,對本說明書模型盜用的檢測方法進行說明。
請參考圖4,圖4是本說明書一示例性實施例示出的另一種模型盜用的檢測方法流程示意圖。
所述模型盜用的檢測方法可以包括以下步驟:
步驟402,獲取目標分類模型的若干對抗樣本,所述若干對抗樣本來自所述目標分類模型樣本集的第一真子集,基於所述目標分類模型樣本集的第二真子集中的樣本生成。
步驟404,將各對抗樣本輸入待檢測分類模型,得到對應的分類結果;
步驟406,對匹配所述對抗樣本分類標籤的分類結果進行統計。
步驟408,判斷統計結果是否符合盜用條件,若是,則確定所述待檢測分類模型盜用所述目標分類模型。
上述步驟參見步驟302-308,在此不再贅述。
步驟410,發送警告資訊。
本實施例中,確定所述待檢測分類模型盜用所述目標分類模型後,還可以發送警告資訊。
在一個例子中,所述警告資訊可以包含步驟408中的統計結果及盜用條件。例如,所述警告資訊可以為:“匹配分類標籤的分類結果的數量為5,大於數量臨界值4,存在盜取行為。”
在其它例子中,所述警告資訊還可以包含其它內容,本說明書對此不作特殊限制。
由以上描述可以看出,在本說明書的一個實施例中,利用所述目標分類模型的對抗樣本檢測待檢測模型,根據待檢測模型輸出的分類結果,判斷待檢測分類模型是否盜用了目標分類模型。當確定所述待檢測模型盜用所述目標分類模型後,還可以發送警告資訊。所述警告資訊還可以示出對抗樣本的分類結果、盜取條件等詳細資訊,以便對盜用情況進行分析。
與前述模型盜用的檢測方法和模型的訓練方法的實施例相對應,本說明書還提供了模型盜用的檢測裝置和模型的訓練裝置的實施例。
本說明書模型盜用的檢測裝置和模型的訓練裝置的實施例均可以應用在伺服器上。裝置實施例可以通過軟體實現,也可以通過硬體或者軟硬體結合的方式實現。以軟體實現為例,作為一個邏輯意義上的裝置,是通過其所在伺服器的處理器將非揮發性記憶體中對應的電腦程式指令讀取到內部記憶體中運行形成的。從硬體層面而言,如圖5所示,為本說明書模型盜用的檢測裝置所在伺服器的一種硬體結構圖;如圖6所示,為本說明書模型訓練的裝置所在伺服器的一種硬體結構圖。除了圖5、圖6所示的處理器、內部記憶體、網路介面、以及非揮發性記憶體之外,實施例中裝置所在的伺服器通常根據該伺服器的實際功能,還可以包括其他硬體,對此不再贅述。
圖7是本說明書一示例性實施例示出的一種模型盜用的檢測裝置的框圖。
請參考圖7,所述模型盜用的檢測裝置700可以應用在前述圖5所示的伺服器中,包括有:獲取對抗樣本單元710、輸入單元720、統計單元730、判斷單元740。
其中,獲取對抗樣本單元710,獲取目標分類模型的若干對抗樣本,所述對抗樣本來自所述目標分類模型樣本集的第一真子集,所述對抗樣本基於所述目標分類模型樣本集的第二真子集中的樣本生成;
輸入單元720,將各對抗樣本輸入待檢測分類模型,得到對應的分類結果;
統計單元730,對匹配所述對抗樣本分類標籤的分類結果進行統計;
判斷單元740,判斷統計結果是否符合盜用條件,若是,則確定所述待檢測分類模型盜用所述目標分類模型。
可選的,所述若干對抗樣本的生成過程,包括:
確定原始分類模型的對抗物件,所述原始分類模型由所述第二真子集中的樣本訓練得到;
將所述對抗物件輸入所述原始分類模型,得到分類結果;
若所述分類結果匹配所述分類標籤,則將所述對抗物件添加到所述第二真子集的樣本中,得到所述樣本對應的對抗樣本。
可選的,所述原始分類模型為影像分類模型,所述確定原始分類模型的對抗物件,包括:
獲取所述影像分類模型的基礎對抗影像;
調整所述基礎對抗影像在指定區域的像素值,將調整後得到的對抗影像作為所述對抗物件。
可選的,所述指定區域距離所述基礎對抗影像邊緣的最小距離小於預定距離。
可選的,所述將所述對抗物件添加到所述第二真子集中的樣本中,得到所述樣本對應的對抗樣本,包括:
針對所述第二真子集中的樣本,將所述調整後得到的對抗影像的各個像素點的像素值與所述樣本的各個像素點的像素值對應相加,得到所述樣本對應的對抗樣本。
可選的,所述原始分類模型為文本分類模型,所述確定原始分類模型的對抗物件,包括:
獲取所述文本分類模型的基礎對抗詞;
調整所述基礎對抗詞中的指定字元,將調整後得到的對抗詞作為所述對抗物件。
可選的,所述將所述對抗物件添加到所述第二真子集中的樣本中,得到所述樣本對應的對抗樣本,包括:
針對所述第二真子集中的樣本,將所述樣本中的基礎對抗詞替換為調整後得到的對抗詞,得到所述樣本對應的對抗樣本。
可選的,所述調整所述基礎對抗詞中的指定字元,包括:
將所述基礎對抗詞中的指定字元調整為形近字或同音字。
可選的,所述若干對抗樣本的分類標籤相同,所述分類標籤匹配所述原始分類模型的分類結果。
可選的,所述統計結果為匹配所述對抗樣本分類標籤的分類結果的數量/比例,所述盜用條件為所述統計結果達到對應的臨界值。
可選的,所述裝置還包括:
警告單元750,發送警告資訊。
圖8是本說明書一示例性實施例示出的一種模型的訓練裝置的框圖。
請參考圖8,所述模型盜用的檢測裝置800可以應用在前述圖6所示的伺服器中,包括有:獲取樣本單元810、生成單元820、添加單元830、訓練單元840。
其中,獲取樣本單元810,獲取原始分類模型的若干樣本;
生成單元820,分別為各樣本生成對應的對抗樣本,得到若干對抗樣本;
添加單元830,為各對抗樣本添加分類標籤,所述分類標籤匹配所述原始分類模型的分類結果;
訓練單元840,採用所述樣本與所述對抗樣本對所述原始分類模型進行重新訓練,得到目標分類模型;
其中,所述對抗樣本用於對待檢測分類模型進行檢測,針對所述對抗樣本,採用所述待檢測分類模型預測分類結果,統計匹配對應分類標籤的分類結果,當統計結果符合盜用條件時,確定所述待檢測分類模型盜用所述目標分類模型。
可選的,生成單元820,包括:
確定所述原始分類模型的對抗物件;
將所述對抗物件輸入所述原始分類模型,得到分類結果;
若所述分類結果匹配所述分類標籤,則將所述對抗物件添加到所述原始分類模型的樣本中,得到所述樣本對應的對抗樣本。
可選的,所述原始分類模型為影像分類模型,所述確定原始分類模型的對抗物件,包括:
獲取所述影像分類模型的基礎對抗影像;
調整所述基礎對抗影像在指定區域的像素值,將調整後得到的對抗影像作為所述對抗物件。
可選的,所述指定區域距離所述基礎對抗影像邊緣的最小距離小於預定距離。
可選的,所述將所述對抗物件添加到所述原始分類模型的樣本中,得到所述樣本對應的對抗樣本,包括:
針對所述原始分類模型的樣本,將所述調整後得到的對抗影像的各個像素點的像素值與所述樣本的各個像素點的像素值對應相加,得到所述樣本對應的對抗樣本。
可選的,所述原始分類模型為文本分類模型,所述確定原始分類模型的對抗物件,包括:
獲取所述文本分類模型的基礎對抗詞;
調整所述基礎對抗詞中的指定字元,將調整後得到的對抗詞作為所述對抗物件。
可選的,所述將所述對抗物件添加到所述原始分類模型的樣本中,得到所述樣本對應的對抗樣本,包括:
針對所述原始分類模型的樣本,將所述樣本中的基礎對抗詞替換為調整後得到的對抗詞,得到所述樣本對應的對抗樣本。
可選的,所述調整所述基礎對抗詞中的指定字元,包括:
將所述基礎對抗詞中的指定字元調整為形近字或同音字。
可選的,所述添加單元830,包括:
為各對抗樣本添加相同的分類標籤。
上述裝置中各個單元的功能和作用的實現過程具體詳見上述方法中對應步驟的實現過程,在此不再贅述。
對於裝置實施例而言,由於其基本對應於方法實施例,所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離組件說明的單元可以是或者也可以不是實體上分開的,作為單元顯示的組件可以是或者也可以不是實體單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本說明書方案的目的。本領域普通技術人員在不付出創造性勞動的情況下,即可以理解並實施。
上述實施例闡明的系統、裝置、模組或單元,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦,電腦的具體形式可以是個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件收發設備、遊戲主機、平板電腦、可穿戴設備或者這些設備中的任意幾種設備的組合。
與前述模型盜用的檢測方法的實施例相對應,本說明書還提供一種模型盜用的檢測裝置,該裝置包括:處理器以及用於儲存機器可執行指令的記憶體。其中,處理器和記憶體通常借由內部匯流排相互連接。在其他可能的實現方式中,所述設備還可能包括外部介面,以能夠與其他設備或者組件進行通信。
在本實施例中,通過讀取並執行所述記憶體儲存的與模型盜用的檢測邏輯對應的機器可執行指令,所述處理器被促使:
獲取目標分類模型的若干對抗樣本,所述對抗樣本來自所述目標分類模型樣本集的第一真子集,所述對抗樣本基於所述目標分類模型樣本集的第二真子集中的樣本生成;
將各對抗樣本輸入待檢測分類模型,得到對應的分類結果;
對匹配所述對抗樣本分類標籤的分類結果進行統計;
判斷統計結果是否符合盜用條件,若是,則確定所述待檢測分類模型盜用所述目標分類模型。
可選的,在生成所述若干對抗樣本時,所述處理器被促使:
確定原始分類模型的對抗物件,所述原始分類模型由所述第二真子集中的樣本訓練得到;
將所述對抗物件輸入所述原始分類模型,得到分類結果;
若所述分類結果匹配所述分類標籤,則將所述對抗物件添加到所述第二真子集的樣本中,得到所述樣本對應的對抗樣本。
可選的,所述原始分類模型為影像分類模型,在確定原始分類模型的對抗物件時,所述處理器被促使:
獲取所述影像分類模型的基礎對抗影像;
調整所述基礎對抗影像在指定區域的像素值,將調整後得到的對抗影像作為所述對抗物件。
可選的,所述指定區域距離所述基礎對抗影像邊緣的最小距離小於預定距離。
可選的,在將所述對抗物件添加到所述第二真子集中的樣本中,得到所述樣本對應的對抗樣本時,所述處理器被促使:
針對所述第二真子集中的樣本,將所述調整後得到的對抗影像的各個像素點的像素值與所述樣本的各個像素點的像素值對應相加,得到所述樣本對應的對抗樣本。
可選的,所述原始分類模型為文本分類模型,在確定原始分類模型的對抗物件時,所述處理器被促使:
獲取所述文本分類模型的基礎對抗詞;
調整所述基礎對抗詞中的指定字元,將調整後得到的對抗詞作為所述對抗物件。
可選的,在將所述對抗物件添加到所述第二真子集中的樣本中,得到所述樣本對應的對抗樣本時,所處處理器被促使:
針對所述第二真子集中的樣本,將所述樣本中的基礎對抗詞替換為調整後得到的對抗詞,得到所述樣本對應的對抗樣本。
可選的,在調整所述基礎對抗詞中的指定字元,所述處理器被促使:
將所述基礎對抗詞中的指定字元調整為形近字或同音字。
可選的,所述若干對抗樣本的分類標籤相同,所述分類標籤匹配所述原始分類模型的分類結果。
可選的,所述統計結果為匹配所述對抗樣本分類標籤的分類結果的數量/比例,所述盜用條件為所述統計結果達到對應的臨界值。
可選的,所述處理器還被促使:
發送警告資訊。
與前述模型盜用的檢測方法的實施例相對應,本說明書還提供一種電腦可讀儲存媒體,所述電腦可讀儲存媒體上儲存有電腦程式,該程式被處理器執行時實現以下步驟:
獲取目標分類模型的若干對抗樣本,所述對抗樣本來自所述目標分類模型樣本集的第一真子集,所述對抗樣本基於所述目標分類模型樣本集的第二真子集中的樣本生成;
將各對抗樣本輸入待檢測分類模型,得到對應的分類結果;
對匹配所述對抗樣本分類標籤的分類結果進行統計;
判斷統計結果是否符合盜用條件,若是,則確定所述待檢測分類模型盜用所述目標分類模型。
可選的,所述若干對抗樣本的生成過程,包括:
確定原始分類模型的對抗物件,所述原始分類模型由所述第二真子集中的樣本訓練得到;
將所述對抗物件輸入所述原始分類模型,得到分類結果;
若所述分類結果匹配所述分類標籤,則將所述對抗物件添加到所述第二真子集的樣本中,得到所述樣本對應的對抗樣本。
可選的,所述原始分類模型為影像分類模型,所述確定原始分類模型的對抗物件,包括:
獲取所述影像分類模型的基礎對抗影像;
調整所述基礎對抗影像在指定區域的像素值,將調整後得到的對抗影像作為所述對抗物件。
可選的,所述指定區域距離所述基礎對抗影像邊緣的最小距離小於預定距離。
可選的,所述將所述對抗物件添加到所述第二真子集中的樣本中,得到所述樣本對應的對抗樣本,包括:
針對所述第二真子集中的樣本,將所述調整後得到的對抗影像的各個像素點的像素值與所述樣本的各個像素點的像素值對應相加,得到所述樣本對應的對抗樣本。
可選的,所述原始分類模型為文本分類模型,所述確定原始分類模型的對抗物件,包括:
獲取所述文本分類模型的基礎對抗詞;
調整所述基礎對抗詞中的指定字元,將調整後得到的對抗詞作為所述對抗物件。
可選的,所述將所述對抗物件添加到所述第二真子集中的樣本中,得到所述樣本對應的對抗樣本,包括:
針對所述第二真子集中的樣本,將所述樣本中的基礎對抗詞替換為調整後得到的對抗詞,得到所述樣本對應的對抗樣本。
可選的,所述調整所述基礎對抗詞中的指定字元,包括:
將所述基礎對抗詞中的指定字元調整為形近字或同音字。
可選的,所述若干對抗樣本的分類標籤相同,所述分類標籤匹配所述原始分類模型的分類結果。
可選的,所述統計結果為匹配所述對抗樣本分類標籤的分類結果的數量/比例,所述盜用條件為所述統計結果達到對應的臨界值。
可選的,在確定所述待檢測分類模型盜用所述目標分類模型後,所述方法還包括:
發送警告資訊。
與前述模型的訓練方法的實施例相對應,本說明書還提供一種模型的訓練裝置,該裝置包括:處理器以及用於儲存機器可執行指令的記憶體。其中,處理器和記憶體通常借由內部匯流排相互連接。在其他可能的實現方式中,所述設備還可能包括外部介面,以能夠與其他設備或者組件進行通信。
在本實施例中,通過讀取並執行所述記憶體儲存的與模型盜用的檢測邏輯對應的機器可執行指令,所述處理器被促使:
獲取原始分類模型的若干樣本;
分別為各樣本生成對應的對抗樣本,得到若干對抗樣本;
為各對抗樣本添加分類標籤,所述分類標籤匹配所述原始分類模型的分類結果;
採用所述樣本與所述對抗樣本對所述原始分類模型進行重新訓練,得到目標分類模型;
其中,所述對抗樣本用於對待檢測分類模型進行檢測,針對所述對抗樣本,採用所述待檢測分類模型預測分類結果,統計匹配對應分類標籤的分類結果,當統計結果符合盜用條件時,確定所述待檢測分類模型盜用所述目標分類模型。
可選的,在為樣本生成對應的對抗樣本時,所述處理器被促使:
確定所述原始分類模型的對抗物件;
將所述對抗物件輸入所述原始分類模型,得到分類結果;
若所述分類結果匹配所述分類標籤,則將所述對抗物件添加到所述原始分類模型的樣本中,得到所述樣本對應的對抗樣本。
可選的,所述原始分類模型為影像分類模型,在確定原始分類模型的對抗物件時,所述處理器被促使:
獲取所述影像分類模型的基礎對抗影像;
調整所述基礎對抗影像在指定區域的像素值,將調整後得到的對抗影像作為所述對抗物件。
可選的,所述指定區域距離所述基礎對抗影像邊緣的最小距離小於預定距離。
可選的,在將所述對抗物件添加到所述原始分類模型的樣本中,得到所述樣本對應的對抗樣本時,所述處理器被促使:
針對所述原始分類模型的樣本,將所述調整後得到的對抗影像的各個像素點的像素值與所述樣本的各個像素點的像素值對應相加,得到所述樣本對應的對抗樣本。
可選的,所述原始分類模型為文本分類模型,在確定原始分類模型的對抗物件時,所述處理器被促使:
獲取所述文本分類模型的基礎對抗詞;
調整所述基礎對抗詞中的指定字元,將調整後得到的對抗詞作為所述對抗物件。
可選的,在將所述對抗物件添加到所述原始分類模型的樣本中,得到所述樣本對應的對抗樣本時,所述處理器被促使:
針對所述原始分類模型的樣本,將所述樣本中的基礎對抗詞替換為調整後得到的對抗詞,得到所述樣本對應的對抗樣本。
可選的,在調整所述基礎對抗詞中的指定字元時,所述處理器被促使:
將所述基礎對抗詞中的指定字元調整為形近字或同音字。
可選的,在為各對抗樣本添加分類標籤時,所述處理器被促使:
為各對抗樣本添加相同的分類標籤。
與前述模型的訓練方法的實施例相對應,本說明書還提供一種電腦可讀儲存媒體,所述電腦可讀儲存媒體上儲存有電腦程式,該程式被處理器執行時實現以下步驟:
獲取原始分類模型的若干樣本;
分別為各樣本生成對應的對抗樣本,得到若干對抗樣本;
為各對抗樣本添加分類標籤,所述分類標籤匹配所述原始分類模型的分類結果;
採用所述樣本與所述對抗樣本對所述原始分類模型進行重新訓練,得到目標分類模型;
其中,所述對抗樣本用於對待檢測分類模型進行檢測,針對所述對抗樣本,採用所述待檢測分類模型預測分類結果,統計匹配對應分類標籤的分類結果,當統計結果符合盜用條件時,確定所述待檢測分類模型盜用所述目標分類模型。
可選的,所述為樣本生成對應的對抗樣本,包括:
確定所述原始分類模型的對抗物件;
將所述對抗物件輸入所述原始分類模型,得到分類結果;
若所述分類結果匹配所述分類標籤,則將所述對抗物件添加到所述原始分類模型的樣本中,得到所述樣本對應的對抗樣本。
可選的,所述原始分類模型為影像分類模型,所述確定原始分類模型的對抗物件,包括:
獲取所述影像分類模型的基礎對抗影像;
調整所述基礎對抗影像在指定區域的像素值,將調整後得到的對抗影像作為所述對抗物件。
可選的,所述指定區域距離所述基礎對抗影像邊緣的最小距離小於預定距離。
可選的,所述將所述對抗物件添加到所述原始分類模型的樣本中,得到所述樣本對應的對抗樣本,包括:
針對所述原始分類模型的樣本,將所述調整後得到的對抗影像的各個像素點的像素值與所述樣本的各個像素點的像素值對應相加,得到所述樣本對應的對抗樣本。
可選的,所述原始分類模型為文本分類模型,所述確定原始分類模型的對抗物件,包括:
獲取所述文本分類模型的基礎對抗詞;
調整所述基礎對抗詞中的指定字元,將調整後得到的對抗詞作為所述對抗物件。
可選的,所述將所述對抗物件添加到所述原始分類模型的樣本中,得到所述樣本對應的對抗樣本,包括:
針對所述原始分類模型的樣本,將所述樣本中的基礎對抗詞替換為調整後得到的對抗詞,得到所述樣本對應的對抗樣本。
可選的,所述調整所述基礎對抗詞中的指定字元,包括:
將所述基礎對抗詞中的指定字元調整為形近字或同音字。
可選的,所述為各對抗樣本添加分類標籤,包括:
為各對抗樣本添加相同的分類標籤。
上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在圖式中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多工處理和平行處理也是可以的或者可能是有利的。
以上所述僅為本說明書的較佳實施例而已,並不用以限制本說明書,凡在本說明書的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本說明書保護的範圍之內。
對抗樣本/專案 | 分類標籤 | 分類結果 | 是否匹配 |
對抗樣本1 | A | A | 匹配 |
對抗樣本2 | A | B | 不匹配 |
對抗樣本3 | A | A | 匹配 |
對抗樣本4 | A | A | 匹配 |
對抗樣本5 | A | A | 匹配 |
對抗樣本/專案 | 分類標籤 | 分類結果 | 是否匹配 |
對抗樣本6 | A | A | 匹配 |
對抗樣本7 | A | A | 匹配 |
對抗樣本8 | B | C | 不匹配 |
對抗樣本9 | B | B | 匹配 |
對抗樣本10 | A | A | 匹配 |
S102:步驟
S104:步驟
S106:步驟
S108:步驟
S302:步驟
S304:步驟
S306:步驟
S308:步驟
S402:步驟
S404:步驟
S406:步驟
S408:步驟
S410:步驟
700:模型盜用的檢測裝置
710:獲取對抗樣本單元
720:輸入單元
730:統計單元
740:判斷單元
800:模型的訓練裝置
810:獲取樣本單元
820:生成單元
830:添加單元
840:訓練單元
[圖1]是本說明書一示例性實施例示出的一種模型的訓練方法的流程示意圖。
[圖2]是本說明書一示例性實施例示出的一種對抗樣本的生成過程的示意圖。
[圖3]是本說明書一示例性實施例示出的一種模型盜用的檢測方法流程示意圖。
[圖4]是本說明書一示例性實施例示出的另一種模型盜用的檢測方法流程示意圖。
[圖5]是本說明書一示例性實施例示出的一種用於模型盜用的檢測裝置的一結構示意圖。
[圖6]是本說明書一示例性實施例示出的一種用於模型訓練的裝置的一結構示意圖。
[圖7]是本說明書一示例性實施例示出的一種模型盜用的檢測裝置的框圖。
[圖8]是本說明書一示例性實施例示出的一種模型的訓練裝置的框圖。
Claims (34)
- 一種模型盜用的檢測方法,包括: 獲取目標分類模型的若干對抗樣本,所述對抗樣本來自所述目標分類模型樣本集的第一真子集,所述對抗樣本基於所述目標分類模型樣本集的第二真子集中的樣本生成; 將各對抗樣本輸入待檢測分類模型,得到對應的分類結果; 對匹配所述對抗樣本分類標籤的分類結果進行統計; 判斷統計結果是否符合盜用條件,若是,則確定所述待檢測分類模型盜用所述目標分類模型。
- 根據請求項1所述方法,所述若干對抗樣本的生成過程,包括: 確定原始分類模型的對抗物件,所述原始分類模型由所述第二真子集中的樣本訓練得到; 將所述對抗物件輸入所述原始分類模型,得到分類結果; 若所述分類結果匹配所述分類標籤,則將所述對抗物件添加到所述第二真子集的樣本中,得到所述樣本對應的對抗樣本。
- 根據請求項2所述方法,所述原始分類模型為影像分類模型,所述確定原始分類模型的對抗物件,包括: 獲取所述影像分類模型的基礎對抗影像; 調整所述基礎對抗影像在指定區域的像素值,將調整後得到的對抗影像作為所述對抗物件。
- 根據請求項3所述方法,所述指定區域距離所述基礎對抗影像邊緣的最小距離小於預定距離。
- 根據請求項3所述方法,所述將所述對抗物件添加到所述第二真子集中的樣本中,得到所述樣本對應的對抗樣本,包括: 針對所述第二真子集中的樣本,將所述調整後得到的對抗影像的各個像素點的像素值與所述樣本的各個像素點的像素值對應相加,得到所述樣本對應的對抗樣本。
- 根據請求項2所述方法,所述原始分類模型為文本分類模型,所述確定原始分類模型的對抗物件,包括: 獲取所述文本分類模型的基礎對抗詞; 調整所述基礎對抗詞中的指定字元,將調整後得到的對抗詞作為所述對抗物件。
- 根據請求項6所述方法,所述將所述對抗物件添加到所述第二真子集中的樣本中,得到所述樣本對應的對抗樣本,包括: 針對所述第二真子集中的樣本,將所述樣本中的基礎對抗詞替換為調整後得到的對抗詞,得到所述樣本對應的對抗樣本。
- 根據請求項6所述方法,所述調整所述基礎對抗詞中的指定字元,包括: 將所述基礎對抗詞中的指定字元調整為形近字或同音字。
- 根據請求項2所述方法,所述若干對抗樣本的分類標籤相同,所述分類標籤匹配所述原始分類模型的分類結果。
- 根據請求項1所述方法,所述統計結果為匹配所述對抗樣本分類標籤的分類結果的數量/比例,所述盜用條件為所述統計結果達到對應的臨界值。
- 根據請求項1所述方法,在確定所述待檢測分類模型盜用所述目標分類模型後,所述方法還包括: 發送警告資訊。
- 一種模型的訓練方法,包括: 獲取原始分類模型的若干樣本; 分別為各樣本生成對應的對抗樣本,得到若干對抗樣本; 為各對抗樣本添加分類標籤,所述分類標籤匹配所述原始分類模型的分類結果; 採用所述樣本與所述對抗樣本對所述原始分類模型進行重新訓練,得到目標分類模型; 其中,所述對抗樣本用於對待檢測分類模型進行檢測,針對所述對抗樣本,採用所述待檢測分類模型預測分類結果,統計匹配對應分類標籤的分類結果,當統計結果符合盜用條件時,確定所述待檢測分類模型盜用所述目標分類模型。
- 根據請求項12所述方法,所述為樣本生成對應的對抗樣本,包括: 確定所述原始分類模型的對抗物件; 將所述對抗物件輸入所述原始分類模型,得到分類結果; 若所述分類結果匹配所述分類標籤,則將所述對抗物件添加到所述原始分類模型的樣本中,得到所述樣本對應的對抗樣本。
- 根據請求項13所述方法,所述原始分類模型為影像分類模型,所述確定原始分類模型的對抗物件,包括: 獲取所述影像分類模型的基礎對抗影像; 調整所述基礎對抗影像在指定區域的像素值,將調整後得到的對抗影像作為所述對抗物件。
- 根據請求項14所述方法,所述指定區域距離所述基礎對抗影像邊緣的最小距離小於預定距離。
- 根據請求項14所述方法,所述將所述對抗物件添加到所述原始分類模型的樣本中,得到所述樣本對應的對抗樣本,包括: 針對所述原始分類模型的樣本,將所述調整後得到的對抗影像的各個像素點的像素值與所述樣本的各個像素點的像素值對應相加,得到所述樣本對應的對抗樣本。
- 根據請求項13所述方法,所述原始分類模型為文本分類模型,所述確定原始分類模型的對抗物件,包括: 獲取所述文本分類模型的基礎對抗詞; 調整所述基礎對抗詞中的指定字元,將調整後得到的對抗詞作為所述對抗物件。
- 根據請求項17所述方法,所述將所述對抗物件添加到所述原始分類模型的樣本中,得到所述樣本對應的對抗樣本,包括: 針對所述原始分類模型的樣本,將所述樣本中的基礎對抗詞替換為調整後得到的對抗詞,得到所述樣本對應的對抗樣本。
- 根據請求項17所述方法,所述調整所述基礎對抗詞中的指定字元,包括: 將所述基礎對抗詞中的指定字元調整為形近字或同音字。
- 根據請求項12所述方法,所述為各對抗樣本添加分類標籤,包括: 為各對抗樣本添加相同的分類標籤。
- 一種模型盜用的檢測裝置,包括: 獲取對抗樣本單元,獲取目標分類模型的若干對抗樣本,所述對抗樣本來自所述目標分類模型樣本集的第一真子集,所述對抗樣本基於所述目標分類模型樣本集的第二真子集中的樣本生成; 輸入單元,將各對抗樣本輸入待檢測分類模型,得到對應的分類結果; 統計單元,對匹配所述對抗樣本分類標籤的分類結果進行統計; 判斷單元,判斷統計結果是否符合盜用條件,若是,則確定所述待檢測分類模型盜用所述目標分類模型。
- 根據請求項21所述裝置,所述若干對抗樣本的生成過程,包括: 確定原始分類模型的對抗物件,所述原始分類模型由所述第二真子集中的樣本訓練得到; 將所述對抗物件輸入所述原始分類模型,得到分類結果; 若所述分類結果匹配所述分類標籤,則將所述對抗物件添加到所述第二真子集的樣本中,得到所述樣本對應的對抗樣本。
- 根據請求項22所述裝置,所述原始分類模型為影像分類模型,所述確定原始分類模型的對抗物件,包括: 獲取所述影像分類模型的基礎對抗影像; 調整所述基礎對抗影像在指定區域的像素值,將調整後得到的對抗影像作為所述對抗物件。
- 根據請求項23所述裝置,所述指定區域距離所述基礎對抗影像邊緣的最小距離小於預定距離。
- 根據請求項23所述裝置,所述將所述對抗物件添加到所述第二真子集中的樣本中,得到所述樣本對應的對抗樣本,包括: 針對所述第二真子集中的樣本,將所述調整後得到的對抗影像的各個像素點的像素值與所述樣本的各個像素點的像素值對應相加,得到所述樣本對應的對抗樣本。
- 根據請求項22所述裝置,所述原始分類模型為文本分類模型,所述確定原始分類模型的對抗物件,包括: 獲取所述文本分類模型的基礎對抗詞; 調整所述基礎對抗詞中的指定字元,將調整後得到的對抗詞作為所述對抗物件。
- 根據請求項26所述裝置,所述將所述對抗物件添加到所述第二真子集中的樣本中,得到所述樣本對應的對抗樣本,包括: 針對所述第二真子集中的樣本,將所述樣本中的基礎對抗詞替換為調整後得到的對抗詞,得到所述樣本對應的對抗樣本。
- 根據請求項26所述裝置,所述調整所述基礎對抗詞中的指定字元,包括: 將所述基礎對抗詞中的指定字元調整為形近字或同音字。
- 根據請求項22所述裝置,所述若干對抗樣本的分類標籤相同,所述分類標籤匹配所述原始分類模型的分類結果。
- 根據請求項21所述裝置,所述統計結果為匹配所述對抗樣本分類標籤的分類結果的數量/比例,所述盜用條件為所述統計結果達到對應的臨界值。
- 根據請求項21所述裝置,還包括: 警告單元,發送警告資訊。
- 一種模型的訓練裝置,包括: 獲取樣本單元,獲取原始分類模型的若干樣本; 生成單元,分別為各樣本生成對應的對抗樣本,得到若干對抗樣本; 添加單元,為各對抗樣本添加分類標籤,所述分類標籤匹配所述原始分類模型的分類結果; 訓練單元,採用所述樣本與所述對抗樣本對所述原始分類模型進行重新訓練,得到目標分類模型; 其中,所述對抗樣本用於對待檢測分類模型進行檢測,針對所述對抗樣本,採用所述待檢測分類模型預測分類結果,統計匹配對應分類標籤的分類結果,當統計結果符合盜用條件時,確定所述待檢測分類模型盜用所述目標分類模型。
- 一種模型盜用的檢測裝置,包括: 處理器; 用於儲存機器可執行指令的記憶體; 其中,通過讀取並執行所述記憶體儲存的與模型盜用的檢測邏輯對應的機器可執行指令,所述處理器被促使: 獲取目標分類模型的若干對抗樣本,所述對抗樣本來自所述目標分類模型樣本集的第一真子集,所述對抗樣本基於所述目標分類模型樣本集的第二真子集中的樣本生成; 將各對抗樣本輸入待檢測分類模型,得到對應的分類結果; 對匹配所述對抗樣本分類標籤的分類結果進行統計; 判斷統計結果是否符合盜用條件,若是,則確定所述待檢測分類模型盜用所述目標分類模型。
- 一種模型的訓練裝置,包括: 處理器; 用於儲存機器可執行指令的記憶體; 其中,通過讀取並執行所述記憶體儲存的與模型的訓練邏輯對應的機器可執行指令,所述處理器被促使: 獲取原始分類模型的若干樣本; 分別為各樣本生成對應的對抗樣本,得到若干對抗樣本; 為各對抗樣本添加分類標籤,所述分類標籤匹配所述原始分類模型的分類結果; 採用所述樣本與所述對抗樣本對所述原始分類模型進行重新訓練,得到目標分類模型; 其中,所述對抗樣本用於對待檢測分類模型進行檢測,針對所述對抗樣本,採用所述待檢測分類模型預測分類結果,統計匹配對應分類標籤的分類結果,當統計結果符合盜用條件時,確定所述待檢測分類模型盜用所述目標分類模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911286364.X | 2019-12-13 | ||
CN201911286364.XA CN111046957B (zh) | 2019-12-13 | 2019-12-13 | 一种模型盗用的检测、模型的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202123079A true TW202123079A (zh) | 2021-06-16 |
TWI737297B TWI737297B (zh) | 2021-08-21 |
Family
ID=70236346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109115873A TWI737297B (zh) | 2019-12-13 | 2020-05-13 | 模型盜用的檢測、模型的訓練方法及裝置 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN111046957B (zh) |
TW (1) | TWI737297B (zh) |
WO (1) | WO2021114924A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI810993B (zh) * | 2022-01-06 | 2023-08-01 | 鴻海精密工業股份有限公司 | 模型產生裝置及方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046957B (zh) * | 2019-12-13 | 2021-03-16 | 支付宝(杭州)信息技术有限公司 | 一种模型盗用的检测、模型的训练方法和装置 |
CN113688912B (zh) * | 2021-08-26 | 2024-01-05 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的对抗样本生成方法、装置、设备及介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2507217A (en) * | 2011-07-25 | 2014-04-23 | Ibm | Information identification method, program and system |
CN106155298B (zh) * | 2015-04-21 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 人机识别方法及装置、行为特征数据的采集方法及装置 |
CN108363714A (zh) * | 2017-12-21 | 2018-08-03 | 北京至信普林科技有限公司 | 一种方便数据分析人员使用的集成机器学习的方法及系统 |
US11556730B2 (en) * | 2018-03-30 | 2023-01-17 | Intel Corporation | Methods and apparatus for distributed use of a machine learning model |
CN108573355B (zh) * | 2018-05-08 | 2021-07-13 | 创新先进技术有限公司 | 模型更新后替换运行的方法、装置、及业务服务器 |
CN109214410A (zh) * | 2018-07-10 | 2019-01-15 | 上海斐讯数据通信技术有限公司 | 一种提升多标签分类正确率的方法及系统 |
CN109670971A (zh) * | 2018-11-30 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 异常就诊费用的判断方法、装置、设备及计算机存储介质 |
CN109993538A (zh) * | 2019-02-28 | 2019-07-09 | 同济大学 | 基于概率图模型的身份盗用检测方法 |
CN110175236B (zh) * | 2019-04-24 | 2023-07-21 | 平安科技(深圳)有限公司 | 用于文本分类的训练样本生成方法、装置和计算机设备 |
CN110472672B (zh) * | 2019-07-25 | 2023-04-18 | 创新先进技术有限公司 | 用于训练机器学习模型的方法和装置 |
CN110443367A (zh) * | 2019-07-30 | 2019-11-12 | 电子科技大学 | 一种增强神经网络模型鲁棒性能的方法 |
CN110457701A (zh) * | 2019-08-08 | 2019-11-15 | 南京邮电大学 | 基于可解释性对抗文本的对抗训练方法 |
CN111046957B (zh) * | 2019-12-13 | 2021-03-16 | 支付宝(杭州)信息技术有限公司 | 一种模型盗用的检测、模型的训练方法和装置 |
-
2019
- 2019-12-13 CN CN201911286364.XA patent/CN111046957B/zh active Active
-
2020
- 2020-05-13 TW TW109115873A patent/TWI737297B/zh active
- 2020-10-28 WO PCT/CN2020/124349 patent/WO2021114924A1/zh active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI810993B (zh) * | 2022-01-06 | 2023-08-01 | 鴻海精密工業股份有限公司 | 模型產生裝置及方法 |
Also Published As
Publication number | Publication date |
---|---|
TWI737297B (zh) | 2021-08-21 |
CN111046957B (zh) | 2021-03-16 |
CN111046957A (zh) | 2020-04-21 |
WO2021114924A1 (zh) | 2021-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI737297B (zh) | 模型盜用的檢測、模型的訓練方法及裝置 | |
CN110135185B (zh) | 使用生成式对抗网络进行私有化的机器学习 | |
Awan et al. | Fake profile recognition using big data analytics in social media platforms | |
Tirunagari et al. | Detection of face spoofing using visual dynamics | |
Zhou et al. | Faster-RCNN based robust coverless information hiding system in cloud environment | |
US20200160680A1 (en) | Techniques to provide and process video data of automatic teller machine video streams to perform suspicious activity detection | |
WO2021098270A1 (zh) | 基于对抗样本的隐私信息保护方法、装置及电子设备 | |
US20210157901A1 (en) | Identification of Database Intrusion by Changes in Data Tables | |
US11941084B2 (en) | Self-supervised learning for anomaly detection and localization | |
Gao et al. | Imperceptible and robust backdoor attack in 3d point cloud | |
US11537750B2 (en) | Image access management device, image access management method, and image access management system | |
WO2021042544A1 (zh) | 基于去网纹模型的人脸验证方法、装置、计算机设备及存储介质 | |
CN113301017B (zh) | 基于联邦学习的攻击检测与防御方法、装置及存储介质 | |
TWI769603B (zh) | 影像處理方法及存儲介質 | |
US11886604B2 (en) | Image content obfuscation using a neural network | |
Hu et al. | Dynamic-aware federated learning for face forgery video detection | |
Abdullakutty et al. | Deep transfer learning on the aggregated dataset for face presentation attack detection | |
Lu et al. | Channel‐Wise Spatiotemporal Aggregation Technology for Face Video Forensics | |
Li | A computer vision attack on the ARTiFACIAL CAPTCHA | |
KR102348368B1 (ko) | 머신러닝 모델의 학습 데이터 생성과 머신러닝 모델을 이용한 유사 이미지 생성을 위한 장치, 방법, 시스템 및 컴퓨터 판독가능 저장 매체 | |
Mishra et al. | Improved detection of face presentation attacks using image decomposition | |
Mishra et al. | Improved presentation attack detection using image decomposition | |
CN118690365A (zh) | 一种攻击检测方法及装置 | |
Zhu et al. | Image blind detection based on LBP residue classes and color regions | |
Liao et al. | A nonparametric approach to foreground detection in dynamic backgrounds |