LU505793B1 - Defensive method against interpretability camouflage samples in deep recognition neural networks - Google Patents
Defensive method against interpretability camouflage samples in deep recognition neural networks Download PDFInfo
- Publication number
- LU505793B1 LU505793B1 LU505793A LU505793A LU505793B1 LU 505793 B1 LU505793 B1 LU 505793B1 LU 505793 A LU505793 A LU 505793A LU 505793 A LU505793 A LU 505793A LU 505793 B1 LU505793 B1 LU 505793B1
- Authority
- LU
- Luxembourg
- Prior art keywords
- samples
- adversarial
- model
- interpretability
- camouflage
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000001514 detection method Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000007123 defense Effects 0.000 claims description 30
- 238000004088 simulation Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 9
- 230000000052 comparative effect Effects 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 4
- 238000013434 data augmentation Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 abstract description 2
- 230000009467 reduction Effects 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 235000000332 black box Nutrition 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Claims (8)
1. Méthode de défense contre les échantillons de camouflage interprétables par un réseau neuronal à reconnaissance en profondeur, caractérisée en ce qu'elle comprend les étapes suivantes : Étape 1, Construction du modèle : Construction d'un modèle de réseau neuronal profond pour la classification d'images ; Étape 2, Détection dans le modèle : Détection des échantillons adverses dans les images du modèle, extraction d'un modèle d'échantillons adverses efficace ; Étape 3, Prétraitement des échantillons : Prétraitement des images d'échantillons adverses dans le modèle ; Étape 4, Détection des échantillons : Comparaison et détection des échantillons adverses prétraités avec les échantillons originaux ; Étape 5, Première simulation de défense : Simulation de première défense basée sur l'expérience d'attaque ; Étape 6, Deuxième simulation de défense : Abstraction de l'attaque, dans la pratique, la méthode d'attaque est considérée comme une opération abstraite avec des contraintes de portée, et le défenseur doit seulement maintenir la précision du modèle dans la portée de l'opération abstraite pour achever la deuxième simulation de défense ; Étape 7, Vérification de l'efficacité : Déploiement du modèle de défense dans le réseau neuronal de reconnaissance en profondeur pour des attaques simulées et vérification.
2. Méthode de défense selon la revendication 1, caractérisée en ce que : le prétraitement de l'étape 3 consiste spécifiquement à comprimer les caractéristiques de l'échantillon entrant pour atténuer les perturbations, à faire des prédictions sur les échantillons avant et après compression, et à identifier les caractéristiques des échantillons adverses basées sur les différences de résultats de prédiction avant et après compression.
3. Méthode de défense selon la revendication 1, caractérisée en ce que : le prétraitement de l'étape 3 consiste spécifiquement à sélectionner les étiquettes de classification d'échantillons à protéger, à entraîner et intégrer des portes piégées correspondant aux étiquettes de protection dans le modèle, et à identifier les échantillons adverses à partir des états d'activation neuronale des échantillons entrants.
4. Méthode de défense selon la revendication 1, caractérisée en ce que : le prétraitement de l'étape 3 consiste spécifiquement en un débruitage d'entrée et un débruitage de caractéristiques, où le débruitage d'entrée consiste, lors de la phase de test du modèle, à traiter les données d'entrée pour tenter d'éliminer partiellement ou totalement les perturbations adverses, et le débruitage de caractéristiques vise à atténuer l'impact des interférences adverses sur les caractéristiques de haut niveau apprises par le DNN.
5. Méthode de défense selon la revendication 1, caractérisée en ce que : la détection comparative de l'étape 4 consiste spécifiquement à utiliser les différentes caractéristiques numériques des échantillons adverses et des échantillons originaux, à savoir la forme de la distribution de probabilités obtenue après le passage des échantillons à travers le réseau, pour détecter si l'entrée correspond à la distribution d'un échantillon normal, afin de déterminer si l'entrée a un caractère adversaire.
6. Méthode de défense selon la revendication 1, caractérisée en ce que : la détection comparative de l'étape 4 consiste spécifiquement à utiliser la sortie de la partie intermédiaire du réseau neuronal profond comme entrée du détecteur, afin de détecter les échantillons adverses.
7. Méthode de défense selon la revendication 1, caractérisée en ce que : la premiere simulation de défense de l'étape 5 consiste spécifiquement à prendre comme condition préalable la destruction des méthodes d'attaque existantes, face à des attaques nouvelles et émergentes qui sont facilement brisées.
8. Méthode de défense selon la revendication 1, caractérisée en ce que : l'expérience d'attaque de l'étape 5 consiste spécifiquement à entraîner un modèle qui est généralement entraîné avec des échantillons normaux, donc, pour rendre le modèle plus robuste, pendant la phase d'entraînement du modèle, générer principalement des échantillons adverses, les intégrer dans la phase d'entraînement pour entraîner le réseau neuronal, afin d'atteindre l'objectif de défense contre les échantillons adverses ; ajouter les échantillons adverses générés au jeu de données d'entraînement pour une augmentation de données, permettant au modèle d'apprendre sur les échantillons adverses pendant l'entraînement.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
LU505793A LU505793B1 (en) | 2023-12-14 | 2023-12-14 | Defensive method against interpretability camouflage samples in deep recognition neural networks |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
LU505793A LU505793B1 (en) | 2023-12-14 | 2023-12-14 | Defensive method against interpretability camouflage samples in deep recognition neural networks |
Publications (1)
Publication Number | Publication Date |
---|---|
LU505793B1 true LU505793B1 (en) | 2024-06-14 |
Family
ID=91539649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
LU505793A LU505793B1 (en) | 2023-12-14 | 2023-12-14 | Defensive method against interpretability camouflage samples in deep recognition neural networks |
Country Status (1)
Country | Link |
---|---|
LU (1) | LU505793B1 (fr) |
-
2023
- 2023-12-14 LU LU505793A patent/LU505793B1/en active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhong et al. | Backdoor embedding in convolutional neural network models via invisible perturbation | |
Yuan et al. | Adversarial examples: Attacks and defenses for deep learning | |
Aldahdooh et al. | Adversarial example detection for DNN models: A review and experimental comparison | |
Vasan et al. | Image-Based malware classification using ensemble of CNN architectures (IMCEC) | |
Ma et al. | Nic: Detecting adversarial samples with neural network invariant checking | |
CN110135157B (zh) | 恶意软件同源性分析方法、系统、电子设备及存储介质 | |
US11475130B2 (en) | Detection of test-time evasion attacks | |
Kaviani et al. | Defense against neural trojan attacks: A survey | |
CN113297572B (zh) | 基于神经元激活模式的深度学习样本级对抗攻击防御方法及其装置 | |
CN111062036A (zh) | 恶意软件识别模型构建、识别方法及介质和设备 | |
Park et al. | Host-based intrusion detection model using siamese network | |
CN111753290A (zh) | 软件类型的检测方法及相关设备 | |
Chang et al. | Evaluating robustness of ai models against adversarial attacks | |
Barros et al. | Malware‐SMELL: A zero‐shot learning strategy for detecting zero‐day vulnerabilities | |
Agarwal et al. | A-iLearn: An adaptive incremental learning model for spoof fingerprint detection | |
CN117454187B (zh) | 一种基于频域限制目标攻击的集成模型训练方法 | |
Zanddizari et al. | Generating black-box adversarial examples in sparse domain | |
Wang et al. | Attention‐guided black‐box adversarial attacks with large‐scale multiobjective evolutionary optimization | |
Zhou et al. | Explaining generalization power of a dnn using interactive concepts | |
Abady et al. | A siamese-based verification system for open-set architecture attribution of synthetic images | |
LU505793B1 (en) | Defensive method against interpretability camouflage samples in deep recognition neural networks | |
Visaggio et al. | A comparative study of adversarial attacks to malware detectors based on deep learning | |
Pérez-Bravo et al. | Encoding generative adversarial networks for defense against image classification attacks | |
CN113259369A (zh) | 一种基于机器学习成员推断攻击的数据集认证方法及系统 | |
Asha et al. | Evaluation of adversarial machine learning tools for securing AI systems |