WO2021095984A1 - 기만 공격을 위한 대체 모델 재학습 장치 및 방법, 기만 공격 장치 - Google Patents

기만 공격을 위한 대체 모델 재학습 장치 및 방법, 기만 공격 장치 Download PDF

Info

Publication number
WO2021095984A1
WO2021095984A1 PCT/KR2019/018161 KR2019018161W WO2021095984A1 WO 2021095984 A1 WO2021095984 A1 WO 2021095984A1 KR 2019018161 W KR2019018161 W KR 2019018161W WO 2021095984 A1 WO2021095984 A1 WO 2021095984A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
data
label
retraining
target
Prior art date
Application number
PCT/KR2019/018161
Other languages
English (en)
French (fr)
Inventor
박호성
최대선
Original Assignee
공주대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 공주대학교 산학협력단 filed Critical 공주대학교 산학협력단
Publication of WO2021095984A1 publication Critical patent/WO2021095984A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Definitions

  • the present invention relates to an apparatus and method for re-learning an alternative model for a deception attack, and an apparatus for a deception attack, and more particularly, re-learn an alternative model required for a deception attack on a target model in a black box environment.
  • Apparatus and method for relearning an alternative model for a deceptive attack that performs a deceptive attack based on the retrained alternative model. It relates to a deceptive attack device.
  • Deep Learning refers to artificial intelligence (AI) technology that enables machines to think and learn like humans, and based on artificial neural network theory, machines can learn and solve complex nonlinear problems by themselves.
  • AI artificial intelligence
  • the application of such deep learning technology is widely applied in the field of pattern analysis because computers can perform self-perception, reasoning, and judgment even if a person does not set all judgment criteria.
  • a deep neural network refers to an artificial neural network (ANN) consisting of a plurality of hidden layers between an input layer and an output layer. Iteratively performs linear fitting and nonlinear transformation or activation.
  • ANN artificial neural network
  • the deep neural network has been applied to a wide range of fields such as image recognition, speech recognition, intrusion tolerance system, and natural language processing, and its security issues have been raised. Specifically, even when the human eye cannot recognize the micro-modulation caused in the input data, the input data with micro-modulation may cause a problem in that the deep neural network incorrectly identifies the class of the input data. For example, in an autonomous vehicle driving by recognizing a road sign through a deep deep network, there is a problem that unintended motion of the autonomous vehicle is caused by micro-modulating the image of a road sign input through the deep deep network. (Example: When micro-modulation of the left turn display image causes the autonomous vehicle to turn right).
  • micro-modulated input data is referred to as an adversarial example, and an evasion attack is referred to as a class different from the original image class through minimal image modulation.
  • These hostile examples can be usefully used depending on the field of application, and for example, by generating hostile examples by micro-modulating the road marking image on the battlefield, it induces the malfunction of the enemy's autonomous vehicle to which the deep deep security network is applied. This may be the case.
  • the white box attack approaches the target model to which the attacker is targeted without restrictions (i.e., the attack target model trained according to deep learning to classify the labels of input data through a deep neural network (DNN)).
  • DNN deep neural network
  • all information about the target model model architecture, parameters, training data, labels and classification probabilities, etc.
  • the attack success rate is close to 100%.
  • the black box attack assumes an environment where the attacker cannot grasp the information of the target model.
  • the currently commercialized DNN-based target model does not provide information related to the model to prevent security threats such as hostile examples, and therefore, the black box attack sends a query (query) to the target model and the label is the result of classification. It is composed of a method of creating an alternative model that emulates the target model by acquiring and then attacking the target model by creating a hostile example based on the generated alternative model.
  • the black box attack method described above there is a limit to sending countless queries to the target model as an alternative model that mimics the target model must be newly learned and constructed.
  • the commercialized target model considers that the number of queries by the same user is limited to prepare for various security threats including fraudulent attacks, and a target model considering a limited query environment for a practical attack on the target model. It is necessary to minimize the number of queries for.
  • the present invention was invented to solve the above-described problem, and an object according to an aspect of the present invention is the number of queries for the target model when training an alternative model required for a deceptive attack against a target model in a black box environment. It is to provide an alternative model relearning apparatus and method for a deceptive attack, and a deception attack apparatus that enables a more realistic attack on the target model by minimizing.
  • An alternative model retraining apparatus for a deceptive attack includes an alternative model pre-trained in the same type as a target model trained to classify a label of input data through a neural network. Based on the basis, specific attack data for causing the target model to misclassify the label of the original data from the original data, input as a query for the target model as the target model, and in response to the query, the Retraining the replacement model so that the target model obtains a classification result of classifying the label of the specific attack data, and the replacement model partially simulates the target model based on the obtained classification result and the specific attack data It is characterized by that.
  • the replacement model retraining device for the deception attack is based on the replacement model, by applying an Iterative Fast Gradient Sign Method (I-FGSM) algorithm or a Carlini and Wagner (C&W) algorithm to the original data. It is characterized by generating attack data.
  • I-FGSM Iterative Fast Gradient Sign Method
  • C&W Carlini and Wagner
  • the alternative model retraining apparatus for the deceptive attack in the present invention sets the label of the specific attack data to the original label. And retraining the replacement model so that the replacement model partially mimics the target model.
  • a first classification boundary which is a boundary between labels for classifying labels of input data
  • the first classification boundary which is a boundary between labels for classifying a label of input data
  • the replacement model retraining device for the deception attack may limit the number of queries required to retrain the replacement model. It is characterized in that the replacement model is retrained in such a manner that only the effective region corresponding to the first classification boundary is simulated.
  • the replacement model retraining apparatus for the deception attack is a method of repeatedly inputting the specific attack data into the replacement model until the replacement model classifies the label of the specific attack data as the original label. It characterized in that the replacement model is retrained.
  • the apparatus for retraining a replacement model for a deception attack generates next specific attack data from the original data based on the retrained replacement model, and inputs it as a query for the target model as the target model, When the target model classifies the label of the next specific attack data and the classification result corresponds to the original label of the original data, the replacement model is subsequently retrained.
  • the apparatus for re-learning the replacement model for the deceptive attack provides for the replacement model until the target model classifies the label of the specific attack data as a target label subject to misclassification of the target model. It is characterized by repeating subsequent relearning.
  • An alternative model retraining method for a deception attack is based on an alternative model that has been previously trained in the same type as the target model that has been trained to classify the label of input data through a neural network. , Generating specific attack data for causing the target model to misclassify the label of the original data from the original data, inputting the generated specific attack data as a query for the target model as the target model Step, in response to the query, obtaining a classification result of the target model classifying the label of the specific attack data, and the replacement model based on the obtained classification result and the specific attack data And retraining the replacement model to partially simulate it.
  • the deception attack device is based on a replacement model that is previously trained in the same type as the target model trained to classify the label of input data through a neural network, and the target from the original data. Generates specific attack data for causing the model to misclassify the label of the original data and inputs it as the target model as a query for the target model, and the target model is the specific attack data in response to the query.
  • the replacement model is retrained so that the replacement model partially mimics the target model based on the obtained classification result and the specific attack data, and the retrained replacement model Based on, next specific attack data is generated from the original data, and the generated next specific attack data is input into the target model to cause misclassification of the target model with respect to the label of the original data.
  • the replacement model when learning a replacement model required for a deceptive attack against a target model in a black box environment, the replacement model is a target model based on current attack data (i.e., Adversarial Example).
  • current attack data i.e., Adversarial Example
  • FIG. 1 is an exemplary diagram for explaining the operation of an alternative model retraining apparatus for a deception attack and a deception attack apparatus according to an embodiment of the present invention.
  • FIG. 2 is an exemplary view showing a process of retraining a replacement model in a way that the replacement model partially simulates a target model in the apparatus for retraining a replacement model for a deception attack according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a method of retraining an alternative model for a deception attack according to an embodiment of the present invention.
  • FIG. 1 is an exemplary diagram for explaining the operation of an alternative model retraining device for a deception attack and a deception attack device according to an embodiment of the present invention
  • FIG. 2 is a replacement for a deception attack according to an embodiment of the present invention.
  • This is an example diagram showing the process of retraining the replacement model in a way that the replacement model partially mimics the target model in the model retraining device.
  • the target model refers to a deep learning model that is trained to classify a label of input data through a neural network (eg, a deep neural network), and is an attack target of the deceptive attack device of the present embodiment. That is, as shown in FIG. 1, it refers to a classification model to which a classifier for classifying a label (a label, which is the same concept as a class) of input data currently input by a learning data and a learning algorithm is applied, and the target model
  • the classifier may mean a currently commercialized deep learning-based classifier such as a face recognizer (image classification) or a speech recognizer (speech classification).
  • This embodiment assumes a black box environment in which the attacker cannot grasp the information of the target model, and the target model limits the number of queries (queries) input to the target model to prevent security threats including deceptive attacks. Can be doing.
  • Substitutive model refers to a classification model that emulates a target model, which is required to attack a target model in a black box environment where information of the target model cannot be recognized.
  • the replacement model of this embodiment may be pre-trained in the same type as the target model. That is, as a substitute model is trained and built from the beginning through query input for the target model, it is beyond the conventional limitation that a very large number of queries were required, and in this embodiment, a substitute model that is previously trained in the same type as the target model is used. It proposes a configuration that reduces the number of queries by retraining after employing it, and such a previously trained alternative model can be secured through open source.
  • being pre-trained in the same type as the target model means that a model having the same purpose (ie, image classification or voice classification, etc.) as the target model is adopted as an alternative model of the present embodiment. That is, even if the target model and the classification result do not match perfectly (the simulation of the target model can be gradually supplemented through re-learning described later), it has the same purpose as the target model among classification models currently provided by open source, etc.
  • a model having a well-learned classification performance as an alternative model, the number of training data and the number of queries required for learning the replacement model can be reduced.
  • the alternative model retraining apparatus and the deception attack apparatus for the deception attack include a predetermined computing device such as a microprocessor or a microcontroller. device).
  • the substitute model retraining device (hereinafter, the retraining device) for a deception attack according to the present embodiment will be described in detail.
  • the re-learning device generates specific attack data to cause the target model to misclassify the label of the original data from the original data based on the above-described replacement model (meaning the replacement model before re-learning has been performed yet) to target the target.
  • As a query for the model it can be input as a target model (original data may mean original image data, for example, when the target model and the replacement model are face recognizers).
  • this embodiment adopts a configuration that partially changes the label classification boundary on the alternative model by focusing on the attack data currently input as the target model, and to clarify the meaning of the'current attack data' 'Marked in terms of attack data.
  • the retraining device sends specific attack data from the original data to cause the target model to misclassify the label of the original data as '1'. It can be created and entered as a target model as a query.
  • the retraining device may generate specific attack data by applying an Iterative Fast Gradient Sign Method (I-FGSM) algorithm or a Carlini and Wagner (C&W) algorithm to the original data based on the replacement model. That is, the retraining device applies the probability parameter for the classification of the original data label of the replacement model to the I-FGSM algorithm or the C&W algorithm, so that the target model misclassifies the label of the original data into the target label.
  • the attack data generation method follows a general white box attack method, and the process of generating attack data according to the I-FGSM algorithm or the C&W algorithm is well known, so a detailed description thereof will be omitted.
  • the retraining device After specific attack data is generated and entered as a target model as a query, the retraining device obtains the result of classifying the label of the specific attack data by the target model in response to the query, and the obtained classification result (i.e., label) and The replacement model can be retrained so that the replacement model partially mimics the target model based on specific attack data entered as the target model.
  • the replacement model classifies the label of the specific attack data as the original label.
  • the replacement model can be retrained so that the replacement model partially mimics the target model.
  • the target model means classifying the label of specific attack data as the original label, and such an attack failure means that the replacement model is sufficient for the target model, at least for the specific attack data entered as the current target model. Since it means that it is not possible to replicate, in the case of such an attack failure, the retraining device can retrain the replacement model so that the replacement model partially replicates the target model by classifying the label of specific attack data as the original label. have.
  • Retraining the replacement model so that the replacement model'partly' mimics the target model means that only a portion of the classification boundary reflected in the replacement model can be limited, so that the number of queries required to retrain the replacement model is limited. It means to change.
  • a first classification boundary which is a boundary between labels for classifying labels of input data (Class of FIG. 2)
  • a second classification boundary (dotted line in FIG. 2) different from the first classification boundary, which is a boundary between labels, may be reflected.
  • FIG. 2 shows a simplified classification boundary to aid understanding of the present embodiment, and the actual classification boundary of each model to which the present embodiment is applied is not specified as the example shown in FIG. 2.
  • the retraining device is replaced in a manner in which only the effective area corresponding to the specific attack data among the second classification boundary simulates the first classification boundary so that the number of queries required to retrain the replacement model can be limited.
  • the model can be retrained.
  • the effective area does not mean a predefined area on the second classification boundary, but an area on the second classification boundary that is changed in the process of retraining the replacement model so that the replacement model classifies the label of specific attack data as the original label.
  • the retraining apparatus may retrain the replacement model by repeatedly inputting specific attack data into the replacement model until the replacement model classifies the label of the specific attack data as the original label.
  • the retraining device generates next specific attack data from the original data based on the replacement model retrained through the above process and inputs it as a target model as a query for the target model, and the target model is the label of the next specific attack data. If the classification result of which is classified corresponds to the original label of the original data (that is, if the attack fails again), the replacement model can be subsequently retrained.
  • the subsequent re-learning process for such an alternative model may be repeatedly performed until the target model classifies the label of the specific attack data into a target label that is a target of misclassification of the target model.
  • the right figure of FIG. 2 shows the retraining process of the replacement model in an example in which the original label is '2' and the target label is '1'.
  • the first retraining was performed so that the replacement model classifies the label of specific attack data (dot in Fig. 2) into the original label '2' (1 in Fig. 2), and the next specific attack generated based on the first retrained replacement model
  • the target model still classifies the label of the data as the original label, it can be confirmed that the attack was successful after the subsequent retraining was performed twice (2 and 3 in FIG. 2 ).
  • the number of queries required for training the replacement model may be limited by partially training the replacement model so that only a part of the second classification boundary of the replacement model simulates the first classification boundary of the target model corresponding thereto.
  • the present embodiment described above may be implemented as a deception attack device that performs a deception attack on a target model based on a replacement model for which retraining has been completed.
  • the deception attack device is based on a replacement model that is already trained in the same type as the target model that has been trained to classify the label of the input data through a neural network, and the target model is the original data.
  • Generate specific attack data to misclassify the label of the target model input it as a target model as a query for the target model, and obtain the classification result in which the target model classifies the label of the specific attack data in response to the query.
  • the replacement model is retrained so that the replacement model partially mimics the target model, and based on the retrained replacement model, the next specific attack data is generated from the original data, and the generated It may be implemented to perform an operation that causes misclassification of the target model with respect to the label of the original data by inputting the next specific attack data as a target model.
  • FIG. 3 is a flowchart illustrating a method of retraining an alternative model for a deceptive attack according to an embodiment of the present invention, and a description will be made focusing on a time-series configuration without redundant description of specific operations.
  • the retraining device is based on a replacement model that has been previously trained in the same type as the target model that has been trained to classify the label of the input data through a neural network.
  • Generate attack data S100
  • the retraining device may generate specific attack data by applying an I-FGSM algorithm or a C&W algorithm to the original data based on the replacement model.
  • the retraining apparatus inputs the specific attack data generated in step S100 as a target model as a query for the target model (S200).
  • the retraining apparatus obtains a classification result obtained by classifying the label of the specific attack data by the target model in response to the query input in step S200 (S300).
  • the retraining apparatus retrains the replacement model so that the replacement model partially mimics the target model based on the classification result obtained in step S300 and specific attack data (S400).
  • step S400 when the classification result obtained from the target model corresponds to the original label of the original data, the replacement model classifies the label of the specific attack data as the original label so that the replacement model partially simulates the target model.
  • the replacement model is retrained, and specifically, the number of queries required to retrain the replacement model is limited, so that only the effective area corresponding to the specific attack data among the second classification boundaries on the replacement model is limited.
  • the replacement model is retrained in a way that simulates the classification boundary. In this case, the retraining apparatus may retrain the replacement model by repeatedly inputting specific attack data into the replacement model until the replacement model classifies the label of the specific attack data as the original label.
  • the retraining device generates the next specific attack data from the original data based on the replacement model retrained through step S400 and inputs it as a target model as a query for the target model, and the target model identifies the label of the next specific attack data. If the classified classification result corresponds to the original label of the original data, the replacement model is subsequently retrained (S500). Step S500 may be repeatedly performed until the target model classifies the label of the specific attack data into a target label that is a target for misclassification of the target model.
  • this embodiment may be combined with hardware and written as a computer program stored in a medium to execute steps S100 to S500 described above, and is stored in a computer-readable recording medium to operate the computer program. It can be implemented on a computer.
  • Computer-readable recording media include ROM, RAM, CD-ROM, magnetic tapes, floppy disks, and optical data storage devices. Further, the computer-readable recording medium may be distributed over a computer system connected through a network, and computer-readable codes may be stored and executed in a distributed manner.
  • the present embodiment retrains the replacement model so that the replacement model partially mimics the target model based on the current attack data when learning a replacement model required for a deceptive attack on a target model in a black box environment.
  • a more realistic attack on the target model can be made by minimizing the number of queries for the target model.
  • the implementation described herein may be implemented in, for example, a method or process, an apparatus, a software program, a data stream or a signal. Although discussed only in the context of a single form of implementation (eg, only as a method), the implementation of the discussed features may also be implemented in other forms (eg, an apparatus or program).
  • the device may be implemented with appropriate hardware, software and firmware.
  • the method may be implemented in an apparatus such as a processor, which generally refers to a processing device including, for example, a computer, a microprocessor, an integrated circuit or a programmable logic device, or the like. Processors also include communication devices such as computers, cell phones, personal digital assistants (“PDAs”) and other devices that facilitate communication of information between end-users.
  • PDAs personal digital assistants

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Stored Programmes (AREA)

Abstract

본 발명은 기만 공격을 위한 대체 모델 재학습 장치 및 방법, 기만 공격 장치에 관한 것으로서, 신경망(Neural Network)을 통해 입력 데이터의 레이블(Label)을 분류하도록 학습된 타겟 모델과 동일한 타입으로 기 학습되어 있는 대체 모델을 토대로, 원본 데이터로부터 타겟 모델이 원본 데이터의 레이블을 오분류하도록 하기 위한 특정 공격 데이터를 생성하여 타겟 모델에 대한 쿼리(query)로서 타겟 모델로 입력하고, 쿼리에 대한 응답으로 타겟 모델이 특정 공격 데이터의 레이블을 분류한 분류 결과를 획득하고, 획득된 분류 결과 및 특정 공격 데이터를 기반으로 대체 모델이 타겟 모델을 부분적으로 모사하도록 대체 모델을 재학습시키는 것을 특징으로 한다.

Description

기만 공격을 위한 대체 모델 재학습 장치 및 방법, 기만 공격 장치
본 발명은 기만 공격을 위한 대체 모델 재학습 장치 및 방법, 기만 공격 장치에 관한 것으로서, 더욱 상세하게는 블랙박스(Black Box) 환경에서 타겟 모델에 대한 기만 공격을 위해 요구되는 대체 모델을 재학습하고, 재학습된 대체 모델을 토대로 기만 공격을 수행하는 기만 공격을 위한 대체 모델 재학습 장치 및 방법. 기만 공격 장치에 관한 것이다.
딥 러닝(Deep Learning)은 기계가 사람처럼 생각하고 배울 수 있도록 하는 인공지능(AI) 기술을 의미하며, 인공신경망 이론을 기반으로 복잡한 비선형 문제를 기계가 스스로 학습하여 해결할 수 있도록 한다. 이러한 딥 러닝 기술을 적용하면 사람이 모든 판단 기준을 정해주지 않아도 컴퓨터가 스스로 인지, 추론 및 판단을 수행할 수 있어 패턴 분석 분야에서 광범위하게 적용되고 있다.
심층 신경망(DNN: Deep Neural Network)은 입력 계층(input layer)과 출력 계층(output layer) 사이에 복수 개의 은닉 계층(hidden layer)들로 이뤄진 인공 신경망(ANN: Artificial Neural Network)을 의미하며, 선형 맞춤(linear fitting)과 비선형 변환(nonlinear transformation or activation) 등을 반복적으로 수행한다.
심층 신경망은 이미지 인식, 음성 인식, 침입 감내 시스템(Intrusion Tolerance System) 및 자연어 처리(Natural Language Processing) 등 광범위한 분야에 적용되고 있어 그 보안 문제가 제기되어 왔다. 구체적으로, 입력 데이터에 야기된 미소 변조를 인간이 육안으로 인지할 수 없는 경우라도, 미소 변조가 발생한 입력 데이터는 심층 신경망이 입력 데이터의 클래스를 잘못 식별하도록 하는 문제점을 야기할 수 있다. 예를 들어, 심층 심경망을 통해 도로 표지판을 인식하여 주행하는 자율 주행 차량에 있어, 심층 심경망으로 입력되는 도로 표지판 이미지를 미소 변조시킴으로써 자율 주행 차량의 의도치 않는 동작이 유발되는 문제점이 존재한다(예: 좌회전 표시 이미지의 미소 변조가 자율 주행 차량의 우회전을 유발하는 경우). 상기한, 미소 변조된 입력 데이터를 적대적 예제(Adversarial Example)라 하며, 최소한의 이미지 변조를 통해 원래 이미지의 클래스와는 다른 클래스로 인식되도록 하는 것을 Evasion Attack(기만 공격, 또는 회피 공격)이라 한다. 이러한 적대적 예제는 활용 분야에 따라 유용하게 활용될 수도 있으며, 예를 들어 전장(battle field)에서 도로 표시 이미지를 미소 변조시켜 적대적 예제를 생성함으로써 심층 심경망이 적용된 적군의 자율 주행 차량의 오동작을 유도하는 경우가 이에 속할 수 있다.
본 발명의 배경기술은 대한민국 공개특허공보 제10-2017-0095582호(2017.08.23. 공개)에 개시되어 있다.
전술한 기만 공격의 종류로서 화이트박스 공격(White Box Attack) 및 블랙박스 공격(Black Box Attack)이 존재한다. 화이트박스 공격은 공격자가 제한없이 공격 대상이 되는 타겟 모델(즉, 신경망(DNN: Deep Neural Network)을 통해 입력 데이터의 레이블을 분류하도록 딥 러닝(Deep Learning)에 따라 학습된 공격 대상 모델)에 접근 가능하거나 타겟 모델과 동일한 모델을 소유함에 따라, 타겟 모델에 대한 모든 정보(모델 아키텍처, 파라미터, 학습 데이터, 레이블 및 분류 확률 등)를 파악할 수 있으며, 따라서 보다 정확한(precise) 적대적 예제를 생성하여 타겟 모델을 공격함으로써 100%에 가까운 공격 성공율을 보이고 있다.
반면, 블랙박스 공격은 공격자가 타겟 모델의 정보를 파악할 수 없는 환경을 가정한다. 현재 상용화된 DNN 기반의 타겟 모델은 적대적 예제와 같은 보안 위협을 방지하기 위해 모델과 관련된 정보를 제공하지 않으며, 따라서 블랙박스 공격은 타겟 모델로 쿼리(질의, query)를 보내고 그에 대한 분류 결과인 레이블을 획득하여 타겟 모델을 모사(emulate)하는 대체 모델을 생성한 후, 생성된 대체 모델을 토대로 적대적 예제를 생성하여 타겟 모델을 공격하는 방식으로 이루어져 있다.
상기의 블랙박스 공격 방식에 따를 때, 타겟 모델을 모사하는 대체 모델을 새롭게 학습하여 구성해야 함에 따라 타겟 모델로 무수히 많은 쿼리를 보내야 하는 한계가 존재한다. 상용화된 타겟 모델은 기만 공격을 비롯하여 다양한 보안 위협에 대비하기 위해 같은 사용자에 의한 쿼리의 수를 제한하는 점을 고려할 때, 타겟 모델에 대한 현실적인(practical) 공격을 위해서는 제한된 쿼리 환경을 고려하여 타겟 모델에 대한 쿼리의 수를 최소화할 필요가 있다.
본 발명은 전술한 문제점을 해결하기 위해 창안된 것으로서, 본 발명의 일 측면에 따른 목적은 블랙박스 환경에서 타겟 모델에 대한 기만 공격을 위해 요구되는 대체 모델을 학습시킬 때 타겟 모델에 대한 쿼리의 수를 최소화시킴으로써 타겟 모델에 대한 보다 현실적인 공격이 가능하도록 하는 기만 공격을 위한 대체 모델 재학습 장치 및 방법, 기만 공격 장치를 제공하는 것이다.
본 발명의 일 측면에 따른 기만 공격을 위한 대체 모델 재학습 장치는, 신경망(Neural Network)을 통해 입력 데이터의 레이블(Label)을 분류하도록 학습된 타겟 모델과 동일한 타입으로 기 학습되어 있는 대체 모델을 토대로, 원본 데이터로부터 상기 타겟 모델이 상기 원본 데이터의 레이블을 오분류하도록 하기 위한 특정 공격 데이터를 생성하여 상기 타겟 모델에 대한 쿼리(query)로서 상기 타겟 모델로 입력하고, 상기 쿼리에 대한 응답으로 상기 타겟 모델이 상기 특정 공격 데이터의 레이블을 분류한 분류 결과를 획득하고, 상기 획득된 분류 결과 및 상기 특정 공격 데이터를 기반으로 상기 대체 모델이 상기 타겟 모델을 부분적으로 모사하도록 상기 대체 모델을 재학습시키는 것을 특징으로 한다.
본 발명에 있어 상기 기만 공격을 위한 대체 모델 재학습 장치는, 상기 대체 모델을 토대로, 상기 원본 데이터에 I-FGSM(Iterative Fast Gradient Sign Method) 알고리즘 또는 C&W(Carlini and Wagner) 알고리즘을 적용하여 상기 특정 공격 데이터를 생성하는 것을 특징으로 한다.
본 발명에 있어 상기 기만 공격을 위한 대체 모델 재학습 장치는, 상기 타겟 모델로부터 획득된 분류 결과가 상기 원본 데이터의 원본 레이블에 해당하는 경우, 상기 대체 모델이 상기 특정 공격 데이터의 레이블을 상기 원본 레이블로 분류하여 상기 대체 모델이 상기 타겟 모델을 부분적으로 모사하도록 상기 대체 모델을 재학습시키는 것을 특징으로 한다.
본 발명에 있어 상기 타겟 모델에는 입력 데이터의 레이블을 분류하기 위한 레이블 간의 경계인 제1 분류 경계가 반영되어 있고, 상기 대체 모델에는 입력 데이터의 레이블을 분류하기 위한 레이블 간의 경계인, 상기 제1 분류 경계와 상이한 제2 분류 경계가 반영되어 있으며, 상기 기만 공격을 위한 대체 모델 재학습 장치는, 상기 대체 모델을 재학습시키기 위해 요구되는 쿼리의 수가 제한될 수 있도록, 상기 제2 분류 경계 중 상기 특정 공격 데이터에 대응하는 유효 영역만이 상기 제1 분류 경계를 모사하도록 하는 방식으로 상기 대체 모델을 재학습시키는 것을 특징으로 한다.
본 발명에 있어 상기 기만 공격을 위한 대체 모델 재학습 장치는, 상기 대체 모델이 상기 특정 공격 데이터의 레이블을 상기 원본 레이블로 분류할 때까지 상기 특정 공격 데이터를 상기 대체 모델에 반복적으로 입력하는 방식으로 상기 대체 모델을 재학습시키는 것을 특징으로 한다.
본 발명에 있어 상기 기만 공격을 위한 대체 모델 재학습 장치는, 상기 재학습된 대체 모델을 토대로, 상기 원본 데이터로부터 차기 특정 공격 데이터를 생성하여 상기 타겟 모델에 대한 쿼리로서 상기 타겟 모델로 입력하고, 상기 타겟 모델이 상기 차기 특정 공격 데이터의 레이블을 분류한 분류 결과가 상기 원본 데이터의 원본 레이블에 해당하는 경우, 상기 대체 모델을 후속적으로 재학습시키는 것을 특징으로 한다.
본 발명에 있어 상기 기만 공격을 위한 대체 모델 재학습 장치는, 상기 타겟 모델이, 해당 특정 공격 데이터의 레이블을, 상기 타겟 모델의 오분류 대상이 되는 타겟 레이블로 분류할 때까지 상기 대체 모델에 대한 후속적 재학습을 반복하는 것을 특징으로 한다.
본 발명의 일 측면에 따른 기만 공격을 위한 대체 모델 재학습 방법은 신경망(Neural Network)을 통해 입력 데이터의 레이블(Label)을 분류하도록 학습된 타겟 모델과 동일한 타입으로 기 학습되어 있는 대체 모델을 토대로, 원본 데이터로부터 상기 타겟 모델이 상기 원본 데이터의 레이블을 오분류하도록 하기 위한 특정 공격 데이터를 생성하는 단계, 상기 생성한 특정 공격 데이터를 상기 타겟 모델에 대한 쿼리(query)로서 상기 타겟 모델로 입력하는 단계, 상기 쿼리에 대한 응답으로 상기 타겟 모델이 상기 특정 공격 데이터의 레이블을 분류한 분류 결과를 획득하는 단계, 및 상기 획득된 분류 결과 및 상기 특정 공격 데이터를 기반으로 상기 대체 모델이 상기 타겟 모델을 부분적으로 모사하도록 상기 대체 모델을 재학습시키는 단계를 포함하는 것을 특징으로 한다.
본 발명의 일 측면에 따른 기만 공격 장치는 신경망(Neural Network)을 통해 입력 데이터의 레이블(Label)을 분류하도록 학습된 타겟 모델과 동일한 타입으로 기 학습되어 있는 대체 모델을 토대로, 원본 데이터로부터 상기 타겟 모델이 상기 원본 데이터의 레이블을 오분류하도록 하기 위한 특정 공격 데이터를 생성하여 상기 타겟 모델에 대한 쿼리(query)로서 상기 타겟 모델로 입력하고, 상기 쿼리에 대한 응답으로 상기 타겟 모델이 상기 특정 공격 데이터의 레이블을 분류한 분류 결과를 획득하고, 상기 획득된 분류 결과 및 상기 특정 공격 데이터를 기반으로 상기 대체 모델이 상기 타겟 모델을 부분적으로 모사하도록 상기 대체 모델을 재학습시키며, 상기 재학습된 대체 모델을 토대로, 상기 원본 데이터로부터 차기 특정 공격 데이터를 생성하고, 상기 생성된 차기 특정 공격 데이터를 상기 타겟 모델로 입력하여 상기 원본 데이터의 레이블에 대한 상기 타겟 모델의 오분류를 야기하는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 본 발명은 블랙박스 환경에서 타겟 모델에 대한 기만 공격을 위해 요구되는 대체 모델을 학습시킬 때, 현재의 공격 데이터(즉, Adversarial Example)를 기준으로 대체 모델이 타겟 모델을 부분적으로 모사하도록 대체 모델을 재학습시키는 방식을 적용함으로써, 타겟 모델에 대한 쿼리의 수를 최소화시켜 타겟 모델에 대한 보다 현실적인 공격이 가능하도록 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 기만 공격을 위한 대체 모델 재학습 장치와 기만 공격 장치의 동작을 설명하기 위한 예시도이다.
도 2는 본 발명의 일 실시예에 따른 기만 공격을 위한 대체 모델 재학습 장치에서 대체 모델이 타겟 모델을 부분적으로 모사하도록 하는 방식으로 대체 모델을 재학습시키는 과정을 보인 예시도이다.
도 3은 본 발명의 일 실시예에 따른 기만 공격을 위한 대체 모델 재학습 방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 기만 공격을 위한 대체 모델 재학습 장치 및 방법, 기만 공격 장치의 실시예를 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 기만 공격을 위한 대체 모델 재학습 장치와 기만 공격 장치의 동작을 설명하기 위한 예시도이고, 도 2는 본 발명의 일 실시예에 따른 기만 공격을 위한 대체 모델 재학습 장치에서 대체 모델이 타겟 모델을 부분적으로 모사하도록 하는 방식으로 대체 모델을 재학습시키는 과정을 보인 예시도이다.
먼저, 본 실시예의 기만 공격을 위한 대체 모델 재학습 장치(1)의 구체적인 동작 설명에 앞서 타겟 모델(TARGET MODEL) 및 대체 모델(SUBSTITUTE MODEL)의 의미에 대하여 설명한다.
타겟 모델(TARGET MODEL)은 신경망(예: Deep Neural Network)을 통해 입력 데이터의 레이블(Label)을 분류하도록 학습된, 본 실시예의 기만 공격 장치의 공격 대상이 되는 딥 러닝 모델을 의미한다. 즉, 도 1에 도시된 것과 같이 학습 데이터 및 학습 알고리즘에 의해 현재 입력된 입력 데이터의 레이블(Label, 클래스(Class)와 동일한 개념이다)을 분류하는 분류기가 적용된 분류 모델을 의미하며, 타겟 모델의 분류기는 이를테면 얼굴 인식기(이미지 분류) 또는 음성 인식기(음성 분류) 등 현재 상용화된 딥 러닝 기반 분류기를 의미할 수 있다. 본 실시예는 공격자가 타겟 모델의 정보를 파악할 수 없는 블랙박스 환경을 가정하며, 또한 타겟 모델은 기만 공격을 비롯한 보안 위협을 방지하기 위해 타겟 모델로 입력되는 쿼리(질의, query)의 수를 제한하고 있을 수 있다.
대체 모델(SUBSTITUTE MODEL)은 타겟 모델의 정보를 파악할 수 없는 블랙박스 환경에서 타겟 모델을 공격하기 위해 요구되는, 타겟 모델을 모사(emulate)한 분류 모델을 의미한다. 본 실시예의 대체 모델은 타겟 모델과 동일한 타입으로 기 학습되어 있을 수 있다. 즉, 타겟 모델에 대한 쿼리 입력을 통해 대체 모델을 처음부터 학습하여 구축함에 따라 매우 많은 수의 쿼리가 요구되었던 종래의 한계를 벗어나, 본 실시에는 타겟 모델과 동일한 타입으로 기 학습되어 있는 대체 모델을 채용한 후 재학습시킴으로써 쿼리의 수를 감소시키는 구성을 제시하며, 이러한 기 학습되어 있는 대체 모델은 오픈 소스(Open Source)를 통해 확보될 수 있다. 또한, 타겟 모델과 동일한 타입으로 기 학습되어 있다는 것은, 타겟 모델과 동일한 목적(즉, 이미지 분류 또는 음성 분류 등)을 갖는 모델을 본 실시예의 대체 모델로서 채용함을 의미한다. 즉, 타겟 모델과 그 분류 결과가 완벽히 일치하지는 않더라도(타겟 모델에 대한 모사는 후술하는 재학습을 통해 점진적으로 보완될 수 있다) 현재 오픈 소스 등으로 제공되는 분류 모델 중 타겟 모델과 동일한 목적을 가지며 그 분류 성능이 잘 학습된 모델을 대체 모델로 채용함으로써, 대체 모델 학습에 필요한 학습 데이터의 개수와 쿼리의 수를 감소시킬 수 있다.
상기와 같은 대체 모델을 토대로 타겟 모델을 공격하기 위한, 본 실시예의 기만 공격을 위한 대체 모델 재학습 장치와 기만 공격 장치는 마이크로프로세서(microprocessor) 또는 마이크로컨트롤러(microcontroller)와 같은 소정의 컴퓨팅 디바이스(computing device)로 구현될 수 있다.
전술한 타겟 모델 및 대체 모델에 대한 의미를 바탕으로, 이하에서는 본 실시예의 기만 공격을 위한 대체 모델 재학습 장치(이하, 재학습 장치)의 동작을 구체적으로 설명한다.
먼저, 재학습 장치는 전술한 대체 모델(아직 재학습이 이루어지기 전의 대체 모델을 의미한다)을 토대로, 원본 데이터로부터 타겟 모델이 원본 데이터의 레이블을 오분류하도록 하기 위한 특정 공격 데이터를 생성하여 타겟 모델에 대한 쿼리로서 타겟 모델로 입력할 수 있다(원본 데이터는, 예를 들어 타겟 모델 및 대체 모델이 얼굴 인식기인 경우, 원본 이미지 데이터를 의미할 수 있다). 후술하는 것과 같이 본 실시예는 타겟 모델로 현재 입력된 공격 데이터에 포커싱을 맞춰 대체 모델 상의 레이블 분류 경계를 부분적으로 변경하는 구성을 채용하며, '현재의 공격 데이터'의 의미를 명확히 하기 위해 '특정' 공격 데이터의 용어로 표기하였다.
특정 공격 데이터를 생성하는 과정을 예시로서 설명하면, 원본 데이터의 원본 레이블이 '2'에 해당하는 상태에서, 타겟 모델의 오분류 대상이 되는 타겟 레이블을 '1'로 목표하는 경우(즉, 타겟 모델로 하여금 레이블 '2'가 아닌 레이블 '1'로 오분류하도록 하고자 하는 경우), 재학습 장치는 타겟 모델이 원본 데이터의 레이블을 '1'로 오분류하도록 하기 위한 특정 공격 데이터를 원본 데이터로부터 생성하여 쿼리로서 타겟 모델로 입력할 수 있다.
이 경우, 재학습 장치는 대체 모델을 토대로, 원본 데이터에 I-FGSM(Iterative Fast Gradient Sign Method) 알고리즘 또는 C&W(Carlini and Wagner) 알고리즘을 적용하여 특정 공격 데이터를 생성할 수 있다. 즉, 재학습 장치는 대체 모델의 원본 데이터 레이블 분류에 대한 확률 파라미터를 I-FGSM 알고리즘 또는 C&W 알고리즘에 적용하는 방식으로, 타겟 모델이 원본 데이터의 레이블을 상기의 타겟 레이블로 오분류하도록 하기 위한 특정 공격 데이터를 생성할 수 있다. 이러한 공격 데이터 생성 방법은 일반적인 화이트박스 공격 방식에 따르며, I-FGSM 알고리즘 또는 C&W 알고리즘에 따라 공격 데이터를 생성하는 과정은 주지된 것이므로 구체적인 설명은 생략한다.
특정 공격 데이터가 생성되어 쿼리로서 타겟 모델로 입력된 후, 재학습 장치는 쿼리에 대한 응답으로 타겟 모델이 특정 공격 데이터의 레이블을 분류한 결과를 획득하고, 획득된 분류 결과(즉, 레이블)와 타겟 모델로 입력한 특정 공격 데이터를 기반으로 대체 모델이 타겟 모델을 부분적으로 모사하도록 대체 모델을 재학습시킬 수 있다.
대체 모델에 대한 재학습 과정에 대하여 구체적으로 설명하면, 재학습 장치는 타겟 모델로부터 획득된 분류 결과가 원본 데이터의 원본 레이블에 해당하는 경우, 대체 모델이 특정 공격 데이터의 레이블을 원본 레이블로 분류하여 대체 모델이 타겟 모델을 부분적으로 모사하도록 대체 모델을 재학습시킬 수 있다.
즉, 타겟 모델이 특정 공격 데이터의 레이블을 분류한 분류 결과가 의도하였던 타겟 레이블이 아닌 원본 레이블에 해당한다는 것은, 대체 모델은 특정 공격 데이터의 레이블을 타겟 레이블로 분류하는 반면(∵특정 공격 데이터는 대체 모델을 토대로 생성되었기 때문), 타겟 모델은 특정 공격 데이터의 레이블을 원본 레이블로 분류함을 의미하며, 이러한 공격 실패는 적어도 현재 타겟 모델로 입력된 특정 공격 데이터에 한해서는 대체 모델이 타겟 모델을 충분히 모사하지 못하고 있음을 의미하므로, 상기와 같은 공격 실패의 경우 재학습 장치는 대체 모델이 특정 공격 데이터의 레이블을 원본 레이블로 분류하여 대체 모델이 타겟 모델을 부분적으로 모사하도록 대체 모델을 재학습시킬 수 있다.
대체 모델이 타겟 모델을 '부분적으로' 모사하도록 대체 모델을 재학습시킨다는 것은, 대체 모델을 재학습시키기 위해 요구되는 쿼리의 수가 제한될 수 있도록, 대체 모델에 반영된 분류 경계(classification boundary)의 일부만을 변경함을 의미한다.
구체적으로, 도 2에 도시된 것과 같이 타겟 모델에는 입력 데이터의 레이블(도 2의 Class)을 분류하기 위한 레이블 간의 경계인 제1 분류 경계가 반영되어 있고, 대체 모델에는 입력 데이터의 레이블을 분류하기 위한 레이블 간의 경계인, 제1 분류 경계와 상이한 제2 분류 경계(도 2의 점선)가 반영되어 있을 수 있다. 도 2는 본 실시예의 이해를 돕기 위해 분류 경계를 단순화시켜 도시하고 있으며, 본 실시예가 적용되는 각 모델의 실제 분류 경계는 도 2에 도시된 예시로 특정되지 않는다.
이에 따라, 재학습 장치는 대체 모델을 재학습시키기 위해 요구되는 쿼리의 수가 제한될 수 있도록, 제2 분류 경계 중 특정 공격 데이터에 대응하는 유효 영역만이 제1 분류 경계를 모사하도록 하는 방식으로 대체 모델을 재학습시킬 수 있다. 여기서, 유효 영역은 제2 분류 경계 상에서 기 정의된 영역을 의미하는 것이 아닌, 대체 모델이 특정 공격 데이터의 레이블을 원본 레이블로 분류하도록 대체 모델을 재학습시키는 과정에서 변경되는 제2 분류 경계 상의 영역을 의미한다. 상기의 재학습 과정에서 재학습 장치는 대체 모델이 특정 공격 데이터의 레이블을 원본 레이블로 분류할 때까지 특정 공격 데이터를 대체 모델에 반복적으로 입력하는 방식으로 대체 모델을 재학습시킬 수 있다.
이후, 재학습 장치는 상기의 과정을 통해 재학습된 대체 모델을 토대로, 원본 데이터로부터 차기 특정 공격 데이터를 생성하여 타겟 모델에 대한 쿼리로서 타겟 모델로 입력하고, 타겟 모델이 차기 특정 공격 데이터의 레이블을 분류한 분류 결과가 원본 데이터의 원본 레이블에 해당하는 경우(즉, 재차 공격이 실패한 경우), 대체 모델을 후속적으로 재학습시킬 수 있다. 이러한 대체 모델에 대한 후속적 재학습 과정은, 타겟 모델이, 해당 특정 공격 데이터의 레이블을, 타겟 모델의 오분류 대상이 되는 타겟 레이블로 분류할 때까지 반복적으로 수행될 수 있다.
도 2의 우측 그림은 원본 레이블이 '2'이고 타겟 레이블이 '1'인 예시에서 대체 모델의 재학습 과정을 보이고 있다. 대체 모델이 특정 공격 데이터(도 2의 dot)의 레이블을 원본 레이블인 '2'로 분류하도록 최초 재학습이 이루어졌으며(도 2의 ①), 최초 재학습된 대체 모델을 토대로 생성된 차기 특정 공격 데이터의 레이블을 타겟 모델이 여전히 원본 레이블로 분류함에 따라 후속적 재학습이 2회 수행된 후(도 2의 ② 및 ③) 공격이 성공하였음을 확인할 수 있다.
도 2의 좌측 그림과 같이 종래에는 대체 모델의 제2 분류 경계 전체가 타겟 모델의 제1 분류 경계를 모사하도록 대체 모델을 학습시키는 방식이 적용됨에 따라 많은 쿼리 수가 요구되었던 반면, 도 2의 우측 그림과 같이 본 실시예는 대체 모델의 제2 분류 경계의 일부만이 그에 대응되는 타겟 모델의 제1 분류 경계를 모사하도록 대체 모델을 부분적으로 학습시킴으로써 대체 모델 학습에 요구되는 쿼리 수를 제한할 수 있다.
이상에서 설명한 본 실시예는, 재학습이 완료된 대체 모델을 토대로 타겟 모델에 대한 기만 공격을 수행하는 기만 공격 장치로 구현될 수도 있다. 이 경우, 기만 공격 장치는, 신경망(Neural Network)을 통해 입력 데이터의 레이블(Label)을 분류하도록 학습된 타겟 모델과 동일한 타입으로 기 학습되어 있는 대체 모델을 토대로, 원본 데이터로부터 타겟 모델이 원본 데이터의 레이블을 오분류하도록 하기 위한 특정 공격 데이터를 생성하여 타겟 모델에 대한 쿼리(query)로서 타겟 모델로 입력하고, 쿼리에 대한 응답으로 타겟 모델이 특정 공격 데이터의 레이블을 분류한 분류 결과를 획득하고, 획득된 분류 결과 및 특정 공격 데이터를 기반으로 대체 모델이 타겟 모델을 부분적으로 모사하도록 대체 모델을 재학습시키며, 재학습된 대체 모델을 토대로, 원본 데이터로부터 차기 특정 공격 데이터를 생성하고, 생성된 차기 특정 공격 데이터를 타겟 모델로 입력하여 원본 데이터의 레이블에 대한 타겟 모델의 오분류를 야기하는 동작을 수행하도록 구현될 수 있다.
도 3은 본 발명의 일 실시예에 따른 기만 공격을 위한 대체 모델 재학습 방법을 설명하기 위한 흐름도이며, 구체적인 동작에 대한 중복 설명을 배제하고 그 시계열적인 구성을 중심으로 설명한다.
먼저, 재학습 장치는 신경망을 통해 입력 데이터의 레이블을 분류하도록 학습된 타겟 모델과 동일한 타입으로 기 학습되어 있는 대체 모델을 토대로, 원본 데이터로부터 타겟 모델이 원본 데이터의 레이블을 오분류하도록 하기 위한 특정 공격 데이터를 생성한다(S100). S100 단계에서 재학습 장치는 대체 모델을 토대로, 원본 데이터에 I-FGSM 알고리즘 또는 C&W 알고리즘을 적용하여 특정 공격 데이터를 생성할 수 있다.
이어서, 재학습 장치는 S100 단계에서 생성한 특정 공격 데이터를 타겟 모델에 대한 쿼리로서 타겟 모델로 입력한다(S200).
이어서, 재학습 장치는 S200 단계에서 입력한 쿼리에 대한 응답으로 타겟 모델이 특정 공격 데이터의 레이블을 분류한 분류 결과를 획득한다(S300).
이어서, 재학습 장치는 S300 단계에서 획득된 분류 결과 및 특정 공격 데이터를 기반으로 대체 모델이 타겟 모델을 부분적으로 모사하도록 대체 모델을 재학습시킨다(S400).
S400 단계에서, 재학습 장치는 타겟 모델로부터 획득된 분류 결과가 원본 데이터의 원본 레이블에 해당하는 경우, 대체 모델이 특정 공격 데이터의 레이블을 원본 레이블로 분류하여 대체 모델이 타겟 모델을 부분적으로 모사하도록 대체 모델을 재학습시키며, 구체적으로는 대체 모델을 재학습시키기 위해 요구되는 쿼리의 수가 제한될 수 있도록, 대체 모델 상의 제2 분류 경계 중 특정 공격 데이터에 대응하는 유효 영역만이 타겟 모델 상의 제1 분류 경계를 모사하도록 하는 방식으로 대체 모델을 재학습시킨다. 이 경우, 재학습 장치는 대체 모델이 특정 공격 데이터의 레이블을 원본 레이블로 분류할 때까지 특정 공격 데이터를 대체 모델에 반복적으로 입력하는 방식으로 대체 모델을 재학습시킬 수 있다.
이후, 재학습 장치는 S400 단계를 통해 재학습된 대체 모델을 토대로, 원본 데이터로부터 차기 특정 공격 데이터를 생성하여 타겟 모델에 대한 쿼리로서 타겟 모델로 입력하고, 타겟 모델이 차기 특정 공격 데이터의 레이블을 분류한 분류 결과가 원본 데이터의 원본 레이블에 해당하는 경우, 대체 모델을 후속적으로 재학습시킨다(S500). S500 단계는 타겟 모델이, 해당 특정 공격 데이터의 레이블을, 타겟 모델의 오분류 대상이 되는 타겟 레이블로 분류할 때까지 반복적으로 수행될 수 있다.
한편, 본 실시예는 하드웨어와 결합되어 전술한 S100 단계 내지 S500 단계를 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램으로 작성될 수도 있으며, 컴퓨터로 읽을 수 있는 기록매체에 저장되어 상기 컴퓨터 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 컴퓨터로 읽을 수 있는 기록매체에는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크 및 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.
이와 같이 본 실시예는 블랙박스 환경에서 타겟 모델에 대한 기만 공격을 위해 요구되는 대체 모델을 학습시킬 때, 현재의 공격 데이터를 기준으로 대체 모델이 타겟 모델을 부분적으로 모사하도록 대체 모델을 재학습시키는 방식을 적용함으로써, 타겟 모델에 대한 쿼리의 수를 최소화시켜 타겟 모델에 대한 보다 현실적인 공격이 가능하도록 할 수 있다.
본 명세서에서 설명된 구현은, 예컨대, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의(예컨대, 방법으로서만 논의)되었더라도, 논의된 특징의 구현은 또한 다른 형태(예컨대, 장치 또는 프로그램)로도 구현될 수 있다. 장치는 적절한 하드웨어, 소프트웨어 및 펌웨어 등으로 구현될 수 있다. 방법은, 예컨대, 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍가능한 로직 디바이스 등을 포함하는 프로세싱 디바이스를 일반적으로 지칭하는 프로세서 등과 같은 장치에서 구현될 수 있다. 프로세서는 또한 최종-사용자 사이에 정보의 통신을 용이하게 하는 컴퓨터, 셀 폰, 휴대용/개인용 정보 단말기(personal digital assistant: "PDA") 및 다른 디바이스 등과 같은 통신 디바이스를 포함한다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며 당해 기술이 속하는 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

Claims (15)

  1. 신경망(Neural Network)을 통해 입력 데이터의 레이블(Label)을 분류하도록 학습된 타겟 모델과 동일한 타입으로 기 학습되어 있는 대체 모델을 토대로, 원본 데이터로부터 상기 타겟 모델이 상기 원본 데이터의 레이블을 오분류하도록 하기 위한 특정 공격 데이터를 생성하여 상기 타겟 모델에 대한 쿼리(query)로서 상기 타겟 모델로 입력하고,
    상기 쿼리에 대한 응답으로 상기 타겟 모델이 상기 특정 공격 데이터의 레이블을 분류한 분류 결과를 획득하고, 상기 획득된 분류 결과 및 상기 특정 공격 데이터를 기반으로 상기 대체 모델이 상기 타겟 모델을 부분적으로 모사하도록 상기 대체 모델을 재학습시키는 것을 특징으로 하는, 기만 공격을 위한 대체 모델 재학습 장치.
  2. 제1항에 있어서,
    상기 기만 공격을 위한 대체 모델 재학습 장치는,
    상기 대체 모델을 토대로, 상기 원본 데이터에 I-FGSM(Iterative Fast Gradient Sign Method) 알고리즘 또는 C&W(Carlini and Wagner) 알고리즘을 적용하여 상기 특정 공격 데이터를 생성하는 것을 특징으로 하는, 기만 공격을 위한 대체 모델 재학습 장치.
  3. 제1항에 있어서,
    상기 기만 공격을 위한 대체 모델 재학습 장치는,
    상기 타겟 모델로부터 획득된 분류 결과가 상기 원본 데이터의 원본 레이블에 해당하는 경우, 상기 대체 모델이 상기 특정 공격 데이터의 레이블을 상기 원본 레이블로 분류하여 상기 대체 모델이 상기 타겟 모델을 부분적으로 모사하도록 상기 대체 모델을 재학습시키는 것을 특징으로 하는, 기만 공격을 위한 대체 모델 재학습 장치.
  4. 제3항에 있어서,
    상기 타겟 모델에는 입력 데이터의 레이블을 분류하기 위한 레이블 간의 경계인 제1 분류 경계가 반영되어 있고, 상기 대체 모델에는 입력 데이터의 레이블을 분류하기 위한 레이블 간의 경계인, 상기 제1 분류 경계와 상이한 제2 분류 경계가 반영되어 있으며,
    상기 기만 공격을 위한 대체 모델 재학습 장치는,
    상기 대체 모델을 재학습시키기 위해 요구되는 쿼리의 수가 제한될 수 있도록, 상기 제2 분류 경계 중 상기 특정 공격 데이터에 대응하는 유효 영역만이 상기 제1 분류 경계를 모사하도록 하는 방식으로 상기 대체 모델을 재학습시키는 것을 특징으로 하는, 기만 공격을 위한 대체 모델 재학습 장치.
  5. 제3항에 있어서,
    상기 기만 공격을 위한 대체 모델 재학습 장치는,
    상기 대체 모델이 상기 특정 공격 데이터의 레이블을 상기 원본 레이블로 분류할 때까지 상기 특정 공격 데이터를 상기 대체 모델에 반복적으로 입력하는 방식으로 상기 대체 모델을 재학습시키는 것을 특징으로 하는, 기만 공격을 위한 대체 모델 재학습 장치.
  6. 제3항에 있어서,
    상기 기만 공격을 위한 대체 모델 재학습 장치는,
    상기 재학습된 대체 모델을 토대로, 상기 원본 데이터로부터 차기 특정 공격 데이터를 생성하여 상기 타겟 모델에 대한 쿼리로서 상기 타겟 모델로 입력하고, 상기 타겟 모델이 상기 차기 특정 공격 데이터의 레이블을 분류한 분류 결과가 상기 원본 데이터의 원본 레이블에 해당하는 경우, 상기 대체 모델을 후속적으로 재학습시키는 것을 특징으로 하는, 기만 공격을 위한 대체 모델 재학습 장치.
  7. 제6항에 있어서,
    상기 기만 공격을 위한 대체 모델 재학습 장치는,
    상기 타겟 모델이, 해당 특정 공격 데이터의 레이블을, 상기 타겟 모델의 오분류 대상이 되는 타겟 레이블로 분류할 때까지 상기 대체 모델에 대한 후속적 재학습을 반복하는 것을 특징으로 하는, 기만 공격을 위한 대체 모델 재학습 장치.
  8. 기만 공격을 위한 대체 모델 재학습 장치가,
    신경망(Neural Network)을 통해 입력 데이터의 레이블(Label)을 분류하도록 학습된 타겟 모델과 동일한 타입으로 기 학습되어 있는 대체 모델을 토대로, 원본 데이터로부터 상기 타겟 모델이 상기 원본 데이터의 레이블을 오분류하도록 하기 위한 특정 공격 데이터를 생성하는 단계;
    상기 생성한 특정 공격 데이터를 상기 타겟 모델에 대한 쿼리(query)로서 상기 타겟 모델로 입력하는 단계;
    상기 쿼리에 대한 응답으로 상기 타겟 모델이 상기 특정 공격 데이터의 레이블을 분류한 분류 결과를 획득하는 단계; 및
    상기 획득된 분류 결과 및 상기 특정 공격 데이터를 기반으로 상기 대체 모델이 상기 타겟 모델을 부분적으로 모사하도록 상기 대체 모델을 재학습시키는 단계;
    를 포함하는 것을 특징으로 하는 기만 공격을 위한 대체 모델 재학습 방법.
  9. 제8항에 있어서,
    상기 생성하는 단계에서, 상기 대체 모델 재학습 장치는,
    상기 대체 모델을 토대로, 상기 원본 데이터에 I-FGSM(Iterative Fast Gradient Sign Method) 알고리즘 또는 C&W(Carlini and Wagner) 알고리즘을 적용하여 상기 특정 공격 데이터를 생성하는 것을 특징으로 하는 기만 공격을 위한 대체 모델 재학습 방법.
  10. 제8항에 있어서,
    상기 재학습시키는 단계에서, 상기 대체 모델 재학습 장치는,
    상기 타겟 모델로부터 획득된 분류 결과가 상기 원본 데이터의 원본 레이블에 해당하는 경우, 상기 대체 모델이 상기 특정 공격 데이터의 레이블을 상기 원본 레이블로 분류하여 상기 대체 모델이 상기 타겟 모델을 부분적으로 모사하도록 상기 대체 모델을 재학습시키는 것을 특징으로 하는 기만 공격을 위한 대체 모델 재학습 방법.
  11. 제10항에 있어서,
    상기 타겟 모델에는 입력 데이터의 레이블을 분류하기 위한 레이블 간의 경계인 제1 분류 경계가 반영되어 있고, 상기 대체 모델에는 입력 데이터의 레이블을 분류하기 위한 레이블 간의 경계인, 상기 제1 분류 경계와 상이한 제2 분류 경계가 반영되어 있으며,
    상기 재학습시키는 단계에서, 상기 대체 모델 재학습 장치는,
    상기 대체 모델을 재학습시키기 위해 요구되는 쿼리의 수가 제한될 수 있도록, 상기 제2 분류 경계 중 상기 특정 공격 데이터에 대응하는 유효 영역만이 상기 제1 분류 경계를 모사하도록 하는 방식으로 상기 대체 모델을 재학습시키는 것을 특징으로 하는 기만 공격을 위한 대체 모델 재학습 방법.
  12. 제10항에 있어서,
    상기 재학습시키는 단계에서, 상기 대체 모델 재학습 장치는,
    상기 대체 모델이 상기 특정 공격 데이터의 레이블을 상기 원본 레이블로 분류할 때까지 상기 특정 공격 데이터를 상기 대체 모델에 반복적으로 입력하는 방식으로 상기 대체 모델을 재학습시키는 것을 특징으로 하는 기만 공격을 위한 대체 모델 재학습 방법.
  13. 제10항에 있어서,
    상기 재학습된 대체 모델을 토대로, 상기 원본 데이터로부터 차기 특정 공격 데이터를 생성하여 상기 타겟 모델에 대한 쿼리로서 상기 타겟 모델로 입력하고, 상기 타겟 모델이 상기 차기 특정 공격 데이터의 레이블을 분류한 분류 결과가 상기 원본 데이터의 원본 레이블에 해당하는 경우, 상기 대체 모델을 후속적으로 재학습시키는 단계;를 더 포함하는 것을 특징으로 하는 기만 공격을 위한 대체 모델 재학습 방법.
  14. 제13항에 있어서,
    상기 대체 모델을 후속적으로 재학습시키는 단계는, 상기 타겟 모델이, 해당 특정 공격 데이터의 레이블을, 상기 타겟 모델의 오분류 대상이 되는 타겟 레이블로 분류할 때까지 반복적으로 수행되는 것을 특징으로 하는 기만 공격을 위한 대체 모델 재학습 방법.
  15. 신경망(Neural Network)을 통해 입력 데이터의 레이블(Label)을 분류하도록 학습된 타겟 모델과 동일한 타입으로 기 학습되어 있는 대체 모델을 토대로, 원본 데이터로부터 상기 타겟 모델이 상기 원본 데이터의 레이블을 오분류하도록 하기 위한 특정 공격 데이터를 생성하여 상기 타겟 모델에 대한 쿼리(query)로서 상기 타겟 모델로 입력하고,
    상기 쿼리에 대한 응답으로 상기 타겟 모델이 상기 특정 공격 데이터의 레이블을 분류한 분류 결과를 획득하고, 상기 획득된 분류 결과 및 상기 특정 공격 데이터를 기반으로 상기 대체 모델이 상기 타겟 모델을 부분적으로 모사하도록 상기 대체 모델을 재학습시키며,
    상기 재학습된 대체 모델을 토대로, 상기 원본 데이터로부터 차기 특정 공격 데이터를 생성하고, 상기 생성된 차기 특정 공격 데이터를 상기 타겟 모델로 입력하여 상기 원본 데이터의 레이블에 대한 상기 타겟 모델의 오분류를 야기하는 것을 특징으로 하는, 기만 공격 장치.
PCT/KR2019/018161 2019-11-11 2019-12-20 기만 공격을 위한 대체 모델 재학습 장치 및 방법, 기만 공격 장치 WO2021095984A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190143623A KR102317762B1 (ko) 2019-11-11 2019-11-11 기만 공격을 위한 대체 모델 재학습 장치 및 방법, 기만 공격 장치
KR10-2019-0143623 2019-11-11

Publications (1)

Publication Number Publication Date
WO2021095984A1 true WO2021095984A1 (ko) 2021-05-20

Family

ID=75913032

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/018161 WO2021095984A1 (ko) 2019-11-11 2019-12-20 기만 공격을 위한 대체 모델 재학습 장치 및 방법, 기만 공격 장치

Country Status (2)

Country Link
KR (1) KR102317762B1 (ko)
WO (1) WO2021095984A1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024105036A1 (en) 2022-11-14 2024-05-23 Robert Bosch Gmbh A method of assessing vulnerability of an ai system and a framework thereof
WO2024105035A1 (en) 2022-11-14 2024-05-23 Robert Bosch Gmbh A method of assessing vulnerability of an ai system and a framework thereof
WO2024115581A1 (en) 2022-11-29 2024-06-06 Robert Bosch Gmbh A method to assess vulnerability of an ai model and framework thereof
WO2024115580A1 (en) 2022-11-29 2024-06-06 Robert Bosch Gmbh A method of assessing inputs fed to an ai model and a framework thereof
WO2024160680A1 (en) 2023-01-30 2024-08-08 Robert Bosch Gmbh A method of assessing vulnerability of an ai model and a framework thereof

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102592935B1 (ko) * 2020-12-22 2023-10-23 성균관대학교산학협력단 신경망 모델 학습 방법 및 장치, 컴퓨터 프로그램

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160095856A (ko) * 2015-02-04 2016-08-12 한국전자통신연구원 새로운 공격 유형의 자동 탐지 및 공격 유형 모델 갱신을 통한 지능형 침입 탐지 시스템 및 방법
KR20190061446A (ko) * 2017-11-28 2019-06-05 공주대학교 산학협력단 딥 러닝 환경에서의 적대적 예제 생성 장치 및 방법, 컴퓨터 프로그램
KR20190094068A (ko) * 2018-01-11 2019-08-12 한국전자통신연구원 온라인 게임에서 게이머 행동 유형을 분류하는 분류기의 학습 방법 및 상기 분류기를 포함하는 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160095856A (ko) * 2015-02-04 2016-08-12 한국전자통신연구원 새로운 공격 유형의 자동 탐지 및 공격 유형 모델 갱신을 통한 지능형 침입 탐지 시스템 및 방법
KR20190061446A (ko) * 2017-11-28 2019-06-05 공주대학교 산학협력단 딥 러닝 환경에서의 적대적 예제 생성 장치 및 방법, 컴퓨터 프로그램
KR20190094068A (ko) * 2018-01-11 2019-08-12 한국전자통신연구원 온라인 게임에서 게이머 행동 유형을 분류하는 분류기의 학습 방법 및 상기 분류기를 포함하는 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PARK, HOSUNG ET AL.: "Retraining Substitute Model for Practical Black-box Attacks against Deep Neural Networks", THE 20TH WISA-WORKSHOP 2019, vol. 20, 21 August 2019 (2019-08-21), Korea, Retrieved from the Internet <URL:https://www.manuscriptlink.com/society/kiisc/conference/wisa2019/accepted2> [retrieved on 20200731] *
RYU, GWONSANG ET AL.: "A Deceptive Attack on the Limit of the Modulation Area on a Face Recognition Model based on Deep Learning", REVIEW OF KOREA INSTITUTE OF INFORMATION SECURITY & CTYPTOLOGY, 30 June 2019 (2019-06-30), pages 44 - 50, XP055826381, Retrieved from the Internet <URL:https://www.koreascience.or.kr/article/JAKO201919362371382.pdf> [retrieved on 20200731] *
XIE, CIHANG, ZHANG ZHISHUAI; ZHOU YUYIN; BAI SONG; WANG JIANYU; REN ZHOU; YUILLE ALAN L: "Improving Transferability of Adversarial Examples with Input Diversity", CVPR 2019. ARXIV:180306978V4, 1 June 2019 (2019-06-01), XP033686513, Retrieved from the Internet <URL:https://arxiv.org/pdf/1803.06978.pdf> [retrieved on 20200731] *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024105036A1 (en) 2022-11-14 2024-05-23 Robert Bosch Gmbh A method of assessing vulnerability of an ai system and a framework thereof
WO2024105035A1 (en) 2022-11-14 2024-05-23 Robert Bosch Gmbh A method of assessing vulnerability of an ai system and a framework thereof
WO2024115581A1 (en) 2022-11-29 2024-06-06 Robert Bosch Gmbh A method to assess vulnerability of an ai model and framework thereof
WO2024115580A1 (en) 2022-11-29 2024-06-06 Robert Bosch Gmbh A method of assessing inputs fed to an ai model and a framework thereof
WO2024160680A1 (en) 2023-01-30 2024-08-08 Robert Bosch Gmbh A method of assessing vulnerability of an ai model and a framework thereof

Also Published As

Publication number Publication date
KR102317762B1 (ko) 2021-10-26
KR20210056766A (ko) 2021-05-20

Similar Documents

Publication Publication Date Title
WO2021095984A1 (ko) 기만 공격을 위한 대체 모델 재학습 장치 및 방법, 기만 공격 장치
Ren et al. Adversarial examples: attacks and defenses in the physical world
Yu et al. CloudLeak: Large-Scale Deep Learning Models Stealing Through Adversarial Examples.
Wicker et al. Feature-guided black-box safety testing of deep neural networks
Dai et al. A backdoor attack against lstm-based text classification systems
He et al. Parametric noise injection: Trainable randomness to improve deep neural network robustness against adversarial attack
US11443178B2 (en) Deep neural network hardening framework
Torralba et al. Contextual models for object detection using boosted random fields
Rouani et al. Safe machine learning and defeating adversarial attacks
CN114090780B (zh) 一种基于提示学习的快速图片分类方法
KR102592935B1 (ko) 신경망 모델 학습 방법 및 장치, 컴퓨터 프로그램
Chindaudom et al. AdversarialQR: An adversarial patch in QR code format
Tikhanoff et al. Language and cognition integration through modeling field theory: category formation for symbol grounding
CN115422995A (zh) 一种改进社交网络和神经网络的入侵检测方法
CN110275928A (zh) 迭代式实体关系抽取方法
CN113657267A (zh) 一种半监督行人重识别模型、方法和装置
CN114048843A (zh) 一种基于选择性特征迁移的小样本学习网络
JP2760145B2 (ja) 知識情報処理装置
Maymí et al. AI in cyberspace: Beyond the hype
Pavate et al. Performance evaluation of adversarial examples on deep neural network architectures
CN115098855A (zh) 一种基于自定义后门行为的触发器样本检测方法
Pavate et al. Analyzing probabilistic adversarial samples to attack cloud vision image classifier service
JP3171897B2 (ja) 知識情報処理装置
Vargas One-Pixel Attack: Understanding and improving deep neural networks with evolutionary computation
Min et al. Adversarial attack? don't panic

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19952705

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19952705

Country of ref document: EP

Kind code of ref document: A1