KR102304661B1 - 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법 - Google Patents

견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법 Download PDF

Info

Publication number
KR102304661B1
KR102304661B1 KR1020190174038A KR20190174038A KR102304661B1 KR 102304661 B1 KR102304661 B1 KR 102304661B1 KR 1020190174038 A KR1020190174038 A KR 1020190174038A KR 20190174038 A KR20190174038 A KR 20190174038A KR 102304661 B1 KR102304661 B1 KR 102304661B1
Authority
KR
South Korea
Prior art keywords
alat
image
adversarial
attack
hostile
Prior art date
Application number
KR1020190174038A
Other languages
English (en)
Other versions
KR20210081769A (ko
Inventor
호제창
이병국
강대기
Original Assignee
동서대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동서대학교 산학협력단 filed Critical 동서대학교 산학협력단
Priority to KR1020190174038A priority Critical patent/KR102304661B1/ko
Priority to US16/783,736 priority patent/US11580391B2/en
Publication of KR20210081769A publication Critical patent/KR20210081769A/ko
Application granted granted Critical
Publication of KR102304661B1 publication Critical patent/KR102304661B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • G06T1/005Robust watermarking, e.g. average attack or collusion attack resistant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0063Image watermarking in relation to collusion attacks, e.g. collusion attack resistant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 컬러(
Figure 112019133545274-pat00233
)의 범위를 설정하고, 컬러(
Figure 112019133545274-pat00234
)의 범위를 일정한 개수(
Figure 112019133545274-pat00235
)로 분할하여 각각의 간격(
Figure 112019133545274-pat00236
)을 생성하는 (a) 단계, 원본 이미지(
Figure 112019133545274-pat00237
)로부터 1개의 배치(batch)를 생성하여 학습 모델을 훈련시키는 (b) 단계, 활성화 함수를 이용하여 원본 이미지(
Figure 112019133545274-pat00238
)의 각각의 픽셀(
Figure 112019133545274-pat00239
)로부터 각각의 간격 인덱스(
Figure 112019133545274-pat00240
)를 예측하는 (c) 단계, 매핑 및 랜덤화를 통해 새로운 이미지(
Figure 112019133545274-pat00241
)를 생성하는 (d) 단계 및 상기 (d) 단계에서 생성된 이미지(
Figure 112019133545274-pat00242
)로 컨볼루션 신경망을 훈련시켜 예측 레이블(
Figure 112019133545274-pat00243
)을 출력하는 (e) 단계를 포함하여 구성되는 것을 특징으로 한다.

Description

견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법{Attack-less Adversarial Training Method for a Robust Adversarial Defense}
본 발명은 견고한 적대적 방어를 위해 기존의 공격 기술을 사용하지 않는 공격 기술에 독립적인 적대적 훈련 방법에 관한 것으로서, 더욱 상세하게는 매핑 및 랜덤화 방법을 통해 원본 이미지로부터 새로운 이미지를 생성하고, 생성된 새로운 이미지로 신경망을 훈련시켜 공격 기술로부터 신경망을 방어할 수 있는 공격 기술에 독립적인 적대적 훈련 방법에 관한 것이다.
적대적 머신 러닝(adversarial machine learning)은 인간이 감지할 수 없는 노이즈로 방어 모델을 기만하는 데 중점을 둔 공격 기술에 관한 것이다. 적대적 사례(adversarial example)는 적대적 머신 러닝에서 생성된 사례 중의 하나이다. 적대적 사례는 컴퓨터 상의 애플리케이션에서 수행되는 물체의 감지, 이미지의 분류, 음성의 인식 등의 작업을 방해함으로써 애플리케이션을 기만할 수 있다. 예를 들어, 얼굴 인식 애플리케이션에서 공격자는 자신의 얼굴에 스티커를 부착하여 자신이 인증된 사용자임을 증명함으로써 애플리케이션을 기만할 수 있다. 또한, 자동차의 이미지 분류 시스템에서 공격자는 정지신호에 적대적 노이즈를 추가함으로써 정지신호를 이동신호로 인식하게 하여, 자동차의 이미지 분류 시스템을 기만할 수 있다. 결과적으로, 이러한 공격은 심각한 재앙을 야기할 수 있다.
이미지 분류에 대한 적대적 사례로는 적법한 이미지에 최소한의 적대적 노이즈를 생성하여 추가하는 것이 있다. 적대적 노이즈는 이미지 상에서 생성되는 픽셀의 섭동을 의미한다. 따라서, 적대적 이미지를 생성할 때, 교란되는 픽셀이 적을수록, 공격 기술은 더욱 효과적이다.
방어 기술은 적대적 사례를 정확하게 탐지하거나, 올바르게 분류할 수 있는 강력한 신경망을 생성하여, 적대적 공격을 예방하는 것을 의미한다. 적대적 훈련은 Ian Goodfellow 등에 의해 최초로 도입된 방어 기술이다. 적대적 훈련은 공격 기술을 사용하여 적대적 사례를 생성한 후, 훈련 중인 단계에서 적대적 사례를 신경망에 적용하는 것이다. 그러나, 적대적 훈련은 기존의 공격 기술 및 기존의 공격 기술에 대한 유사 공격 기술에 대해서만 효과적이고, 새로운 공격 기술 및 첨단 공격 기술에는 취약하다. 또한, 훈련용으로 적대적 사례를 생성하기 위해서는, 적대적 훈련은 적어도 1개 이상의 공격 기술을 필요로 한다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 제안된 것으로, 매핑 및 랜덤화 방법을 통해 원본 이미지로부터 새로운 이미지를 생성하고, 생성된 새로운 이미지로 신경망을 훈련시켜 새로운 공격 기술 및 첨단 공격 기술로부터 신경망을 강력하게 방어할 수 있는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법을 제공한다.
상기의 과제를 해결하기 위한 본 발명의 실시예에 따르면, 공격 기술에 독립적인 적대적 훈련 방법은 컬러(
Figure 112021078033109-pat00001
)의 범위를 설정하고, 컬러(
Figure 112021078033109-pat00002
)의 범위를 일정한 개수(
Figure 112021078033109-pat00003
)로 분할하여 각각의 간격(
Figure 112021078033109-pat00004
)을 생성하는 (a) 단계, 원본 이미지(
Figure 112021078033109-pat00005
)로부터 1개의 배치(batch)를 생성하여 학습 모델을 훈련시키는 (b) 단계, 활성화 함수를 이용하여 원본 이미지(
Figure 112021078033109-pat00006
)의 각각의 픽셀(
Figure 112021078033109-pat00007
)로부터 각각의 간격 인덱스(
Figure 112021078033109-pat00008
)를 예측하는 (c) 단계, 매핑 및 랜덤화를 통해 새로운 이미지(
Figure 112021078033109-pat00009
)를 생성하는 (d) 단계 및 상기 (d) 단계에서 생성된 이미지(
Figure 112021078033109-pat00010
)로 컨볼루션 신경망을 훈련시켜 예측 레이블(
Figure 112021078033109-pat00011
)을 출력하는 (e) 단계를 포함하여 구성되는 것을 특징으로 한다.
또한, 상기 (b) 단계는 원본 이미지(
Figure 112019133545274-pat00012
)로부터 복수 개의 픽셀(
Figure 112019133545274-pat00013
)을 랜덤하게 추출하고, 추출된 각각의 픽셀(
Figure 112019133545274-pat00014
)을 상기 (a) 단계에서 생성된 간격(
Figure 112019133545274-pat00015
)에 대응시켜 각각의 정확한 간격 인덱스(
Figure 112019133545274-pat00016
)를 생성하는 (b-1) 단계, 각각의 픽셀(
Figure 112019133545274-pat00017
) 및 이에 대응하는 각각의 정확한 간격 인덱스(
Figure 112019133545274-pat00018
)를 포함하여 구성되는 각각의 인스턴스를 생성하는 (b-2) 단계, 상기 (b-2) 단계에서 생성된 복수 개의 인스턴스로 구성되는 1개의 배치를 생성하는 (b-3) 단계 및 상기 (b-3) 단계에서 생성된 배치로 학습 모델을 훈련시키는 (b-4) 단계를 포함하여 구성되는 것을 특징으로 한다.
또한, 상기 (d) 단계는 각각의 예측된 간격 인덱스(
Figure 112019133545274-pat00019
)를 매핑하여 대응되는 간격(
Figure 112019133545274-pat00020
)을 반환하는 (d-1)단계, 상기 (d-1) 단계에서 반환된 각각의 간격(
Figure 112019133545274-pat00021
)의 범위 내에서 각각의 새로운 픽셀 (
Figure 112019133545274-pat00022
)을 랜덤하게 생성하는 (d-2) 단계 및 상기 (d-2) 단계에서 생성된 각각의 새로운 픽셀(
Figure 112019133545274-pat00023
)을 원본 이미지(
Figure 112019133545274-pat00024
)의 각각의 픽셀(
Figure 112019133545274-pat00025
)의 위치로 할당하여 새로운 이미지(
Figure 112019133545274-pat00026
)를 생성하는 (d-3) 단계를 포함하여 구성되는 것을 특징으로 한다.
또한, 상기 (c) 단계의 활성화 함수는 Softmax 함수를 사용하는 것을 특징으로 한다.
상기와 같이 구성된 본 발명의 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법은 신경망의 견고성을 향상시키고, 애매모호한 그래디언트(obfuscated gradient)를 생성시키지 않는 효과가 있다.
또한, 본 발명의 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법은 랜덤 노이즈 주입 방법 및 적대적 훈련 방법보다 성능이 우수하다.
또한, 본 발명의 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법은 일반적인 적대적 훈련과는 달리 어떠한 공격 기술도 필요로 하지 않으며, 새로운 공격 기술 및 첨단 공격 기술을 방지할 수 있는 효과가 있다.
도 1은 ALAT의 개념에 대한 순서도이다.
도 2는 ALAT의 개념에 대한 블록도이다.
도 3은 원본 이미지와 ALAT 이미지를 비교한 그림이다.
도 4는 각 사례에 대해 MNIST 데이터세트에서 FGSM, BIM, MIM 및 L2-CW 공격 기술에 의해 교란된 이미지를 비교한 그림이다.
도 5는 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 정확도로 비교한 그래프이다.
도 6은 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 왜곡도로 비교한 그래프이다.
도 7은 1개의 ALAT 모델을 사용한 경우 및 20개의 ALAT 모델을 사용한 경우의 정확도를 비교한 그래프이다.
도 8은 원본 이미지, RNI 이미지 및 ALAT 이미지를 비교한 그림이다.
도 9는 ALAT 방법과 RNI 방법을 비교한 그래프이다.
도 10은 ALAT 방법과 적대적 훈련 방법을 비교한 그래프이다.
이하, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 실시예를 첨부한 도면을 참조하여 설명하기로 한다.
그러나, 하기 실시예는 본 발명의 이해를 돕기 위한 일 예에 불과한 것으로 이에 의해 본 발명의 권리범위가 축소되거나 한정되는 것은 아니다. 또한, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
공격 기술에 독립적인 적대적 훈련 방법은 매핑 및 랜덤화 방법을 통해 원본 이미지로부터 새로운 이미지를 생성하고, 생성된 새로운 이미지로 신경망을 훈련시켜 첨단 공격 기술로부터 신경망을 강력하게 방어할 수 있는 방어 기술이다.
실시예 1. 공격 기술에 독립적인 적대적 훈련 방법의 주요 단계
본 발명의 공격 기술에 독립적인 적대적 훈련 방법을 이하에서는 ALAT라고 부르기로 한다.
ALAT의 주요 단계를 설명하면 다음과 같다.
도 1은 ALAT의 개념에 대한 순서도이다.
도 1을 참조하면, 첫 번째 단계는 컬러
Figure 112019133545274-pat00027
의 범위를 설정하고, 컬러
Figure 112019133545274-pat00028
의 범위를 일정한 개수로 분할하여 각각의 간격
Figure 112019133545274-pat00029
를 생성하는 단계이다. (1010)
컬러
Figure 112019133545274-pat00030
의 범위를
Figure 112019133545274-pat00031
개의 간격으로 분할하면, 간격들의 결과 세트는 {
Figure 112019133545274-pat00032
|
Figure 112019133545274-pat00033
Figure 112019133545274-pat00034
}가 된다. 이 때,
Figure 112019133545274-pat00035
Figure 112019133545274-pat00036
Figure 112019133545274-pat00037
,
Figure 112019133545274-pat00038
,
Figure 112019133545274-pat00039
,...,
Figure 112019133545274-pat00040
이다. 여기서, 간격
Figure 112019133545274-pat00041
의 최소값은
Figure 112019133545274-pat00042
이고, 최대값은
Figure 112019133545274-pat00043
이다.
예를 들어, 컬러
Figure 112019133545274-pat00044
라고 하고, 컬러
Figure 112019133545274-pat00045
를 5개의 간격으로 분할하고, 각각의 간격을 [0,255]에서 동일하게 나누면
Figure 112019133545274-pat00046
=[
Figure 112019133545274-pat00047
,
Figure 112019133545274-pat00048
]=[0,51],
Figure 112019133545274-pat00049
=[
Figure 112019133545274-pat00050
,
Figure 112019133545274-pat00051
]=[52,102],
Figure 112019133545274-pat00052
=[
Figure 112019133545274-pat00053
,
Figure 112019133545274-pat00054
]=[103,153],
Figure 112019133545274-pat00055
=[
Figure 112019133545274-pat00056
,
Figure 112019133545274-pat00057
]=[154,204],
Figure 112019133545274-pat00058
=[
Figure 112019133545274-pat00059
,
Figure 112019133545274-pat00060
]=[205,255]이다.
두 번째 단계는 원본 이미지
Figure 112019133545274-pat00061
로부터 1개의 배치(batch)를 생성하여 학습 모델을 훈련시키는 단계이다.(1020)
먼저, 원본 이미지
Figure 112019133545274-pat00062
로부터 복수 개의 픽셀
Figure 112019133545274-pat00063
를 랜덤하게 추출하고, 추출된 각각의 픽셀
Figure 112019133545274-pat00064
를 상기 첫 번째 단계에서 생성된 간격
Figure 112019133545274-pat00065
에 대응시켜 각각의 정확한 간격 인덱스
Figure 112019133545274-pat00066
를 생성한다.
그리고, 각각의 픽셀
Figure 112019133545274-pat00067
및 이에 대응하는 각각의 정확한 간격 인덱스
Figure 112019133545274-pat00068
를 포함하여 구성되는 각각의 인스턴스를 생성한다. 이 때, 생성되는 인스턴스는
Figure 112019133545274-pat00069
와 같이 표시할 수 있다. 여기서
Figure 112019133545274-pat00070
는 임의로 추출된 픽셀이고,
Figure 112019133545274-pat00071
는 임의로 추출된 픽셀에 대응하는 정확한 간격 인덱스이다.
그리고, 생성된 복수 개의 인스턴스(instance)로 구성되는 1개의 배치(batch)를 생성한다.
마지막으로, 생성된 1개의 배치를 학습 모델에 입력시켜, 학습 모델을 훈련시킨다.
예를 들어, 이전 예제에서 임의로 추출된 픽셀
Figure 112019133545274-pat00072
을 38이라고 하면, 임의로 추출된 픽셀
Figure 112019133545274-pat00073
에 대응하는 정확한 간격 인덱스
Figure 112019133545274-pat00074
은 1이다. 왜냐하면, 38은 0 이상 51 이하의 수이기 때문이다. 다시 말해서, 정확한 간격 인덱스
Figure 112019133545274-pat00075
이 1인 이유는 38이 간격
Figure 112019133545274-pat00076
내에 속한 값이기 때문이다.
이 때, 생성되는 인스턴스는
Figure 112019133545274-pat00077
이다. 또한, 인스턴스
Figure 112019133545274-pat00078
,
Figure 112019133545274-pat00079
,
Figure 112019133545274-pat00080
등도 같은 방식으로 생성할 수 있다. 그리고, 생성된 복수 개의 인스턴스
Figure 112019133545274-pat00081
,
Figure 112019133545274-pat00082
,
Figure 112019133545274-pat00083
,
Figure 112019133545274-pat00084
로 구성되는 1개의 배치가 생성된다. 마지막으로, 생성된 배치를 학습 모델에 입력시켜, 학습 모델을 훈련시킬 수 있다.
본 발명의 실시예 1의 두 번째 단계에서 훈련된 학습 모델을 이하에서는 ALAT 모델이라고 부르기로 한다.
세 번째 단계는 활성화 함수를 이용하여 원본 이미지
Figure 112019133545274-pat00085
의 각각의 픽셀
Figure 112019133545274-pat00086
로부터 각각의 예측된 간격 인덱스
Figure 112019133545274-pat00087
를 출력하는 단계이다.(1030)
간격 인덱스를 예측하는 방정식은 다음과 같다.
Figure 112019133545274-pat00088
여기서,
Figure 112019133545274-pat00089
는 예측된 간격 인덱스이고,
Figure 112019133545274-pat00090
는 가중치,
Figure 112019133545274-pat00091
는 원본 이미지의 픽셀,
Figure 112019133545274-pat00092
는 바이어스(bias),
Figure 112019133545274-pat00093
는 활성화 함수인 Softmax 함수이다.
여기서, 정확한 간격 인덱스는
Figure 112019133545274-pat00094
로 표시하고, 예측된 간격 인덱스는
Figure 112019133545274-pat00095
으로 표시한다. 왜냐하면, 예측된 간격 인덱스는 정확한 간격 인덱스 값이 아닌 훈련된 ALAT 모델로 예측할 수 있는 간격 인덱스 값이기 때문에, 각각의 기호를 구별하여 사용한다.
네 번째 단계는 매핑 및 랜덤화를 통해 새로운 이미지
Figure 112019133545274-pat00096
을 생성하는 단계이다. (1040)
먼저, 각각의 예측된 간격 인덱스
Figure 112019133545274-pat00097
를 매핑하여 이에 대응되는 각각의 간격
Figure 112019133545274-pat00098
을 반환한다. 간격
Figure 112019133545274-pat00099
를 반환하는 함수는 다음과 같다.
Figure 112019133545274-pat00100
여기서, colorset(.)는 예측된 간격 인덱스
Figure 112019133545274-pat00101
로부터 각각의 간격
Figure 112019133545274-pat00102
를 반환하는 함수이다.
그리고, 각각의 매핑된 간격
Figure 112019133545274-pat00103
범위 내에서 각각의 새로운 픽셀
Figure 112019133545274-pat00104
을 랜덤하게 생성한다.
새로운 픽셀
Figure 112019133545274-pat00105
을 생성하는 함수는 다음과 같이 정의된다.
Figure 112019133545274-pat00106
Figure 112019133545274-pat00107
(
Figure 112019133545274-pat00108
,
Figure 112019133545274-pat00109
)
여기서,
Figure 112019133545274-pat00110
Figure 112019133545274-pat00111
의 최소값
Figure 112019133545274-pat00112
Figure 112019133545274-pat00113
의 최대값
Figure 112019133545274-pat00114
사이의 임의의 값을 생성하는 랜덤 함수이다.
마지막으로, 각각의 새로운 픽셀
Figure 112019133545274-pat00115
을 원본 이미지
Figure 112019133545274-pat00116
의 각각의 픽셀
Figure 112019133545274-pat00117
의 위치로 할당하여 ALAT 이미지
Figure 112019133545274-pat00118
를 생성한다.
예를 들어, 이전 예제에서, 원본 이미지의 한 픽셀
Figure 112019133545274-pat00119
를 75라 하면, ALAT 모델에 의해 예측되는 간격 인덱스
Figure 112019133545274-pat00120
는 2가 될 수 있다. 그리고, 예측된 간격 인덱스
Figure 112019133545274-pat00121
colorset 함수에 의해 매핑되어 간격
Figure 112019133545274-pat00122
를 반환한다. 그리고, 매핑된 간격
Figure 112019133545274-pat00123
의 최소값 52와
Figure 112019133545274-pat00124
의 최대값 102 사이의 범위 내에서 새로운 픽셀
Figure 112019133545274-pat00125
를 랜덤하게 생성할 수 있다. 마지막으로, 새로운 픽셀
Figure 112019133545274-pat00126
을 원본 이미지
Figure 112019133545274-pat00127
의 픽셀
Figure 112019133545274-pat00128
의 위치로 할당하고, 원본 이미지의 나머지 픽셀에 대해서도 동일한 방식을 반복함으로써 새로운 이미지
Figure 112019133545274-pat00129
를 생성할 수 있다. 여기서, 원본 이미지로부터 새롭게 생성된 이미지
Figure 112019133545274-pat00130
을 ALAT 이미지라고 부르기로 한다. 또한, 본 발명의 실시예 1의 첫 번째 단계부터 네 번째 단계까지 적용된 방법을 이하에서는 ALAT 방법이라고 부르기로 한다.
다섯 번째 단계는 상기 네 번째 단계에서 ALAT 이미지
Figure 112019133545274-pat00131
로 컨볼루션 신경망(CNN, Convolutional Neural Network)을 훈련시켜 예측 레이블
Figure 112019133545274-pat00132
을 출력하는 단계이다.
ALAT 이미지
Figure 112019133545274-pat00133
로 컨볼루션 신경망을 훈련시키는 방정식은 다음과 같다. (1050)
Figure 112019133545274-pat00134
여기서, 함수
Figure 112019133545274-pat00135
는 한 이미지에 대해 예측 레이블
Figure 112019133545274-pat00136
를 생성하는 함수이다.
도 2는 ALAT의 개념에 대한 블록도이다.
도 2를 참조하면, 컨볼루션 신경망은 3개의 컨볼루션 레이어(three convolutional layers)와 1개의 완전히 연결된 레이어(one fully connected layer)를 포함하여 구성된다.
도 2를 참조하면, 원본 이미지의 각 픽셀이 ALAT 방법에 의해 재생되어 ALAT 이미지를 생성하고, 생성된 ALAT 이미지를 컨볼루션 신경망에 입력하여 예측 레이블을 생성하는 과정을 확인할 수 있다.
도 3은 원본 이미지와 ALAT 이미지를 비교한 그림이다. 도 3을 참조하면, 세 쌍의 이미지를 볼 수 있다. 한 쌍의 이미지에서 왼쪽은 원본 이미지이고, 오른쪽은 ALAT 이미지이다. 실시예 1에서 원본 이미지로부터 생성된 ALAT 이미지는 도 3과 같이 나타낼 수 있다.
실험예 1. 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능 비교
먼저, 실험예 1에서 주로 사용되는 기호는 다음과 같다.
Figure 112019133545274-pat00137
는 원본 이미지
Figure 112019133545274-pat00138
에 대한 적대적 이미지이다.
Figure 112019133545274-pat00139
는 한 이미지를 컨볼루션 신경망(CNN, Convolutional Neural Network)에 입력하여 출력할 수 있는 예측 레이블이다.
또한, 함수
Figure 112019133545274-pat00140
는 한 이미지에 대해 예측 레이블
Figure 112019133545274-pat00141
를 생성하는 함수이다. 그리고, 공격 기술
Figure 112019133545274-pat00142
는 함수
Figure 112019133545274-pat00143
로부터 또는 함수
Figure 112019133545274-pat00144
없이 원본 이미지
Figure 112019133545274-pat00145
에서 적대적 이미지
Figure 112019133545274-pat00146
를 생성하는 함수이다. 그리고,
Figure 112019133545274-pat00147
은 2개의 이미지
Figure 112019133545274-pat00148
,
Figure 112019133545274-pat00149
사이의 거리이다.
본 발명의 실험예 1에 적용되는 공격 기술에는 FGSM(Fast Gradient Sign Method), BIM(Basic Iterative Method), MIM(Momentum Iterative Method), L2-CW(L2-Carlini & Wagner's Attack), BPDA(Backward Pass Differentiable Approximation) 및 EOT(Expectation Over Transformation)가 있다.
먼저, FGSM(Fast Gradient Sign Method)은 Goodfellow 등에 의해 제안되었으며, 적대적 사례를 생성하는 빠르고 간단한 공격 기술이다.
BIM(Basic Iterative Method)은 Kurakin 등에 의해 제안되었으며, 원본 이미지에 대한 최소한의 섭동을 얻기 위해 작은 단계의 크기로 다중 반복을 적용한 FGSM의 확장이다.
MIM(Momentum Iterative Method)은 Dong에 등에 의해 제안되었으며, 운동량 알고리즘을 갖추어 BIM보다 더 진보된 공격 기술이다.
L2-CW는 최소한의 섭동으로 적대적 사례를 찾는데 효과적인 공격 기술이다.
BPDA(Backward Pass Differentiable Approximation)는 역전파(Back-Propagation) 단계 동안 신경망 내에서 미분이 불가능한 레이어를 미분 가능한 근사 함수로 대체하는 공격 기술이다.
EOT(Expectation Over Transformation)는 입력값을 취하는 변환 함수의 선택된 분포에 대해 적대적으로 남아있는 적대적 사례를 생성할 수 있는 공격 기술이다.
그리고, 본 발명의 실험예 1에서는 일반적으로 공개된 벤치마크 데이터세트인 MNIST(Modified National Institute of Standards and Technology), Fashion MNIST, CIFAR-10(Canadian Institute For Advanced Research)을 사용한다.
CIFAR-10 데이터세트에 대해, ALAT 방법이 컬러 이미지에 미치는 영향을 분석하기 위해 다른 CIFAR-10(그레이스케일)을 생성한다.
MNIST 및 fashion MNIST는 10개의 등급 레이블과 관련된 60,000개의 훈련 이미지와 10,000개의 테스트 이미지를 갖는다. 각 이미지의 크기는 28x28 그레이스케일이다. 그리고, CIFAR-10는 10개의 등급과 관련된 50,000개의 훈련 이미지와 10,000개의 테스트 이미지를 갖는다. 각 이미지의 크기는 32x32 컬러이다.
본 발명의 실험예 1에서 FGSM, BIM 및 MIM 공격을 적용하는 경우, MNIST 데이터세트에 대해서는 각 픽셀에 대해 허용되는 최대 섭동
Figure 112019133545274-pat00150
로 설정하고, Fashion MNIST 및 CIFAR-10 데이터세트 에 대해서는
Figure 112019133545274-pat00151
로 설정한다.
또한, L2-CW 공격에 대해, 공격을 실행하기 위한 반복 횟수를 1,000으로 설정한다.
본 발명에서는 서로 다른 공격 시나리오를 갖는 각각의 사례로부터 ALAT 방법을 평가할 수 있다. 이 때, 각각의 사례는 정상적인 사례, 사례 A, 사례 B, 사례 C, 사례 D가 있다.
원본 이미지
Figure 112019133545274-pat00152
에 ALAT 방법을 적용하여 ALAT 이미지
Figure 112019133545274-pat00153
이 생성되는 과정을 다음 식과 같이 표현할 수 있다.
Figure 112019133545274-pat00154
정상적인 사례에서는 테스트 중인 단계에서 ALAT 방법으로 컨볼루션 신경망을 평가한다. 정상적인 사례는 공격이 적용되지 않는 경우로, 원본 이미지로 컨볼루션 신경망을 테스트할 수 있다. 방어 메커니즘은 원본 이미지에 ALAT 방법을 적용하여 ALAT 이미지를 생성한다.
Figure 112019133545274-pat00155
그리고, 방어 메커니즘은 ALAT 이미지를 훈련된 컨볼루션 신경망에 적용한다.
Figure 112019133545274-pat00156
사례 A에서는 테스트 중인 단계에서 ALAT 방법으로 컨볼루션 신경망을 평가한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터를 알고 있지만, ALAT 방법에 대해서는 알지 못한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터를 이용하여 원본 이미지로부터 적대적 이미지를 생성한다.
Figure 112019133545274-pat00157
방어 메커니즘은 수신된 적대적 이미지에 ALAT 방법을 적용하여 ALAT 이미지를 생성한다.
Figure 112019133545274-pat00158
그리고, 방어 메커니즘은 ALAT 이미지를 훈련된 컨볼루션 신경망에 적용한다.
Figure 112019133545274-pat00159
사례 B에서는 테스트 중인 단계에서 ALAT 방법 없이 컨볼루션 신경망을 평가한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터를 알고 있지만, ALAT 방법에 대해서는 알지 못한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터를 이용하여 한 이미지로부터 적대적 이미지를 생성한다.
Figure 112019133545274-pat00160
훈련된 컨볼루션 신경망은 ALAT 방법에 의한 전처리 과정을 거치지 않고, 적대적 이미지를 입력으로 사용한다.
Figure 112019133545274-pat00161
사례 C에서는 테스트 중인 단계에서 ALAT 방법 없이 컨볼루션 신경망을 평가한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터 및 ALAT 모델의 파라미터를 모두 알고 있다. 공격자는 훈련된 컨볼루션 신경망의 파라미터 및 ALAT 모델의 파라미터를 이용하여 원본 이미지로부터 적대적 이미지를 생성한다.
Figure 112019133545274-pat00162
훈련된 컨볼루션 신경망은 ALAT 방법에 의한 전처리 과정을 거치지 않고, 적대적 이미지를 입력으로 사용한다.
Figure 112019133545274-pat00163
사례 D에서는 테스트 중인 단계에서 ALAT 방법으로 컨볼루션 신경망을 평가한다. 공격자는 훈련된 컨볼루션 신경망의 파라미터 및 ALAT 모델의 파라미터를 모두 알고 있다. 공격자는 훈련된 컨볼루션 신경망의 파라미터 및 ALAT 모델의 파라미터를 이용하여 원본 이미지로부터 적대적 이미지를 생성한다.
Figure 112019133545274-pat00164
방어 메커니즘은 수신된 적대적 이미지에 ALAT 방법을 적용하여 ALAT 이미지를 생성한다.
Figure 112019133545274-pat00165
그리고, 방어 메커니즘은 새롭게 생성된 ALAT 이미지를 훈련된 컨볼루션 신경망에 적용한다.
Figure 112019133545274-pat00166
도 4는 각 사례에 대해 MNIST 데이터세트에서 FGSM, BIM, MIM 및 L2-CW 공격 기술에 의해 교란된 이미지를 비교한 그림이다.
도 4를 참조하면, 도 4의 첫 번째 열은 원본 이미지이다. 도 4의 두 번째 열은 정상적인 사례에서 원본 이미지로부터 생성된 ALAT 이미지이다. 도 4의 사례 A, 사례 D 열은 FGSM, BIM, MIM 및 L2-CW 공격 기술에 의해 생성된 적대적 이미지들로부터 생성된 ALAT 이미지이다. 도 4의 사례 B 및 사례 C 열은 FGSM, BIM, MIM, L2-CW 공격에 의해 생성된 적대적 이미지이다.
한편, 사례 C 및 D로부터 생성된 적대적 이미지는 공격자가 ALAT 방법에서 사용된 랜덤화 방법의 미분을 계산하기 어렵기 때문에 높은 섭동을 갖는다. 랜덤화 방법의 미분 계산 문제를 완화시키고, 사례 D에서 생성된 적대적 이미지의 높은 왜곡도를 최소화하기 위해, 각각의 공격 기술을 BPDA 방법 또는 EOT 방법과 통합한다.
방어 시스템이 애매모호한 그래디언트(obfuscated gradient)를 생성하게 되면, 공격 기술은 적대적 사례를 생성하기 위한 적절한 그래디언트 정보를 획득할 수 없다. 또한, BPDA 방법 또는 EOT 방법을 각각의 공격 기술에 통합하는 경우, 기존의 방어 시스템은 애매모호한 그래디언트(obfuscated gradient)로 인해 적대적 사례를 완전히 방어할 수 없는 것으로 알려져 있다.
ALAT 방법이 애매모호한 그래디언트(obfuscated gradient)를 생성하는지 평가하기 위해서, 각각의 공격 기술들을 BPDA 방법 또는 EOT 방법과 통합한다.
ALAT 이미지
Figure 112019133545274-pat00167
는 원본 이미지
Figure 112019133545274-pat00168
에 어떤 노이즈를 추가함으로써 생성된다고 가정하면,
Figure 112019133545274-pat00169
를 구하는 식은 다음과 같다.
Figure 112019133545274-pat00170
여기서,
Figure 112019133545274-pat00171
은 노이즈 행렬이다.
이 때, 다음과 같이 예측 레이블을 산출할 수 있다.
Figure 112019133545274-pat00172
Figure 112019133545274-pat00173
여기서,
Figure 112019133545274-pat00174
는 가중치 행렬이고,
Figure 112019133545274-pat00175
는 바이어스(bias) 행렬이다.
상기 식에서,
Figure 112019133545274-pat00176
의 함수로
Figure 112019133545274-pat00177
를 유도하는 것은 단지
Figure 112019133545274-pat00178
만을 반환한다는 것을 알 수 있다. 이로부터 사례 C 및 사례 D의 공격 시나리오에서 생성된 적대적 사례가 사례 A 및 사례 B의 공격 시나리오에서 생성된 적대적 사례보다 더 높은 섭동을 갖는다는 것을 알 수 있다.
사례 C 및 사례 D의 공격 시나리오에서의 섭동을 최소화하기 위해서, 사례 C 및 사례 D의 공격 시나리오에 대해 BPDA를 사용하여, 적대적 사례를 생성한다.
먼저, 원본 이미지를 ALAT 이미지로 변환하는 전처리 방법을 실행한다. 그리고, 컨볼루션 신경망에 ALAT 이미지를 입력한 후, 컨볼루션 신경망의 예측값 및 손실값을 얻는다. 그 이후, 역-전파 동안
Figure 112019133545274-pat00179
에 관한 손실함수 값에 ALAT 이미지
Figure 112019133545274-pat00180
을 더하여 적대적 ALAT 이미지
Figure 112019133545274-pat00181
을 생성한다.
Figure 112019133545274-pat00182
여기서,
Figure 112019133545274-pat00183
는 각 픽셀에 대해 허용되는 최대 섭동이고,
Figure 112019133545274-pat00184
은 손실 함수이다.
마지막으로, 적대적 ALAT 이미지
Figure 112019133545274-pat00185
에서 노이즈
Figure 112019133545274-pat00186
를 뺀다.
실험예 1에서 사용되는 BPDA의 일반 방정식은 다음과 같다.
Figure 112019133545274-pat00187
Figure 112019133545274-pat00188
여기서
Figure 112019133545274-pat00189
는 공격 기술이다.
EOT 방법을 평가하기 위해서, 10개의 ALAT 이미지를 생성하고, 그 이미지들의 평균을 계산하여, 최종 ALAT 이미지를 생성한다.
Figure 112019133545274-pat00190
최종 ALAT 이미지를 이용하여 적대적 이미지를 생성한다.
도 5는 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 정확도로 비교한 그래프이다.
도 5를 참조하면, ALAT 방법이 Non-ALAT 방법보다 성능이 우수함을 알 수 있다. 이것은 ALAT 방법 없이 훈련된 컨볼루션 신경망보다 ALAT 방법으로 훈련된 컨볼루션 신경망이 더욱 견고하다는 것을 의미한다. 또한, MNIST 및 Fashion MNIST 데이터 세트가 적용된 사례 B에서도 컨볼루션 신경망의 성능이 견고하다는 것을 알 수 있다. 또한, 사례 A 및 사례 D에서 ALAT 방법을 사용한 컨볼루션 신경망은 사례 B 및 사례 C에서 ALAT 방법을 사용한 컨볼루션 신경망보다 성능이 우수함을 알 수 있다.
도 5를 참조하면, BPDA 및 EOT를 다른 공격 기술과 통합한 ALAT 방법에서 컨볼루션 신경망의 성능이 미세하게 저하되었지만, ALAT(BPDA)와 ALAT(10-EOT)의 정확도는 ALAT(사례 A)의 정확도와 유사하다. 따라서, ALAT는 BPDA나 EOT와 같이 애매모호한 그래디언트(obfuscated gradient)를 공격하기 위해 특화된 방법을 효과적으로 방어한다는 것을 알 수 있다.
도 6은 서로 다른 공격 시나리오에 적용되는 ALAT 방법의 성능을 왜곡도로 비교한 그래프이다.
도 6을 참조하면, ALAT 방법은 컬러 데이터 세트보다 그레이스케일 데이터 세트에서 성능이 더욱 우수하다. 이는 CIFAR-10과 CIFAR-10(그레이스케일) 데이터 세트를 비교하면 알 수 있다. 도 6의 ALAT(BPDA) 및 ALAT(10-EOT)에서 알 수 있듯이, BPDA 및 EOT를 다른 공격 기술과 통합한 ALAT 방법에서는 생성된 적대적 이미지의 섭동이 크게 감소한다.
한편, 사례 C 및 사례 D는 실용적이지 않다. 왜냐하면, 인간이 적대적 사례의 섭동을 인식하지 않기 위해서는, 원본 이미지와 적대적 이미지 간의 섭동이 가능한 낮아야 되기 때문이다.
실험예 2. 1개의 ALAT 모델을 사용한 경우와 여러 개의 ALAT 모델을 사용한 경우의 성능 비교
실험예 2에서도 실험예 1에서 사용한 벤치마크 데이터세트 및 공격 기술을 동일하게 적용한다.
여러 개의 ALAT 모델을 훈련시키고, 훈련된 여러 개의 ALAT 모델 중 하나로 원본 이미지의 각각의 픽셀을 예측할 수 있다. 다시 말해서, 원본 이미지의 픽셀을 예측하기 위하여, 여러 개의 ALAT 모델들 중 하나의 ALAT 모델을 임의로 선택할 수 있다. 그 이후, 모든 픽셀들이 재생될 때까지 여러 개의 ALAT 모델들 중 하나의 ALAT 모델을 임의로 선택하는 단계를 반복한다.
실험예 1에서 전술한 바와 같이, 사례 C 및 사례 D는 실용적이지 않으므로 실험에서 제외된다.
도 7은 1개의 ALAT 모델을 사용한 경우 및 20개의 ALAT 모델을 사용한 경우의 정확도를 비교한 그래프이다. 도 7을 참고하면, 20개의 ALAT 모델을 사용한 경우가 이 1개의 ALAT 모델을 사용한 경우보다 성능이 우수함을 알 수 있다.
실험예 3. ALAT 방법과 랜덤 노이즈 주입(RNI, Random Noise Injection) 방법의 성능 비교
실험예 3에서도 실험예 1에서 사용한 벤치마크 데이터세트와 동일한 벤치마크 데이터 세트를 사용한다.
(1) 훈련 중인 단계 (2) 테스트 중인 단계 (3) 훈련 중인 단계 및 테스트 중인 단계 모두를 포함하는 3가지 서로 다른 단계에 RNI 방법을 적용한다.
RNI 방법에서는 균일 분포를 사용하며, 분포 범위는 -1.0과 +1.0 사이로 설정되어 있다.
균일 분포로부터 생성된 노이즈 값은 원본 이미지에 추가된다. 그리고, 합산된 출력을 0.0에서 1.0 (정규화된 픽셀 값) 사이의 범위로 자른다.
RNI의 방정식은 다음과 같다.
Figure 112019133545274-pat00191
여기서,
Figure 112019133545274-pat00192
는 원본 이미지이고,
Figure 112019133545274-pat00193
은 RNI 방법으로부터 생성된 이미지이다. 그리고,
Figure 112019133545274-pat00194
은 -1에서 +1 범위의 균일 분포이다.
도 8은 원본 이미지, RNI 이미지 및 ALAT 이미지를 비교한 그림이다.
도 8을 참조하면, 각 데이터세트에서 왼쪽은 원본 이미지이고, 중간은 RNI 이미지이고, 오른쪽은 ALAT 이미지이다. 도 8을 참조하면, ALAT 방법은 RNI 방법과 달리 인간에 의해 인식 가능한 이미지를 생성할 수 있다.
도 9는 ALAT 방법과 RNI 방법을 비교한 그래프이다.
도 9를 참조하면, 훈련 중인 단계 및 두 단계 모두에서 ALT 방법이 RNI 방법보다 성능이 뛰어남을 알 수 있다. 또한, 에포크(epoch)의 수가 증가함에 따라, ALAT 방법은 RNI 방법보다 정확도면에서 성능이 더욱 우수해진다.
도 9를 참조하면, RNI 이미지는 ALAT 이미지보다 높은 섭동을 갖는다. 따라서, RNI 방법으로 이미지를 생성하면, 컨볼루션 신경망은 그 이미지를 정확하게 분류하기 어렵다.
실험예 4. ALAT 방법과 적대적 훈련 방법의 성능 비교
실험예 4에서도 실험예 1에서 사용한 벤치마크 데이터세트 및 공격 기술을 동일하게 적용한다.
적대적 훈련(adversarial training)은 훈련 중인 단계의 공격 기술과 관련된 것이다. 적대적 훈련에서 FGSM 공격과 같이 낮은 레벨의 공격 기술을 사용하면, BIM 또는 MIM 공격과 같이 높은 레벨의 공격 기술에 비해 성능이 저하된다. 현실적인 실험을 위해, MIM 공격을 적대적 훈련에 사용되는 공격 기술로 설정할 수 있다.
도 10은 ALAT 방법과 적대적 훈련 방법을 비교한 그래프이다.
도 10을 참조하면, 대부분의 경우 ALAT 방법이 적대적 훈련보다 성능이 우수함을 알 수 있다.
실험예 5. 간격의 개수
Figure 112019133545274-pat00195
에 따른 ALAT 방법의 성능
실험예 5에서도 실험예 1에서 사용한 벤치마크 데이터세트 및 공격 기술을 동일하게 적용한다.
실험예 5에서는 간격의 개수
Figure 112019133545274-pat00196
가 컨볼루션 신경망에 미치는 영향을 분석한다. 실험예 5에서
Figure 112019133545274-pat00197
,
Figure 112019133545274-pat00198
Figure 112019133545274-pat00199
으로 각각 설정한다.
실험예 1에서 전술한 바와 같이, 사례 C 및 사례 D는 실용적이지 않으므로 실험에서 제외된다.
표 1은 1000 번째의 에포크에서 서로 다른
Figure 112019133545274-pat00200
개의 간격이 적용된 정상적인 사례, 사례 A 및 사례 B에서 ALAT 방법의 성능을 비교한 표이다.
Figure 112019133545274-pat00201
표 1을 참조하면,
Figure 112019133545274-pat00202
인 ALAT 방법의 성능이 가장 우수하다. 다시 말해서,
Figure 112019133545274-pat00203
인 ALAT 방법의 경우 우승 노드는 19개이다. 또한,
Figure 112019133545274-pat00204
인 ALAT 방법의 경우 우승 노드는 15개이고,
Figure 112019133545274-pat00205
인 ALAT 방법의 경우 우승 노드는 2개이다.
ALAT 방법에 적절한
Figure 112019133545274-pat00206
를 사용하면, 컨볼루션 신경망의 견고성이 향상된다.
삭제

Claims (4)

  1. (a) 컬러(
    Figure 112021078033109-pat00207
    )의 범위를 설정하고, 컬러(
    Figure 112021078033109-pat00208
    )의 범위를 일정한 개수(
    Figure 112021078033109-pat00209
    )로 분할하여 각각의 간격(
    Figure 112021078033109-pat00210
    )을 생성하는 단계;
    (b) 원본 이미지(
    Figure 112021078033109-pat00211
    )로부터 1개의 배치(batch)를 생성하여 학습 모델을 훈련시키는 단계;
    (c) 활성화 함수를 이용하여 원본 이미지(
    Figure 112021078033109-pat00212
    )의 각각의 픽셀(
    Figure 112021078033109-pat00213
    )로부터 각각의 간격 인덱스(
    Figure 112021078033109-pat00214
    )를 예측하는 단계;
    (d) 매핑 및 랜덤화를 통해 새로운 이미지(
    Figure 112021078033109-pat00215
    )를 생성하는 단계; 및
    (e) 상기 (d) 단계에서 생성된 이미지(
    Figure 112021078033109-pat00216
    )로 컨볼루션 신경망을 훈련시켜 예측 레이블(
    Figure 112021078033109-pat00217
    )을 출력하는 단계를 포함하여 구성되는 것을 특징으로 하는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법
  2. 제 1항에 있어서,
    상기 (b) 단계에서는,
    (b-1) 원본 이미지(
    Figure 112021078033109-pat00218
    )로부터 복수 개의 픽셀(
    Figure 112021078033109-pat00219
    )을 랜덤하게 추출하고, 추출된 각각의 픽셀(
    Figure 112021078033109-pat00220
    )을 상기 (a) 단계에서 생성된 간격(
    Figure 112021078033109-pat00221
    )에 대응시켜 각각의 정확한 간격 인덱스(
    Figure 112021078033109-pat00222
    )를 생성하는 단계;
    (b-2) 각각의 픽셀(
    Figure 112021078033109-pat00223
    ) 및 이에 대응하는 각각의 정확한 간격 인덱스(
    Figure 112021078033109-pat00224
    )를 포함하여 구성되는 각각의 인스턴스를 생성하는 단계;
    (b-3) 상기 (b-2) 단계에서 생성된 복수 개의 인스턴스로 구성되는 1개의 배치를 생성하는 단계; 및
    (b-4) 상기 (b-3) 단계에서 생성된 배치로 학습 모델을 훈련시키는 단계를 포함하여 구성되는 것을 특징으로 하는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법
  3. 제 1항에 있어서,
    상기 (d) 단계에서는,
    (d-1) 각각의 예측된 간격 인덱스(
    Figure 112021078033109-pat00225
    )를 매핑하여 대응되는 간격(
    Figure 112021078033109-pat00226
    )을 반환하는 단계;
    (d-2) 상기 (d-1) 단계에서 반환된 각각의 간격(
    Figure 112021078033109-pat00227
    )의 범위 내에서 각각의 새로운 픽셀 (
    Figure 112021078033109-pat00228
    )을 랜덤하게 생성하는 단계; 및
    (d-3) 상기 (d-2) 단계에서 생성된 각각의 새로운 픽셀(
    Figure 112021078033109-pat00229
    )을 원본 이미지(
    Figure 112021078033109-pat00230
    )의 각각의 픽셀(
    Figure 112021078033109-pat00231
    )의 위치로 할당하여 새로운 이미지(
    Figure 112021078033109-pat00232
    )를 생성하는 단계를 포함하여 구성되는 것을 특징으로 하는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법
  4. 제 1항에 있어서,
    상기 (c) 단계의 활성화 함수는 Softmax 함수를 사용하는 것을 특징으로 하는 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법



KR1020190174038A 2019-12-24 2019-12-24 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법 KR102304661B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190174038A KR102304661B1 (ko) 2019-12-24 2019-12-24 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법
US16/783,736 US11580391B2 (en) 2019-12-24 2020-02-06 Attack-less adversarial training for robust adversarial defense

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190174038A KR102304661B1 (ko) 2019-12-24 2019-12-24 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법

Publications (2)

Publication Number Publication Date
KR20210081769A KR20210081769A (ko) 2021-07-02
KR102304661B1 true KR102304661B1 (ko) 2021-09-23

Family

ID=76437229

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190174038A KR102304661B1 (ko) 2019-12-24 2019-12-24 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법

Country Status (2)

Country Link
US (1) US11580391B2 (ko)
KR (1) KR102304661B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102458103B1 (ko) 2022-03-31 2022-10-25 주식회사 애자일소다 다중 분류를 위한 강화학습 장치 및 방법

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7409189B2 (ja) * 2020-03-24 2024-01-09 セイコーエプソン株式会社 色彩値予測システムおよび色彩値予測器の生成方法
KR20230001243A (ko) * 2021-06-28 2023-01-04 동서대학교 산학협력단 기만공격에 의한 ai 역기능 방지 시스템
CN113554089B (zh) * 2021-07-22 2023-04-18 西安电子科技大学 一种图像分类对抗样本防御方法、系统及数据处理终端
CN113807400B (zh) * 2021-08-17 2024-03-29 西安理工大学 一种基于对抗攻击的高光谱图像分类方法、系统和设备
CN115439719B (zh) * 2022-10-27 2023-03-28 泉州装备制造研究所 一种针对对抗攻击的深度学习模型防御方法及模型
CN115631085B (zh) * 2022-12-19 2023-04-11 浙江君同智能科技有限责任公司 一种用于图像保护的主动防御方法及装置
CN116523032B (zh) * 2023-03-13 2023-09-29 之江实验室 一种图像文本双端迁移攻击方法、装置和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5538967B2 (ja) 2009-06-18 2014-07-02 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
US20190220605A1 (en) 2019-03-22 2019-07-18 Intel Corporation Adversarial training of neural networks using information about activation path differentials
WO2019143384A1 (en) 2018-01-18 2019-07-25 Google Llc Systems and methods for improved adversarial training of machine-learned models

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101326691B1 (ko) * 2011-11-28 2013-11-08 경북대학교 산학협력단 지역적 특징의 통계적 학습을 통한 강건한 얼굴인식방법
EP2870753B1 (en) * 2012-07-04 2018-04-25 Thomson Licensing Spatial prediction with increased number of possible coding modes
US10373073B2 (en) * 2016-01-11 2019-08-06 International Business Machines Corporation Creating deep learning models using feature augmentation
KR20180077847A (ko) * 2016-12-29 2018-07-09 주식회사 엔씨소프트 문장 검증 장치 및 방법
KR20190098106A (ko) * 2019-08-02 2019-08-21 엘지전자 주식회사 배치 정규화 레이어 트레이닝 방법
US11836249B2 (en) * 2019-11-21 2023-12-05 Paypal, Inc. System and method for counteracting adversarial attacks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5538967B2 (ja) 2009-06-18 2014-07-02 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
WO2019143384A1 (en) 2018-01-18 2019-07-25 Google Llc Systems and methods for improved adversarial training of machine-learned models
US20190220605A1 (en) 2019-03-22 2019-07-18 Intel Corporation Adversarial training of neural networks using information about activation path differentials

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102458103B1 (ko) 2022-03-31 2022-10-25 주식회사 애자일소다 다중 분류를 위한 강화학습 장치 및 방법

Also Published As

Publication number Publication date
US20210192339A1 (en) 2021-06-24
US11580391B2 (en) 2023-02-14
KR20210081769A (ko) 2021-07-02

Similar Documents

Publication Publication Date Title
KR102304661B1 (ko) 견고한 적대적 방어를 위한 공격 기술에 독립적인 적대적 훈련 방법
Rahman et al. Membership inference attack against differentially private deep learning model.
Aldahdooh et al. Adversarial example detection for DNN models: A review and experimental comparison
Das et al. Shield: Fast, practical defense and vaccination for deep learning using jpeg compression
Kiourti et al. Trojdrl: Trojan attacks on deep reinforcement learning agents
Kwon et al. BlindNet backdoor: Attack on deep neural network using blind watermark
Agarwal et al. Cognitive data augmentation for adversarial defense via pixel masking
Li et al. Deep learning backdoors
Katzir et al. Detecting adversarial perturbations through spatial behavior in activation spaces
Ye et al. Detection defense against adversarial attacks with saliency map
Sun et al. Can shape structure features improve model robustness under diverse adversarial settings?
Taran et al. Machine learning through cryptographic glasses: combating adversarial attacks by key-based diversified aggregation
Chang et al. Evaluating robustness of ai models against adversarial attacks
Guesmi et al. Sit: Stochastic input transformation to defend against adversarial attacks on deep neural networks
Hu et al. RL-VAEGAN: Adversarial defense for reinforcement learning agents via style transfer
Zhao et al. Natural backdoor attacks on deep neural networks via raindrops
Laykaviriyakul et al. Collaborative Defense-GAN for protecting adversarial attacks on classification system
Choi et al. PIHA: Detection method using perceptual image hashing against query-based adversarial attacks
Dai et al. Formulating robustness against unforeseen attacks
Qin et al. Feature fusion based adversarial example detection against second-round adversarial attacks
Liu et al. Model compression hardens deep neural networks: A new perspective to prevent adversarial attacks
Hui et al. FoolChecker: A platform to evaluate the robustness of images against adversarial attacks
Dong et al. Mind your heart: Stealthy backdoor attack on dynamic deep neural network in edge computing
CN115620100A (zh) 一种基于主动学习的神经网络黑盒攻击方法
Westbrook et al. Adversarial attacks on machine learning in embedded and iot platforms

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant