KR20230051952A - 이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법 - Google Patents

이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법 Download PDF

Info

Publication number
KR20230051952A
KR20230051952A KR1020210134957A KR20210134957A KR20230051952A KR 20230051952 A KR20230051952 A KR 20230051952A KR 1020210134957 A KR1020210134957 A KR 1020210134957A KR 20210134957 A KR20210134957 A KR 20210134957A KR 20230051952 A KR20230051952 A KR 20230051952A
Authority
KR
South Korea
Prior art keywords
image
neural network
filter
convolutional neural
gradient
Prior art date
Application number
KR1020210134957A
Other languages
English (en)
Other versions
KR102613916B1 (ko
Inventor
정기석
임현택
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020210134957A priority Critical patent/KR102613916B1/ko
Priority to PCT/KR2022/015326 priority patent/WO2023063693A1/ko
Publication of KR20230051952A publication Critical patent/KR20230051952A/ko
Application granted granted Critical
Publication of KR102613916B1 publication Critical patent/KR102613916B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법이 개시된다. 개시된 장치는 정상적인 이미지에 대한 학습을 통해 콘볼루션 신경망 및 FC 신경망의 가중치를 설정하는 정상 이미지 학습부; 상기 학습된 콘볼루션 신경망에 적대적 공격으로 훼손된 이미지를 입력하고 상기 적대적 공격으로 훼손된 이미지로 인해 발생하는 손실 그래디언트 크기를 상기 콘볼루션 신경망의 필터별로 획득하는 적대적 이미지 그래디언트 획득부; 상기 필터별 손실 그래디언트 크기에 기초하여 상기 콘볼루션 신경망의 필터들 중 일부를 프루닝하는 필터 프루닝부; 상기 필터 프루닝에 수정된 콘볼루션 신경망 및 상기 FC 신경망을 상기 정상적인 이미지를 이용하여 재학습하는 재학습부를 포함한다. 개시된 장치 및 방법에 의하면, 콘볼루션 신경망의 필터 프루닝을 통해 효율적으로 적대적 이미지 공격에 대응할 수 있는 장점이 있다.

Description

이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법{Method and Device for Learning Image against Image Adversarial Attack}
본 발명은 이미지 학습 장치 및 방법에 관한 것으로서, 더욱 상세하게는 이미지의 적대적 공격에 강인한 이미지 학습 장치 및 방법에 관한 것이다.
근래에 들어 딥 러닝 네트워크 및 콘볼루션 신경망 등 인공 신경망을 활용한 인공 지능에 대한 연구가 활발히 이루어지고 있다. 특히, 콘볼루션 신경망을 이용한 이미지 처리에 대해서는 급속한 발전이 이루어지고 있으며, 인공 신경망에 의한 이미지 처리는 기존의 알고리즘에 의한 이미지 처리에 비해 뛰어난 성능을 보여주고 있다.
인공 신경망에 대한 발전과 함께 인공 신경망의 성능을 저하시키는 적대적 공격이 대두되었다. 적대적 공격은 신경망 입력 대상 이미지에 의도적인 잡음을 부가하여 인공 신경망의 오작동을 유발하는 공격이다.
인공 신경망은 자율 주행 및 보안과 같이 안전과 직결되는 분야에도 활용될 수 있는데, 이와 같이 안전과 직결되는 분야에서 인공 신경망의 오작동은 심각한 피해를 초래할 수 있다.
특히, 인공 신경망은 이미지 객체 구분, 객체 인식에 널리 활용되고 있고 의료 분야에 각종 이상 질환을 감지하는데도 사용되고 있는데, 이미지에 대한 적대적 공격은 이러한 분야에서의 객체 인식에 심각한 영향을 초래할 수 있으며, 의료 분야에서는 치명적인 문제를 발생시킬 수도 있다.
인공 신경망의 적대적 공격에 대응하기 위해 다양한 방법들이 제안되었으나 이러한 방법들은 신경망의 훈련에 상당한 시간 및 리소스가 소요되거나 적절한 성능을 발휘하지 못하는 문제점이 있었다.
근래에 들어 딥 러닝 네트워크 및 콘볼루션 신경망 등 인공 신경망을 활용한 인공 지능에 대한 연구가 활발히 이루어지고 있다. 특히, 콘볼루션 신경망을 이용한 이미지 처리에 대해서는 급속한 발전이 이루어지고 있으며, 인공 신경망에 의한 이미지 처리는 기존의 알고리즘에 의한 이미지 처리에 비해 뛰어난 성능을 보여주고 있다.
인공 신경망에 대한 발전과 함께 인공 신경망의 성능을 저하시키는 적대적 공격이 대두되었다. 적대적 공격은 신경망 입력 대상 이미지에 의도적인 잡음을 부가하여 인공 신경망의 오작동을 유발하는 공격이다.
인공 신경망은 자율 주행 및 보안과 같이 안전과 직결되는 분야에도 활용될 수 있는데, 이와 같이 안전과 직결되는 분야에서 인공 신경망의 오작동은 심각한 피해를 초래할 수 있다.
특히, 인공 신경망은 이미지 객체 구분, 객체 인식에 널리 활용되고 있고 의료 분야에 각종 이상 질환을 감지하는데도 사용되고 있는데, 이미지에 대한 적대적 공격은 이러한 분야에서의 객체 인식에 심각한 영향을 초래할 수 있으며, 의료 분야에서는 치명적인 문제를 발생시킬 수도 있다.
인공 신경망의 적대적 공격에 대응하기 위해 다양한 방법들이 제안되었으나 이러한 방법들은 신경망의 훈련에 상당한 시간 및 리소스가 소요되거나 적절한 성능을 발휘하지 못하는 문제점이 있었다.
상기 목적을 달성하기 위한 본 발명의 일 측면에 따르면, 정상적인 이미지에 대한 학습을 통해 콘볼루션 신경망 및 FC 신경망의 가중치를 설정하는 정상 이미지 학습부; 상기 학습된 콘볼루션 신경망에 적대적 공격으로 훼손된 이미지를 입력하고 상기 적대적 공격으로 훼손된 이미지로 인해 발생하는 손실 그래디언트 크기를 상기 콘볼루션 신경망의 필터별로 획득하는 적대적 이미지 그래디언트 획득부; 상기 필터별 손실 그래디언트 크기에 기초하여 상기 콘볼루션 신경망의 필터들 중 일부를 프루닝하는 필터 프루닝부; 상기 필터 프루닝에 수정된 콘볼루션 신경망 및 상기 FC 신경망을 상기 정상적인 이미지를 이용하여 재학습하는 재학습부를 포함하는 이미지 적대적 공격에 강인한 이미지 학습 장치가 제공된다.
상기 적대적 이미지 그래디언트 획득부는 상기 적대적 공격으로 훼손된 이미지를 입력하여 상기 FC 신경망에서 출력하는 특징값과 정답 라벨과의 손실을 역전파하면서 발생하는 손실 그래디언트들을 연산하는 손실 그래디언트 연산부; 및 상기 콘볼루션 신경망의 필터별로 상기 손실 그래디언트들을 획득하고, 상기 획득된 손실 그래디언트들의 크기를 필터별로 획득하는 필터별 그래디언트 크기 획득부를 포함한다.
상기 필터별 그래디언트 크기 획득부는 상기 필터별 그래디언트들의 L2 norm을 연산하여 상기 필터별 그래디언트 크기를 획득한다.
상기 필터 프루닝부는 그래디언트의 크기가 경계값 이상인 필터들을 프루닝한다.
상기 경계값은 필터들의 그래디언트 크기들에 기초하여 적응적으로 설정된다.
상기 재학습부는 상기 수정된 콘볼루션 신경망 및 상기 FC 신경망을 통해 출력되는 특징값과 상기 정답 라벨과의 비교를 통해 상기 수정된 콘볼루션 신경망의 가중치를 재설정한다.
본 발명의 다른 측면에 따르면, 정상적인 이미지에 대한 학습을 통해 콘볼루션 신경망 및 FC 신경망의 가중치를 설정하는 단계(a); 상기 학습된 콘볼루션 신경망에 적대적 공격으로 훼손된 이미지를 입력하고 상기 적대적 공격으로 훼손된 이미지로 인해 발생하는 손실 그래디언트 크기를 상기 콘볼루션 신경망의 필터별로 획득하는 단계(b); 상기 필터별 손실 그래디언트 크기에 기초하여 상기 콘볼루션 신경망의 필터들 중 일부를 프루닝하는 단계(c); 상기 단계(c)에 의해 수정된 콘볼루션 신경망 및 상기 FC 신경망을 상기 정상적인 이미지를 이용하여 재학습하는 단계(d)를 포함하는 이미지 적대적 공격에 강인한 이미지 학습 방법이 제공된다.
본 발명에 의하면, 콘볼루션 신경망의 필터 프루닝을 통해 효율적으로 적대적 이미지 공격에 대응할 수 있는 장점이 있다.
도 1은 인공 신경망의 적대적 공격의 예시를 나타낸 도면.
도 2는 본 발명의 일 실시예에 따른 학습 장치 및 방법이 적용되는 신경망의 구조를 나타낸 도면.
도 3은 본 발명의 일 실시예에 따른 이미지 적대적 공격에 강인한 학습 장치의 구조를 나타낸 블록도.
도 4는 본 발명의 일 실시예에 따른 정상 이미지 학습부의 구조를 나타낸 블록도.
도 5는 본 발명의 일 실시예에 따른 적대적 이미지 그래디언트 획득부의 구조를 나타낸 도면.
도 6은 본 발명의 일 실시예에 따른 필터 프루닝이 이루어지는 개념을 나타낸 도면.
도 7은 본 발명의 일 실시예에 따른 이미지 적대적 공격에 대응하기 위한 학습 방법의 전체적인 흐름을 도시한 순서도.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 “...부”, “...기”, “모듈”, “블록” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 인공 신경망의 적대적 공격의 예시를 나타낸 도면이다.
인공 신경망에서의 적대적 공격은 인간의 육안으로는 구별하기 어려운 노이즈를 이미지에 부가하여 인공 신경망 학습 모델의 오작동을 유발시키는 인공 신경망 공격 중 하나이다.
대표적인 적대적 공격으로는 FGSM(Fast Gradient Sign Method)가 있다. FGSM은 다음의 수학식 1과 같이 정의될 수 있다.
Figure pat00001
위 수학식 1에서, ε은 미리 설정되는 상수이고, x는 입력 이미지, y는 입력 이미지의 정답 라벨이며, θ는 신경망의 파라미터를 의미한다.
도 1을 참조하면, 원본 이미지, 적대적 공격 노이즈 및 적대적 공격에 의해 노이즈가 부가된 이미지가 각각 도시되어 있다. 도 1을 참조하면, 적대적 공격에 의해 노이즈가 부가되었으나 육안으로는 이미지의 변화를 식별하기 어려운 점을 확인할 수 있다.
적대적 공격은 인공 신경망에 대한 학습이 이루어질 때 수학식 1에 따른 노이즈를 역전파를 통해 이미지에 더해주는 방식으로 이루어지며, 육안으로 식별하기 어렵기에 적대적 공격이 이루어졌는지 여부를 판단하기는 매우 어렵다.
적대적 공격은 MNST 데이터 셋에 대해 1.6%의 오류율을 보이는 학습 모델에서 99%의 오류율이 나타나도록 학습 모델의 심각한 오작동을 유발할 수 있게 된다.
기존의 연구에서는 적대적 공격은 인공 신경망의 선형성과 관련되어 발생하는 문제라고 생각되었다. 본 발명의 발명자의 연구에 의하면 이미지의 특징에 따라 적대적 공격에 의한 오작동의 영향이 다르다.
이미지의 특징은 신경망 연산을 통해 출력되며, 이러한 이미지의 특징은 적대적 공격에 강인한 특징과 적대적 공격에 강인하지 않은 특징으로 구분될 수 있다. 이미지의 특징은 다수의 특징맵으로 이루어지며, CNN에서 각 특징맵은 필터(콘볼루션 커널)의 가중치와 입력 이미지에 대한 콘볼루션 연산을 통해 획득된다.
본 발명은 CNN을 구성하는 다수의 필터 중 적대적 공격에 강인하지 않은 특징맵과 연관된 필터를 선택하고, 선택된 필터를 제거하는 방식을 통해 적대적 공격에 강인한 학습 방법을 제안하며, 이하에서는 본 발명의 학습 구조에 대해 상세히 설명한다.
도 2는 본 발명의 일 실시예에 따른 학습 장치 및 방법이 적용되는 신경망의 구조를 나타낸 도면이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 적대적 공격에 강인한 이미지 학습 장치에 적용되는 신경망은 콘볼루션 신경망(200) 및 FC 신경망(300)을 포함한다.
입력 이미지(100)는 콘볼루션 신경망(200)으로 입력되며, 콘볼루션 신경망(200)은 입력 이미지(100)에 대해 필터에 포함된 가중치를 이용한 콘볼루션 연산을 수행하여 특징맵을 생성한다.
본 발명의 일 실시예에 따르면, 콘볼루션 신경망(200)은 다수의 레이어(210, 220, 2n)로 이루어질 수 있다.
콘볼루션 신경망(200)은 각 레이어별로 필터를 포함하고 있으며, 각 레이어별로 독립적으로 콘볼루션 연산을 수행하여 특징맵을 생성한다.
예를 들어, 제1 레이어(210)에는 5개의 필터가 설정되어 있고 각 필터별로 가중치를 이용한 콘볼루션 연산을 수행하여 특징맵을 생성하며, 5개의 필터가 설정되어 있으므로 제1 레이어에서는 5개의 특징맵을 생성한다. 필터의 사이즈 및 특징맵의 사이즈는 신경망 설계자에 의해 미리 설정되며, 필터의 수 역시 신경망 설계자에 의해 미리 설정된다.
제1 레이어(210)에서의 콘볼루션 연산을 통해 출력되는 특징맵은 제2 레이어(220)로 이력된다. 도 2에 도시된 예에서, 제2 레이어(220)에는 6개의 필터가 설정되어 있으며, 제2 레이어에서는 6개의 특징맵을 생성한다.
이와 같이 특정 레이어에서 출력되는 특징맵은 다음 레이어로 입력되며, 이러한 과정은 마지막 레이어인 제N 레이어(2n)까지 동일하게 이루어지고, 제N 레이어(2n)를 통해 최종적인 특징맵이 출력되며, 최종적인 특징맵의 수는 제N 레이어(2n)에 설정된 필터의 수에 상응한다.
콘볼루션 신경망(200)에서 출력된 특징맵은 FC(Fully Connected) 신경망(300)으로 입력된다. FC 신경망(300)은 특징맵에 대한 FC 연산을 통해 특징값을 출력한다. 일례로, 특징값은 인식 하려는 객체 클래스의 확률값일 수 있다.
FC 신경망(300)은 널리 알려진 신경망이고 FC 신경망(300)의 연산 구조는 널리 알려져 있으므로 이에 대한 상세한 설명은 생략하기로 한다.
도 2와 같은 구조의 신경망은 주로 객체 인식을 위한 용도로 사용되며, 적대적 공격이 이미지(100)에 가해질 경우 객체 인식 성능은 심각하게 저하된다.
도 3은 본 발명의 일 실시예에 따른 이미지 적대적 공격에 강인한 학습 장치의 구조를 나타낸 블록도이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 이미지 적대적 공격에 강인한 학습 장치는 정상 이미지 학습부(400), 적대적 이미지 그래디언트 획득부(410), 필터 프루닝부(420) 및 재학습부(430)를 포함한다.
정상 이미지 학습부(300)는 정상적인 이미지로 콘볼루션 신경망(200)의 필터 및 FC 네트워크(300)의 필터의 가중치를 학습한다. 정상 이미지는 적대적 공격에 훼손되지 않은 이미지를 의미한다.
도 4는 본 발명의 일 실시예에 따른 정상 이미지 학습부의 구조를 나타낸 블록도이다.
본 발명의 일 실시예에 따른 정상 이미지 학습부(400)는 콘볼루션 신경망(200), FC(Fully Connected) 신경망(300) 및 손실 그래디언트 역전파부(402)를 포함한다.
콘볼루션 신경망(200)으로는 정상적인 이미지가 입력되며, 콘볼루션 신경망(200)은 정상적인 이미지에 대한 콘볼루션 연산을 수행하여 특징맵을 생성한다. 앞서 설명한 바와 같이, 현재 설정된 필터의 가중치를 정상적인 이미지에 적용하여 콘볼루션 연산을 수행함으로써 특징맵을 생성한다. 앞서 설명한 바와 같이, 콘볼루션 신경망(200)은 다수의 레이어로 이루어질 수 있으며, 각 레이어별로 독립적으로 특징맵을 생성한다.
FC 신경망(300)은 콘볼루션 신경망(200)에 의해 생성된 특징맵에 대해 추가적인 신경망 연산을 수행하여, 미리 설정된 N개의 클래스에 대한 확률 정보를 생성한다. 여기서 클래스는 인식하고자 하는 객체를 의미한다. 예를 들어, 개, 고양이, 독수리, 소를 이미지로부터 인식하고자 하는 네트워크일 경우, 개, 고양이, 독수리, 소가 각 클래스에 해당된다.
FC 신경망(300)은 신경망 연산을 통해 각 클래스별 확률 정보를 생성하며, 이중 가장 높은 확률을 가지는 클래스를 입력된 이미지에 포함된 객체라고 판단한다. 앞서 설명한 예에서, 개, 고양이, 독수리, 소가 클래스이고, 고양이에 대한 클래스 확률값이 가장 높은 것으로 FC 신경망(300)에서 출력될 경우 이미지에 포함된 객체는 고양이라고 판단하는 것이다.
손실 그래이던트 역전파부(402)는 FC 신경망(300)를 통해 생성되는 클래스별 확률값과 정답 라벨을 비교하고, 손실에 대한 그래디언트를 역전파하는 기능을 한다. 예를 들어, 개 고양이, 독수리, 소를 인식하는 네트워크에서, 입력된 이미지가 고양이일 경우, FC 신경망(300)의 출력은 고양이일 확률이 1이고, 다른 객체일 확률이 0인 것이 가장 이상적이다.
그러나, 학습이 완벽히 완료되지 않은 신경망은 이와 같은 정답을 출력하지는 아니하며, 손실 역전파부(402)는 FC 신경망의 출력과 정답 라벨 사이의 손실에 상응하는 그래디언트를 FC 신경망(300) 및 콘볼루션 신경망(200)에 역전파하는 것이다.
손실 그래디언트 역전파부(402)에 의해 역전파되는 손실을 줄이는 방향으로 그래디언트 값이 설정되며, FC 신경망(300) 및 콘볼루션 신경망(200)은 그래디언트 값에 기초하여 필터의 가중치를 갱신한다.
이와 같은 필터 가중치의 갱신은 반복적으로 이루어지며, 정상 이미지에 대한 학습은 필터의 가중치가 수렴할 때까지 반복적으로 이루어질 수 있다.
적대적 이미지 그래디언트 획득부(410)는 정상적인 이미지에 대해 학습이 완료된 콘볼루션 신경망(200) 및 FC 신경망(300)에 적대적 공격으로 훼손된 적대적 이미지를 입력한 후 적대적 이미지에 대한 신경망 연산에 따른 손실 그래디언트를 획득한다.
도 5는 본 발명의 일 실시예에 따른 적대적 이미지 그래디언트 획득부의 구조를 나타낸 도면이다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 적대적 이미지 그래디언트 획득부(410)는 손실 그래디언트 연산부(412) 및 필터벌 그래디언트 크기 획득부(414)를 포함한다.
손실 그래디언트 획득부(412)는 콘볼루션 신경망(200) 및 FC 신경망(300)의 신경망 연산을 통해 출력되는 클래스 확률값을 정답 이미지의 값과 비교하여 손실 그래디언트를 획득한다.
필터별 손실 그래디언트 크기 획득부(414)는 역전파되는 손실 그래디언트의 크기를 필터별로 획득한다. 본 발명의 일 실시예에 따르면, 각 필터의 손실 그래디언트의 크기는 각 필터의 손실 그래디언트들의 L2 norm을 연산하여 획득할 수 있다. 물론, 크기 정보는 L2 norm 이외에도 다양한 방식을 획득할 수 있다는 점은 당업자에게 있어 자명할 것이다.
하나의 필터로 전파되는 손실 그래디언트의 수는 필터의 가중치의 수에 상응한다. 예를 들어, 특정 필터의 사이즈가 3 X 3일 경우, 총 9개의 손실 그래디언트가 해당 필터로 전파된다. 이 경우, 필터별 손실 그래디언트 크기 획득부(414)는 9개의 손실 그래디언트에 대한 L2 norm을 연산하여 해당 필터의 손실 그래디언트의 크기를 획득하는 것이다.
필터별 손실 그래디언트 크기 획득부(414)에서의 그래디언트 크기를 L2 norm을 통해 연산하는 방법은 다음의 수학식 2와 같이 표현될 수 있다.
Figure pat00002
위 수학식에서, xi는 하나의 필터로 전파되는 그래디언트들을 의미하며, 필터의 가중치 수 및 그래디언트들의 수가 9일 경우 n은 9가 된다.
필터 프루닝부(420)는 획득되는 필터별 손실 그래디언트 크기에 기초하여 콘볼루션 신경망(200)을 구성하는 다수의 필터들 중 일부의 필터를 프루닝한다. 여기서 필터 프루닝은 필터의 제거를 의미한다.
본 발명의 일 실시예에 따르면, 다수의 필터들 중 특정 필터의 손실 그래디언트 크기가 미리 설정된 경계값 이상일 경우, 해당 필터를 프루닝한다.
적대적 공격으로 훼손된 이미지가 입력되는 신경망은 이미 정상적인 이미지로 학습된 신경망이다. 따라서, 정상적인 이미지가 입력되었다면 각 필터로 전파되는 손실 그래디언트의 크기는 크지 않을 것이다. 그러나, 적대적 공격으로 훼손된 이미지가 입력될 경우, 특정 필터로 역전파되는 손실 그래디언트의 크기는 적대적 공격으로 인해 커질 수 있다. 큰 손실 그래디언트 크기를 가지는 필터는 적대적 공격에 취약한 특징맵을 생성하는 필터로 동작할 수 있다. 본 발명은 적대적 공격에 강인한 특징맵만이 생성될 수 있도록 미리 설정된 경계값 이상의 손실 그래디언트 크기를 가지는 필터를 제거하는 것이다.
필터 프루닝부(420)의 필터 프루닝은 콘볼루션 신경망을 구성하는 각 레이어의 모든 필터들에 대해 이루어진다.
이때, 경계값은 고정적으로 결정될 수도 있고, 적대적 이미지가 입력될 때 발생하는 손실 그래디언트들의 크기를 고려하여 적응적으로 결정될 수도 있을 것이다.
예를 들어, 특정 레이어의 필터들의 30%를 프루닝하고 70%를 유지하도록 설정할 경우, 해당 레이어의 각 필터들의 손실 그래디언트 크기들을 획득한 후 70%의 필터를 유지하기 위한 손실 그래디언트 크기 경계값을 설정한 후 필터를 프루닝할 수 있을 것이다. 물론, 이와 달리 경계값을 미리 설정하고, 필터 프루닝부(420)는 해당 경계값 이하의 손실 그래디언트 크기를 가지는 모든 필터를 제거하도록 동작할 수도 있을 것이다.
필터 프루닝부에 의해 콘볼루션 신경망에서 선택된 필터들을 제거하여 콘볼루션 신경망이 수정되면, 재학습부(430)는 수정된 콘볼루션 신경망에 대해 정상적인 이미지를 이용하여 재학습을 수행한다. 선택된 필터들이 제거되었으므로 남아 있는 필터들에 대한 재학습을 수행한다. 재학습부(430)에 의한 학습은 정상 이미지 학습부(400)에서의 학습과 동일한 방식으로 이루어진다.
적대적 공격에 취약한 특징맵을 생성하는 필터들이 프루닝되었으므로, 재학습부(430)에 의해 재학습된 콘볼루션 신경망(200) 및 FC 신경망(300)은 적대적 공격에 강인하게 대응할 수 있다.
도 6은 본 발명의 일 실시예에 따른 필터 프루닝이 이루어지는 개념을 나타낸 도면이다.
도 6을 참조하면, 콘볼루션 신경망(200)은 각 레이어별로 다수의 필터를 포함하며, 각 필터를 이용한 콘볼루션 연산에 의해 콘볼루션 신경망(200)에서의 최종 특징맵들(600)이 생성된다.
콘볼루션 신경망(600)에서 출력되는 최종 특징맵들(600)은 FC 신경망(300)으로 입력되며, FC 신경망(300)을 통해 특징값들(650)이 출력된다. 특징값들과 라벨과의 손실에 기초한 그래디언트가 FC 신경망(300) 및 콘볼루션 신경망(200)으로 전파된다.
도 6에서, 빨간색 점선으로 표시된 필터들은 손실 그래디언트의 크기가 경계값 이상인 필터들이며, 필터 프루닝부(430)에서 제거되는 필터들이다. 또한, 도 6에 도시된 최종 특징맵들(600) 중 빨간색 점선으로 표시된 특징맵들은 필터 프루닝이 완료되었을 때 더 이상 생성되지 않는 특징맵들이다.
즉, 필터 프루닝에 의해 각 콘볼루션 레이어의 필터들이 제거되면서 각 레이어에서 출력되는 특징맵의 수 역시 감소하게 된다.
도 7은 본 발명의 일 실시예에 따른 이미지 적대적 공격에 대응하기 위한 학습 방법의 전체적인 흐름을 도시한 순서도이다.
도 7을 참조하면, 우선 정상적인 이미지를 이용하여 콘볼루션 신경망(200) 및 FC 신경망(300)에 대한 학습을 수행하여 콘볼루션 신경망(200)에 대한 필터 가중치를 설정한다(단계 700).
정상적인 이미지에 대한 학습을 통해 필터 가중치가 설정되면, 적대적 공격으로 훼손된 이미지를 학습된 콘볼루션 신경망(200)에 입력한다(단계 710).
콘볼루션 신경망(200)에 입력된 적대적 공격으로 훼손된 이미지에 대한 특징맵들이 콘볼루션 신경망(200)의 콘볼루션 연산을 통해 출력되며, 특징맵들은 학습된 FC 신경망(300)으로 입력된다. FC 신경망(300)에서 출력되는 특징값들과 라벨과의 손실에 기초하여 콘볼루션 신경망의 필터별로 손실 그래디언트를 획득한다(단계 720).
필터별로 손실 그래디언트가 획득되면, 필터별 손실 그래디언트 크기를 획득한다(단계 730). 앞서 설명한 바와 같이, 필터별 그래디언트의 크기는 필터로 전파되는 손실 그래디언트들의 L2 norm 연산을 통해 획득할 수 있을 것이다.
필터별 손실 그래디언트의 크기에 기초하여 필터 프루닝을 수행한다(단계 740). 앞서 설명한 바와 같이, 특정 필터의 손실 그래디언트의 크기와 경계값과의 비교를 통해 해당 필터의 프루닝 여부를 판단한다.
콘볼루션 신경망의 필터 프루닝이 완료되면, 필터 프루닝을 통해 수정된 콘볼루션 신경망를 정상적인 이미지를 이용하여 재학습한다(단계 750).
본 발명에 따른 방법은 컴퓨터에서 실행 시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (12)

  1. 정상적인 이미지에 대한 학습을 통해 콘볼루션 신경망 및 FC 신경망의 가중치를 설정하는 정상 이미지 학습부;
    상기 학습된 콘볼루션 신경망에 적대적 공격으로 훼손된 이미지를 입력하고 상기 적대적 공격으로 훼손된 이미지로 인해 발생하는 손실 그래디언트 크기를 상기 콘볼루션 신경망의 필터별로 획득하는 적대적 이미지 그래디언트 획득부;
    상기 필터별 손실 그래디언트 크기에 기초하여 상기 콘볼루션 신경망의 필터들 중 일부를 프루닝하는 필터 프루닝부;
    상기 필터 프루닝에 수정된 콘볼루션 신경망 및 상기 FC 신경망을 상기 정상적인 이미지를 이용하여 재학습하는 재학습부를 포함하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 장치
  2. 제1항에 있어서,
    상기 적대적 이미지 그래디언트 획득부는 상기 적대적 공격으로 훼손된 이미지를 입력하여 상기 FC 신경망에서 출력하는 특징값과 정답 라벨과의 손실을 역전파하면서 발생하는 손실 그래디언트들을 연산하는 손실 그래디언트 연산부; 및
    상기 콘볼루션 신경망의 필터별로 상기 손실 그래디언트들을 획득하고, 상기 획득된 손실 그래디언트들의 크기를 필터별로 획득하는 필터별 그래디언트 크기 획득부를 포함하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 장치.
  3. 제2항에 있어서,
    상기 필터별 그래디언트 크기 획득부는 상기 필터별 그래디언트들의 L2 norm을 연산하여 상기 필터별 그래디언트 크기를 획득하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 장치.
  4. 제2항에 있어서,
    상기 필터 프루닝부는 그래디언트의 크기가 경계값 이상인 필터들을 프루닝하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 장치.
  5. 제4항에 있어서,
    상기 경계값은 필터들의 그래디언트 크기들에 기초하여 적응적으로 설정되는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 장치.
  6. 제2항에 있어서,
    상기 재학습부는 상기 수정된 콘볼루션 신경망 및 상기 FC 신경망을 통해 출력되는 특징값과 상기 정답 라벨과의 비교를 통해 상기 수정된 콘볼루션 신경망의 가중치를 재설정하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 장치.
  7. 정상적인 이미지에 대한 학습을 통해 콘볼루션 신경망 및 FC 신경망의 가중치를 설정하는 단계(a);
    상기 학습된 콘볼루션 신경망에 적대적 공격으로 훼손된 이미지를 입력하고 상기 적대적 공격으로 훼손된 이미지로 인해 발생하는 손실 그래디언트 크기를 상기 콘볼루션 신경망의 필터별로 획득하는 단계(b);
    상기 필터별 손실 그래디언트 크기에 기초하여 상기 콘볼루션 신경망의 필터들 중 일부를 프루닝하는 단계(c);
    상기 단계(c)에 의해 수정된 콘볼루션 신경망 및 상기 FC 신경망을 상기 정상적인 이미지를 이용하여 재학습하는 단계(d)를 포함하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 방법.
  8. 제7항에 있어서,
    상기 단계(b)는 상기 적대적 공격으로 훼손된 이미지를 입력하여 상기 FC 신경망에서 출력하는 특징값과 정답 라벨과의 손실을 역전파하면서 발생하는 손실 그래디언트들을 연산하는 단계; 및
    상기 콘볼루션 신경망의 필터별로 상기 손실 그래디언트들을 획득하고, 상기 획득된 손실 그래디언트들의 크기를 필터별로 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 방법.
  9. 제8항에 있어서,
    상기 손실 그래디언트들의 크기를 필터별로 획득하는 단계는 상기 필터별 그래디언트들의 L2 norm을 연산하여 상기 필터별 그래디언트 크기를 획득하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 방법.
  10. 제8항에 있어서,
    상기 단계(c)는 그래디언트의 크기가 경계값 이상인 필터들을 프루닝하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 방법.
  11. 제8항에 있어서,
    상기 단계(c)는 그래디언트의 크기가 경계값 이상인 필터들을 프루닝하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 방법.
  12. 제8항에 있어서,
    상기 단계(d)는 상기 수정된 콘볼루션 신경망 및 상기 FC 신경망을 통해 출력되는 특징값과 상기 정답 라벨과의 비교를 통해 상기 수정된 콘볼루션 신경망의 가중치를 재설정하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 방법.




KR1020210134957A 2021-10-12 2021-10-12 이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법 KR102613916B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210134957A KR102613916B1 (ko) 2021-10-12 2021-10-12 이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법
PCT/KR2022/015326 WO2023063693A1 (ko) 2021-10-12 2022-10-12 이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210134957A KR102613916B1 (ko) 2021-10-12 2021-10-12 이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20230051952A true KR20230051952A (ko) 2023-04-19
KR102613916B1 KR102613916B1 (ko) 2023-12-13

Family

ID=85988437

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210134957A KR102613916B1 (ko) 2021-10-12 2021-10-12 이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법

Country Status (2)

Country Link
KR (1) KR102613916B1 (ko)
WO (1) WO2023063693A1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190244103A1 (en) * 2018-02-07 2019-08-08 Royal Bank Of Canada Robust pruned neural networks via adversarial training

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102225308B1 (ko) * 2017-11-28 2021-03-09 주식회사 날비컴퍼니 컨볼루션 신경망 내 필터 프루닝 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190244103A1 (en) * 2018-02-07 2019-08-08 Royal Bank Of Canada Robust pruned neural networks via adversarial training

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAO LI Et al., Pruning Filters for Efficient Convnets, arXiv:1608.08710v3 [cs.CV], 1-13pages (2017.03.10.)* *

Also Published As

Publication number Publication date
WO2023063693A1 (ko) 2023-04-20
KR102613916B1 (ko) 2023-12-13

Similar Documents

Publication Publication Date Title
US7676441B2 (en) Information processing apparatus, information processing method, pattern recognition apparatus, and pattern recognition method
EP3861482A1 (en) Verification of classification decisions in convolutional neural networks
EP3620982B1 (en) Sample processing method and device
CN110349190A (zh) 自适应学习的目标跟踪方法、装置、设备及可读存储介质
CN110874471B (zh) 保护隐私安全的神经网络模型的训练方法和装置
KR20200027887A (ko) 복수의 비디오 프레임을 이용하여 cnn의 파라미터를 최적화하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
WO2020078235A1 (en) Boosting ai identification learning
KR20190080818A (ko) 부분 확률맵을 포함하는 딥 러닝 기반 객체 검출 방법 및 장치
JP7047778B2 (ja) ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、及び、ニューラルネットワーク学習プログラム
KR20220111857A (ko) 이미지 적대적 공격에 대비하기 위한 이미지 학습 장치 및 방법
KR20230051952A (ko) 이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법
CN116206151A (zh) 一种图像分类残差神经网络训练实现方法
Nami et al. Adversarial attacks and defense on deep learning models for big data and IoT
CN115456173A (zh) 一种通用化的人工神经网络无监督本地学习方法、系统及应用
CN113806754A (zh) 一种后门防御方法和系统
CN112733754A (zh) 红外夜视图像行人检测方法、电子设备及存储介质
US20240104372A1 (en) Systems and methods for improving training of artificial neural networks
JP7365261B2 (ja) コンピュータシステムおよびプログラム
KR102322927B1 (ko) 인공신경망을 이용한 진단 영상을 구분하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
WO2023067782A1 (ja) 機械学習プログラム、機械学習方法および情報処理装置
US20240144635A1 (en) Techniques For Unsupervised Anomaly Classification Using An Artificial Intelligence Model
US12032688B2 (en) Method of training a module and method of preventing capture of an AI module
KR20240135302A (ko) 픽셀 히스토그램을 활용한 효율적인 스테가노그래피 탐지 방법
WO2022152524A1 (en) A method of training a submodule and preventing capture of an ai module
CN117975155A (zh) 一种基于多特征融合的图像分类方法、装置、设备及介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant