KR20230051952A

KR20230051952A - 이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법

Info

Publication number: KR20230051952A
Application number: KR1020210134957A
Authority: KR
Inventors: 정기석; 임현택
Original assignee: 한양대학교 산학협력단
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2023-04-19
Anticipated expiration: 2041-10-12
Also published as: WO2023063693A1; US20250021824A1; KR102613916B1

Abstract

이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법이 개시된다. 개시된 장치는 정상적인 이미지에 대한 학습을 통해 콘볼루션 신경망 및 FC 신경망의 가중치를 설정하는 정상 이미지 학습부; 상기 학습된 콘볼루션 신경망에 적대적 공격으로 훼손된 이미지를 입력하고 상기 적대적 공격으로 훼손된 이미지로 인해 발생하는 손실 그래디언트 크기를 상기 콘볼루션 신경망의 필터별로 획득하는 적대적 이미지 그래디언트 획득부; 상기 필터별 손실 그래디언트 크기에 기초하여 상기 콘볼루션 신경망의 필터들 중 일부를 프루닝하는 필터 프루닝부; 상기 필터 프루닝에 수정된 콘볼루션 신경망 및 상기 FC 신경망을 상기 정상적인 이미지를 이용하여 재학습하는 재학습부를 포함한다. 개시된 장치 및 방법에 의하면, 콘볼루션 신경망의 필터 프루닝을 통해 효율적으로 적대적 이미지 공격에 대응할 수 있는 장점이 있다.

Description

이미지 적대적 공격에 강인한 이미지 학습 장치 및 방법{Method and Device for Learning Image against Image Adversarial Attack}

본 발명은 이미지 학습 장치 및 방법에 관한 것으로서, 더욱 상세하게는 이미지의 적대적 공격에 강인한 이미지 학습 장치 및 방법에 관한 것이다.

근래에 들어 딥 러닝 네트워크 및 콘볼루션 신경망 등 인공 신경망을 활용한 인공 지능에 대한 연구가 활발히 이루어지고 있다. 특히, 콘볼루션 신경망을 이용한 이미지 처리에 대해서는 급속한 발전이 이루어지고 있으며, 인공 신경망에 의한 이미지 처리는 기존의 알고리즘에 의한 이미지 처리에 비해 뛰어난 성능을 보여주고 있다.

인공 신경망에 대한 발전과 함께 인공 신경망의 성능을 저하시키는 적대적 공격이 대두되었다. 적대적 공격은 신경망 입력 대상 이미지에 의도적인 잡음을 부가하여 인공 신경망의 오작동을 유발하는 공격이다.

인공 신경망은 자율 주행 및 보안과 같이 안전과 직결되는 분야에도 활용될 수 있는데, 이와 같이 안전과 직결되는 분야에서 인공 신경망의 오작동은 심각한 피해를 초래할 수 있다.

특히, 인공 신경망은 이미지 객체 구분, 객체 인식에 널리 활용되고 있고 의료 분야에 각종 이상 질환을 감지하는데도 사용되고 있는데, 이미지에 대한 적대적 공격은 이러한 분야에서의 객체 인식에 심각한 영향을 초래할 수 있으며, 의료 분야에서는 치명적인 문제를 발생시킬 수도 있다.

인공 신경망의 적대적 공격에 대응하기 위해 다양한 방법들이 제안되었으나 이러한 방법들은 신경망의 훈련에 상당한 시간 및 리소스가 소요되거나 적절한 성능을 발휘하지 못하는 문제점이 있었다.

상기 목적을 달성하기 위한 본 발명의 일 측면에 따르면, 정상적인 이미지에 대한 학습을 통해 콘볼루션 신경망 및 FC 신경망의 가중치를 설정하는 정상 이미지 학습부; 상기 학습된 콘볼루션 신경망에 적대적 공격으로 훼손된 이미지를 입력하고 상기 적대적 공격으로 훼손된 이미지로 인해 발생하는 손실 그래디언트 크기를 상기 콘볼루션 신경망의 필터별로 획득하는 적대적 이미지 그래디언트 획득부; 상기 필터별 손실 그래디언트 크기에 기초하여 상기 콘볼루션 신경망의 필터들 중 일부를 프루닝하는 필터 프루닝부; 상기 필터 프루닝에 수정된 콘볼루션 신경망 및 상기 FC 신경망을 상기 정상적인 이미지를 이용하여 재학습하는 재학습부를 포함하는 이미지 적대적 공격에 강인한 이미지 학습 장치가 제공된다.

상기 적대적 이미지 그래디언트 획득부는 상기 적대적 공격으로 훼손된 이미지를 입력하여 상기 FC 신경망에서 출력하는 특징값과 정답 라벨과의 손실을 역전파하면서 발생하는 손실 그래디언트들을 연산하는 손실 그래디언트 연산부; 및 상기 콘볼루션 신경망의 필터별로 상기 손실 그래디언트들을 획득하고, 상기 획득된 손실 그래디언트들의 크기를 필터별로 획득하는 필터별 그래디언트 크기 획득부를 포함한다.

상기 필터별 그래디언트 크기 획득부는 상기 필터별 그래디언트들의 L2 norm을 연산하여 상기 필터별 그래디언트 크기를 획득한다.

상기 필터 프루닝부는 그래디언트의 크기가 경계값 이상인 필터들을 프루닝한다.

상기 경계값은 필터들의 그래디언트 크기들에 기초하여 적응적으로 설정된다.

상기 재학습부는 상기 수정된 콘볼루션 신경망 및 상기 FC 신경망을 통해 출력되는 특징값과 상기 정답 라벨과의 비교를 통해 상기 수정된 콘볼루션 신경망의 가중치를 재설정한다.

본 발명의 다른 측면에 따르면, 정상적인 이미지에 대한 학습을 통해 콘볼루션 신경망 및 FC 신경망의 가중치를 설정하는 단계(a); 상기 학습된 콘볼루션 신경망에 적대적 공격으로 훼손된 이미지를 입력하고 상기 적대적 공격으로 훼손된 이미지로 인해 발생하는 손실 그래디언트 크기를 상기 콘볼루션 신경망의 필터별로 획득하는 단계(b); 상기 필터별 손실 그래디언트 크기에 기초하여 상기 콘볼루션 신경망의 필터들 중 일부를 프루닝하는 단계(c); 상기 단계(c)에 의해 수정된 콘볼루션 신경망 및 상기 FC 신경망을 상기 정상적인 이미지를 이용하여 재학습하는 단계(d)를 포함하는 이미지 적대적 공격에 강인한 이미지 학습 방법이 제공된다.

본 발명에 의하면, 콘볼루션 신경망의 필터 프루닝을 통해 효율적으로 적대적 이미지 공격에 대응할 수 있는 장점이 있다.

도 1은 인공 신경망의 적대적 공격의 예시를 나타낸 도면.
도 2는 본 발명의 일 실시예에 따른 학습 장치 및 방법이 적용되는 신경망의 구조를 나타낸 도면.
도 3은 본 발명의 일 실시예에 따른 이미지 적대적 공격에 강인한 학습 장치의 구조를 나타낸 블록도.
도 4는 본 발명의 일 실시예에 따른 정상 이미지 학습부의 구조를 나타낸 블록도.
도 5는 본 발명의 일 실시예에 따른 적대적 이미지 그래디언트 획득부의 구조를 나타낸 도면.
도 6은 본 발명의 일 실시예에 따른 필터 프루닝이 이루어지는 개념을 나타낸 도면.
도 7은 본 발명의 일 실시예에 따른 이미지 적대적 공격에 대응하기 위한 학습 방법의 전체적인 흐름을 도시한 순서도.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 “...부”, “...기”, “모듈”, “블록” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 인공 신경망의 적대적 공격의 예시를 나타낸 도면이다.

인공 신경망에서의 적대적 공격은 인간의 육안으로는 구별하기 어려운 노이즈를 이미지에 부가하여 인공 신경망 학습 모델의 오작동을 유발시키는 인공 신경망 공격 중 하나이다.

대표적인 적대적 공격으로는 FGSM(Fast Gradient Sign Method)가 있다. FGSM은 다음의 수학식 1과 같이 정의될 수 있다.

위 수학식 1에서, ε은 미리 설정되는 상수이고, x는 입력 이미지, y는 입력 이미지의 정답 라벨이며, θ는 신경망의 파라미터를 의미한다.

도 1을 참조하면, 원본 이미지, 적대적 공격 노이즈 및 적대적 공격에 의해 노이즈가 부가된 이미지가 각각 도시되어 있다. 도 1을 참조하면, 적대적 공격에 의해 노이즈가 부가되었으나 육안으로는 이미지의 변화를 식별하기 어려운 점을 확인할 수 있다.

적대적 공격은 인공 신경망에 대한 학습이 이루어질 때 수학식 1에 따른 노이즈를 역전파를 통해 이미지에 더해주는 방식으로 이루어지며, 육안으로 식별하기 어렵기에 적대적 공격이 이루어졌는지 여부를 판단하기는 매우 어렵다.

적대적 공격은 MNST 데이터 셋에 대해 1.6%의 오류율을 보이는 학습 모델에서 99%의 오류율이 나타나도록 학습 모델의 심각한 오작동을 유발할 수 있게 된다.

기존의 연구에서는 적대적 공격은 인공 신경망의 선형성과 관련되어 발생하는 문제라고 생각되었다. 본 발명의 발명자의 연구에 의하면 이미지의 특징에 따라 적대적 공격에 의한 오작동의 영향이 다르다.

이미지의 특징은 신경망 연산을 통해 출력되며, 이러한 이미지의 특징은 적대적 공격에 강인한 특징과 적대적 공격에 강인하지 않은 특징으로 구분될 수 있다. 이미지의 특징은 다수의 특징맵으로 이루어지며, CNN에서 각 특징맵은 필터(콘볼루션 커널)의 가중치와 입력 이미지에 대한 콘볼루션 연산을 통해 획득된다.

본 발명은 CNN을 구성하는 다수의 필터 중 적대적 공격에 강인하지 않은 특징맵과 연관된 필터를 선택하고, 선택된 필터를 제거하는 방식을 통해 적대적 공격에 강인한 학습 방법을 제안하며, 이하에서는 본 발명의 학습 구조에 대해 상세히 설명한다.

도 2는 본 발명의 일 실시예에 따른 학습 장치 및 방법이 적용되는 신경망의 구조를 나타낸 도면이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 적대적 공격에 강인한 이미지 학습 장치에 적용되는 신경망은 콘볼루션 신경망(200) 및 FC 신경망(300)을 포함한다.

입력 이미지(100)는 콘볼루션 신경망(200)으로 입력되며, 콘볼루션 신경망(200)은 입력 이미지(100)에 대해 필터에 포함된 가중치를 이용한 콘볼루션 연산을 수행하여 특징맵을 생성한다.

본 발명의 일 실시예에 따르면, 콘볼루션 신경망(200)은 다수의 레이어(210, 220, 2n)로 이루어질 수 있다.

콘볼루션 신경망(200)은 각 레이어별로 필터를 포함하고 있으며, 각 레이어별로 독립적으로 콘볼루션 연산을 수행하여 특징맵을 생성한다.

예를 들어, 제1 레이어(210)에는 5개의 필터가 설정되어 있고 각 필터별로 가중치를 이용한 콘볼루션 연산을 수행하여 특징맵을 생성하며, 5개의 필터가 설정되어 있으므로 제1 레이어에서는 5개의 특징맵을 생성한다. 필터의 사이즈 및 특징맵의 사이즈는 신경망 설계자에 의해 미리 설정되며, 필터의 수 역시 신경망 설계자에 의해 미리 설정된다.

제1 레이어(210)에서의 콘볼루션 연산을 통해 출력되는 특징맵은 제2 레이어(220)로 이력된다. 도 2에 도시된 예에서, 제2 레이어(220)에는 6개의 필터가 설정되어 있으며, 제2 레이어에서는 6개의 특징맵을 생성한다.

이와 같이 특정 레이어에서 출력되는 특징맵은 다음 레이어로 입력되며, 이러한 과정은 마지막 레이어인 제N 레이어(2n)까지 동일하게 이루어지고, 제N 레이어(2n)를 통해 최종적인 특징맵이 출력되며, 최종적인 특징맵의 수는 제N 레이어(2n)에 설정된 필터의 수에 상응한다.

콘볼루션 신경망(200)에서 출력된 특징맵은 FC(Fully Connected) 신경망(300)으로 입력된다. FC 신경망(300)은 특징맵에 대한 FC 연산을 통해 특징값을 출력한다. 일례로, 특징값은 인식 하려는 객체 클래스의 확률값일 수 있다.

FC 신경망(300)은 널리 알려진 신경망이고 FC 신경망(300)의 연산 구조는 널리 알려져 있으므로 이에 대한 상세한 설명은 생략하기로 한다.

도 2와 같은 구조의 신경망은 주로 객체 인식을 위한 용도로 사용되며, 적대적 공격이 이미지(100)에 가해질 경우 객체 인식 성능은 심각하게 저하된다.

도 3은 본 발명의 일 실시예에 따른 이미지 적대적 공격에 강인한 학습 장치의 구조를 나타낸 블록도이다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 이미지 적대적 공격에 강인한 학습 장치는 정상 이미지 학습부(400), 적대적 이미지 그래디언트 획득부(410), 필터 프루닝부(420) 및 재학습부(430)를 포함한다.

정상 이미지 학습부(300)는 정상적인 이미지로 콘볼루션 신경망(200)의 필터 및 FC 네트워크(300)의 필터의 가중치를 학습한다. 정상 이미지는 적대적 공격에 훼손되지 않은 이미지를 의미한다.

도 4는 본 발명의 일 실시예에 따른 정상 이미지 학습부의 구조를 나타낸 블록도이다.

본 발명의 일 실시예에 따른 정상 이미지 학습부(400)는 콘볼루션 신경망(200), FC(Fully Connected) 신경망(300) 및 손실 그래디언트 역전파부(402)를 포함한다.

콘볼루션 신경망(200)으로는 정상적인 이미지가 입력되며, 콘볼루션 신경망(200)은 정상적인 이미지에 대한 콘볼루션 연산을 수행하여 특징맵을 생성한다. 앞서 설명한 바와 같이, 현재 설정된 필터의 가중치를 정상적인 이미지에 적용하여 콘볼루션 연산을 수행함으로써 특징맵을 생성한다. 앞서 설명한 바와 같이, 콘볼루션 신경망(200)은 다수의 레이어로 이루어질 수 있으며, 각 레이어별로 독립적으로 특징맵을 생성한다.

FC 신경망(300)은 콘볼루션 신경망(200)에 의해 생성된 특징맵에 대해 추가적인 신경망 연산을 수행하여, 미리 설정된 N개의 클래스에 대한 확률 정보를 생성한다. 여기서 클래스는 인식하고자 하는 객체를 의미한다. 예를 들어, 개, 고양이, 독수리, 소를 이미지로부터 인식하고자 하는 네트워크일 경우, 개, 고양이, 독수리, 소가 각 클래스에 해당된다.

FC 신경망(300)은 신경망 연산을 통해 각 클래스별 확률 정보를 생성하며, 이중 가장 높은 확률을 가지는 클래스를 입력된 이미지에 포함된 객체라고 판단한다. 앞서 설명한 예에서, 개, 고양이, 독수리, 소가 클래스이고, 고양이에 대한 클래스 확률값이 가장 높은 것으로 FC 신경망(300)에서 출력될 경우 이미지에 포함된 객체는 고양이라고 판단하는 것이다.

손실 그래이던트 역전파부(402)는 FC 신경망(300)를 통해 생성되는 클래스별 확률값과 정답 라벨을 비교하고, 손실에 대한 그래디언트를 역전파하는 기능을 한다. 예를 들어, 개 고양이, 독수리, 소를 인식하는 네트워크에서, 입력된 이미지가 고양이일 경우, FC 신경망(300)의 출력은 고양이일 확률이 1이고, 다른 객체일 확률이 0인 것이 가장 이상적이다.

그러나, 학습이 완벽히 완료되지 않은 신경망은 이와 같은 정답을 출력하지는 아니하며, 손실 역전파부(402)는 FC 신경망의 출력과 정답 라벨 사이의 손실에 상응하는 그래디언트를 FC 신경망(300) 및 콘볼루션 신경망(200)에 역전파하는 것이다.

손실 그래디언트 역전파부(402)에 의해 역전파되는 손실을 줄이는 방향으로 그래디언트 값이 설정되며, FC 신경망(300) 및 콘볼루션 신경망(200)은 그래디언트 값에 기초하여 필터의 가중치를 갱신한다.

이와 같은 필터 가중치의 갱신은 반복적으로 이루어지며, 정상 이미지에 대한 학습은 필터의 가중치가 수렴할 때까지 반복적으로 이루어질 수 있다.

적대적 이미지 그래디언트 획득부(410)는 정상적인 이미지에 대해 학습이 완료된 콘볼루션 신경망(200) 및 FC 신경망(300)에 적대적 공격으로 훼손된 적대적 이미지를 입력한 후 적대적 이미지에 대한 신경망 연산에 따른 손실 그래디언트를 획득한다.

도 5는 본 발명의 일 실시예에 따른 적대적 이미지 그래디언트 획득부의 구조를 나타낸 도면이다.

도 5를 참조하면, 본 발명의 일 실시예에 따른 적대적 이미지 그래디언트 획득부(410)는 손실 그래디언트 연산부(412) 및 필터벌 그래디언트 크기 획득부(414)를 포함한다.

손실 그래디언트 획득부(412)는 콘볼루션 신경망(200) 및 FC 신경망(300)의 신경망 연산을 통해 출력되는 클래스 확률값을 정답 이미지의 값과 비교하여 손실 그래디언트를 획득한다.

필터별 손실 그래디언트 크기 획득부(414)는 역전파되는 손실 그래디언트의 크기를 필터별로 획득한다. 본 발명의 일 실시예에 따르면, 각 필터의 손실 그래디언트의 크기는 각 필터의 손실 그래디언트들의 L2 norm을 연산하여 획득할 수 있다. 물론, 크기 정보는 L2 norm 이외에도 다양한 방식을 획득할 수 있다는 점은 당업자에게 있어 자명할 것이다.

하나의 필터로 전파되는 손실 그래디언트의 수는 필터의 가중치의 수에 상응한다. 예를 들어, 특정 필터의 사이즈가 3 X 3일 경우, 총 9개의 손실 그래디언트가 해당 필터로 전파된다. 이 경우, 필터별 손실 그래디언트 크기 획득부(414)는 9개의 손실 그래디언트에 대한 L2 norm을 연산하여 해당 필터의 손실 그래디언트의 크기를 획득하는 것이다.

필터별 손실 그래디언트 크기 획득부(414)에서의 그래디언트 크기를 L2 norm을 통해 연산하는 방법은 다음의 수학식 2와 같이 표현될 수 있다.

위 수학식에서, x_i는 하나의 필터로 전파되는 그래디언트들을 의미하며, 필터의 가중치 수 및 그래디언트들의 수가 9일 경우 n은 9가 된다.

필터 프루닝부(420)는 획득되는 필터별 손실 그래디언트 크기에 기초하여 콘볼루션 신경망(200)을 구성하는 다수의 필터들 중 일부의 필터를 프루닝한다. 여기서 필터 프루닝은 필터의 제거를 의미한다.

본 발명의 일 실시예에 따르면, 다수의 필터들 중 특정 필터의 손실 그래디언트 크기가 미리 설정된 경계값 이상일 경우, 해당 필터를 프루닝한다.

적대적 공격으로 훼손된 이미지가 입력되는 신경망은 이미 정상적인 이미지로 학습된 신경망이다. 따라서, 정상적인 이미지가 입력되었다면 각 필터로 전파되는 손실 그래디언트의 크기는 크지 않을 것이다. 그러나, 적대적 공격으로 훼손된 이미지가 입력될 경우, 특정 필터로 역전파되는 손실 그래디언트의 크기는 적대적 공격으로 인해 커질 수 있다. 큰 손실 그래디언트 크기를 가지는 필터는 적대적 공격에 취약한 특징맵을 생성하는 필터로 동작할 수 있다. 본 발명은 적대적 공격에 강인한 특징맵만이 생성될 수 있도록 미리 설정된 경계값 이상의 손실 그래디언트 크기를 가지는 필터를 제거하는 것이다.

필터 프루닝부(420)의 필터 프루닝은 콘볼루션 신경망을 구성하는 각 레이어의 모든 필터들에 대해 이루어진다.

이때, 경계값은 고정적으로 결정될 수도 있고, 적대적 이미지가 입력될 때 발생하는 손실 그래디언트들의 크기를 고려하여 적응적으로 결정될 수도 있을 것이다.

예를 들어, 특정 레이어의 필터들의 30%를 프루닝하고 70%를 유지하도록 설정할 경우, 해당 레이어의 각 필터들의 손실 그래디언트 크기들을 획득한 후 70%의 필터를 유지하기 위한 손실 그래디언트 크기 경계값을 설정한 후 필터를 프루닝할 수 있을 것이다. 물론, 이와 달리 경계값을 미리 설정하고, 필터 프루닝부(420)는 해당 경계값 이하의 손실 그래디언트 크기를 가지는 모든 필터를 제거하도록 동작할 수도 있을 것이다.

필터 프루닝부에 의해 콘볼루션 신경망에서 선택된 필터들을 제거하여 콘볼루션 신경망이 수정되면, 재학습부(430)는 수정된 콘볼루션 신경망에 대해 정상적인 이미지를 이용하여 재학습을 수행한다. 선택된 필터들이 제거되었으므로 남아 있는 필터들에 대한 재학습을 수행한다. 재학습부(430)에 의한 학습은 정상 이미지 학습부(400)에서의 학습과 동일한 방식으로 이루어진다.

적대적 공격에 취약한 특징맵을 생성하는 필터들이 프루닝되었으므로, 재학습부(430)에 의해 재학습된 콘볼루션 신경망(200) 및 FC 신경망(300)은 적대적 공격에 강인하게 대응할 수 있다.

도 6은 본 발명의 일 실시예에 따른 필터 프루닝이 이루어지는 개념을 나타낸 도면이다.

도 6을 참조하면, 콘볼루션 신경망(200)은 각 레이어별로 다수의 필터를 포함하며, 각 필터를 이용한 콘볼루션 연산에 의해 콘볼루션 신경망(200)에서의 최종 특징맵들(600)이 생성된다.

콘볼루션 신경망(600)에서 출력되는 최종 특징맵들(600)은 FC 신경망(300)으로 입력되며, FC 신경망(300)을 통해 특징값들(650)이 출력된다. 특징값들과 라벨과의 손실에 기초한 그래디언트가 FC 신경망(300) 및 콘볼루션 신경망(200)으로 전파된다.

도 6에서, 빨간색 점선으로 표시된 필터들은 손실 그래디언트의 크기가 경계값 이상인 필터들이며, 필터 프루닝부(430)에서 제거되는 필터들이다. 또한, 도 6에 도시된 최종 특징맵들(600) 중 빨간색 점선으로 표시된 특징맵들은 필터 프루닝이 완료되었을 때 더 이상 생성되지 않는 특징맵들이다.

즉, 필터 프루닝에 의해 각 콘볼루션 레이어의 필터들이 제거되면서 각 레이어에서 출력되는 특징맵의 수 역시 감소하게 된다.

도 7은 본 발명의 일 실시예에 따른 이미지 적대적 공격에 대응하기 위한 학습 방법의 전체적인 흐름을 도시한 순서도이다.

도 7을 참조하면, 우선 정상적인 이미지를 이용하여 콘볼루션 신경망(200) 및 FC 신경망(300)에 대한 학습을 수행하여 콘볼루션 신경망(200)에 대한 필터 가중치를 설정한다(단계 700).

정상적인 이미지에 대한 학습을 통해 필터 가중치가 설정되면, 적대적 공격으로 훼손된 이미지를 학습된 콘볼루션 신경망(200)에 입력한다(단계 710).

콘볼루션 신경망(200)에 입력된 적대적 공격으로 훼손된 이미지에 대한 특징맵들이 콘볼루션 신경망(200)의 콘볼루션 연산을 통해 출력되며, 특징맵들은 학습된 FC 신경망(300)으로 입력된다. FC 신경망(300)에서 출력되는 특징값들과 라벨과의 손실에 기초하여 콘볼루션 신경망의 필터별로 손실 그래디언트를 획득한다(단계 720).

필터별로 손실 그래디언트가 획득되면, 필터별 손실 그래디언트 크기를 획득한다(단계 730). 앞서 설명한 바와 같이, 필터별 그래디언트의 크기는 필터로 전파되는 손실 그래디언트들의 L2 norm 연산을 통해 획득할 수 있을 것이다.

필터별 손실 그래디언트의 크기에 기초하여 필터 프루닝을 수행한다(단계 740). 앞서 설명한 바와 같이, 특정 필터의 손실 그래디언트의 크기와 경계값과의 비교를 통해 해당 필터의 프루닝 여부를 판단한다.

콘볼루션 신경망의 필터 프루닝이 완료되면, 필터 프루닝을 통해 수정된 콘볼루션 신경망를 정상적인 이미지를 이용하여 재학습한다(단계 750).

본 발명에 따른 방법은 컴퓨터에서 실행 시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.

따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

정상적인 이미지에 대한 학습을 통해 콘볼루션 신경망 및 FC 신경망의 가중치를 설정하는 정상 이미지 학습부;
상기 학습된 콘볼루션 신경망에 적대적 공격으로 훼손된 이미지를 입력하고 상기 적대적 공격으로 훼손된 이미지로 인해 발생하는 손실 그래디언트 크기를 상기 콘볼루션 신경망의 필터별로 획득하는 적대적 이미지 그래디언트 획득부;
상기 필터별 손실 그래디언트 크기에 기초하여 상기 콘볼루션 신경망의 필터들 중 일부를 프루닝하는 필터 프루닝부;
상기 필터 프루닝에 수정된 콘볼루션 신경망 및 상기 FC 신경망을 상기 정상적인 이미지를 이용하여 재학습하는 재학습부를 포함하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 장치
제1항에 있어서,
상기 적대적 이미지 그래디언트 획득부는 상기 적대적 공격으로 훼손된 이미지를 입력하여 상기 FC 신경망에서 출력하는 특징값과 정답 라벨과의 손실을 역전파하면서 발생하는 손실 그래디언트들을 연산하는 손실 그래디언트 연산부; 및
상기 콘볼루션 신경망의 필터별로 상기 손실 그래디언트들을 획득하고, 상기 획득된 손실 그래디언트들의 크기를 필터별로 획득하는 필터별 그래디언트 크기 획득부를 포함하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 장치.
제2항에 있어서,
상기 필터별 그래디언트 크기 획득부는 상기 필터별 그래디언트들의 L2 norm을 연산하여 상기 필터별 그래디언트 크기를 획득하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 장치.
제2항에 있어서,
상기 필터 프루닝부는 그래디언트의 크기가 경계값 이상인 필터들을 프루닝하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 장치.
제4항에 있어서,
상기 경계값은 필터들의 그래디언트 크기들에 기초하여 적응적으로 설정되는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 장치.
제2항에 있어서,
상기 재학습부는 상기 수정된 콘볼루션 신경망 및 상기 FC 신경망을 통해 출력되는 특징값과 상기 정답 라벨과의 비교를 통해 상기 수정된 콘볼루션 신경망의 가중치를 재설정하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 장치.
정상적인 이미지에 대한 학습을 통해 콘볼루션 신경망 및 FC 신경망의 가중치를 설정하는 단계(a);
상기 학습된 콘볼루션 신경망에 적대적 공격으로 훼손된 이미지를 입력하고 상기 적대적 공격으로 훼손된 이미지로 인해 발생하는 손실 그래디언트 크기를 상기 콘볼루션 신경망의 필터별로 획득하는 단계(b);
상기 필터별 손실 그래디언트 크기에 기초하여 상기 콘볼루션 신경망의 필터들 중 일부를 프루닝하는 단계(c);
상기 단계(c)에 의해 수정된 콘볼루션 신경망 및 상기 FC 신경망을 상기 정상적인 이미지를 이용하여 재학습하는 단계(d)를 포함하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 방법.
제7항에 있어서,
상기 단계(b)는 상기 적대적 공격으로 훼손된 이미지를 입력하여 상기 FC 신경망에서 출력하는 특징값과 정답 라벨과의 손실을 역전파하면서 발생하는 손실 그래디언트들을 연산하는 단계; 및
상기 콘볼루션 신경망의 필터별로 상기 손실 그래디언트들을 획득하고, 상기 획득된 손실 그래디언트들의 크기를 필터별로 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 방법.
제8항에 있어서,
상기 손실 그래디언트들의 크기를 필터별로 획득하는 단계는 상기 필터별 그래디언트들의 L2 norm을 연산하여 상기 필터별 그래디언트 크기를 획득하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 방법.
제8항에 있어서,
상기 단계(c)는 그래디언트의 크기가 경계값 이상인 필터들을 프루닝하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 방법.
제8항에 있어서,
상기 단계(c)는 그래디언트의 크기가 경계값 이상인 필터들을 프루닝하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 방법.
제8항에 있어서,
상기 단계(d)는 상기 수정된 콘볼루션 신경망 및 상기 FC 신경망을 통해 출력되는 특징값과 상기 정답 라벨과의 비교를 통해 상기 수정된 콘볼루션 신경망의 가중치를 재설정하는 것을 특징으로 하는 이미지 적대적 공격에 강인한 이미지 학습 방법.