KR102301295B1

KR102301295B1 - 모델 추출 공격에 대한 인공신경망 워터마킹의 안전성 평가 방법

Info

Publication number: KR102301295B1
Application number: KR1020200156142A
Authority: KR
Inventors: 손수엘; 이수영
Original assignee: 한국과학기술원
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-09-13
Also published as: US20220164417A1

Abstract

모델 추출 공격에 대한 인공신경망 워터마킹의 안전성 평가 방법이 개시된다. 일 실시예에 따른 인공신경망 워터마킹의 안전성 평가 방법은, 훈련 데이터와 워터마크를 위한 부가 정보를 이용하여 인공신경망 모델을 학습시키는 단계; 상기 학습된 인공신경망 모델과 동일한 구조의 복제 모델을 학습시키기 위한 새로운 훈련 데이터를 수집하는 단계; 상기 복제 모델에 상기 수집된 새로운 훈련 데이터를 입력하여 상기 동일한 구조의 복제 모델을 학습시키는 단계; 및 상기 학습된 복제 모델로부터 실행된 모델 추출 공격을 통해 상기 학습된 인공신경망 모델에 대한 워터마킹의 안전성을 평가하는 단계를 포함할 수 있다.

Description

모델 추출 공격에 대한 인공신경망 워터마킹의 안전성 평가 방법{EVALUATING METHOD ON THE ROBUSTNESS OF WATERMARKS EMBEDDED IN NEURAL NETWORKS AGAINST MODEL STEALING ATTACKS}

아래의 설명은 인공신경망의 소유권 증명을 위한 워터마킹 기술의 안정성을 모델 추출 공격(Model Stealing Attack)의 관점에서 평가할 수 있는 방법 및 평가 지표에 관한 것이다.

자율주행자동차, 이미지 처리, 보안, 금융 등의 다양한 분야에서 인공신경망이 사용됨에 따라서 인공신경망은 많은 악의적인 공격자의 공격 목표가 될 수 있다. 이러한 공격에 대응하기 위해서 인공신경망이 악의적인 공격자에 의해 도난 당했을 경우에 원소유권자의 소유권을 증명할 수 있는 여러 워터마킹 기술이 최근 제안되고 있다(비특허문헌 [1], [2]).

이러한 기술은 워터마크 학습의 단계와 소유권 검증의 단계로 구분된다. 먼저 워터마크 학습의 단계에서는 정상적인 훈련 데이터와 더불어 인공신경망의 워터마크 역할을 하는 키 이미지(key image)와 목표 레이블(target label)의 쌍을 추가로 학습한다. 이때 키 이미지와 목표 레이블은 제3자가 예측할 수 없도록 설계하여 워터마크가 공격자에게 쉽게 노출될 수 없도록 해야 한다.

이후에 소유권 검증의 단계에서 인공신경망의 원소유권자는 학습된 키 이미지를 모델에 질의하고 모델이 학습된 목표 레이블을 반환한다는 것을 보여줌으로써 소유권을 증명할 수 있다. 인공신경망의 과파라미터화(over-parameterization) 덕분에 모델의 본래 정확도를 떨어트리지 않으면서도 키 이미지를 학습시키는 방식의 인공신경망 워터마킹이 가능하다고 알려져 있다(비특허문헌 [3], [4]).

이러한 워터마킹 기술은 인공신경망의 원소유권자를 보호하기 위한 방어 기술로써 반드시 워터마크를 지우려는 다양한 공격 시도로부터 그 안전성이 보장되어야 한다. 하지만 선행연구들은 가지치기(Pruning Attack), 미세조정(Fine-tuning Attack) 공격, 회피(Evasion Attack) 등 일부의 위협으로부터만 워터마킹 기술의 안정성을 평가하였을 뿐, 역시 워터마크 제거를 위한 공격으로 활용될 수 있는 모델 추출 공격에 대해서는 그 안정성을 검증하지 않았다.

모델 추출 공격은 본래 공격자가 모델의 입력과 출력을 관찰할 수 있는 경우에 목표로 하는 모델과 유사한 성능을 내는 모델을 복제하기 위해서 사용하는 공격이다(비특허문헌 [5]). 그 과정에서 공격자는 임의의 이미지를 원본 모델에 입력으로 주고 출력값을 수집하여 새로운 데이터셋을 구성한다. 새로 수집된 데이터셋은 원본 모델을 대표하는 표본이라고 할 수 있고, 따라서 해당 데이터셋을 이용하여 새로운 모델을 학습할 경우 원래 모델과 유사한 성능을 내는 인공신경망을 학습할 수 있게 된다. 인공신경망 워터마킹의 관점에서 모델 추출 공격은 원본 모델로부터 워터마크를 기억하는 기능을 제외한 본래 기능만을 추출해오기 위해 활용될 수 있다.

[1] Jialong Zhang, Zhongshu Gu, Jiyong Jang, Hui Wu, Marc Ph. Stoecklin, Heqing Huang, and Ian Molloy. 2018. Protecting Intellectual Property of Deep Neural Networks with Watermarking. In Proceedings of the ACM Asia Conference on Computer and Communications Security. 159-172. [2] Yossi Adi, Carsten Baum, Moustapha Cisse, Benny Pinkas, and Joseph Keshet. 2018. Turning Your Weakness Into a Strength: Watermarking Deep Neural Networks by Backdooring. In Proceedings of the USENIX Security Symposium. 1615-1631. [3] Anna Choromanska, Mikael Henaff, Michael Mathieu, Gerard Ben Arous, and Yann LeCun. 2015. The Loss Surfaces of Multilayer Networks. In Proceedings of the International Conference on Artificial Intelligence and Statistics. 192-204. [4] Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals. 2017. Understanding Deep Learning Requires Rethinking Generalization. In Proceedings of the International Conference on Learning Representations. [5] Tribhuvanesh Orekondy, Bernt Schiele, and Mario Fritz. 2019. Knockoff Nets: Stealing Functionality of Black-Box Models. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 4954-4963.

인공신경망의 소유권 증명을 위한 워터마킹 기술이 모델 추출 공격으로부터 안전한지 평가하기 위하여 워터마킹된 인공신경망에 모의 공격을 실행하고, 여러 평가 지표를 활용하여 안정성을 평가하는 방법 및 시스템을 제공할 수 있다.

특히, 기존의 워터마킹 기술이 안정성을 평가받지 않은 모델 추출 공격을 수행하는 과정과 공격의 결과로 모델의 워터마킹 기술이 얼마나 안전한지를 평가할 수 있는 지표를 새롭게 정의하는 방법 및 시스템을 제공할 수 있다.

인공신경망 워터마킹의 안전성 평가 방법은, 훈련 데이터와 워터마크를 위한 부가 정보를 이용하여 인공신경망 모델을 학습시키는 단계; 상기 학습된 인공신경망 모델과 동일한 구조의 복제 모델을 학습시키기 위한 새로운 훈련 데이터를 수집하는 단계; 상기 복제 모델에 상기 수집된 새로운 훈련 데이터를 입력하여 상기 동일한 구조의 복제 모델을 학습시키는 단계; 및 상기 학습된 복제 모델로부터 실행된 모델 추출 공격을 통해 상기 학습된 인공신경망 모델에 대한 워터마킹의 안전성을 평가하는 단계를 포함할 수 있다.

상기 인공신경망 모델을 학습시키는 단계는, 인공신경망 모델의 학습을 위한 정상적인 이미지(clean image)와 정상적인 레이블(clean label)의 쌍을 포함하는 훈련 데이터를 준비하고, 다수의 키 이미지(key image)와 목표 레이블(target label)의 쌍을 포함하는 부가 정보를 준비하고, 상기 훈련 데이터에 상기 준비된 부가 정보를 추가하여 인공신경망 모델을 학습시키는 단계를 포함할 수 있다.

상기 새로운 훈련 데이터를 수집하는 단계는, 상기 학습된 인공신경망 모델에 대한 모델 추출 공격을 위하여 복수 개의 임의의 이미지를 준비하고, 상기 학습된 인공신경망 모델에 상기 준비된 복수 개의 임의의 이미지를 입력하고, 상기 학습된 인공신경망 모델을 이용하여 상기 입력된 복수 개의 임의의 이미지의 각각이 특정 클래스에 속할 확률분포를 출력하고, 상기 복수 개의 임의의 이미지 및 상기 출력된 확률분포를 포함하는 쌍을 모델 추출 공격에 사용할 새로운 학습 데이터로 수집하는 단계를 포함할 수 있다.

상기 모델 추출 공격을 실행하는 단계는, 상기 학습된 인공신경망 모델과 동일한 구조의 복제 모델을 생성하고, 상기 수집된 새로운 훈련 데이터를 이용하여 상기 생성된 동일한 구조의 복제 모델을 학습시키는 단계를 포함할 수 있다.

상기 안전성을 평가하는 단계는, 상기 훈련 데이터에 포함된 정상적인 이미지를 예측하는 능력이 상기 인공신경망 모델로부터 상기 복제 모델로 복사되었는지 평가하고, 상기 부가 정보에 포함된 키 이미지를 예측하는 능력이 상기 인공신경망 모델로부터 상기 복제 모델로 복사되었는지를 평가하는 단계를 포함할 수 있다.

상기 안전성을 평가하는 단계는, 상기 훈련 데이터에 포함된 정상적인 이미지에 대한 인공신경망 모델의 정확도와 상기 훈련 데이터에 대한 복제 모델의 정확도를 측정하고, 상기 측정된 인공 신경망 모델의 정확도와 상기 측정된 복제 모델의 정확도의 변화를 계산하는 단계를 포함할 수 있다.

상기 안전성을 평가하는 단계는, 상기 부가 정보에 포함된 키 이미지에 대한 인공신경망 모델의 정확도를 측정하고, 상기 부가 정보에 대한 복제 모델의 정확도를 측정하고, 상기 측정된 인공신경망 모델의 정확도와 상기 측정된 복제 모델의 정확도의 변화를 계산하는 단계를 포함할 수 있다.

인공신경망 워터마킹의 안전성 평가 시스템은, 훈련 데이터와 워터마크를 위한 부가 정보를 이용하여 인공신경망 모델을 학습시키는 워터마킹부; 상기 학습된 인공신경망 모델과 동일한 구조의 복제 모델을 학습시키기 위한 새로운 훈련 데이터를 수집하는 공격 준비부; 상기 복제 모델에 상기 수집된 새로운 훈련 데이터를 입력하여 상기 동일한 구조의 복제 모델을 학습시키는 공격 실행부; 및 상기 학습된 복제 모델로부터 실행된 모델 추출 공격을 통해 상기 학습된 인공신경망 모델에 대한 워터마킹의 안전성을 평가하는 공격 결과 평가부를 포함할 수 있다.

상기 워터마킹부는, 인공신경망 모델의 학습을 위한 정상적인 이미지(clean image)와 정상적인 레이블(clean label)의 쌍을 포함하는 훈련 데이터를 준비하고, 다수의 키 이미지(key image)와 목표 레이블(target label)의 쌍을 포함하는 부가 정보를 준비하고, 상기 훈련 데이터에 상기 준비된 부가 정보를 추가하여 인공신경망 모델을 학습시키는 것을 포함할 수 있다.

상기 공격 준비부는, 상기 학습된 워터마킹된 인공신경망 모델에 대한 모델 추출 공격을 위하여 복수 개의 임의의 이미지를 준비하고, 상기 학습된 인공신경망 모델에 상기 준비된 복수 개의 임의의 이미지를 입력하고, 상기 학습된 인공신경망 모델을 이용하여 상기 입력된 복수 개의 임의의 이미지의 각각이 특정 클래스에 속할 확률분포를 출력하고, 상기 복수 개의 임의의 이미지 및 상기 출력된 확률분포를 포함하는 쌍을 모델 추출 공격에 사용할 새로운 학습 데이터로 수집할 수 있다.

상기 공격 실행부는, 상기 학습된 인공신경망 모델과 동일한 구조의 복제 모델을 생성하고, 상기 수집된 새로운 훈련 데이터를 이용하여 상기 생성된 동일한 구조의 복제 모델을 학습시킬 수 있다.

상기 공격 결과 평가부는, 상기 훈련 데이터에 포함된 정상적인 이미지를 예측하는 능력이 상기 인공신경망 모델로부터 상기 복제 모델로 복사되었는지 평가하고, 상기 부가 정보에 포함된 키 이미지를 예측하는 능력이 상기 인공신경망 모델로부터 상기 복제 모델로 복사되었는지를 평가할 수 있다.

상기 공격 결과 평가부는, 상기 훈련 데이터에 포함된 정상적인 이미지에 대한 인공신경망 모델의 정확도와 상기 훈련 데이터에 대한 복제 모델의 정확도를 측정하고, 상기 측정된 인공 신경망 모델의 정확도와 상기 측정된 복제 모델의 정확도의 변화를 계산할 수 있다.

상기 공격 결과 평가부는, 상기 부가 정보에 포함된 키 이미지에 대한 인공신경망 모델의 정확도를 측정하고, 상기 부가 정보에 대한 복제 모델의 정확도를 측정하고, 상기 측정된 인공신경망 모델의 정확도와 상기 측정된 복제 모델의 정확도의 변화를 계산할 수 있다.

인공신경망 워터마킹 기술이 모델 추출 공격으로부터 얼마나 안전한지 평가할 수 있으며, 이를 통해 인공신경망 워터마킹 기술의 안전성을 추가로 보장할 수 있다.

도 1은 인공신경망 워터마킹 관련 기술을 설명하기 위한 예이다.
도 2는 일 실시예에 따른 인공신경망 워터마킹의 안전성 평가 시스템의 구성을 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 인공신경망 워터마킹의 안전성 평가 시스템에서 인공신경망 워터마킹의 안전성 평가 방법을 설명하기 위한 흐름도이다.
도 4는 일 실시예에 따른 인공신경망 워터마킹의 안전성 평가 시스템에서 모델 소유권자가 인공신경망 모델에 워터마크를 학습시키는 과정을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 인공신경망 워터마킹의 안전성 평가 시스템에서 모델 소유권자가 원본 모델로부터 복제 모델을 학습시킬 훈련 데이터를 수집하는 과정을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 인공신경망 워터마킹의 안전성 평가 시스템에서 모델 소유권자가 인공신경망 모델에 수집된 데이터셋을 활용하여 모델 추출 공격을 실행하는 과정을 설명하기 위한 도면이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

최근 인공신경망 모델은 많은 악의적인 공격자의 공격 목표가 되고 있다. 예를 들면, 악의적인 공격자는 회사 내부의 서버에 침입하여 인공신경망 모델을 훔쳐가서 자신의 모델인 것처럼 사업에 활용할 수 있다. 이에 따라, 모델 원소유주의 지적재산권을 보호하기 위한 다양한 인공신경망 워터마킹 기술이 개시되고 있다. 실시예에서는 이러한 인공신경망 워터마킹 관련 기술의 안전성이 충분히 검증되지 않았음에 주목한 것이다. 기존의 인공신경망 워터마킹 기술은 모델 추출 공격에 대해 안전성이 검증된 바 없다. 이하에서는, 학습된 인공신경망 모델을 서비스에 활용하기 이전에, 워터마킹된 모델이 워터마크를 제거하기 위한 모델 추출 공격으로부터 안전한 지 평가하는 절차 및 지표를 제안하는 동작을 설명하기로 한다.

도 1은 인공신경망 워터마킹 관련 기술을 설명하기 위한 예이다.

모델 소유주(O)는 인공신경망 모델을 학습시켜 해당 모델 기반의 서비스를 제공한다. 공격자(A)는 서버에 침입하여 모델 소유주의 인공신경망 모델을 훔친 후, 모델 소유주와 유사한 서비스를 제공한다. 이에, 모델 소유주가 공격자가 훔쳐간 모델의 원소유권자라는 것을 주장하기 위하여 인공신경망 모델에 워터마크를 심는 인공신경망 워터마킹 기술이 사용될 수 있다.

도 1을 참고하면, 워터마킹이 되어 있는 인공신경망 모델을 나타낸 예이다. 워터마킹이 완료된 모델은 정상적인 이미지(clean image)에 대해서 정상적인 레이블(clean label)을 반환하지만, 키 이미지(key image)가 주어질 경우에는, 정상적인 레이블이 아닌 사전에 학습된 목표 레이블(target label)을 반환한다.

도 2는 일 실시예에 따른 인공신경망 워터마킹의 안전성 평가 시스템의 구성을 설명하기 위한 블록도이고, 도 3은 일 실시예에 따른 인공신경망 워터마킹의 안전성 평가 시스템에서 인공신경망 워터마킹의 안전성 평가 방법을 설명하기 위한 흐름도이다.

인공신경망 워터마킹의 안전성 평가 시스템(100)의 프로세서는 워터마킹부(210), 공격 준비부(220), 공격 실행부(230) 및 공격 결과 평가부(240)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 인공신경망 워터마킹의 안전성 평가 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 3의 인공신경망 워터마킹의 안전성 평가 방법이 포함하는 단계들(310 내지 340)을 수행하도록 인공신경망 워터마킹의 안전성 평가 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.

프로세서는 인공신경망 워터마킹의 안전성 평가 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 인공신경망 워터마킹의 안전성 평가 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 인공신경망 워터마킹의 안전성 평가 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서가 포함하는 워터마킹부(210), 공격 준비부(220), 공격 실행부(230) 및 공격 결과 평가부(240) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(310 내지 340)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.

단계(310)에서 워터마킹부(210)는 훈련 데이터와 워터마크를 위한 부가 정보를 이용하여 인공신경망 모델을 학습시킬 수 있다. 워터마킹부(210)는 인공신경망 모델의 학습을 위한 정상적인 이미지(clean image)와 정상적인 레이블(clean label)의 쌍을 포함하는 훈련 데이터를 준비하고, 다수의 키 이미지(key image)와 목표 레이블(target label)의 쌍을 포함하는 부가 정보를 준비하고, 훈련 데이터에 준비된 부가 정보를 추가하여 인공신경망 모델을 학습시킬 수 있다.

단계(320)에서 공격 준비부(220)는 학습된 인공신경망 모델과 동일한 구조의 복제 모델을 학습시키기 위한 새로운 훈련 데이터를 수집할 수 있다. 공격 준비부(220)는 학습된 인공신경망 모델에 대한 모델 추출 공격을 위하여 복수 개의 임의의 이미지를 준비하고, 학습된 인공신경망 모델에 준비된 복수 개의 임의의 이미지를 입력하고, 학습된 인공신경망 모델을 이용하여 입력된 복수 개의 임의의 이미지의 각각이 특정 클래스에 속할 확률분포를 출력하고, 복수 개의 임의의 이미지 및 출력된 확률분포를 포함하는 쌍을 모델 추출 공격에 사용할 새로운 학습 데이터로 수집할 수 있다.

단계(330)에서 공격 실행부(230)는 복제 모델에 수집된 새로운 훈련 데이터를 입력하여 상기 동일한 구조의 복제 모델을 학습시킬 수 있다. 공격 실행부(230)는 학습된 인공신경망 모델과 동일한 구조의 복제 모델을 생성하고, 수집된 새로운 훈련 데이터를 이용하여 생성된 동일한 구조의 복제 모델을 학습시킬 수 있다.

단계(340)에서 공격 결과 평가부(240)는 학습된 복제 모델로부터 실행된 모델 추출 공격을 통해 학습된 인공신경망 모델에 대한 워터마킹의 안전성을 평가할 수 있다. 공격 결과 평가부(240)는 훈련 데이터에 포함된 정상적인 이미지를 예측하는 능력이 인공신경망 모델로부터 복제 모델로 복사되었는지 평가하고, 부가 정보에 포함된 키 이미지를 예측하는 능력이 인공신경망 모델로부터 복제 모델로 복사되었는지를 평가할 수 있다. 공격 결과 평가부(240)는 훈련 데이터에 포함된 정상적인 이미지에 대한 인공신경망 모델의 정확도와 훈련 데이터에 대한 복제 모델의 정확도를 측정하고, 측정된 인공 신경망 모델의 정확도와 측정된 복제 모델의 정확도의 변화를 계산할 수 있다. 공격 결과 평가부(240)는 부가 정보에 포함된 키 이미지에 대한 인공신경망 모델의 정확도를 측정하고, 부가 정보에 대한 복제 모델의 정확도를 측정하고, 측정된 인공신경망 모델의 정확도와 측정된 복제 모델의 정확도의 변화를 계산할 수 있다.

도 4는 일 실시예에 따른 인공신경망 워터마킹의 안전성 평가 시스템에서 모델 소유권자가 인공신경망 모델에 워터마크를 학습시키는 과정을 설명하기 위한 도면이다.

인공신경망 워터마킹의 안전성 평가 시스템(이하, '안전성 평가 시스템'으로 기재하기로 함)은 모델 소유주(O)에 의한 명령을 입력받을 수 있고, 모델 소유주로부터 입력된 명령에 기초하여 인공신경망 워터마킹의 안전성을 평가할 수 있다.

안전성 평가 시스템은 인공신경망 워터마킹 기술 중 하나를 활용하여 복수 개(예를 들면, N_key 개)의 키 이미지(key image)와 목표 레이블(target label)을 포함하는 쌍을 준비할 수 있다. 모델 소유주에 의하여 키 이미지와 목표 레이블의 쌍이 준비될 수 있다. 이때, N_key 개는 키 이미지의 개수를 의미할 수 있다.

키 이미지는 소유권 검증 과정에서 워터마킹이 된 모델에 입력으로 주기 위한 이미지로 모델 소유주에 의해 정의될 수 있다. 예를 들면, 일반적인 이미지에 로고를 찍은 이미지가 활용될 수 있다.

목표 레이블은 소유권 검증 과정에서 워터마킹이 된 모델에 키 이미지를 입력으로 주면 모델이 반환할 레이블로 모델 소유주가 사전에 정의할 수 있다. 예를 들면, 사과 이미지에 로고를 찍은 키 이미지에 바나나라는 잘못된 레이블이 할당될 수 있다.

일례로, 키 이미지를 생성하는 방법이나 키 이미지에 목표 레이블을 할당하는 방법은 다음과 같은 비특허문헌 [6]<Protecting deep learning models using watermarking, United States Patent Application 20190370440>, 비특허문헌 [7]<Protecting Intellectual Property of Deep Neural Networks with Watermarking, AsiaCCS2018>, 비특허문헌 [8]<Turning Your Weakness Into a Strength: Watermarking Deep Neural Networks by Backdooring, USENIX Security 2018>, 비특허문헌 [9]<Robust Watermarking of Neural Network with Exponential Weighting, AsiaCCS 2019>에 개시된 방법이 적용될 수 있다.

안전성 평가 시스템은 모델 소유주로부터 준비된 복수 개(예를 들면, N_clean 개)의 정상적인 훈련 데이터의 쌍에 N_key 개의 쌍이 추가됨에 따라 인공신경망 모델(M_wm)을 학습시킬 수 있다. 인공신경망 모델이 학습됨에 따라 인공신경망 모델이 워터마킹될 수 있다. 이때, N_clean 개는 정상적인 이미지의 개수를 의미할 수 있으며, N_key과 동일하거나 다른 개수일 수 있다.

모델 소유주는 의심스러운 모델에 키 이미지를 전송하여 반환되는 레이블을 기록할 수 있다. 안전성 평가 시스템은 모델 소유주로부터 선택된 의심스러운 모델에 키 이미지를 전송함에 따라 반환되는 레이블을 기록할 수 있다. 안전성 평가 시스템은 반환된 레이블과 목표 레이블이 일치하는 이미지의 개수를 계산할 수 있다. 모델 소유주는 키 이미지에 대한 정확도를 근거로 법정에서의 소유권을 주장할 수 있다.

도 5는 일 실시예에 따른 인공신경망 워터마킹의 안전성 평가 시스템에서 모델 소유권자가 원본 모델로부터 복제 모델을 학습시킬 훈련 데이터를 수집하는 과정을 설명하기 위한 도면이다.

공격자는 모델 소유주의 모델을 훔친 뒤, 모델을 가공하여 워터마크를 제거하려는 시도를 할 수 있다. 기존의 워터마킹 기술들은 미세 조정, 뉴런 가지 치기, 회피 공격 등에 대해서만 안전성이 평가되었을 뿐이다. 하지만, 공격자는 워터마킹된 모델에서 워터마크를 제거하기 위해 모델 추출 공격(model extraction/stealing attack)을 시도할 수 있다. 이에, 모델 소유주는 서비스를 제공하기 전에 워터마킹이 완료된 모델 추출 공격을 시뮬레이션하여 모델의 안전성을 평가할 필요가 있다.

공격자의 능력에 대하여 설명하기로 한다. 공격자는 모델 소유주의 모델을 훔친 상태이므로 훔친 모델의 구조를 알고 있으며, 해당 모델에 임의로 질의하는 것이 가능하다. 여기서 질의란, 모델에 이미지를 입력으로 주고, 모델의 출력에 해당하는 주어진 이미지가 각 클래스에 속할 확률분포를 관찰하는 것을 의미한다. 다만, 공격자는 충분한 학습 데이터가 없기 때문에 자신의 인공신경망 모델(모델 소유주의 인공신경망 모델의 구조를 복제한 복제 모델)을 훈련시킬 능력이 없다.

공격자의 공격 방법에 대하여 설명하기로 한다. 공격자는 임의의 이미지를 수집한 후, 훔친 모델에 질의하여 각 이미지마다 모델이 출력하는 확률분포를 기록할 수 있다. 수집된 임의의 이미지와 기록된 확률분포를 새로운 훈련 데이터로 활용하여 훔친 모델과 동일한 구조의 새로운 인공신경망 모델(복제 모델)을 훈련시킬 수 있다. 훔친 모델은 키 이미지와 목표 레이블을 단순 기억하고 있으므로(오버피팅(over fitting)) 이러한 쌍을 워터마크로 활용할 수 있다. 이때, 오버피팅이란 훈련에 사용된 이미지에서 일반적인 패턴을 추출하여 학습하는 것이 아닌 훈련에 사용된 이미지를 단순히 기억하는 것을 의미한다.

하지만, 수집한 새로운 훈련 데이터에는 키 이미지가 전혀 포함되어 있지 않다. 이에 따라, 수집된 새로운 훈련 데이터가 표현하는 기존 모델의 능력은 대부분 정상적인 이미지의 예측에 관련된 것일 가능성이 높다. 그 결과, 공격자는 훔친 모델로부터 키 이미지를 예측하는 능력을 제외하고 정상적인 이미지에 대한 예측 능력만을 복제할 수 있게 된다.

안전성 평가 시스템은 복수 개(N_arbitrary개)의 임의의 이미지를 준비할 수 있다. 이때, 모델 소유주에 의해 N_arbitrary개의 임의의 이미지가 준비될 수 있다. 안전성 평가 시스템은 워터마킹된 인공신경망 모델에 준비한 임의의 이미지를 입력으로 줄 수 있다. 워터마킹된 인공신경망 모델은 각 이미지가 특정 클래스에 속할 확률분포를 출력할 수 있다. 모델 소유주는 N_arbitrary 개의 임의의 이미지 및 확률분포를 포함하는 쌍을 모델 추출 공격에 사용할 새로운 훈련 데이터로 준비할 수 있다.

도 6은 일 실시예에 따른 인공신경망 워터마킹의 안전성 평가 시스템에서 모델 소유권자가 인공신경망 모델에 수집된 데이터셋을 활용하여 모델 추출 공격을 실행하는 과정을 설명하기 위한 도면이다.

안전성 평가 시스템은 워터마킹된 인공신경망 모델(원본 모델)과 동일한 구조의 복제 모델(인공신경망 모델 M_attack)을 준비한다. 안전성 평가 시스템은 준비한 훈련 데이터를 활용하여 복제 모델을 학습시킬 수 있다.

안전성 평가 시스템은 모델 추출 공격을 평가할 수 있다. 정상적인 이미지를 예측하는 능력이 인공신경망 모델로부터 복제 모델로 복사되었는지 평가될 수 있다. 키 이미지를 예측하는 능력이 인공신경망 모델로부터 복제 모델로 복사되었는지 평가될 수 있다. 안전성 평가 시스템은 정상적인 이미지를 예측하는 능력과 키 이미지를 예측하는 능력(두 가지 능력)을 평가하여 공격자가 인공신경망 모델을 대상으로 모델 추출 공격을 수행할 경우에 공격에 실패할 것임을 확인해야 한다.

안전성 평가 시스템은 모델 추출 공격을 평가함에 따라 복수 개의 평가 지표를 도출할 수 있다. 제1 평가 지표를 활용하여 모델의 본래 정확도가 현저하게 떨어짐을 보이거나, 제2 평가 지표를 활용하여 워터마크가 제거되지 않음을 보여야 한다. 다시 말해서, 평가의 결과로, 복제 모델의 정상적인 이미지를 예측하는 능력이 상당히 떨어지거나 복제 모델에 키 이미지를 예측하는 능력이 그대로 남아있을 경우, 공격에 실패한다고 할 수 있다.

정상적인 이미지에 대한 정확도 변화=

안전성 평가 시스템은 N_clean 개의 훈련 데이터에 대한 인공신경망 모델의 정확도

를 측정할 수 있다. 안전성 평가 시스템은 N_clean 개의 훈련 데이터에 대한 복제 모델의 정확도

를 측정할 수 있다. 안전성 평가 시스템은 인공신경망 모델의 정확도와 복제 모델의 정확도 간 차이를 계산하여 정상적인 이미지에 대한 정확도 변화를 계산할 수 있다.

키 이미지에 대한 정확도 변화=

안전성 평가 시스템은 N_key 쌍의 (키 이미지, 목표 레이블) 데이터에 대한 인공신경망 모델의 정확도

를 측정할 수 있다. 안전성 평가 시스템은 N_key 쌍의 (키 이미지, 목표 레이블) 데이터에 대한 복제 모델의 정확도

를 측정할 수 있다. 안전성 평가 시스템은 인공신경망 모델의 정확도와 복제 모델 간 차이를 계산하여 키 이미지에 대한 정확도 변화를 계산할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

인공신경망 워터마킹의 안전성 평가 방법에 있어서,
훈련 데이터와 워터마크를 위한 부가 정보를 이용하여 인공신경망 모델을 학습시키는 단계;
상기 학습된 인공신경망 모델과 동일한 구조의 복제 모델을 학습시키기 위한 새로운 훈련 데이터를 수집하는 단계;
상기 복제 모델에 상기 수집된 새로운 훈련 데이터를 입력하여 상기 동일한 구조의 복제 모델을 학습시키는 단계; 및
상기 학습된 복제 모델로부터 실행된 모델 추출 공격을 통해 상기 학습된 인공신경망 모델에 대한 워터마킹의 안전성을 평가하는 단계
를 포함하고,
상기 인공신경망 모델을 학습시키는 단계는,
인공신경망 모델의 학습을 위한 정상적인 이미지(clean image)와 정상적인 레이블(clean label)의 쌍을 포함하는 훈련 데이터를 준비하고, 다수의 키 이미지(key image)와 목표 레이블(target label)의 쌍을 포함하는 부가 정보를 준비하고, 상기 훈련 데이터에 상기 준비된 부가 정보를 추가하여 인공신경망 모델을 학습시키는 단계
를 포함하는 인공신경망 워터마킹의 안전성 평가 방법.
삭제
인공신경망 워터마킹의 안전성 평가 방법에 있어서,
훈련 데이터와 워터마크를 위한 부가 정보를 이용하여 인공신경망 모델을 학습시키는 단계;
상기 학습된 인공신경망 모델과 동일한 구조의 복제 모델을 학습시키기 위한 새로운 훈련 데이터를 수집하는 단계;
상기 복제 모델에 상기 수집된 새로운 훈련 데이터를 입력하여 상기 동일한 구조의 복제 모델을 학습시키는 단계; 및
상기 학습된 복제 모델로부터 실행된 모델 추출 공격을 통해 상기 학습된 인공신경망 모델에 대한 워터마킹의 안전성을 평가하는 단계
를 포함하고,
상기 새로운 훈련데이터를 수집하는 단계는,
상기 학습된 워터마킹된 인공신경망 모델에 대한 모델 추출 공격을 위하여 복수 개의 임의의 이미지를 준비하고, 상기 학습된 인공신경망 모델에 상기 준비된 복수 개의 임의의 이미지를 입력하고, 상기 학습된 인공신경망 모델을 이용하여 상기 입력된 복수 개의 임의의 이미지의 각각이 특정 클래스에 속할 확률분포를 출력하고, 상기 복수 개의 임의의 이미지 및 상기 출력된 확률분포를 포함하는 쌍을 모델 추출 공격에 사용할 새로운 학습 데이터로 수집하는 단계
를 포함하는 인공신경망 워터마킹의 안전성 평가 방법.
제1항 또는 제3항에 있어서,
상기 동일한 구조의 복제 모델을 학습시키는 단계는,
상기 학습된 인공신경망 모델과 동일한 구조의 복제 모델을 생성하고, 상기 수집된 새로운 훈련 데이터를 이용하여 상기 생성된 동일한 구조의 복제 모델을 학습시키는 단계
를 포함하는 인공신경망 워터마킹의 안전성 평가 방법.
제1항 또는 제3항에 있어서,
상기 안전성을 평가하는 단계는,
상기 훈련 데이터에 포함된 정상적인 이미지를 예측하는 능력이 상기 인공신경망 모델로부터 상기 복제 모델로 복사되었는지 평가하고, 상기 부가 정보에 포함된 키 이미지를 예측하는 능력이 상기 인공신경망 모델로부터 상기 복제 모델로 복사되었는지를 평가하는 단계
를 포함하는 인공신경망 워터마킹의 안전성 평가 방법.
제5항에 있어서,
상기 안전성을 평가하는 단계는,
상기 훈련 데이터에 포함된 정상적인 이미지에 대한 인공신경망 모델의 정확도와 상기 훈련 데이터에 대한 복제 모델의 정확도를 측정하고, 상기 측정된 인공 신경망 모델의 정확도와 상기 측정된 복제 모델의 정확도의 변화를 계산하는 단계
를 포함하는 인공신경망 워터마킹의 안전성 평가 방법.
제5항에 있어서,
상기 안전성을 평가하는 단계는,
상기 부가 정보에 대한 인공신경망 모델의 정확도를 측정하고, 상기 부가 정보에 대한 복제 모델의 정확도를 측정하고, 상기 측정된 인공신경망 모델의 정확도와 상기 측정된 복제 모델의 정확도의 변화를 계산하는 단계
를 포함하는 인공신경망 워터마킹의 안전성 평가 방법.
인공신경망 워터마킹의 안전성 평가 시스템에 있어서,
훈련 데이터와 워터마크를 위한 부가 정보를 이용하여 인공신경망 모델을 학습시키는 워터마킹부;
상기 학습된 인공신경망 모델과 동일한 구조의 복제 모델을 학습시키기 위한 새로운 훈련 데이터를 수집하는 공격 준비부;
상기 복제 모델에 상기 수집된 새로운 훈련 데이터를 입력하여 상기 동일한 구조의 복제 모델을 학습시키는 공격 실행부; 및
상기 학습된 복제 모델로부터 실행된 모델 추출 공격을 통해 상기 학습된 인공신경망 모델에 대한 워터마킹의 안전성을 평가하는 공격 결과 평가부
를 포함하고,
상기 워터마킹부는,
인공신경망 모델의 학습을 위한 정상적인 이미지(clean image)와 정상적인 레이블(clean label)의 쌍을 포함하는 훈련 데이터를 준비하고, 다수의 키 이미지(key image)와 목표 레이블(target label)의 쌍을 포함하는 부가 정보를 준비하고, 상기 훈련 데이터에 상기 준비된 부가 정보를 추가하여 인공신경망 모델을 학습시키는
인공신경망 워터마킹의 안전성 평가 시스템.
삭제
인공신경망 워터마킹의 안전성 평가 시스템에 있어서,
훈련 데이터와 워터마크를 위한 부가 정보를 이용하여 인공신경망 모델을 학습시키는 워터마킹부;
상기 학습된 인공신경망 모델과 동일한 구조의 복제 모델을 학습시키기 위한 새로운 훈련 데이터를 수집하는 공격 준비부;
상기 복제 모델에 상기 수집된 새로운 훈련 데이터를 입력하여 상기 동일한 구조의 복제 모델을 학습시키는 공격 실행부; 및
상기 학습된 복제 모델로부터 실행된 모델 추출 공격을 통해 상기 학습된 인공신경망 모델에 대한 워터마킹의 안전성을 평가하는 공격 결과 평가부
를 포함하고,
상기 공격 준비부는,
상기 학습된 워터마킹된 인공신경망 모델에 대한 모델 추출 공격을 위하여 복수 개의 임의의 이미지를 준비하고, 상기 학습된 인공신경망 모델에 상기 준비된 복수 개의 임의의 이미지를 입력하고, 상기 학습된 인공신경망 모델을 이용하여 상기 입력된 복수 개의 임의의 이미지의 각각이 특정 클래스에 속할 확률분포를 출력하고, 상기 복수 개의 임의의 이미지 및 상기 출력된 확률분포를 포함하는 쌍을 모델 추출 공격에 사용할 새로운 학습 데이터로 수집하는
것을 특징으로 하는 인공신경망 워터마킹의 안전성 평가 시스템.
제8항 또는 제10항에 있어서,
상기 공격 실행부는,
상기 학습된 인공신경망 모델과 동일한 구조의 복제 모델을 생성하고, 상기 수집된 새로운 훈련 데이터를 이용하여 상기 생성된 동일한 구조의 복제 모델을 학습시키는
것을 특징으로 하는 인공신경망 워터마킹의 안전성 평가 시스템.
제8항 또는 제10항에 있어서,
상기 공격 결과 평가부는,
상기 훈련 데이터에 포함된 정상적인 이미지를 예측하는 능력이 상기 인공신경망 모델로부터 상기 복제 모델로 복사되었는지 평가하고, 상기 부가 정보에 포함된 키 이미지를 예측하는 능력이 상기 인공신경망 모델로부터 상기 복제 모델로 복사되었는지를 평가하는
것을 특징으로 하는 인공신경망 워터마킹의 안전성 평가 시스템.
제12항에 있어서,
상기 공격 결과 평가부는,
상기 훈련 데이터에 포함된 정상적인 이미지에 대한 인공신경망 모델의 정확도와 상기 훈련 데이터에 대한 복제 모델의 정확도를 측정하고, 상기 측정된 인공 신경망 모델의 정확도와 상기 측정된 복제 모델의 정확도의 변화를 계산하는
것을 특징으로 하는 인공신경망 워터마킹의 안전성 평가 시스템.
제12항에 있어서,
상기 공격 결과 평가부는,
상기 부가 정보에 포함된 키 이미지에 대한 인공신경망 모델의 정확도를 측정하고, 상기 부가 정보에 대한 복제 모델의 정확도를 측정하고, 상기 측정된 인공신경망 모델의 정확도와 상기 측정된 복제 모델의 정확도의 변화를 계산하는
것을 특징으로 하는 인공신경망 워터마킹의 안전성 평가 시스템.