KR20230149279A

KR20230149279A - 위변조 이미지 판정 모델의 학습 방법 및 그 장치

Info

Publication number: KR20230149279A
Application number: KR1020230138356A
Authority: KR
Inventors: 임재성; 김태형
Original assignee: 스냅태그 주식회사
Priority date: 2021-05-13
Filing date: 2023-10-17
Publication date: 2023-10-26
Also published as: KR20220154576A

Abstract

본 개시는 위변조 이미지 판정 모델의 학습 방법 및 그 장치에 관한 것이다. 본 개시의 몇몇 실시예에 따른 위변조 이미지 판정 모델의 학습 방법은, 컴퓨팅 장치에 의해 수행되는 방법에 있어서, 워터마크 이미지 셋에 대응되는 수도(Pseudo) 이미지 셋을 생성하되, 상기 워터마크 이미지 셋은 복수의 클래스 중 어느 하나로 분류되는 복수의 원본 이미지 각각에 인비저블 워터마크를 임베딩한 복수의 워터마크 이미지를 포함하는, 단계 및 상기 복수의 원본 이미지를 포함하는 원본 이미지 셋 및 상기 수도 이미지 셋을 학습 데이터로 이용하여, 입력 이미지에 대한 OOD(Out-Of-Distribution) 탐지를 수행하는 위변조 이미지 판정 모델을 학습시키는 단계를 포함할 수 있다.

Description

위변조 이미지 판정 모델의 학습 방법 및 그 장치{METHOD AND APPARATUS FOR LEARNING OF FORGERY IMAGE JUDGEMENT MODEL}

본 개시는 위변조 이미지 판정 모델의 학습 방법 및 그 장치에 관한 것이다. 보다 구체적으로는, 원본 이미지에 대응되는 수도(Pseudo) 이미지를 생성하고 이를 이용함으로써, OOD(Out-Of-Distribution) 탐지에 기반하여 위변조 이미지를 판정하는 모델을 학습시키는 방법 및 그 장치에 관한 것이다.

위변조 이미지, 예컨대 딥페이크 이미지로 인한 피해는 사물 인터넷 시대의 도래와 함께 빠른 속도로 증가하고 있다. 그 피해의 대상은 연예인부터 일반인까지 광범위하며, 디지털 성범죄, 불법 복제 및 저작권 침해 등 각종 범죄에 위변조 이미지가 이용되고 있다. 나아가, 동영상의 프레임 단위로 이미지를 위변조한 위변조 영상(e.g., 딥페이크 영상)으로 인한 피해 또한 컴퓨팅 장치의 발달에 따라 증가하고 있다.

발달된 인공 지능 기술을 이용하여 제작된 위변조 이미지 및 위변조 영상은 사람의 육안으로 위조 또는 변조된 것인지 여부를 판정하기 어려운 문제가 있다. 또한, 이러한 위조 또는 변조 기술은 인공 지능 기술의 발달과 함께 빠르게 진화하고 있는 문제가 있다.

따라서, 위변조 이미지 및 위변조 영상으로 인한 피해를 예방하기 위해, 위변조 이미지 및 위변조 영상을 판정하기 위한 기술이 요구된다. 특히, 위변조 이미지 및 위변조 영상을 판정하는 모델을 학습시키기 위한 충분하고도 적절한 학습 데이터를 획득하는 것은 매우 어려운 작업이므로, 위변조 이미지 및 위변조 영상을 판정하는 모델을 학습시키기 위한 학습 데이터를 획득하기 위한 기술이 요구된다.

한국공개특허 제10-2020-0091799 호 (2019.01.23 공개)

본 개시의 몇몇 실시예를 통해 해결하고자 하는 기술적 과제는, 위변조 이미지를 판정하는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.

본 개시의 몇몇 실시예를 통해 해결하고자 하는 다른 기술적 과제는, 위변조 이미지를 판정하는 모델을 학습시키기 위한 학습 데이터를 생성하는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.

본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술 분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한, 본 개시의 몇몇 실시예에 따른 위변조 이미지 판정 모델의 학습 방법은, 컴퓨팅 장치에 의해 수행되는 방법에 있어서, 워터마크 이미지 셋에 대응되는 수도(Pseudo) 이미지 셋을 생성하되, 상기 워터마크 이미지 셋은 복수의 클래스 중 어느 하나로 분류되는 복수의 원본 이미지 각각에 인비저블 워터마크를 임베딩한 복수의 워터마크 이미지를 포함하는, 단계 및 상기 복수의 원본 이미지를 포함하는 원본 이미지 셋 및 상기 수도 이미지 셋을 학습 데이터로 이용하여, 입력 이미지에 대한 OOD(Out-Of-Distribution) 탐지를 수행하는 위변조 이미지 판정 모델을 학습시키는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 수도 이미지 셋을 생성하는 단계는, 상기 워터마크 이미지 셋에 포함된 상기 복수의 워터마크 이미지 각각을 디노이징하는 단계를 포함할 수 있다. 여기서, 상기 수도 이미지 셋을 생성하는 단계는, 상기 워터마크 이미지 셋에 포함된 상기 복수의 워터마크 이미지 각각을 반복하여 디노이징하는 단계를 더 포함할 수도 있다.

몇몇 실시예에서, 상기 반복하여 디노이징하는 단계는, 상기 복수의 워터마크 이미지 각각에 포함된 제1 기준 픽셀 및 제2 기준 픽셀의 값 차이가 기준치 이하일 때까지, 상기 반복하여 디노이징하는 단계를 포함하거나 상기 복수의 워터마크 이미지 각각이 N회 디노이징될 때마다, 상기 N회 디노이징된 복수의 워터마크 이미지 각각에 인비저블 워터마크를 임베딩하는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 수도 이미지 셋은 복수의 수도 이미지를 포함하고, 상기 수도 이미지 셋을 생성하는 단계는, 상기 복수의 클래스 각각에 대응되는 수도 이미지의 개수가, 클래스 별로 기준 개수 이하의 차이가 되도록 상기 수도 이미지 셋을 생성하는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 워터마크 이미지 셋을 학습 데이터로 이용하여, 상기 위변조 이미지 판정 모델을 초기 학습시키는 단계를 더 포함할 수 있다. 여기서, 상기 위변조 이미지 판정 모델을 초기 학습시키는 단계는, 상기 복수의 워터마크 이미지 각각에 대응되는 클래스를 나타내는 태그를 이용하여, 상기 위변조 이미지 판정 모델을 지도 학습시키는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 위변조 이미지 판정 모델을 학습시키는 단계는, 초기 학습된 상기 위변조 이미지 판정 모델을 추가 학습시키는 단계를 포함할 수 있다.

몇몇 실시예에서, 상기 위변조 이미지 판정 모델을 학습시키는 단계는, 상기 복수의 원본 이미지 및 상기 수도 이미지 셋에 포함된 복수의 수도 이미지 각각에 대응되는 클래스를 나타내는 태그를 이용하여, 상기 위변조 이미지 판정 모델을 지도 학습시키는 단계를 포함할 수 있다.

본 개시의 다른 몇몇 실시예에 따른 위변조 이미지 판정 모델의 학습 장치는, 프로세서, 네트워크 인터페이스, 메모리 및 상기 메모리에 로드(Load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되, 상기 컴퓨터 프로그램은, 워터마크 이미지 셋에 대응되는 수도(Pseudo) 이미지 셋을 생성하되, 상기 워터마크 이미지 셋은 복수의 클래스 중 어느 하나로 분류되는 복수의 원본 이미지 각각에 인비저블 워터마크를 임베딩한 복수의 워터마크 이미지를 포함하는, 인스트럭션(Instruction) 및 상기 복수의 원본 이미지를 포함하는 원본 이미지 셋 및 상기 수도 이미지 셋을 학습 데이터로 이용하여, 입력 이미지에 대한 OOD(Out-Of-Distribution) 탐지를 수행하는 위변조 이미지 판정 모델을 학습시키는 인스트럭션을 포함할 수 있다.

도 1은 본 개시의 몇몇 실시예에 따른 위변조 이미지 판정 모델의 학습 장치의 일례를 도시한다.
도 2는 본 개시의 몇몇 실시예에 따른 위변조 이미지 판정 모델의 학습 방법을 나타내는 예시적인 순서도이다.
도 3은 도 2를 참조하여 설명된 수도 이미지 생성 동작을 보다 구체적으로 설명하기 위한 예시적인 순서도이다.
도 4는 본 개시의 몇몇 실시예에서 참조될 수 있는 인비저블 워터마크를 설명하기 위한 예시적인 도면이다.
도 5는 본 개시의 몇몇 실시예에서 참조될 수 있는 OOD 탐지 동작을 보다 구체적으로 설명하기 위한 예시적인 도면이다.
도 6은 본 개시의 몇몇 실시예에 따른 장치를 구현할 수 있는 예시적인 하드웨어 구성도이다.

이하, 첨부된 도면을 참조하여 본 개시의 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.

각 도면의 구성 요소들에 참조부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성 요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성 요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 개시의 다양한 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.

도 1은 본 개시의 몇몇 실시예에 따른 위변조 이미지 판정 모델의 학습 장치(100)의 예시적인 도면이다. 이하 설명의 편의를 위해, 위변조 이미지 판정 모델의 학습 장치(100)는 모델 학습 장치(100)로 약칭하기로 한다.

모델 학습 장치(100)는 데이터베이스(110), 워터마크 임베딩 모듈(120), 디노이징 디코더(130) 및 분류기(140)를 포함할 수 있다. 다만, 도 1에는 본 개시의 실시예와 관련 있는 구성 요소들 만이 도시되어 있으므로, 본 개시가 속한 기술 분야의 통상의 기술자라면 도 1에 도시된 구성 요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.

또한, 모델 학습 장치(100)는 하나 이상의 컴퓨팅 장치로 구현될 수 있다. 예를 들어, 모델 학습 장치(100)의 모든 기능은 단일 컴퓨팅 장치에서 구현될 수 있다. 다른 예로써, 모델 학습 장치(100)의 제1 기능은 제1 컴퓨팅 장치에서 구현되고, 제2 기능은 제2 컴퓨팅 장치에서 구현될 수도 있다. 여기서, 컴퓨팅 장치는, 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다. 다만, 모델 학습 장치(100)에 위변조 이미지를 판정하기 위한 모델을 학습시키기 위해 인공 신경망이 구현되어야 하는 환경이라면, 모델 학습 장치(100)는 고성능의 서버급 컴퓨팅 장치로 구현되는 것이 바람직할 수 있다. 상술한 컴퓨팅 장치의 일 예에 대해서는 추후 도 6을 참조하여 설명하기로 한다.

이하, 도 1에 도시된 모델 학습 장치(100)의 개별 구성 요소들에 대해 보다 구체적으로 설명하기로 한다.

우선, 워터마크 임베딩 모듈(120)은 데이터베이스(110)에 저장된 원본 이미지 셋을 수신할 수 있다. 여기서, 원본 이미지 셋은 복수의 클래스 중 어느 하나로 분류되는 복수의 원본 이미지를 의미할 수 있다. 예를 들어, 데이터베이스(110)로부터 전송된 CIFAR-10 데이터 셋이 워터마크 임베딩 모듈(120)에 수신될 수 있으며, CIFAR-10 데이터 셋은 10개의 클래스로 분류된 32 X 32 픽셀의 60,000개의 컬러 이미지를 의미할 수 있다. 이외에도 CIFAR-100 데이터 셋이 워터마크 임베딩 모듈(120)에 수신될 수 있으며, 상술한 원본 이미지 셋의 예시들은 본 개시의 범위를 한정하는 것은 아님을 유의해야 한다.

워터마크 임베딩 모듈(120)은 데이터베이스(110)로부터 전송된 원본 이미지 셋에 인비저블 워터마크를 임베딩하여 워터마크 이미지 셋을 생성할 수 있다. 여기서, 워터마크 이미지 셋은 복수의 원본 이미지 각각에 인비저블 워터마크를 임베딩한 복수의 워터마크 이미지를 의미할 수 있다. 인비저블 워터마크의 임베딩과 관련된 보다 구체적인 설명을 위해 도 4를 참조하여 설명하기로 한다.

도 4는 본 개시의 몇몇 실시예에서 참조될 수 있는 인비저블 워터마크(Invisible Watermark)를 설명하기 위한 예시적인 도면이다. 도 4에 도시된 바와 같이, 워터마크가 임베딩된 이미지(30)는 오리지널 이미지(20)와 육안상으로 크게 다른 점이 없다는 점이 확인될 수 있다.

워터마크 임베딩을 보다 구체적으로 설명하면, 워터마크가 임베딩된 이미지(30)는, FFT(Fast Fourier Transform) 알고리즘에 기초하여 변환된 오리지널 이미지(20)의 주파수 도메인에서 워터마크 데이터(10)를 삽입한 후 FFT의 역변환을 통해 생성될 수 있다. 워터마크가 임베딩된 이미지(30)에 대해 임베딩 동작을 역으로 수행하면 워터마크 데이터(10)가 추출될 수 있으므로, 시스템 내부에서 보안이 유지되도록 워터마크 데이터(10)가 관리되면 오리지널 이미지(20)의 원본 여부를 판정할 수 있다. 도 4를 참조하여 설명된 것 외에도 워터마크 임베딩(i.e., 인코딩) 및 워터마크 디코딩과 관련된 모든 공지 기술이 본 개시에 따른 몇몇 실시예들에 적용될 수 있음을 유의해야 한다. 다시 도 1을 참조하여 설명하기로 한다.

다음으로, 디노이징 디코더(130)는 워터마크 임베딩 모듈(120)이 생성한 워터마크 이미지 셋을 수신하여, 워터마크 이미지 셋에 대응되는 수도(Pseudo) 이미지 셋을 생성할 수 있다. 예를 들어, 수도 이미지 셋은 복수의 워터마크 이미지 각각을 디노이징(Denoising)하여 생성된 복수의 수도 이미지를 의미할 수 있다. 본 실시예에 따라, 디노이징 디코더(130)가 수도 이미지를 생성함으로써, 위변조 이미지를 판정하는 모델을 학습시키기 위한 학습 데이터를 확보할 수 있다. 디노이징 디코더(130)가 수도 이미지 셋을 생성하는 다양한 방법들은 추후 구체적으로 설명하기로 한다.

다음으로, 분류기(140)는 원본 이미지 셋 및 수도 이미지 셋을 학습 데이터로 이용하여, 입력 이미지에 대한 OOD(Out-Of-Distribution) 탐지를 수행하는 위변조 이미지 판정 모델을 학습시킬 수 있다. 여기서, 원본 이미지 셋과 함께 수도 이미지 셋을 학습 데이터로 활용하는 것은 Outlier Exposure 방법이 적용된 것으로써, 수도 이미지 셋을 학습 데이터로 활용함으로써 위변조 이미지 판정 모델의 성능을 향상시킬 수 있다. 즉, Outlier Exposure 방법이 효과적으로 적용되기 위해, 상술한 디노이징 디코더(130)에서 생성된 수도 이미지 셋이 학습 데이터로 이용될 수 있다. 또한, OOD 탐지는, 원본 이미지 셋의 클래스를 In-Distribution 데이터로 정의하면, 그 외의 이미지의 클래스를 Out-Of-Distribution 데이터로 판정하는 탐지 방법을 의미할 수 있다. 즉, OOD 탐지 방법은, 학습 데이터를 이용하여 다중 클래스 분류 모델(e.g., 위변조 이미지 판정 모델)을 학습시킴으로써, 원본 이미지 셋의 클래스 외의 이미지를 위변조 이미지(i.e. Out-Of-Distribution)로 검출하는 다중 클래스 분류 모델을 이용하는 탐지 방법이다. Outlier Exposure 및 OOD 탐지와 관련된 보다 구체적인 설명은 추후 명세서의 기재를 통해 구체화될 것이다.

한편, 도 1의 모델 학습 장치(100)의 각 구성 요소는 소프트웨어(Software) 또는, FPGA(Field Programmable Gate Array)나 ASIC(Application-Specific Integrated Circuit)과 같은 하드웨어(Hardware)를 의미할 수 있다. 그렇지만, 구성 요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(Addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 구성 요소들 안에서 제공되는 기능은 더 세분화된 구성 요소에 의하여 구현될 수 있으며, 복수의 구성 요소들을 합하여 특정한 기능을 수행하는 하나의 구성 요소로 구현될 수도 있다.

지금까지 도 1을 참조하여 본 개시의 몇몇 실시예에 모델 학습 장치(100)의 일례에 대하여 설명하였다. 도 1에 도시된 실시예에 따르면, Outlier Exposure 방법이 효과적으로 위변조 이미지 판정 모델에 적용되기 위한 충분하고도 적합한 데이터인 수도 이미지 셋이 생성될 수 있다. 또한, OOD 탐지를 수행하는 위변조 이미지 판정 모델을 학습시킴으로써, 워터마크가 임베딩된 이미지를 위변조 장치(미도시)가 모방하여 발생될 수 있는 워터마크를 통한 위변조 이미지 판정의 무력화 문제가 해소될 수도 있다. 이하에서는, 도 2 내지 도 5를 참조하여 본 개시의 다른 몇몇 실시예에 따른 위변조 이미지 판정 모델의 학습 방법에 대하여 설명하기로 한다.

도 2 및 도 3은 본 개시의 몇몇 실시예에 따른 위변조 이미지 판정 모델의 학습 방법을 나타내는 예시적인 흐름도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.

도 2 및 도 3에 도시된 방법의 각 단계는 컴퓨팅 장치에 의해 수행될 수 있다. 다시 말하면, 방법의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들로 구현될 수 있다. 방법에 포함되는 모든 단계는 하나의 물리적인 컴퓨팅 장치에 의하여 실행될 수도 있을 것이나, 방법의 제1 단계들은 제1 컴퓨팅 장치에 의하여 수행되고, 방법의 제2 단계들은 제2 컴퓨팅 장치에 의하여 수행될 수도 있다. 이하에서는, 방법의 각 단계가 도 1에 예시된 모델 학습 장치(100)에 의해 수행되는 것을 가정하여 설명을 이어가도록 한다. 다만, 설명의 편의상, 방법들에 포함되는 각 단계의 동작 주체는 그 기재가 생략될 수도 있다.

도 2를 참조하면 단계 S100에서, 워터마크 이미지 셋에 대응되는 수도 이미지 셋이 생성될 수 있다. 도 1을 참조하여 상술한 바와 같이 수도 이미지 셋은 추후 위변조 이미지 판정 모델을 학습시키기 위한 학습 데이터로 이용될 수 있다.

단계 S100과 관련된 몇몇 실시예에서, 수도 이미지 셋에 포함되는 수도 이미지는 복수의 클래스 별로 유니폼 분포(Uniform Distribution)을 갖도록 생성될 수 있다. 예를 들어, 원본 이미지의 클래스가 X개(단, X는 자연수)인 경우, 생성되는 수도 이미지의 개수는 X개의 클래스 별로 기준 개수 이하의 차이가 되도록 균일하게 수도 이미지가 생성될 수 있다. 본 실시예에 따르면, 어느 일부의 클래스에 수도 이미지가 과다 생성되거나 과소 생성되는 문제가 발생하지 않음으로써, 생성되는 수도 이미지 셋을 이용하여 학습된 위변조 이미지 판정 모델의 성능이 향상될 수 있다.

이하에서는, 단계 S100과 관련된 보다 구체적인 설명을 위해 도 3을 참조하여 설명하기로 한다.

도 3을 참조하면 단계 S110에서, 워터마크 이미지 셋에 포함된 복수의 워터마크 이미지 각각을 디노이징함으로써, 수도 이미지 셋이 생성될 수 있다. 여기서, 디노이징(Denoising)의 원래 의미는, 이미지의 노이즈를 제거하는 동작을 의미할 수 있으나, 본 개시의 몇몇 실시예에서 참조될 수 있는 디노이징은 워터마크 이미지에 디노이징 필터가 적용됨으로써, 임베드된 워터마크 및 디노이징 필터로 인해 원본 이미지와 상이한 패턴을 갖는 수도 이미지가 생성되는 동작을 의미할 수 있다. 즉, 워터마크 이미지에 디노이징 필터가 적용되면, Outlier Exposure 방법에 적용될 수 있는 수도 이미지가 생성된 것으로 이해될 수 있다. 예를 들어, Gaussian 필터, Median 필터 및 Bilateral 필터 등이 디노이징 필터로 이용될 수 있으나, 상술한 예시들에 본 개시의 범위가 한정되는 것은 아니고, 모든 공지된 디노이징 필터가 본 개시에 적용될 수 있음을 유의해야 한다.

다음으로 단계 S120에서, 워터마크 이미지 셋에 포함된 복수의 워터마크 이미지 각각이 반복하여 디노이징될 수도 있다. 예를 들어, 워터마크 이미지에 디노이징 필터가 M회(단, M은 자연수) 적용될 수 있다. 여기서, M은 미리 설정된 임의의 값을 의미할 수 있다. 본 실시예에 따르면, 디노이징 필터가 반복 적용됨으로써 Outlier Exposure 방법에 적용될 수 있는 수도 이미지를 더 많이 생성할 수 있다.

단계 S120과 관련된 몇몇 실시예에서, 워터마크 이미지에 포함된 제1 기준 픽셀 및 제2 기준 픽셀의 픽셀 값의 차이가 기준치 이하가 될 때까지 디노이징 필터가 반복 적용될 수도 있다. 여기서, 제1 기준 픽셀 및 제2 기준 픽셀은 워터마크 이미지에 대응되도록 사전에 결정된 픽셀을 의미할 수 있다. 예를 들어, 제1 기준 픽셀은 원본 이미지에서 최고 픽셀 값을 갖는 픽셀이고, 제2 기준 픽셀은 워터마크 이미지에서 최저 픽셀 값을 갖는 픽셀일 수 있다. 또한, 기준치는 워터마크 이미지의 픽셀 값의 차이에 대응되도록 사전에 결정된 값일 수 있다. 본 실시예에 따르면, 디노이징 필터의 반복 적용으로 인해 수도 이미지의 품질이 훼손되기 전까지 디노이징을 반복할 수 있다.

단계 S120과 관련된 다른 몇몇 실시예에서, 복수의 워터마크 이미지 각각이 N회 디노이징될 때마다, N회(단, N은 자연수) 디노이징된 복수의 워터마크 이미지 각각에 인비저블 워터마크가 임베딩될 수 있다. 여기서, N은 미리 설정된 임의의 값을 의미할 수 있다. 이 경우, N회 디노이징된 복수의 워터마크 이미지 각각에 워터마크가 임베딩된 후 수도 이미지의 생성 동작이 중단될 수 있고, 워터마크가 임베딩된 후 다시 반복하여 디노이징될 수도 있다. 본 실시예에 따르면, Outlier Exposure 방법에 적용될 수 있는 다양한 수도 이미지가 더 많이 생성될 수 있다.

다시 도 2를 참조하여 설명하기로 한다.

다음으로 단계 S200에서, 워터마크 이미지 셋을 학습 데이터로 이용하여, 위변조 이미지 판정 모델이 초기 학습될 수 있다. 여기서, 위변조 이미지 판정 모델은 입력 이미지에 대한 OOD 탐지를 수행하는 모델로써, 이하에서 OOD 탐지에 관해 보다 구체적인 설명을 위해 도 5를 참조하여 설명하기로 한다.

도 5는 본 개시의 몇몇 실시예에서 참조될 수 있는 OOD 탐지 동작을 보다 구체적으로 설명하기 위한 예시적인 도면이다.

예를 들어, 사용자가 마우스로 그린 이미지가 0 내지 9 중 어떤 숫자인지를 예측하는 모델이 있다고 가정할 때, 도 5에는 상술한 모델에 입력될 입력 이미지(40)의 일례를 나타내고 있다. 입력 이미지(40)는 0 내지 9의 숫자와 무관한 그림이므로, 이상적 모델(43)에 입력하면 "Unknown"으로 분류되는 것이 타당하다. 다만, 예시적인 CNN 모델(41)의 경우, 매우 높은 확률로 입력 이미지(40)를 "3"이라는 클래스로 분류했으며, 예시적인 MLP 모델(42)의 경우, 높은 확률로 입력 이미지(40)를 "0"이라는 클래스로 분류했다.

상술한 예시와 같이 입력 이미지가 특정 클래스에 속하지 않는 경우에 "Unknown"이라는 새로운 클래스를 추가하여 분류하는 방법이 있을 수 있겠으나, 이러한 방법은 학습된 인공 신경망을 클래스를 추가하여 다시 학습해야만 하는 문제가 있으며, "Unknown" 클래스에 포함될 학습 데이터들을 다양하게 취득해야만 하는 문제도 있다. 따라서, 새로운 클래스로의 분류 없이도 특정 클래스에 속하지 않는 경우를 판정해낼 수 있는 기술로써, OOD 탐지가 활용될 수 있다.

OOD 탐지에는 일종의 다중 클래스 분류 방법, 예를 들어, Softmax 알고리즘이 이용됨으로써, 신뢰도 높게 클래스가 분류될 수 있다. 보다 구체적으로 설명하면, Softmax 알고리즘은 입력 이미지가 복수의 클래스 각각에 속할 확률을 출력하고, 복수의 클래스 각각에 속할 확률 중 최대 확률(Maximum Softmax Probability)을 미리 정한 기준 수치와 비교함으로써, 미리 결정된 복수의 클래스 중 어느 한 클래스에 속하지 않는 경우를 판정해낼 수 있다. 이러한 판정의 근거는, 입력 데이터가 Out-Of-Distribution 데이터일 때의 최대 확률이 입력 데이터가 In-Distribution 데이터일 때의 최대 확률에 비해 일반적으로 작은 경향을 가지는 점에 기인한 것이다. 예를 들어, 최대 확률이 기준 수치보다 작을 경우, 입력 데이터를 Out-Of-Distribution 데이터(i.e. 위변조 이미지)로 판정할 수 있다. 다른 예를 들어, 최대 확률이 기준 수치보다 클 경우, 입력 데이터를 In-Distribution 데이터(i.e. 원본 이미지)로 판정할 수 있다. 즉, 원본 이미지 외의 이미지를 복수의 클래스에 포함되지 않은 새로운 클래스인 위변조 이미지 클래스로 분류함으로써, 원본 이미지 외의 이미지를 위변조 이미지로 분류할 수 있다.

단계 S200에서, 입력 이미지에 대한 OOD 탐지를 수행하는 위변조 이미지 판정 모델을 초기 학습시키기 위한 모든 공지된 기술이 본 개시에 적용될 수 있다. 예를 들어, 위변조 이미지 판정 모델을 구현하기 위해 워터마크 이미지 각각에 대응되는 클래스를 나타내는 태그를 레이블(Label)함으로써, 지도 학습을 수행할 수 있다. 이 경우, 워터마크 이미지 셋에 포함된 워터마크 이미지 각각은 In-Distribution 데이터로 판정되도록 위변조 이미지 판정 모델을 학습시키는 것이 바람직할 수 있다.

다시 도 2를 참조하여 설명하기로 한다.

다음으로 단계 S300에서, 원본 이미지 셋 및 수도 이미지 셋을 학습 데이터로 이용하여, 위변조 이미지 판정 모델이 학습될 수 있다. 여기서, 단계 S300은 초기 학습된 위변조 이미지 판정 모델이 추가 학습되는 단계일 수 있다. 또한 경우에 따라서, 원본 이미지 셋이 워터마크 이미지 셋으로 대체되어 학습될 수도 있을 것이다. 본 실시예에 따르면, 원본 이미지 셋 및 수도 이미지 셋을 위변조 이미지 판정 모델의 학습에 함께 이용함으로써, Outlier Exposure 방법이 적용되어 위변조 이미지 판정 모델의 성능이 향상될 수 있다.

단계 S300에서, 입력 이미지에 대한 OOD 탐지를 수행하는 위변조 이미지 판정 모델을 학습시키기 위한 모든 공지된 기술이 본 개시에 적용될 수 있다. 예를 들어, 위변조 이미지 판정 모델을 구현하기 위해 원본 이미지 및 수도 이미지 각각에 대응되는 클래스를 나타내는 태그를 레이블함으로써, 지도 학습을 수행할 수 있다. 이 경우, 원본 이미지 셋에 포함된 원본 이미지 각각은 In-Distribution 데이터로 판정되도록 학습되고, 수도 이미지 셋에 포함된 수도 이미지 각각은 Out-Of-Distribution 데이터로 판정되도록 학습시키는 것이 바람직할 수 있다.

지금까지 도 2, 도 3 및 관련 예시 도면을 참조하여, 본 개시의 몇몇 실시예에 따른 위변조 이미지 판정 모델의 학습 장치에 관해 구체적으로 설명하였다. Outlier Exposure 방법은 위변조 이미지 판정 모델을 학습시킴에 있어서, 수도 이미지 셋을 학습 데이터로 이용하여 학습될 모델의 성능을 향상시키는 방법론이다. 이 경우, 다수의 수도 이미지가 학습에 이용되어야 할 필요가 있다. 본 개시에 따르면, 워터마크 이미지 셋에 포함된 복수의 워터마크 이미지 각각을 디노이징함으로써, 위변조 이미지 판정 모델의 학습 데이터로 충분하고 적절한 수도 이미지를 생성할 수 있다. 즉, 본 실시예에 따르면, 실제 수도 이미지가 충분히 확보되지 않은 상태에서도 원본 이미지를 이용하여 가상의 수도 이미지를 낮은 비용으로 생성할 수 있으며, 가상의 수도 이미지를 이용하여 위변조 이미지 판정 모델을 기계 학습시킬 수 있다.

이하, 도 6을 참조하여 본 개시의 몇몇 실시예에 따른 위변조 이미지 판정 모델의 학습 장치를 구현할 수 있는 예시적인 컴퓨팅 장치(1500)를 보다 구체적으로 설명하기로 한다.

컴퓨팅 장치(1500)는 하나 이상의 프로세서(1510), 버스(1550), 통신 인터페이스(1570), 프로세서(1510)에 의하여 수행되는 컴퓨터 프로그램(1591)을 로드(load)하는 메모리(1530)와, 컴퓨터 프로그램(1591)을 저장하는 스토리지(1590)를 포함할 수 있다. 다만, 도 6에는 본 개시의 실시예와 관련 있는 구성 요소들 만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 6에 도시된 구성 요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.

프로세서(1510)는 컴퓨팅 장치(1500)의 각 구성의 전반적인 동작을 제어한다. 프로세서(1510)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(1510)는 본 개시의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(1500)는 하나 이상의 프로세서를 구비할 수 있다.

메모리(1530)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(1530)는 본 개시의 실시예들에 따른 방법을 실행하기 위하여 스토리지(1590)로부터 하나 이상의 프로그램(1591)을 로드 할 수 있다. 메모리(1530)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.

버스(1550)는 컴퓨팅 장치(1500)의 구성 요소 간 통신 기능을 제공한다. 버스(1550)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.

통신 인터페이스(1570)는 컴퓨팅 장치(1500)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(1570)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(1570)는 본 개시의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.

몇몇 실시예들에 따르면, 통신 인터페이스(1570)는 생략될 수도 있다.

스토리지(1590)는 상기 하나 이상의 프로그램(1591)과 각종 데이터를 비임시적으로 저장할 수 있다.

스토리지(1590)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.

컴퓨터 프로그램(1591)은 메모리(1530)에 로드 될 때 프로세서(1510)로 하여금 본 개시의 다양한 실시예에 따른 방법/동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 즉, 프로세서(1510)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 개시의 다양한 실시예에 따른 방법/동작들을 수행할 수 있다.

위와 같은 경우, 컴퓨팅 장치(1500)를 통해 본 개시의 일 실시예에 따른 위변조 이미지 판정 모델의 학습 장치가 구현될 수 있다.

지금까지 도 1 내지 도 6을 참조하여 본 개시의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 명세서의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

지금까지 도 1 내지 도 6을 참조하여 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.

이상에서, 본 개시의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 개시의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 개시의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행 되어야만 하거나 또는 모든 도시 된 동작들이 실행 되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.

이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 개시가 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨팅 장치에 의해 수행되는 방법에 있어서,
워터마크 이미지 판정 모델을, 워터마크 이미지 셋을 학습 데이터로 이용하여 초기 학습 시키되, 상기 워터마크 이미지 셋은 복수의 클래스 중 어느 하나로 분류되는 복수의 원본 이미지 각각에 인비저블 워터마크를 임베딩한 복수의 워터마크 이미지를 포함하는, 단계;
상기 워터마크 이미지 셋에 대응되는 수도(Pseudo) 이미지 셋을 생성하는 단계; 및
상기 수도 이미지 셋에 포함된 복수의 워터마크 이미지 각각에 인비저블 워터마크를 임베딩 하는 단계;
상기 복수의 원본 이미지를 포함하는 원본 이미지 셋 및 인비저블 워터마크가 임베딩 된 상기 수도 이미지 셋을 학습 데이터로 이용하여, 입력 이미지에 대한 OOD(Out-Of-Distribution) 탐지를 수행하는 위변조 이미지 판정 모델을 추가 학습시키는 단계를 포함하는,
위변조 이미지 판정 모델의 학습 방법.
제1 항에 있어서,
상기 수도 이미지 셋을 생성하는 단계는,
상기 워터마크 이미지 셋에 포함된 상기 복수의 워터마크 이미지 각각을 디노이징하는 단계를 포함하는,
위변조 이미지 판정 모델의 학습 방법.
제2 항에 있어서,
상기 수도 이미지 셋을 생성하는 단계는,
상기 워터마크 이미지 셋에 포함된 상기 복수의 워터마크 이미지 각각을 반복하여 디노이징하는 단계를 더 포함하는,
위변조 이미지 판정 모델의 학습 방법.
제3 항에 있어서,
상기 반복하여 디노이징하는 단계는,
상기 복수의 워터마크 이미지 각각에 포함된 제1 기준 픽셀 및 제2 기준 픽셀의 값 차이가 기준치 이하일 때까지, 상기 반복하여 디노이징하는 단계를 포함하는,
위변조 이미지 판정 모델의 학습 방법.
제3 항에 있어서,
상기 반복하여 디노이징하는 단계는,
상기 복수의 워터마크 이미지 각각이 N회 디노이징될 때마다, 상기 N회 디노이징된 복수의 워터마크 이미지 각각에 인비저블 워터마크를 임베딩하는 단계를 포함하는,
위변조 이미지 판정 모델의 학습 방법.
제1 항에 있어서,
상기 수도 이미지 셋은 복수의 수도 이미지를 포함하고,
상기 수도 이미지 셋을 생성하는 단계는,
상기 복수의 클래스 각각에 대응되는 수도 이미지의 개수가, 클래스 별로 기준 개수 이하의 차이가 되도록 상기 수도 이미지 셋을 생성하는 단계를 포함하는,
위변조 이미지 판정 모델의 학습 방법.
제1 항에 있어서,
상기 워터마크 이미지 셋을 학습 데이터로 이용하여, 상기 위변조 이미지 판정 모델을 초기 학습시키는 단계를 더 포함하는,
위변조 이미지 판정 모델의 학습 방법.
제7 항에 있어서,
상기 위변조 이미지 판정 모델을 초기 학습시키는 단계는,
상기 복수의 워터마크 이미지 각각에 대응되는 클래스를 나타내는 태그를 이용하여, 상기 위변조 이미지 판정 모델을 지도 학습시키는 단계를 포함하는,
위변조 이미지 판정 모델의 학습 방법.
제7 항에 있어서,
상기 위변조 이미지 판정 모델을 학습시키는 단계는,
초기 학습된 상기 위변조 이미지 판정 모델을 추가 학습시키는 단계를 포함하는,
위변조 이미지 판정 모델의 학습 방법.
제1 항에 있어서,
상기 위변조 이미지 판정 모델을 학습시키는 단계는,
상기 복수의 원본 이미지 및 상기 수도 이미지 셋에 포함된 복수의 수도 이미지 각각에 대응되는 클래스를 나타내는 태그를 이용하여, 상기 위변조 이미지 판정 모델을 지도 학습시키는 단계를 포함하는,
위변조 이미지 판정 모델의 학습 방법.
프로세서;
네트워크 인터페이스;
메모리; 및
상기 메모리에 로드(Load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되,
상기 컴퓨터 프로그램은,
워터마크 이미지 판정 모델을, 워터마크 이미지 셋을 학습 데이터로 이용하여 초기 학습 시키되, 상기 워터마크 이미지 셋은 복수의 클래스 중 어느 하나로 분류되는 복수의 원본 이미지 각각에 인비저블 워터마크를 임베딩한 복수의 워터마크 이미지를 포함하는, 인스트럭션(Instruction);
상기 워터마크 이미지 셋에 대응되는 수도(Pseudo) 이미지 셋을 생성하는 인스트럭션; 및
상기 수도 이미지 셋에 포함된 복수의 워터마크 이미지 각각에 인비저블 워터마크를 임베딩 하는 인스트럭션;
상기 복수의 원본 이미지를 포함하는 원본 이미지 셋 및 인비저블 워터마크가 임베딩 된 상기 수도 이미지 셋을 학습 데이터로 이용하여, 입력 이미지에 대한 OOD(Out-Of-Distribution) 탐지를 수행하는 위변조 이미지 판정 모델을 추가 학습시키는 인스트럭션을 포함하는,
위변조 이미지 판정 모델의 학습 장치.