KR20230017650A - 딥페이크 이미지 판별 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 - Google Patents
딥페이크 이미지 판별 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 Download PDFInfo
- Publication number
- KR20230017650A KR20230017650A KR1020210099426A KR20210099426A KR20230017650A KR 20230017650 A KR20230017650 A KR 20230017650A KR 1020210099426 A KR1020210099426 A KR 1020210099426A KR 20210099426 A KR20210099426 A KR 20210099426A KR 20230017650 A KR20230017650 A KR 20230017650A
- Authority
- KR
- South Korea
- Prior art keywords
- image
- feature value
- target image
- deepfake
- extracting
- Prior art date
Links
- 238000004590 computer program Methods 0.000 title claims description 8
- 238000000034 method Methods 0.000 title description 15
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims description 62
- 230000000694 effects Effects 0.000 claims description 25
- 230000004913 activation Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 238000012850 discrimination method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 13
- 239000000284 extract Substances 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013019 agitation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 210000000216 zygoma Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
본 발명의 일 실시예에 따른 딥페이크 이미지 판별 장치는 타겟 이미지를 획득하는 이미지 획득부; 상기 타겟 이미지에 포함된 픽셀 레벨의 노이즈 정보를 포함하는 제1 특징값을 추출하는 제1 특징값 추출부; 및 상기 제1 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별하는 판별부를 포함할 수 있다.
Description
본 발명은 딥페이크 이미지 판별 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램에 관한 것이다.
인공지능 기술의 발달로 딥페이크(Deep-Fake) 기술을 활용한 콘텐츠가 늘어나고 있다. 딥페이크는 딥러닝(Deep learning)과 가짜(Fake)의 합성어로 인공지능을 기반으로 한 이미지 합성 기술이다. 딥페이크 기술을 활용하면 존재하지 않는 사람을 실재하는 것처럼 영상을 만들거나, 실존하는 사람이 하지 않은 행동을 한 것처럼 보이게 영상을 생성할 수 있다.
다만, 이러한 딥페이크 기술이 범죄에 악용되는 경우가 있어 문제가 되고 있다. 가령, 인터넷에 많은 사진이 노출된 연예인의 얼굴을 무단으로 활용하여 불법적인 영상을 만들거나, 정치적 또는 상업적 공격 목적으로 유명 정치인이나 기업 대표의 얼굴을 이용하여 선동에 사용하는 등 사회적으로 큰 문제로 대두되고 있다.
이에 따라, 딥페이크 기술에 의해 조작된 이미지를 자동적으로 구분해내는 이미지 판별 기술에 대한 연구가 활발히 진행 중이다.
본 발명이 해결하고자 하는 과제는, 얼굴 이미지에 딥페이크를 적용함에 따라 이미지가 변형되는 과정에서 미세 노이즈, 뒤틀림, 블러 효과 등의 흔적이 발생한다는 점에 착안하여, 이러한 흔적을 탐지하도록 학습된 신경망을 이용해 타겟 이미지의 조작 여부를 판별하는 딥페이크 이미지 판별 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램을 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 이상에서 언급한 바로 제한되지 않으며, 언급되지는 않았으나 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있는 목적을 포함할 수 있다.
본 발명의 일 실시예에 따른 딥페이크 이미지 판별 장치는 타겟 이미지를 획득하는 이미지 획득부; 상기 타겟 이미지에 포함된 픽셀 레벨의 노이즈 정보를 포함하는 제1 특징값을 추출하는 제1 특징값 추출부; 및 상기 제1 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별하는 판별부를 포함할 수 있다.
또한, 상기 제1 특징값 추출부는 합성곱 계층(convolutional layer), 배치 정규화 계층(batch normalization layer) 및 활성화 함수 계층(activation function layer)으로 구성된 제1 신경망에 상기 타겟 이미지를 입력하여 상기 제1 특징값을 추출할 수 있다.
또한, 상기 제1 신경망은 풀링 계층(pooling layer)을 더 포함하고, 상기 풀링 계층이 네트워크의 후단에 위치하도록 구성될 수 있다.
또한, 상기 장치는 상기 타겟 이미지에 포함된 객체의 기 설정된 지점을 포함하는 랜드마크 이미지를 추출하고, 상기 랜드마크 이미지로부터 뒤틀림 정보를 포함하는 제2 특징값을 추출하는 제2 특징값 추출부를 더 포함하고, 상기 판별부는 상기 제1 및 제2 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별할 수 있다.
또한, 상기 제2 특징값 추출부는 합성곱 계층, 배치 정규화 계층, 풀링 계층 및 활성화 함수 계층으로 구성된 제2 신경망에 상기 랜드마크 이미지를 입력하여 상기 제2 특징값을 추출할 수 있다.
또한, 상기 객체는 인간의 얼굴이고, 상기 기 설정된 지점은 소정의 이미지 판별 알고리즘을 기초로 인간의 얼굴에 대해 인식된 특징점 중 눈, 코, 치아, 광대, 볼, 턱을 포함할 수 있다.
또한, 상기 장치는 상기 타겟 이미지에 블러 효과를 가한 블러 이미지를 생성하여 상기 타겟 이미지와 상기 블러 이미지를 비교한 이미지 품질 정보를 포함하는 제3 특징값을 추출하는 제3 특징값 추출부를 더 포함하고, 상기 판별부는 상기 제1 및 제3 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별할 수 있다.
또한, 상기 제3 특징값 추출부는 소정의 이미지 판별 알고리즘을 기초로 상기 타겟 이미지에 포함된 인간의 안면부를 크롭하여 크롭 이미지를 생성하고, 상기 크롭 이미지에 대해 블러 효과를 가하여 상기 제3 특징값을 추출할 수 있다.
또한, 상기 제3 특징값 추출부는 소정의 IQM(Image Quality Measurement) 알고리즘을 기초로 상기 이미지 품질 정보를 생성할 수 있다.
또한, 상기 IQM 알고리즘은 the Laplacian blur variance(LPV), high-low frequency index(HLFI), spectral phase error(SPE), spectral magnitude error(SME), gradient-magnitude error(GME), gradient phase error(GPE), structural content(SC), average difference(AD), mean square error(MSE), signal-to-noise ratio in db(SNR), normalized absolute error(NAE), peak signal to noise ratio(PSNR), Laplacian MSE(LMSE), maximum difference(MD), R-averaged max difference(RAMD), normalized cross-correlation(NCC), visual information fidelity(VIF) 중 적어도 어느 하나의 알고리즘을 포함할 수 있다.
또한, 상기 제3 특징값 추출부는 가우시안 필터를 이용하여 상기 타겟 이미지에 블러 효과를 가할 수 있다.
또한, 상기 장치는 상기 타겟 이미지에 포함된 객체의 기 설정된 지점을 포함하는 랜드마크 이미지 추출을 기초로 상기 타겟 이미지의 뒤틀림 정보를 포함하는 제2 특징값을 추출하는 제2 특징값 추출부; 및 상기 타겟 이미지에 블러 효과를 가한 블러 이미지를 생성하여 상기 타겟 이미지와 상기 블러 이미지 상호 간의 이미지 품질 정보를 포함하는 제3 특징값을 추출하는 제3 특징값 추출부를 더 포함하고, 상기 판별부는 상기 제1, 제2 및 제3 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별할 수 있다.
또한, 상기 판별부는 상기 타겟 이미지로부터 추출된 특징값을 입력 받아 상기 타겟 이미지에 대한 조작 여부에 대한 클래스를 판별하는 활성화 함수 계층(activation function layer)으로 구성된 제4 신경망을 포함할 수 있다.
본 발명의 일 실시예에 따른 딥페이크 이미지 판별 장치가 수행하는 딥페이크 이미지 판별 방법으로서, 타겟 이미지를 획득하는 단계; 상기 타겟 이미지에 포함된 픽셀 레벨의 노이즈 정보를 포함하는 제1 특징값을 추출하는 단계; 및 상기 제1 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별하는 단계를 포함할 수 있다.
본 발명의 일 실시예는 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서, 타겟 이미지를 획득하는 단계; 상기 타겟 이미지에 포함된 픽셀 레벨의 노이즈 정보를 포함하는 제1 특징값을 추출하는 단계; 및 상기 제1 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별하는 단계를 포함하는, 딥페이크 이미지 판별 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.
본 발명의 일 실시예는 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서, 타겟 이미지를 획득하는 단계; 상기 타겟 이미지에 포함된 픽셀 레벨의 노이즈 정보를 포함하는 제1 특징값을 추출하는 단계; 및 상기 제1 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별하는 단계를 포함할 수 있다.
본 발명의 실시예에 의하면, 이미지에 포함된 미세 신호를 검출해내는 스테가노그래피 기법에 착안하여, 타겟 이미지에 포함된 미세 노이즈, 뒤틀림, 블러 효과 등의 딥페이크 조작 흔적을 탐지하는 신경망을 구성함으로써, 높은 성능으로 타겟 이미지의 딥페이크 조작 여부를 판별할 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 딥페이크 이미지 판별 장치의 기능 블록도이다.
도 2는 본 발명의 일 실시예에 따른 딥페이크 이미지 판별 장치가 동작시키는 신경망의 구조를 나타낸 예시도이다.
도 3은 본 발명의 일 실시예에 따른 신경망에 포함된 레이어의 세부 구조를 나타낸 예시도이다.
도 4는 본 발명의 일 실시예에 따라 랜드마크 이미지를 생성하는 동작의 예시도이다.
도 5는 PSNR(peak signal to noise ratio)을 측정하여 제1 경우(PSNR original)와 제2 경우(PSNR fake)를 비교한 히스토그램이다.
도 6는 LMSE(Laplacian MSE)을 측정하여 제1 경우(LMSE original)와 제2 경우(LMSE fake)를 비교한 히스토그램이다.
도 7은 본 발명의 일 실시예에 따른 딥페이크 이미지 판별 방법의 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 딥페이크 이미지 판별 장치의 성능을 측정한 결과를 예시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 딥페이크 이미지 판별 장치가 동작시키는 신경망의 구조를 나타낸 예시도이다.
도 3은 본 발명의 일 실시예에 따른 신경망에 포함된 레이어의 세부 구조를 나타낸 예시도이다.
도 4는 본 발명의 일 실시예에 따라 랜드마크 이미지를 생성하는 동작의 예시도이다.
도 5는 PSNR(peak signal to noise ratio)을 측정하여 제1 경우(PSNR original)와 제2 경우(PSNR fake)를 비교한 히스토그램이다.
도 6는 LMSE(Laplacian MSE)을 측정하여 제1 경우(LMSE original)와 제2 경우(LMSE fake)를 비교한 히스토그램이다.
도 7은 본 발명의 일 실시예에 따른 딥페이크 이미지 판별 방법의 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 딥페이크 이미지 판별 장치의 성능을 측정한 결과를 예시한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 범주는 청구항에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명은 본 발명의 실시예들을 설명함에 있어 실제로 필요한 경우 외에는 생략될 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하 사용되는 '…부', '…기' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일 실시예에 따른 딥페이크 이미지 판별 장치(100)의 기능 블록도이다. 본 발명의 일 실시예에 따른 딥페이크 이미지 판별 장치(100)는 하나 이상의 프로세서에 의해 전반적인 동작이 수행될 수 있고, 하나 이상의 프로세서는 도 1에 포함된 기능 블록들이 후술할 동작들을 수행하도록 제어할 수 있다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 딥페이크 이미지 판별 장치(100)는 저장부(110), 이미지 획득부(120), 제1 특징값 추출부(130), 제2 특징값 추출부(140), 제3 특징값 추출부(150), 판별부(160) 및 신경망 학습부(170)를 포함할 수 있다.
저장부(110)는 본 발명의 일 실시예에 따라 활용되는 각종 데이터를 저장할 수 있다. 예를 들어, 저장부(110)는 타겟 이미지, 학습 이미지 및 일 실시예에 따라 학습된 신경망을 저장할 수 있다. 저장부(110)는 딥페이크 이미지 판별 장치(100) 내부에 하드웨어 형태의 메모리로 구성되거나, 또는 딥페이크 이미지 판별 장치(100) 외부에 위치하는 클라우드 데이터베이스와 연동되는 모듈 형태로 구성될 수 있다.
이미지 획득부(120)는 타겟 이미지를 획득할 수 있다. 예를 들어, 이미지 획득부(120)는 외부 입력을 통하거나 또는 저장부(110)에 저장된 데이터의 로딩을 통해 타겟 이미지를 획득할 수 있다. 타겟 이미지는 딥페이크에 의해 조작된 객체를 포함하는 이미지 파일 또는 영상 파일을 포함할 수 있다.
도 2는 본 발명의 일 실시예에 따른 딥페이크 이미지 판별 장치(100)가 동작시키는 신경망의 구조를 나타낸 예시도이고, 도 3은 본 발명의 일 실시예에 따른 신경망에 포함된 레이어의 세부 구조를 나타낸 예시도이다.
도 2를 참조하면, 본 발명의 실시예에 대한 이해의 편의를 위해 신경망의 구조를 기능에 따라 4가지 파트(ex. 도 2의 도면 부호131, 141, 151, 161이 지칭하는 블록)로 분류하고, 제1 특징값 추출부(130), 제2 특징값 추출부(140), 제3 특징값 추출부(150), 및 판별부(160)가 각각의 신경망 블록(ex. 도 2의 도면 부호131, 141, 151, 161이 지칭하는 블록)을 제어하여 수행하는 동작을 설명한다.
제1 특징값 추출부(130)는 타겟 이미지(11)에 포함된 노이즈 정보(residual noise)를 포함하는 제1 특징값을 추출할 수 있다. 이미지는 어떠한 변환 과정을 거쳤는지에 따라서 픽셀 간의 관계에서 주기적인 흔적을 포함하게 된다. 예를 들어, 오토인코더나 GAN등의 딥페이크에서는 이미지가 네트워크 필터를 통과하는 과정에서 미세한 노이즈 흔적을 포함하게 된다. 제1 특징값 추출부(130)는 딥페이크 이미지 변환 과정에서 이미지에 포함된 픽셀 레벨의 미세 노이즈를 판별하기 위한 제1 특징값을 추출하는 제1 신경망(131)을 제어할 수 있다.
예를 들어, 제1 신경망(131)은 도 2의 도면 부호 131의 블록 내부와 같이, 제1 타입 레이어(LT1), 제2 타입 레이어(LT2), 제3 타입 레이어(LT3)를 포함하도록 구성될 수 있다. 제1 타입 레이어(LT1), 제2 타입 레이어(LT2), 및 제3 타입 레이어(LT3)는 도 3의 예시와 같이 합성곱 계층(convolutional layer), 배치 정규화 계층(batch normalization layer), 활성화 함수 계층(activation function layer) 및 풀링 계층(pooling layer)으로 구성될 수 있다. 일 예로, 제1 신경망(131)은 미세 노이즈의 검출에 집중하도록 제1 신경망 네트워크의 전단부에는 풀링 계층을 포함하지 않고, 제1 신경망 네트워크의 후단부에 풀링 계층을 포함하도록 구성될 수 있다. 도 2에서 제1 타입 레이어(LT1), 제2 타입 레이어(LT2), 제3 타입 레이어(LT3) 옆에 기재된 숫자는 커널의 수를 예시한다.
제2 특징값 추출부(140)는 타겟 이미지(11)에 포함된 뒤틀림 정보(warping artifact)를 포함하는 제2 특징값을 추출할 수 있다. 뒤틀림 정보는 딥페이크 기술의 한계로 나타나는 흔적으로서 딥페이크에 의해 이미지가 변형됨에 따라 눈, 치아, 이마, 얼굴 경계 등의 세밀한 표현이 필요한 지점에 나타나는 이미지의 뒤틀림을 의미한다. 또한, 뒤틀림 정보는 딥페이크 생성 네트워크 학습에 사용되는 이미지 개수의 부족이나, 충분하지 못한 학습에 의해서도 발생할 수 있다. 제2 특징값 추출부(140)는 딥페이크 이미지 변환 과정에서 이미지에 포함된 뒤틀림 정보를 판별하기 위한 제2 특징값을 추출하는 제2 신경망(141)을 제어할 수 있다.
도 4는 본 발명의 일 실시예에 따라 랜드마크 이미지를 생성하는 동작의 예시도이다.
도 4를 참조하면, 제2 특징값 추출부(140)는 타겟 이미지(11)에 포함된 객체의 기 설정된 지점을 포함하는 랜드마크 이미지(13)를 추출하고, 랜드마크 이미지(13)로부터 뒤틀림 정보를 포함하는 제2 신경망(141)을 제어할 수 있다. 예를 들어, 제2 특징값 추출부(140)는 소정의 이미지 판별 알고리즘을 기초로 인간의 얼굴에 대해 인식된 특징점 중 눈, 코, 치아, 광대, 볼, 턱을 포함하는 특징점을 기 설정할 수 있고, 상기 특징점을 포함하도록 크롭한 랜드마크 이미지(13)를 생성할 수 있다. 제2 신경망(141)은 랜드마크 이미지(13)로부터 제2 특징값을 추출하는 랜드마크 레이어(LB)를 포함할 수 있다. 도 2에서 랜드마크 레이어(LB) 옆에 기재된 숫자는 커널의 수를 예시한다. 랜드마크 레이어(LB)는 도 3의 예시(도 3의 Landmark Block)와 같이 합성곱 계층, 배치 정규화 계층, 풀링 계층 및 활성화 함수 계층을 포함할 수 있다.
제3 특징값 추출부(150)는 타겟 이미지(11)에 블러 효과를 가한 블러 이미지를 생성하여 타겟 이미지(11)와 블러 이미지(17) 간의 이미지 품질 정보를 포함하는 제3 특징값을 추출할 수 있다.
딥페이크 변환 과정에서는 딥페이크 생성 네트워크의 입력 크기에 맞추기 원본 이미지의 크기를 조절해야 하거나, 원본 얼굴 이미지와 변환 후 얼굴 이미지 간의 해상도 차이로 인해 얼굴을 붙여 넣을 때 발생하는 크기 조절로 이미지 보간(interpolation)이 발생하기 때문에, 딥페이크 변환 과정에서 이미지는 블러 효과와 유사한 변환이 발생할 수 있다. 또한, 원본 이미지를 딥페이크 변환한 후 이미지에서 얼굴 간의 비연속적인 경계가 만들어지는데, 딥페이크 변환 과정에서는 이러한 비연속적인 경계를 없애기 위해서 블러 효과를 사용하거나, 자글자글한 노이즈가 발생하는 경우 노이즈를 제거하기 위해 블러 효과를 후처리로써 사용하는 경우가 있다.
본 발명의 실시예는 일반 이미지에 블러 효과를 적용하면 이미지 품질의 변화가 크지만, 이미 블러 효과가 존재하는 이미지에 블러 효과를 추가적으로 적용하였을 때에는 이미지 품질에 변화가 크지 않다는 가정에 착안하여, 제3 특징값 추출부(150)는 타겟 이미지와 타겟 이미지에 블러 효과를 적용한 블러 이미지 간의 이미지 품질 정보를 딥페이크 판별을 위한 특징값으로 사용할 수 있다. 제3 특징값 추출부(150)의 구체적인 동작을 설명하기 전에 위 가정에 대한 실험 결과를 먼저 설명한다.
위 가정에 대한 증명을 위해, 딥페이크가 적용되지 않은 원본 이미지에 블러 효과를 적용하여 제1 블러 이미지를 생성한 후, 원본 이미지의 제1 블러 이미지에 대한 이미지 품질을 비교하는 제1 경우와, 딥페이크 변환 이미지에 블러 효과를 적용하여 제2 블러 이미지를 생성한 후, 딥페이크 변환 이미지와 블러 이미지에 대한 이미지 품질을 비교하는 제2 경우에 대해, 소정의 IQM(Image Quality Measurement) 알고리즘 중 PSNR(peak signal to noise ratio)과 LMSE(Laplacian MSE)을 사용하여 제1 경우와 제2 경우를 비교해본다.
도 5는 PSNR(peak signal to noise ratio)을 측정하여 제1 경우(PSNR original)와 제2 경우(PSNR fake)를 비교한 히스토그램이다. 도 5의 가로축은 PSNR [dB]를 의미하고, 세로축은 잡음 밀도를 의미한다.
도 5를 참조하면, 가로축의 값이 높은 대역에서 제1 경우(PSNR original) 및 제2 경우(PSNR fake)에 대해 세로축의 크기가 비슷하지만, 가로축의 값이 낮은 대역에서 제2 경우(PSNR fake)에 세로축의 값이 적게 나타나므로, 제1 경우 보다 제2 경우(딥페이크 변환 이미지와 블러 이미지 간)에 이미지 품질의 차이가 적음을 확인할 수 있다.
도 6는 LMSE(Laplacian MSE)을 측정하여 제1 경우(LMSE original)와 제2 경우(LMSE fake)를 비교한 히스토그램이다. 도 6의 가로축은 LMSE를 의미하고, 세로축은 잡음 밀도를 의미한다.
도 6을 참조하면, 가로축의 값이 낮은 대역에서 제1 경우(LMSE original) 및 제2 경우(LMSE fake)에 대해 세로축의 크기가 비슷하지만, 가로축의 값이 높은 대역에서 제2 경우(LMSE fake)에 세로축의 값이 적게 나타나므로, 제1 경우 보다 제2 경우(딥페이크 변환 이미지와 블러 이미지 간)에 이미지 품질의 차이가 적음을 확인할 수 있다.
이러한 결과에 따라, 제3 특징값 추출부(150)는 타겟 이미지와 블러 이미지 간의 이미지 품질 차이를 나타내는 IQM 결과값을 포함하는 제3 특징값을 생성하는 제3 신경망(151)을 제어할 수 있다.
일 예로, 제3 특징값 추출부(150)는 소정의 IQM(Image Quality Measurement) 알고리즘을 기초로 타겟 이미지(11)에 가우시안 필터를 가한 블러 이미지(17)를 생성하여 타겟 이미지(11)와 블러 이미지(17)를 비교한 이미지 품질 정보를 포함하는 제3 특징값(IQM Features)을 추출할 수 있다. 이 경우, 제3 특징값 추출부(150)는 소정의 이미지 판별 알고리즘을 기초로 타겟 이미지에 포함된 인간의 안면부를 크롭하여 크롭 이미지(15)를 생성하고, 크롭 이미지에 대해 블러 효과를 가한 블러 이미지(17)를 생성하여, IQM 알고리즘을 통해 크롭 이미지(15)와 블러 이미지(17) 간 이미지 품질 정보를 생성할 수 있다. 예를 들어, IQM 알고리즘은 the Laplacian blur variance(LPV), high-low frequency index(HLFI), spectral phase error(SPE), spectral magnitude error(SME), gradient-magnitude error(GME), gradient phase error(GPE), structural content(SC), average difference(AD), mean square error(MSE), signal-to-noise ratio in db(SNR), normalized absolute error(NAE), peak signal to noise ratio(PSNR), Laplacian MSE(LMSE), maximum difference(MD), R-averaged max difference(RAMD), normalized cross-correlation(NCC), visual information fidelity(VIF)을 포함할 수 있다. 제3 특징값 추출부(150)는 상술한 IQM 알고리즘 중 적어도 하나 이상을 사용하여, 타겟 이미지(ex. 크롭 이미지)와 블러 이미지(ex. 상기 크롭 이미지에 블러 효과를 적용한 이미지) 간의 이미지 품질 정보를 포함하는 제3 특징값을 추출할 수 있다.
판별부(160)는 제1 특징값, 제2 특징값 및 제3 특징값 중 적어도 어느 하나의 특징값을 기초로 타겟 이미지의 조작 여부를 판별할 수 있다. 일 예로, 판별부(160)는 타겟 이미지로부터 추출된 상기 특징값 중 적어도 하나를 입력 받아 타겟 이미지에 대한 조작 여부에 대한 클래스를 판별하는 활성화 함수 계층(activation function layer)으로 구성된 제4 신경망을 포함할 수 있다.
예를 들어, 도 2의 예시의 경우, 제4 신경망은 제1 특징값과 제2 특징값을 입력으로 하는 SC(skip connection)이 생략된 제2 타입 레이어(LT2 w/o SC) 및 글로벌 평균 풀링 계층(Global AvePool)과, 제3 특징값을 입력으로 하는 완전 연결 계층(FC-32)과, 네트워크의 최종단 활성화 함수 계층인 시그모이드 계층(FC-2/Sigmoid)를 포함할 수 있다.
신경망 학습부(170)는 상술한 실시예에 따라 설계된 신경망의 최초 입력단과 최종 출력단의 종단간(end-to-end) 학습을 통해, 입력단에 타겟 이미지가 입력되면, 타겟 이미지에 대한 딥페이크 이미지 조작 여부의 클래스를 판별하도록 상기 신경망을 학습시킬 수 있다. 예를 들어, 신경망 학습부(170)는 딥페이크 조작 여부의 클래스가 레이블링된 복수의 학습 이미지를 기초로 신경망을 학습시킬 수 있다. 도 2에 도시된 신경망 구조의 예시는 제1 신경망(131), 제2 신경망(141) 및 제3 신경망(151) 모두가 사용되는 구조를 예시하고 있으나, 본 발명의 또 다른 실시예는 제1 신경망(131), 제2 신경망(141) 및 제3 신경망(151) 중 어느 하나의 신경망 블록이 사용되거나, 두 개 이상의 신경망 블록이 동작하도록 설계될 수 있다. 신경망 학습부(170)는 실시예에 따라 제1 신경망(131), 제2 신경망(141) 및 제3 신경망(151) 중 사용되기로 선택되어 설계된 신경망의 구성과 제4 신경망(161)을 연결하여 입력단과 출력단의 종단간 학습을 수행하여 신경망을 학습시킬 수 있다. 신경망 학습부(170)는 상술한 실시예에 따라 학습이 완료된 신경망을 저장부(110)에 저장할 수 있고, 학습이 완료된 신경망은 제1 특징값 추출부(130), 제2 특징값 추출부(140), 제3 특징값 추출부(150) 및 판별부(160)의 제어에 따라 동작할 수 있다.
도 7은 본 발명의 일 실시예에 따른 딥페이크 이미지 판별 방법의 흐름도이다. 도 7에 따른 딥페이크 이미지 판별 방법의 각 단계는 도 1을 통해 설명된 딥페이크 이미지 판별 장치(100)에 의해 수행될 수 있으며, 각 단계를 설명하면 다음과 같다.
S1010 단계에서, 이미지 획득부(120)는 타겟 이미지를 획득할 수 있다
S1020 단계에서, 제1 특징값 추출부(130)는 타겟 이미지에 포함된 픽셀 레벨의 노이즈 정보를 포함하는 특징값을 추출할 수 있다.
S1030 단계에서, 판별부(160)는 특징값을 기초로 타겟 이미지의 조작 여부를 판별할 수 있다.
한편, 도 7에 도시된 단계 외에도, 상술한 저장부(110), 이미지 획득부(120), 제1 특징값 추출부(130), 제2 특징값 추출부(140), 제3 특징값 추출부(150), 판별부(160) 및 신경망 학습부(170)가 도 1 및 도 6과 함께 설명된 동작을 수행하는 실시예들을 다양하게 구성함에 따라, 도 7의 단계에서도 각 기능 블록이 수행하는 새로운 단계가 부가될 수 있으며, 추가적인 단계의 구성 및 각 단계의 주체인 구성 요소들이 해당 단계를 실시하기 위한 동작은 도 1 내지 도 6에서 설명하였으므로 중복된 설명은 생략한다.
도 8은 본 발명의 일 실시예에 따른 딥페이크 이미지 판별 장치(100)의 성능을 측정한 결과를 예시한 도면이다.
도 8을 참조하면, 딥페이크 알고리즘 중 Face-swap, Puppet-master, Attribute-change를 사용하여 조작한 딥페이크 이미지의 판별에 대해, Li et al, Afchar et al, Rossler et al, OURS1(본 발명 실시예의 제1 신경망과 제3 신경망), OURS2(본 발명 실시예의 제1 신경망과 제2 신경망), OURS3(본 발명 실시예의 제1 신경망, 제2 신경망 및 제3 신경망)을 사용하여, Accuracy 및 AUROC를 각각 측정한 결과를 확인할 수 있다. 도 8의 Accuracy 및 AUROC를 확인하면, 기존 방법에 비해 본 발명의 실시예를 통해 딥페이크 이미지를 판별해내는 정확도가 대폭 향상될 수 있음을 확인할 수 있다.
상술한 실시예에 의하면, 이미지에 포함된 미세 신호를 검출해내는 스테가노그래피 기법에 착안하여, 타겟 이미지에 포함된 미세 노이즈, 뒤틀림, 블러 효과 등의 딥페이크 조작 흔적을 탐지하는 신경망을 구성함으로써, 높은 성능으로 타겟 이미지의 딥페이크 조작 여부를 판별할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 명세서에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 딥페이크 이미지 판별 장치
110: 저장부
120: 이미지 획득부
130: 제1 특징값 추출부
140: 제2 특징값 추출부
150: 제3 특징값 추출부
160: 판별부
170: 신경망 학습부
110: 저장부
120: 이미지 획득부
130: 제1 특징값 추출부
140: 제2 특징값 추출부
150: 제3 특징값 추출부
160: 판별부
170: 신경망 학습부
Claims (16)
- 타겟 이미지를 획득하는 이미지 획득부;
상기 타겟 이미지에 포함된 픽셀 레벨의 노이즈 정보를 포함하는 제1 특징값을 추출하는 제1 특징값 추출부; 및
상기 제1 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별하는 판별부를 포함하는,
딥페이크 이미지 판별 장치. - 제1항에 있어서,
상기 제1 특징값 추출부는,
합성곱 계층(convolutional layer), 배치 정규화 계층(batch normalization layer) 및 활성화 함수 계층(activation function layer)으로 구성된 제1 신경망에 상기 타겟 이미지를 입력하여 상기 제1 특징값을 추출하는,
딥페이크 이미지 판별 장치. - 제2항에 있어서,
상기 제1 신경망은,
풀링 계층(pooling layer)을 더 포함하고, 상기 풀링 계층이 네트워크의 후단에 위치하도록 구성된,
딥페이크 이미지 판별 장치. - 제1항에 있어서,
상기 장치는,
상기 타겟 이미지에 포함된 객체의 기 설정된 지점을 포함하는 랜드마크 이미지를 추출하고, 상기 랜드마크 이미지로부터 뒤틀림 정보를 포함하는 제2 특징값을 추출하는 제2 특징값 추출부를 더 포함하고,
상기 판별부는,
상기 제1 및 제2 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별하는
딥페이크 이미지 판별 장치. - 제4항에 있어서,
상기 제2 특징값 추출부는,
합성곱 계층, 배치 정규화 계층, 풀링 계층 및 활성화 함수 계층으로 구성된 제2 신경망에 상기 랜드마크 이미지를 입력하여 상기 제2 특징값을 추출하는,
딥페이크 이미지 판별 장치. - 제4항에 있어서,
상기 객체는,
인간의 얼굴이고,
상기 기 설정된 지점은,
소정의 이미지 판별 알고리즘을 기초로 인간의 얼굴에 대해 인식된 특징점 중 눈, 코, 치아, 광대, 볼, 턱을 포함하는
딥페이크 이미지 판별 장치. - 제1항에 있어서,
상기 장치는,
상기 타겟 이미지에 블러 효과를 가한 블러 이미지를 생성하여 상기 타겟 이미지와 상기 블러 이미지를 비교한 이미지 품질 정보를 포함하는 제3 특징값을 추출하는 제3 특징값 추출부를 더 포함하고,
상기 판별부는,
상기 제1 및 제3 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별하는
딥페이크 이미지 판별 장치. - 제7항에 있어서,
상기 제3 특징값 추출부는,
소정의 이미지 판별 알고리즘을 기초로 상기 타겟 이미지에 포함된 인간의 안면부를 크롭하여 크롭 이미지를 생성하고, 상기 크롭 이미지에 대해 블러 효과를 가하여 상기 제3 특징값을 추출하는,
딥페이크 이미지 판별 장치. - 제7항에 있어서,
상기 제3 특징값 추출부는,
소정의 IQM(Image Quality Measurement) 알고리즘을 기초로 상기 이미지 품질 정보를 생성하는,
딥페이크 이미지 판별 장치. - 제9항에 있어서,
상기 IQM 알고리즘은,
the Laplacian blur variance(LPV), high-low frequency index(HLFI), spectral phase error(SPE), spectral magnitude error(SME), gradient-magnitude error(GME), gradient phase error(GPE), structural content(SC), average difference(AD), mean square error(MSE), signal-to-noise ratio in db(SNR), normalized absolute error(NAE), peak signal to noise ratio(PSNR), Laplacian MSE(LMSE), maximum difference(MD), R-averaged max difference(RAMD), normalized cross-correlation(NCC), visual information fidelity(VIF) 중 적어도 어느 하나의 알고리즘을 포함하는,
딥페이크 이미지 판별 장치. - 제7항에 있어서,
상기 제3 특징값 추출부는,
가우시안 필터를 이용하여 상기 타겟 이미지에 블러 효과를 가하는,
딥페이크 이미지 판별 장치. - 제1항에 있어서,
상기 장치는,
상기 타겟 이미지에 포함된 객체의 기 설정된 지점을 포함하는 랜드마크 이미지 추출을 기초로 상기 타겟 이미지의 뒤틀림 정보를 포함하는 제2 특징값을 추출하는 제2 특징값 추출부; 및
상기 타겟 이미지에 블러 효과를 가한 블러 이미지를 생성하여 상기 타겟 이미지와 상기 블러 이미지 상호 간의 이미지 품질 정보를 포함하는 제3 특징값을 추출하는 제3 특징값 추출부를 더 포함하고,
상기 판별부는,
상기 제1, 제2 및 제3 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별하는
딥페이크 이미지 판별 장치. - 제1항에 있어서,
상기 판별부는,
상기 타겟 이미지로부터 추출된 특징값을 입력 받아 상기 타겟 이미지에 대한 조작 여부에 대한 클래스를 판별하는 활성화 함수 계층(activation function layer)으로 구성된 제4 신경망을 포함하는,
딥페이크 이미지 판별 장치. - 딥페이크 이미지 판별 장치가 수행하는 딥페이크 이미지 판별 방법으로서,
타겟 이미지를 획득하는 단계;
상기 타겟 이미지에 포함된 픽셀 레벨의 노이즈 정보를 포함하는 제1 특징값을 추출하는 단계; 및
상기 제1 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별하는 단계를 포함하는,
딥페이크 이미지 판별 방법. - 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
타겟 이미지를 획득하는 단계;
상기 타겟 이미지에 포함된 픽셀 레벨의 노이즈 정보를 포함하는 제1 특징값을 추출하는 단계; 및
상기 제1 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별하는 단계를 포함하는,
딥페이크 이미지 판별 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하는
컴퓨터 판독 가능한 기록매체. - 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,
타겟 이미지를 획득하는 단계;
상기 타겟 이미지에 포함된 픽셀 레벨의 노이즈 정보를 포함하는 제1 특징값을 추출하는 단계; 및
상기 제1 특징값을 기초로 상기 타겟 이미지의 조작 여부를 판별하는 단계를 포함하는,
딥페이크 이미지 판별 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하는
컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210099426A KR20230017650A (ko) | 2021-07-28 | 2021-07-28 | 딥페이크 이미지 판별 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210099426A KR20230017650A (ko) | 2021-07-28 | 2021-07-28 | 딥페이크 이미지 판별 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230017650A true KR20230017650A (ko) | 2023-02-06 |
Family
ID=85224009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210099426A KR20230017650A (ko) | 2021-07-28 | 2021-07-28 | 딥페이크 이미지 판별 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20230017650A (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200080533A (ko) | 2018-12-27 | 2020-07-07 | 주식회사 유니온커뮤니티 | 특징점 변동을 이용한 위조 얼굴 판별장치 및 그 방법 |
-
2021
- 2021-07-28 KR KR1020210099426A patent/KR20230017650A/ko not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200080533A (ko) | 2018-12-27 | 2020-07-07 | 주식회사 유니온커뮤니티 | 특징점 변동을 이용한 위조 얼굴 판별장치 및 그 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10949952B2 (en) | Performing detail enhancement on a target in a denoised image | |
CN112330574B (zh) | 人像修复方法、装置、电子设备及计算机存储介质 | |
JP7446457B2 (ja) | 画像最適化方法及びその装置、コンピュータ記憶媒体、コンピュータプログラム並びに電子機器 | |
Tuzel et al. | Global-local face upsampling network | |
Liu et al. | Single nighttime image dehazing based on image decomposition | |
CN111325657A (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
KR102095443B1 (ko) | 구조텐서를 이용한 딥러닝 기반의 영상 개선 방법 및 장치 | |
CN110705353A (zh) | 基于注意力机制的遮挡人脸的识别方法和装置 | |
JP7419080B2 (ja) | コンピュータシステムおよびプログラム | |
WO2022016326A1 (zh) | 图像处理方法、电子设备和计算机可读介质 | |
CN111429371A (zh) | 图像处理方法、装置及终端设备 | |
Yuan et al. | Single image dehazing via NIN-DehazeNet | |
WO2022227765A1 (zh) | 生成图像修复模型的方法、设备、介质及程序产品 | |
US20220398704A1 (en) | Intelligent Portrait Photography Enhancement System | |
CN116453232A (zh) | 人脸活体检测方法、人脸活体检测模型的训练方法和装置 | |
Chen et al. | A dataset and benchmark towards multi-modal face anti-spoofing under surveillance scenarios | |
Wang et al. | Single Underwater Image Enhancement Based on $ L_ {P} $-Norm Decomposition | |
CN117496019B (zh) | 一种驱动静态图像的图像动画处理方法及系统 | |
Jin et al. | Deep low light image enhancement via multi-scale recursive feature enhancement and curve adjustment | |
CN111105369B (zh) | 图像处理方法、图像处理装置、电子设备和可读存储介质 | |
Patel et al. | Deepfake video detection using neural networks | |
CN111062904B (zh) | 图像处理方法、图像处理装置、电子设备和可读存储介质 | |
KR20230017650A (ko) | 딥페이크 이미지 판별 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 | |
Tan et al. | Image Manipulation Detection Using the Attention Mechanism and Faster R-CNN [J] | |
CN113628144A (zh) | 人像修复方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |