KR102588298B1

KR102588298B1 - 조작 종류 판별 장치 및 방법

Info

Publication number: KR102588298B1
Application number: KR1020210033826A
Authority: KR
Inventors: 이흥규; 유인재; 남승훈; 안원혁; 권명준
Original assignee: 한국과학기술원
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2023-10-12
Also published as: KR20220129222A

Abstract

일 실시예에 따른 조작 종류 판별 장치는, 손실 압축된 타겟 이미지의 조작 종류를 판별하기 위한 조작 종류 판별 장치에 있어서, 손실 압축된 타겟 이미지를 입력 받는 입력부와, 손실 압축된 조작 이미지에 이용된 양자화(Quantization) 데이터와, 상기 손실 압축된 조작 이미지에 이용된 양자화 데이터를 디코딩한 값을 입력으로, 상기 손실 압축된 조작 이미지의 종류를 레이블 데이터로 하여 기 학습된 기계학습 모델을 이용하여 상기 입력 받은 손실 압축된 타겟 이미지에 사용된 조작 종류를 판별하는 판별부를 포함할 수 있다.

Description

조작 종류 판별 장치 및 방법{APPARATUS AND METHOD FOR DETERMINING MANIPULATED TYPE}

본 발명은 손실 압축된 타겟 이미지에 사용된 조작 종류를 판별하는 조작 종류 판별 장치 및 방법에 관한 것이다.

디지털 카메라 및 관련 기술의 발전에 따라, 디지털 이미지는 어디서든지 캡쳐될 수 있고, 온라인에 게시되거나, 다양한 소셜 네트워크 서비스를 통해 지인에게 직접 전송될 수도 있다. 사람들은 이와 같이 디지털 이미지 내 정보가 모두 사실이라고 믿는 경향이 있지만, 많은 디지털 이미지는 이미지 편집 프로그램에 의해 생성된 허구를 포함할 수 있다.

디지털 이미지의 조작은 쉽게 이루어질 수 있지만, 그 파급력 또한 상당할 수 있다. 이렇게 생성된 인공적인 이미지는 왜곡된 정보를 전파하여, 다양한 사회적 효과를 발생시킬 수 있다. 예를 들어, 어떤 사람들은 정치인이나 연예인의 명예를 훼손하기 위해 조작된 이미지를 이용할 수 있다.

그러나, 이미지 조작이 용이하게 이루어질 수 있는 것과는 반대로, 육안으로 조작된 이미지를 판별하는 것은 쉽지 않다. 그 결과, 사람에 의하지 않고도 조작된 이미지인지를 판별하는 영상 처리 장치 및/또는 방법에 대한 연구가 활발히 진행 중이다.

그러나, 현재의 조작 이미지를 판별하는 기술은 압축되지 않은 이미지의 조작 여부를 구별할 수는 있으나, 손실 압축된 이미지의 조작 여부 및 조작 종류를 판별하지는 못하는 실정이다.

한국공개특허공보, 10-2020-0128162호 (2020.11.11. 공개)

본 발명의 해결하고자 하는 과제는, 조작 종류 판별 장치 및 방법을 제공하는 것이다.

또한, 이러한 조작 종류 판별 장치 및 방법을 통해 기 학습된 기계학습 모델을 이용하여 손실 압축된 타겟 이미지에 사용된 조작 종류를 판별할 수 있는 것 등이 본 발명의 해결하고자 하는 과제에 포함될 수 있다.

다만, 본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

또한, 상기 손실 압축된 조작 이미지에 이용된 양자화 데이터는, 상기 손실 압축된 조작 이미지에서의 이진화된 이산코사인 변환(DCT: Discrete Cosine Transform) 계수를 포함하고, 상기 손실 압축된 조작 이미지에 이용된 양자화 데이터를 디코딩한 값은, 상기 손실 압축된 조작 이미지의 RGB 픽셀 데이터 및 상기 RGB 픽셀 데이터의 DCT 피쳐맵 중 적어도 하나를 포함할 수 있다.

또한, 상기 기 학습된 기계학습 모델은, 상기 손실 압축된 조작 이미지의 RGB 픽셀 데이터를 입력 받아, 상기 RGB 픽셀 데이터에 포함된 조작 특징이 추출되도록 기 학습된 제 1 신경망과, 상기 손실 압축된 조작 이미지의 RGB 픽셀 데이터의 DCT 특징 피쳐맵을 입력 받아, 상기 손실 압축된 조작 이미지의 주파수 특징이 추출되도록 기 학습된 제 2 신경망과, 상기 손실 압축된 조작 이미지의 이진화된 DCT 계수를 입력 받아, 상기 손실 압축된 조작 이미지의 압축 특징이 추출되도록 기 학습된 제 3 신경망과, 상기 제 1 신경망, 상기 제 2 신경망 및 상기 제 3 신경망 각각에서 추출된 상기 조작 특징, 상기 주파수 특징 및 상기 압축 특징 중 적어도 하나를 입력받아, 상기 조작 종류의 확률을 출력하도록 기 학습된 제 4 신경망을 포함할 수 있다.

또한, 상기 기 학습된 기계학습 모델은, 외부 또는 이전 레이어로부터 수신된 데이터의 이미지 조작 특징을 추출하는 제 1 특징 추출 레이어와, 이전 레이어로부터 수신된 데이터의 해상도를 낮추어 출력하는 제 2 특징 추출 레이어와, 이전 레이어로부터 수신된 데이터를 벡터화하여 출력하는 제 3 특징 추출 레이어를 포함할 수 있다.

또한, 상기 제 1 특징 추출 레이어는, 복수 개의 컨볼루션 층(Convolution Layer), 복수 개의 배치 정규화(Batch normalization) 층 및 복수 개의 ReLU(Rectified Linear Unit) 층을 포함하고, 상기 제 2 특징 추출 레이어는, 복수 개의 컨볼루션 층, 복수 개의 배치 정규화 층, ReLU 층 및 평균 폴링(Average Pooling) 층을 포함하고, 상기 제 3 특징 추출 레이어는, 복수 개의 컨볼루션 층, 복수 개의 배치 정규화 층, ReLU 층 및 글로벌 평균 풀링 층(Global Average Pooling Layer)을 포함할 수 있다.

또한, 상기 손실 압축된 조작 이미지에 이용된 양자화(Quantization) 데이터는, 상기 손실 압축된 조작 이미지에 대한 이미지 파일의 헤더(Header)로부터 획득된 데이터일 수 있다.

일 실시예에 따른 조작 종류 판별 방법은, 조작 종류 판별 장치를 이용하여 손실 압축된 타겟 이미지의 조작 종류를 판별하기 위한 조작 종류 판별 방법에 있어서, 손실 압축된 타겟 이미지를 입력 받는 단계와, 손실 압축된 조작 이미지에 이용된 양자화(Quantization) 데이터와, 상기 손실 압축된 조작 이미지에 이용된 양자화 데이터를 디코딩한 값을 입력으로, 상기 손실 압축된 조작 이미지의 종류를 레이블 데이터로 하여 기 학습된 기계학습 모델을 이용하여 상기 입력 받은 손실 압축된 타겟 이미지에 사용된 조작 종류를 판별하는 단계를 포함할 수 있다.

본 발명의 실시예에 의하면, 기 학습된 기계학습 모델을 이용하여 입력되는 손실 압축된 타겟 이미지에 사용된 조작 종류를 판별할 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 조작 종류 판별 장치의 구성도이다.
도 2는 다양한 방법으로 조작된 이미지를 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 기계학습 모델의 학습과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 RGB 픽셀 데이터의 DCT 피쳐맵을 획득하는 것을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 이진화된 DCT 계수를 획득하는 것을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 기계학습 모델의 블록도이다.
도 7은 본 발명의 일 실시예에 따른 조작 종류 판별 방법의 절차에 대한 예시적인 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 조작 종류 판별 장치의 구성도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 조작 종류 판별 장치(100)는 입력부(110) 및 판별부(120)를 포함할 수 있으나, 이에 한정되는 것은 아니다. 아울러, 이러한 조작 종류 판별 장치(100)에 포함된 구성 각각은 소프트웨어 모듈이나 하드웨어 모듈 형태로 구현되거나 또는 소프트웨어 모듈과 하드웨어 모듈이 조합된 형태, 예컨대 컴퓨터나 스마트 기기 등에서 구현될 수 있고, 각각의 구성들은 전기적으로 연결될 수 있다.

입력부(110)는 손실 압축된 타겟 이미지를 입력 받을 수 있다.

여기서, 타겟 이미지란 조작 종류 판별의 객체로서, 손실 압축된 이미지일 수 있다. 일 실시예에 따른 타겟 이미지는 JPEG(Joint Photographic Experts Group) 표준에 의해 손실 압축된 JPEG 이미지일 수 있다.

판별부(120)는 기 학습된 기계학습 모델을 이용하여 입력부(110)에서 입력 받은 손실 압축된 타겟 이미지에 사용된 조작 종류를 판별할 수 있다.

일 실시예로서, 판별부(120)는 기 학습된 기계학습 모델을 포함할 수 있으며, 기 학습된 기계학습 모델을 이용하여 입력 받은 손실 압축된 타겟 이미지에 사용된 조작 종류를 판별할 수 있다.

다른 실시예로서, 판별부(120)는 외부의 다른 장치로부터 기 학습된 기계학습 모델을 로드한 후, 기 학습된 기계학습 모델을 이용하여 입력 받은 손실 압축된 타겟 이미지에 사용된 조작 종류를 판별할 수 있다.

여기서, 기계학습 모델은 컨볼루션 신경망(Convolution Neural Network)로 구현될 수 있다.

보다 상세히, 기계학습 모델은 손실 압축된 조작 이미지에 이용된 양자화(Quantization) 데이터와, 손실 압축된 조작 이미지에 이용된 양자화 데이터를 디코딩한 값을 입력으로, 상기 손실 압축된 조작 이미지의 종류를 레이블 데이터로 하여 기 학습되어 있을 수 있다.

여기서, 조작 종류는 이미지 블러링(IB: Image blurring), 노이즈 추가(NA: Noise addition), 대비 변경(CC: Contrast change), 이미지 모핑(IM: Image morphing) 및 이미지 리샘플링(IR: Image resampling) 중 적어도 하나일 수 있으나, 이에 한정되는 것은 아니다.

도 2는 다양한 방법으로 조작된 이미지를 나타낸 도면이다.

도 2는 다양한 방법으로 조작된 이미지의 예시에 관한 것으로, (a) 내지 (d)는 조작 종류 중 이미지 블러링(IB: Image blurring)에 관한 예시 이미지이고, (e) 내지 (h)는 조작 종류 중 노이즈 추가(NA: Noise addition)에 관한 예시 이미지이고, (i) 및 (j)는 조작 종류 중 대비 변경(CC: Contrast change)에 관한 예시 이미지고, (k) 내지 (o)는 조작 종류 중 이미지 모핑(IM: Image morphing)에 관한 예시 이미지이고, (p) 내지 (t)는 조작 종류 중 이미지 리샘플링(IR: Image resampling) 관한 예시 이미지이다.

이때, 이미지 블러링(IB)은 이미지에서 고주파 신호를 제거하여 이미지를 조작하는 방법이고, 노이즈 추가(NA: Noise addition)는 이미지의 콘텐츠 정보와 무관한 고주파 신호(예를 들어, 노이즈 유사 신호)를 추가하여 이미지를 조작하는 방법이고, 대비 변경(CC: Contrast change)은 이미지의 색상 분포를 변경하여 이미지를 조작하는 방법이고, 이미지 모핑(IM: Image morphing)은 이미지 변형을 위하여 이미지 보양을 변경하거나 모핑하여 이미지를 조작하는 방법이고, 이미지 리샘플링(IR: Image resampling)은 픽셀 단위의 너비나 높이가 다른 이미지의 새 버전을 생성하여 이미지 해상도를 확대하거나 축소하여 이미지를 조작하는 방법이다.

이때, 기계학습 모델은 도 2와 같이 조작된 이미지를 손실 압축한 후, 손실 압축된 조작 이미지를 이용하여 학습할 수 있으며, 이때 손실 압축된 조작 이미지는 JPEG(Joint Photographic Experts Group) 표준에 의해 손실 압축된 JPEG 이미지일 수 있다.

이하, 기계학습 모델에 대하여 도 3을 통해 보다 상세히 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 기계학습 모델의 학습과정을 설명하기 위한 도면이다.

도 3을 참조하면, 일 실시예에 따른 기 학습된 기계학습 모델(300)은 제 1 신경망(310), 제 2 신경망(320), 제 3 신경망(330) 및 제 4 신경망(340)을 포함할 수 있다.

여기서, 제 1 신경망(310), 제 2 신경망(320) 및 제 3 신경망(330)에 사용되는 학습 데이터셋은 손실 압축된 상태의 조작 이미지(Manipulated image)를 전처리한 데이터(Data Preprocessing)일 수 있으며, 이때 손실 압축된 상태의 조작 이미지가 기 설정된 값보다 클 경우, 손실 압축된 상태의 조작 이미지를 복수 개의 기 설정된 이미지 크기(예를 들어, 128 X 128 크기)로 분할(또는 절삭)한 뒤, 분할된 손실 압축된 상태의 조작 이미지를 전처리한 데이터를 사용할 수도 있다.

보다 상세히, 제 1 신경망(310), 제 2 신경망(320) 및 제 3 신경망(330)에 사용되는 학습 데이터셋은 분할된 손실 압축된 조작 이미지에 이용된 양자화(Quantization) 데이터와, 상기 분할된 손실 압축 상태의 조작 이미지에 이용된 양자화 데이터를 디코딩한 값이 사용될 수 있다.

여기서, 손실 압축된 조작 이미지에 이용된 양자화(Quantization) 데이터는 손실 압축된 조작 이미지에서의 이진화된 이산코사인변환(DCT: Discrete Cosine Transform) 계수(이하, DCT 계수라고 칭함)를 포함할 수 있고, 손실 압축된 조작 이미지에 이용된 양자화 데이터를 디코딩한 값은 손실 압축된 조작 이미지의 RGB 픽셀 데이터와, 상기 RGB 픽셀 데이터의 DCT 피쳐맵(또는 손실 압축된 조작 이미지의 특징 벡터값)을 포함할 수 있다.

보다 상세히, 제 1 신경망(310)은 손실 압축된 조작 이미지의 RGB 픽셀 데이터를 입력 받아, RGB 픽셀 데이터에 포함된 다양한 조작의 특징이 추출되도록 기 학습되어 있을 수 있다.

여기서, 제 1 신경망(310)에 입력되는 손실 압축된 조작 이미지의 RGB 픽셀 데이터는 손실 압축된 조작 이미지의 파일에 대한 헤더(Header)로부터 손실 압축된 조작 이미지에서의 양자화된 DCT 계수를 획득하고, 획득된 양자화된 DCT 계수를 디코딩하여 획득된 값일 수 있다.

제 2 신경망(320)은 손실 압축된 조작 이미지의 RGB 픽셀 데이터의 DCT 특징 피쳐맵을 입력 받아, 손실 압축된 조작 이미지의 주파수 특징이 추출되도록 기 학습되어 있을 수 있다.

여기서, 제 2 신경망(320)에 입력되는 손실 압축된 조작 이미지의 RGB 픽셀 데이터의 DCT 특징 피쳐맵은 손실 압축된 조작 이미지의 파일에 대한 헤더(Header)로부터 손실 압축된 조작 이미지에서의 양자화된 DCT 계수를 획득하고, 획득된 양자화된 DCT 계수를 디코딩하여 획득된 RGB 픽셀 데이터를 소정 처리하여 획득된 값일 수 있다.

보다 상세히, RGB 픽셀 데이터의 DCT 특징 피쳐맵을 획득하는 것에 대하여 도 4를 통해 상세히 설명하도록 한다. 도 4는 본 발명의 일 실시예에 따른 RGB 픽셀 데이터의 DCT 특징 피쳐맵을 획득하는 것을 설명하기 위한 도면이다.

도 4를 참조하면, RGB 픽셀 데이터의 DCT 특징 피쳐맵을 획득하기 위해 먼저, 손실 압축된 조작 이미지의 RGB 픽셀 데이터의 각 채널(R channel, C channel, B channel)별로 지그재그 스캐닝(Zig-zag Scanning)을 통해 DCT 뱅크를 생성할 수 있다.

이후, 각 채널의 DCT 뱅크는 커널 너비, 커널 높이, 입력 채널 및 출력 채널의 4가지 축을 가지는 컨볼루션 필터(F)로 변환될 수 있다.

이후, 각 R, G 및 B 채널을 컨볼루션 필터(F)와는 별도로 컨볼루션을 수행하여 3가지 피쳐 맵(400)(feature map)을 생성하고, 생성한 3가지의 피쳐 맵에 대하여 채널 재정렬(channel reordering)을 수행하여 RGB 픽셀 데이터의 DCT 특징 피쳐맵을 획득할 수 있다.

여기서, RGB 픽셀 데이터의 DCT 특징 피쳐맵을 획득하는데 있어서, 지그재그 스캐닝 및 채널 재정렬 접근 방식을 이용하는 이유는 최종 피쳐맵의 인접 채널이 주파수 영역에서 더 높은 상관관계를 갖도록 학습하기 위함이다.

제 3 신경망(330)은 손실 압축된 조작 이미지의 이진화된 DCT 계수를 입력 받아, 손실 압축된 조작 이미지의 압축 특징이 추출되도록 기 학습되어 있을 수 있다.

여기서, 제 3 신경망(330)에 입력된 이진화된 DCT 계수는 손실 압축된 조작 이미지의 파일에 대한 헤더(Header)로부터 손실 압축된 조작 이미지에서의 양자화된 DCT 계수를 획득하고, 획득된 양자화된 DCT 계수를 소정 처리하여 획득된 값일 수 있다.

보다 상세히, 이진화된 DCT 계수를 획득하는 것에 대하여 도 5를 통해 상세히 설명하도록 한다. 도 5는 본 발명의 일 실시예에 따른 이진화된 DCT 계수를 획득하는 것을 설명하기 위한 도면이다.

도 5를 참조하면, 손실 압축된 조작 이미지의 파일에 대한 헤더(Header)로부터 손실 압축된 조작 이미지에서의 양자화된 DCT 계수를 획득하고, 획득한 양자화된 DCT 계수에서 Y채널의 양자화된 DCT 계수 배열에 포함된 요소 각각의 절대 값에 대해 임계값 T로 분할할 수 있다.

여기서, 양자화된 DCT 계수의 Y채널만 고려하는 이유는 양자화된 DCT 계수의 Cb, Cr 및 Y 채널 중, Cb 및 Cr 채널은 샘플링 모드에 따라 해상도가 달라지기 때문이다.

이후, 임계값 T로 분할된 양자화된 DCT 계수 배열은 원-핫 인코딩(One-hot Encoding)되어 이진화된 DCT 계수 배열(500)(Binarized Coefficient Array)로 변환될 수 있다.

이때, 이진화된 DCT 계수 배열은 제 3 신경망(330)에 입력되며, 제 3 신경망(330)은 이진화된 DCT 계수 배열을 입력 받아, 손실 압축된 조작 이미지의 통계적 특징 추출을 학습하여 조작 이미지에서 압축 특징이 추출되도록 기 학습되어 있을 수 있다.

다시, 도 3을 참조하면, 제 4 신경망(340)은 기 학습된 제 1 신경망(310), 제 2 신경망(320), 제 3 신경망(330) 각각에서 추출된 조작 특징, 주파수 특징 및 압축 특징 중 적어도 하나를 입력받아, 조작 종류의 확률을 출력하도록 기 학습되어 있을 수 있다.

도 6은 본 발명의 일 실시예에 따른 기계학습 모델의 블록도이다.

도 6을 참조하면, 제 1 신경망(310)은 손실 압축 상태의 조작 이미지의 조작 특징이 추출되도록 기 학습되어 있고, 제 2 신경망(320)은 손실 압축 상태의 조작 이미지의 주파수 특징이 추출되도록 기 학습되어 있고, 제 3 신경망(330)은 손실 압축 상태의 조작 이미지의 압축 특징이 추출되도록 기 학습되어 있고, 제 4 신경망(340)은 제 1 신경망(310), 제 2 신경망(320) 및 제 3 신경망(330) 각각에서 추출된 조작 특징, 주파수 특징 및 압축 특징 중 적어도 하나를 입력받아, 손실 압축된 이미지의 조작 종류의 확률을 출력하도록 기 학습되어 있을 수 있다.

보다 상세히, 기계학습 모델(300)은 제 1 특징 추출 레이어 내지 제 3 특징 추출 레이어(610,620,630,640)를 이용하여 입력 받은 데이터를 기반으로 피쳐맵을 추출할 수 있다.

제 1 특징 추출 레이어(610, 620)는, 제 1 레이어(610, BT1) 및 제 2 레이어(620, BT2)를 포함할 수 있다.

예를 들어, 제 1 특징 추출 레이어(610, 620)는 외부 또는 이전 레이어로부터 수신된 데이터의 이미지 조작 특징을 추출할 수 있다.

여기서, 로우 레벨 특징은 이미지에 포함된 다양한 물체(또는 객체)와 같이 사람이 확인할 수 있는 정보인 하이 레벨 특징(또는 semantic information)과는 다른 특징으로, 카메라에서 발생하는 센서 패턴 노이즈, 영상을 손실 압축 시에(예를 들어, JEPG 압축) 발생하는 압축 흔적, 온라인 유통 과정에서 발생될 수 있는 손실된 정보 특징을 포함할 수 있다.

보다 상세히, 제 1 레이어(610, BT1)는 3 X 3 컨볼루션 층(Convolution Layer), 배치 정규화(Batch normalization) 층 및 ReLU(Rectified Linear Unit) 층을 포함할 수 있다.

구체적으로, 제 1 레이어(610, BT1)는 3 X 3 컨볼루션 층(Convolution Layer)의 출력값이 배치(Batch) 단위로 정규화를 수행하여 과적합 가능성을 완화하고, ReLU를 활성화 함수로 사용하여, 입력되는 이미지의 로우 레벨 신호를 추출할 수 있다.

제 2 레이어(620, BT2)는, 복수의 3 X 3 컨볼루션 층(Convolution Layer), 복수의 배치 정규화(Batch normalization) 층 및 ReLU(Rectified Linear Unit) 층을 포함할 수 있다.

제 2 레이어(620, BT2)는 3 X 3 컨볼루션 층, 배치 정규화 층 및 ReLU층 이후에 다시 3 X 3 컨볼루션 층, 배치 정규화 층이 배치되고, 스킵 연결(skip-connection)을 통해 로우 레벨 특징을 추출 및 학습할 수 있다.

이때, 스킵 연결(skip-connection) 학습 방법은 깊은 형태를 가지는 CNN의 수렴에 부정적인 영향을 미치는 기울기 소실(gradient vanishing) 문제를 완화시키는데 활용되며, 스킵 연결(skip-connection) 학습 기반의 로컬 잔차 학습(local residual learning) 방법은 손실 압축된 조작 이미지의 조작 특징을 학습하는데 도움이 될 수 있다.

이때, 제 1 레이어(610, BT1) 및 제 2 레이어(620, BT2)는 조작 알고리즘에 의해 삽입된 노이즈 유사 신호를 제거할 수 있는 풀링 레이어를 사용하지 않음으로써 로우 레벨 특징을 용이하게 추출 할 수 있다.

제 2 특징 추출 레이어(630, BT3)는 복수 개의 3 X 3 컨볼루션 층(Convolution Layer) 및 1 X 1 컨볼루션 층(Convolution Layer), 복수 개의 배치 정규화(Batch normalization) 층 ReLU(Rectified Linear Unit) 층 및 3 X 3 평균 풀링 층(Average Pooling Layer)을 포함할 수 있다.

제 2 특징 추출 레이어(630)는 스킵 연결(skip-connection)을 통해 원소별 덧셈(element-wise addition)을 수행하기 위하여 스트라이드(stride)가 2인 1 X 1 컨볼루션 층(Convolution Layer)을 포함하며, 스트라이드(stride)가 2인 1 X 1 컨볼루션 층(Convolution Layer)을 통하여 입력되는 해상도를 절반으로 줄일 수 있다.

제 3 특징 추출 레이어(640, BT4)는 복수 개의 3 X 3 컨볼루션 층(Convolution Layer), 복수 개의 배치 정규화(Batch normalization) 층 ReLU(Rectified Linear Unit) 층 및 글로벌 평균 풀링 층(Global Average Pooling Layer)을 포함할 수 있다.

제 3 특징 추출 레이어(640)는 입력 받은 피쳐 맵의 기능을 통합하고, 글로벌 평균 풀링 층을 이용하여 피쳐맵을 벡터화하여 출력할 수 있다.

이하, 제 1 특징 추출 레이어 내지 제 3 특징 추출 레이어(610,620,630,640)를 이용하여 기계학습 모델을 학습시키는 것에 대하여 상세히 설명하도록 한다.

제 1 신경망(310)은 2개의 제 1 레이어(610), 5개의 제 2 레이어(620) 및 4개의 제 2 특징 추출 레이어(630)를 포함할 수 있다.

보다 상세히, 제 1 신경망(310)은 128 X 128 크기의 손실 압축된 조작 이미지의 RGB 픽셀 데이터(RGB Pixel Data)를 입력 받아, RGB 픽셀 데이터의 조작 흔적을 학습 할 수 있으며, 제 1 레이어(610) 및 제 2 레이어(620)를 통해 추출한 로우 레벨 특징에 관한 피쳐 맵을 제 2 특징 추출 레이어(630)를 통해 피쳐맵 차원을 축소할 수 있다.

제 2 신경망(320)은 3개의 제 1 레이어(610), 6개의 제 2 레이어(620) 및 3개의 제 2 특징 추출 레이어(630)를 포함할 수 있다.

이때, 제 2 신경망(320)은 손실 압축된 조작 이미지의 RGB 픽셀 데이터의 DCT 피쳐맵(DCT Feature)을 입력 받을 수 있으며, 각 벡터값의 채널은 지그재그 스캐닝(Zig-zag Scanning)과 RGB 재정렬 접근 방법을 사용하여 정렬되기 때문에, 각 채널에 포함된 에너지는 인덱스가 증가함에 따라 저하될 수 있다.

이때, 각 DCT 피쳐맵은 채널별로 크기가 63 X 63인 4개의 하위그룹으로 분할될 수 있으며, 각 그룹은 손실 압축된 조작 이미지의 고주파에서 저주파 구성 요소로 구성될 수 있다.

따라서, 4개의 하위 그룹에 포함된 저주파 구성 요소를 학습하기 위하여 제 2 신경망(320)은 그룹 컨볼루션을 적용할 수 있다.

보다 상세히, 그룹 컨볼루션은 각 그룹의 채널만 사용하여 출력을 계산하고, 하나로 병합하는 것으로, 이와 같이 그룹 컨볼루션으로 학습을 수행할 경우, 고주파 및 저주파 기능이 혼합되는 것을 방지하고, 상관 관계가 높은 채널을 사용하여 학습할 수 있다.

이때, 제 2 신경망(320)은 3개의 제 1 레이어(610)만을 그룹 컨볼루션으로 학습하고, 나머지 제 2 레이어(620) 및 제 2 특징 추출 레이어(630)는 그룹 컨볼루션으로 학습하지 않고 전체 채널을 이용하여 특징을 학습할 수 있다.

이후, 제 1 신경망(310) 및 제 2 신경망(320)으로부터 출력된 피쳐맵은 연속(concatenation) 층, L2-정규화 (L2-nomalization) 층, 제 3 특징 추출 레이어(640), 완전 연결 층(Fully Connected Layer) 및 소프트맥스(Softmax) 층을 통과하여 각 피쳐맵의 조작 클래스 확률이 계산될 수 있다.

한편, 제 1 신경망(310) 및 제 2 신경망(320)은 출력 값과 레이블간의 교차 엔트로피 손실을 최소화하도록 훈련될 수 있다.

제 3 신경망(330)은 통계적 특징 추출부(605), 제 1 레이어(610), 4개의 제 2 레이어(620) 및 4개의 제 2 특징 추출 레이어(630)를 포함할 수 있다.

여기서, 통계적 특징 추출부(605)는 2개의 3 X 3 컨볼루션 층(Convolution Layer), 2개의 배치 정규화(Batch normalization) 층, ReLU(Rectified Linear Unit) 층 및 연속(concatenation) 층을 포함할 수 있다.

제 3 신경망(330)은 128 X 128 크기의 이진화된 DCT 계수(Binarized DCT Coefficients)를 입력 받아 학습될 수 있다.

보다 상세히, 제 3 신경망(330)에 입력되는 이진화된 DCT 계수는 통계적 특징 추출부(605)를 통해 2개의 3 X 3 컨볼루션 층(Convolution Layer) 및 2개의 배치 정규화(Batch normalization) 층을 통과하여 이진화된 DCT 계수 간의 관계와 같은 통계적 특징을 추출할 수 있다.

이후, 추출된 통계적 특징은 제 1 레이어(610), 4개의 제 2 레이어(620) 및 4개의 제 2 특징 추출 레이어(630)를 통과하면서 손실 압축된 조작 이미지의 압축 특징을 학습할 수 있다.

한편, 제 2 특징 추출 레이어(630)에서 출력된 손실 압축된 조작 이미지의 압축 특징값은 제 3 특징 추출 레이어(640), 완전 연결 층(Fully Connected Layer) 및 소프트맥스(Softmax) 층을 통과하여 제 3 신경망(330)에서의 출력과 레이블 사이의 교차 엔트로피 손실을 최소화 하도록 학습될 수 있다.

제 4 신경망(340)은 제 1 신경망(310) 및 제 2 신경망(320)으로부터 출력된 피쳐맵은 연속(concatenation) 층, L2-정규화 (L2-nomalization) 층, 제 3 특징 추출 레이어(640), 완전 연결 층(Fully Connected Layer) 및 소프트맥스(Softmax) 층을 포함할 수 있다.

보다 상세히, 제 4 신경망(340)은 제 1 신경망(310), 제 2 신경망(320) 및 제 3 신경망(330) 각각으로부터 출력된 조작 특징, 주파수 특징 및 압축 특징을 입력 받아, 조작 종류의 확률을 출력하도록 기 학습되어 있을 수 있다.

일 실시예로서, 제 4 신경망(340)은 제 1 신경망(310), 제 2 신경망(320) 및 제 3 신경망(330)으로부터 출력된 피쳐맵을 입력 받고, 제 1 신경망(310), 제 2 신경망(320) 및 제 3 신경망(330)으로부터 출력된 피쳐맵은 연속(concatenation) 층, L2-정규화 (L2-nomalization) 층, 제 3 특징 추출 레이어(640), 완전 연결 층(Fully Connected Layer) 및 소프트맥스(Softmax) 층을 통과하여 각 조작 피쳐맵의 조작 클래스 확률이 계산될 수 있다.

예를 들어, 제 4 신경망(340)은 제 1 신경망(310), 제 2 신경망(320) 및 제 3 신경망(330)으로부터 학습되어 출력된 피쳐맵을 입력 받아, 조작 종류를 출력할 수 있다.

도 7은 본 발명의 일 실시예에 따른 조작 종류 판별 방법의 절차에 대한 예시적인 순서도이다. 도 7의 조작 종류 판별 방법은 도 1에 도시된 조작 종류 판별 장치(100)에 의해 수행 가능하다. 아울러, 도 7에 도시된 조작 종류 판별 방법은 예시적인 것에 불과하다.

도 7을 참조하면, 입력부(110)는 손실 압축된 타겟 이미지를 입력 받을 수 있다(단계 S100).

판별부(120)는 손실 압축된 조작 이미지에 이용된 양자화(Quantization) 데이터와, 상기 손실 압축된 조작 이미지에 이용된 양자화 데이터를 디코딩한 값을 입력으로, 상기 손실 압축된 조작 이미지의 종류를 레이블 데이터로 하여 기 학습된 기계학습 모델을 이용하여 입력부(110)로부터 입력 받은 손실 압축된 타겟 이미지에 사용된 조작 종류를 판별할 수 있다(단계 S200).

이상에서 살펴본 바와 같이, 본 발명의 실시예에 의하면, 기 학습된 기계학습 모델을 이용하여 입력되는 손실 압축된 타겟 이미지에 사용된 조작 종류를 판별할 수 있다.

본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방법으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 조작 종류 판별 장치
110: 입력부
120: 판별부
300: 기계학습 모델
310: 제 1 신경망
320: 제 2 신경망
330: 제 3 신경망
340: 제 4 신경망

Claims

손실 압축된 타겟 이미지의 조작 종류를 판별하기 위한 조작 종류 판별 장치에 있어서,
상기 손실 압축된 타겟 이미지를 입력 받는 입력부; 및
손실 압축된 조작 이미지에 이용된 양자화(Quantization) 데이터의 이진화된 이산코사인 변환(DCT: Discrete Cosine Transform) 계수 및 상기 양자화 데이터를 디코딩한 RGB 픽셀 데이터 및 상기 RGB 픽셀 데이터의 DCT 피쳐맵을 입력 받고, 레이블 데이터로 상기 손실 압축된 조작 이미지의 종류를 입력 받아 조작 종류를 판별하도록 기 학습된 기계학습 모델을 이용하여 상기 손실 압축된 타겟 이미지에 사용된 조작 종류를 판별하는 판별부를 포함하고,
상기 기계학습 모델은,
상기 RGB 픽셀 데이터를 입력 받아, 상기 RGB 픽셀 데이터에 포함된 조작 특징을 추출하도록 학습된 제 1 신경망;
상기 RGB 픽셀 데이터의 DCT 피쳐맵을 입력 받아, 상기 손실 압축된 조작 이미지의 주파수 특징을 추출하도록 학습된 제 2 신경망;
상기 이진화된 DCT 계수를 입력 받아, 상기 손실 압축된 조작 이미지의 압축 특징을 추출하도록 학습된 제 3 신경망; 및
상기 제 1 신경망, 상기 제 2 신경망 및 상기 제 3 신경망 각각에서 추출된 상기 조작 특징, 상기 주파수 특징 및 상기 압축 특징 중 적어도 하나를 입력 받아, 상기 조작 종류의 확률을 출력하도록 학습된 제 4 신경망을 포함하는 조작 종류 판별 장치.
삭제
삭제
제 1 항에 있어서,
상기 기 학습된 기계학습 모델은,
외부 또는 이전 레이어로부터 수신된 데이터의 이미지 조작 특징을 추출하는 제 1 특징 추출 레이어와,
이전 레이어로부터 수신된 데이터의 해상도를 낮추어 출력하는 제 2 특징 추출 레이어와,
이전 레이어로부터 수신된 데이터를 벡터화하여 출력하는 제 3 특징 추출 레이어를 포함하는
조작 종류 판별 장치.
제 4 항에 있어서,
상기 제 1 특징 추출 레이어는,
복수 개의 컨볼루션 층(Convolution Layer), 복수 개의 배치 정규화(Batch normalization) 층 및 복수 개의 ReLU(Rectified Linear Unit) 층을 포함하고,
상기 제 2 특징 추출 레이어는,
복수 개의 컨볼루션 층, 복수 개의 배치 정규화 층, ReLU 층 및 평균 폴링(Average Pooling) 층을 포함하고,
상기 제 3 특징 추출 레이어는,
복수 개의 컨볼루션 층, 복수 개의 배치 정규화 층, ReLU 층 및 글로벌 평균 풀링 층(Global Average Pooling Layer)을 포함하는
조작 종류 판별 장치.
제 1 항에 있어서,
상기 양자화(Quantization) 데이터는, 상기 손실 압축된 조작 이미지에 대한 이미지 파일의 헤더(Header)로부터 획득된 데이터인
조작 종류 판별 장치.
조작 종류 판별 장치를 이용하여 손실 압축된 타겟 이미지의 조작 종류를 판별하기 위한 조작 종류 판별 방법에 있어서,
상기 손실 압축된 타겟 이미지를 입력 받는 단계와,
손실 압축된 조작 이미지에 이용된 양자화(Quantization) 데이터의 이진화된 이산코사인 변환(DCT: Discrete Cosine Transform) 계수 및 상기 양자화 데이터를 디코딩한 RGB 픽셀 데이터 및 상기 RGB 픽셀 데이터의 DCT 피쳐맵을 입력 받고, 레이블 데이터로 상기 손실 압축된 조작 이미지의 종류를 입력 받아 조작 종류를 판별하도록 기 학습된 기계학습 모델을 이용하여 상기 손실 압축된 타겟 이미지에 사용된 조작 종류를 판별하는 단계를 포함하고,
상기 기계학습 모델은,
상기 RGB 픽셀 데이터를 입력 받아, 상기 RGB 픽셀 데이터에 포함된 조작 특징을 추출하도록 학습된 제 1 신경망;
상기 RGB 픽셀 데이터의 DCT 피쳐맵을 입력 받아, 상기 손실 압축된 조작 이미지의 주파수 특징을 추출하도록 학습된 제 2 신경망;
상기 이진화된 DCT 계수를 입력 받아, 상기 손실 압축된 조작 이미지의 압축 특징을 추출하도록 학습된 제 3 신경망; 및
상기 제 1 신경망, 상기 제 2 신경망 및 상기 제 3 신경망 각각에서 추출된 상기 조작 특징, 상기 주파수 특징 및 상기 압축 특징 중 적어도 하나를 입력 받아, 상기 조작 종류의 확률을 출력하도록 학습된 제 4 신경망을 포함하는 조작 종류 판별 방법.
삭제
삭제
제 7 항에 있어서,
상기 기 학습된 기계학습 모델은,
외부 또는 이전 레이어로부터 수신된 데이터의 이미지 조작 특징을 추출하는 제 1 특징 추출 레이어와,
이전 레이어로부터 수신된 데이터의 해상도를 낮추어 출력하는 제 2 특징 추출 레이어와,
이전 레이어로부터 수신된 데이터를 벡터화하여 출력하는 제 3 특징 추출 레이어를 포함하는
조작 종류 판별 방법.
제 10 항에 있어서,
상기 제 1 특징 추출 레이어는,
복수 개의 컨볼루션 층(Convolution Layer), 복수 개의 배치 정규화(Batch normalization) 층 및 복수 개의 ReLU(Rectified Linear Unit) 층을 포함하고,
상기 제 2 특징 추출 레이어는,
복수 개의 컨볼루션 층, 복수 개의 배치 정규화 층, ReLU 층 및 평균 폴링(Average Pooling) 층을 포함하고,
상기 제 3 특징 추출 레이어는,
복수 개의 컨볼루션 층, 복수 개의 배치 정규화 층, ReLU 층 및 글로벌 평균 풀링 층(Global Average Pooling Layer)을 포함하는
조작 종류 판별 방법.
제 7 항에 있어서,
상기 양자화(Quantization) 데이터는, 상기 손실 압축된 조작 이미지에 대한 이미지 파일의 헤더(Header)로부터 획득된 데이터인
조작 종류 판별 방법.
컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
상기 컴퓨터 프로그램은,
제 7 항 및 제 10 항 내지 제 12 항 중 어느 한 항에 따른 방법을 프로세서가 수행하도록 하기 위한 인스트럭션을 포함하는 컴퓨터 판독 가능한 기록매체.
컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은,
제 7 항 및 제 10 항 내지 제 12 항 중 어느 한 항에 따른 방법을 프로세서가 수행하도록 하기 위한 인스트럭션을 포함하는 컴퓨터 프로그램.