KR102030132B1

KR102030132B1 - 악성 코드 검출 방법 및 시스템

Info

Publication number: KR102030132B1
Application number: KR1020170173138A
Authority: KR
Inventors: 낭종호; 김현곤; 석혜경; 송진하
Original assignee: 서강대학교산학협력단
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2019-10-08
Also published as: KR20190072074A

Abstract

본 발명은 CAM 모델 및 R-CNN 모델의 학습을 통해 악성 코드를 검출하는 시스템 및 방법에 관한 것이다. 상기 악성 코드 검출 시스템은, 악성 코드를 포함한 악성 코드 파일과 악성 코드가 포함되지 않은 정상 파일을 포함하는 학습용 데이터 셋을 이용하여 악성 코드를 검출하기 위한 R-CNN 모델을 학습시키는 학습 시스템; 및 상기 학습 시스템에 의해 학습된 R-CNN 모델을 이용하여 임의의 파일을 테스트하여 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하는 테스트 시스템;을 구비한다. 본 발명에 따른 악성 코드 검출 방법 및 시스템은, 파일들을 이미지 파일로 변환시킨 후, CAM 모델과 R-CNN 모델을 학습시킴으로써, 이미지의 크기 재조정 작업없이 이미지 파일 전체에 대하여 악성 코드를 검출할 수 있고, 그 결과 악성 코드의 존재 유무 뿐만 아니라 악성 코드의 위치도 정확하게 검출할 수 있게 된다.

Description

악성 코드 검출 방법 및 시스템{Malware detection system and method thereof}

본 발명은 악성 코드 검출 방법 및 시스템에 관한 것으로서, 더욱 구체적으로는 클래스 활성화 매핑(CAM) 모델 및 R-CNN 모델을 학습하여 파일들에 포함된 악성 코드의 존재 유무 및 악성 코드의 위치를 검출해 낼 수 있는 악성 코드 검출 방법 및 시스템에 관한 것이다.

인터넷이 급속하게 발전됨과 동시에, 다양한 형태의 악성 코드들이 인터넷을 통해 급속도로 전파되고 있는 실정이다. 따라서, 악성 코드들에 의한 피해가 발생되는 것을 방지하기 위하여, 악성 코드에 감염된 파일들을 검출하고 이러한 악성 코드들을 분석하여야 될 필요가 있다.

종래의 기술은 파일이 악성 코드에 감염된 파일인지 여부를 판단하기 위하여, 해당 파일을 이진 이미지 파일로 변환시킨 후, 학습된 CNN(Convolutional neural network) 모델을 이용하여 악성 코드를 포함하는지 여부를 판단한다.

이 경우, CNN 모델을 학습하기 위하여 이미지 파일을 입력할 때, 테스트 또는 학습을 위하여 입력되는 이미지 파일의 크기를 CNN 모델에 대해 사전 설정된 입력 크기로 재조정하여 이미지를 크게 만들거나 작게 만들어야 한다.

도 1은 종래의 기술에 따른 CNN 모델을 이용하여 악성 코드를 검출하는 경우, 이미지의 크기 재조정하는 것을 설명하기 위하여 예시적으로 도시한 이미지들이다. 도 1의 (a)에 도시된 바와 같이, 크기가 작은 이미지는 사전 설정된 입력 크기로 확대하여야 하며, (b)에 도시된 바와 같이, 크기가 큰 이미지는 사전 설정된 입력 크기로 축소하여야 한다.

이와 같이 이미지의 크기를 재조정하는 경우, 이미지의 중요한 특징(feature)들이 일부 사라지게 되고, 그 결과 정확하게 검출하지 못하거나 분석하지 못하게 되는 문제점이 발생한다.

한편, 종래의 기술에 따른 CNN 모델을 이용하여 악성 코드를 검출하는 경우, 파일내에 악성 코드가 있는지 여부만을 판단하므로, 파일의 어떤 영역이 악성 코드 영역인지 여부를 판단할 수 없게 된다.

도 2는 종래의 기술에 따른 CNN 모델을 이용하여 임의의 파일에 악성 코드가 있는지 여부만을 판단하여 출력하는 결과를 예시적으로 도시한 모식도이다. 도 2에 도시된 바와 같이, 종래의 기술에 따른 CNN 모델은 해당 파일이 악성 파일에 감염된 바이러스(virus)인지 악성 파일에 감염되지 않은 파일(white)인지 여부만을 알려주게 된다. 따라서, 사람의 눈으로는 파일의 어느 영역이 악성 코드 영역인지 파악할 수 없기 때문에, 해당 파일이나 악성 코드에 대한 분석이 필요한 경우 해당 파일의 전체를 분석해야 되는 문제점이 발생한다.

한국등록특허공보 제 10-1754720호 한국등록특허공보 제 10-1724307호

전술한 문제점을 해결하기 위한 본 발명의 목적은 악성 코드가 포함된 파일과 정상 파일들로 구성된 데이터 셋을 이용하여 Class Activation Mapping) 모델과 R-CNN(Region based CNN) 모델을 학습시킴으로써, 파일의 크기의 재조정없이 원래 파일을 그대로 R-CNN 모델에 적용시켜 해당 파일에 대하여 악성 코드 존재 및 악성 코드의 위치를 파악하여 제공하는 악성 코드 검출 방법 및 악성 코드 검출 시스템을 제공하는 것이다.

전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 악성 코드 검출을 위한 학습 시스템은, 악성 코드를 포함한 악성 코드 파일과 악성 코드가 포함되지 않은 정상 파일을 포함하는 학습용 데이터 셋을 이용하여 악성 코드를 검출하기 위한 학습 시스템에 관한 것으로서, 상기 학습용 데이터 셋을 구성하는 파일들을 이미지 파일들로 변환시켜, 학습용 데이터 셋을 구성하는 파일들에 대한 이미지 파일들로 이루어진 이미지 데이터 셋을 생성하는 데이터 셋용 이미지 변환 모듈; 상기 데이터 셋용 이미지 변환 모듈에 의해 변환된 이미지 파일들을 이용하여 클래스 활성화 매핑(Class Activation Mapping; CAM) 모델을 학습하여 각 class에 대해 활성화되는 영역에 대한 정보를 포함하는 제1 가중치 파일(Weight file)을 생성하는 CAM 학습 모듈; 상기 데이터 셋용 이미지 변환 모듈에 의해 변환된 이미지 파일들과 상기 CAM 학습 모듈에 의해 생성된 제1 가중치 파일을 이용하여 상기 이미지 파일에서 활성화된 영역을 검출하고, 활성화된 영역들을 상기 이미지 파일에서 관심 영역들로 추출하는 CAM 관심 영역 추출 모듈; 상기 데이터 셋용 이미지 변환 모듈에 의해 변환된 이미지 파일들과 상기 CAM 관심 영역 추출 모듈에 의해 추출된 관심 영역들에 대한 정보를 이용하여, Region based CNN(R-CNN) 모델을 학습하여 제2 가중치 파일을 생성하는 R-CNN 학습 모듈;을 구비하여, 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하기 위한 R-CNN 모델을 학습시킨다.

전술한 제1 특징에 따른 학습 시스템에 있어서, 상기 데이터 셋용 이미지 변환 모듈은 학습용 데이터 셋을 구성하는 파일들의 각각에 대하여, 이진 값을 1차원 벡터로 입력하고, 상기 1차원 벡터를 N×N 매트릭스로 변환시키고, 상기 변환된 매트릭스를 gray 이미지로 변환시켜, 학습용 데이터 셋을 구성하는 모든 파일들에 대하여 이미지 파일들로 이루어진 이미지 데이터 셋을 생성하는 것이 바람직하다.

전술한 제1 특징에 따른 학습 시스템에 있어서, 상기 CAM 관심 영역 추출 모듈은, 상기 데이터 셋용 이미지 변환 모듈에 의해 변환된 이미지 파일들과 상기 CAM 학습 모듈에 의해 생성된 제1 가중치 파일을 이용하여, 상기 이미지 파일에서 활성화되는 영역을 시각화하고, 상기 활성화된 영역들을 상기 이미지 파일의 원본 크기에 맞게 관심 영역들로 추출하고, 상기 관심 영역들에 대응되는 위치 정보들을 추출하여 출력하는 것이 바람직하다.

본 발명의 제2 특징에 따른 악성 코드 검출 시스템은, 악성 코드를 포함한 악성 코드 파일과 악성 코드가 포함되지 않은 정상 파일을 포함하는 학습용 데이터 셋을 이용하여 악성 코드를 검출하기 위한 R-CNN 모델을 학습시키는 학습 시스템; 및 상기 학습 시스템에 의해 학습된 R-CNN 모델을 이용하여 임의의 파일을 테스트하여 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하는 테스트 시스템;을 구비하고,

상기 학습 시스템은, 상기 학습용 데이터 셋을 구성하는 파일들을 이미지 파일들로 변환시켜, 학습용 데이터 셋을 구성하는 파일들에 대한 이미지 파일들로 이루어진 이미지 데이터 셋을 생성하는 데이터 셋용 이미지 변환 모듈; 상기 데이터 셋용 이미지 변환 모듈에 의해 변환된 이미지 파일들에 대하여 CAM 모델을 학습하여 각 class에 대해 활성화되는 영역에 대한 정보를 포함하는 제1 가중치 파일(Weight file)을 생성하는 CAM 학습 모듈; 상기 데이터 셋용 이미지 변환 모듈에 의해 변환된 이미지 파일들과 상기 CAM 학습 모듈에 의해 생성된 제1 가중치 파일을 이용하여 상기 이미지 파일에서 활성화되는 영역을 검출하고, 활성화된 영역들을 상기 이미지 파일에서 관심 영역들로 추출하는 CAM 관심 영역 추출 모듈; 상기 데이터 셋용 이미지 변환 모듈에 의해 변환된 이미지 파일들과 상기 CAM 관심 영역 추출 모듈에 의해 추출된 관심 영역들에 대한 정보를 이용하여, Region based CNN(R-CNN) 모델을 학습하여 제2 가중치 파일을 생성하는 R-CNN 학습 모듈;을 구비하고,

상기 테스트 시스템은, 테스트 파일을 이미지 파일로 변환시키는 이진 파일 이미지 변환 모듈; 및 상기 학습 시스템의 R-CNN 모델의 학습 결과에 따른 제2 가중치 파일을 이용하여 상기 테스트 파일에 대한 이미지 파일을 테스트하여, 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하는 R-CNN 테스트 모듈;을 구비하여, 임의의 파일에 대하여 악성 코드의 존재 유무 및 악성 코드의 위치를 검출한다.

전술한 제2 특징에 따른 악성 코드 검출 시스템에 있어서, 상기 이진 파일 이미지 변환 모듈은, 테스트 파일의 이진 값을 1차원 벡터로 입력하고, 상기 1차원 벡터를 N×N 매트릭스로 변환시키고, 상기 변환된 매트릭스를 gray 이미지로 변환시키는 것이 바람직하다.

본 발명의 제3 특징에 따른 악성 코드 검출을 위한 학습 방법은, 악성 코드를 포함한 악성 코드 파일과 악성 코드가 포함되지 않은 정상 파일을 포함하는 학습용 데이터 셋을 이용하여 악성 코드를 검출하기 위한 학습 방법에 관한 것으로서, (a) 상기 학습용 데이터 셋을 구성하는 파일들을 이미지 파일들로 변환시켜, 학습용 데이터 셋을 구성하는 파일들에 대한 이미지 파일들로 이루어진 이미지 데이터 셋을 생성하는 단계; (b) 상기 이미지 데이터 셋을 구성하는 이미지 파일들에 대하여 CAM 모델을 학습하여 각 class에 대해 활성화되는 영역에 대한 정보를 포함하는 제1 가중치 파일(Weight file)을 생성하는 단계; (c) 상기 이미지 데이터 셋을 구성하는 이미지 파일들과 상기 CAM 모델 학습에 의해 생성된 제1 가중치 파일을 이용하여 상기 이미지 파일에서 활성화되는 영역을 검출하고, 활성화된 영역들을 상기 이미지 파일에서 관심 영역들로 추출하는 단계; (d) 상기 이미지 데이터 셋을 구성하는 이미지 파일들과 상기 CAM 모델 학습에 의해 추출된 관심 영역들에 대한 정보를 이용하여, Region based CNN(R-CNN) 모델을 학습하여 제2 가중치 파일을 생성하는 단계;를 구비하여, 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하기 위한 R-CNN 모델을 학습시킨다.

전술한 제3 특징에 따른 학습 방법에 있어서, 상기 (a) 단계는, 학습용 데이터 셋을 구성하는 파일들의 각각에 대하여, 이진 값을 1차원 벡터로 입력하고, 상기 1차원 벡터를 N×N 매트릭스로 변환시키고, 상기 변환된 매트릭스를 gray 이미지로 변환시켜, 학습용 데이터 셋을 구성하는 모든 파일들에 대하여 이미지 파일들로 이루어진 이미지 데이터 셋을 생성하는 것이 바람직하다.

전술한 제3 특징에 따른 학습 방법에 있어서, 상기 (c) 단계는, 상기 이미지 데이터 셋을 구성하는 이미지 파일들과 상기 CAM 학습에 의해 생성된 제1 가중치 파일을 이용하여, 상기 이미지 파일에서 활성화되는 영역을 시각화하고, 상기 활성화된 영역들을 상기 이미지 파일의 원본 크기에 맞게 관심 영역들로 추출하고, 상기 관심 영역들에 대응되는 위치 정보들을 추출하여 출력하는 것이 바람직하다.

본 발명의 제4 특징에 따른 악성 코드 검출 방법은, 악성 코드를 포함한 악성 코드 파일과 악성 코드가 포함되지 않은 정상 파일을 포함하는 학습용 데이터 셋을 이용하여 악성 코드 파일을 검출하기 위한 R-CNN 모델을 학습시키는 학습 방법; 및 상기 학습 방법에 의해 학습된 R-CNN 모델을 이용하여 임의의 파일을 테스트하여 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하는 테스트 방법;을 구비하고,

상기 학습 방법은, (a) 상기 학습용 데이터 셋을 구성하는 파일들을 이미지 파일들로 변환시켜, 학습용 데이터 셋을 구성하는 파일들에 대한 이미지 파일들로 이루어진 이미지 데이터 셋을 생성하는 단계; (b) 상기 이미지 데이터 셋을 구성하는 이미지 파일들에 대하여 CAM 모델을 학습하여 각 class에 대해 활성화되는 영역에 대한 정보를 포함하는 제1 가중치 파일(Weight file)을 생성하는 단계; (c) 상기 이미지 데이터 셋을 구성하는 이미지 파일들과 상기 CAM 모델 학습에 의해 생성된 제1 가중치 파일을 이용하여 상기 이미지 파일에서 활성화되는 영역을 검출하고, 활성화된 영역들을 상기 이미지 파일에서 관심 영역들로 추출하는 단계; (d) 상기 이미지 데이터 셋을 구성하는 이미지 파일들과 상기 CAM 모델 학습에 의해 추출된 관심 영역들에 대한 정보를 이용하여, Region based CNN(R-CNN) 모델을 학습하여 제2 가중치 파일을 생성하는 단계;을 구비하고,

상기 테스트 방법은, (e) 테스트 파일을 이미지 파일로 변환시키는 단계; 및 (f) 상기 학습 방법에서 R-CNN 모델의 학습에 의해 생성된 제2 가중치 파일을 이용하여 상기 테스트 파일에 대한 이미지 파일을 테스트하여, 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하는 단계;를 구비하여, 임의의 파일에 대하여 악성 코드의 존재 유무 및 악성 코드의 위치를 검출한다.

본 발명에 따른 악성 코드 검출 방법 및 시스템은, 파일들을 이미지 파일로 변환시킨 후, CAM 모델과 R-CNN 모델을 학습시킴으로써, 이미지의 크기 재조정 작업없이 이미지 파일 전체에 대하여 악성 코드를 검출할 수 있게 된다.

또한, 본 발명에 따른 악성 코드 검출 방법 및 시스템은 R-CNN 모델의 학습을 통해 악성 코드를 검출함으로써, 악성 코드의 존재 유무 뿐만 아니라 악성 코드의 위치도 정확하게 검출할 수 있게 된다. 그 결과, 본 발명에 따른 악성 코드 검출 결과를 이용하여 악성 코드에 대한 분석도 수행할 수 있게 된다.

도 1은 종래의 기술에 따른 CNN 모델을 이용하여 악성 코드를 검출하는 경우, 이미지의 크기 재조정하는 것을 설명하기 위하여 예시적으로 도시한 이미지들이다.
도 2는 종래의 기술에 따른 CNN 모델을 이용하여 임의의 파일에 악성 코드가 있는지 여부만을 판단하여 출력하는 결과를 예시적으로 도시한 모식도이다.
도 3은 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 학습 시스템을 전체적으로 도시한 블록도이다.
도 4는 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 테스트 시스템을 전체적으로 도시한 블록도이다.
도 5는 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 학습 시스템의 데이터 셋용 이미지 변환 모듈의 동작을 도시한 순서도이다.
도 6 내지 도 8은 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 학습 시스템의 데이터 셋용 이미지 변환 모듈의 동작을 설명하기 위하여 각 단계에서의 결과를 예시적으로 도시한 것이다.
도 9는 CAM CNN을 개략적으로 설명하기 위하여 도시한 개념도이다.
도 10은 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 학습 시스템의 CAM 관심 영역 추출 모듈의 동작을 도시한 순서도이다.
도 11 내지 도 13은 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 학습 시스템의 CAM 관심 영역 추출 모듈의 동작을 설명하기 위하여 각 단계에서의 결과를 예시적으로 도시한 것이다.
도 14는 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 학습 시스템의 R-CNN 학습 모듈의 동작을 도시한 블록도이다.
도 15는 R-CNN의 과정 및 결과를 도시한 모식도이다.
도 16은 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 테스트 시스템의 R-CNN 테스트 모듈의 동작을 순차적으로 도시한 순서도이다.
도 17은 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 테스트 시스템의 R-CNN 테스트 모듈의 결과를 예시적으로 도시한 것이다.

본 발명에 따른 악성 코드 검출 방법 및 시스템은, 학습용 데이터 셋을 구성하는 파일들을 이미지 파일로 변환시킨 후, CAM 모델과 R-CNN 모델을 학습시킴으로써, 이미지의 크기 재조정 작업없이 이미지 파일 전체에 대하여 악성 코드를 검출할 수 있고, 그 결과 악성 코드의 존재 유무 뿐만 아니라 악성 코드의 위치도 정확하게 검출할 수 있게 된다.

이하, 첨부된 도면을 이용하여 본 발명의 바람직한 실시예에 따른 악성 코드 검출 방법 및 시스템에 대하여 구체적으로 설명한다.

본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템은 R-CNN 모델을 학습시키는 학습 시스템과 학습된 결과를 이용하여 테스트하는 테스트 시스템으로 이루어진다. 도 3은 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 학습 시스템을 전체적으로 도시한 블록도이다. 도 4는 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 테스트 시스템을 전체적으로 도시한 블록도이다.

먼저, 도 3을 참조하여 본 발명에 따른 학습 시스템에 대하여 구체적으로 설명한다.

도 3을 참조하면, 본 발명에 따른 학습 시스템(30)은, 악성 코드를 포함한 악성 코드 파일과 악성 코드가 포함되지 않은 정상 파일을 포함하는 학습용 데이터 셋(300)을 이용하여 악성 코드 파일을 검출하기 위한 학습 시스템으로서, 데이터 셋용 이미지 변환 모듈(310), 클래스 활성화 매핑(Class Activation Mapping; CAM) 학습 모듈(320), CAM 관심 영역 추출 모듈(330) 및 R-CNN 학습 모듈(340)을 구비한다. 전술한 구성을 갖는 학습 시스템은 학습용 데이터 셋(300)을 이용하여 CAM 모델 및 R-CNN 모델을 학습시킴으로써, 파일에서 악성 코드의 존재유무 및 악성 코드의 위치를 검출할 수 있도록 한다. 이하, 상기 학습 시스템의 각 구성 요소들의 동작에 대하여 구체적으로 설명한다.

도 5는 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 학습 시스템의 데이터 셋용 이미지 변환 모듈의 동작을 도시한 순서도이다. 도 5를 참조하면, 상기 데이터 셋용 이미지 변환 모듈(310)은 상기 학습용 데이터 셋(300)을 구성하는 파일들의 각각에 대하여, 이진 값을 1차원 벡터로 입력하고, 상기 1차원 벡터를 N×N 매트릭스로 변환시키고, 상기 변환된 매트릭스를 gray 이미지로 변환시켜, 데이터 셋을 구성하는 모든 파일들에 대응하는 이미지 파일들로 이루어진 이미지 데이터 셋을 생성한다. 이렇게 생성된 이미지 데이터 셋은 CAM 학습 모듈, CAM 관심 영역 추출 모듈, R-CNN 학습 모듈로 제공된다.

도 6 내지 도 8은 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 학습 시스템의 데이터 셋용 이미지 변환 모듈의 동작을 설명하기 위하여 각 단계에서의 결과를 예시적으로 도시한 것이다. 도 6은 파일의 이진값들을 1차원 벡터로 입력한 것을 도시한 것이며, 도 7은 이진값들에 대한 1차원 벡터들을 N×N 매트릭스로 변환한 상태를 도시한 것이며, 도 8은 N×N 매트릭스를 Gray 이미지로 변환한 것을 도시한 것이다.

상기 클래스 활성화 매핑(Class Activation Mapping; CAM) 학습 모듈(320)은 상기 데이터 셋용 이미지 변환 모듈에 의해 생성된 이미지 데이터 셋을 구성하는 이미지 파일들에 대하여 CAM 모델을 학습하여 각 class에 대해 활성화되는 영역에 대한 정보를 포함하는 가중치 파일(Weight file)을 생성한다.

도 9는 CAM CNN을 개략적으로 설명하기 위하여 도시한 개념도이다.

도 9를 참조하면, CAM CNN은 모든 convolution neural network를 거치고 fully-connected layer를 거칠 때, CAM 모델이 이미지에서 해당 이미지를 해당 레이블(label)로 보는 특징, 즉 활성화되는 이미지 영역을 학습하게 된다. 예를 들면, '강아지'가 포함된 이미지가 강아지로 레이블링(labelling) 될 때 주로 보는 것은 당아지의 얼굴에 나타나는 특징을 알수 있기 때문에, 도 9에 도시된 바와 같이 얼굴 부분이 강하게 활성화되는 것을 볼 수 있다.

도 10은 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 학습 시스템의 CAM 관심 영역 추출 모듈의 동작을 도시한 순서도이다. 도 10을 참조하면, 상기 CAM 관심 영역 추출 모듈(330)은, 상기 CAM 학습 모듈에 의해 생성된 제1 가중치 파일을 이용하여, 상기 이미지 데이터 셋을 구성하는 이미지 파일들에서 활성화되는 영역을 검출하여 시각화하고, 상기 활성화된 영역들을 상기 이미지 파일의 원본 크기에 맞게 관심 영역들로 설정하고, 상기 관심 영역들에 대응되는 위치 정보들을 추출하여 출력한다. 상기 관심 영역에 대응되는 위치 정보는 시작점의 좌표값(x,y) 및 시작점으로부터의 높이(height)와 넓이(width) 를 포함하는 것이 바람직하다.

도 11 내지 도 13은 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 학습 시스템의 CAM 관심 영역 추출 모듈의 동작을 설명하기 위하여 각 단계에서의 결과를 예시적으로 도시한 것이다. 도 11은 CAM 모델의 학습 결과를 도시한 것이며, 도 12는 이미지에서 활성화되는 영역을 시각화하여 도시한 것이며, 도 13은 활성화된 영역을 원본 이미지의 크기에 맞춰 추출한 것을 도시한 것이다.

도 14는 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 학습 시스템의 R-CNN 학습 모듈의 동작을 도시한 블록도이다.

도 14를 참조하면, 상기 R-CNN 학습 모듈(340)은 상기 이미지 데이터 셋을 구성하는 이미지 파일들과 상기 CAM 관심 영역 추출 모듈에 의해 추출된 각 이미지 파일들의 관심 영역들에 대한 위치 정보를 이용하여, Region based CNN(R-CNN) 모델을 학습시키고 가중치 파일을 생성하여 출력한다.

도 15는 R-CNN의 과정 및 결과를 도시한 모식도이다. 도 15를 참조하면, R-CNN(Region based CNN) 모델은 먼저 이미지가 입력되면(Inout Image), 입력 이미지에서 Selective search를 수행하여 수많은 object 후보들을 region 별로 찾아내고(Extract region proposals), 기존의 CNN 모델을 이용하여 특징들을 추출한 후(Compute CNN features), 각 region 별로 추출한 특징들을 분류기(classifier)에 넣어서 분류하고(Classify regions), Non-Maximum Suppression(NMS)을 이용하여 레이블(label)에 해당되는 영역에 bounding box를 구하게 된다.

전술한 구성을 갖는 학습 시스템은, 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하기 위한 R-CNN 모델을 학습시키게 된다.

이하, 도 4를 참조하여 본 발명에 따른 테스트 시스템에 대하여 구체적으로 설명한다. 본 발명에 따른 테스트 시스템(40)은, 전술한 학습 시스템에 의해 학습된 R-CNN 모델을 이용하여 임의의 파일(400)을 테스트하여 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하게 된다.

도 4를 참조하면, 본 발명에 따른 테스트 시스템(40)은, 이진 파일 이미지 변환 모듈(410) 및 R-CNN 테스트 모듈(420)을 구비하여, 테스트 파일(400)에 대하여 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하게 된다.

상기 이진 파일 이미지 변환 모듈(410)은 테스트 파일(400)을 이미지 파일로 변환시켜 출력하는 것으로서, 더욱 구체적으로 설명하면 테스트 파일의 이진 값들을 1차원 벡터로 입력하고, 상기 1차원 벡터를 N×N 매트릭스로 변환시키고, 상기 변환된 매트릭스를 gray 이미지로 변환시켜 출력하게 된다.

상기 R-CNN 테스트 모듈(420)은 상기 학습 시스템에 의해 학습된 R-CNN 모델을 이용하여 상기 테스트 파일에 대한 이미지 파일을 테스트하여, 테스트 파일에 대하여 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하게 된다.

도 16은 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 테스트 시스템의 R-CNN 테스트 모듈의 동작을 순차적으로 도시한 순서도이다.

도 16을 참조하면, 상기 R-CNN 테스트 모듈(420)은 상기 학습 시스템에 의해 학습된 R-CNN 모델에서 구한 가중치 파일(421) 및 상기 테스트 파일에 대한 이미지 파일(422)을 R-CNN 모델에 적용하여, 이미지 파일의 각 영역별 클래스 정보를 포함하는 검출 결과를 얻을 수 있게 된다.

도 17은 본 발명의 바람직한 실시예에 따른 악성 코드 검출 시스템에 있어서, 테스트 시스템의 R-CNN 테스트 모듈의 결과를 예시적으로 도시한 것이다. 도 17을 참조하면, 본 발명에 따른 R-CNN 테스트 모듈은 테스트 파일이 악성 코드 파일인지 정상 파일인지 여부를 판단하고, 악성 코드 파일인 경우 해당 파일 중 악성 코드 영역에 대한 정보도 함께 출력하게 된다.

전술한 검출 시스템은 데이터베이스에 사전 설정되어 저장된 데이터 셋과 고성능의 컴퓨터 시스템으로 구현될 수 있으며, 검출 시스템을 구성하는 학습 시스템과 테스트 시스템은 컴퓨터 시스템에서 실행될 수 있는 소프트웨어들로 구현될 수 있을 것이다.

이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

30 : 학습 시스템
40 : 테스트 시스템
300 : 학습용 데이터 셋
310 : 데이터 셋용 이미지 변환 모듈
320 : 클래스 활성화 매핑(Class Activation Mapping; CAM) 학습 모듈
330 : CAM 관심 영역 추출 모듈
340 : R-CNN 학습 모듈
410 : 이진 파일 이미지 변환 모듈
420 : R-CNN 테스트 모듈

Claims

악성 코드를 포함한 악성 코드 파일과 악성 코드가 포함되지 않은 정상 파일을 포함하는 학습용 데이터 셋을 이용하여 악성 코드 파일을 검출하기 위한 학습 시스템에 있어서,
상기 학습용 데이터 셋을 구성하는 파일들을 이진 이미지 파일들로 변환시켜, 학습용 데이터 셋을 구성하는 파일들에 대한 이미지 파일들로 이루어진 이미지 데이터 셋을 생성하는 데이터 셋용 이미지 변환 모듈;
상기 이미지 데이터 셋을 구성하는 이미지 파일들에 대하여 클래스 활성화 매핑(Class Activation Mapping; CAM) 모델을 학습하여 각 class에 대해 활성화되는 영역에 대한 정보들을 포함하는 제1 가중치 파일(Weight file)을 생성하는 CAM 학습 모듈;
상기 제1 가중치 파일을 이용하여, 상기 이미지 데이터 셋을 구성하는 이미지 파일들의 활성화 영역들을 검출하고, 각 이미지 파일들로부터 검출된 활성화 영역들을 각 이미지 파일들에 대한 관심 영역들로 설정하고, 각 관심 영역들에 대한 위치 정보를 추출하는 CAM 관심 영역 추출 모듈;
상기 이미지 데이터 셋을 구성하는 이미지 파일들과 각 이미지 파일들의 관심 영역들에 대한 위치 정보를 이용하여, Region based CNN(R-CNN) 모델을 학습하여 제2 가중치 파일을 생성하는 R-CNN 학습 모듈;
을 구비하여, 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하기 위한 R-CNN 모델을 학습시키는 것을 특징으로 하는 악성 코드 파일을 검출하기 위한 학습 시스템.
제1항에 있어서, 상기 데이터 셋용 이미지 변환 모듈은 학습용 데이터 셋을 구성하는 파일들의 각각에 대하여, 이진 값을 1차원 벡터로 입력하고, 상기 1차원 벡터를 N×N 매트릭스로 변환시키고, 상기 변환된 매트릭스를 gray 이미지로 변환시켜, 학습용 데이터 셋을 구성하는 모든 파일들에 대응되는 이미지 파일들로 이루어진 이미지 데이터 셋을 생성하는 것을 특징으로 하는 악성 코드 파일을 검출하기 위한 학습 시스템.
삭제
악성 코드를 포함한 악성 코드 파일과 악성 코드가 포함되지 않은 정상 파일을 포함하는 학습용 데이터 셋을 이용하여 악성 코드 파일을 검출하기 위한 R-CNN 모델을 학습시키는 학습 시스템; 및
상기 학습 시스템에 의해 학습된 R-CNN 모델을 이용하여 임의의 파일을 테스트하여 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하는 테스트 시스템;을 구비하고,
상기 학습 시스템은,
상기 학습용 데이터 셋을 구성하는 파일들을 이진 이미지 파일들로 변환시켜, 학습용 데이터 셋을 구성하는 파일들에 대한 이미지 파일들로 이루어진 이미지 데이터 셋을 생성하는 데이터 셋용 이미지 변환 모듈;
상기 이미지 데이터 셋을 구성하는 이미지 파일들에 대하여 클래스 활성화 매핑(Class Activation Mapping; CAM) 모델을 학습하여 각 class에 대해 활성화되는 영역에 대한 정보를 포함하는 제1 가중치 파일(Weight file)을 생성하는 CAM 학습 모듈;
상기 제1 가중치 파일을 이용하여, 상기 이미지 데이터 셋을 구성하는 이미지 파일들의 활성화 영역들을 검출하고, 각 이미지 파일들로부터 검출된 활성화 영역들을 각 이미지 파일들에 대한 관심 영역들로 설정하고, 관심 영역들에 대한 위치 정보를 추출하는 CAM 관심 영역 추출 모듈;
상기 이미지 데이터 셋을 구성하는 이미지 파일들과 각 이미지 파일들에 대한 관심 영역들에 대한 위치 정보를 이용하여, Region based CNN(R-CNN) 모델을 학습하여 제2 가중치 파일을 생성하는 R-CNN 학습 모듈;을 구비하고,
상기 테스트 시스템은,
테스트 파일을 이진 이미지 파일로 변환시키는 이진 파일 이미지 변환 모듈; 및
상기 학습 시스템의 R-CNN 학습 모듈의 학습 결과에 따른 제2 가중치 파일을 이용하여 상기 테스트 파일에 대한 이미지 파일을 테스트하여, 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하는 R-CNN 테스트 모듈;을 구비하여,
임의의 파일에 대하여 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하는 것을 특징으로 하는 악성 코드 검출 시스템.
제4항에 있어서, 상기 데이터 셋용 이미지 변환 모듈은 학습용 데이터 셋을 구성하는 파일들의 각각에 대하여, 이진 값을 1차원 벡터로 입력하고, 상기 1차원 벡터를 N×N 매트릭스로 변환시키고, 상기 변환된 매트릭스를 gray 이미지로 변환시켜, 학습용 데이터 셋을 구성하는 모든 파일들에 대응되는 이미지 파일들로 이루어진 이미지 데이터 셋을 생성하는 것을 특징으로 하는 악성 코드 검출 시스템.
삭제
제4항에 있어서, 상기 이진 파일 이미지 변환 모듈은,
테스트 파일의 이진 값을 1차원 벡터로 입력하고, 상기 1차원 벡터를 N×N 매트릭스로 변환시키고, 상기 변환된 매트릭스를 gray 이미지로 변환시키는 것을 특징으로 하는 악성 코드 검출 시스템.
악성 코드를 포함한 악성 코드 파일과 악성 코드가 포함되지 않은 정상 파일을 포함하는 학습용 데이터 셋을 이용하여 악성 코드 파일을 검출하기 위한 학습 방법에 있어서,
(a) 상기 학습용 데이터 셋을 구성하는 파일들을 이미지 파일들로 변환시켜, 학습용 데이터 셋을 구성하는 파일들에 대한 이미지 파일들로 이루어진 이미지 데이터 셋을 생성하는 단계;
(b) 상기 이미지 데이터 셋을 구성하는 이미지 파일들에 대하여 클래스 활성화 매핑(Class Activation Mapping; CAM) 모델을 학습하여 각 class에 대해 활성화되는 영역에 대한 정보를 포함하는 제1 가중치 파일(Weight file)을 생성하는 단계;
(c) 상기 제1 가중치 파일을 이용하여, 상기 이미지 데이터 셋을 구성하는 이미지 파일들의 활성화 영역들을 검출하고, 각 이미지 파일들로부터 검출된 활성화 영역들을 각 이미지 파일들에 대한 관심 영역들로 설정하고, 관심 영역들에 대한 위치 정보를 추출하는 단계;
(d) 상기 이미지 데이터 셋을 구성하는 이미지 파일들과 각 이미지 파일들의 관심 영역들에 대한 위치 정보를 이용하여, Region based CNN(R-CNN) 모델을 학습하여 제2 가중치 파일을 생성하는 단계;
를 구비하여, 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하기 위한 R-CNN 모델을 학습시키는 것을 특징으로 하는 악성 코드 파일을 검출하기 위한 학습 방법.
제8항에 있어서, 상기 (a) 단계는, 학습용 데이터 셋을 구성하는 파일들의 각각에 대하여, 이진 값을 1차원 벡터로 입력하고, 상기 1차원 벡터를 N×N 매트릭스로 변환시키고, 상기 변환된 매트릭스를 gray 이미지로 변환시켜, 데이터 셋을 구성하는 모든 파일들에 대응하는 이미지 파일들로 이루어진 이미지 데이터 셋을 생성하는 것을 특징으로 하는 악성 코드 파일을 검출하기 위한 학습 방법.
삭제
악성 코드를 포함한 악성 코드 파일과 악성 코드가 포함되지 않은 정상 파일을 포함하는 학습용 데이터 셋을 이용하여 악성 코드 파일을 검출하기 위한 R-CNN 학습 모듈을 학습시키는 학습 방법; 및
상기 학습 방법에 의해 학습된 R-CNN 모델을 이용하여 임의의 파일을 테스트하여 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하는 테스트 방법;를 구비하고,
상기 학습 방법은,
(a) 상기 학습용 데이터 셋을 구성하는 파일들을 이미지 파일들로 변환시켜, 학습용 데이터 셋을 구성하는 파일들에 대한 이미지 파일들로 이루어진 이미지 데이터 셋을 생성하는 단계;
(b) 상기 이미지 데이터 셋을 구성하는 이미지 파일들에 대하여 클래스 활성화 매핑(Class Activation Mapping; CAM) 모델을 학습하여 각 class에 대해 활성화되는 영역에 대한 정보를 포함하는 제1 가중치 파일(Weight file)을 생성하는 단계;
(c) 상기 제1 가중치 파일을 이용하여, 상기 이미지 데이터 셋을 구성하는 이미지 파일들의 활성화 영역들을 검출하고, 각 이미지 파일들로부터 검출된 활성화 영역들을 각 이미지 파일들에 대한 관심 영역들로 설정하고, 관심 영역들에 대한 위치 정보를 추출하는 단계;
(d) 상기 이미지 데이터 셋을 구성하는 이미지 파일들과 각 이미지 파일들의 관심 영역들에 대한 위치 정보를 이용하여, Region based CNN(R-CNN) 모델을 학습하여 제2 가중치 파일을 생성하는 단계;를 구비하고,
상기 테스트 방법은,
(e) 테스트 파일을 이진 이미지 파일로 변환시키는 단계; 및
(f) 상기 학습 방법에 의해 R-CNN 모델 학습에 따른 제2 가중치 파일을 이용하여 상기 테스트 파일에 대한 이미지 파일을 테스트하여, 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하는 단계;를 구비하여,
임의의 파일에 대하여 악성 코드의 존재 유무 및 악성 코드의 위치를 검출하는 것을 특징으로 하는 악성 코드 검출 방법.