KR102021138B1

KR102021138B1 - 인공지능 기반 악성 도메인 분류 방법 및 프로그램

Info

Publication number: KR102021138B1
Application number: KR1020190052727A
Authority: KR
Inventors: 정세현
Original assignee: 주식회사 에이아이스페라
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2019-09-11

Abstract

인공지능 기반 악성 도메인 분류 방법이 제공된다. 상기 인공지능 기반 악성 도메인 분류 방법은 컴퓨터가 정상도메인데이터 및 악성도메인데이터를 획득하는 단계, 상기 컴퓨터가 상기 정상도메인데이터 및 악성도메인데이터 각각에 대하여 복수의 유닛을 포함하는 제1변환 데이터로 변환함으로써, 상기 정상도메인데이터 및 악성도메인데이터를 전처리하되, 상기 제1변환 데이터는, 상기 정상도메인데이터 및 악성도메인데이터의 각각의 레터(letter)들에 대한 등장 횟수, 배열 순서 및 등장 순위 중 적어도 하나를 기반으로 변환되는, 전처리 단계, 상기 컴퓨터가 상기 전처리한 정상도메인데이터 및 악성도메인데이터를 학습데이터로서 학습 모델을 이용하여 학습함으로써 악성도메인 분류 모델을 구축하는 단계를 포함한다.

Description

인공지능 기반 악성 도메인 분류 방법 및 프로그램{METHOD AND PROGRAM OF MALICIOUS DOMAIN CLASSIFICATION BASED ON ARTIFICIAL INTELLIGENCE}

본 발명은 인공지능 기반 악성 도메인 분류 방법 및 프로그램에 관한 것이다.

최근 급증하고 있는 인터넷의 사용에 따라 통신망을 통해 악성 소프트웨어나 악성 코드의 감염 경로가 다양해지고, 이로 인한 피해가 매년 증가하고 있다.

특히, 악성 소프트웨어나 악성 코드의 감염 경로로서, 사용자들에게 다양한 안내와 함께 악성 도메인을 제공함으로써, 사용자가 악성 도메인에 접근하도록 하는 방법이 많이 이용되고 있다.

한편, DGA(Domain Generation Algorithm)는 도메인 생성 알고리즘으로서, 악성코드에서 C&C IP 등을 특정 도메인에서 받아 올 때 해당 도메인을 동적으로 변경해주는 알고리즘이다.

국내 각 기업들의 시스템에서는 C&C로 사용된 IP 등을 수집하여, DNS 싱크홀 시스템을 이용하여 악성 도메인을 차단하지만, DGA를 이용할 경우에는 해당 악성 도메인이 동적으로 변경되기 때문에 C&C IP를 차단해주는 시스템은 무용지물이 되어 버린다.

DGA의 이러한 특성에 따라 최근 멀웨어, 랜섬웨어와 같은 악성 소프트웨어에 DGA가 이용되며, 기존에 보안장비를 이용한 C&C 서버 접속 및 탐지 기능의 우회가 가능하게 되었으며, DGA.Changer와 같은 상용 소프트웨어가 생겨남으로써, 손 쉽게 클릭 수를 조작하는 클릭 사기, 정보 탈취, 트로이 목마 접속, 원격 명령 전송 등 다양한 기능을 실행할 수 있게 되었다.

과거 수십년간 상술한 DGA를 이용한 악성 코드 등의 유입을 방지하기 위해 여러 방법들을 활용해 보았지만 지속적으로 변화하는 DGA에는 효과적이지 못했다.

한국등록특허공보 제10-1487476호, 2015.01.29.

본 발명이 해결하고자 하는 과제는 정상도메인데이터와 악성도메인데이터를 분류하는 악성 도메인 분류 모델을 제공하는 것이다.

또한, 본 발명이 해결하고자 하는 과제는 특히 DGA를 이용한 악성도메인데이터를 분류하는 악성 도메인 분류 모델을 제공하는 것이다.

또한, 본 발명이 해결하고자 하는 과제는 악성 도메인 분류 정확도를 보다 높일 수 있는 악성 도메인 분류 모델을 제공하는 것이다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 기반 악성 도메인 분류 방법은 컴퓨터가 정상도메인데이터 및 악성도메인데이터를 획득하는 단계, 상기 컴퓨터가 상기 정상도메인데이터 및 악성도메인데이터 각각에 대하여 복수의 유닛을 포함하는 제1변환 데이터로 변환함으로써, 상기 정상도메인데이터 및 악성도메인데이터를 전처리하되, 상기 제1변환 데이터는, 상기 정상도메인데이터 및 악성도메인데이터의 각각의 레터(letter)들에 대한 등장 횟수, 배열 순서 및 등장 순위 중 적어도 하나를 기반으로 변환되는, 전처리 단계, 상기 컴퓨터가 상기 전처리한 정상도메인데이터 및 악성도메인데이터를 학습데이터로서 학습 모델을 이용하여 학습함으로써 악성도메인 분류 모델을 구축하는 단계를 포함하고, 상기 등장 횟수는, 상기 정상도메인데이터 및 악성도메인데이터 각각의 데이터 상에서의 각 레터의 등장 횟수이고, 상기 배열 순서는, 상기 정상도메인데이터 및 악성도메인데이터 각각의 데이터 상에서의 레터들을 기준으로 획득되는 것이고, 상기 등장 순위는, 상기 정상도메인데이터 및 악성도메인데이터를 포함하는 전체 도메인데이터 상에서의 등장 순위이다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 기반 악성 도메인 분류 방법은 상기 컴퓨터가 정상도메인인지 악성도메인인지 확인이 필요한 대상도메인데이터를 획득하는 단계, 상기 컴퓨터가 상기 대상도메인데이터를 상기 악성도메인 분류 모델에 입력하여 스코어를 산출하는 단계, 상기 컴퓨터가 산출된 상기 스코어에 대하여 미리 정해진 일정 스코어를 기준으로 하여, 상기 대상도메인데이터가 정상도메인인지 악성도메인인지 분류하는 단계를 더 포함하고, 상기 스코어는 0 내지 1의 범위로 산출되는 것이다.

상기 분류하는 단계는, 상기 컴퓨터가 산출된 상기 스코어에 대하여 미리 정해진 위험 구간별 스코어를 기준으로 하여 상기 대상도메인데이터의 위험 정도를 구간별로 분류하는 것이다.

상기 스코어를 산출하는 단계는, 상기 대상도메인데이터의 각각의 레터들에 대한 상기 배열 순서, 중복도 및 상기 등장 순위 중 적어도 하나를 기반으로 스코어를 산출하는 것이고, 상기 배열 순서는, 상기 레터들의 배열 순서로 인한 자음과 모음의 결합 관계를 도출하는 것이고, 상기 중복도는, 상기 정상도메인데이터 및 악성도메인데이터 각각의 데이터 상에서의 레터들을 기준으로 획득되는 것이고, 악성 도메인일 확률과 상기 중복도는 비례하고, 정상 도메인일 확률과 상기 등장 순위는 비례하는 것이다.

상기 악성도메인데이터는, 상기 컴퓨터가 도메인 생성 알고리즘(Domain Generation Algorithm, DGA)을 이용하여 랜덤으로 생성한 도메인데이터이다.

상기 학습 모델은, 장단기 기억 학습 모델(Long Short-Term Memory, LSTM)로서, 학습 진행 시 상기 제1변환 데이터를 미리 정해진 일정 변환 기준에 따라 상기 복수의 유닛 중 하나 이상의 유닛을 제외하는 제2변환 데이터로 변환하여 학습하는 것이다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 기반 악성 도메인 분류 방법은 상기 컴퓨터가 상기 악성도메인 분류 모델에 정상도메인데이터와 유사하게 생성한 유사도메인데이터를 입력 데이터로서 입력하여 스코어를 추출하는 단계, 상기 스코어가 0 또는 1인 경우, 상기 컴퓨터가 상기 유사도메인데이터를 상기 제1변환 데이터로 변환하여 전처리하는 단계 및 상기 컴퓨터가 변환된 상기 유사도메인데이터를 학습데이터로서 상기 학습 모델을 이용하여 재학습하는 재학습 단계를 더 포함하고 상기 스코어는 0 내지 1의 범위로 산출되는 것이고, 상기 재학습 단계는, 상기 스코어가 0에 가까울수록 정상도메인일 확률이 높아지는 것일 때, 상기 스코어가 0인 경우에는 상기 유사도메인데이터를 상기 정상도메인데이터로, 상기 스코어가 1인 경우에는 상기 유사도메인데이터를 상기 악성도메인데이터로서 재학습하는 것이고, 상기 스코어가 1에 가까울수록 정상도메인일 확률이 높아지는 것일 때, 상기 스코어가 1인 경우에는 상기 유사도메인데이터를 상기 정상도메인데이터로, 상기 스코어가 0인 경우에는 상기 유사도메인데이터를 상기 악성도메인데이터로서 재학습하는 것이다.

상기 유사도메인데이터는, 상기 컴퓨터가 생성적 적대 신경망(Generative Adversarial Network, GAN) 학습 모델을 통해 정상 단어를 변형하여 정상도메인데이터의 범위에 포함될 수 있는 것으로서 생성한 것이다.

상술한 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 인공지능 기반 악성 도메인 분류 컴퓨터 프로그램은 하드웨어인 컴퓨터와 결합되어, 상술한 방법 중 어느 하나의 방법을 수행하기 위해 매체에 저장된다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

상기 본 발명에 의하면, 악성 도메인 분류 모델을 이용함으로써 악성 코드 또는 악성 소프트웨어 등의 유입을 방지할 수 있다.

또한, 상기 본 발명에 의하면, DGA로 생성된 악성도메인데이터를 이용하여 악성 도메인 분류 모델을 구축함으로써, DGA를 이용한 악성 코드 또는 악성 소프트웨어 등의 유입을 방지할 수 있다.

또한, 상기 본 발명에 의하면, 정상도메인데이터와 유사한 유사도메인데이터를 이용하여 재학습함으로써, 악성 도메인 분류 정확도가 더욱 높아진 악성 도메인 분류 모델을 구축할 수 있다.

또한, 상기 본 발명에 의하면, 정상인지 악성인지 확인이 필요한 도메인에 대하여 악성 도메인 분류 모델을 이용함으로써 위험도가 어느정도인지 위험 정도를 파악할 수 있다.

또한, 상기 본 발명에 의하면, 악성 도메인 분류 모델 구축 시, 학습 데이터를 가공함으로써 학습 시간을 줄이고, 구축된 악성 도메인 분류 모델의 오탐율을 낮출 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 인공지능 기반 악성 도메인 분류 모델 구축 방법을 설명하기 도면이다.
도 2는 도메인 생성 알고리즘을 통해 생성된 도메인을 예시적으로 나타낸 도면이다.
도 3은 본 발명의 악성 도메인 분류 모델을 이용한 악성 도메인 분류 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 악성 도메인 분류 모델의 정확도를 높이기 위한 재학습 방법을 설명하기 위한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 명세서에서 '정상도메인데이터'는 정상적으로 운영되는 인터넷 주소를 의미하는 것으로서, 예컨대, naver, daum, google 등을 포함한다.

본 명세서에서 '악성도메인데이터'는 정상적으로 운영되는 것이 아닌, 연결 시 악성 코드나 악성 소프트웨어 등이 감염될 수 있는 인터넷 주소를 의미한다.

본 명세서에서 '대상도메인데이터'는 정상도메인인지 악성도메인인지 확인이 필요한 도메인을 의미한다.

본 명세서에서 '유사도메인데이터'는 정상도메인데이터와 유사한 도메인데이터로서, 정상도메인데이터에서 변형시켜 생성한 도메인데이터이다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 인공지능 기반 악성 도메인 분류 모델 구축 방법을 설명하기 도면이다.

도 2는 도메인 생성 알고리즘을 통해 생성된 도메인을 예시적으로 나타낸 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 인공지능 기반 악성 도메인 분류 방법은, 컴퓨터가 정상도메인데이터 및 악성도메인데이터를 획득하는 단계(S110), 컴퓨터가 정상도메인데이터 및 악성도메인데이터를 전처리하는 단계(S130) 및 컴퓨터가 악성도메인 분류 모델을 구축하는 단계(S150)를 포함한다.

컴퓨터가 정상도메인데이터 및 악성도메인데이터를 획득하는 단계(S110)에서 정상도메인데이터는 예컨대, 전세계 도메인에 대한 등수를 나타내는 사이트 또는 확인 가능한 정상 도메인 등을 통해 획득될 수 있고, 악성도메인데이터는 예컨대, 도메인 생성 알고리즘(DGA)를 통해 랜덤으로 생성된 도메인을 획득할 수 있다.

도메인 생성 알고리즘을 통해 생성된 악성도메인데이터는 랜덤으로 생성된 중복을 제외한 도메인데이터로서, 문자 및 숫자는 모두 랜덤하며, 문자만으로 구성, 문자+숫자로 구성, 숫자+문자로 구성, 문자+숫자+문자로 구성될 수 있다.

도메인 생성 알고리즘을 통해 생성된 도메인의 경우에는 예시로서, 도 2와 같이 생성되는 것을 확인할 수 있다.

정상도메인데이터 및 악성도메인데이터는 상술한 예 외에도 획득할 수 있는 다양한 방법으로 획득할 수 있다.

악성도메인데이터를 도메인 생성 알고리즘을 통해 획득하는 경우, 도메인 생성 알고리즘으로 생성된 악성도메인데이터를 이용하여 악성 도메인 분류 모델을 구축함으로써, 도메인 생성 알고리즘를 이용한 악성 코드 또는 악성 소프트웨어 등의 유입을 방지할 수 있는 효과가 있다.

컴퓨터가 정상도메인데이터 및 악성도메인데이터를 전처리하는 단계(S130)는 컴퓨터가 정상도메인데이터 및 악성도메인데이터 각각에 대하여 복수의 유닛을 포함하는 제1변환 데이터로 변환함으로써, 정상도메인데이터 및 악성도메인데이터를 전처리하는 것이다.

정상도메인데이터 및 악성도메인데이터 각각을 제1변환 데이터로 변환하는 것은, 정상도메인데이터 및 악성도메인데이터의 각각의 레터(letter)들에 대한 등장 횟수, 배열 순서 및 등장 순위 중 적어도 하나를 기반으로 행렬을 만들어 변환하는 것이다.

등장 횟수는, 정상도메인데이터 및 악성도메인데이터 각각의 데이터 상에서의 각 레터의 등장 횟수이고 배열 순서는, 정상도메인데이터 및 악성도메인데이터 각각의 데이터 상에서의 레터들을 기준으로 획득되는 것이고, 등장 순위는, 정상도메인데이터 및 악성도메인데이터를 포함하는 전체 도메인데이터 상에서의 등장 순위이다.

각각의 레터들은 알파벳, 숫자, 기호 등을 포함할 수 있으며, 예컨대, 도메인이 'abcdefghijklmnopqrstuvwxyz0123456789-_'라고 할 때, 제1변환 데이터는 [1, 17, 1, 16, 1, 4, 1, 34, 1, 19, 1, 10, 1, 13, 1, 8, 1, 5, 1, 15, 1, 36, 1, 6, 1, 7, 1, 9, …]의 행렬으로 변환될 수 있다.

상술한 예시를 통해 제1변환 데이터의 변환 규칙을 설명하면, 첫번째 레터인 a는 해당 도메인 상에서 1번 등장하고 전체 도메인 상에서 자주 등장하는 순위로서 17위이고, 두번째 레터인 b는 해당 도메인 상에서 1번 등장하고 전체 도메인 상에서 자주 등장하는 순위로서 16위인 것으로, 즉, 등장 횟수와 등장 순위를 레터의 차례대로 숫자로서 표시하는 것이다.

여기에서 상술한 복수의 유닛중 하나의 유닛 각각은 a에 해당하는 1, 17, b에 해당하는 1, 16 등이 될 수 있다.

컴퓨터가 악성도메인 분류 모델을 구축하는 단계(S150)는 컴퓨터가 전처리한 정상도메인데이터 및 악성도메인데이터를 학습데이터로서 학습 모델을 이용하여 학습함으로써 악성도메인 분류 모델을 구축하는 것이다.

정상도메인데이터 및 악성도메인데이터를 학습데이터로서 학습할 때, 정상도메인데이터와 악성도메인데이터는 1:1의 비율로 학습할 수 있다.

어느 한쪽의 데이터 양이 극도로 더 많다면 학습 결과가 정확하게 도출되기 어려우므로, 정상도메인데이터와 악성도메인데이터를 1:1의 비율로 학습시킴으로써, 보다 정확한 학습 결과를 도출할 수 있다.

정상도메인데이터 및 악성도메인데이터를 학습데이터로서 학습하는 학습 모델은 다양한 종류의 기계 학습 모델을 포함할 수 있으며, 바람직하게는 장단기 기억 학습 모델(Long Short-Term Memory, LSTM)을 이용하여 학습하는 것이다.

장단기 기억 학습 모델(Long Short-Term Memory, LSTM)이란, 순환 신경망(Recurrent Neural Network)의 변형 모델로서, 순환 신경망의 경우에는 모든 데이터를 순환하며 모든 데이터를 기억하며 학습하는 것이지만, 장단기 기억 학습 모델의 경우에는 순환 신경망과 동일한 과정을 진행하면서도 순환 신경망과는 달리 모든 데이터를 기억하며 학습하는 것이 아닌, 모델 스스로 장기 기억과 단기 기억을 구분하여 필요 없는 기억을 지우는 방법으로 학습을 진행하는 것이다.

구체적으로, 장단기 기억 학습 모델은 여러 개의 게이트(gate)가 붙어있는 셀(cell)로 이루어져 있으며, 셀의 정보를 새로 저장하거나, 셀의 정보를 불러오거나 셀의 정보를 유지하는 기능을 포함하고 있다.

셀은 셀에 연결된 게이트의 값을 보고 무엇을 저장할지, 언제 정보를 내보낼지, 언제 쓰고 언제 지울지를 결정하고, 게이트는 0에서 1사이의 값을 가져 게이트의 값에 비례하여 여러 가지 작동을 한다.

즉, 장단기 기억 학습 모델은 이전 프레임의 신호를 현재 프레임에 반영하여 시간적으로 연속하는 데이터를 처리하는 기법으로서, 셀에 이전의 정보들을 저장하고, 게이트들을 통하여 셀로 흐르는 정보의 양을 게이트 값에 비례하여 여러 가지 작동을 함으로써 조절하는 것이다.

학습 모델이 장단기 기억 학습 모델(Long Short-Term Memory, LSTM)인 경우에는 학습 진행 시 제1변환 데이터를 미리 정해진 일정 변환 기준에 따라 복수의 유닛 중 하나 이상의 유닛을 제외하는 제2변환 데이터로 변환하여 학습한다.

미리 정해진 일정 변환 기준이란, 정확도를 높일 수 있는 변환 기준이면 모두 포함될 수 있고, 예컨대, 자음과 자음이 붙어있는 경우에는 하나의 자음만 남기고 제거, 도메인데이터 레터의 순서는 유지하되 레터의 미리 정해진 일정 뒷부분을 제거, 순서를 제거, 등장 순위가 미리 정해진 일정 기준 이상인 경우 제외하는 등을 포함할 수 있다.

상술한 미리 정해진 일정 변환 기준에 따라 복수의 유닛 중 하나 이상의 유닛을 제외하는 제2변환 데이터로 변환하여 학습함으로써, 데이터의 양이 줄어 학습시간이 줄고, 불필요한 정보를 제거할 수 있다.

또한, 유닛의 개수가 너무 많으면 오탐율이 증가하므로, 오탐율을 낮추고 보다 정확한 악성도메인 분류 모델을 구축할 수 있는 효과가 있다.

도 3은 본 발명의 악성 도메인 분류 모델을 이용한 악성 도메인 분류 방법을 설명하기 위한 도면이다.

도 3을 참조하면, 본 발명의 인공지능 기반 악성 도메인 분류 방법은, 컴퓨터가 대상도메인데이터를 획득하는 단계(S170), 컴퓨터가 대상도메인데이터를 악성도메인 분류 모델에 입력하여 스코어를 산출하는 단계(S190) 및 대상도메인데이터가 정상도메인인지 악성도메인인지 분류하는 단계(S210)를 더 포함한다.

컴퓨터가 대상도메인데이터를 획득하는 단계(S170)에서 대상도메인데이터는 정상도메인인지 악성도메인인지 확인이 필요한 것으로서, 컴퓨터가 자체적으로 판단할 수도 있고, 사용자로부터 입력 받을 수도 있다.

컴퓨터가 대상도메인데이터를 악성도메인 분류 모델에 입력하여 스코어를 산출하는 단계(S190)에서는 시그모이드(sigmoid) 함수를 이용하여 스코어를 산출한다.

시그모이드 함수란, 데이터를 두 개의 그룹으로 분류할 때 사용되는 기본적인 방법으로서 로지스틱 회귀분석을 사용하며, 선형 회귀분석으로 접근한다면 새로운 트레이닝 데이터가 들어왔을 때 기울기가 맞지 않아 발생하는 문제를 S자 형태의 그래프 모양으로 만든 함수이다.

시그모이드 함수는 확률로서, 0과 1사이의 범위 이내이며 따라서 본 발명의 스코어 또한 0 내지 1의 범위로서 산출되는 것이며, 스코어는 설정 또는 데이터셋에 따라, 일 실시예로, 스코어가 0에 가까울수록 악성도메인일 확률이 높아질 수 있고, 이 경우에는 스코어가 0인 경우 악성도메인이고, 스코어가 1인 경우 정상 도메인을 의미하며, 다른 실시예로, 스코어가 1에 가까울수록 악성도메인일 확률이 높아질 수도 있으며, 이 경우에는 스코어가 1인 경우 악성도메인이고, 스코어가 0인 경우 정상 도메인을 의미한다.

컴퓨터가 대상도메인데이터를 악성도메인 분류 모델에 입력하여 스코어를 산출하는 단계(S190)는 대상도메인데이터의 각각의 레터들에 대한 배열 순서, 중복도 및 등장 순위 중 적어도 하나를 기반으로 스코어를 산출하는 것이다.

배열 순서는, 레터들의 배열 순서로 인한 자음과 모음의 결합 관계를 도출하는 것이고, 중복도는, 정상도메인데이터 및 악성도메인데이터 각각의 데이터 상에서의 레터들을 기준으로 획득되는 것이다.

악성 도메인일 확률과 중복도는 비례하고, 정상 도메인일 확률과 등장 순위는 비례한다.

레터들의 배열 순서로 인한 자음과 모음의 결합 관계를 도출하는 것이란, 대체적으로 정상도메인의 경우에는 자음과 모음이 결합된 단어의 형태로서 구성이 되지만 악성도메인의 경우에는 랜덤으로 생성되어 자음과 모음이 결합되지 않고, 자음이 연속되는 등의 형태로서 구성되는 경우가 많다.

따라서, 자음과 모음이 결합되어 단어 형태로 만들어지는 경우에는 정상도메인데이터일 확률이 높아지고, 자음과 모음이 결합되지 않아 단어 형태로 만들어지지 않는 경우에는 악성도메인데이터일 확률이 높아지도록 배열 순서를 고려하는 것이다.

또한, 하나의 도메인 상에서 중복되는 레터가 많을수록 악성도메인인 경우가 많기 때문에, 중복도가 높을수록 악성도메인일 확률이 높아지고, 중복도가 낮을수록 정상도메인일 확률이 높아지도록 중복도를 고려한다.

등장 순위의 경우에는, 등장이 많이 되는 레터를 많이 포함할수록 정상도메인인 경우가 많기 때문에, 등장 순위가 높은 레터를 많이 포함할수록 정상도메인일 확률이 높아지고, 등장 순위가 높은 레터를 포함하지 않을수록 악성도메인일 확률이 높아지도록 등장 순위를 고려한다.

또한, 도 1에서 상술한 내용에 따라, 본 발명의 악성도메인 분류 모델은 미리 정해진 일정 변환 기준에 따라 복수의 유닛 중 하나 이상의 유닛을 제외하는 제2변환 데이터로 변환하여 학습함으로써, 데이터의 양이 줄어 학습시간이 줄고, 불필요한 정보를 제거할 수 있다.

상기와 같이 데이터의 양이 줄고 불필요한 정보를 제공함으로써 본 발명의 악성도메인 분류 모델의 학습시간이 짧은 장점으로 인하여 대상도메인데이터가 악성도메인인지 판별하기 위해 걸리는 시간 또한 매우 짧아, 해커들이 접근을 시작하고 정보를 가져가기 전에 빠른 대처가 가능하다는 장점이 있다.

대상도메인데이터가 정상도메인인지 악성도메인인지 분류하는 단계(S210)는, 컴퓨터가 산출된 스코어에 대하여 미리 정해진 일정 스코어를 기준으로 하여, 대상도메인데이터가 정상도메인인지 악성도메인인지 분류하는 것이다.

미리 정해진 일정 스코어는 미리 정해진 값이면 모두 포함될 수 있으며, 바람직하게는 0.5를 기준으로 한다.

일 실시예로, 스코어가 0에 가까울수록 악성도메인일 확률이 높아지는 것으로 설정된 경우, 미리 정해진 일정 스코어가 0.5인 경우, 스코어가 0.5 이상이면 정상으로 분류, 스코어가 0.5 미만이면 악성으로 분류할 수 있다.

다른 실시예로, 스코어가 1에 가까울수록 악성도메인일 확률이 높아지는 것으로 설정된 경우, 미리 정해진 일정 스코어가 0.5인 경우, 스코어가 0.5 이상이면 악성으로 분류, 스코어가 0.5 미만이면 정상으로 분류할 수 있다.

또한, 대상도메인데이터가 정상도메인인지 악성도메인인지 분류하는 단계(S210)는, 컴퓨터가 산출된 스코어에 대하여 미리 정해진 위험 구간별 스코어를 기준으로 하여 대상도메인데이터의 위험 정도를 구간별로 분류하는 것을 포함할 수 있다.

스코어는 0 내지 1 사이로서, 0 내지 1사이에서 예컨대, 스코어가 1에 가까울수록 악성도메인일 확률이 높아지는 것으로 설정된 경우, 악성(1), 매우 위험(0.7), 위험(0.5), 정상(0)이 되는 위험 구간별 스코어를 설정하여 대상도메인데이터의 위험 정도를 구간별로 분류할 수 있다.

반대로, 스코어가 0에 가까울수록 악성도메인일 확률이 높아지는 것으로 설정된 경우, 악성(0), 매우 위험(0.3), 위험(0.5), 정상(1)이 되는 위험 구간별 스코어를 설정하여 대상도메인데이터의 위험 정도를 구간별로 분류할 수 있다.

상술한 예시 외에도 각각의 위험 구간별 스코어를 각각 설정하여 대상도메인데이터의 위험 정도를 구간별로 분류할 수 있다.

도 4는 본 발명의 악성 도메인 분류 모델의 정확도를 높이기 위한 재학습 방법을 설명하기 위한 도면이다.

도 4를 참조하면, 본 발명의 인공지능 기반 악성 도메인 분류 방법은, 컴퓨터가 정상도메인데이터 및 악성도메인데이터를 획득하는 단계(S110), 컴퓨터가 정상도메인데이터 및 악성도메인데이터를 전처리하는 단계(S130) 및 컴퓨터가 악성도메인 분류 모델을 구축하는 단계(S150)에 컴퓨터가 유사도메인데이터의 스코어를 추출하는 단계(S230), 스코어가 0 또는 1인 경우 컴퓨터가 유사도메인데이터를 전처리하는 단계(S250) 및 컴퓨터가 유사도메인데이터를 학습데이터로서 학습 모델을 이용하여 재학습하는 단계(S270)를 더 포함한다.

컴퓨터가 유사도메인데이터의 스코어를 추출하는 단계(S230)는 컴퓨터가 악성도메인 분류 모델에 정상도메인데이터와 유사하게 생성한 유사도메인데이터를 입력 데이터로서 입력하여 스코어를 추출하는 것이다.

유사도메인데이터는 정상도메인데이터에서 변형시켜 생성한 도메인데이터로서, 컴퓨터가 생성적 적대 신경망(Generative Adversarial Network, GAN) 학습 모델을 통해 정상 단어를 변형하여 정상도메인데이터의 범위에 포함될 수 있는 것으로서 생성한 것을 포함한다.

생성적 적대 신경망 학습 모델이란, 비지도 학습으로서, 분류를 담당하는 판별자 D(Discriminator)와 랜덤한 노이즈에서 데이터를 만들어 내는 생성자 G(Generator)의 두 개의 모델로 구성되어 있다.

생성적 적대 신경망 학습 모델은, 생성자 G와 판별자 D가 대립하며 서로의 성능을 개선시켜 나가는 모델이며, 판별자 D는 원 데이터만을 참으로 판단하기 위해 노력하고 생성자는 판별자 D가 거짓으로 판별하지 못하도록 가짜 데이터를 생성해가며 두 모델의 성능이 같이 올라가게 되는 모델이다.

생성자 G는 원 데이터의 확률분포를 알아내려 하고, 분포를 재현하여 가짜 데이터를 실 데이터와 차이가 없도록 하는 것이고, 판별자 D는 판별 대상인 데이터가 실 데이터인지, 생성자 G가 만들어낸 데이터인지 구별하여 각각에 대한 확률을 추정하는 것이다.

생성적 적대 신경망 학습 모델의 수식은 하기의 수학식 1과 같다.

[수학식 1]

따라서, 상술한 생성적 적대 신경망 학습 모델을 이용하여 정상도메인데이터를 기반으로 정상 단어를 변형함으로써 정상도메인데이터와 유사한 유사도메인데이터를 생성할 수 있다.

생성된 유사 도메인데이터를 입력 데이터로서 입력하여 도 1에서 설명한 바와 같이 0 내지 1의 범위에서 스코어를 추출한다(S230).

이 때, 스코어 값이 0 또는 1, 즉, 정상 도메인데이터 또는 악성 도메인데이터로 결론이 나온 경우에는, 컴퓨터가 유사도메인데이터를 제1변환 데이터로 변환하여 전처리한다(S250).

이후, 컴퓨터가 제1변환 데이터로 변환된 유사도메인데이터를 학습데이터로서 상술한 학습 모델을 이용하여 재학습한다(S270).

컴퓨터가 유사도메인데이터를 학습데이터로서 학습 모델을 이용하여 재학습하는 단계(S270)는 스코어가 0에 가까울수록 정상도메인일 확률이 높아지는 것일 때, 스코어가 0인 경우에는 유사도메인데이터를 정상도메인데이터로, 스코어가 1인 경우에는 유사도메인데이터를 악성도메인데이터로서 재학습하는 것이고, 스코어가 1에 가까울수록 정상도메인일 확률이 높아지는 것일 때, 스코어가 1인 경우에는 유사 메인데이터를 정상도메인데이터로, 스코어가 0인 경우에는 유사도메인데이터를 악성도메인데이터로서 재학습하는 것이다.

스코어 값이 0 또는 1로 나온 경우, 해당 유사도메인데이터를 전처리하고 재학습하는 이유는, 시간이 지날수록 악성 도메인이 더욱 어려운 도메인으로 생성될 수 있기 때문에, 생성적 적대 신경망 학습 모델을 이용하여 지속적으로 새로운 유사도메인데이터를 학습 데이터로서 업데이트 시켜, 시간이 지나더라도 악성 도메인 분류의 정확성을 유지하기 위함이다.

뿐만 아니라, 악성도메인데이터와 정상도메인데이터를 이용한 학습 시 1:1의 비율로 데이터를 수집하여 학습하는데, 악성도메인데이터는 도메인 생성 알고리즘을 통해 생성하는 반면, 정상도메인데이터는 실제로 확인이 된 정상도메인데이터만이 데이터로서 사용이 가능하므로, 정상도메인데이터가 더 부족하게 된다.

따라서, 유사도메인데이터를 생성함으로써, 정상도메인데이터의 개수를 늘려, 악성도메인데이터와 동일한 비율로 학습을 시킬 수 있는 효과가 있다.

이상에서 상술한 본 발명의 일 실시예에 따른 방법인, 인공지능 기반 악성 도메인 분류 방법은 하드웨어인 컴퓨터가 결합되어 실행되기 위해 인공지능 기반 악성 도메인 분류 컴퓨터 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims

컴퓨터가 정상도메인데이터 및 악성도메인데이터를 획득하되, 상기 정상도메인데이터 및 악성도메인데이터는 하나 이상의 레터(letter)를 포함하는 것인, 정상도메인데이터 및 악성도메인데이터 획득 단계;
상기 컴퓨터가 상기 정상도메인데이터 및 악성도메인데이터 각각에 대하여 복수의 유닛을 포함하는 제1변환 데이터로 변환함으로써, 상기 정상도메인데이터 및 악성도메인데이터를 전처리하되, 상기 제1변환 데이터는, 각 정상도메인데이터 및 악성도메인데이터가 포함하는 상기 하나 이상의 레터 각각에 대한 등장 횟수, 배열 순서 및 등장 순위 중 적어도 하나를 기반으로 변환되는, 전처리 단계;
상기 컴퓨터가 전처리한 정상도메인데이터 및 악성도메인데이터를 학습데이터로서 학습 모델을 이용하여 학습함으로써 악성도메인 분류 모델을 구축하는 단계;
상기 컴퓨터가 상기 악성도메인 분류 모델에 정상도메인데이터와 유사하게 생성된 유사도메인데이터를 입력 데이터로서 입력하여 스코어를 추출하는 단계;
상기 스코어가 0 또는 1인 경우, 상기 컴퓨터가 상기 유사도메인데이터를 상기 제1변환 데이터로 변환하여 전처리하는 단계; 및
상기 컴퓨터가 변환된 상기 유사도메인데이터를 학습데이터로서 상기 학습 모델을 이용하여 재학습하는, 재학습 단계를 더 포함하고,
상기 스코어는 0 내지 1의 범위로 산출되는 것이고,
상기 등장 횟수는,
상기 각 정상도메인데이터 및 악성도메인데이터 상에서의 각 레터의 등장 횟수이고,
상기 배열 순서는,
상기 각 정상도메인데이터 및 악성도메인데이터 상에서의 전체 레터들의 순서를 기준으로 획득되는 각 레터의 배열 순서이고,
상기 등장 순위는,
상기 정상도메인데이터 및 악성도메인데이터를 포함하는 전체 도메인데이터 상에서 포함하고 있는 전체 레터들 중 각 레터의 등장 순위이고,
상기 스코어가 0에 가까울수록 정상도메인일 확률이 높아지는 것일 때, 상기 스코어가 0인 경우에는 상기 유사도메인데이터를 상기 정상도메인데이터로, 상기 스코어가 1인 경우에는 상기 유사도메인데이터를 상기 악성도메인데이터로서 재학습하는 것이고,
상기 스코어가 1에 가까울수록 정상도메인일 확률이 높아지는 것일 때, 상기 스코어가 1인 경우에는 상기 유사도메인데이터를 상기 정상도메인데이터로, 상기 스코어가 0인 경우에는 상기 유사도메인데이터를 상기 악성도메인데이터로서 재학습하는 것이고,
상기 유사도메인데이터는,
상기 컴퓨터가 생성적 적대 신경망(Generative Adversarial Network, GAN) 학습 모델을 통해 정상 단어를 변형하여 정상도메인데이터의 범위에 포함될 수 있는 것으로서 생성한 것인,
인공지능 기반 악성 도메인 분류 방법.
제1항에 있어서,
상기 컴퓨터가 정상도메인인지 악성도메인인지 확인이 필요한 대상도메인데이터를 획득하는 단계;
상기 컴퓨터가 상기 대상도메인데이터를 상기 악성도메인 분류 모델에 입력하여 스코어를 산출하는 단계;
상기 컴퓨터가 산출된 상기 스코어에 대하여 미리 정해진 일정 스코어를 기준으로 하여, 상기 대상도메인데이터가 정상도메인인지 악성도메인인지 분류하는 단계를 더 포함하고,
상기 스코어는 0 내지 1의 범위로 산출되는 것인,
인공지능 기반 악성 도메인 분류 방법.
제2항에 있어서,
상기 분류하는 단계는,
상기 컴퓨터가 산출된 상기 스코어에 대하여 미리 정해진 위험 구간별 스코어를 기준으로 하여 상기 대상도메인데이터의 위험 정도를 구간별로 분류하는 것인,
인공지능 기반 악성 도메인 분류 방법.
제2항에 있어서,
상기 스코어를 산출하는 단계는,
상기 대상도메인데이터의 각각의 레터들에 대한 상기 배열 순서, 중복도 및 상기 등장 순위 중 적어도 하나를 기반으로 스코어를 산출하는 것이고,
상기 배열 순서를 기반으로 스코어를 산출하는 것은,
상기 레터들의 배열 순서를 기반으로 자음과 모음의 결합 관계를 도출하여, 상기 자음과 모음이 결합되어 단어의 형태로 구성되는 경우, 정상도메인데이터일 확률을 미리 정해진 확률만큼 높게 산출하여 상기 스코어에 반영하는 것이고,
상기 중복도는,
상기 정상도메인데이터 및 악성도메인데이터 각각의 데이터 상에서의 레터들을 기준으로 획득되는 것이고,
악성 도메인일 확률과 상기 중복도는 비례하고,
상기 대상도메인데이터 내 미리 정해진 등장 순위 이상의 레터의 개수가 많을수록 정상 도메인일 확률이 높은,
인공지능 기반 악성 도메인 분류 방법.
제1항에 있어서,
상기 악성도메인데이터는,
상기 컴퓨터가 도메인 생성 알고리즘(Domain Generation Algorithm, DGA)을 이용하여 랜덤으로 생성한 도메인데이터인,
인공지능 기반 악성 도메인 분류 방법.
제1항에 있어서,
상기 학습 모델은,
장단기 기억 학습 모델(Long Short-Term Memory, LSTM)로서,
학습 진행 시 상기 제1변환 데이터를 미리 정해진 일정 변환 기준에 따라 상기 복수의 유닛 중 하나 이상의 유닛을 제외하는 제2변환 데이터로 변환하여 학습하는 것인,
인공지능 기반 악성 도메인 분류 방법.
삭제
삭제
하드웨어인 컴퓨터와 결합되어, 제1항 내지 제6항 중 어느 한 항의 방법을 수행하기 위해 매체에 저장된, 인공지능 기반 악성 도메인 분류 컴퓨터 프로그램.