WO2016028067A2

WO2016028067A2 - 시각화를 이용한 악성 코드 탐지 시스템과 방법

Info

Publication number: WO2016028067A2
Application number: PCT/KR2015/008625
Authority: WO
Inventors: 서일주; 한승철
Original assignee: 주식회사 시큐그래프
Priority date: 2014-08-18
Filing date: 2015-08-18
Publication date: 2016-02-25
Also published as: US20170272454A1; KR101544322B1; WO2016028067A3; EP3185164A4; EP3185164A2

Abstract

사용자가 악성코드에 감염된 클라이언트 단말기들의 행위를 직관적으로 탐지할 수 있도록 시각화를 이용한 악성 코드 탐지 시스템과 방법이 개시된다. 시각화를 이용한 악성 코드 탐지 시스템은 DNS 패킷을 수집하는 데이터 수집 모듈, 수집된 DNS 패킷으로부터 시각화를 위한 매개변수들을 추출하는 매개변수 추출 모듈, 추출된 매개변수를 적재하기 위한 데이터 적재 모듈, 블랙리스트 도메인을 관리하기 위한 블랙리스트 관리 모듈, 적재된 데이터에서 불필요한 데이터들을 거르기 위한 필터 모듈, 추출된 매개변수들을 이용하여 시각화 패턴을 생성하는 시각화 생성 모듈을 포함한다.

Description

시각화를 이용한 악성 코드 탐지 시스템과 방법

본 발명은 시각화를 이용한 악성 코드 탐지 시스템과 방법에 관한 것이다.

봇넷(Botnet)은 악성코드에 감염된 단말(Bot)과 네트워크(Network)의 합성어로, 공격자에 의해 원격으로 제어되는 악성코드에 감염된 단말들의 네트워크이다.

봇넷은 인터넷 상의 주요 위협으로서, 개인 정보 탈취, DDoS(Distributed Denial of Service; 분산 서비스 거부 공격, 이하 "DDoS"라 한다.) 공격, 스팸메일 발송, 파밍(pharming) 과 피싱(phishing) 등과 같은 다양한 사이버 범죄에 이용되고 있어, 경제적 손실을 넘어 국가안보까지 위협하고 있다.

현재까지 다양한 종류의 봇넷이 알려졌지만, 이들의 공통적인 특성은 봇넷은 C&C (Command and Control; 이하 "명령 제어 서버"라 한다.) 서버에 의해 원격으로 제어된다는 점이다.

초기의 봇넷은 C&C 서버와 통신하기 위하여 IP 주소(Internet Protocol Address, 이하 "IP주소"라고 한다.) 또는 도메인 이름이 악성 코드 내부에 문자열로 프로그래밍 되어 있었다. 하지만, 이 경우 종래의 보안 기술의 정적 분석을 통하여 용이하게 C&C 서버를 검출하여 차단할 수 있다.

이러한 검출을 회피하기 위하여, 최근 봇넷은 DGA(Domain Generation Algorithm; 도메인 생성 알고리즘, 이하 'DGA'라 한다.), 동적 도메인 이름 시스템 (Dynamic Domain Name System, DDNS) 등과 같은 도메인 플럭스(domain flux)라는 회피 기술을 사용한다. 이와 같이 DGA에 의해 생성된 C&C 서버(110)의 도메인 이름은 짧은 기간 동안에만 유지되기 때문에 보안 시스템이 탐지하기 어려웠다. 악성코드의 수많은 변종과 다양한 회피기술로 인하여 기존의 보안 시스템이 탐지하기 어려우며, 과거 초기의 봇넷과 달리, 그들은 다수의 C&C 서버와 통신하기 때문에, 단일 실패 지점(single point of failure)이 없어서 차단하기 어렵다.

이와 같은 문제를 해결하기 위해 많은 탐지 기술들이 제안되었다. 봇넷을 탐지하기 위한 기술로는, 크게 클라이언트 기반의 봇넷 탐지 기술과 네트워크 기반의 봇넷 탐지 기술이 있다.

클라이언트 기반의 봇넷 탐지 기술은 크게 시그니처(signature) 기반 탐지 기술과 이상 행위 기반 탐지 기술로 나눌 수 있다. 시그니처 기반 탐지 기술의 경우 악성 코드 분석을 통한 것으로 신종 봇 탐지가 불가능하고, 실행 압축 기술을 이용하면 쉽게 회피할 수 있다는 단점이 있다. 이상행위 탐지 기술의 경우 시스템 콜 등의 이상 행위를 이용하여 탐지하는 기술 등이 있으나, 오탐율이 높다는 단점이 있다. 네트워크 기반의 봇넷 탐지 기술은 네트워크 트래픽을 분석하여 탐지하는 것으로, 많은 트래픽 양으로 인해 처리가 힘들고, 암호화 통신을 하는 경우 패킷 모니터링이 불가능하는 단점이 있다.

급증하는 사이버 범죄를 효율적으로 대처할 수 있는 방안이 시급하며, 단순한 회피 설계만으로 봇넷 탐지 기술을 무력화시키기 어려운 기술을 개발할 필요가 있다.

본 발명은 사용자가 악성 행위를 직관적으로 탐지할 수 있도록 시각화 패턴을 제공하는 것을 목적으로 한다.

상기한 바와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 시각화를 이용한 악성 코드 탐지 시스템과 방법에 있어서, DNS 패킷을 수집하는 단계, 수집한 DNS 패킷으로부터 시각화를 위한 매개변수들을 추출하는 단계, 데이터를 적재하는 단계, 필터링하는 단계, 블랙리스트 관리 단계, 상기 추출된 매개변수와 필터링된 데이터 시각화 패턴을 생성하는 시각화 단계를 포함한다.

여기서, 상기 매개변수들은 DNS 질의를 보내는 클라이언트(Client)의 IP 주소, 질의 유형, 상기 도메인 이름, 타임스탬프(Timestamp)와 플래그(Flag) 중 적어도 두개를 포함한다.

본 발명의 일 실시예에 따른 시각화를 이용한 악성 코드 탐지 시스템과 방법은 DNS 패킷들을 이용하여 시각화 패턴을 생성하는 단계와 상기 생성된 패턴을 출력하는 단계를 포함한다. 여기서, 상기 패턴은 목적지의 도메인 이름, DNS 질의를 요청한 클라이언트(client)의 IP 주소와 상기 DNS 질의의 양을 표시한다.

본 발명의 일 실시예에 따른 악성 코드 시각화 방법은 DNS 응답 패킷들로부터 클라이언트의 IP 주소들과 DNS 질의들에 대한 데이터를 추출하는 단계;와 상기 추출된 데이터에 기초하여 원통형 좌표계로 표시되는 시각화된 패턴을 생성하는 단계를 포함한다.

본 발명의 다른 실시예에 따른 시각화를 이용한 악성 코드 탐지 방법은 DNS 패킷들을 이용하여 악성 코드 탐지를 위한 시각화 패턴을 생성하는 단계를 포함한다. 여기서, 상기 패턴에서 도메인 이름을 중심으로 하여 상기 도메인 이름을 DNS 질의를 하는 장치들의 IP 주소들이 표시된다.

본 발명에 따른 시각화를 이용한 악성 코드 탐지 방법은 DNS 응답 패킷을 이용하여 봇넷의 행위를 시각화 패턴으로 생성한다. 결과적으로, 사용자가 상기 패턴을 통하여 악성 행위를 직관적으로 탐지할 수 있다.

도 1은 봇넷의 구조를 나타내는 도면이다.

도 2는 본 발명의 일 실시예에 따른 악성코드 탐지 시스템을 설명하기 위한 구성도 이다.

도 3은 본 발명의 일 실시예에 따른 악성코드 탐지 시스템 방법을 도시한 블록도 이다.

도 4는 본 발명의 일 실시예에 따른 시각화 패턴을 위한 시각화 성분을 도시한 도면이다.

도 5는 본 발명의 일 실시예에 따른 패턴을 도시한 화면이다.

도 6은 다양한 시각화 패턴들을 도시한 도면이다.

아래에서는 첨부한 도면들을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예들을 자세히 설명 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.

본 발명은 시각화를 이용한 악성 코드 탐지 시스템과 방법에 관한 것으로서, 사용자가 봇넷의 행위를 직관적으로 식별할 수 있도록 시각화 패턴으로 제공한다.

악성 코드 탐지 시스템과 방법에 대한 자세한 설명에 앞서 봇넷(botnet)에 대하여 간략하게 설명을 하기로 한다.

도 1은 봇넷의 구조를 설명하기 위한 구성도이다.

도 1을 참조하면, 봇넷(botnet)은 악성코드에 감염된 단말(bot, 이하 "봇"이라 한다)인 봇들을 명령/제어하는 권한을 가진 봇마스터(botmaster)(100)에 의해 C&C 서버 (Command and Control; 명령제어 서버, 이하 "C&C"라 한다.)(110)를 통해 원격제어 되는 봇들의 네트워크이다.

봇넷이 하나의 C&C 서버(110)만을 이용할 수도 있지만, 최근에는 용이하게 탐지되지 않도록 다수의 C&C 서버(110)들을 사용하거나, C&C 서버(110)들의 도메인 이름이 변경되기도 한다.

봇(120)은 봇마스터(100)로부터 명령을 받기 위해, C&C 서버(110)에 접속하는 과정에서 DNS(Domain Name System; 도메인 이름 시스템, 이하 "DNS"라 한다.) 서버(130)에 DNS 질의(query)를 수행한다. 더 자세하게는, 봇은 다운로드한 악성코드를 실행하고, C&C 서버(110)의 IP 주소를 얻기 위해 DNS 서버(130)에 질의한다.

봇(120)은 DNS 서버(130)로부터 응답받은 IP주소를 이용해 C&C 서버(110)에 접속을 하여 합류한다. 봇마스터(100)는 C&C 서버(110)를 통해 수많은 봇(120)들을 제어하고 명령을 전달한다. 상기 명령을 받은 봇들은 DDoS, 스팸메일 발송, 개인정보 유출 등의 공격을 수행한다.

최근의 봇넷은 여러 곳에 분산되어 존재하는 C&C 서버(110)에 접속하기 위해 다수의 도메인 이름을 사용하여 악성코드 탐지 시스템을 회피한다. 이는 C&C 서버(110)에 접속 실패를 하거나 일부 C&C 서버(110)가 차단되었어도 타 C&C 서버(110)에 접속하여 봇넷 전체가 차단되는 것을 방지하기 위함이기도 하다.

도 2는 본 발명의 일 실시예에 따른 시각화를 이용한 악성 코드 탐지 시스템을 설명하기 위한 구성도이다.

본 발명의 일 실시예에 따른 시각화를 이용한 악성 코드 탐지 시스템(220)은 DNS 서버(130), 복수의 클라이언트 단말기(210a, 210b, 210c 및 210d)가 네트워크(200)에 연결되어 있는 환경에서 수행된다.

복수의 클라이언트 단말기(210a, 210b, 210c 및 210d)는 네트워크(200)를 통해 DNS 서버(130)에 질의하는 모든 종류의 단말기들을 포함한다. 예를들어, 클라이언트 단말기(210)는 데스크탑(desktop), 랩탑(laptop), 스마트폰, 스마트 패드(tablet PC), 스마트 TV, 스마트 자동차, 스마트 가전기기 등과 같이 네트워크(200)에 접속가능한 모든 종류의 단말기들을 포함한다.

네트워크(200)는 광역 통신망(Wide Area Network; WAN), 도시권 통신망(Metropolitan Area Network), 근거리 통신망(Local Area Network; LAN), 인트라넷(Intranet)등과 같은 유선 네트워크나, 이동 통신망(mobile radio communication network) 또는 위성 통신망(satellite network) 등과 같은 무선 네트워크를 포함한다.

DNS 서버(130)는 도메인 이름을 네트워크 주소로 변환하거나 그 반대의 변환하는 역할을 수행한다. 본 발명의 일 실시예에 따르면, 클라이언트 단말기(210)은 서비스를 받고자 하는 목적 서버에 접속하기 위해, 상기 DNS 서버(130)로 도메인 질의를 하면 상기 DNS 서버(130)는 그 질의에 대해 응답으로 IP 주소를 반환한다. 동일한 악성코드에 감염된 봇(120)의 경우 유사한 질의 패턴을 갖고, 집단적인 행동을 보이는 특성이 있기 때문에 감염되지 않은 클라이언트 단말기와 차이점이 있다.

도 3은 본 발명의 일 실시예에 따른 악성 코드 탐지 방법을 도시한 블록도 이다.

도 3을 참조하면, 본 실시예의 악성코드 탐지 시스템(220)은 데이터 수집 모듈(300)과 매개변수 추출 모듈(310), 데이터 적재 모듈(320), 필터 모듈(330), 블랙리스트 관리 모듈(340), 시각화 생성 모듈(350)로 구성된다.

데이터 모듈(300)은 네트워크(200)상에서 DNS 응답 패킷(response packet)을 수집한다. 예들어, 태핑(tapping) 하여 트래픽을 미러링(mirroring)하여 DNS 응답 패킷을 수집하거나, 클라이언트 단말기에 설치된 소프트웨어를 통해서 직접적으로 DNS 응답 패킷을 수집할 수 있다. 물론, 악성 코드 탐지 시스템(220)은 DNS 질의를 수집할 수도 있다.

본 발명의 시스템이 DNS 트래픽을 분석하는 이유는 전체 네트워크 트래픽을 분석하는 것보다 부하가 적고, 봇(120)들의 악성행위 전에 DNS 트래픽이 발생하기 때문이다. 특히, DNS 응답 패킷은 DNS 응답 데이터 뿐만 아니라 질의 데이터를 포함한다.

매개변수 추출 모듈(310)는 DNS 응답 패킷을 파싱(parsing)하여 시각화 매개변수들을 추출한다.

상기 매개변수는 클라이언트 단말기(210)의 IP 주소, 도메인 이름, DNS 질의 유형, 타임스탬프와 플래그를 포함할 수 있다.

일 실시예에 따르면, 매개변수 추출 모듈(310)는 DNS 응답의 IP 주소 및 도메인 이름으로부터 도메인 이름별로 카디널리티(cardinality)를 계산할 수 있다.

또한, 매개변수 추출 모듈(310)는 타임스탬프(timestamp)와 상기 IP 주소로부터 인텐시티(intensity)를 계산할 수 있다.

게다가, 매개변수 추출 모듈(310)은 상기 IP 주소와 플래그로부터 플래그 오류율을 계산할 수 있다.

상기 클라이언트 단말기(210)의 IP 주소는 IP 헤더 섹션에 있는 32 비트(bit) 값일 수 있다.

DNS 응답에서, 질의 유형은 DNS 질의 섹션 내의 질의 유형 필드를 위한 부호없는16 비트 값으로 행위 유형을 식별하기 위해 사용될 수 있다.

DNS 응답에서, 도메인 이름은 클라이언트 단말기(210)가 IP주소를 얻고자 하는 도메인의 이름이다. 도메인 이름은 DNS 질의 섹션이나 응답 섹션 내의 가변 길이 문자열(variable-length string)일 수 있으며, C&C 서버(110) 또는 봇(120)의 공격 목표지를 식별하기 위해 사용될 수 있다.

DNS 응답에서, 타임스탬프는 DNS 서버(130)가 응답 시간을 기록한 32 비트 값일 수 있다. 클라이언트 단말기(210)에 의해 생성된 DNS 질의들의 양을 측정하기 위해 사용될 수 있다. 다만, 타임스탬프를 매초 업데이트하면 많은 자원이 필요하므로, 본 발명은 클라이언트

에 대하여 소정 시간

와 초기 시간

의 시간 변화량(

)을 이용할 수 있다.

즉,

.내의 16 비트 값으로 상태 정보를 포함하는 필드들로 구성되어 있다. 특히, 질의가 성공적으로 답변되었는지 아닌지를 나타내는 RCODE(Reply Code; 응답코드, 이하 'RCODE'라고 한다.)를 의미하는 플래그의 하위 4 비트를 사용한다. 본 발명에서, 상기 플래그는 봇넷을 탐지하거나 공격자가 DNS 서버(130)의 캐시에 변조된 정보를 삽입하는 DNS 캐시 중독 공격(DNS cache poisoning attack)등을 을 검출하기 위하여 오류율을 측정하기 위해 사용될 수 있다.

다음으로, 본 발명의 시스템은 위와 같이 5가지 매개변수들을 추출한 후, 카디널리티, 인텐시티 및 플래그 오류율의 세 가지 매개변수들을 계산할 수 있다.

카디널리티는 특정 도메인 이름을 질의하는 클라이언트들의 수를 나타낸다. 카디널리티는 DNS 응답의 클라이언트의 IP 주소와 도메인 이름으로부터 도메인 이름별로 계산될 수 있다. 정상적인 클라이언트들은 일정한 카디널리티를 유지하지 않는 반면에, 봇넷은 시간이 지남에 따라 상대적으로 일정한 카디널리티를 유지하는 특성이 있다. 따라서, 상기 시스템은 카디널리티를 통하여 봇넷을 시각적으로 무리 지을 수 있다.

도메인 이름

를 질의하는 클라이언트

의 집합인

에 대하여, 도메인

의 카디널리티

는 아래의 수학식 1과 같이 정의될 수 있다.

수학식 1

본 발명에서, 인텐시티는 클라이언트의 초당 평균 질의 수를 나타낸다. 팸 스 전송, DNS 캐시 중독 공격과 RDDoS(Distributed Reflection DoS; 분산 반사 공격, 이하 'DRDoS'라 한다.) 등과 같은 악성 행위는 짧은 시간 동안 많은 DNS 패킷들을 생성하며, 상기 시스템은 이러한 악성 행위의 특성을 고려하여 악성 행위로 보여지는 클라이언트를 식별하기 위하여 인텐시티를 측정할 수 있다. 매초 클라이언트

의 인텐시티는

로 정의한다.

일 실시예에 따르면, 인텐시티는 타임스탬프 및 클라이언트의 IP 주소로부터 계산될 수 있다.

본 발명에서, 플래그 오류율은 공격 또는 악성 행위를 검출하기 위해 사용될 수 있다. 예를들어, 공격자가 DNS 캐시 중독 공격을 하면 많은 오류 플래그들이 발생한다. 따라서 상기 시스템은 이러한 오류 플래그들을 통하여 공격 또는 악성 행위를 검출할 수 있다. 상기 플래그 오류율은 다음과 같이 수학식 2로 정의한다.

수학식 2

여기서,

는 클라이언트

의 전체 질의 수를 나타내며,

는 클라이언트

의 질의에 대한 응답에서의 플래그 오류의 수를 의미한다.

일 실시예에 따르면, 플래그 오류율은 클라이언트의 IP 주소 및 플래그로부터 계산될 수 있다.

데이터 적재 모듈(320)는 도메인 이름별로 모든 IP 주소들을 그룹핑 시킬 수 있으며, 매개변수 추출 모듈(310)에서 추출한 데이터를 저장할 수 있다.

일 실시예에 따르면, 데이터 적재 모듈(320)은 도메인 이름을 적재하기 위한 자료구조(이하 '도메인 테이블'이라고 한다.)와 해당 도메인을 질의한 클라이언트의 IP를 적재하기 위한 자료구조(이하 'IP 테이블'이라고 한다.)를 포함한다.

도메인 테이블은 도메인 이름

를 키(key)로 갖고, IP 테이블

을 값으로 갖는 자료구조

일 수 있다.

IP 테이블

는 클라이언트의 IP 주소

를 키(key)로 갖고, 질의 유형을 저장하기 위한 배열

, 시간변화량 또는 타임스탬프를 저장하기 위한 배열

와 플래그를 저장하기 위한 배열

를 포함하는 구조체

를 값으로 갖는 자료구조(

)일 수 있다.

데이터 적재 모듈(320)의 도메인 테이블과 IP 테이블의 자료구조는 배열(Array), 해쉬 테이블(Hash Table), 해쉬 맵(Hash Map), 이진탐색트리(Binary Search Tree), 비트리(B-Tree)나 AVL 트리와 같은 모든 종류의 검색 알고리즘으로 구현될 수 있다.

데이터 적재 모듈(320)는 도메인 이름

가 도메인 테이블

에 존재하는지를 검색한 후, 도메인 이름

가 도메인 테이블

에 존재하면, 클라이언트 IP

가 해당 IP 테이블

에 존재하는 지를 검색한다.

클라이언트 IP

가 해당 IP 테이블

에 존재한다면

를 구조체

내의 배열

와

에 추가한다. 클라이언트 IP

가 해당 IP 테이블

에 존재하지 않는다면, 새로운 구조체

를 생성한 후, 새 구조체

내의 배열

와

에

를 각각 삽입한 한다. 이어서, 클라이언트 IP

를 키(key)로 삽입하고, 새 구조체

를 값으로 갖는 IP 테이블(

)에 삽입한다.

도메인 이름

가

에 존재하지 않으면, 새로운 구조체

를 생성한 후, 새 구조체

내의 배열

와

에

를 각각 삽입한다. 이어서, 클라이언트 IP

를 키(key)로 삽입하고, 새 구조체

를 IP 테이블(

)에 삽입한다. 이어서, 도메인 테이블(

)에 도메인 이름

를 키로 삽입하고, IP 테이블

를 값으로 삽입한다.

데이터 적재 모듈(320)은 기설정한 임계 시간이 경과하면 저장한 데이터를 삭제할 수 있다.

일 실시예에 따르면, 데이터 적재 모듈(320)는 도메인 테이블의 단일 도메인에 대하여 중복 적재하지 않고 1회만 적재하고, 단일 도메인에 대하여 클라이언트의 IP 주소를 중복 적재하지 않고 1회만 적재하며, 단일 IP 주소에 따라 질의 유형, 타임스탬프와 플래그를 저장할 수 있다.

필터 모듈(330)은 데이터 적재 모듈(320)에서 적재한 데이터에서 정상 행위에 대한 데이터를 제외하기 위해 필터링한다. 구체적으로는, 필터 모듈(330)은 도메인이름

에 대한 카디널리티

에 따라 도메인 이름들을 필터링하고 그룹핑한다.

필터 모듈(330)은 데이터 적재 모듈(320)의 도메인 테이블 를 입력으로 하여 도메인 에 대한 카디널리티 를 키로 갖고, 오프셋 배열 를 값으로 갖는 자료 구조 를 생성한다.

필터 모듈(330)이 도메인 테이블 을 순회(traverse)하는 동안, 필터 모듈(330)은 클라이언트의 전체 질의 수 가 임계치 보다 큰 지의 여부 비교하고 도메인 이름 가 블랙리스트 에 존재하는지 검색한다.

만약, 클라이언트의 전체 질의 수 가 임계치 보다 작거나, 도메인 이름 가 블랙리스트 에 존재하지 않는다면, 필터 모듈(330)은 계속해서 도메인 테이블 을 순회하고, 그렇지 않다면, 필터 모듈(330)은 도메인 이름 에 대한 카디널리티 가 자료구조 에 존재하는지 검색한다.

자료구조

에 도메인

에 대한 카디널리티

가 존재한다면, 필터 모듈(330)은

의 오프셋을 해당 배열

에 삽입한다.

자료구조

에 도메인

에 대한 카디널리티

가 존재하지 않는다면, 새로운 배열

을 생성하고, 필터 모듈(330)은

의 오프셋을 새로운 배열

에 삽입하고, 자료구조

에 키(key)를

로 삽입하고,

를 값으로 삽입한다.

특히, 이러한 조건 상태는 DNS 질의 분포가 Zipf의 법칙을 따르기 때문에 상당히 많은 의미 없는 데이터를 필터 할 수 있다.

블랙리스트 관리 모듈(340)은 알려진 블랙리스트 도메인을 저장하는 역할을 수행한다.

시각화 생성 모듈(350)은 원통 좌표계에 삼각형 꼭지점 들의 집합

들을 출력한다.

본 발명의 시각화 생성모듈은, 도 4에 도시된 바와 같이 클라이언트들의 행위를 삼각형으로 표시할 수 있다.

특히, 통상적인 원통좌표계의 좌표는 3차원 공간에 한 점을 표시하기 위해 반지름

, x-y평면에서 이루는 각도

와

를 사용하지만, 본 발명에서 원통좌표계는 3차원 공간상에 삼각형을 표시하기 위해, 삼각형의 높이

및 삼각형의 각도

,

, 삼각형의 밑변

를 사용한다.

시각화 생성 모듈(350)은 필터 모듈(330)의 자료구조

를 순회하는 동안, 도메인 이름

의 카디널리티

를 얻고, 자료구조

인 오프셋 배열

를 순회한다. 오프셋 배열

에서 도메인 이름

에 대한 오프셋을 얻어온 뒤, 도메인 테이블

에서 도메인 이름

를 질의한 클라이언트 IP 주소들을 얻는다.

본 발명의 원통좌표계상에서 삼각형의 각도를 계산하기 위해, 클라이언트의 IP 주소

의 각 옥텟(octet)들을

,

및

로 표시하면, 클라이언트의 IP 주소

는 아래의 수학식 3과 같이 표현될 수 있다.

수학식 3

위 수학식 3으로부터 원통좌표계에 표시하기 위해 클라이언트의 IP 주소

를 각도

로 표현하기 위한 아래의 수학식 4와 같이 계산할 수 있다.

수학식 4

따라서, 각 클라이어트의 IP 주소

는 각도

로 매핑될 수 있다.

본 발명의 원통좌표계상에서 삼각형의 높이

을 계산하기 위해, 도메인 이름

의 카디널리티

에 의해 결정되며, 아래의 수학식 5와 같다.

수학식 5

여기서, 임계치(

)는 네트워크 규모 또는 디스플레이 해상도에 따라 결정될 수 있다.

본 발명의 원통좌표계상에서 삼각형의 위치

축은 도메인 이름

의 카디널리티

에 따라 결정될 수 있으며,

축 상에서 내림차순 또는 오름차순으로 배열될 수 있다.

또는, 사용자가 특정 삼각형을 선택 했을때,

값은 도메인 이름

의 카디널리티

에 따라 결정되지 않고, 원통좌표계상에서 사용자가 원하는 위치로 지정할 수 있다.

각

은 자료 구조 내에 저장될 때, 함수

가 자료 구조에서

을 반환시킨다고 가정하면,

값은 아래의 수학식 6과 같다.

수학식 6

각 삼각형의 요소들을 포함하는 꼭지점 집합

의 좌표값 범위는 아래의 수학식 7과 같이 정의될 수 있다.

본 발명의 원통좌표계상에서 삼각형의 밑변

은 클라이언트의 IP 주소

의 클라이언트의 초당 평균 질의 수에 따라 결정될 수 있다.

수학식 7

본 발명에서 원통좌표계상에 삼각형의 색상을 결정하기 위해, 클라이언트 IP에서 세 옥텟(octet)을 선택하여 0내지 255까지의 값으로 빨강, 녹색 및 파랑으로 표시할 수 있다.

또한, 상기 시스템은 동일한 삼각형이더라도 상황에 따라 색상을 다르게 지정할 수 있다. 예를들어, 후술하는 바와 같이 클라이언트의 IP 주소의 인텐시티가 기설정 임계값을 초과하거나 상기 IP 주소의 플래그 오류율이 임계값을 초과하였을 때의 상기 삼각형의 색상은 상기 IP 주소의 인텐시티가 상기 기설정 임계값 이하이거나 상기 IP 주소의 플래그 오류율이 상기 기설정 임계값 이하인 이거나, 블랙리스트 도메인이나 임계치를 초과하는 경우 상기 삼각형의 색상과 다를 수 있다.

일 실시예에 따르면, 상기 시스템은 공격의 징후에 해당한다고 해당하는 삼각형의 색상을 다른 날개들의 색상과 다르게 표시할 수 있다. 따라서, 사용자는 상기 패턴을 통하여 목적지로 공격이 가해질 수 있다는 것을 직관적으로 검출할 수 있다.

본 실시예의 시각화를 이용한 악성 코드 탐지 시스템과 방법은 도 5에 도시된 바와 같이, 원통좌표계에 DNS 데이터들을 시각화하여 표시할 수 있다. 예를 들어, 상기 시스템은 DNS 응답들을 수집하고 수집된 DNS 응답들에 포함된 DNS 질의들을 추출하며 상기 추출된 DNS 질의들에 기초하여 시각적 패턴을 생성할 수 있다.

축에 표시된

는 예를 들어 네이버, 다음 등을 표시하는 공격 목적지의 도메인 이름이나 C&C 서버(110)의 도메인 이름이고,

는 패킷을 전송하는 클라이언트, 예를 들어 봇(120)을 나타내며, 삼각형 밑변의 길이는 봇의 DNS 질의에 대한 인텐시티일 수 있다.

따라서, 사용자는 상기 시각적으로 표시된 패턴을 통하여 어느 봇(120)이 어느 C&C 서버(110)와 통신하는지 또는 공격 목적지가 어디인지 알 수 있다.

이하, 이러한 원통좌표계의 패턴을 생성하는 과정을 살펴보겠다. 계속하여, 상기 시스템은 위 세 가지 특징들을 이용하되, 3가지 원칙에 따라 시각화 패턴을 생성한다.

첫째, 본 발명의 시스템은 도 4에 도시된 바와 같이 원통좌표계상에 각 클라이언트의 IP 주소를 표시하고,

축에 클라이언트에 의해 질의되는 카디날리티에 따라 도메인 이름을 표시한다. 3차원 공간상에 삼각형으로 표시하는 이유는 클라이언트 IP 주소들을 선형 축 또는 평면상에 점 또는 선으로 표시하면 많은 양의 IP 주소들이 중복되거나 교차되어 각각의 IP 주소들을 구분하기 어렵기 때문이다. 여기서, 상기 도메인 이름은 목적지의 도메인 이름일 수도 있고 C&C 서버(110)의 도메인 이름일 수도 있다.

둘째, 본 발명의 시스템은 원통좌표계상에 삼각형들이 모여서 형성되는 패턴을 이용하여 봇넷을 표시한다. 원통좌표계에서 삼각형의 좌표는 도 4에 도시된 바와 같이 삼각형의 높이, 삼각형이 이루는 각도 및 축상의 위치 와 삼각형의 밑변 에 의해 표시될 수 있다.

셋째, 상기 시스템은 클라이언트의 질의에 대한 인텐시티를 표시하기 위하여 도 5에 도시된 바와 같이 추가 좌표

를 이용하여 삼각형의 밑변을 표시한다. 인텐시티를 표시하기 위하여 삼각형을 이용하는 것은 점이나 선으로 표현하는 것보다 더 많은 정보를 표현할 수 있고, 점이나 선보다 색상이나 위치를 구분하기에 더 용이하다. 삼각형 보다 더 많은 꼭지점을 가지는 도형으로 표시하는 경우에는 더 많은 처리량을 요구하기 때문이다. 또한, 삼각형으로도 사용자가 악성 행위를 직관적으로 인식하기에 충분하기 때문이다.

이 때, 각 클라이언트의 IP 주소는 삼각형의 각도

로 표시된다. 결과적으로, 동일한 도메인 이름의 목적지로 질의하는 클라이언트들의 IP 주소들은

축을 중심으로 원을 그리며 표시될 수 있다. 이때, 각 삼각형의 밑변은 클라이언트의 DNS 질의 양에 대한 인텐시티를 나타낼 수 있다.

상기 시스템은 공격 패턴을 도 6의 (A) 내지 (D)와 같이 4가지 패턴으로 정의할 수 있다.

Type-Ⅰ(도 6의 (A)) : 복수의 봇(120)이 1개의 C&C 서버(110)를 찾기 위해 DNS 질의를 하는 경우 디스크 형태의 패턴으로 나타낸다. 물론, 디스크 형태의 패턴은 정상적인 경우에도 나타날 수 있으나, 이때는 카디널리티가 매우 비규칙적이며, 디스크 형태의 패턴이 낮은 인텐시티를 가진다. 따라서, 봇넷에 해당하는 디스크 형태의 패턴은 사이즈, 색상과 두께 면에서 정상적인 경우의 패턴으로부터 명확하게 구별되어질 수 있다.

Type-Ⅱ (도 6의 (B)) : 복수의 C&C 서버(110) 또는 C&C 서버(110)가 복수의 도메인 이름들을 가질 때, 복수의 봇이 DNS질의를 하는 경우 Type-Ⅰ의 디스크 형태의 패턴이 나열되어 원통과 같은 형태로 나타낼 수 있다. 이때, 각각의 디스크 형태의 패턴들은 상호 같거나 유사한 패턴일 수 있다.

Type-Ⅲ (도 6의 (C)) : 단일 또는 복수의 봇(120)이 많은 DNS 질의들을 보낼 때, 삼각형의 폭이 증가된 형태로 패턴이 형성될 수 있다. 이와 같은 패턴은 DRDoS공격이나 비정상 행위를 나타낸다.

Type-Ⅳ (도 6의 (D)) : 1개의 봇(120)이 복수의 도메인 이름을 질의할 때, 복수의 삼각형이

축 방향으로 나열되어 평면처럼 표현될 수 있다. DNS 캐시 중독 공격 또는 다른 형태의 비정상 행위를 나타낸다.

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경과 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims

DNS 패킷을 수집하기 위한 데이터 수집 모듈; 시각화를 위한 매개변수들을 추출하는 매개변수 추출 모듈; 매개변수들에 해당하는 데이터를 저장하는 데이터 적재 모듈; 필터 모듈; 블랙리스트 모듈; 및 상기 추출된 매개변수들을 이용하여 시각화 패턴을 생성하는 시각화 생성 모듈을 포함하되,

상기 시각화 패턴은 목적지의 도메인 이름, 클라이언트의 IP 주소와 DNS 질의의 양 중 적어도 하나를 표시하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
제1항에 있어서, 상기 DNS 패킷은 DNS 응답 패킷이며, 상기 매개변수는 DNS 질의하는 클라이언트의 IP 주소, 질의 타입, 상기 도메인 이름, 타임스탬프와 플래그를 포함하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
제1항에 있어서, 상기 패턴은 원통좌표계에 표시되며, 상기 목적지의 도메인 이름들은 선형 축 상에 이격되어 배열되고, 특정 도메인 이름을 목적지로 하는 클라이언트들의 IP 주소들이 선형 축 상에 표현된 상기 도메인 이름을 중심으로 배열되되,

상기 DNS 질의들의 양은 삼각형의 밑변으로 표시되며, 상기 도메인 이름과 상기 IP 주소는 원통좌표계상에서 상기 삼각형의 각도에 대응하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
제1항에 있어서,

상기 DNS 패킷으로서 DNS 응답들을 수집하는 데이터 수집 모듈을 더 포함하되,

상기 매개변수 추출 모듈은 상기 수집된 DNS 응답들로부터 상기 매개변수들을 추출하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
제1항에 있어서, 상기 매개변수들을 추출하는 매개변수 추출 모듈;

상기 추출된 매개변수들에 해당하는 데이터를 저장하는 데이터 적재 모듈; 상기 저장된 데이터로부터 정상 행위에 해당하는 데이터를 제외하기 위해 필터링하는 필터 모듈; 블랙리스트 도메인 이름을 관리하는 블랙리스트 관리 모듈과 상기 추출된 매개변수들을 이용하여 시각화 패턴을 생성하는 시각화 생성 모듈을 포함하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
제5항에 있어서, 상기 데이터 적재 모듈은 기설정 임계시간이 경과하면 상기 저장된 데이터를 삭제하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
제5항에 있어서, 상기 매개변수 추출 모듈은 DNS 응답의 클라이언트 IP 주소와 도메인 이름으로부터 도메인 이름별로 카디널리티를 계산하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
제5항에 있어서, 상기 매개변수 추출 모듈은 타임스탬프와 상기 IP 주소로부터 인텐시티를 계산하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
제5항에 있어서, 상기 매개변수 추출 모듈은 상기 IP 주소와 플래그로부터 플래그 오류율을 계산하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
제5항에 있어서, 상기 데이터 적재 모듈은 상기 IP 주소는 1회만 저장하며 단일 IP 주소에 따라 질의 종류, 타임스탬프와 플래그를 저장하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
제5항에 있어서, 상기 데이터 적재 모듈은 상기 IP 주소의 질의 수가 기설정 임계값 이상이거나 특정 도메인이 블랙리스트에 포함된 경우, 해당 도메인의 카디널리티와 해당 도메인 이름의 IP 주소를 자료 구조에 저장하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
제1항에 있어서, 상기 패턴을 위한 매개변수는 상기 IP 주소, 상기 IP 주소로부터 계산된 각도, 상기 클라이언트 단말기가 질의한 카디널리티, 상기 클라이언트가 질의 양을 위한 임계값과 도메인의 카디널리티의 랭크값을 포함하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
DNS 패킷으로부터 시각화를 위해 상기 매개변수들을 추출하는 매개변수 추출모듈; 상기 추출된 매개변수들에 해당하는 데이터를 저장하는 데이터 적재 모듈; 상기 저장된 데이터로부터 정상 행위에 해당하는 데이터를 제외하기 위해 필터링하는 필터 모듈; 블랙리스트 도메인 이름을 관리하는 블랙리스트 관리 모듈과 상기 추출된 매개변수들을 이용하여 시각화 패턴을 생성하는 시각화 생성 모듈을 포함하되,

상기 매개변수들은 DNS 질의를 보내는 클라이언트 단말기의 IP 주소, 질의 타입, 상기 도메인 이름, 타임스탬프와 플래그 중 적어도 두 개를 포함하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
제13항에 있어서, 상기 패턴은 원통좌표계에 표시되며, 목적지의 도메인 이름들은 선형 축 상에 이격되어 배열되고, 특정 도메인 이름을 목적지로 하는 클라이언트들의 IP 주소들이 선형 축을 중심으로 하여 삼각형들이 원형으로 배열되되,

상기 DNS 질의들의 양은 삼각형의 밑변으로 표시되며, 상기 도메인 이름 및 상기 IP 주소는 상기 삼각형의 꼭지점들에 대응하는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
제13항에 있어서, 상기 DNS 질의들의 양의 순서에 따라 상기 도메인 이름들이 선형 축 상에 순차적으로 배열되는 것을 특징으로 하는 시각화를 이용한 악성 코드 탐지 시스템.
DNS 패킷들을 이용하여 시각화 패턴을 생성하는 단계; 및

상기 생성된 패턴을 출력하는 단계를 포함하되,

상기 패턴은 목적지의 도메인 이름, DNS 질의를 요청한 클라이언트의 IP 주소 및 상기 DNS 질의의 양을 표시하는 것을 특징으로 하는 악성 코드 탐지 및 시각화 방법.
제16항에 있어서, 상기 패턴은 원통좌표계에 표시되며, 상기 목적지의 도메인 이름들은 선형 축 상에 배열되고, 특정 도메인 이름을 질의하는 클라이언트들의 IP 주소들이 상기 도메인 이름을 중심으로 하는 원 상에 배열되되,

상기 DNS 질의들의 양은 삼각형의 넓이로 표시되는 것을 특징으로 하는 악성 코드 탐지 및 시각화 방법.
제17항에 있어서, 상기 IP 주소의 인텐시티가 기설정 임계값을 초과하거나 상기 IP 주소의 플래그 오류율이 기설정 임계값을 초과하였을 때의 상기 삼각형의 색상은 상기 IP 주소의 인텐시티가 상기 기설정 임계값 이하이거나 상기 IP 주소의 플래그 오류율이 상기 기설정 임계값 이하인 때의 상기 삼각형의 색상과 다른 것을 특징으로 하는 악성 코드 탐지 및 시각화 방법.
DNS 응답들로부터 클라이언트의 IP 주소들 및 DNS 질의들에 대한 데이터를 추출하는 단계; 및

상기 추출된 데이터에 기초하여 원통좌표계로 표시되는 시각화된 패턴을 생성하는 단계를 포함하는 것을 특징으로 하는 악성 코드 시각화 방법.
제19항에 있어서, 상기 패턴에서, 목적지의 도메인 이름들은 선형 축 상에 배열되고 특정 도메인 이름을 질의하는 클라이언트들의 IP 주소들이 상기 선형축을 중심으로 하여 삼각형들이 원형으로 배열되되,

상기 DNS 질의들의 양은 삼각형의 밑변으로 표시되는 것을 특징으로 하는 악성 코드 시각화 방법.
DNS 패킷들을 이용하여 악성 코드 탐지를 위한 시각화 패턴을 생성하는 단계를 포함하되,

상기 패턴에서 도메인 이름을 중심으로 하여 상기 도메인 이름을 질의하는 장치들의 IP 주소들이 표시되는 것을 특징으로 하는 악성 코드 시각화 방법.
제21항에 있어서, 상기 도메인 이름은 가상의 원의 중심에 배열되고 상기 IP 주소들은 상기 원 상에 배열되되,

상기 DNS 패킷들의 양은 삼각형의 밑변으로 표시되며 상기 도메인 이름은 상기 삼각형의 꼭지점들 중 하나에 배열되는 것을 특징으로 하는 악성 코드 시각화 방법.
제21항에 있어서, 상기 장치들은 악성코드에 감염된 단말기이며 복수의 C&C 서버들에 연결되는 것을 특징으로 하는 악성 코드 시각화 방법.
제21항에 있어서, 상기 패턴은 상기 DNS 패킷들로부터 추출된 매개변수들을 이용함에 의해 생성되되,

상기 DNS 패킷은 DNS 응답 패킷이며, 상기 매개변수는 DNS 질의를 보내는 클라이언트의 IP 주소, 질의 타입, 상기 도메인 이름, 타임스탬프와 플래그를 포함하는 것을 특징으로 하는 악성 코드 시각화 방법.
제21항에 있어서, 상기 DNS 패킷들의 양은 삼각형의 밑변으로 표시되되,

상기 DNS 패킷들의 양이 기설정 임계값을 초과할 때의 상기 삼각형의 색상은 상기 DNS 패킷들의 양이 상기 기설정 임계값 이하일 때의 삼각형의 색상과 다른 것을 특징으로 하는 악성 코드 시각화 방법.
제21항에 있어서, 상기 C&C 서버나 공격대상의 도메인 이름들은 선형 축 상에 상호 이격되어 배열되며, 상기 도메인 이름들로 패킷들을 전송하는 장치들의 IP 주소들이 해당 도메인 이름을 중심으로 하는 원 상에 배열되는 것을 특징으로 하는 악성 코드 시각화 방법.