KR20200052881A

KR20200052881A - 멀웨어 호스트 넷플로우 분석 시스템 및 방법

Info

Publication number: KR20200052881A
Application number: KR1020207006912A
Authority: KR
Inventors: 겐지 다카하시; 마렉 니즈비즈; 미할 타데우시악; 얀 밀체크; 시즈몬 나코니츠니; 야쿱 차콘
Original assignee: 엔티티 시큐리티 코포레이션
Priority date: 2017-08-09
Filing date: 2018-08-08
Publication date: 2020-05-15
Also published as: KR102387725B1; US10742669B2; CA3072330A1; US20190052652A1; JP2020530638A; JP7219380B2; WO2019032745A1; AU2018313852A1; AU2021221443A1; EP3665602A1; CN111492635A; EP3665602A4

Abstract

호스트/IP 주소의 행동을 기반으로 멀웨어 위협을 결정하기 위한 시스템 및 방법은 모델과 함께 넷플로우 데이터, 화이트리스트, 블랙리스트 및 머신 러닝 분류를 사용한다. 화이트리스트 생성 방법 및 머신 러닝 모델 검증 방법이 사용될 수 있다.

Description

멀웨어 호스트 넷플로우 분석 시스템 및 방법

본 국제 출원은 35 USC 119 (e) 및 120에 따라 2017년 8월 9일자로 출원되고 명칭이 "MALWARE HOST NETFLOW ANALYSIS SYSTEM AND METHOD"인 미국 특허 출원 일련번호 15/673,341에 대한 이익을 주장하며, 그 전체가 본 명세서에 참조로 포함된다.

본 개시는 일반적으로 넷플로우 분석 및 머신 러닝을 사용하여 멀웨어 호스트의 행동을 결정하기 위한 시스템 및 방법에 관한 것이다.

해커 자신부터 감염된 좀비 작업자에 이르기까지 악성 행위자가 글로벌 인터넷상에 존재한다. 이러한 악성 행위자를 찾아서 블랙리스트에 올리는 것은 (그리고 종종 사이트를 중단시키는 것과 같은 다른 조치들도) 회사와 개인 사용자를 보다 안전하게 유지하는 데 중요하다. 2016년 말까지 글로벌 인터넷은 35억 명 이상의 사용자, 11억 개의 호스트, 10억 개 이상의 웹 사이트를 가진 것으로 추산되었고, 그것의 트래픽은 연간 1.1 제타 바이트에 달했다. 글로벌 인터넷의 호스트, 웹 페이지 수, 트래픽 양 및 가능한 패킷 전송 경로는 지속적으로 증가하고 있다. 이러한 지속적인 성장과 동시에 해당 데이터를 분석할 수 있는 보안 전문가의 수는 매우 제한적이다. 불행히도, 현재 상당한 양의 인터넷 보안 관련 작업은 여전히 인간의 인지와 전문가의 판단에 의존하며, 이는 그것을 확장 불가능하게 하고 글로벌 인터넷의 지속적인 성장을 계속 유지할 수 없게 한다.

블랙리스트를 제공하는 것 외에도 (블랙리스트, 사용자 보고서, URL 간의 컨텍스트 관계, 수동 DNS 데이터 및 멀웨어가 연결하는 IP 주소, 허니팟, 크롤러로부터) 평판 스코어를 계산하는 많은 서비스가 있다. 또한, 또는 일부 시스템은 어떤 IP 주소에 먼저 초점을 맞출지를 결정하는 다른 방법을 가지고 있지만 대부분 사소한 것이 아니라면 그것들을 선택하는 방법을 밝히지 않는다(예를 들어, 허니팟을 공격한 IP 관찰).

악성 행위자를 식별하는 알려진 방법과 시스템은 전체 넷플로우를 분석할 만큼 충분히 확장될 수 없으며 따라서 일부 집중 영역을 선택하는 것은 이러한 접근 방식의 능력을 엄격하게 제한한다. 대부분의 알려진 방법은(비록 오 탐지가 이따금 나타나더라도) 오탐지(false positive)를 피하기 위해 합리적인 수준의 신뢰도를 갖는 데이터를 찾는 데 우선 순위를 둔다. 또한 인터넷 범죄의 혁신(새로운 유형의 악성 활동, 새로운 공격 도구, 봇넷을 형성하는 데 사용되는 새로운 하드웨어 유형 등)은 그 주소가 악성인 것이라고 확인하는 것을 매우 느린 프로세스 및 오류가 발생하기 쉬운 프로세스로 만든다. 또한 과거에는 처리 능력이 부족하여 머신 러닝 기술로 넷플로우를 수집하고 성공적으로 분석할 수 없었다.

도 1은 넷플로우 및 머신 러닝을 사용하여 멀웨어 호스트 행동을 결정하기 위한 시스템의 예를 도시한다.
도 2는 넷플로우 및 머신 러닝을 사용하여 멀웨어 호스트 행동을 결정하는 프로세스를 도시한다.
도 3은 화이트리스트 생성 방법을 도시한다.
도 4는 도 3의 방법을 사용하여 화이트리스트를 생성하는데 사용될 수 있는 의사 코드(pseudocode)의 예를 도시한다.
도 5는 모델 검증 방법을 도시한다.
도 6은 모델을 검증하는 데 사용될 수 있는 의사 코드의 예를 도시한다.

본 개시는 특히 인터넷과 같은 광역 네트워크 상에 구현된 멀웨어 호스트 행동 결정 시스템 및 방법에 적용 가능하며, 이러한 맥락에서 본 개시가 설명될 것이다. 그러나, 시스템 및 방법은 이하에 개시된 바와 다른 방식으로 구현될 수 있고 멀웨어를 탐지하기 위해 호스트 행동을 결정할 수 있는 것이 바람직한 다른 네트워크에 대한 호스트 행동을 결정하는 데 사용될 수 있기 때문에 더 큰 유용성을 갖는다는 것이 이해될 것이다. 이하에 제시된 예에서, 시스템 및 방법은 서플라이체인 보안이 모니터링되는 서플라이체인에 대한 보안 서비스를 관리하는데 사용될 수 있다. 그러나, 당업자는 개시된 시스템 및 방법이 멀웨어를 검출하기 위해 호스트 행동을 결정할 수 있는 임의의 시스템, 네트워크 등에 사용될 수 있음을 이해한다. 넷플로우 데이터 및 그에 따른 아래에 설명된 악성 호스트 탐지 시스템 및 프로세스는 자동차 산업 또는 반도체 산업과 같은 서로 다른 산업, 또는 디트로이트 또는 캘리포니아와 같은 서로 다른 지리적 영역으로부터의 데이터를 사용할 수 있음을 이해해야 한다.

도 1은 넷플로우 및 머신 러닝을 사용하여 멀웨어 호스트 행동을 결정하기 위한 시스템(100)의 예를 도시한다. 시스템은 다양한 유선 또는 무선 통신 경로에 의해 함께 연결된 하나 이상의 요소를 가질 수 있다. 예를 들어, 시스템은 도 1에 도시된 바와 같이 서로 연결된 광역 네트워크 요소(102), 네트워크 플로우(넷플로우) 모니터링 데이터 수집기(104), 작업자 요소(106), 관리 요소(108) 및 선택적인 넷플로우 저장부 요소(110)를 가질 수 있다. 일반적으로, 인터넷일 수 있는 광역 네트워크 요소(102)는 멀웨어를 검출하기 위해 시스템에 의해 행동이 결정되는 복수의 호스트(도 1에 도시되지 않은 컴퓨터 시스템)에 추가로 접속하는 하나 이상의 네트워크 라우터(102A, …, 102N)를 더 포함할 수 있다. 광역 네트워크 요소(102)는 유선 또는 무선 네트워크일 수 있는 하나 이상의 서브 네트워크, 컴퓨터 네트워크, 호스트가 연결된 통신 경로 등을 포함할 수 있다.

네트워크 플로우(넷플로우) 모니터링 데이터 수집기(104)는 광역 네트워크(102)에 연결되고, 광역 네트워크(102)에 연결되거나 접속된 다양한 호스트들로부터 넷플로우 데이터를 수집할 수 있다. 넷플로우 모니터링 데이터 수집기(104)는 또한 호스트에 대한 알려진 수동 도메인 네임 서비스(DNS) 데이터를 수집할 수 있다. 넷플로우 모니터링 데이터 수집기(104)는 하드웨어 또는 소프트웨어로 구현될 수 있다. 소프트웨어로 구현될 때, 넷플로우 모니터링 데이터 수집기(104)는 컴퓨터 및 프로세서가 넷플로우 모니터링 데이터 수집기(104)의 동작을 수행하도록 구성되는 것과 같은 메모리 및 프로세서를 갖는 컴퓨터에 의해 저장되고 실행될 수 있는 복수의 컴퓨터 코드/명령 라인일 수 있다. 하드웨어로 구현될 때, 넷플로우 모니터링 데이터 수집기(104)는 넷플로우 모니터링 데이터 수집기(104)를 동작 및 동작을 수행하는 마이크로 컨트롤러, 프로그래머블 로직 디바이스, ASIC 등과 같은 하드웨어 디바이스일 수 있다.

넷플로우 모니터링 데이터 수집기(104)는 광역 네트워크(102)에 연결된 다양한 호스트에 대한 넷플로우 데이터를 수집할 수 있으며 각각의 넷플로우 데이터는 특정 호스트와 발생하는 상호 작용을 위해 적어도 소스 인터넷 프로토콜(IP) 주소 및 목적지 IP 주소를 포함할 수 있는 데이터 레코드를 포함할 수 있다. 총 넷플로우 데이터 양이 천문학적이기 때문에 이하에 기술된 프로세스에 사용된 넷플로우 데이터는 용량이 감소될 수 있다. 예를 들어, 넷플로우 데이터는 (아래에 설명된 바와 같이) 기간에 의해 제한될 수 있거나, 특정 산업(특정 산업에서 악성 호스트를 찾는)으로 제한되거나 특정 지리적 영역으로 제한될 수 있다. 특정 호스트 상호 작용을 위한 넷플로우의 매우 간단한 예는 다음과 같다.

호스트와 다른 컴퓨터 간의 특정 상호 작용에 대한 넷플로우 레코드에는 특정 트래픽 플로우에 대한 대량의 데이터가 포함될 수 있으며 시스템은 넷플로우 데이터에서 다음 특징을 마이닝 할 수 있다.

ts-시작 시간

te-종료 시간

td-지속 시간

sa-소스 주소

da-목적지 주소

sp-소스 포트

dp-목적지 포트

sas-소스 AS 번호

das-목적지 AS 번호

pr-프로토콜

flg-TCP 플래그

ipkt-입력 패킷

in-입력 바이트

out-출력 바이트

pps-초당 패킷

bps-초당 바이트

bpp-패킷당 바이트

상기 특징들 각각은 데이터 수집기(104)에 의해 수집된 넷플로우 데이터로부터 추출될 수 있는 알려진 넷플로우 데이터 요소이다. 시스템의 저장부(110)는 시스템에 의해 사용되는 넷플로우 데이터 및 수동 DNS 데이터를 저장할 수 있다. 저장부(110)는 하드웨어 저장 디바이스 또는 소프트웨어 기반 저장 시스템일 수 있다.

관리자 요소(108) 및 작업자 요소(106)는 넷플로우 데이터를 사용하여 시스템의 처리(도 2에 도시됨)를 수행하여 멀웨어를 탐지하기 위한 호스트의 행동을 결정할 수 있다. 관리자 요소(108) 및 관리자 요소(108)의 일부일 수 있는 웹/애플리케이션(108A) 및 데이터베이스(108B) 각각은 하드웨어 또는 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 관리자 요소(108)가 소프트웨어로 구현될 때, 관리자 요소(108)는 컴퓨터 시스템 및/또는 프로세서가 아래에 설명된 바와 같이 시스템의 동작을 수행하기 위해 구성되도록, 관리자 요소(108)를 호스팅하는 컴퓨터 시스템의 메모리에 저장되고 컴퓨터 시스템의 프로세서에 의해 실행될 수 있는 복수 라인의 컴퓨터 코드/명령을 가질 수 있다. 관리자 요소(108) 또는 서브 요소(108A, 108B)가 하드웨어로 구현될 때, 관리자 요소(108)는 아래 설명된 바와 같이 시스템을 운영하고 작동을 수행하는 마이크로 컨트롤러, ASIC, 프로그래머블 로직 디바이스 등의 하드웨어 디바이스일 수 있다. 관리자 요소(108)는 작업자 요소(106)의 넷플로우 마이닝, 리포팅(reporting) 및 모니터링을 수행하고, 시스템의 전체 처리를 관리하고, 그래픽 사용자 인터페이스 또는 데이터와 같은 처리의 결과를 사용자 또는 다른 시스템에 전달할 수 있다. 웹(108A)은 작업자의 작업 스케줄링을 위한 그래픽 인터페이스를 생성한다. 저장부(108B)는 시스템에 의해 생성된 모델 결과 및 다른 데이터, 사용자 정보 및 데이터 및 작업 설명 및 시스템에 의해 생성되거나 필요할 수 있는 다른 데이터를 저장할 수 있다.

작업자 요소(106)는 관리자 요소(108)에 연결되며, 관리자 요소(108)의 지시/관리하에 시스템의 처리 작업을 수행하는 하나 이상의 작업자 요소(106A, …, 106N)를 더 가질 수 있다. 도 1에 도시된 바와 같이, 관리자 요소(108)는 처리 작업을 작업자(106A-106N)에게 전달하고 작업자는 결과를 관리자 요소(108)로 다시 전달할 수 있다. 각각의 작업자(106A-106N)는 예를 들어 스레드일 수 있다. 작업자 요소(106) 및 각각의 작업자 요소(108A-108N)는 하드웨어 또는 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 작업자 요소(106)(또는 각 작업자(106A-106N))가 소프트웨어로 구현될 때, 컴퓨터 시스템 및/또는 프로세서가 아래에 설명된 바와 같이 시스템의 동작을 수행하기 위해 구성되도록, 작업자 요소(106)를 호스팅하는 컴퓨터 시스템의 메모리에 저장되고 컴퓨터 시스템의 프로세서에 의해 실행될 수 있는 복수 라인의 컴퓨터 코드/명령을 가질 수 있다. 작업자 요소(106) 또는 서브 요소(106A, …, 106N)가 하드웨어로 구현될 때, 작업자 요소(106)는 아래 설명된 바와 같이 시스템을 운영하고 작동을 수행하는 마이크로 컨트롤러, ASIC, 프로그래머블 로직 디바이스 등의 하드웨어 디바이스일 수 있다. 일 실시예에서, 관리 요소(108)와 작업자 요소(106)의 조합은 관리 요소(108)에 의해 제어되는 메시지 큐(queue) 아키텍처를 사용할 수 있으며, 여기서 각 작업자는 메시지 큐로부터 작업을 획득하여 처리 작업을 수행한다. 또한, 일 실시예에서, 관리자 및 작업자 요소(106, 108)는 체인을 사용하여 작업을 완료하기 위해 각 작업자를 효율적으로 사용하도록 동작할 수 있다.

시스템이 수행하는 작업 중 하나는 넷플로우와 관련된 호스트의 특징에 대해 넷플로우 데이터를 마이닝하는 것이다. 특히, 넷플로우 데이터의 IP 주소에 대응하는 행동을 정량화하기 위해, 시스템 및 방법은 넷플로우 데이터를 마이닝하고 넷플로우 특징에 기초하여 통계치를 계산하는데, 그 예는 위에서 설명되었다. 통계치를 계산하기 위해, 시스템 및 방법은 모든 플로우를 목적지 및/또는 소스 주소로 그룹화 할 수 있다. 결과 특징 세트의 예는 다음으로 구성될 수 있다.

소스 주소별로 그룹화 된 통계 - 접미사 _sa

목적지 주소별로 그룹화 된 통계 - 접미사 _da

모든 _sa 통계를 _da 통계로 나눠서 주어진 비율 - 접미사 _ratio

그리고 통계치는 다음과 같다:

연결(레코딩 시간에 의해 정규화된 모든 연결),

이웃(고유한 주소로부터/주소에 대한 연결)

td: 평균, 표준 편차, 최대값

sp: nunique(고유 수)

dp: nunique

pr: nunique

flg: nunique

pr: nunique

flg: nunique

ipkt: 평균, 표준 편차, 최대값, 최소값

in: 평균, 중앙값, 표준 편차, 최대값, 최소값

out: 평균, 중앙값, 표준 편차, 최대값, 최소값

pps: 평균, 표준 편차, 최대값

bps: 평균, 표준 편차, 최대값

bpp: 평균, 중앙값, 표준 편차, 최대값, 최소값

pr의 각 값의 경우: 평균

선별한 flg 값의 경우: 평균

예를 들어, 하나의 예시적인 데이터 세트를 갖는 일 실시예에서, 시스템 및 방법은 시스템이 총 138개의 특징을 갖도록 _sa, _da 및 _ratio에 대한 46 개의 통계치를 마이닝/수집할 수 있다. 시스템 및 방법이 다양한 상이한 데이터와 함께 사용될 수 있고 유사하거나 상이한 특징 세트를 생성할 수 있기 때문에 상기 특징 및 통계치 세트는 단지 예시일 뿐이다.

도 2는 넷플로우 및 머신 러닝을 사용하여 멀웨어 호스트 행동을 결정하기 위한 프로세스(200)를 도시한다. 도 2에 도시된 프로세스는 도 1의 관리 요소(108) 및 작업자 요소(106)에 의해 구현될 수 있지만, 본 개시의 범위 내에 있는 다른 방식으로 또는 다른 요소에 의해 구현될 수도 있다. 프로세스(200)는 탐지 프로세스(202) 및 훈련 프로세스(204)를 포함할 수 있으며, 여기서 탐지 프로세스(202)는 호스트 행동 및 멀웨어 가능성에 관한 하나 이상의 예측(222)을 생성하기 위해 마이닝된 넷플로우 데이터를 사용하고 머신 러닝 프로세싱을 수행한다. 훈련 프로세스(204)는 수행되는 분석을 위한 데이터를 준비하고 후술하는 바와 같이 머신 러닝 프로세스를 훈련할 수 있다.

훈련 프로세스의 일부로서, 시스템은 하나 이상의 블랙리스트(206)를 생성/검색하고 하나 이상의 화이트리스트(208)를 생성 또는 검색할 수 있다. 블랙리스트는 각 호스트/IP 주소가 멀웨어를 호스팅/배포하거나 악성 활동을 수행하는 것으로 알려진 호스트/IP 주소의 목록이다. 블랙리스트의 예는 다음과 같다:

1.1.1.7

1.1.1.2

1.1.1.3

화이트리스트는 각 호스트/IP 주소가 멀웨어를 호스팅/배포하거나 악성 활동을 수행하지 않는 것으로 알려진 호스트/IP 주소의 목록이다. 화이트리스트의 예는 다음과 같다:

1.1.1.4

1.1.1.5

1.1.1.6

하나 이상의 블랙리스트는 상업용 및 커뮤니티 중심의 여러 위협 소스에서 수집한 데이터에 기반할 수 있다. 시스템은 상업적으로 이용 가능한 Alexa에서 가장 인기있는 사이트를 검색할 수 있다(리스트의 위치와 관련된 교육 세트에 포함될 가능성이 있음(더 인기가 많을수록 포함될 기회가 더 많음)) Alexa에서 검색된 화이트리스트에 대한 자세한 내용은 http://www.alexa.com/siteinfo에서 참조할 수 있으며 여기에 포함된다. 실험 및 일부 연구에 따르면 네트워크 트래픽의 대부분(75% 이상)이 양성(benign)(예를 들어, 악성이 아님)으로 분류되기 때문에 방법은 자체 화이트리스트(자체 생성 화이트리스트)를 생성할 수도 있다. 또한 데이터는 인터넷을 통한 대부분의 랜덤 IP 주소가 양성이며 외부 화이트리스트에 없는 경우에도 훈련 세트에 포함될 수 있음을 나타낸다. 일부 악성 IP 주소가 통과할 수 있으므로, 방법은 보다 명백한 악성 서버를 제외하기 위해 "회색 화이트리스트"를 필터링 하는 이전의 모델 반복을 사용할 수 있다. 화이트리스트 생성에 대한 추가 세부 사항은 아래의 도 3을 참조하여 보다 상세히 설명된다.

그 후, 훈련 프로세스는 넷플로우 데이터를 검색(210)하고 화이트리스트(208) 및 블랙리스트(206) 및 넷플로우 데이터를 사용하여, 화이트리스트 및 블랙리스트에 기초하여 악성인 것으로 알려진 넷플로우 데이터의 플로우 세트 및 양성인 것으로 알려진 넷플로우 데이터의 플로우 세트를 생성한다. 그 후, 프로세스는 예를 들어, 위에서 설명된 특징들을 사용한 특징 추출(214) 및 전술한 바와 같은 넷플로우 데이터를 사용한 통계치 계산을 수행할 수 있다. 특징들은 각각의 호스트에 대한 플로우(들)을 집계함으로써 얻어질 수 있다. 일 예에서, 통계치는 다수의 플로우, 프로토콜(들), 플래그(들), 포트(들), 자율 시스템, 송신/수신된 다수의 패키지, 플로우의 바이트 크기 및/또는 서비스 타입에 기초할 수 있다. 일례에서, 상기 특징은 유입 및 유출 플로우에 대해 개별적으로 계산될 수 있으며, 획득된 값 쌍의 비율이 또한 특징으로서 사용된다.

　생성된 통계치, 상기 기술된 가공되지 않은(raw) 넷플로우 통계치 및 추출된 특징은 호스트의 행동에 대한 예측(222)을 생성하기 위한 모델과 함께 머신 러닝 프로세스 분류기(220)에 의해 사용될 수 있다. 시스템에서 출력된 예측의 예는 다음과 같다.

2.1.1.2,0.9975

2.1.1.3,0.1326

2.1.1.4,0.0004

2.1.1.5,0.5779

2.1.1.6,0.0378

2.1.1.7,0.8931

머신 러닝 프로세스 분류기는 분류기 프로세스(220)의 모델 및 방법을 훈련시키기 위해 공지된 머신 러닝 훈련 프로세스(218)가 수행될 수 있도록, 훈련 데이터 세트 및 검증 데이터 세트를 포함하는 데이터 세트로 분할된 특징으로부터의 입력으로 훈련될 수 있다(216).

개시된 방법(200)은 머신 러닝 분류 모델을 이용하는 분류기 프로세스(220)를 사용하여 악성 호스트와 양성 호스트를 구별하고, 그에 따라 각 호스트의 행동 및 이에 따른 넷플로우, 생성된 화이트리스트, 및 호스트 행동 결정 및 악성 호스트 식별과 관련하여 위에서 설명한 문제에 대한 기술적 솔루션을 제공하는 머신 러닝을 사용하여 호스트가 멀웨어를 저장/배포할 가능성을 식별/결정할 수 있다. 악성 호스트의 예로는 다른 호스트를 멀웨어로 감염 시키거나 봇넷을 다른 호스트로 확산시키는 CnC(명령 및 제어) 서버가 있다. 그런 다음 봇넷은 스팸, DDoS(서비스 거부) 공격 또는 무차별 대입 공격을 수행할 수 있다. 반대로 양성 호스트는 악성 호스트의 동작을 수행하지 않는 호스트이다. 이 기술 솔루션은 외부 블랙리스트와 생성되는 화이트리스트, 넷플로우 데이터 및 머신 러닝을 조합하여 제공된다. 시스템 및 방법은 다양한 상이한 머신 러닝 알고리즘 및 모델을 사용하여 구현될 수 있다. 예를 들어, 이 방법은 알려진 랜덤 포레스트(random forest) 머신 학습 분류기를 사용할 수 있다. 그러나, 방법(200)은 또한 결정 트리, 통계적 분류기, 인공 신경 네트워크, 지도 학습(supervised learning), 비지도 학습(unsupervised learning), 클러스터링 알고리즘 등을 사용할 수 있다. 훈련된 모델은 네트워크 활동의 스코어를 매기거나 서로 다른 유형의 사이버 위협들 사이를 구별하는 데 사용될 수 있다. 모델은 도 5를 참조하여 아래에 설명된 바로 검증될 수 있다.

도 2의 방법(200) 및 도 1에 도시된 시스템(100)에서, 호스트 행동의 결정에 사용되는 데이터(히스토리칼 플로우, 추출된 화이트리스트 및 블랙리스트, 계산된 특징)는 컴퓨터 데이터 저장부에 파일 구조(예를 들어, 이진 파일 또는 CSV)로 유지될 수 있다. 저장부는 또한 도 2의 방법(200)의 프로세스를 수행하는 데 사용될 수 있는, 도 1에 도시된 요소를 구현하는 데 사용되는 컴퓨터 코드를 저장할 수 있다.

방법(200)은 악성 호스트 및 양성 호스트의 결정의 출력을 생성할 수 있다. 방법(200)은 예를 들어, 스코어를 출력할 수 있으며, 이는 호스트의 IP 주소를 정렬하여 전문가가 체크/확인하는 데 사용될 수 있다. 스코어는 각 호스트의 각 IP 주소에 대한 범위(0, 1)의 단일 숫자일 수 있다. 위협 분류에 대한 추가 방법을 사용하여 악성 스코어가 높은 것에 대해 가장 가능성이 높은 이유를 제안할 수 있다. 추후 이러한 데이터는 네트워크 및 보안 운영자를 위한 조치 제안 또는 도메인 전문가가 수행하는 심층 조사에 사용될 수 있다.

도 3은 화이트리스트 생성을 위한 방법(300)을 도시한다. 일 실시예에서, 화이트리스트 생성은 도 1의 시스템의 작업자 요소(206) 및 관리 요소(208)에 의해 수행될 수 있다. 방법에서, 넷플로우 데이터(302), IP 주소의 공개 소스 화이트리스트(304) 및 기간(306)이 방법에 입력될 수 있다. 예를 들어, 기간은 넷플로우에 대한 3-6 시간의 윈도우일 수 있다. 기간 데이터를 사용하여, 방법은(넷플로우 데이터의 트래픽 날짜에 기초하여) 하루 동안 IP 주소를 추출(308)하고, 주어진 주파수 범위로부터 IP 주소를 획득(310)한 다음 IP 주소의 주어진 수를 샘플링(312) 할 수 있다. 그 후, 넷플로우 데이터 및 화이트리스트로부터의 샘플 IP 주소를 사용하여, 방법은 기간과 함께 최소 연결 임계값을 만족하는 임의의 IP 주소를 검색/식별할 수 있다(314). 일 예에서, 임계값은 조정될 수 있지만 임계값은 1-3 시간 윈도우 동안 넷플로우에 등록된 20개의 인바운드 및 20개의 아웃 바운드 연결일 수 있다. 이어서, 방법은 특징을 생성할 수 있다(316). 도 4는 도 3의 방법을 사용하여 화이트리스트를 생성하는데 사용될 수 있는 의사 코드(pseudocode)의 예를 도시한다. 도 3의 방법(300)에 의해 생성된 화이트리스트는 도 2의 방법(200)의 일부로서 사용될 수 있다.

도 5는 모델 검증을 위한 방법(500)을 도시하고 도 6은 모델을 검증하기 위해 사용될 수 있는 의사 코드의 예를 도시한다. 일 실시예에서, 모델 검증은 도 1의 시스템의 작업자 요소(206) 및 관리 요소(208)에 의해 수행될 수 있다. 방법에서, 모델(502), 넷플로우 데이터 세트(504) 및 검증 기간(506)이 방법에 입력될 수 있다. 넷플로우 데이터 및 검증 기간을 사용하여, 방법은 하루 동안의 넷플로우 데이터로부터 IP 주소를 추출(508)하고 미리 결정된 기준에 따라 활성 IP 주소를 얻을 수 있다(510). 예를 들어, 미리 정해진 기준은 전술한 임계값을 초과하는 수일 수 있다. 그 후, 방법은 전술한 바와 같이 검증 기간을 가지고 최소 연결 임계값을 만족하는 임의의 IP 주소를 검색/식별할 수 있다(512). 이 방법은 넷플로우 데이터, 검증 기간 및 기준을 만족하는 IP 주소를 사용하여 특징을 생성(514)할 수 있다. 방법은 또한 IP 주소에 대한 공개 정보를 얻을 수 있다(518). 생성된 특징 및 모델(502)을 사용하여, 방법은 IP 주소에 대한 예측을 할 수 있다(516). 예측 및 공개 정보는 예측을 스코어링(520)하고 모델에 의한 예측을 공개 정보와 비교함으로써 모델의 유효성을 결정하는데 사용될 수 있다. 위의 과정에서 시스템은 외부 소스를 사용하여 모델을 확인하고 검증하고 IP([IP, 스코어] 쌍)에 대해 생성된 스코어를 외부 블랙리스트의 근거와 비교할 수 있다.

설명을 위한 전술한 기술은 특정 실시예를 참조하여 설명되었다. 그러나, 상기 예시적인 논의는 본 개시를 개시된 정확한 형태로 빠짐없이 하거나 제한하려는 것이 아니다. 상기 교시에 비추어 많은 수정 및 변형이 가능하다. 실시예는 본 개시의 원리 및 그 실제 응용을 가장 잘 설명하기 위해 선택되고 설명되며, 따라서 당업자는 본 개시 및 다양한 실시예를, 고려된 특정 용도에 적합할 수 있도록 다양하게 변형하면서 최대한 활용할 수 있다.

본 명세서에 개시된 시스템 및 방법은 하나 이상의 컴포넌트, 시스템, 서버, 기기, 다른 서브 컴포넌트를 통해 구현되거나 이러한 요소들 사이에 분산될 수 있다. 시스템으로서 구현될 때, 이러한 시스템은 특히 범용 컴퓨터에서 발견되는, 소프트웨어 모듈, 범용 CPU, RAM 등과 같은 구성 요소를 포함 및/또는 수반할 수 있다. 혁신이 서버에 존재하는 구현에서, 이러한 서버는 범용 컴퓨터에서 발견되는 것과 같은 CPU, RAM 등과 같은 구성 요소를 포함하거나 수반할 수 있다.

추가적으로, 본 명세서의 시스템 및 방법은 상술한 것 이상으로 다른 또는 완전히 상이한 소프트웨어, 하드웨어 및/또는 펌웨어 구성 요소를 갖는 구현을 통해 달성될 수 있다. 이러한 다른 구성 요소(예를 들어, 소프트웨어, 처리 구성 요소 등) 및 / 또는 본 발명과 관련되거나 이를 구현하는 컴퓨터 판독 가능 매체와 관련하여, 예를 들어, 본 명세서의 혁신의 양태는 다수의 범용 또는 특수 목적 컴퓨팅 시스템 또는 구성에 따라 구현될 수 있다. 본 명세서의 혁신과 함께 사용하기에 적합할 수 있는 다양한 예시적인 컴퓨팅 시스템, 환경 및/또는 구성은 개인용 컴퓨터에 포함되거나 개인용 컴퓨터에 내장된 소프트웨어 또는 기타 구성 요소, 라우팅/연결 구성 요소와 같은 서버 또는 서버 컴퓨팅 디바이스, 휴대용 또는 랩탑 디바이스, 멀티 프로세서 시스템, 마이크로 프로세서 기반 시스템, 셋톱 박스, 소비자 전자 디바이스, 네트워크 PC, 기타 기존 컴퓨터 플랫폼, 하나 이상의 상기 시스템 또는 디바이스를 포함하는 분산 컴퓨팅 환경 등을 포함할 수 있지만, 이에 제한되지는 않는다.

일부 예에서, 예를 들어, 시스템 및 방법의 양태는 이러한 구성 요소 또는 회로와 관련하여 실행되는 프로그램 모듈을 포함하는 로직 및/또는 로직 명령을 통해 또는 이를 수행하여 달성될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 수행하거나 본 명세서에서 특정 명령을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함할 수 있다. 본 발명은 또한 회로가 통신 버스, 회로 또는 링크를 통해 연결되는 분산 소프트웨어, 컴퓨터 또는 회로 설정의 맥락에서 실시될 수 있다. 분산 설정에서 제어/명령은 메모리 저장 디바이스를 포함한 로컬 및 원격 컴퓨터 저장 매체 양쪽에서 발생할 수 있다.

본 명세서의 소프트웨어, 회로 및 구성 요소는 또한 하나 이상의 유형의 컴퓨터 판독 가능 매체를 포함 및/또는 이용할 수 있다. 컴퓨터 판독 가능 매체는 그러한 회로 및/또는 컴퓨팅 구성 요소에 내재되거나, 그와 관련되거나 또는 액세스 될 수 있는 임의의 이용 가능한 매체일 수 있다. 예로서, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보를 저장하기 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비 분리형 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, 디지털 다목적 디스크(DVD) 또는 기타 광학 저장 디바이스, 자기 테이프, 자기 디스크 저장 디바이스 또는 기타 자기 저장 디바이스 또는 원하는 정보를 저장하기 위해 사용될 수 있고 컴퓨팅 컴포넌트에 의해 액세스 될 수 있는 임의의 다른 매체를 포함하지만 이에 제한되지 않는다. 통신 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 및/또는 다른 구성 요소를 포함할 수 있다. 또한, 통신 매체는 유선 네트워크 또는 직접 유선 접속과 같은 유선 매체를 포함할 수 있지만, 본 명세서에서 이러한 유형의 매체는 일시적 매체를 포함하지 않는다. 상기 중 임의의 조합이 또한 컴퓨터 판독 가능 매체의 범위 내에 포함된다.

본 설명에서, 구성 요소, 모듈, 디바이스 등의 용어는 다양한 방식으로 구현될 수 있는 임의의 유형의 논리적 또는 기능적 소프트웨어 요소, 회로, 블록 및/또는 프로세스를 지칭할 수 있다. 예를 들어, 다양한 회로 및/또는 블록의 기능은 임의의 다른 수의 모듈로 서로 조합될 수 있다. 각 모듈은 유형(tangible)의 메모리(예를 들어, 랜덤 액세스 메모리, 읽기 전용 메모리, CD-ROM 메모리, 하드 디스크 드라이브 등)에 저장된 본 명세서의 혁신 기능을 구현하기 위해 중앙 처리 디바이스에 의해 판독되는 소프트웨어 프로그램으로 구현될 수도 있다. 또는, 모듈은 반송파를 통해 범용 컴퓨터 또는 프로세싱/그래픽 하드웨어로 전송되는 프로그래밍 명령을 포함할 수 있다. 또한, 모듈은 본 명세서의 혁신에 의해 포괄되는 기능을 구현하는 하드웨어 논리 회로로서 구현될 수 있다. 마지막으로 특수 목적 명령어(SIMD 명령어), 필드 프로그래머블 로직 어레이 또는 원하는 수준의 성능 및 비용을 제공하는 이들의 임의의 혼합을 사용하여 모듈을 구현할 수 있다.

본 명세서에 개시된 바와 같이, 본 개시 내용에 따른 특징은 컴퓨터 하드웨어, 소프트웨어 및/또는 펌웨어를 통해 구현될 수 있다. 예를 들어, 본 명세서에 개시된 시스템 및 방법은 예를 들어 데이터베이스, 디지털 전자 회로, 펌웨어, 소프트웨어, 또는 이들의 조합을 포함하는 컴퓨터와 같은 데이터 프로세서를 포함하는 다양한 형태로 구현될 수 있다. 또한, 개시된 구현들 중 일부는 특정 하드웨어 구성 요소를 기술하지만, 본 명세서의 혁신에 따른 시스템 및 방법은 하드웨어, 소프트웨어 및/또는 펌웨어의 임의의 조합으로 구현될 수 있다. 또한, 본 명세서에서의 상기 언급된 특징 및 다른 양태 및 원리는 다양한 환경에서 구현될 수 있다. 이러한 환경 및 관련 애플리케이션은 본 발명에 따른 다양한 루틴, 프로세스 및/또는 동작을 수행하기 위해 특별히 구성될 수 있거나 또는 필요한 기능을 제공하기 위해 코드에 의해 선택적으로 활성화 또는 재구성되는 범용 컴퓨터 또는 컴퓨팅 플랫폼을 포함할 수 있다. 본 명세서에 개시된 프로세스는 본질적으로 임의의 특정 컴퓨터, 네트워크, 아키텍처, 환경 또는 다른 장치와 관련이 없으며, 하드웨어, 소프트웨어 및/또는 펌웨어의 적절한 조합에 의해 구현될 수 있다. 예를 들어, 다양한 범용 기계가 본 발명의 교시에 따라 작성된 프로그램과 함께 사용될 수 있거나, 필요한 방법 및 기술을 수행하기 위해 특수 장치 또는 시스템을 구성하는 것이 더 편리할 수 있다.

로직과 같은, 본 명세서에 기술된 방법 및 시스템의 양태는 또한, 어플리케이션 별 집적 회로뿐 아니라, 필드 프로그래머블 게이트 어레이("FPGAs"), 프로그래머블 어레이 로직("PAL") 디바이스, 전기적으로 프로그램 가능한 로직 및 메모리 디바이스 및 표준 셀 기반 디바이스와 같은 프로그래머블 로직 디바이스("PLD")를 포함하는, 다양한 회로 중 어느 하나에 프로그래밍 된 기능으로서 구현될 수 있다. 양태를 구현할 수 있는 다른 가능성으로는 메모리 디바이스, 메모리가 있는 마이크로 컨트롤러(예를 들어, EEPROM), 내장 마이크로 프로세서, 펌웨어, 소프트웨어 등을 포함한다. 또한, 양태들은 소프트웨어 기반 회로 에뮬레이션, 이산 로직(순차 및 조합), 커스텀 디바이스, 퍼지(신경) 로직, 양자 디바이스 및 상기 디바이스 타입 중 임의의 디바이스의 하이브리드를 갖는 마이크로 프로세서에서 구현될 수 있다. 기본 디바이스 기술은 다양한 구성 요소 유형, 예를 들어, 상보성 금속 산화막 반도체("CMOS")와 같은 금속 산화막 반도체 전계 효과 트랜지스터("MOSFET") 기술, 이미터-결합 로직("ECL")과 같은 바이폴라 기술, 중합체 기술(예를 들어, 실리콘-공액 중합체) 및 금속-공액 중합체-금속 구조), 아날로그 및 디지털의 혼합 등으로 제공될 수 있다.

본 명세서에 개시된 다양한 로직 및/또는 기능은, 동작, 레지스터 전송, 로직 구성 요소 및/또는 기타 특성 측면에서, 다양한 기계 판독 가능 또는 컴퓨터 판독 가능 매체에 구현된 데이터 및/또는 명령어로서 하드웨어, 펌웨어 및/또는 임의의 수의 조합을 사용하여 가능할 수 있음에 유의해야 한다. 이러한 포맷된 데이터 및/또는 명령어가 구현될 수 있는 컴퓨터 판독 가능 매체는 다양한 형태(예를 들어, 광학, 자기 또는 반도체 저장 매체)의 비휘발성 저장 매체를 포함하지만 이에 제한되지 않으며 그러나 일시적인 미디어는 포함되지 않는다. 문맥상 달리 명확하게 요구되지 않는 한, 설명 전체에 걸쳐 "포함하다(comprise)", "포함하는(comprising)"등의 단어는 망라하는(exhaustive) 의미 또는 배타적인 것이 아닌 포괄적 의미로 해석되어야 한다; 즉, "포함하지만 이에 제한되지 않는"의 의미이다. 단수 또는 복수를 사용하는 단어는 각각 복수 또는 단수를 포함한다. 또한, "여기서(herein)", "이하(hereunder)", "위(above)", "아래(below)"및 유사한 도입 단어는 본 출원 전체를 지칭하며 본 출원의 특정 부분을 지칭하지는 않는다. 단어 "또는"이 둘 이상의 아이템의 리스트와 관련하여 사용될 때, 그 단어는 단어의 다음 해석을 모두 포함한다: 리스트의 임의의 아이템, 리스트의 모든 아이템 및 리스트 내의 아이템의 임의의 조합.

본 발명의 현재의 바람직한 특정 구현들이 본 명세서에서 구체적으로 설명되었지만, 여기에 도시되고 설명된 다양한 구현의 변형 및 수정이 본 발명의 사상 및 범위를 벗어나지 않고 이루어질 수 있다는 것이 본 발명이 속하는 기술 분야의 당업자에게는 명백할 것이다. 따라서, 본 발명은 적용 가능한 법규에 의해 요구되는 범위까지만 제한되도록 의도된다.

전술한 내용은 본 발명의 특정 실시예를 참조했지만, 본 실시예의 변경은 본 개시의 원리 및 사상을 벗어나지 않고 이루어질 수 있으며, 그 범위는 첨부된 청구 범위에 의해 정의된다는 것이 당업자에게 이해될 것이다.

Claims

인터넷 프로토콜(IP) 주소를 갖는 호스트가 악성인지 여부를 결정하기 위한 시스템으로서,
프로세서, 메모리 및 복수의 컴퓨터 코드를 갖는 컴퓨터를 포함하고,
상기 컴퓨터는,
넷플로우 데이터 세트-상기 넷플로우 데이터의 각각은 호스트의 소스 인터넷 프로토콜(IP) 주소와 목적지 IP 주소 간의 데이터 트래픽에 대한 데이터, 악성인 하나 이상의 호스트 목록을 포함하는 블랙리스트 및 양성인 하나 이상의 호스트 목록을 포함하는 화이트리스트를 포함함-를 수신하고;
상기 넷플로우 데이터 세트, 블랙리스트 및 화이트리스트로부터 생성된 특징 세트에 분류기 머신 러닝 모델을 적용하고; 그리고,
상기 분류기 머신 러닝 모델을 사용하여 상기 넷플로우 데이터 세트 내의 적어도 하나의 호스트에 대해 상기 호스트가 악성인지 여부에 대한 예측을 생성하도록 구성되는 시스템.
청구항 1에 있어서,
상기 컴퓨터 시스템은 상기 분류기 머신 러닝 모델을 훈련시키도록 추가로 구성되는 시스템.
청구항 1에 있어서,
상기 컴퓨터 시스템은 호스트의 IP 주소에 관한 공개 정보를 사용하여 상기 분류기 머신 러닝 모델을 검증하도록 추가로 구성되는 시스템.
청구항 1에 있어서,
상기 컴퓨터 시스템은 상기 화이트리스트를 생성하도록 추가로 구성되는 시스템.
청구항 1에 있어서,
상기 컴퓨터 시스템은 상기 넷플로우 데이터 세트로부터 하나 이상의 특징을 추출하도록 추가로 구성되는 시스템.
인터넷 프로토콜(IP) 주소를 갖는 호스트가 악성인지 여부를 결정하는 방법으로서,
상기 방법은,
넷플로우 데이터 세트-상기 넷플로우 데이터의 각각은 호스트의 소스 인터넷 프로토콜(IP) 주소와 목적지 IP 주소 간의 데이터 트래픽에 대한 데이터, 악성인 하나 이상의 호스트 목록을 포함하는 블랙리스트 및 양성인 하나 이상의 호스트 목록을 포함하는 화이트리스트를 포함함-를 수신하는 단계;
상기 넷플로우 데이터 세트, 블랙리스트 및 화이트리스트로부터 생성된 특징 세트에 분류기 머신 러닝 모델을 적용하는 단계; 및
상기 분류기 머신 러닝 모델을 사용하여 상기 넷플로우 데이터 세트 내의 적어도 하나의 호스트에 대해 상기 호스트가 악성인지 여부에 대한 예측을 생성하는 단계를 포함하는 방법.
청구항 6에 있어서,
상기 분류기 머신 러닝 모델을 훈련시키는 단계를 추가로 포함하는 방법.
청구항 6에 있어서,
호스트의 IP 주소에 관한 공개 정보를 사용하여 상기 분류기 머신 러닝 모델을 검증하는 단계를 추가로 포함하는 방법.
청구항 6에 있어서,
상기 넷플로우 데이터 세트를 사용하여 상기 화이트리스트를 생성하는 단계를 추가로 포함하는 방법.
청구항 6에 있어서,
상기 넷플로우 데이터 세트로부터 하나 이상의 특징을 추출하는 단계를 추가로 포함하는 방법.
화이트리스트를 생성하는 방법으로서,
넷플로우 데이터 세트-상기 넷플로우 데이터의 각각은 호스트의 소스 인터넷 프로토콜(IP) 주소와 목적지 IP 주소 간의 데이터 트래픽에 대한 데이터 및 IP 주소의 공개 화이트리스트를 포함함-를 수신하는 단계;
상기 공개 화이트리스트로부터 미리 결정된 수의 IP 주소를 추출하는 단계;
상기 넷플로우 데이터 세트로부터 최소 연결 임계값을 만족시키는 호스트에 대한 복수의 IP 주소를 생성하는 단계; 및
화이트리스트를 생성하기 위해 상기 최소 연결 임계값을 만족하는 호스트에 대한 특징 세트를 생성하는 단계를 포함하는 방법.
청구항 11에 있어서,
상기 IP 주소를 추출하는 단계는 기간 내의 IP 주소를 추출하는 단계를 추가로 포함하는 방법.
청구항 12에 있어서,
상기 IP 주소를 추출하는 단계는 하루 동안 호스트에 대한 IP 주소를 추출하는 단계 및 주어진 주파수 범위로부터 IP 주소를 얻는 단계를 추가로 포함하는 방법.
머신 러닝 분류기 모델을 검증하는 방법으로서,
넷플로우 데이터 세트-상기 넷플로우 데이터의 각각은 호스트의 소스 인터넷 프로토콜(IP) 주소와 목적지 IP 주소 간의 데이터 트래픽에 관한 데이터 및 분류기 모델을 포함함-를 수신하는 단계;
상기 넷플로우 데이터 세트로부터 최소 연결 임계값을 만족시키는 호스트에 대한 복수의 IP 주소를 획득하는 단계;
상기 넷플로우 데이터 세트로부터 복수의 특징을 생성하는 단계;
상기 분류기 모델 및 상기 생성된 특징들을 사용하여 악성 IP 주소를 갖는 호스트를 예측하는 단계; 및
상기 분류기 모델을 검증하기 위해 공개 IP 주소 정보를 기반으로 상기 예측된 호스트를 스코어링 하는 단계를 포함하는 방법.
청구항 14에 있어서,
상기 최소 연결 임계값을 만족시키는 호스트에 대한 복수의 IP 주소를 획득하는 단계는 검증 기간 내의 상기 최소 연결 임계값을 만족시키는 호스트에 대한 상기 복수의 IP 주소를 획득하는 단계를 추가로 포함하는 방법.
청구항 15에 있어서,
상기 최소 연결 임계값을 만족하는 호스트에 대한 복수의 IP 주소를 획득하는 단계는 하루 동안 상기 호스트에 대한 IP 주소를 추출하는 단계 및 미리 결정된 기준을 만족시키는 활성 IP 주소를 획득하는 단계를 추가로 포함하는 방법.