KR102471618B1

KR102471618B1 - 넷플로우 기반 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템

Info

Publication number: KR102471618B1
Application number: KR1020210054359A
Authority: KR
Inventors: 이택현; 양동권
Original assignee: 주식회사 엘지유플러스
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2022-11-28
Also published as: KR20220147343A

Abstract

본 발명의 일 실시 예에 따른 대용량 서비스망에의 넷플로우(Netflow) 기반 불법 접속 추적 방법은 네트워크 백본 장치로부터 넷플로우 통신 요약 정보를 수집하는 단계와 상기 수집된 넷플로우 통신 요약 정보를 이용하여 데이터마트(Data Mart)를 생성하는 단계와 상기 생성된 데이터마트에 대한 전처리를 수행하는 단계와 상기 서비스망에 연결된 운영 장비에 대한 실제 서비스 포트 오픈 여부를 점검하여 머신러닝을 위한 학습 모델 라벨링을 수행하는 단계와 학습 모델 별 지도학습 머신러닝을 수행하여 최적의 학습 모델을 결정하는 단계와 상기 결정된 학습 모델에 기반한 실시간 지도학습 머신러닝을 수행하여 상기 운영 장비의 원격 접속 포트 오픈 여부를 분석하는 단계를 포함할 수 있다. 따라서, 본 발명은 대규모 서비스망으로의 불법적인 원격 접속을 효과적으로 분석하여 차단할 수 있는 장점이 있다.

Description

넷플로우 기반 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템{ NETFLOW BASED LARGE-SCALE SERVICE NETWORK ACEESS TRACKING METHOD AND DEVICE AND SYSTEM THEREFOR}

본 발명은 네트워크 보안 기술에 관한 것으로, 보다 상세하게는 넷플로우 데이터 기반의 머신러닝을 통해 대규모 서비스망으로의 불법 접속을 추적하는 기술에 관한 것이다.

인터넷에 노출된 접속 기기의 수가 지속적으로 증가됨에 따라 최근 사이버 위협이 급격히 증가하고 있다.

특히,최근 대규모 서비스망의 경우 제조사 장비 백도어를 통한 불법 외부 접속에 대한 우려가 증가되고 있는 실정이다.

전통적인 네트워크 모니터링 도구로는 특정 구간의 트래픽 볼륨을 실시간으로 분석하고 장비의 CPU 및 메모리 상태 정보를 제공하는 SNMP(Simple Network Management Protocol)가 있다. 하지만, SNMP는 네트워크상의 IP 통신 흐름을 분석할 수 없다.

넷플로우(Netflow)는 시스코(CISCO)사에서 1996년에 개발한 네트워크 프로토콜로서, 라우터 등의 네트워크 장비에서 IP 네트워크 트래픽 정보를 수집하기 위해 사용되었다.

현재는 대다수의 네트워크 장비 공급 업체에서 넷플로우 기능을 제공하고 있다.

RFC 3917에서 플로우(Flow)는 "특정 시간 동안 네트워크상의 지정된 관찰 시점을 지나가는 패킷의 집합"으로 정의하고 있다. 즉, 플로우는 패킷의 출발지 정보와 목적지 정보를 가진 데이터로 정의될 수 있다.

넷플로우 패킷은 네트워크상의 장애 분석 및 DoS 공격, 네트워크 트래픽 동향 등을 분석하기 위해 활용되고 있다.

넷플로우는 다양한 정보 보호 분야에 활용되고 있지만, DDoS 공격 탐지 등 특정 분야 활용에 집중되고 있다.

특히, 넷플로우 기반 이상 트래픽 검출은 단순 통계 기반(IQR) 또는 규칙(Rule) 기반으로 수행되므로 이상 탐지 정확도가 낮은 문제점이 있었다.

종래에는 대용량 서비스망의 운영 장비에 대한 서비스 포트 오픈 여부를 판별하기 위해 NMAP 등의 직접적인 포트 점검 방법에 사용되었으나, 해당 방법은 운영 장비에 과부하를 발생시키거나 장애를 발생시킬 수 있으며 전체 운영 장비 점검을 위해 많은 시간이 소요되는 단점이 있었다.

본 발명의 목적은 유무선망에 연결된 대규모 서비스 운용 장비에 대하여 보안 장치 구축을 위한 별도 투자 없이도 효과적으로 광범위한 보안 모니터링 기능을 수행하는 것이 가능한 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템을 제공하는 것이다.

본 발명의 다른 목적은 넷플로우 데이터에 대한 머신러닝을 통해 원격 접속 포트 오픈 여부를 판별함과 동시에 판별 결과에 대한 시각화를 통하여 이상 접속에 대한 연계 분석이 가능한 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템을 제공하는 것이다.

본 발명의 또 다른 목적은 대용량 넷플로우 데이터를 GPU 데이터베이스를 통해 빠르게 가공하여 빅데이터를 구축하고, 빅데이터에 대한 기계학습 및 기계학습 결과에 대한 시각화를 통해 운영 장비에 대한 이상 접속 감지 및 추적이 가능한 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템을 제공하는 것이다.

본 발명의 또 다른 목적은 보안 사고 감지 시 주요 접속 공격자를 추적할 수 있는 포렌식(Forensic) 기능을 제공함으로써, 대규모 5G/4G 서비스망에서 로그 정보를 가지기 못하여 이상 감지가 어려운 소형 IoT(Internet of Things 기기 및 운영 장비 등의 공격자를 효과적으로 감시 및 추적하고, 추적된 공격자에 대한 소명 자료를 효과적으로 제공하는 것이 가능한 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템을 제공하는 것이다.

본 발명의 또 다른 목적은 운영장비 백도어를 통한 비정상 통신을 넷플로우 통신 데이터 기반으로 검출하거나 추적할 수 있는 보안 감시 체계 구축을 가능하게 하는 것이다.

본 발명의 또 다른 목적은 운영 장비에 대한 불필요한 서비스 오픈 여부를 데이터 기반으로 점검함으로써 원격 접속 해킹을 사전에 예방하는 것이다.

본 발명의 또 다른 목적은 대용량 넷플로우 데이터를 빠르게 가공하여 빅데이터를 구축하고, 빅데이터에 대한 학습 및 학습 결과에 대한 시각화를 통해 운영 장비에 대한 이상 접속 감지 및 추적이 가능한 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템을 제공하는 것이다.

본 발명의 또 다른 목적은 망 확장에 따라 추가되는 운영 장비에 대한 유연한 보안 대처가 가능하고, 운영자의 보안 장비 설정 변경 등에 따른 운영 장비의 외부망 노출 위협을 미연에 방지하는 것이 가능한 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템을 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시 예에 따른 대용량 서비스망에의 넷플로우(Netflow) 기반 불법 접속 추적 방법은 네트워크 백본 장치로부터 넷플로우 통신 요약 정보를 수집하는 단계와 상기 수집된 넷플로우 통신 요약 정보를 이용하여 데이터마트(Data Mart)를 생성하는 단계와 상기 생성된 데이터마트에 대한 전처리를 수행하는 단계와 상기 서비스망에 연결된 운영 장비에 대한 실제 서비스 포트 오픈 여부를 점검하여 머신러닝을 위한 학습 모델 라벨링을 수행하는 단계와 학습 모델 별 지도학습 머신러닝을 수행하여 최적의 학습 모델을 결정하는 단계와 상기 결정된 학습 모델에 기반한 실시간 지도학습 머신러닝을 수행하여 상기 운영 장비의 원격 접속 포트 오픈 여부를 분석하는 단계를 포함할 수 있다.

실시 예로, 상기 방법은 상기 원격 접속 포트 오픈 여부에 대한 분석 결과를 시각화하여 출력하는 단계를 더 포함할 수 있다.

실시 예로, 상기 원격 접속 포트 오픈 여부에 대한 분석 결과는 시각화 대시보드상에서의 사용자 선택에 따라 일자 별, 국가 별, 공격자 IP 별 및 장비 포트 별 시각화되어 운용자 단말의 화면에 출력될 수 있다.

실시 예로, 상기 넷플로우 통신 요약 정보는 사전 설정된 목적지 IP 주소, 목적지 포트 번호, 출발지 IP 주소, 출발지 포트 번호 및 접속 서비스 타입 중 적어도 하나에 상응하여 샘플링된 정보일 수 있다.

실시 예로, 상기 데이터마트는 미리 설정된 특성 항목이 포함되도록 생성되고, 상기 특성 항목은 접속 정보, 프로토콜, 통신량 및 수집 구간 중 적어도 하나를 포함할 수 있다.

실시 예로, 상기 접속 정보는 출발지 IP 주소 정보, 목적지 IP 주소 정보, 출발지 포트 정보 및 목적지 포트 정보 중 적어도 하나를 포함하고, 상기 프로토콜은 프로토콜 타입 및 플래그 정보 중 적어도 하나를 포함하고, 상기 통신량은 바이트 단위 볼륨 정보 및 패킷 개수 정보 중 적어도 하나를 포함할 수 있다.

실시 예로, 상기 최적의 학습 모델을 결정하는 단계는 상기 전처리된 데이터마트를 복수의 데이터 유형으로 분류하고, 각 데이터 유형에 상응하는 데이터를 생성하는 단계와 상기 분류된 데이터 유형에 대한 상관 매트릭스를 적용하여 주요 변수를 선택하는 단계와 상기 선택된 주요 변수에 대해 주성분 분석 기법을 적용하여 변수의 차원을 축소하는 단계와 상기 축소된 차원의 변수들로 구성된 데이터마트에 대한 학습 모델 별 지도학습 머신러닝을 수행하여 최적의 성능을 가지는 학습 모델을 결정하는 단계와 학습 모델 결정 결과를 구비된 분산 데이터 시스템에 저장하는 단계를 포함할 수 있다.

실시 예로, 상기 최적의 학습 모델을 결정하기 위한 성능 지표는 정밀도, 재현율, 정확도 및 F-Socre 중 적어도 하나를 포함하고, 상기 지도학습 머신러닝을 통해 획득된 상기 성능 지표 값들의 산술 평균 또는 총합에 기반하여 상기 최적의 학습 모델이 결정될 수 있다.

실시 예로, 상기 복수의 데이터 유형은 원래 데이터 유형, 정규화 데이터 유형 및 표준화 데이터 유형 중 적어도 하나를 포함할 수 있다.

실시 예로, 상기 데이터마트는 그래픽처리장치 연동 데이터베이스(GPU(Graphic Processing Unit) associated Database) 시스템을 이용하여 생성된 후 하둡(Hadoop) 시스템에 저장될수 있다.

실시 예로, 상기 원격 접속 포트 오픈 여부를 분석하는 단계는 상기 서비스망에서 분석하고자 하는 대상을 식별하여 원격 접속이 시도된 운용 장비를 정렬하는 단계와 상기 정렬된 운용 장비에 대한 상기 지도학습 머신러닝 분석 결과에 기초하여 텔넷(Telnet) 접속 포트 오픈 확률이 높은 운영 장비를 선별하는 단계와 상기 선별된 운영 장비의 상기 텔넷 접속 포트가 실제 오픈되어 있는지 확인하는 단계와 상기 텔넷 접속 포트가 오픈된 것으로 확인된 상기 운영 장비에 상응하는 출발지 IP 주소에 대한 유해성 여부를 판단하는 단계와 상기 유해성이 확인된 상기 출발지 IP 주소에 대해 상기 서비스망으로의 접속을 차단하는 단계를 포함할 수 있다.

실시 예로, 상기 전처리를 수행하는 단계는 상기 운영 장비로의 정상적인 접속 확률이 소정 기준치 이상인 규칙을 상기 학습 모델에서 제외시키는 단계를 포함할 수 있다.

다른 실시 예에 따른 대용량 서비스망에 구비되는 넷플로우(Netflow) 기반 불법 접속 추적 시스템은 네트워크 백본 장치로부터 넷플로우 통신 요약 정보를 수집하는 네트워크관리시스템과 상기 수집된 넷플로우 통신 요약 정보를 이용하여 데이터마트(Data Mart)를 생성하는 GPU 연동 데이터베이스(Graphics Processor Unit associated Database) 시스템과 상기 생성된 데이터마트에 상응하여 전처리된 데이터가 분산 저장되는 데이터분산시스템과 상기 서비스망에 연결된 운영 장비에 대한 실제 서비스 포트 오픈 여부에 대한 점검 결과에 기초하여 머신러닝을 위한 학습 모델 라벨링을 수행하고, 학습 모델 별 지도학습 머신러닝을 수행하여 최적의 학습 모델을 결정하고, 상기 결정된 학습 모델에 기반한 실시간 지도학습 머신러닝을 수행하여 상기 운영 장비의 원격 접속 포트 오픈 여부를 분석하는 기계학습분석시스템을 포함할 수 있다.

실시 예로, 상기 불법 접속 추적 시스템은 상기 운영 장비에 대한 실제 서비스 포트 오픈 여부를 점검하는 운용자 단말을 더 포함하고, 상기 기계학습분석시스템이 상기 원격 접속 포트 오픈 여부에 대한 분석 결과를 시각화하여 상기 운용자 단말의 화면에 출력할 수 있다.

실시 예로, 상기 원격 접속 포트 오픈 여부에 대한 분석 결과는 시각화 대시보드상에서의 사용자 선택에 따라 일자 별, 국가 별, 공격자 IP 별 및 장비 포트 별 시각화되어 출력될 수 있다.

실시 예로, 상기 기계학습분석시스템은 상기 전처리된 데이터마트를 복수의 데이터 유형으로 분류 및 생성하고, 상기 분류된 데이터 유형에 대한 상관 매트릭스를 적용하여 주요 변수를 선택하고, 상기 선택된 주요 변수에 대해 주성분 분석 기법을 적용하여 변수의 차원을 축소하고, 상기 축소된 차원의 변수들로 구성된 데이터마트에 대한 학습 모델 별 지도학습 머신러닝을 수행하여 최적의 성능을 가지는 학습 모델을 결정하고, 학습 모델 결정 결과를 상기 데이터분산시스템에 저장할 수 있다.

실시 예로, 상기 최적의 성능을 가지는 학습 모델을 결정하기 위한 성능 지표는 정밀도, 재현율, 정확도 및 F-Socre 중 적어도 하나를 포함하고, 상기 기계학습분석시스템은 상기 지도학습 머신러닝을 통해 획득된 상기 성능 지표 값들의 산술 평균 또는 총합에 기반하여 상기 최적의 성능을 가지는 학습 모델을 결정할 수 있다.

실시 예로, 상기 데이터분산시스템은 하둡(Hadoop) 시스템일 수 있다.

실시 예로, 상기 기계학습분석시스템은 상기 서비스망에서 분석하고자 하는 대상을 식별하여 원격 접속이 시도된 운용 장비를 정렬하고, 상기 정렬된 운용 장비에 대한 상기 지도학습 머신러닝 분석 결과에 기초하여 텔넷(Telnet) 접속 포트 오픈 확률이 높은 운영 장비를 선별하고, 상기 선별된 운영 장비의 상기 텔넷 접속 포트가 실제 오픈되어 있는지 확인하고, 상기 텔넷 접속 포트가 오픈된 것으로 확인된 상기 운영 장비에 상응하는 출발지 IP 주소에 대한 유해성 여부를 판단하고, 상기 유해성이 확인된 상기 출발지 IP 주소에 대해 상기 서비스망으로의 접속을 차단할 수 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명은 유무선망에 연결된 대규모 서비스 운용 장비에 대하여 보안 장치 구축을 위한 별도 투자 없이도 효과적으로 광범위한 보안 모니터링 기능을 수행하는 것이 가능한 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템을 제공하는 장점이 있다.

또한, 본 발명은 넷플로우 데이터에 대한 머신러닝을 통해 원격 접속 포트 오픈 여부를 판별함과 동시에 판별 결과에 대한 시각화를 통하여 이상 접속에 대한 연계 분석이 가능한 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템을 제공하는 장점이 있다.

또한, 본 발명은 대용량 넷플로우 데이터를 빠르게 가공하여 빅데이터를 구축하고, 빅데이터에 대한 학습 및 학습 결과에 대한 시각화를 통해 운영 장비에 대한 이상 접속 감지 및 추적이 가능한 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템을 제공하는 장점이 있다.

또한, 본 발명은 보안 사고 감지 시 주요 접속 공격자를 추적할 수 있는 포렌식(Forensic) 기능을 제공함으로써, 대규모 5G/4G 서비스망에서 로그 정보를 가지기 못하여 이상 감지가 어려운 소형 IoT(Internet of Things 기기 및 운영 장비 등의 공격자를 효과적으로 감시 및 추적하고, 추적된 공격자에 대한 소명 자료를 효과적으로 제공할 수 있는 장점이 있다.

또한, 본 발명은 운영장비 백도어로 통한 비정상 통신을 넷플로우 통신 데이터 기반으로 검출하거나 추적할 수 있는 보안 감시 체계 구축을 가능하게 하는 장점이 있다.

또한, 본 발명은 운영 장비에 대한 불필요한 서비스 오픈 여부를 데이터 기반으로 점검함으로써 원격 접속 해킹을 사전에 예방할 수 있는 장점이 있다.

또한, 본 발명은 망 확장에 따라 추가되는 운영 장비에 대한 유연한 보안 대처가 가능하고, 운영자의 보안 장비 설정 변경 등에 따른 운영 장비의 외부망 노출 위협을 미연에 방지하는 것이 가능한 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템을 제공하는 장점이 있다.

이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.

도 1은 실시 예에 따른 넷플로우 기반 대규모 서비스망 불법 접속 추적 시스템을 설명하기 위한 도면이다.
도 2는 실시 예에 따른 불법 접속 추적 시스템의 구조를 설명하기 위한 도면이다.
도 3은 실시 예에 따른 불법 접속 추적 시스템에서의 불법 접속 추적 방법을 설명하기 위한 순서도이다.
도 4는 다른 실시 예에 따른 불법 접속 추적 시스템에서의 불법 접속 추적 방법을 설명하기 위한 순서도이다.
도 5는 또 다른 실시 예에 따른 불법 접속 추적 시스템에서의 불법 접속 추적 방법을 설명하기 위한 순서도이다.
도 6은 실시 예에 따른 데이타마트를 구성하는 특성 변수의 예이다.
도 7은 실시 예에 따른 시각화 도구를 이용한 시각화 예를 보여준다.
도 8은 실시 예에 따른 시각화에 따라 출력되는 학습 모델 별 특이도 및 민감도 분석 결과를 보여주는 그래프이다.
도 9는 실시 예에 따른 1차 필터링 여부에 따른 학습 모델 별 성능 분석 결과를 보여주는 성능 분석 테이블이다.
도 10은 실시 예에 따른 2차 필터링 이후 데이터 유형 별 성능 분석 결과를 보여주는 성능 분석 테이블이다.
도 11은 실시 예에 따른 해외 원격 접속 노출 여부를 추정을 위해 선별된 주요 특성 변수를 보여주는 주요 특성 변수 테이블이다.
도 13은 실시 예에 따른 시각화 대시보드 구성 예를 보여준다.
도 14는 다른 실시 예에 따른 시각화 대시보드 구성 예를 보여준다
도 15는 또 다른 실시 예에 따른 시각화 대시보드 구성 예를 보여준다
도 16은 실시 예에 따른 시각화대시보드 화면 구성을 보여준다.

이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다.

또한, 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시 예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다.

또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 도 1 내지 도 16을 참조하여, 본 발명의 실시 예들을 구체적으로 설명하기로 한다.

도 1은 실시 예에 따른 넷플로우 기반의 대규모 서비스망 불법 접속 추적 시스템을 설명하기 위한 도면이다.

도 1을 참조하면, 해외망(10)에 접속된 공격자는 넷플로우 데이터를 통해 자사 서비스망(20)의 단말(30) 또는 운영 장비(40)에 불법 접속하여 정보를 유출할 수 있다.

이때, 자사 서비스망(20)은 해외망(10)으로부터 수신되는 넷플로우 데이터를 모니터링하여 비접상 접속 시도를 감시하고, 자사 서비스망(20)으로부터 정보 유출을 추적 및 감시할 수 있다.

자사 서비스망(20)은 외부 불법 접속 및(또는) 정보 유출이 검출된 경우, 불법 접속이 감지된 넷플로우 데이터의 출발지 IP 주소에 대한 접속을 차단하여 불법적인 정보 유출을 방지할 수 있다.

특히, 실시 예에 따른 자사 서비스망(30)은 넷플로우 데이터에 기초한 머신러닝을 통해 자사 운영 장비에 대한 원격 서비스 포트 오픈 여부를 판별할 수 있는 학습 모델을 적응적으로 선택하고, 선택된 학습 모델을 통해 해외 불법 접속 여부를 감지할 수 있다.

또한, 자사 서비스망(30)은 빅데이터 분석 및 시각화 기술을 적용하여 자사 운영 장비에 대한 이상 접속 추적 모델을 제공할 수 있으며, 제조사 백도어 통신 등 해외 이상 접속 검출 및 추적을 위한 기본적인 관리 체계를 제공할 수 있다.

자사 서비스망(30)은 대규모 이동통신 서비스망에서 불법 접속 여부를 감지하기 어려운 소형 장비 및 개별 장비들에 대한 보안 감시 체계를 구축함으로써, 공격자에 의해 불법 정보 유출을 효과적으로 차단할 수 있다.

도 2는 실시 예에 따른 불법 접속 추적 시스템의 구조를 설명하기 위한 도면이다.

도 2를 참조하면, 불법 접속 추적 시스템(200)은 네트워크관리시스템(Network Management System(NMS), 230), GPU 연동 데이터베이스(Graphics associated Processor Unit Database, 240), 데이터분산시스템(Data Distribution System, 250), 기계학습분석시스템(Machine Learning Analysis System, 260) 및 운용자 단말(270)을 포함하여 구성될 수 있다.

네트워크관리시스템(230)은 네트워크 장비(220)로부터 넷플로우 데이터를 수집할 수 있다. 일 예로, 네트워크관리시스템(230)은 특정 규칙에 따라 넷플로우 데이터를 샘플링하여 수집할 수 있다. 일 예로, 네트워크관리시스템(230)은 각각의 네트워크 장비(220)로부터 일정 주기로 일정 개수의 패킷을 샘플링할 수 있다.

네트워크관리시스템(230)은 자사 네트워크 백본 장비에서 샘플링한 넷플로우 통신 요약 정보를 수집하여 GPU 연동 데이터베이스(240)로 전송할 수 있다.

GPU 연동 데이터베이스(240)는 수신된 넷플로우 통신 요약 정보를 기초로 감시 대상인 출발지 IP 주소 및(또는) 목적지 IP 주소에 한정하여 데이터마드(Datamart)를 생성할 수 있다.

GPU 연동 데이터베이스(240)는 생성된 데이터마트를 데이터분산시스템(250)에 전송할 수 있다. 상기 도 2에서는 데이터분산시스템(250)으로 하둡(Hadoop) 시스템이 적용되는 것으로 도시되어 있으나, 이는 하나의 실시 예에 불과하며, 당업자의 구현에 따라 다른 데이터분산시스템이 적용될 수도 있다.

데이터분산시스템(250)은 저장된 데이터가 머신러닝 모델에 활용되고 시각화될 수 있도록 가공하여 저장할 수 있다. 이때, 데이터분산시스템(250)에 저장된 데이터는 소정 시각화 분석 도구를 통해 시각화되어 운영자 단말(270)의 화면에 출력될 수 있다.

기계학습분석시스템(260)은 데이터분산시스템(250)에 저장된 데이터를 이용하여 머신러닝을 수행하고, 머신러닝 수행 결과를 데이터분산시스템(250)에 저장할 수 있다.

이때, 머신러닝 수행 결과는 운영자의 선택에 따라 시각화 분석 도구를 통해 시각화되어 운용자 단말(270)의 화면에 출력될 수 있다.

기계학습분석시스템(260)은 지도학습 머신러닝을 수행하여 자사 운영 장비의 불법 서비스 포트 오픈 여부 감시를 위한 최적의 학습 모델을 제공할 수 있다.

서비스망 운영자는 운영자 단말(270)을 통해 단말(210)의 텔넷(Telnet) 포트 오픈 여부를 점검할 수 있다.

일 예로, 서비스망 운영자는 운영자 단말(270)을 통해 보안 스캐너인 NMAP(Network Mapper) 등의 도구를 이용하여 고유 IP 운영 장비에 대한 실제 서비스 포트 오픈 여부를 점검할 수 있으며, 점검 결과는 지도학습 머신러닝에 대한 라벨링 학습 데이터로 활용할 수 있다.

시각화 분석 도구는 운영 장비의 원격 접속 포트 오픈 및 비정상 통신 추적을 위한 분석 기능을 제공할 수 있다.

GPU 연동 데이터베이스(240)는 GPU의 병렬 처리를 이용해 데이터의 처리 속도를 높일 수 있다. GPU 연동 데이터베이스는 SQL 조인(JOIN) 연산부터 병렬 프로세싱을 수행하도록 설계도리 수 있다.

이때, 조인 구문은 데이터베이스의 여러 테이블로부터 열(columns) 사이의 관계를 설정하고, 유의미한 분석을 수행하는 데 결정적인 역할을 수행한다.

GPU 연동 데이터베이스(240)는 하둡(Hadoop), 카프카(Kafka), H베이스(Hbase), 스파크(Spark), 스톰(Storm) 등 오픈 소스 프레임워크로의 커넥터 기능을 제공할 수 있다.

여기서, 하둡은 여러 대의 서버를 한대의 컴퓨터처럼 연결하여 운용할 수 있는 데이터 분산 시스템으로서 본 발명의 빅데이터 프레임워크로 사용될 수 있다.

하둡은 오픈소스 기반의 빅데이터 프레임워크로서, 장비 추가 시에도 전체 시스템이 중단되지 않으며 특정 장비 오류 발생 시에도 전체 시스템이 마비되지 않으므로 유지 관리 및 증설이 용이한 장점을 가진다.

스파크는 하둡 프로그램밍에 비해 처리 속도가 빠르며, 빅데이터 분석 시 데이터 추출/분석/적재를 하나의 플랫폼을 통해 처리할 수 있는 장점을 가진다.

실시 예로, 데이터 처리 및 분석을 위해 하둡 대신 스파크가 사용될 수 있으나, 이는 하나의 실시 예에 불과하며, 하둡과 스파크를 연동하여 사용할 수도 있다. 하둡과 스파크의 연동 시 고성능의 하드웨어를 사용하지 않고도 데이터 분산 처리가 가능할 뿐만 아니라 데이터 분산 시스템내에서 원하는 데이터를 보다 효율적으로 수집할 수 있는 장점을 가질 수 있다.

실시 예에 따른 GPU 연동 데이터베이스(240)는 태블로(Tablea실시 예에 따른 GPU 연동 데이터베이스는 C++, SQL, 자바, 노드제이에스(Node.js), 파이썬 등 유명 프로그래밍 언어와의 결합을 위한 API를 제공할 수 있다.　　

데이터마트(Data Mart, DM)는 데이터 웨어하우스(Data Warehouse, DW) 환경에서 정의된 접근 계층으로, 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 위한 용도로 사용될 수 있다. 데이터마트는 u), 파워 BI(Power BI), 스팟파이어(Spotfire) 등 시각화 및 BI 툴과의 통합을 위한 ODBC 및 JDBC 드라이버 기능을 제공할 수 있다.

데이터 웨어하우스의 부분이며, 대개 특정한 조직, 혹은 팀에서 특정 목적을 위해 사용하는 것을 목적으로 한다. 실시 예로, 데이터마트는 외부 불법 접속 분석 요건에 적합한 구조로 재구성된 데이터를 가지도록 생성될 수 있으며, 유연성과 접근성이 뛰어난 구조로 다양한 질의나 요구에 충족하는 다차원 구조를 가지도록 생성될 수 있다.

도 3은 실시 예에 따른 불법 접속 추적 시스템에서의 불법 접속 추적 방법을 설명하기 위한 순서도이다.

이하 설명의 편의를 위해 불법 접속 추적 시스템(200)을 간단히 “시스템”과 혼용하여 설명하기로 한다.

시스템(200)은 네트워크 백본 장치에서 샘플링된 넷플로우 정보를 구비된 NMS를 통해 수집할 수 있다(S310).

시스템(200)은 그래픽처리장치 연동 데이터베이스(GPU(Graphic Processing Unit) associated database)를 이용하여 수집된 넷플로우 정보에 대한 데어터마트(Data Mart, DM)를 생성할 수 있다(S320).

시스템(200)은 머신러닝 모델 활용 및 시각화가 가능하도록 하둡(Hadoop) 시스템을 통해 생성된 데이터마트를 가공하여 저장할 수 있다(S330).

시스템(200)은 NMAP 장비를 통해 고유 IP를 가지는 운영 장비에 대한 실제 서비스 포트 오픈 여부를 점검하여 지도학습(Supervised Learning) 머신러닝을 위한 포트 오픈 라벨링(Labelling)(또는 포트 오픈 특성(feature))을 설정할 수 있다(S340).

시스템(200)은 저장된 데이터마트에 대한 학습 모델 별 지도학습 머신러닝을 수행하여 서비스 포트 오픈 여부 감시를 위한 최적의 학습 모델을 결정할 수 있다(S350).

시스템(200)은 결정된 학습 모델에 기반한 실시간 지도학습 머신러닝을 수행하여 원격 접속 포트 오픈 여부를 판별할 수 있다(S360). 여기서, 지도학습 머신러닝을 통한 학습 결과는 시각화 도구를 통해 시각화하여 운영자 단말(270)에 출력될 수 있다.

도 4는 다른 실시 예에 따른 불법 접속 추적 시스템에서의 불법 접속 추적 방법을 설명하기 위한 순서도이다.

시스템(200)은 특정 목적지 IP 주소에 상응하는 넷플로우 통신 요약 정보를 수집할 수 있다(S410). 다른 실시 예로, 시스템(200)은 목적지 IP 주소, 출발지 IP 주소, 목적지 포트 번호, 출발지 포트 번호 및 접속 서비스 타입 중 적어도 하나에 상응하는 넷플로우 통신 요약 정보를 수집할 수도 있다.

시스템(200)은 수집된 넷플로우 통신 요약 정보에 대한 분석을 수행하여 사전 정의된(또는 사용자 설정된) 개수의 특성 필드(또는 항목)들로 구성된 데이터마트를 생성할 수 있다(S420).

시스템(200)은 NMAP 포트 스캐너를 통한 원격 서비스 포트 오픈 여부 점검 결과에 기반하여 데이터마트 라벨링을 수행할 수 있다(S430).

시스템(200)은 데이터마트에 대한 전처리를 수행할 수 있다(S440). 일 예로, 시스템은 결정 트리 기법 등의 기계학습 모델을 이용하여 특정 기준치 이상-예를 들면, 99.3%- 정상으로 판단되는 규칙은 학습 모델에서 제외시킬 수 있다.

일 예로, TCP Flags 17(FIN-ACK) & tcp flags 2(SYN) >0.5 & 해외유입 < 3.5 & 외부 유입 IX 구간 < 0.5인 조건에서의 정상 접속 확률이 99.3 이상인 경우, 해당 조건(규칙)은 학습 모델에서 제외될 수 있다. 본원 발명은 상술한 전처리를 통해 기계학습을 위한 시스템의 프로세싱 부하를 절감시킬 수 있는 장점이 있다.

시스템(200)은 머신러닝 모델링을 수행할 수 있다(S450). 구체적인 머신러닝 모델링 절차는 후술할 도 5를 통해 상세히 설명하기로 한다.

시스템(200)은 머신러닝 모델링 결과를 시각화하여 제공될 수 있다(S460).

일 예로, 머신러닝 모델링 결과는 하둡 시스템에 저장될 수 있으며, 인공지능, 머신러닝, 클라우드 기술을 모두 아울러 통합적인 데이터 분석을 제공하는 쌔스 바이아(SAS Viya)와 같은 시각화 분석 도구를 통해 후술할 도 7에 도시된 바와 같이 시각화되어 운영자 단말(270)의 화면에 출력될 수 있다.

도 5는 또 다른 실시 예에 따른 불법 접속 추적 시스템에서의 불법 접속 추적 방법을 설명하기 위한 순서도이다.

상세하게 도 5는 상기 도 4의 머신러닝 모델링 단계(S450)의 세부 절차를 설명하기 위한 순서도이다.

도 5를 참조하면, 시스템(200)은 데이터마트를 일반데이터, 정규화데이터 및 표준화데이터로 구분하여 생성할 수 있다(S510).

시스템(200)은 구분된 데이터들에 대해 상관 매트릭스(Correlation Matrix)를 적용하여 주요한 변수-즉, 주요 특성 항목-을 선택할 수 있다(S520).

시스템(200)은 선택된 주요 변수에 대한 주성분분석(Principal component analysis,　PCA) 기법을 적용하여 변수의 차원을 축소할 수 있다(S530).

시스템(200)은 축소된 차원의 변수들로 구성된 데이터마트에 대한 학습 모델 별 학습 결과에 기반하여 최적의 성능을 가지는 학습 모델을 결정할 수 있다(S540).

학습 모델에 대한 성능 지표는 정밀도(Precision), 재현율(Recall), 정확도(Accuracy) 및 F-Score를 포함할 수 있다. 학습 모델에 대한 성능 지표는 후술할 도 9에서 자세히 설명하기로 한다.

시스템(200)은 학습 모델 결정 결과를 주기적으로 하둡 시스템에 저장할 수 있다(S550).

도 6은 실시 예에 따른 데이타마트를 구성하는 특성 변수의 예이다.

일 예로, 시스템(200)은 수집된 넷플로우 통신 요약 정보에 기초하여 데이터마트를 구성할 특성 변수를 추출할 수 있다. 여기서, 추출된 특성 변수를 특성 변수는 크게 접속 정보, 프로토콜 정보, 통신량 정보 및 수집 구간 정보 등을 포함할 수 있다.

접속 정보는 출발지 IP 정보, 목적지 IP 정보, 출발지 포트 정보 및 목적지 포트 정보를 포함하고, 프로토콜 정보는 프로토콜 타입 정보와 각종 플래그 정보를 포함할 수 있다.

통신량 정보는 패킷 개수 정보 및 바이트 단위의 볼륨 정보 등이 포함될 수 있다.

도 6을 참조하면, 전처리된 특성 변수는 해당 패킷이 수집된 시간 정보, 해당 패킷의 목적지 IP 주소 및 포트 정보, 해당 패킷의 출발지 IP 주소 및 포트 정보, 프로토콜 정보, TCP 플래그(Flag) 정보, 출발지 IP 주소가 해외 IP인지를 점검하기 위한 해외 유입 정보, 단위 기간 동안의 넷플로우 정보 탐지 건수를 지시하는 탐지 건수 정보, 샘플링된 패킷의 총 개수를 지시하는 패킷 합계 정보, 샘플링 데이터의 총 바이트 수를 지시하는 바이트 합계 정보, 넷플로우 데이터 수집 구간을 지시하는 서비스 수집 정보 및 NMAP 포트 스캔 도구를 활용한 서비스 포트 오픈 여부 점검 결과를 지시하는 포트 오픈 정보 중 적어도 하나를 포함하여 구성될 수 있다.

여기서, 출발지 포트 정보는 시스템 포트 정보, 사용자 포트 정보 및 동적 포트 정보 중 적어도 하나를 포함할 수 있다.

실시 예로, 출발지 IP 주소가 해외 IP인지 여부를 확인하기 위한 수단으로 국가별 할당된 IP 주소를 확인할 수 있는 오픈소스 라이브러리인 GeoIP가 사용될 수 있다.

상술한 도 6의 실시 예에서는 넷플로우 정보로부터 총 80개의 특성 변수가 필터링되는 것으로 설명되고 있으나, 이는 하나의 실시 예에 불과하며, 당업자의 설계에 따라 그보다 많거나 적은 개수의 특성 필드가 필터링될 수 있다. 일 예로, 운용자는 전처리에 따라 필터링되는 특성 변수의 개수 및(또는) 타입을 운용 터미널 등을 망 관리자가 직접 설정하거나 시스템이 자체적으로 네트워크 부하/장애/오류 등의 상태를 고려하여 적응적/단계적으로 조절할 수 있다.

도 7은 실시 예에 따른 시각화 도구를 이용한 시각화 예를 보여준다.

도 7에 도시된 바와 같이, 서비스망 운용자는 시각화 결과를 통해 불법 접속 추적을 위해 머신러닝에 활용된 각종 학습 모델의 종류 및 각 학습 모델의 상세 정보를 직관적으로 확인할 수 있을 뿐만 아니라 시각화된 각 학습 모델에 대한 성능 비교 결과를 확인할 수 있다.

또한, 운용자는 시각화 도구를 통해 수집된 넷플로우 통신 요약 정보 및 데이터마트 뿐만 아니라 각 학습 모델의 학습에 사용된 데이터를 확인할 수 있다.

도 7을 참조하면, 학습 데이터의 전처리에 사용되는 학습 모델은 결정 트리(Decision Tress, DT) 기법, 랜덤 포레스트(Random Forest, RF) 기법이 포함될 수 있으나, 이에 한정되지는 않는다.

불법 포트 접속 여부를 감지하기 위한 학습 모델은 RF 기법, DT 기법, ANN(Artificial Neural Network, ANN) 기법, SVM(Support Vector Machine) 기법, GLM(Generalized Linear Model) 기법 및 BN(Batch Normalization) 기법을 포함할 수 있으나, 이에 한정되지는 않으며, 당업자의 설계에 따라 새로운 학습 기법이 추가/삭제/변경될 수 있다.

도 8은 실시 예에 따른 시각화에 따라 출력되는 학습 모델 별 특이도 및 민감도 분석 결과를 보여주는 그래프이다.

도 8은 민감도에 대한 분석 결과를 보여주고 있으나, 실시 예에 따른 시스템(200)은 학습 모델/데이터 유형 별 정밀도, 재현율, 정확도 및 F-Score에 대한 분석 결과 그래프를 시각화하여 제공할 수도 있다.

도 9는 실시 예에 따른 1차 필터링 여부에 따른 학습 모델 별 성능 분석 결과를 보여주는 성능 분석 테이블이다.

도 9를 참조하면, 분석 결과 테이블은 전처리 이전의 학습 기법 별 성능 분석 결과와 전처리 이후의 학습 기법 별 성능 분석 결과를 보여준다.

일 예로, 학습 기법 별 성능 분석 결과에 포함되는 지표는 해당 학습 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율인 정밀도(Precision), 실제 True인 것 중에서 해당 학습 모델이 True라고 예측한 것의 비율인 재현율(Recall), 실제 False를 해당 학습 모델이 False라고 예측한 비율인 정확도(Accuracy), 정밀도과 재현율의 조화평균인 F-Score를 포함할 수 있다.

또한, 성능 분석 결과 테이블은 상술한 성능 분석 지표들에 대한 산술 평균에 기초하여 결정된 성능 순위 정보를 포함할 수 있다.

시스템은 상기 도 9에 따른 성능 분석 테이블을 시각화하여 출력할 수 있다.

도 10은 실시 예에 따른 2차 필터링 후 데이터 유형 별 성능 분석 결과를 보여주는 성능 분석 테이블이다.

도 10에 도시된 바와 같이, 데이터 유형은 크게 원래데이터, 정규화데이터 및 표준화데이터로 구분될 수 있다.

시스템(200)은 각 데이터 유형에 대한 학습 결과를 시각화할 수 있다.

여기서, 데이터 유형 별 성능 분석 지표는 상기 도 9에서 설명된 정밀도, 재현율, 정확도 및 F-Socre를 포함할 수 있다.

또한, 성능 분석 결과 테이블은 상기 성능 분석 지표들에 대한 산술 평균 또는 총합에 기초하여 결정된 성능 순위 정보를 포함할 수 있다.

도 11은 실시 예에 따른 해외 원격 접속 노출 여부를 추정을 위해 선별된 주요 특성 변수를 보여주는 주요 특성 변수 테이블이다.

도 11을 참조하면, 선별된 주요 특성 변수는 해외 접속 정보, 접속 시도 플래그(SYN), 접속 종료 플래그(FIN-ACK), 통신 바이트 크기, 출발지 IP 접속 시도, 응답 플래그(ACK), 수집 구간(GW 구간/BB 구간/IX 구간/LTE 구간), 데이터송수신(PSH-ACK), 출발지 포트, 총 탐지 개수, 종료 플래그(RST) 등을 포함할 수 있다.

도 11에 도시된 바와 같이, 주요 특성 변수 테이블을 특성 변수 별 산출된 피어슨 상관 계수(Relative), 변수 영향도(Importance) 및 카운트 값(Count)을 포함할 수 있다.

피어슨 상관 계수는 해당 특성 변수의 해외 원격 접속 노출과의 연관 관계 정보를 나타내고, 변수 영향도는 해당 특성 변수가 해외 원격 접속 노출 여부의 판단에 미치는 영향 정도를 나타낸다.

도 12는 실시 예에 따른 시각화 대시보드를 활용하여 원격 운영 장비 포트 오픈 여부 판별 및 비정상 통신 추적 절차를 설명하기 위한 순서도이다.

도 12를 참조하면, 시스템(200)은 해당 서비스망에서 분석하고자 하는 대상을 선별하여 원격 접속이 시도된 운영 장비를 정렬할 수 있다(S1210). 이때, 정렬 방식은 해외 접속 노출 확률 또는 해외 접속 노출 회수가 높은 순으로 정렬될 수 있다.

시스템(200)은 정렬된 운영 장비에 대한 머신러닝 분석 결과에 기초하여 텔넷(Telnet) 접속 포트 오픈 확률이 높은 운영 장비를 선별할 수 있다(S1220).

시스템(200)은 선별된 운영 장비의 텔넷 접속 포트가 실제 오픈되어 있는지 확인할 수 있다(S1230). 여기서, 텔넷 접속 포트의 실제 오픈 여부는 상술한 NMAP 장비를 통해 검출될 수 있다.

시스템(200)은 텔넷 접속 포트 오픈이 확인된 운용 장비에 상응하는 출발지 IP 주소에 대한 유해성 여부를 판단할 수 있다(S1240).

일 예로, 시스템(200)은 Virustotal, Malwared.com, C-TAS 등의 외부 점검 시스템과 연동하여 해당 출발지 IP 주소에 대한 유해성 여부를 판단할 수 있다.

시스템(200)은 유해한 것으로 판별된 출발지 IP 주소의 서비스망 접속을 차단할 수 있다.(S1250). 이때, 시스템(또는 시스템 운영자)는 접속 차단된 출발지 IP 주소에 대한 소정 접속 차단 소명 절차를 수행(또는 진행)할 수 있다.

도 13은 실시 예에 따른 시각화 대시보드 구성 예를 보여준다.

상세하게, 도 13은 시스템(200)에 의한 해외 접속 노출 장비 검출 결과를 시각화하여 출력한 예이다.

도 13을 참조하면, 시스템은 시각화 대시보드를 통해 사용자 선택된 특정 대상에 대한 해외 접속 노출 장비 검출 결과를 출력할 수 있다.

여기서, 특정 대상은 사용자 선택된 부서명/장비구간/장비분류/서비스구간/노출회수/장비IP주소 등에 기반하여 결정될 수 있다.

도 13에 도시된 바와 같이, 시각화 대시보드는 특정 대상에 대한 접속 서비스 통계 정보, 선택된 장비 포트 정보 및 접속 내용 상세 정보가 표시될 수 있다.

여기서, 접속 내용 상세 정보는 장비구간, 장비IP, 장비포트, 장비명, 모델명, 부서명, TCP연결종료회수, 오픈확률, 총데이터바이트, 전체노출회수, 해외노출회수, 해외노출비율 등에 관한 정보를 포함될 수 있다.

도 14는 다른 실시 예에 따른 시각화 대시보드 구성 예를 보여준다

실시 예에 따른 시스템(200)은 시각화 대시보드상에서의 사용자 선택에 따라 단위 기간-예를 들면, 일/주/월 단위- 동안의 외부 접속 공격 IP 정보(1410), 주요 공격 접속 시도자 추적 정보(1420), 외부 점검 시스템을 활용한 주요 공격자 점검 결과(1430), 특정 운영 장비의 텔넷 포트 오픈 여부 점검 결과(1440) 등을 제공할 수 있다.

일 예로, 외부 접속 공격 IP 정보(1410)는 점검 대상 운영 장비의 IP 주소 및 포트 번호 정보, 추적 날짜 정보, 공격자 IP 주소 정보, 해당 공격자 IP 주소의 국가 정보, 해당 공격자 IP의 해당 운영 장비 포트로의 접속 시도 회수에 관한 정보 등이 포함될 수 있다.

일 예로, 주요 공격 접속 시도자 추적 정보(1420)는 공격자 IP 정보, 해당 공격자 IP의 국가 정보, 해당 공격자 IP의 해당 운영 장비 포트로의 접속 시도 회수 및 전체 접속 시도에 대한 비율 정보 등이 포함될 수 있다.

일 예로, 주요 공격자 점검 결과(1430)는 점검 실시 날짜 정보, 해당 날짜의 전체 점검 회수 및 공격 감지 회수, 접속 프로토콜, 공격 대상 등의 정보가 포함될 수 있다.

도 15는 또 다른 실시 예에 따른 시각화 대시보드 구성 예를 보여준다

실시 예에 따른 시스템(200)은 시각화 대시보드상에서의 사용자 선택에 따라 요약대시보드를 구성하여 출력할 수 있다.

도 15를 참조하면, 요약대시보드는 일자 별 해외 노출 회수 및 해외 노출 비율을 나타내는 해외접속비율그래프(1510), 운영 장비 포트 별 전체 노출 및 해외 노출 회수를 나타내는 해외접속노출 현황테이블(1520) 및 주요 접속 시도 국가를 나타내는 주요접속시도국가다이어그램(1530) 등이 포함될 수 있다.

여기서, 주요접속시도국가다이어그램(1530)은 단위 기간 동안의 해당 국가의 접속 시도 회수(또는 접속 시도 비율)에 비례하게 해당 국가의 박스 크기가 결정될 수 있으며, 박스 내부 일측에 국가 정보가 표시되고, 박스의 크기 순으로 정렬되게 구성될 수 있다.

도 16은 실시 예에 따른 시각화대시보드 화면 구성을 보여준다.

도 16을 참조하면, 시각화대시보드 화면은 크게 대시보드선택영역(1610), 상세정보입력영역(1620), 상세정보표시영역(1630)으로 구분될 수 있다.

일 예로, 대시보드는 크게 요약대시보드, 정보유출탐지대시보드, 주요공격자추적대시보드, 장비현황다운로드대시보드 등을 포함하여 구성될 수 있다.

일 예로, 요약대시보드는 상기 도 15에서 설명된 바와 같이, 일자 별 해외 노출 회수 및 해외 노출 비율을 나타내는 해외접속비율그래프(1510), 운영 장비 포트 별 전체 노출 및 해외 노출 회수를 나타내는 해외접속노출 현황테이블(1520) 및 주요 접속 시도 국가를 나타내는 주요접속시도국가다이어그램(1530) 등이 포함될 수 있다.

일 예로, 정보유출탐지대시보드는 상기 도 13에서 설명된 바와 같이, 접속 서비스 및 장비 포트에 따른 정보 유출 탐지 결과를 보여줄 수 있다.

주요공격자추적대시보드는 상기 도 14에서 설명된 바와 같이, 사용자 선택된 운영 장비 IP 주소 및 포트 번호에 상응하는 주요 공격자 추적 정보를 제공할 수 있다.

실시 예로, 주요공격자추적대시보드는 사용자 선택에 따라 해외 접속 시도 탐지 결과 뿐만 아니라 국내 접속 시도 탐지 결과를 제공할 수 있다. 이때, 국내 접속 시도 탐지 결과는 우회 접속 등의 탐지에 활용될 수 있다.

장비현황다운로드대시보드는 운용 장비 현황 확인 및 점검 대상 운용 장비 현황에 대한 엑셀 파일을 다운로드하기 위해 사용될 수 있다.

본 명세서에 개시된 실시 예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리 및/또는 스토리지)에 상주할 수도 있다.

예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

대용량 서비스망에의 넷플로우(Netflow) 기반 불법 접속 추적 방법에 있어서,
네트워크 백본 장치로부터 넷플로우 통신 요약 정보를 수집하는 단계;
상기 수집된 넷플로우 통신 요약 정보를 이용하여 데이터마트(Data Mart)를 생성하는 단계;
상기 생성된 데이터마트에 대한 전처리를 수행하는 단계;
상기 서비스망에 연결된 운영 장비에 대한 실제 서비스 포트 오픈 여부를 점검하여 머신러닝을 위한 학습 모델 라벨링을 수행하는 단계;
학습 모델 별 지도학습 머신러닝을 수행하여 서비스 포트 오픈 여부를 감시하기 위한 학습 모델을 결정하는 단계; 및
상기 결정된 학습 모델에 기반한 실시간 지도학습 머신러닝을 수행하여 상기 운영 장비의 원격 접속 포트 오픈 여부를 분석하는 단계
를 포함하는, 불법 접속 추적 방법.
제1항에 있어서,
상기 원격 접속 포트 오픈 여부에 대한 분석 결과를 시각화하여 출력하는 단계를 더 포함하는, 불법 접속 추적 방법.
제2항에 있어서,
상기 원격 접속 포트 오픈 여부에 대한 분석 결과는 시각화 대시보드상에서의 사용자 선택에 따라 일자 별, 국가 별, 공격자 IP 별 및 장비 포트 별 시각화되어 출력되는 것을 특징으로 하는, 불법 접속 추적 방법.
제1항에 있어서,
상기 넷플로우 통신 요약 정보는 사전 설정된 목적지 IP 주소, 목적지 포트 번호, 출발지 IP 주소, 출발지 포트 번호 및 접속 서비스 타입 중 적어도 하나에 상응하여 샘플링된 정보인, 불법 접속 추적 방법.
제1항에 있어서,
상기 데이터마트는 미리 설정된 특성 항목이 포함되도록 생성되고,
상기 특성 항목은 접속 정보, 프로토콜, 통신량 및 수집 구간 중 적어도 하나를 포함하는, 불법 접속 추적 방법.
제5항에 있어서,
상기 접속 정보는 출발지 IP 주소 정보, 목적지 IP 주소 정보, 출발지 포트 정보 및 목적지 포트 정보 중 적어도 하나를 포함하고,
상기 프로토콜은 프로토콜 타입 및 플래그 정보 중 적어도 하나를 포함하고,
상기 통신량은 바이트 단위 볼륨 정보 및 패킷 개수 정보 중 적어도 하나를 포함하는, 불법 접속 추적 방법.
제1항에 있어서,
상기 학습 모델을 결정하는 단계는,
상기 전처리된 데이터마트를 복수의 데이터 유형으로 분류하고, 각 데이터 유형에 상응하는 데이터를 생성하는 단계;
상기 분류된 데이터 유형에 대한 상관 매트릭스를 적용하여 주요 변수를 선택하는 단계;
상기 선택된 주요 변수에 대해 주성분 분석 기법을 적용하여 변수의 차원을 축소하는 단계;
상기 축소된 차원의 변수들로 구성된 데이터마트에 대한 상기 학습 모델 별 지도학습 머신러닝을 통해 획득된 성능 지표 값에 기반하여 학습 모델을 결정하는 단계; 및
학습 모델 결정 결과를 구비된 분산 데이터 시스템에 저장하는 단계
를 포함하는, 불법 접속 추적 방법.
제7항에 있어서,
상기 성능 지표 값은 정밀도, 재현율, 정확도 및 F-Socre 중 적어도 하나를 포함하고, 상기 지도학습 머신러닝을 통해 획득된 상기 성능 지표 값들의 산술 평균 또는 총합에 기반하여 상기 학습 모델이 결정되는, 불법 접속 추적 방법.
제7항에 있어서,
상기 복수의 데이터 유형은 원래 데이터 유형, 정규화 데이터 유형 및 표준화 데이터 유형 중 적어도 하나를 포함하는, 불법 접속 추적 방법.
제1항에 있어서,
상기 데이터마트는 그래픽처리장치 연동 데이터베이스(GPU(Graphic Processing Unit) associated Database) 시스템을 이용하여 생성된 후 하둡(Hadoop) 시스템에 저장되는, 불법 접속 추적 방법.
제1항에 있어서,
상기 원격 접속 포트 오픈 여부를 분석하는 단계는,
상기 서비스망에서 분석하고자 하는 대상을 식별하여 원격 접속이 시도된 운용 장비를 정렬하는 단계;
상기 정렬된 운용 장비에 대한 상기 지도학습 머신러닝 분석 결과에 기초하여 텔넷(Telnet) 접속 포트 오픈 확률이 높은 운영 장비를 선별하는 단계;
상기 선별된 운영 장비의 상기 텔넷 접속 포트가 실제 오픈되어 있는지 확인하는 단계;
상기 텔넷 접속 포트가 오픈된 것으로 확인된 상기 운영 장비에 상응하는 출발지 IP 주소에 대한 유해성 여부를 판단하는 단계; 및
상기 유해성이 확인된 상기 출발지 IP 주소에 대해 상기 서비스망으로의 접속을 차단하는 단계
를 포함하는, 불법 접속 추적 방법.
제1항에 있어서,
상기 전처리를 수행하는 단계는,
상기 운영 장비로의 정상적인 접속 확률이 소정 기준치 이상인 규칙을 상기 학습 모델에서 제외시키는 단계를 포함하는, 불법 접속 추적 방법.
대용량 서비스망에 구비되는 넷플로우(Netflow) 기반 불법 접속 추적 시스템에 있어서,
네트워크 백본 장치로부터 넷플로우 통신 요약 정보를 수집하는 네트워크관리시스템;
상기 수집된 넷플로우 통신 요약 정보를 이용하여 데이터마트(Data Mart)를 생성하는 GPU 연동 데이터베이스(Graphics Processor Unit associated Database) 시스템;
상기 생성된 데이터마트에 상응하여 전처리된 데이터가 분산 저장되는 데이터분산시스템; 및
상기 서비스망에 연결된 운영 장비에 대한 실제 서비스 포트 오픈 여부에 대한 점검 결과에 기초하여 머신러닝을 위한 학습 모델 라벨링을 수행하고, 학습 모델 별 지도학습 머신러닝을 수행하여 서비스 포트 오픈 여부를 감시하기 위한 학습 모델을 결정하고, 상기 결정된 학습 모델에 기반한 실시간 지도학습 머신러닝을 수행하여 상기 운영 장비의 원격 접속 포트 오픈 여부를 분석하는 기계학습분석시스템
을 포함하는, 불법 접속 추적 시스템.
제13항에 있어서,
상기 운영 장비에 대한 실제 서비스 포트 오픈 여부를 점검하는 운용자 단말을 더 포함하고,
상기 기계학습분석시스템이 상기 원격 접속 포트 오픈 여부에 대한 분석 결과를 시각화하여 운용자 단말의 화면에 출력하는, 불법 접속 추적 시스템.
제14항에 있어서,
상기 원격 접속 포트 오픈 여부에 대한 분석 결과는 시각화 대시보드상에서의 사용자 선택에 따라 일자 별, 국가 별, 공격자 IP 별 및 장비 포트 별 시각화되어 출력되는 것을 특징으로 하는, 불법 접속 추적 시스템.
제13항에 있어서,
상기 넷플로우 통신 요약 정보는 사전 설정된 목적지 IP 주소, 목적지 포트 번호, 출발지 IP 주소, 출발지 포트 번호 및 접속 서비스 타입 중 적어도 하나에 상응하여 샘플링된 정보인, 불법 접속 추적 시스템.
제13항에 있어서,
상기 데이터마트는 미리 설정된 특성 항목이 포함되도록 생성되고,
상기 특성 항목은 접속 정보, 프로토콜, 통신량 및 수집 구간 중 적어도 하나를 포함하는, 불법 접속 추적 시스템.
제17항에 있어서,
상기 접속 정보는 출발지 IP 주소 정보, 목적지 IP 주소 정보, 출발지 포트 정보 및 목적지 포트 정보 중 적어도 하나를 포함하고,
상기 프로토콜은 프로토콜 타입 및 플래그 정보 중 적어도 하나를 포함하고,
상기 통신량은 바이트 단위 볼륨 정보 및 패킷 개수 정보 중 적어도 하나를 포함하는, 불법 접속 추적 시스템.
제13항에 있어서,
상기 기계학습분석시스템은 상기 전처리된 데이터마트를 복수의 데이터 유형으로 분류 및 생성하고, 상기 분류된 데이터 유형에 대한 상관 매트릭스를 적용하여 주요 변수를 선택하고, 상기 선택된 주요 변수에 대해 주성분 분석 기법을 적용하여 변수의 차원을 축소하고, 상기 축소된 차원의 변수들로 구성된 데이터마트에 대한 상기 학습 모델 별 지도학습 머신러닝을 통해 획득된 성능 지표 값에 기반하여 학습 모델을 결정하고, 학습 모델 결정 결과를 상기 데이터분산시스템에 저장하는, 불법 접속 추적 시스템.
제19항에 있어서,
상기 성능 지표 값은 정밀도, 재현율, 정확도 및 F-Socre 중 적어도 하나를 포함하고,
상기 기계학습분석시스템은 상기 지도학습 머신러닝을 통해 획득된 상기 성능 지표 값들의 산술 평균 또는 총합에 기반하여 상기 학습 모델을 결정하는, 불법 접속 추적 시스템.
제19항에 있어서,
상기 복수의 데이터 유형은 원래 데이터 유형, 정규화 데이터 유형 및 표준화 데이터 유형 중 적어도 하나를 포함하는, 불법 접속 추적 시스템.
제13항에 있어서,
상기 데이터분산시스템은 하둡(Hadoop) 시스템인, 불법 접속 추적 시스템.
제13항에 있어서,
상기 기계학습분석시스템은 상기 서비스망에서 분석하고자 하는 대상을 식별하여 원격 접속이 시도된 운용 장비를 정렬하고, 상기 정렬된 운용 장비에 대한 상기 지도학습 머신러닝 분석 결과에 기초하여 텔넷(Telnet) 접속 포트 오픈 확률이 높은 운영 장비를 선별하고, 상기 선별된 운영 장비의 상기 텔넷 접속 포트가 실제 오픈되어 있는지 확인하고, 상기 텔넷 접속 포트가 오픈된 것으로 확인된 상기 운영 장비에 상응하는 출발지 IP 주소에 대한 유해성 여부를 판단하고, 상기 유해성이 확인된 상기 출발지 IP 주소에 대해 상기 서비스망으로의 접속을 차단하는, 불법 접속 추적 시스템.