KR101573413B1 - 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법 - Google Patents

주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법 Download PDF

Info

Publication number
KR101573413B1
KR101573413B1 KR1020140168642A KR20140168642A KR101573413B1 KR 101573413 B1 KR101573413 B1 KR 101573413B1 KR 1020140168642 A KR1020140168642 A KR 1020140168642A KR 20140168642 A KR20140168642 A KR 20140168642A KR 101573413 B1 KR101573413 B1 KR 101573413B1
Authority
KR
South Korea
Prior art keywords
data set
attribute
gain ratio
new data
intrusion detection
Prior art date
Application number
KR1020140168642A
Other languages
English (en)
Inventor
김성열
진치국
Original Assignee
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 산학협력단 filed Critical 건국대학교 산학협력단
Priority to KR1020140168642A priority Critical patent/KR101573413B1/ko
Application granted granted Critical
Publication of KR101573413B1 publication Critical patent/KR101573413B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/22Arrangements for preventing the taking of data from a data transmission channel without authorisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

본 발명은 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법에 관한 것으로, 소정의 파일로부터 수집된 데이터 집합 S(N×D)의 데이터 차원수를 줄여 새로운 데이터 집합 D(N×d)를 획득하는 주성분 분석부; 및 획득된 새로운 데이터 집합 D(N×d)이 포함하는 연속 속성의 최적 분할점을 찾아 이득 비율을 계산하고, 계산된 각 속성의 이득 비율을 비교한 다음 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 분류 알고리즘을 적용하여 트리 구조를 구성하고, 구성된 트리 구조에서 테스트 데이터의 클래스 유형을 산출하는 침임 탐지 모델을 생성하는 침입 탐지 모델 생성부;를 포함한다.

Description

주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법{APPARATUS AND METHOD FOR DETECTING INTRUSION USING PRINCIPAL COMPONENT ANALYSIS}
본 발명은 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법에 관한 것으로, 주성분 분석(PCA) 및 C4.5 알고리즘을 이용하여 네트워크 침입 탐지를 위한 새로운 침입 탐지 모델을 제공하는 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법에 관한 것이다.
전통적으로 네트워크 운용관리는 트래픽의 변동을 모니터링하고 혼잡이 발생하지 않도록 엔지니어링 하는 방식으로 수행되어 왔다. 그러나 네트워크에 웜이나 바이러스 또는 DDoS 공격에 의해 대량의 비정상 트래픽이 발생하고 망 운용에 영향을 주기 시작하면서 네트워크의 보안 문제도 중요한 분야로 등장하였다.
기본적으로 네트워크의 운용관리는 장비나 링크의 이용률의 변화를 기록하고 관리하는 기능을 기반으로 구현되었다. 따라서, 기존의 네트워크 운용관리 시스템의 경우 IP 트래픽의 변화나 웜이나 바이러스와 같은 비정상 트래픽의 존재 여부를 파악하기 어려운 경우가 많다.
네트워크의 보안 문제는 주로 바이러스 백신의 제조업체와 같이 PC나 개별 시스템의 보안을 다루는 IDS(Intrusion Detection System) 또는 IPS (Intrusion Prevention System) 분야에서 다뤄져 왔으므로 네트워크 운용관리 측면에서는 적용하기 어렵다는 한계가 있다.
IDS 분야에서는 웜이나 바이러스 또는 공격에 의한 비정상적인 트래픽을 탐지하기 위해 주로 사용하는 방법은 비정상 트래픽이라고 의심되거나 해당하는 트래픽의 수집 및 분석에 의한다. 웜이나 바이러스 같은 경우 패킷의 페이로드에 존재하는 패턴을 정의하고 패턴 매칭에 의해 비정상 트래픽을 탐지하기도 하거나, DDoS 공격과 같은 경우 공격을 받는 서버나 사이트에서의 트래픽의 변동을 모니터링 하거나 사용자가 체감하는 속도의 저하 등으로부터 이상 징후를 탐지하고 IP 주소나 포트 번호의 검색 및 상세 분석을 통해 비정상 여부를 판단하게 된다.
이와 같은 방법은 비정상 트래픽의 발생 여부를 판단하기 어렵고 패킷 분석과 같이 시간 및 노력이 많이 드는 작업이 필요하므로 비정상 트래픽의 발생 초기에 탐지하기 어렵다는 문제들이 있다.
특히 다양한 변종의 웜, 바이러스가 개발되고 공격 형태가 진화하는 환경에서 비정상 트래픽을 탐지하기 어렵고, 탐지하더라도 상당한 공격이 진행된 이후에야 비로소 비정상 트래픽을 탐지하는 경우가 대부분이다.
평균적인 통계량 보다 많은 양이 발생하는 경우를 비정상인 상황이라고 분류하는 방식 또는 IP 주소 또는 포트 번호의 변화와 같은 단순한 방식을 사용하는 경우에도 비정상 트래픽의 발생을 정확하게 탐지하지 못하는 경우가 있으며, 찾은 패턴을 이용하여 비정상 트래픽을 탐지하기 위하여 패킷을 수집하고 분석하는 장비가 별도로 필요하므로 비용이 많이 소요되는 문제가 있다.
개별 시스템이나 PC의 보안에 적용하는 알고리즘의 경우, 다양한 장비와 링크가 존재하는 네트워크 수준의 보안 또는 비정상 트래픽 탐지에 적용하기 어렵다는 문제점이 있었다.
종래의 한국등록특허 제0561628호는 각 네트워크 장비로부터 트래픽 데이터를 수집하여 통합한 전체 트래픽 데이터로부터 특성 트래픽 데이터를 추출하고, 추출한 특성 트래픽 데이터를 정상 상태의 통계적 모델인 특성 트래픽 데이터 프로파일과 비교하여 이상 트래픽 여부를 판단하는 구성을 개시하고 있다.
이러한 종래의 기술은 특성 트래픽 데이터를 추출하는 구체적인 구성을 개시하고 있지 않으며, 특히 기존의 통계적 모델과 비교하여 이상 트래픽 여부를 판단하므로, 일정량의 통계 데이터가 수집되기 이전에 이상 트래픽을 감지할 수 없다는 문제점이 있었다.
본 발명은 상기와 같은 문제점을 해결하기 위해 발명된 것으로서, 주성분 분석을 통해 데이터 집합의 차원을 줄인 다음 C4.5 알고리즘을 이용하여 침입 탐지 모델을 생성하는 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법을 제공하는데 그 목적이 있다.
상기한 목적을 달성하기 위한 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 장치는 소정의 파일로부터 수집된 데이터 집합 S(N×D)의 데이터 차원수를 줄여 새로운 데이터 집합 D(N×d)를 획득하는 주성분 분석부; 및 획득된 새로운 데이터 집합 D(N×d)이 포함하는 연속 속성의 최적 분할점을 찾아 이득 비율을 계산하고, 계산된 각 속성의 이득 비율을 비교한 다음 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 분류 알고리즘을 적용하여 트리 구조를 구성하고, 구성된 트리 구조에서 테스트 데이터의 클래스 유형을 산출하는 침임 탐지 모델을 생성하는 침입 탐지 모델 생성부;를 포함한다.
또한, 상기 주성분 분석부의 데이터 집합 S의 N은 데이터 집합 S의 데이터 개수이고, D는 데이터 집합 S의 차원 개수이며, 새로운 데이터 집합 D의 N은 새로운 데이터 집합 D의 데이터 개수이고, d는 새로운 데이터 집합 D의 차원 개수인 것을 특징으로 한다.
또한, 상기 침입 탐지 모델 생성부는, 새로운 데이터 집합 D(N×d)가 포함하는 연속 속성의 이득 비율과 최적의 분할점을 토대로 트리 구조의 속성 노드를 생성하는 구성하는 트리 구성부; 및 구성된 트리 구조의 잎 노드를 통해 테스트 데이터의 클래스 유형을 산출하는 클래스 유형 산출부;를 포함하는 것을 특징으로 한다.
또한, 상기 트리 구성부는, 획득된 새로운 데이터 집합 D(N×d)가 포함하는 연속 속성의 최적 분할점을 찾아 이득 비율을 계산하는 이득 비율 계산부; 및 계산된 각 속성의 이득 비율을 비교한 다음 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 트레이닝 집합을 부분 집합으로 분리하여 새로운 데이터 집합 D(N×d)의 엔트로피가 '0' 또는 새로운 데이터 집합 D(N×d)의 모든 속성이 동일한 최대 이득 비율을 가질 때까지 트리 구조를 생성하는 트리 생성부;를 포함하는 것을 특징으로 한다.
또한, 상기 트리 생성부는 새로운 데이터 집합 D(N×d)의 엔트로피가 '0'이 되고 속성이 동일한 경우, 잎 노드를 설정하는 것을 특징으로 한다.
또한, 산출된 테스트 데이터 클래스 유형을 토대로 외부로부터 침입 여부를 탐지하는 침입 탐지부를 더 포함하는 것을 특징으로 한다.
또한, 상기 분류 알고리즘은 C4.5 알고리즘인 것을 특징으로 한다.
상기한 목적을 달성하기 위한 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 방법은 주성분 분석부에 의해, 소정의 파일로부터 수집된 데이터 집합 S(N×D)의 데이터 차원수를 줄여 새로운 데이터 집합 D(N×d)를 획득하는 단계; 침입 탐지 모델 생성부에 의해, 획득된 새로운 데이터 집합 D(N×d)이 포함하는 연속 속성의 최적 분할점을 찾아 이득 비율을 계산하고, 계산된 각 속성의 이득 비율을 비교한 다음 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 분류 알고리즘을 적용하여 트리 구조를 구성하는 단계; 및 상기 침입 탐지 모델 생성부에 의해, 구성된 트리 구조에서 테스트 데이터의 클래스 유형을 산출하는 침입 탐지 모델을 생성하는 단계;를 포함한다.
또한, 소정의 파일로부터 수집된 데이터 집합 S(N×D)의 데이터 차원수를 줄여 새로운 데이터 집합 D(N×d)를 획득하는 단계에서, 데이터 집합 S의 N은 데이터 집합 S의 데이터 개수이고, D는 데이터 집합 S의 차원 개수이며, 새로운 데이터 집합 D의 N은 새로운 데이터 집합 D의 데이터 개수이고, d는 새로운 데이터 집합 D의 차원 개수인 것을 특징으로 한다.
또한, 획득된 새로운 데이터 집합 D(N×d)이 포함하는 연속 속성의 최적 분할점을 찾아 이득 비율을 계산하고, 계산된 각 속성의 이득 비율을 비교한 다음 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 분류 알고리즘을 적용하여 트리 구조를 구성하는 단계는, 계산된 각 속성의 이득 비율을 비교한 다음 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 트레이닝 집합을 부분 집합으로 분리하여 새로운 데이터 집합 D(N×d)의 엔트로피가 '0' 또는 새로운 데이터 집합 D(N×d)의 모든 속성이 동일한 최대 이득 비율을 가질 때까지 트리 구조를 생성하는 것을 특징으로 한다.
또한, 획득된 새로운 데이터 집합 D(N×d)이 포함하는 연속 속성의 최적 분할점을 찾아 이득 비율을 계산하고, 계산된 각 속성의 이득 비율을 비교한 다음 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 분류 알고리즘을 적용하여 트리 구조를 구성하는 단계는, 새로운 데이터 집합 D(N×d)의 엔트로피가 '0'이 되고 속성이 동일한 경우, 잎 노드를 설정하는 것을 특징으로 한다.
또한, 구성된 트리 구조에서 테스트 데이터의 클래스 유형을 산출하는 침입 탐지 모델을 생성하는 단계 이후에, 산출된 테스트 데이터 클래스 유형을 토대로 외부로부터 침입 여부를 탐지하는 단계;를 더 포함하는 것을 특징으로 한다.
상기와 같은 구성을 갖는 본 발명에 의한 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법은 주성분 분석을 통해 데이터 집합의 차원을 줄인 다음 의사 C4.5 알고리즘을 이용하여 침입 탐지 모델을 생성함으로써, 높은 탐지율을 제공하고 긍정 오류(false positive) 및 부정 오류(false negative)율을 최소화할 수 있는 효과가 있다.
따라서, 본 발명은 시간과 메모리 오버헤드를 줄일 수 있는 효과가 있다.
도 1은 본 발명에 사용되는 KDD 99 데이터 집합의 속성을 설명하기 위한 도면이다.
도 2는 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 장치의 구성을 설명하기 위한 도면이다.
도 3은 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 장치에 채용되는 침입 탐지 모델 생성부의 세부 구성을 설명하기 위한 도면이다.
도 4는 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 방법의 순서를 개략적으로 설명하기 위한 도면이다.
도 5는 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 방법에서 트리 구조를 구성하는 순서를 설명하기 위한 도면이다.
도 6 내지 도 9는 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 장치 및 방법의 성능을 나타내는 도면이다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선, 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 출력되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
도 1은 본 발명에 사용되는 KDD 99 데이터 집합의 속성을 설명하기 위한 도면이다.
본 발명에서 사용된 데이터는 1999년 “KDD’99 Competition:Knowledge Discovery Contest”에서 제공된 것을 활용하였다. 침입과 정상데이터로 라벨(labels)되어 있는 데이터를 트레이닝 데이터로 사용하였으며 라벨이 없는 데이터를 테스트 데이터로 사용하였다.
1998년 DARPA 침입탐지 개발 프로그램은 MIT Lincoln Labs에서 준비되었고 관리되어져 왔다. 여기서 제공되었던 데이터는 군사 네트워크 환경에서 실험된 방대하고 다양한 침입들을 포함하고 있는 표준 감사 데이터집합(data set)들이다.이후 1999년 KDD Intrusion Detection contest는 바로 이 데이터집합을 활용하여 진행되었다. Lincoln Labs에서 미공군의 LAN에서 9주간의 raw TCP dump data를 얻기 위해 실험 환경을 조성하였다. 로우 트레이닝 데이터는 7주간의 네트워크 트래픽에서 압축된 Binary TCP dump data 약 4기가 바이트를 사용하였다. 이 데이터는 약 5백만 connection records를 포함하고 있으며 유사하게 2주간의 Test Data는 약 2백만 connection records를 포함하고 있다.
Connection은 잘 정의된 일정한 시간동안 그 처음과 끝이 TCP packets의 연속으로 구성되어 있다. 이것은 신뢰할 만한 프로토콜을 통하여, Packet들의 출발지 IP와 목적지 IP까지의 packets, 그리고 Data의 그 flows를 포함한다. 각각의 connection은 label들이 표시되어 있는데, 정상사용자 인지 비정상사용자(네트워크에 대한 공격, 정확한 공격유형 중 하나)를 표시하는 라벨이다. 각 connection record는 대략 100 bytes로 표현된다.
이러한, KDD 99 데이터 집합은 도 1과 같이 41개의 데이터 속성을 포함하며, 각 데이터에서 클래스 유형은 정상, DOS, R2L, U2R 및 Probe로 분류되고, 이중 공격유형은 다음과 같이 4가지로 분류된다.
1. Denial of Service (DOS): 서비스 거부란 해킹수법의 하나로 해커들이 특정 컴퓨터에 침투해 자료를 삭제하거나 훔쳐가는 것이 아니라 대량의 접속을 유발해 해당 컴퓨터를 마비시키는 수법을 말한다.
2. Remote to User (R2L): 네트워크 통신을 통해 컴퓨터에 패킷을 전송하여 로컬 사용자 계정의 원격 사용자 액세스를 얻는 수법을 말한다.
3. User to Root (U2R): 침입자가 시스템의 다양한 취약점을 악용하여 루트 사용자가 일반 사용자 계정의 액세스 시작 후에 공격하는 수법을 말한다.
4. Probing (Probe) : 두 당사자 사이에 끼어들어 교환하는 공개정보를 자기 것과 바꾸어버림으로써 들키지 않고 도청을 하거나 통신내용을 바꾸는 수법을 말한다.
여기서 중요하게 생각해야 할 것은, 테스트 데이터는 트레이닝 데이터와 같이 동일한 공격 유형들의 확률적 분포를 나타내지는 않으며, 트레이닝 데이터에는 없는 상세한 공격 유형들을 포함한다. 이러한 것들이 본 발명을 더욱 실제적으로 유용하게 만들어 준다. 이러한 트레이닝 데이터 집합은 24개의 트레이닝 공격 유형을 포함하고 있으며,테스트 데이터에는 14개의 공격 유형을 더 포함하고 있다.
이하, 본 발명의 실시에에 따른 주성분 분석을 기반으로 하는 침입 탐지 방장치에 대하여 상세히 설명한다.
도 2는 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 장치의 구성을 설명하기 위한 도면이다.
도 2를 참조하여 설명하면, 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 장치(100)는 크게 주성분 분석부(110), 침입 탐지 모델 생성부(120) 및 침입 탐지부(140)를 포함한다.
주성분 분석부(110)는 소정의 파일로부터 수집된 데이터 집합 S(N×D)의 데이터 차원수를 줄여 새로운 데이터 집합 D(N×d)를 획득한다. 이때, 데이터 집합 S의 N은 데이터 집합 S의 데이터 개수이고, D는 데이터 집합 S의 차원 개수이며, 새로운 데이터 집합 D의 N은 새로운 데이터 집합 D의 데이터 개수이고, d는 새로운 데이터 집합 D의 차원 개수이다.
보다 자세하게, 주성분 분석부(110)는 하기와 같이 데이터 집합 S의 이산 속성을 연속 속성을 변환한다.
Figure 112014115942438-pat00001
그리고 하기와 같이 데이터 집합 S에 포함된 모든 데이터의 평균값을 계산한다.
Figure 112014115942438-pat00002
Figure 112014115942438-pat00003
Figure 112014115942438-pat00004
그리고 하기와 같이 데이터 집합 S에 포함된 각 데이터에 평균값을 뺀다.
Figure 112014115942438-pat00005
Figure 112014115942438-pat00006
Figure 112014115942438-pat00007
그리고 데이터 집합 S의 공분산 행렬을 찾고, 공분산 행렬의 특징값과 특징 벡터를 계산한다.
그리고 계산된 특징값을 이용하여 최대 d개의 특징 벡터를 추출하여 새로운 데이터 집합 D를 획득한다. 이때, 특징 벡터는 u1, u2,…,ud로 표시하고, 특징 벡터의 전치 행렬 U는 하기와 같다. 이때, 새로운 데이터 집합 D는 기존 데이터 집합의 데이터 유형에 추가된다.
Figure 112014115942438-pat00008
Figure 112014115942438-pat00009
침입 탐지 모델 생성부(120)는 획득된 새로운 데이터 집합 D(N×d)이 포함하는 연속 속성의 최적 분할점을 찾아 이득 비율을 계산하고, 계산된 각 속성의 이득 비율을 비교한 다음 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 분류 알고리즘을 적용하여 트리 구조를 구성하고, 구성된 트리 구조에서 테스트 데이터의 클래스 유형을 산출한다. 그리고 새로운 데이터 집합 D는 속성 {A1,A2....Ad)를 가지고 있고 각 속성 Ai는 {Ai1, Ai2...Aih} 연속 속성값을 가지고 있고, 트레이닝 집합은 데이터 유형 {C1. C2... Cm}을 가지고 있다.
이를 위해, 침입 탐지 모델 생성부(120)는 트리 구성부 및 클래스 유형 산출부를 포함하며 이에 대해서는 이후 도 2 및 도 3을 통해 자세하게 설명하기로 한다.
또한, 본 발명에 따른 분류 알고리즘은 C4.5 알고리즘이다. J. Ross Quinlan에 의해 제안된 C4.5 알고리즘은 엔트로피의 감소값에 따른 이득을 계산하여 트리를 자동으로 구성한다. C4.5는 분류 알고리즘의 일종으로 네트워크 데이터는 대용량의 패킷들을 가지고 있고, 패킷내에 연속적인 형태와 이산적인 형태의 척도들이 동시에 존재하기 때문에 이를 효과적으로 분류하기에 적합하다.
또한, 이러한 분류 알고리즘은 신경망이나 베이지안 분류기에 비해 관계형 데이터베이스의 질의언어인 SQL문으로 바꾸기 쉬우므로 탐지규칙을 생성시키는데도 유리하다.
그리고 침입 탐지부(150)은 산출된 테스트 데이터 클래스 유형을 토대로 외부로부터 침입 여부를 탐지한다.
도 3은 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 장치에 채용되는 침입 탐지 모델 생성부의 세부 구성을 설명하기 위한 도면이다.
도 2를 참조하여 설명하면, 본 발명에 따른 침입 탐지 모델 생성부(120)는 트리 구성부(130) 및 클래스 유형 산출부(140)를 포함한다.
트리 구성부(130)는 새로운 데이터 집합 D(N×d)가 포함하는 연속 속성의 이득 비율과 최적의 분할점을 토대로 트리 구조의 속성 노드를 생성하는 구성한다.
이를 위해, 트리 구성부(130)는 이득 비율 계산부(131) 및 트리 생성부(132)를 포함한다.
이득 비율 계산부(131)는 획득된 새로운 데이터 집합 D(N×d)가 포함하는 연속 속성의 최적 분할점을 찾아 이득 비율을 계산한다.
이때, 이득 비율은 속성이 가지고 있는 정보를 나타내는 속성 정보(split Info)에서 속성을 구분할 때 생기는 엔트로피 감소량에 대한 기대치를 나타내는 정보 이득((information gain)으로 나눈 값이다.
정보 이득은 하기의 수학식 1을 통해 계산된다.
Figure 112014115942438-pat00010
Where,
Figure 112014115942438-pat00011
이때, frep(Ci,D)는 새로운 데이터 집합 D 중 클래스 유형에 속한 데이터 수이고, Di는 속성 A의 값 Ai를 통해 나누는 새로운 데이터 집합 D의 부분 데이터 집합.
그리고 속성 정보는 하기의 수학식 2를 통해 계산된다.
Figure 112014115942438-pat00012
그리고 이득 비율을 하기의 수학식 3을 통해 계산된다.
Figure 112014115942438-pat00013
트리 생성부(132)는 계산된 각 속성의 이득 비율을 비교한 다음 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 트레이닝 집합을 부분 집합으로 분리하여 새로운 데이터 집합 D(N×d)의 엔트로피가 '0' 또는 새로운 데이터 집합 D(N×d)의 모든 속성이 동일한 최대 이득 비율을 가질 때까지 트리 구조를 생성한다.
클래스 유형 산출부(140)는 구성된 트리 구조에서 구성된 트리 구조의 잎 노드를 통해 테스트 데이터의 클래스 유형을 산출한다.
이하, 본 발명의 실시에에 따른 주성분 분석을 기반으로 하는 침입 탐지 방법에 대하여 상세히 설명한다.
도 4는 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 방법의 순서를 설명하기 위한 도면이다.
도 4를 참조하여 설명하면, 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 방법은 앞서 설명한 침입 탐지 장치를 이용하는 것으로, 이하 중복되는 설명은 생략하기로 한다.
먼저, 소정의 파일로부터 수집된 데이터 집합 S(N×D)의 데이터 차원수를 줄여 새로운 데이터 집합 D(N×d)를 획득한다(S100).
다음, 획득된 새로운 데이터 집합 D(N×d)이 포함하는 연속 속성의 최적 분할점을 찾아 이득 비율을 계산하고, 계산된 각 속성의 이득 비율을 비교한 다음 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 분류 알고리즘을 적용하여 트리 구조를 구성한다(S110).
다음, 구성된 트리 구조에서 테스트 데이터의 클래스 유형을 산출한다(S120).
다음, 산출된 테스트 데이터 클래스 유형을 토대로 외부로부터의 침입 여부를 분석 및 탐지한다(S130).
도 5는 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 방법에서 트리 구조를 구성하는 순서를 설명하기 위한 도면이다.
도 5를 참조하여 설명하면, 본 발명에 따라 새로운 데이터 집합 D(N×d)가 포함하는 연속 속성의 정보 이득와 최적의 분할점을 토대로 분류 알고리즘을 적용한 트리 구조를 구성하는 방법은 앞서 설명한 침입 탐지 장치를 이용하는 것으로, 이하 중복되는 설명은 생략하기로 한다.
먼저, 획득된 새로운 데이터 집합 D(N×d)가 포함하는 연속 속성의 최적 분할점을 찾아 이득 비율을 계산한다(S200).
다음, 계산된 각 속성의 이득 비율을 비교한다(S210).
다음, 최대 이득 비율 갖는 속성과 해당 속성의 최적 분할점을 토대로 트레이닝 데이터 집합을 부분 데이터 집합으로 분리한다(S220). S220 단계를 반복 수행한다.
다음, 새로운 데이터 집합 D(N×d)의 엔트로피가 '0' 또는 모든 속성이 동일한 최대 이득 비율을 갖는지 여부를 판단한다(S230).
다음, 새로운 데이터 집합 D(N×d)의 엔트로피가 '0' 또는 모든 속성이 동일한 최대 이득 비율을 갖는 경우 의사 결정 트리 구조를 구성한다(S240).
도 6 내지 도 9는 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 장치 및 방법의 성능을 나타내는 도면이다. 보다 자세하게, 도 6 및 도 7은 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 성능을 나타내는 도면이고, 도 8은 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지 성능의 정확도를 나타내는 도면이고, 도 9는 본 발명에 따른 주성분 분석을 기반으로 하는 침입 탐지에 따른 메모리 및 시간을 나타내는 도면으로 시간 및 메모리 오버 헤드를 감소시키는 효과가 있음을 알 수 있다.
이처럼, 본 발명에 의한 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법은 주성분 분석을 통해 데이터 집합의 차원을 줄인 다음 의사 C4.5 알고리즘을 이용하여 침입 탐지 모델을 생성함으로써, 높은 탐지율을 제공하고 긍정 오류(false positive) 및 부정 오류(false negative)율을 최소화할 수 있다.
따라서, 본 발명은 시간과 메모리 오버헤드를 줄일 수 있다.
이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진 자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.
100 : 침입 탐지 장치
110 : 주성분 분석부
120 : 침입 탐지 모델 생성부
130 : 트리 구성부
140 : 클래스 유형 산출부
150 : 침입 탐지부

Claims (13)

  1. 소정의 파일로부터 수집된 데이터 집합 S(NXD)의 데이터 차원수를 줄여 새로운 데이터 집합 D(NXd)를 획득하는 주성분 분석부; 및
    획득된 새로운 데이터 집합 D(NXd)이 포함하는 연속 속성에서 가장 높은 정보 이득(information gain)을 갖는 최적 분할점을 찾아 이득 비율(gain ratio)을 계산하고, 계산된 각 연속 속성의 이득 비율을 비교한 다음, 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 분류 알고리즘을 적용하여 트레이닝 집합을 부분 집합으로 분리하고, 새로운 데이터 집합의 엔트로피가 '0' 또는 모든 속성이 동일한 최대 이득 비율을 가질 때까지 속성 노드를 생성하여 트리 구조를 구성하고, 구성된 트리 구조에서 테스트 데이터의 클래스 유형을 산출하는 침입 탐지 모델을 생성하는 침입 탐지 모델 생성부;
    를 포함하되,
    이득 비율은 속성 정보(split Info)에서 속성을 구분할 때 생기는 엔트로피 감소량에 대한 기대치를 나타내는 정보 이득(information gain)으로 나눈 값인 것을 특징으로 하는 것을 특징으로 하는 주성분 분석을 기반으로 하는 침입 탐지 장치.
  2. 제1항에 있어서,
    상기 주성분 분석부의 데이터 집합 S의 N은 데이터 집합 S의 데이터 개수이고, D는 데이터 집합 S의 차원 개수이며, 새로운 데이터 집합 D의 N은 새로운 데이터 집합 D의 데이터 개수이고, d는 새로운 데이터 집합 D의 차원 개수인 것을 특징으로 하는 주성분 분석을 기반으로 하는 침입 탐지 장치.
  3. 제1항에 있어서,
    상기 침입 탐지 모델 생성부는,
    새로운 데이터 집합 D(NXd)가 포함하는 연속 속성의 이득 비율과 최적 분할점을 토대로 트리 구조의 속성 노드를 생성하여 구성하는 트리 구성부; 및
    구성된 트리 구조의 잎 노드를 통해 테스트 데이터의 클래스 유형을 산출하는 클래스 유형 산출부;
    를 포함하는 것을 특징으로 하는 주성분 분석을 기반으로 하는 침입 탐지 장치.
  4. 제3항에 있어서,
    상기 트리 구성부는,
    획득된 새로운 데이터 집합 D(NXd)가 포함하는 연속 속성의 최적 분할점을 찾아 이득 비율을 계산하는 이득 비율 계산부; 및
    계산된 각 연속 속성의 이득 비율을 비교한 다음 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 트레이닝 집합을 부분 집합으로 분리하여 새로운 데이터 집합 D(NXd)의 엔트로피가 '0' 또는 새로운 데이터 집합 D(NXd)의 모든 속성이 동일한 최대 이득 비율을 가질 때까지 트리 구조를 생성하는 트리 생성부;
    를 포함하는 것을 특징으로 하는 주성분 분석을 기반으로 하는 침입 탐지 장치.
  5. 제4항에 있어서,
    상기 트리 생성부는 새로운 데이터 집합 D(N×d)의 엔트로피가 '0'이 되고 속성이 동일한 경우, 잎 노드를 설정하는 것을 특징으로 하는 주성분 분석을 기반으로 하는 침입 탐지 장치.
  6. 제1항에 있어서,
    산출된 테스트 데이터 클래스 유형을 토대로 외부로부터 침입 여부를 탐지하는 침입 탐지부를 더 포함하는 것을 특징으로 하는 주성분 분석을 기반으로 하는 침입 탐지 장치.
  7. 제1항에 있어서,
    상기 분류 알고리즘은 C4.5 알고리즘인 것을 특징으로 하는 주성분 분석을 기반으로 하는 침입 탐지 장치.
  8. 삭제
  9. 주성분 분석부에 의해, 소정의 파일로부터 수집된 데이터 집합 S(NXD)의 데이터 차원수를 줄여 새로운 데이터 집합 D(NXd)를 획득하는 단계;
    침입 탐지 모델 생성부에 의해, 획득된 새로운 데이터 집합 D(NXd)이 포함하는 연속 속성에서 가장 높은 정보 이득(information gain)을 갖는 최적 분할점을 찾아 이득 비율(gain ratio)을 계산하고, 계산된 각 연속 속성의 이득 비율을 비교한 다음, 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 분류 알고리즘을 적용하여 트레이닝 집합을 부분 집합으로 분리하고, 새로운 데이터 집합의 엔트로피가 '0' 또는 모든 속성이 동일한 최대 이득 비율을 가질 때까지 속성 노드를 생성하여 트리 구조를 구성하는 단계: 및
    상기 침입 탐지 모델 생성부에 의해, 구성된 트리 구조에서 테스트 데이터의 클래스 유형을 산출하는 침입 탐지 모델을 생성하는 단계;를 포함하고,
    이득 비율은 속성 정보(split Info)에서 속성을 구분할 때 생기는 엔트로피 감소량에 대한 기대치를 나타내는 정보 이득(information gain)으로 나눈 값인 것을 특징으로 하는 것을 특징으로 하는 주성분 분석을 기반으로 하는 침입 탐지 방법.
  10. 제9항에 있어서,
    소정의 파일로부터 수집된 데이터 집합 S(N×D)의 데이터 차원수를 줄여 새로운 데이터 집합 D(N×d)를 획득하는 단계에서,
    데이터 집합 S의 N은 데이터 집합 S의 데이터 개수이고, D는 데이터 집합 S의 차원 개수이며, 새로운 데이터 집합 D의 N은 새로운 데이터 집합 D의 데이터 개수이고, d는 새로운 데이터 집합 D의 차원 개수인 것을 특징으로 하는 주성분 분석을 기반으로 하는 침입 탐지 방법.
  11. 제9항에 있어서,
    획득된 새로운 데이터 집합 D(NXd)이 포함하는 연속 속성에서 가장 높은 정보 이득(information gain)을 갖는 최적 분할점을 찾아 이득 비율(gain ratio)을 계산하고, 계산된 각 연속 속성의 이득 비율을 비교한 다음, 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 분류 알고리즘을 적용하여 트레이닝 집합을 부분 집합으로 분리하고, 새로운 데이터 집합의 엔트로피가 '0' 또는 모든 속성이 동일한 최대 이득 비율을 가질 때까지 속성 노드를 생성하여 트리 구조를 구성하는 단계는,
    계산된 각 연속 속성의 이득 비율을 비교한 다음 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 트레이닝 집합을 부분 집합으로 분리하여 새로운 데이터 집합 D(NXd)의 엔트로피가 '0' 또는 새로운 데이터 집합 D(NXd)의 모든 속성이 동일한 최대 이득 비율을 가질 때까지 트리 구조를 생성하는 것을 특징으로 하는 주성분 분석을 기반으로 하는 침입 탐지 방법.
  12. 제11항에 있어서,
    획득된 새로운 데이터 집합 D(NXd)이 포함하는 연속 속성에서 가장 높은 정보 이득(information gain)을 갖는 최적 분할점을 찾아 이득 비율(gain ratio)을 계산하고, 계산된 각 연속 속성의 이득 비율을 비교한 다음, 최대 이득 비율을 갖는 속성과 해당 속성의 최적 분할점을 토대로 분류 알고리즘을 적용하여 트레이닝 집합을 부분 집합으로 분리하고, 새로운 데이터 집합의 엔트로피가 '0' 또는 모든 속성이 동일한 최대 이득 비율을 가질 때까지 속성 노드를 생성하여 트리 구조를 구성하는 단계는,
    새로운 데이터 집합 D(NXd)의 엔트로피가 '0'이 되고 속성이 동일한 경우, 잎 노드를 설정하는 것을 특징으로 하는 주성분 분석을 기반으로 하는 침입 탐지 방법.
  13. 제9항에 있어서,
    구성된 트리 구조에서 테스트 데이터의 클래스 유형을 산출하는 침입 탐지 모델을 생성하는 단계 이후에,
    산출된 테스트 데이터 클래스 유형을 토대로 외부로부터 침입 여부를 탐지하는 단계;를 더 포함하는 것을 특징으로 하는 주성분 분석을 기반으로 하는 침입 탐지 방법.
KR1020140168642A 2014-11-28 2014-11-28 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법 KR101573413B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140168642A KR101573413B1 (ko) 2014-11-28 2014-11-28 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140168642A KR101573413B1 (ko) 2014-11-28 2014-11-28 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR101573413B1 true KR101573413B1 (ko) 2015-12-01

Family

ID=54882839

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140168642A KR101573413B1 (ko) 2014-11-28 2014-11-28 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101573413B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113824546A (zh) * 2020-06-19 2021-12-21 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
US11909751B2 (en) 2020-11-18 2024-02-20 Foundation Of Soongsil University-Industry Cooperation Anomaly detection method based on IoT and apparatus thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100628329B1 (ko) * 2005-07-30 2006-09-27 한국전자통신연구원 네트워크 세션 특성 정보에 대한 공격 행위 탐지규칙 생성장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100628329B1 (ko) * 2005-07-30 2006-09-27 한국전자통신연구원 네트워크 세션 특성 정보에 대한 공격 행위 탐지규칙 생성장치 및 그 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113824546A (zh) * 2020-06-19 2021-12-21 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN113824546B (zh) * 2020-06-19 2024-04-02 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
US11909751B2 (en) 2020-11-18 2024-02-20 Foundation Of Soongsil University-Industry Cooperation Anomaly detection method based on IoT and apparatus thereof

Similar Documents

Publication Publication Date Title
US20200344246A1 (en) Apparatus, system and method for identifying and mitigating malicious network threats
Gogoi et al. MLH-IDS: a multi-level hybrid intrusion detection method
Farid et al. Combining naive bayes and decision tree for adaptive intrusion detection
US9094288B1 (en) Automated discovery, attribution, analysis, and risk assessment of security threats
US20160352759A1 (en) Utilizing Big Data Analytics to Optimize Information Security Monitoring And Controls
Xia et al. An efficient network intrusion detection method based on information theory and genetic algorithm
CN108632224B (zh) 一种apt攻击检测方法和装置
CN111277570A (zh) 数据的安全监测方法和装置、电子设备、可读介质
CN108632269B (zh) 基于c4.5决策树算法的分布式拒绝服务攻击检测方法
CN105553998A (zh) 一种网络攻击异常检测方法
Lappas et al. Data mining techniques for (network) intrusion detection systems
Osanaiye et al. Change-point cloud DDoS detection using packet inter-arrival time
KR100615080B1 (ko) 컴퓨터 네트워크상에서 악성 봇과 웜에 대한 규칙기반탐지패턴을 자동 생성하기 위한 방법
CN109194608B (zh) 一种基于流的DDoS攻击与闪拥事件检测方法
Zhu Attack pattern discovery in forensic investigation of network attacks
Hareesh et al. Anomaly detection system based on analysis of packet header and payload histograms
Niknami et al. Entropy-kl-ml: Enhancing the entropy-kl-based anomaly detection on software-defined networks
Karimpour et al. Intrusion detection in network flows based on an optimized clustering criterion
KR101573413B1 (ko) 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법
Giacinto et al. Alarm clustering for intrusion detection systems in computer networks
KR101488271B1 (ko) Ids 오탐 검출 장치 및 방법
US7957372B2 (en) Automatically detecting distributed port scans in computer networks
Gautam et al. Anomaly detection system using entropy based technique
Sulaiman et al. Big data analytic of intrusion detection system
Yange et al. A data analytics system for network intrusion detection using decision tree

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181102

Year of fee payment: 4

R401 Registration of restoration