KR102443811B1 - 인공지능 자가학습형 웹방화벽 서비스 제공 시스템 및 방법 - Google Patents

인공지능 자가학습형 웹방화벽 서비스 제공 시스템 및 방법 Download PDF

Info

Publication number
KR102443811B1
KR102443811B1 KR1020210155449A KR20210155449A KR102443811B1 KR 102443811 B1 KR102443811 B1 KR 102443811B1 KR 1020210155449 A KR1020210155449 A KR 1020210155449A KR 20210155449 A KR20210155449 A KR 20210155449A KR 102443811 B1 KR102443811 B1 KR 102443811B1
Authority
KR
South Korea
Prior art keywords
learning
artificial intelligence
unit
dataset
algorithm
Prior art date
Application number
KR1020210155449A
Other languages
English (en)
Inventor
이대호
이동근
배병주
신경아
김진욱
Original Assignee
주식회사 에프원시큐리티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에프원시큐리티 filed Critical 주식회사 에프원시큐리티
Priority to KR1020210155449A priority Critical patent/KR102443811B1/ko
Application granted granted Critical
Publication of KR102443811B1 publication Critical patent/KR102443811B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

외부 서버로부터 정상 패킷 및 웹공격 패킷을 수집하는 데이터 수집부, 수집된 정상 패킷 및 웹공격 패킷을 포함하는 제1 학습데이터세트를 생성하는 학습데이터세트 구성부, 미리 저장된 전처리 알고리즘을 이용하여 상기 제1 학습데이터세트에 대해 데이터 전처리를 수행한 후, 미리 저장된 피처 추출 알고리즘을 이용하여 피처 정보를 추출하는 전처리부, 상기 제1 학습데이터세트를 바탕으로 미리 저장된 인공지능 알고리즘을 이용하여 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 생성하는 학습부, 그리고 상기 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 이용하여 웹공격을 탐지하는 공격 탐지부를 포함하는 인공지능 자가학습형 웹방화벽 서비스 제공 시스템이 제공된다.

Description

인공지능 자가학습형 웹방화벽 서비스 제공 시스템 및 방법{SYSTEM AND METHOD FOR PROVIDING WEB FIREWALL SERVICE BASED ON ARTIFICIAL INTELLIGENCE SELF-LEARNING}
본 발명은 웹방화벽 서비스 제공 시스템 및 방법에 관한 것으로, 특히 다양한 알고리즘이 적용된 인공지능 자가학습형 웹방화벽 서비스 제공 시스템 및 방법에 관한 것이다.
현재 HTTP 통신상에서의 공격 탐지 방법으로 인젝션 공격, 파라미터 검사, 업로드 바이너리 검사 등 페이로드 위주의 연구가 활발하게 진행되고 있다.
인공지능 기반 공격 탐지 방법에 대한 연구도 활발하게 진행되고 있다. 종래의 인공지능 기반 공격 탐지 방법은 네트워크와 페이로드(Length of payload, Byte entropy of payload, Number of distinct bytes 등)에 기반하여 데이터 셋(Data set) 및 피처(Feature)를 추출하였기 때문에, 웹 공격 탐지의 정확도가 낮은 문제점이 있었다.
이에 따라, 다양한 인공지능 학습 모델을 이용하여 웹공격을 탐지함으로써, 웹공격 탐지의 정확도를 향상시킬 수 있는 기술이 요구된다.
본 발명이 이루고자 하는 기술적 과제는 다양한 인공지능 학습 모델을 이용하여 다중 레이블 분류 학습, 도메인별 정상 웹 트래픽 학습, 유사 웹공격 프로파일링 학습을 수행함으로써, 웹공격 탐지의 정확도를 향상시킬 수 있는 인공지능 자가학습형 웹방화벽 서비스 제공 시스템 및 방법을 제공하는 것이다.
한 실시예에 따르면, 인공지능 자가학습형 웹방화벽 서비스 제공 시스템이 제공된다. 상기 인공지능 자가학습형 웹방화벽 서비스 제공 시스템은 외부 서버로부터 정상 패킷 및 웹공격 패킷을 수집하는 데이터 수집부, 수집된 정상 패킷 및 웹공격 패킷을 포함하는 제1 학습데이터세트를 생성하는 학습데이터세트 구성부, 미리 저장된 전처리 알고리즘을 이용하여 상기 제1 학습데이터세트에 대해 데이터 전처리를 수행한 후, 미리 저장된 피처 추출 알고리즘을 이용하여 피처 정보를 추출하는 전처리부, 상기 제1 학습데이터세트를 바탕으로 미리 저장된 인공지능 알고리즘을 이용하여 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 생성하는 학습부, 그리고 상기 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 이용하여 웹공격을 탐지하는 공격 탐지부를 포함한다.
상기 학습데이터세트 구성부는, 미리 저장된 알고리즘을 이용하여 상기 학습데이터세트에 포함되는 개인정보를 비식별화할 수 있다.
상기 학습부는, 미리 저장된 제1 인공지능 알고리즘을 이용하여 상기 제1 학습데이터세트를 가공하여 제2 학습데이터세트를 생성할 수 있다.
상기 학습부는, 상기 제2 학습데이터세트를 바탕으로 학습을 수행하여 상기 제1 인공지능 학습 모델을 생성할 수 있다.
상기 학습부는, 미리 저장된 제2 인공지능 알고리즘을 이용하여 상기 제1 학습데이터세트를 가공하여 제3 학습데이터세트를 생성할 수 있다.
상기 학습부는, 상기 제3 학습데이터세트를 바탕으로 학습을 수행하여 상기 제2 인공지능 학습 모델을 생성할 수 있다.
상기 학습부는, 미리 저장된 제3 인공지능 알고리즘을 이용하여 상기 제1 학습데이터세트를 가공하여 제4 학습데이터세트를 생성할 수 있다.
한 실시예에 따르면, 인공지능 자가학습형 웹방화벽 서비스 제공 시스템의 웹방화벽 서비스 제공 방법이 제공된다. 상기 인공지능 자가학습형 웹방화벽 서비스 제공 방법은 데이터 수집부가, 외부 서버로부터 정상 패킷 및 웹공격 패킷을 수집하는 단계, 학습데이터세트 구성부가, 수집된 정상 패킷 및 웹공격 패킷을 포함하는 제1 학습데이터세트를 생성하는 단계, 전처리부가, 미리 저장된 전처리 알고리즘을 이용하여 상기 제1 학습데이터세트에 대해 데이터 전처리를 수행한 후, 미리 저장된 피처 추출 알고리즘을 이용하여 피처 정보를 추출하는 단계, 학습부가, 상기 제1 학습데이터세트를 바탕으로 미리 저장된 인공지능 알고리즘을 이용하여 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 생성하는 단계, 그리고 공격 탐지부가, 상기 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 이용하여 웹공격을 탐지하는 단계를 포함한다.
다양한 인공지능 학습 모델을 이용하여 다중 레이블 분류 학습, 도메인별 정상 웹 트래픽 학습, 유사 웹공격 프로파일링 학습을 수행함으로써, 웹공격 탐지의 정확도를 향상시킬 수 있다.
도 1 내지 도 3은 한 실시예에 따른 인공지능 자가학습형 웹방화벽 서비스 제공 시스템의 블록도이다.
도 4는 한 실시예에 따른 데이터 수집부를 설명하기 위한 도면이다.
도 5는 한 실시예에 따른 제1 학습데이터세트를 설명하기 위한 도면이다.
도 6은 한 실시예에 따른 학습데이터세트 구성부의 동작 내용을 설명하기 위한 도면이다.
도 7 및 도 8은 한 실시예에 따른 전처리부의 동작 내용을 설명하기 위한 도면이다.
도 9 내지 도 18은 한 실시예에 따른 학습부의 동작 내용을 설명하기 위한 도면이다.
도 19는 한 실시예에 따른 인공지능 자가학습형 웹방화벽 서비스 제공 방법의 흐름도이다.
도 20은 한 실시예에 따른 인공지능 자가학습형 웹방화벽 서비스 제공 시스템의 블록도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 발명의 실시 예에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시 예들의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 실시 예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시 예들의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 발명의 실시 예에서, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
또한, 본 발명의 실시 예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
또한, 본 발명의 실시 예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 발명의 실시 예에서, '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의'모듈' 혹은 복수의'부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
도 1 내지 도 3은 한 실시예에 따른 인공지능 자가학습형 웹방화벽 서비스 제공 시스템의 블록도이다. 도 4는 한 실시예에 따른 데이터 수집부를 설명하기 위한 도면이다. 도 5는 한 실시예에 따른 제1 학습데이터세트를 설명하기 위한 도면이다. 도 6은 한 실시예에 따른 학습데이터세트 구성부의 동작 내용을 설명하기 위한 도면이다. 도 7 및 도 8은 한 실시예에 따른 전처리부의 동작 내용을 설명하기 위한 도면이다. 도 9 내지 도 18은 한 실시예에 따른 학습부의 동작 내용을 설명하기 위한 도면이다.
도 1 내지 도 3을 참조하면, 한 실시예에 따른 인공지능 자가학습형 웹방화벽 서비스 제공 시스템은 데이터 수집부(110), 학습데이터세트 구성부(120), 전처리부(130), 학습부(140), 공격 탐지부(150), 통신부(160), 제어부(170)를 포함할 수 있다.
도 4를 참조하면, 데이터 수집부(110)는 한 실시예로서, 외부 서버(200)로부터 정상 패킷 및 웹공격 패킷을 수집할 수 있다.
외부 서버(200)는 한 실시예로서, 쇼핑몰 도메인 서버, 웹툰 서비스 제공 도메인 서버, 택시 배차 서비스 제공 도메인 서버일 수 있다.
도 5를 참조하면, 학습데이터세트 구성부(120)는 한 실시예로서, 수집된 정상 패킷 및 웹공격 패킷을 포함하는 제1 학습데이터세트를 생성할 수 있다.
제1 학습데이터세트는 한 실시예로서, 정상 패킷, 공격 패킷, 공격유형, CRS(Core Rule Set) Rule ID를 포함할 수 있다.
도 6을 참조하면, 학습데이터세트 구성부는 한 실시예로서, 미리 저장된 비식별화 알고리즘을 이용하여 학습데이터세트에 포함되는 개인정보를 비식별화(de-identification)할 수 있다.
학습데이터세트 구성부는 한 실시예로서, 미리 저장된 알고리즘을 이용하여 상기 학습데이터세트에 포함되는 개인정보를 미리 설정된 통계값으로 변환하거나, 개인정보 중 특정 데이터값을 삭제하거나, 개인정보를 대표값으로 변환하거나 구간값으로 변환하거나, 또는 개인정보를 전체 또는 부분에 대해 대체값으로 변환할 수 있다.
학습데이터세트 구성부는 한 실시예로서, 미리 저장된 비식별화 알고리즘을 이용하여 학습데이터세트에 포함되는 개인정보 중 개인 식별이 가능한 데이터에 대해 직접적으로 식별할 수 없는 다른 값으로 변환할 수 있다. 예를 들어, 학습데이터세트 구성부는 '홍길동'을 '임꺽정'으로 변환할 수 있다.
학습데이터세트 구성부는 한 실시예로서, 미리 저장된 비식별화 알고리즘을 이용하여 학습데이터세트에 포함되는 개인정보에 대해 통계값으로 변환할 수 있다. 예를 들어, 학습데이터세트 구성부는 '임꺽정 180츠'를 '물리학과 학생키 합은 515츠'로 변환할 수 있다.
학습데이터세트 구성부는 한 실시예로서, 미리 저장된 비식별화 알고리즘을 이용하여 학습데이터세트에 포함되는 개인정보 중 개인 식별이 가능한 특정 데이터값을 삭제할 수 있다. 예를 들어, 학습데이터세트 구성부는 '주민번호 8000101-1234567'을 '80년대 생'으로 변환할 수 있다.
학습데이터세트 구성부는 한 실시예로서, 미리 저장된 비식별화 알고리즘을 이용하여 학습데이터세트에 포함되는 개인정보 중 단일 식별 정보를 해당 그룹의 대표값으로 변환하거나 구간값으로 변환할 수 있다. 예를 들어, 학습데이터세트 구성부는 '홍길동'을 '홍씨'로 변환할 수 있다.
학습데이터세트 구성부는 한 실시예로서, 미리 저장된 알고리즘을 이용하여 학습데이터세트에 포함되는 개인정보에 대해 전체 또는 부분에 대해 대체값(예, 공백, 특수문자, 노이즈 등)으로 변환할 수 있다. 예를 들어, 학습데이터세트 구성부는 '홍길동'을 '홍○○'으로 변환할 수 있다.
도 7을 참조하면, 전처리부(130)는 한 실시예로서, 미리 저장된 전처리 알고리즘을 이용하여 제1 학습데이터세트에 대해 데이터 전처리를 수행할 수 있다.
전처리부(130)는 한 실시예로서, 미리 저장된 전처리 알고리즘을 이용하여 제1 학습데이터세트에 대해 오류 패킷 제거(Erro packet Elimination), 중복 제거(Deduplication), 디코딩(Decoding), 데이터셋 정제(Dataset Refining) 과정을 순차적으로 수행할 수 있다.
도 8을 참조하면, 전처리부(130)는 한 실시예로서, 제1 학습데이터세트에 대해 데이터 전처리를 수행한 후, 미리 저장된 피처 추출 알고리즘을 이용하여 피처 정보를 추출할 수 있다.
학습부(140)는 한 실시예로서, 제1 학습데이터세트를 바탕으로 미리 저장된 인공지능 알고리즘을 이용하여 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 생성할 수 있다.
도 9를 참조하면, 학습부(140)는 한 실시예로서, 미리 저장된 제1 인공지능 알고리즘을 이용하여 제1 학습데이터세트를 가공하여 제2 학습데이터세트를 생성할 수 있다. 제1 인공지능 알고리즘은 한 실시예로서, 분류(Classification) 알고리즘일 수 있다.
도 10을 참조하면, 학습부(140)는 한 실시예로서, 제1 학습데이터세트에 포함되는 HTTP 파라미터가 존재하는 영역에 대해 URL 디코딩을 미리 설정된 횟수(예, 10회)만큼 수행하고(1차 가공), HTTP 파라미터의 Key와 Value 모든 데이터를 1차원 리스트로 추출하며(2차 가공), 특수문자를 1차원 리스트로 변환하며, 대문자를 소문자로 변환하며, 숫자형식의 워드(word)는 1로 변환하며, 한글문자 형식의 워드는 0으로 변환할 수 있다(3차 가공).
학습부(140)는 한 실시예로서, 제2 학습데이터세트를 바탕으로 학습을 수행하여 제1 인공지능 학습 모델을 생성할 수 있다.
표 1을 참조하면, 정상과 웹공격 9종에 대한 제1 인공지능 학습 모델은 96.38%의 정확도를 나타낼 수 있다.
Figure 112021130568651-pat00001
도 11을 참조하면, 학습부(140)는 한 실시예로서, 미리 저장된 제1 인공지능 알고리즘을 이용하여 제1 학습데이터세트를 가공하여 제2 학습데이터세트를 생성할 수 있다. 제1 인공지능 알고리즘은 한 실시예로서, 분류(Classification) 알고리즘일 수 있다.
학습부(140)는 한 실시예로서, 제1 학습데이터세트에 포함되는 HTTP 파라미터가 존재하는 영역에 대해 URL 디코딩을 미리 설정된 횟수(예, 10회)만큼 수행하고(1차 가공), HTTP 파라미터의 Key와 Value 모든 데이터를 1차원 리스트로 추출하며(2차 가공), 특수문자를 1차원 리스트로 변환하며, 특수문자 배열을 추가 나열하며, 특정 문자열(HexCode Exploit이 적용된 문자열)만 그룹화하여 미리 설정된 문자열로 변환할 수 있다(3차 가공).
학습부(140)는 한 실시예로서, 제2 학습데이터세트를 바탕으로 학습을 수행하여 제1 인공지능 학습 모델을 생성할 수 있다.
표 2를 참조하면, 정상과 웹공격 9종에 대한 제1 인공지능 학습 모델은 99.79%의 정확도를 나타낼 수 있다. 제1 인공지능 학습 모델을 통해 다중 레이블 분류 학습이 가능하다.
Figure 112021130568651-pat00002
도 12를 참조하면, 학습부(140)는 한 실시예로서, 미리 저장된 제1 인공지능 알고리즘을 이용하여 제1 학습데이터세트를 가공하여 제2 학습데이터세트(URL PATH 930130)를 생성할 수 있다. 제1 인공지능 알고리즘은 한 실시예로서, 분류(Classification) 알고리즘일 수 있다.
학습부(140)는 한 실시예로서, 제1 학습데이터세트에 포함되는 악성파일에 대해 1gram, 2gram, 3gram을 추출하고 피처리스트 목록을 생성할 수 있다(피처 가공).
학습부(140)는 한 실시예로서, 제2 학습데이터세트를 바탕으로 학습을 수행하여 제1 인공지능 학습 모델을 생성할 수 있다.
표 3을 참조하면, URL PATH 930130에 대한 제1 인공지능 학습 모델은 99.94%의 정확도를 나타낼 수 있다.
Figure 112021130568651-pat00003
도 13을 참조하면, 학습부(140)는 한 실시예로서, 미리 저장된 제1 인공지능 알고리즘을 이용하여 제1 학습데이터세트를 가공하여 제2 학습데이터세트(920180, 920210, 920350)를 생성할 수 있다. 제1 인공지능 알고리즘은 한 실시예로서, 분류(Classification) 알고리즘일 수 있다.
학습부(140)는 한 실시예로서, 제1 학습데이터세트에 포함되는 Method 리스트를 인덱스(Index)로 변환하며, Content-Length가 0보다 클 때 1로 추출하며, Content-Length가 0일 때 0으로 추출하며, 해당 필드가 없을 때 -1로 추출하며, Host 필드 없을 때 1로 추출하며, Host 필드가 존재할 때 포트(port) 번호는 제외하고 .을 기준으로 스플릿(split)할 때의 숫자 개수로 추출하며, Connection이 keep-alive나 close 둘 중 하나라도 2번이상 나타나면 2로 추출하며, 1번만 나타나면 1로 추출하며, 하나도 나타나지 않으면 0으로 추출하며, Connection 필드가 없으면 0으로 추출할 수 있다(피처 가공).
학습부(140)는 한 실시예로서, 제2 학습데이터세트를 바탕으로 학습을 수행하여 제1 인공지능 학습 모델을 생성할 수 있다.
표 4를 참조하면, 920180, 920210, 920350에 대한 제1 인공지능 학습 모델은 99.85%의 정확도를 나타낼 수 있다.
Figure 112021130568651-pat00004
도 14를 참조하면, 학습부(140)는 한 실시예로서, 미리 저장된 제2 인공지능 알고리즘을 이용하여 제1 학습데이터세트를 가공하여 제3 학습데이터세트(도메인별 정상 HTTP Tr)를 생성할 수 있다. 제2 인공지능 알고리즘은 한 실시예로서, 이상탐지(Anomaly Detection) 알고리즘일 수 있다.
도 15 및 도 16을 참조하면, 학습부(140)는 한 실시예로서, 제1 학습데이터세트에 포함되는 패킷을 35개의 피처로 구성하고, 시간순으로 9개씩 패킷을 그룹핑하며, 1부터 9까지의 패킷을 인코딩할 수 있다(피처 가공).
학습부(140)는 한 실시예로서, 제3 학습데이터세트를 바탕으로 학습을 수행하여 제2 인공지능 학습 모델을 생성할 수 있다.
단일 패킷에 대한 제2 인공지능 학습 모델은 96.71%의 정확도를 나타낼 수 있다. 제2 인공지능 학습 모델을 통해 도메인별 정상 웹 트래픽 학습이 가능하다.
도 17 및 도 18을 참조하면, 학습부(140)는 한 실시예로서, 미리 저장된 제3 인공지능 알고리즘을 이용하여 제1 학습데이터세트를 가공하여 제4 학습데이터세트를 생성할 수 있다. 제3 인공지능 알고리즘은 한 실시예로서, 군집화(Clustering) 알고리즘일 수 있다.
제3 인공지능 학습 모델을 통해 유사 웹공격 프로파일링 학습이 가능하다.
공격 탐지부(150)는 한 실시예로서, 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 이용하여 웹공격을 탐지할 수 있다.
통신부(160)는 한 실시예로서, 웹공격 탐지 결과를 사용자 단말(300)에게 송신할 수 있다.
통신부(160)는 한 실시예로서, 유무선 통신을 이용하여 사용자 단말(300)과 데이터를 송수신하는 통신 모듈을 포함할 수 있다.
제어부(170)는 한 실시예로서, 관리자에 의해 입력되는 제어 명령에 기반하여 학습데이터세트 구성부(120), 전처리부(130), 학습부(140), 공격 탐지부(150), 통신부(160)의 동작을 제어할 수 있다.
도 19는 한 실시예에 따른 인공지능 자가학습형 웹방화벽 서비스 제공 방법의 흐름도이다.
도 19를 참조하면, 한 실시예에 따른 인공지능 자가학습형 웹방화벽 서비스 제공 방법은 데이터 수집부(110)가 외부 서버로부터 정상 패킷 및 웹공격 패킷을 수집하는 단계(S100), 학습데이터세트 구성부(120)가 수집된 정상 패킷 및 웹공격 패킷을 포함하는 제1 학습데이터세트를 생성하는 단계(S200), 전처리부(130)가 미리 저장된 전처리 알고리즘을 이용하여 제1 학습데이터세트에 대해 데이터 전처리를 수행한 후, 미리 저장된 피처 추출 알고리즘을 이용하여 피처 정보를 추출하는 단계(S300), 학습부(140)가 제1 학습데이터세트를 바탕으로 미리 저장된 인공지능 알고리즘을 이용하여 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 생성하는 단계(S400), 공격 탐지부(150)가 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 이용하여 웹공격을 탐지하는 단계(S500)를 포함할 수 있다.
단계 S100 내지 단계 S500은 위에서 설명한 인공지능 자가학습형 웹방화벽 서비스 제공 시스템의 동작 내용과 동일하므로, 상세한 설명은 생략한다.
도 20은 한 실시예에 따른 인공지능 자가학습형 웹방화벽 서비스 제공 시스템의 블록도이다.
도 20을 참조하면, 한 실시예에 따른 인공지능 자가학습형 웹방화벽 서비스 제공 시스템은 컴퓨터 시스템, 예를 들어 컴퓨터 판독 가능 매체로 구현될 수 있다. 컴퓨터 시스템(2000)은, 버스(2020)를 통해 통신하는 프로세서(2010), 메모리(2030), 사용자 인터페이스 입력 장치(2060), 사용자 인터페이스 출력 장치(2070), 및 저장 장치(2080) 중 적어도 하나를 포함할 수 있다. 컴퓨터 시스템(800)은 또한 네트워크에 결합된 네트워크 인터페이스(2090)를 포함할 수 있다. 프로세서(2010)는 중앙 처리 장치(central processing unit, CPU)이거나, 또는 메모리(2030) 또는 저장 장치(2080)에 저장된 명령을 실행하는 반도체 장치일 수 있다. 메모리(2030) 및 저장 장치(2080)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(2030)는 ROM(read only memory)(2031) 및 RAM(random access memory)(2032)를 포함할 수 있다. 본 기재의 실시예는 컴퓨터에 구현된 방법으로서 구현되거나, 컴퓨터 실행 가능 명령이 저장된 비일시적 컴퓨터 판독 가능 매체로서 구현될 수 있다. 한 실시예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 본 기재의 적어도 하나의 양상에 따른 방법을 수행할 수 있다.
한 실시예에 따른 인공지능 자가학습형 웹방화벽 서비스 제공 시스템은 프로세서(2010) 및 메모리(2030)를 포함하고, 프로세서(2010)는 메모리(2030)에 저장된 프로그램을 실행하여, 외부 서버로부터 정상 패킷 및 웹공격 패킷을 수집하는 단계, 수집된 정상 패킷 및 웹공격 패킷을 포함하는 제1 학습데이터세트를 생성하는 단계, 미리 저장된 전처리 알고리즘을 이용하여 제1 학습데이터세트에 대해 데이터 전처리를 수행한 후, 미리 저장된 피처 추출 알고리즘을 이용하여 피처 정보를 추출하는 단계, 제1 학습데이터세트를 바탕으로 미리 저장된 인공지능 알고리즘을 이용하여 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 생성하는 단계, 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 이용하여 웹공격을 탐지하는 단계를 수행할 수 있다.
프로세서(2010)의 동작 내용은 위에서 설명한 인공지능 자가학습형 웹방화벽 서비스 제공 시스템의 동작 내용과 동일하므로, 상세한 설명은 생략한다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
본 실시 예와 관련된 기술 분야에서 통상의 지식을 가진 자는 상기된 기재의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시 방법들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (8)

  1. 외부 서버로부터 정상 패킷 및 웹공격 패킷을 수집하는 데이터 수집부,
    수집된 정상 패킷 및 웹공격 패킷을 포함하는 제1 학습데이터세트를 생성하는 학습데이터세트 구성부,
    미리 저장된 전처리 알고리즘을 이용하여 상기 제1 학습데이터세트에 대해 데이터 전처리를 수행한 후, 미리 저장된 피처 추출 알고리즘을 이용하여 피처 정보를 추출하는 전처리부,
    상기 제1 학습데이터세트를 바탕으로 미리 저장된 인공지능 알고리즘을 이용하여 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 생성하는 학습부, 그리고
    상기 제1 인공지능 학습 모델, 제2 인공지능 학습 모델, 및 제3 인공지능 학습 모델을 이용하여 웹공격을 탐지하는 공격 탐지부
    를 포함하고,
    상기 학습부는
    상기 제1 학습데이터세트에 포함되는 HTTP 파라미터가 존재하는 영역에 대해 URL 디코딩을 미리 설정된 횟수만큼 수행하고, HTTP 파라미터의 데이터를 1차원 리스트로 추출하며, 특수문자를 1차원 리스트로 변환하며, 대문자를 소문자로 변환하며, 숫자형식의 워드는 1로 변환하며, 한글문자 형식의 워드는 0으로 변환하여 제2 학습데이터세트를 생성하며,
    상기 학습부는
    상기 제2 학습데이터세트를 바탕으로 학습을 수행하여 상기 제1 인공지능 학습 모델을 생성하며,
    상기 학습부는
    상기 제1 학습데이터세트에 포함되는 패킷을 35개의 피처로 구성하고, 시간순으로 9개씩 패킷을 그룹핑하며, 1부터 9까지의 패킷을 인코딩하여 제3 학습데이터세트를 생성하며,
    상기 학습부는
    상기 제3 학습데이터세트를 바탕으로 학습을 수행하여 상기 제2 인공지능 학습 모델을 생성하며,
    상기 학습데이터세트 구성부는
    미리 저장된 알고리즘을 이용하여 상기 제1 학습데이터세트에 포함되는 개인정보를 미리 설정된 통계값으로 변환하거나, 개인정보 중 특정 데이터값을 삭제하거나, 개인정보를 대표값으로 변환하거나 구간값으로 변환하거나, 또는 개인정보를 전체 또는 부분에 대해 대체값으로 변환하는 인공지능 자가학습형 웹방화벽 서비스 제공 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
KR1020210155449A 2021-11-12 2021-11-12 인공지능 자가학습형 웹방화벽 서비스 제공 시스템 및 방법 KR102443811B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210155449A KR102443811B1 (ko) 2021-11-12 2021-11-12 인공지능 자가학습형 웹방화벽 서비스 제공 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210155449A KR102443811B1 (ko) 2021-11-12 2021-11-12 인공지능 자가학습형 웹방화벽 서비스 제공 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR102443811B1 true KR102443811B1 (ko) 2022-09-19

Family

ID=83460893

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210155449A KR102443811B1 (ko) 2021-11-12 2021-11-12 인공지능 자가학습형 웹방화벽 서비스 제공 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102443811B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102156891B1 (ko) * 2020-02-25 2020-09-16 주식회사 에프원시큐리티 인공지능 머신러닝 행위 기반 웹 프로토콜 분석을 통한 웹 공격 탐지 및 차단 시스템 및 방법
KR102247181B1 (ko) * 2020-12-18 2021-05-03 주식회사 이글루시큐리티 Xai에 기초하여 생성된 학습데이터를 이용한 이상행위탐지모델 생성방법 및 장치
KR20210073391A (ko) * 2019-12-10 2021-06-18 국방과학연구소 머신러닝을 이용한 악성 트래픽 탐지 방법, 장치, 이를 위한 컴퓨터 프로그램 및 컴퓨터 판독가능한 기록매체

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210073391A (ko) * 2019-12-10 2021-06-18 국방과학연구소 머신러닝을 이용한 악성 트래픽 탐지 방법, 장치, 이를 위한 컴퓨터 프로그램 및 컴퓨터 판독가능한 기록매체
KR102156891B1 (ko) * 2020-02-25 2020-09-16 주식회사 에프원시큐리티 인공지능 머신러닝 행위 기반 웹 프로토콜 분석을 통한 웹 공격 탐지 및 차단 시스템 및 방법
KR102247181B1 (ko) * 2020-12-18 2021-05-03 주식회사 이글루시큐리티 Xai에 기초하여 생성된 학습데이터를 이용한 이상행위탐지모델 생성방법 및 장치

Similar Documents

Publication Publication Date Title
US11463476B2 (en) Character string classification method and system, and character string classification device
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
US8321434B1 (en) Two tiered architecture of named entity recognition engine
CN103164698B (zh) 文本指纹库生成方法及装置、文本指纹匹配方法及装置
US10873618B1 (en) System and method to dynamically generate a set of API endpoints
CN105677661A (zh) 一种检测社交媒体重复数据的方法
US20230353585A1 (en) Malicious traffic identification method and related apparatus
CN104866558A (zh) 一种社交网络账号映射模型训练方法及映射方法和系统
Han et al. Linking social network accounts by modeling user spatiotemporal habits
CN103929499B (zh) 一种物联网异构标识识别方法和系统
CN108197112A (zh) 一种从新闻中提取事件的方法
US20170229118A1 (en) Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system
WO2018047027A1 (en) A method for exploring traffic passive traces and grouping similar urls
Phan et al. User identification via neural network based language models
CN108199878B (zh) 高性能ip网络中个人标识信息识别系统及方法
KR102443811B1 (ko) 인공지능 자가학습형 웹방화벽 서비스 제공 시스템 및 방법
US9332031B1 (en) Categorizing accounts based on associated images
US10163005B2 (en) Document structure analysis device with image processing
CN110851828A (zh) 基于多维度特征的恶意url监测方法、装置和电子设备
CN114024701A (zh) 域名检测方法、装置及通信系统
Yeom et al. Detail analysis on machine learning based malicious network traffic classification
JP7140268B2 (ja) 警告装置、制御方法、及びプログラム
CN112883703A (zh) 一种识别关联文本的方法、装置、电子设备及存储介质
CN112000970A (zh) 一种基于部件关联图的文本无载体隐写方法及系统
Tien et al. Using Autoencoders for Anomaly Detection and Transfer Learning in Iot. Computers 2021, 10, 88