KR102281819B1 - 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템 - Google Patents

오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템 Download PDF

Info

Publication number
KR102281819B1
KR102281819B1 KR1020190121815A KR20190121815A KR102281819B1 KR 102281819 B1 KR102281819 B1 KR 102281819B1 KR 1020190121815 A KR1020190121815 A KR 1020190121815A KR 20190121815 A KR20190121815 A KR 20190121815A KR 102281819 B1 KR102281819 B1 KR 102281819B1
Authority
KR
South Korea
Prior art keywords
data
autoencoder
unit
distribution
models
Prior art date
Application number
KR1020190121815A
Other languages
English (en)
Other versions
KR20210039231A (ko
KR102281819B9 (ko
Inventor
세르게이 데니소브
조홍연
Original Assignee
주식회사 씨티아이랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 씨티아이랩 filed Critical 주식회사 씨티아이랩
Priority to KR1020190121815A priority Critical patent/KR102281819B1/ko
Publication of KR20210039231A publication Critical patent/KR20210039231A/ko
Application granted granted Critical
Publication of KR102281819B1 publication Critical patent/KR102281819B1/ko
Publication of KR102281819B9 publication Critical patent/KR102281819B9/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 발명은 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템에 관한 것으로, 본 발명에 따른 방법은 네트워크 패킷 데이터를 변환한 로그 데이터에서 학습에 필요한 데이터를 수집하는 단계, 수집된 데이터의 분포를 파악하는 단계, 파악된 데이터 분포에 기초하여 상기 수집된 데이터를 군집화하는 단계, 수집된 데이터를 군집화한 수만큼 복수의 오토인코더 모델을 생성하는 단계, 생성된 복수의 오토인코더 모델을 대응하는 군집에 속하는 데이터로 학습시키는 단계, 복수의 오토인코더 모델에 예측 대상 데이터를 입력하여 복원 오차를 계산하는 단계, 복수의 오토인코더 모델 중에서 복원 오차가 가장 작게 계산된 오토인코더 모델을 선택하는 단계, 선택된 오토인코더 모델에 미리 설정된 기준 오차와 선택된 오토인코더 모델에서 계산된 복원 오차를 비교하여 예측 대상 데이터의 비정상 여부를 예측하는 단계를 포함한다.

Description

오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템{Auto Encoder Ensemble Based Anomaly Detection Method and System}
본 발명은 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템에 관한 것으로, 보다 자세하게는 데이터의 분포를 분석하여 자동으로 오토인코더 앙상블을 생성하여 네트워크 패킷의 이상행위를 실시간으로 검출할 수 있는 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템에 관한 것이다.
기업이나 기관 등의 네트워크 시스템에서 비정상 행위를 탐지하기 위한 방법으로 인공지능 모델이 사용되고 있다. 그런데 기업이나 기관 등의 네트워크 시스템이 점점 복잡해지고 다루는 데이터의 양이 많아지면서, 이상행위 탐지 대상으로 대용량 불균형 데이터를 다루게 되는 경우가 늘어나고 있다.
불균형 데이터 문제를 해결하기 위해 학습 대상 데이터를 균형잡힌 클래스 분포를 만들어서 해결하고자 하는 노력이 있다. 그런데 종래 알고리즘은 대용량 초불균형 데이터의 특성을 고려하지 않아서 대용량 초불균형 데이터에서 이상행위 및 공격을 탐지하는데 어려움이 있었다.
대용량 초불균형 데이터라는 것은 데이터가 샘플 개수가 많지만 클래스 개수가 많지 않은 데이터를 말한다. 예를 들면 데이터 샘플 10,000개가 있고 그 중에 9,990개 정상 데이터고, 10개가 비정상 이상행위 데이터인 경우, 클래스 비율은 100:1 이 되고 초불균형 데이터라고 할 수 있다.
대용량 초불균형 데이터에서 공격 탐지가 어려운 이유는 정상 데이터 많기 때문에 분류기를 학습할 때 분류기가 정상 데이터 패턴을 훨씬 많이 학습하게 되어, 공격데이터를 탐지할 때 정상데이터로 오탐 예측할 확률이 크게 된다.
오버샘플링(OverSampling) 기법을 쓸 수 있지만 지도 학습 환경에서만 가능하고, 비지도 학습 환경에서 데이터 라벨링이 되어 있지 않아서 오버샘플링 기법을 사용하는 것에 어려움이 있다. 그리고 초불균형 비지도 학습 환경에서 일반적인 군집화 방법을 쓰면 비정상 데이터 샘플 개수가 적기 때문에 다른 정상 데이터 샘플 군집에 속하게 될 수도 있어서 공격 탐지 성능이 떨어질 수 있다.
따라서 본 발명이 해결하려는 과제는 대용량 초불균형 데이터의 분포를 분석하여 자동으로 오토인코더 앙상블을 생성하여 네트워크 패킷의 이상행위를 실시간으로 검출할 수 있는 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템을 제공하는 것이다.
상기한 기술적 과제를 해결하기 위한 본 발명에 따른 방법은 네트워크 패킷 데이터를 변환한 로그 데이터에서 학습에 필요한 데이터를 수집하는 단계, 상기 수집된 데이터의 분포를 파악하는 단계, 상기 파악된 데이터 분포에 기초하여 상기 수집된 데이터를 군집화하는 단계, 상기 수집된 데이터를 군집화한 수만큼 복수의 오토인코더 모델을 생성하는 단계, 상기 생성된 복수의 오토인코더 모델을 대응하는 군집에 속하는 데이터로 학습시키는 단계, 상기 복수의 오토인코더 모델에 예측 대상 데이터를 입력하여 복원 오차를 계산하는 단계, 상기 복수의 오토인코더 모델 중에서 복원 오차가 가장 작게 계산된 오토인코더 모델을 선택하는 단계, 상기 선택된 오토인코더 모델에 미리 설정된 기준 오차와 상기 선택된 오토인코더 모델에서 계산된 복원 오차를 비교하여 상기 예측 대상 데이터의 비정상 여부를 예측하는 단계를 포함한다.
상기 로그 데이터에서 학습에 필요한 데이터를 수집하는 단계는, 상기 변환된 복수 줄의 로그 데이터를 미리 정해진 시간 구간마다 집합하여 한 줄의 데이터로 표현하되, 숫자 데이터는 평균 및 변화량을 구해서 표현할 수 있다.
상기 수집된 데이터를 미리 정해진 방법으로 전처리한 후 상기 수집된 데이터의 분포를 파악할 수 있다.
VAE(Variational AutoEncoder)를 이용하여 상기 수집된 데이터의 분포를 파악할 수 있다.
상기 선택된 오토인코더 모델에 미리 설정된 기준 오차는, 상기 생성된 복수의 오토인코더 모델을 대응하는 군집에 속하는 데이터로 학습시키는 단계에서 구해지는 최상 오차로 정해질 수 있다.
상기 예측 대상 데이터에 대해 상기 선택된 오토인코더 모델에서 계산된 복원 오차가 상기 선택된 오토인코더 모델에 미리 설정된 기준 오차보다 큰 경우 비정상 데이터로 예측할 수 있다.
상기한 기술적 과제를 해결하기 위한 본 발명에 따른 시스템은, 네트워크 패킷 데이터를 변환한 로그 데이터에서 학습에 필요한 데이터를 수집하는 수집부, 상기 수집된 데이터의 분포를 파악하는 분포 파악부, 상기 파악된 데이터 분포에 기초하여 상기 수집된 데이터를 군집화하는 군집화부, 상기 수집된 데이터를 군집화한 수만큼 복수의 오토인코더 모델을 생성하고, 상기 생성된 복수의 오토인코더 모델을 대응하는 군집에 속하는 데이터로 학습시키는 학습부, 그리고 상기 복수의 오토인코더 모델에 예측 대상 데이터를 입력하여 복원 오차를 계산하고, 상기 복수의 오토인코더 모델 중에서 복원 오차가 가장 작게 계산된 오토인코더 모델을 선택하며, 상기 선택된 오토인코더 모델에 미리 설정된 기준 오차와 상기 선택된 오토인코더 모델에서 계산된 복원 오차를 비교하여 상기 예측 대상 데이터의 비정상 여부를 예측하는 예측부를 포함한다.
상기한 기술적 과제를 해결하기 위한 본 발명의 한 실시예에 따른 컴퓨터에 상기한 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함할 수 있다.
본 발명에 의하면 대용량 초불균형 데이터의 분포를 분석하여 자동으로 오토인코더 앙상블을 생성하여 네트워크 패킷의 이상행위를 실시간으로 검출할 수 있다.
도 1은 본 발명의 일 실시예에 따른 오토인코더 앙상블 기반 이상행위 탐지 시스템의 구성을 나타낸 블록도이다.
도 2는 본 발명에 따른 로그 데이터를 집합하여 한 줄의 데이터로 표현하는 예를 나타낸 것이다.
도 3은 본 발명에 따른 데이터 전처리 방법을 예시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 VAE를 이용하여 수집된 데이터에 2개의 주 데이터 분포가 존재하는 것을 파악한 것을 나타낸 개념도이다.
도 5는 본 발명에 따른 데이터 군집화 과정을 예시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 오토인코더 앙상블 기반 이상행위 탐지 시스템의 동작을 설명하는 흐름도이다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 오토인코더 앙상블 기반 이상행위 탐지 시스템의 구성을 나타낸 블록도이다.
도 1을 참고하면, 본 발명에 따른 오토인코더 앙상블 기반 이상행위 탐지 시스템(100)은 변환부(110), 수집부(120), 전처리부(130), 분포 파악부(140), 군집화부(150), 학습부(160) 및 예측부(170)를 포함할 수 있다.
변환부(110)는 기업이나 공공기관 등의 내부 네트워크에서 수집되는 네트워크 패킷 데이터를 로그 형태의 로그 데이터로 변환하여 데이터베이스에 저장할 수 있다.
수집부(120)는 네트워크 패킷 데이터를 변환한 로그 데이터에서 학습에 필요한 데이터를 수집할 수 있다. 수집된 네트워크 패킷 데이터를 변환한 로그 데이터의 용량이 크면 분석 및 학습 과정에서 어려움이 있을 수 있다. 따라서 실시예에 따라서 수집부(120)는 데이터의 정보량을 유지하면서 용량을 줄이기 위하여 로그 데이터를 시간 구간마다 집합하여 한 줄의 데이터로 표현한 형태로 학습에 필요한 데이터를 수집하여 데이터베이스에 저장할 수도 있다.
도 2는 본 발명에 따른 로그 데이터를 집합하여 한 줄의 데이터로 표현하는 예를 나타낸 것이다.
도 2에 예시한 것과 같이 동일 사용자, 즉 소스 아이피(src_ip)가 동일한 일정한 시간 내의 로그 데이터를 집합하여 숫자 데이터는 평균 및 변화량을 구해서 표현하고, 자연어 데이터는 한 줄로 집합할 수 있다. 자연어 데이터는 실시예에 따라서 집합된 각 로그에 포함된 데이터를 컴마(,)와 같은 구분자로 구분하여 표현할 수도 있다.
전처리부(130)는 수집부(120)에서 수집된 데이터를 미리 정해진 방법으로 전처리할 수 있다.
로그 데이터를 인공지능 기반 모델에서 필요한 입력값 형태로 변환하기 위하여 데이터 전처리 과정이 필요하다. 데이터는 크게 숫자 데이터와 문자열 데이터의 2가지 포맷으로 구분할 수 있다.
도 3은 본 발명에 따른 데이터 전처리 방법을 예시한 도면이다.
전처리부(130)는 도 3(a)에 예시한 것과 같이 숫자 데이터를 전처리하기 위해 표준화(standardization) 함수를 적용하여 데이터를 리스케일링(rescaling)할 수 있다. 물론 실시예에 따라서 전처리부(130)는 숫자 데이터를 전처리하기 위해 표준화(Normalization) 방법 중에 Standard scaling, MinMax Scaling 등 여러 가지 스케일링 기법 중에 하나를 써서 숫자데이터를 스케일링 하는 것도 가능하다.
그리고 전처리부(130)는 도 3(b)에 예시한 것과 같이 문자열 데이터를 숫자 벡터 형태로 변환하기 위해 TF-IDF(Term Frequency - Inverse Document Frequency) 기술을 사용할 수 있다. TF-IDF는 문자열을 분석하여 각 문자열이 나타난 빈도에 따라 맞는 벡터를 부여한다. 로그 데이터를 숫자로 변환한 후 벡터 하나로 조합하여 매트릭스 형태로 변형할 수 있다.
여기서 예시한 방법이 아닌 다른 적절한 방법에 의해 전처리부(130)에서 로그 데이터를 인공지능 기반 모델에서 필요한 입력값 형태로 변환하는 것도 가능하다. 로그 데이터를 인공지능 기반 모델에서 필요한 입력값 형태로 변환하는 다양한 공지된 방법이 이용될 수 있다.
분포 파악부(140)는 수집된 데이터의 분포를 파악할 수 있다. 실시예에 따라 분포 파악부(140)는 VAE(Variational AutoEncoder)를 이용하여 수집된 데이터의 분포를 파악할 수 있다.
VAE는 주어진 데이터를 잘 설명하는 잠재 변수의 분포를 찾고, 잠재 변수로부터 원본 데이터를 잘 복원하는 것으로 알려져 있다. 즉 VAE는 데이터의 차원을 축소하여 데이터가 어떤 분포에 샘플링되는지 확인할 수 있다. VAE를 학습하고 은닉 레이어(hidden layer)에서 샘플링 기법을 이용하여 데이터의 분포를 추출할 수 있다. 그리고 추출한 분포를 분석하여 분포가 서로 다른 데이터 종류의 수를 파악할 수 있다.
도 4는 본 발명의 일 실시예에 따른 VAE를 이용하여 수집된 데이터에 2개의 주 데이터 분포가 존재하는 것을 파악한 것을 나타낸 개념도이다.
본 실시예에서 분포 파악부(140)는 VAE를 이용하는 것으로 설명하였으나, 데이터의 분포를 파악할 수 있는 다른 모델을 이용하는 것도 가능하다.
군집화부(150)는 분포 파악부(140)에서 파악된 데이터 분포에 기초하여 수집된 데이터를 군집화할 수 있다.
도 5는 본 발명에 따른 데이터 군집화 과정을 예시한 도면이다.
군집화부(150)는 도 5에 예시한 것과 같이 분포 파악부(140)를 이용하여 데이터의 분포 개수를 파악한 다음에 데이터를 군집화하기 GMM(Gaussian Mixture Model) 기법을 사용할 수 있다. 데이터를 학습하여 VAE 은닉 레이어(VAE hidden layer)로 GMM을 학습하고 데이터의 군집 레이블을 예측할 수 있다.
본 실시예에서 군집화부(150)는 GMM을 이용하는 것으로 설명하였으나, 다른 모델을 이용하여 데이터 군집화를 하는 것도 가능하다.
학습부(160)는 수집된 데이터를 군집화한 수만큼 복수의 오토인코더 모델을 생성할 수 있다. 여기서 오토인코더는 인코더에서 입력 데이터의 차원을 축소한 다음, 다시 디코더에서 복원해서 입력 데이터와 동일한 출력값을 리턴한다. 즉 오토인코더는 모델 입력값과 출력값을 비교하여 모델을 학습시킬 수 있다.
학습부(160)는 생성된 복수의 오토인코더 모델을 각각 자신에 대응하는 군집에 속하는 데이터로 학습시킬 수 있다. 복수의 오토인코더는 자신이 속하는 군집에 대한 데이터 속성을 따로 학습할 수 있다.
학습부(160)는 복수의 오토인코더 모델을 학습시키는 동안 각 오토인코더 모델 별로 발생된 가장 큰 오차(이하 '최상 오차'라 함)를 저장해놓는다.
예측부(170)는 학습부(160)에서 학습된 복수의 오토인코더 모델로 구축된 앙상블 네트워크에 예측 대상 데이터를 입력하여 비정상 여부를 예측할 수 있다.
구체적으로 예측부(170)는 복수의 오토인코더 모델을 이용하여 예측 대상 데이터에 대한 복원 오차를 각각 계산한다. 그리고 예측부(170)는 복수의 오토인코더 모델 중에서 복원 오차가 가장 작게 계산된 오토인코더 모델을 선택할 수 있다. 예측부(170)는 선택된 오토인코더 모델에 미리 설정된 기준 오차와 선택된 오토인코더 모델에서 계산된 복원 오차를 비교하여 예측 대상 데이터의 비정상 여부를 예측할 수 있다. 여기서 오토인코더 모델에 미리 설정된 기준 오차는 앞서 설명한 복수의 오토인코더 모델별로 학습 단계에서 구해진 최상 오차로 설정될 수 있다.
예측부(170)는 선택된 오토인코더 모델에서 계산된 복원 오차가 최상 오차보다 큰 경우 예측 대상 데이터를 비정상 데이터로 예측할 수 있다.
도 6은 본 발명의 일 실시예에 따른 오토인코더 앙상블 기반 이상행위 탐지 시스템의 동작을 설명하는 흐름도이다.
도 6을 참고하면, 먼저 변환부(110)는 기업이나 공공기관 등의 내부 네트워크에서 수집되는 네트워크 패킷 데이터를 로그 형태의 로그 데이터로 변환하여 데이터베이스에 저장할 수 있다(S610).
다음으로 수집부(120)는 네트워크 패킷 데이터를 변환한 로그 데이터에서 학습에 필요한 데이터를 수집할 수 있다(S620). 단계(S620)에서 수집부(120)는 데이터의 정보량을 유지하면서 용량을 줄이기 위하여 로그 데이터를 시간 구간마다 집합하여 한 줄의 데이터로 표현한 형태로 학습에 필요한 데이터를 수집하여 데이터베이스에 저장할 수 있다.
다음으로 전처리부(130)는 수집부(120)에서 수집된 데이터를 미리 정해진 방법으로 전처리할 수 있다(S630). 단계(S630)에서 데이터 전처리 방법은 로그 데이터를 인공지능 기반 모델에서 필요한 입력값 형태로 변환하는 다양한 방법 중에서 시스템(100)의 운영자 등에 의해 미리 정해질 수 있다.
이후 분포 파악부(140)는 수집된 데이터의 분포를 파악할 수 있다(S640). 단계(S640)에서 분포 파악부(140)는 VAE(Variational AutoEncoder)를 이용하여 수집된 데이터의 분포를 파악할 수 있다. 물론 VAE가 아닌 데이터 분포 파악에 적절한 다른 모델을 이용하는 것도 가능하다.
다음으로 군집화부(150)는 분포 파악부(140)에서 파악된 데이터 분포에 기초하여 수집된 데이터를 군집화할 수 있다(S650).
이후 학습부(160)는 수집된 데이터를 군집화한 수만큼 복수의 오토인코더 모델을 생성할 수 있다(S660).
그리고 학습부(160)는 생성된 복수의 오토인코더 모델을 각각 자신에 대응하는 군집에 속하는 데이터로 학습시킬 수 있다(S670). 단계(S670)에서 학습부(160)는 복수의 오토인코더 모델을 학습시키는 동안 각 오토인코더 모델 별로 최상 오차를 저장해놓는다.
마지막으로 예측부(170)는 학습부(160)에서 학습된 복수의 오토인코더 모델로 구축된 앙상블 네트워크에 예측 대상 데이터를 입력하여 비정상 여부를 예측할 수 있다(S680).
구체적으로 단계(S380)는 다음과 같이 수행될 수 있다. 먼저 예측부(170)는 복수의 오토인코더 모델을 이용하여 예측 대상 데이터에 대한 복원 오차를 각각 계산한다. 그리고 예측부(170)는 복수의 오토인코더 모델 중에서 복원 오차가 가장 작게 계산된 오토인코더 모델을 선택할 수 있다. 최종적으로 예측부(170)는 선택된 오토인코더 모델에 미리 설정된 기준 오차와 선택된 오토인코더 모델에서 계산된 복원 오차를 비교하여 예측 대상 데이터의 비정상 여부를 예측 결과를 출력할 수 있다. 여기서 미리 설정된 기준 오차는 복수의 오토인코더 모델을 학습시키는 동안 각 오토인코더 모델 별로 구해지는 최상 오차일 수 있다.
본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 앞서 설명한 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치 등이 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (13)

  1. 컴퓨팅 시스템에 의해 각 단계가 수행되는 오토인코더 앙상블 기반 이상행위 탐지 방법에 있어서,
    수집부가 네트워크 패킷 데이터를 변환한 로그 데이터에서 학습에 필요한 데이터를 수집하는 단계,
    분포 파악부가 상기 수집된 데이터의 분포를 파악하는 단계,
    군집화부가 상기 파악된 데이터 분포에 기초하여 상기 수집된 데이터를 군집화하는 단계,
    학습부가 상기 수집된 데이터를 군집화한 수만큼 복수의 오토인코더 모델을 생성하는 단계,
    상기 학습부가 상기 생성된 복수의 오토인코더 모델을 대응하는 군집에 속하는 데이터로 학습시키는 단계,
    예측부가 상기 복수의 오토인코더 모델에 예측 대상 데이터를 입력하여 복원 오차를 계산하는 단계,
    상기 예측부가 상기 복수의 오토인코더 모델 중에서 복원 오차가 가장 작게 계산된 오토인코더 모델을 선택하는 단계,
    상기 예측부가 상기 선택된 오토인코더 모델에 미리 설정된 기준 오차와 상기 선택된 오토인코더 모델에서 계산된 복원 오차를 비교하여 상기 예측 대상 데이터의 비정상 여부를 예측하는 단계를 포함하고,
    상기 로그 데이터에서 학습에 필요한 데이터를 수집하는 단계는,
    상기 변환된 복수 줄의 로그 데이터를 미리 정해진 시간 구간마다 집합하여 한 줄의 데이터로 표현하되, 숫자 데이터는 평균 및 변화량을 구해서 표현하는 방법.
  2. 삭제
  3. 제 1 항에서,
    상기 수집된 데이터를 미리 정해진 방법으로 전처리한 후 상기 수집된 데이터의 분포를 파악하는 방법.
  4. 제 1 항에서,
    VAE(Variational AutoEncoder)를 이용하여 상기 수집된 데이터의 분포를 파악하는 방법.
  5. 컴퓨팅 시스템에 의해 각 단계가 수행되는 오토인코더 앙상블 기반 이상행위 탐지 방법에 있어서,
    수집부가 네트워크 패킷 데이터를 변환한 로그 데이터에서 학습에 필요한 데이터를 수집하는 단계,
    분포 파악부가 상기 수집된 데이터의 분포를 파악하는 단계,
    군집화부가 상기 파악된 데이터 분포에 기초하여 상기 수집된 데이터를 군집화하는 단계,
    학습부가 상기 수집된 데이터를 군집화한 수만큼 복수의 오토인코더 모델을 생성하는 단계,
    상기 학습부가 상기 생성된 복수의 오토인코더 모델을 대응하는 군집에 속하는 데이터로 학습시키는 단계,
    예측부가 상기 복수의 오토인코더 모델에 예측 대상 데이터를 입력하여 복원 오차를 계산하는 단계,
    상기 예측부가 상기 복수의 오토인코더 모델 중에서 복원 오차가 가장 작게 계산된 오토인코더 모델을 선택하는 단계,
    상기 예측부가 상기 선택된 오토인코더 모델에 미리 설정된 기준 오차와 상기 선택된 오토인코더 모델에서 계산된 복원 오차를 비교하여 상기 예측 대상 데이터의 비정상 여부를 예측하는 단계를 포함하고,
    상기 선택된 오토인코더 모델에 미리 설정된 기준 오차는,
    상기 생성된 복수의 오토인코더 모델을 대응하는 군집에 속하는 데이터로 학습시키는 단계에서 구해지는 최상 오차로 정해지는 방법.
  6. 제 5 항에서,
    상기 예측 대상 데이터에 대해 상기 선택된 오토인코더 모델에서 계산된 복원 오차가 상기 선택된 오토인코더 모델에 미리 설정된 기준 오차보다 큰 경우 비정상 데이터로 예측하는 방법.
  7. 오토인코더 앙상블 기반 이상행위 탐지 시스템에 있어서,
    네트워크 패킷 데이터를 변환한 로그 데이터에서 학습에 필요한 데이터를 수집하는 수집부,
    상기 수집된 데이터의 분포를 파악하는 분포 파악부,
    상기 파악된 데이터 분포에 기초하여 상기 수집된 데이터를 군집화하는 군집화부,
    상기 수집된 데이터를 군집화한 수만큼 복수의 오토인코더 모델을 생성하고, 상기 생성된 복수의 오토인코더 모델을 대응하는 군집에 속하는 데이터로 학습시키는 학습부, 그리고
    상기 복수의 오토인코더 모델에 예측 대상 데이터를 입력하여 복원 오차를 계산하고, 상기 복수의 오토인코더 모델 중에서 복원 오차가 가장 작게 계산된 오토인코더 모델을 선택하며, 상기 선택된 오토인코더 모델에 미리 설정된 기준 오차와 상기 선택된 오토인코더 모델에서 계산된 복원 오차를 비교하여 상기 예측 대상 데이터의 비정상 여부를 예측하는 예측부
    를 포함하고,
    상기 수집부는,
    상기 변환된 복수 줄의 로그 데이터를 미리 정해진 시간 구간마다 집합하여 한 줄의 데이터로 표현하되, 숫자 데이터는 평균 및 변화량을 구해서 표현하는 시스템.
  8. 삭제
  9. 제 7 항에서,
    상기 수집된 데이터를 미리 정해진 방법으로 전처리하는 전처리부
    를 더 포함하고,
    상기 분포 파악부는,
    상기 미리 정해진 방법으로 전처리된 수집된 데이터의 분포를 파악하는 시스템.
  10. 제 7 항에서,
    상기 분포 파악부는,
    VAE(Variational AutoEncoder)를 이용하여 상기 수집된 데이터의 분포를 파악하는 시스템.
  11. 오토인코더 앙상블 기반 이상행위 탐지 시스템에 있어서,
    네트워크 패킷 데이터를 변환한 로그 데이터에서 학습에 필요한 데이터를 수집하는 수집부,
    상기 수집된 데이터의 분포를 파악하는 분포 파악부,
    상기 파악된 데이터 분포에 기초하여 상기 수집된 데이터를 군집화하는 군집화부,
    상기 수집된 데이터를 군집화한 수만큼 복수의 오토인코더 모델을 생성하고, 상기 생성된 복수의 오토인코더 모델을 대응하는 군집에 속하는 데이터로 학습시키는 학습부, 그리고
    상기 복수의 오토인코더 모델에 예측 대상 데이터를 입력하여 복원 오차를 계산하고, 상기 복수의 오토인코더 모델 중에서 복원 오차가 가장 작게 계산된 오토인코더 모델을 선택하며, 상기 선택된 오토인코더 모델에 미리 설정된 기준 오차와 상기 선택된 오토인코더 모델에서 계산된 복원 오차를 비교하여 상기 예측 대상 데이터의 비정상 여부를 예측하는 예측부
    를 포함하고,
    상기 선택된 오토인코더 모델에 미리 설정된 기준 오차는,
    상기 생성된 복수의 오토인코더 모델을 대응하는 군집에 속하는 데이터로 학습시키는 단계에서 구해지는 최상 오차로 정해지는 시스템.
  12. 제 11 항에서,
    상기 예측부는,
    상기 예측 대상 데이터에 대해 상기 선택된 오토인코더 모델에서 계산된 복원 오차가 상기 선택된 오토인코더 모델에 미리 설정된 기준 오차보다 큰 경우 비정상 데이터로 예측하는 시스템.
  13. 컴퓨터에 제1항, 제3항 내지 제6항 중 어느 한 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020190121815A 2019-10-01 2019-10-01 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템 KR102281819B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190121815A KR102281819B1 (ko) 2019-10-01 2019-10-01 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190121815A KR102281819B1 (ko) 2019-10-01 2019-10-01 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템

Publications (3)

Publication Number Publication Date
KR20210039231A KR20210039231A (ko) 2021-04-09
KR102281819B1 true KR102281819B1 (ko) 2021-07-26
KR102281819B9 KR102281819B9 (ko) 2022-03-15

Family

ID=75444300

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190121815A KR102281819B1 (ko) 2019-10-01 2019-10-01 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102281819B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102433830B1 (ko) 2021-11-10 2022-08-18 한국인터넷진흥원 인공지능 기반 보안위협 이상행위 탐지 시스템 및 방법
WO2022211301A1 (ko) * 2021-03-29 2022-10-06 주식회사 씨티아이랩 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102359090B1 (ko) * 2021-05-27 2022-02-08 주식회사 아미크 실시간 기업정보시스템 이상행위 탐지 서비스를 제공하는 방법과 시스템
KR102685645B1 (ko) * 2021-10-08 2024-07-19 주식회사 교원 설명 가능한 인공지능을 이용한 학습 피드백 제공 시스템
KR102609592B1 (ko) * 2021-12-07 2023-12-04 서울대학교산학협력단 IoT 시스템의 비정상행위 탐지 방법 및 그 장치
KR102509381B1 (ko) * 2022-07-28 2023-03-14 (주)와치텍 머신러닝 로그 분석 기반의 smart 로그병합 및 추이예측 시각화 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101888683B1 (ko) * 2017-07-28 2018-08-14 펜타시큐리티시스템 주식회사 비정상 트래픽을 탐지하는 방법 및 장치
KR101988028B1 (ko) 2018-09-04 2019-06-11 넷마블 주식회사 서버 및 이의 동작 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102030837B1 (ko) * 2013-09-30 2019-10-10 한국전력공사 침입 탐지 장치 및 방법
KR20190107523A (ko) * 2018-03-12 2019-09-20 주식회사 케이티 시스템 로그 정보를 이용하는 네트워크 장애 처리 시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101888683B1 (ko) * 2017-07-28 2018-08-14 펜타시큐리티시스템 주식회사 비정상 트래픽을 탐지하는 방법 및 장치
KR101988028B1 (ko) 2018-09-04 2019-06-11 넷마블 주식회사 서버 및 이의 동작 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022211301A1 (ko) * 2021-03-29 2022-10-06 주식회사 씨티아이랩 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템
KR102433830B1 (ko) 2021-11-10 2022-08-18 한국인터넷진흥원 인공지능 기반 보안위협 이상행위 탐지 시스템 및 방법

Also Published As

Publication number Publication date
KR20210039231A (ko) 2021-04-09
KR102281819B9 (ko) 2022-03-15

Similar Documents

Publication Publication Date Title
KR102281819B1 (ko) 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템
CN110543903B (zh) 一种gis局部放电大数据系统的数据清洗方法及系统
CN110348721A (zh) 基于gbst的金融违约风险预测方法、装置和电子设备
CN111709765A (zh) 一种用户画像评分方法、装置和存储介质
KR102572192B1 (ko) 오토인코더 앙상블 기반 이상행위 탐지 방법 및 시스템
CN112966259B (zh) 电力监控系统运维行为安全威胁评估方法及设备
CN114254716B (zh) 一种基于用户行为分析的高危操作识别方法及系统
CN113326244A (zh) 一种基于日志事件图和关联关系挖掘的异常检测方法
CN111915026A (zh) 故障处理方法、装置、电子设备及存储介质
CN116861331A (zh) 一种融合专家模型决策的数据识别方法及系统
JP7207540B2 (ja) 学習支援装置、学習支援方法、及びプログラム
CN114741369A (zh) 一种基于自注意力机制的图网络的系统日志检测方法
CN114416479A (zh) 一种基于流外正则化的日志序列异常检测方法
You et al. sBiLSAN: Stacked bidirectional self-attention lstm network for anomaly detection and diagnosis from system logs
CN115587007A (zh) 基于RoBERTa的网络日志安全检测方法及系统
CN115757062A (zh) 一种基于句嵌入以及Transformer-XL的日志异常检测方法
CN115659135A (zh) 一种面向多源异构工业传感器数据的异常检测方法
CN113076217B (zh) 基于国产平台的磁盘故障预测方法
CN111381990B (zh) 一种基于流特征的磁盘故障预测方法及装置
Ranga et al. Log anomaly detection using sequential convolution neural networks and Dual-LSTM model
ZHANG et al. Integrated intrusion detection model based on artificial immune
Yildirim et al. Machine Failure Prediction:: A Comparative Anomaly Detection
CN115238805B (zh) 异常数据识别模型的训练方法及相关设备
CN113778733B (zh) 一种基于多尺度mass的日志序列异常检测方法
Alagele et al. Designing a Deep Autoencoder Neural Network for Detecting Sound Anomalies in Smart Factories Using Unsupervised Learning

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]