KR102548321B1

KR102548321B1 - 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법

Info

Publication number: KR102548321B1
Application number: KR1020210162305A
Authority: KR
Inventors: 이태진; 김홍비; 이용수; 이은규
Original assignee: 호서대학교 산학협력단
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2023-06-27
Also published as: US20230164162A1; KR20230076938A

Abstract

본 발명에 따른 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법은, 테스트 데이터의 예측을 위한 학습 데이터 기반 AI 모델을 생성하는 단계 1와, AI 모델 explainer와 학습 데이터를 이용하여 XAI explainability 생성 및 summary plot 기반 중요 특징을 선정하는 단계 2와, 편향없이 분석하기 위해 선정된 중요 특징들의 데이터 분포 기반 범위 프로세싱을 수행하는 단계 3과, 각 범위 그룹의 SHAP value 평균 및 표준편차를 산출한 후, 테스트 데이터의 의심 및 신뢰를 판단하기 위해 저장하는 단계 4와, 테스트 데이터 입력 시 학습 데이터와 동일하게 특징 프로세싱 후 사전에 생성된 AI 모델을 이용하여 예측을 진행하는 단계 5와, 테스트 데이터와 사전에 생성된 explainer를 이용하여 테스트 데이터의 SHAP value을 산출하는 단계 6과, FOS calculation information를 로드하여 테스트 데이터의 각 중요 특징 별 FOS를 계산하는 단계 7과, 그리고 각 특징 별로 FOS 계산 후 FOS를 종합하여 데이터 별 suspicion score를 계산하는 단계 8로 이루어진다.

Description

효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법{Valuable alert screening methods for detecting malicious threat}

본 발명은 대량의 공격 경보(attack alert)가 발생하는 실제 보안 환경에서 사람이 분석해야 하는 valuable alert를 선별하는 기술에 관한 것으로, 사이버 위협에 대응하기 위해 AI 모델의 오탐으로 인해 사람의 직접적인 개입이 필요한 실 보안 환경의 문제를 해결하기 위해 XAI 기술 및 통계적 분석기법을 통해 효율적인 사이버 위협 대응기술을 위한, 효율적인 악성 위협 탐지를 위한 valuable alert선별 방법에 관한 것이다.

현재 IT 인프라 발전으로 인해 네트워크 대역폭이 기하급수적으로 증가하고 있으며, 또한 이를 이용하는 사용자 역시 크게 늘어났다. 이는 곧 네트워크 트래픽 증가와 보안 이벤트 증가로 이어져 큰 사회적 문제점으로 대두하고 있는 실정이다. 이에 침입탐지 시스템이 도입되었지만 잘못된 탐지, 오탐(False Positive) 발생하고 있으며, 대량으로 발생하는 경보를 처리할 관제 인력의 부족과 발생하는 경보 내 다수의 오탐은 보안관제 능률을 감소시킨다는 문제점을 가지고 있다.

특히, 기술이 발전함에 따라 위협을 발생시키는 공격의 범위 및 피해 규모가 커지게 되고, 또한 다양한 공격 방법들이 등장하고 있으며, 이에 따라 악성 행위를 추적하기 위한 로그 데이터의 양이 증가하고 있는 실정이다. 실제로, 금융보안원에 따르면, 일평균 10억 건의 http request가 발생한다고 보고하고 있다.

특히, 전세계적으로 유행하는 코로나 19로 인하여, 원격·재택근무가 늘어나고 클라우드 전환이 가속됨에 따라, 이전과 다른 양상의 보안 이벤트가 대량으로 발생하고 있어 기존 보안 인력으로는 제대로 대응하지 못하는 상황이다. SK인포섹에 따르면 20년 1~3월 탐지한 월 평균 사이버 공격건수는 58만건으로 지난해 동기 대비 21% 증가하였다. 광범위한 사이버공격이 도시나 지역사회의 인프라 장애를 유발하고 공공 시스템과 네트워크를 마비시킬 수 있다.

이와 같은 방대한 양의 악성 로그 데이터 분석을 위해 AI 기술이 도입되었다. 그러나 AI 기술은 트랜스퍼런시(transparency)에 문제가 있으며, 복잡성이 증가하여 모델의 결정에 대한 이유를 알 수 없다.

더불어 금융보안원에 따르면, SOC는 20여명의 분석가가 대량의 악성 로그 데이터를 분석한다고 하며, 20만개의 공격 경보(attack alert) 중 1만개 정도 분석 완료한다고 한다. 또한, 모델의 트랜스퍼런시 문제로 인해 전체 로그 데이터에 대한 분석을 진행하여야 하지만 대량의 악성 로그 데이터 대비 분석가의 수가 적어 정확한 분석이 어렵다는 문제점이 있다.

AI 모델의 오탐을 해결을 위해 AI 모델의 해석이 필요하며, XAI 기반의 AI 모델 해석을 제공하는 연구가 진행되고 있다. 그러나 이는 AI 모델 생성에 사용된 각 특징이 예측에 미치는 영향 정도만 확인할 수 있을 뿐 실제 환경에서 대량의 데이터를 분석하기에는 어려움을 보인다.

따라서 본 발명의 목적은 XAI 기술 및 통계적 분석기법을 통해 AI 예측에 대한 reliability indicator를 생성하여 valuable alert를 선별하는, 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법을 제공하는 것이다.

본 발명의 목적을 달성하기 위하여, 본 발명에 따른 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법은, 테스트 데이터의 예측을 위한 학습 데이터 기반 AI 모델을 생성하는 단계 1와, AI 모델 explainer와 학습 데이터를 이용하여 XAI explainability 생성 및 summary plot 기반 중요 feature를 선정하는 단계 2와, 편향없이 분석하기 위해 선정된 중요 feature들의 데이터 분포 기반 범위 프로세싱을 수행하는 단계 3과, 각 범위 그룹의 SHAP value 평균 및 표준편차를 산출한 후, 테스트 데이터의 의심 및 신뢰를 판단하기 위해 저장하는 단계 4와, 테스트 데이터 입력 시 학습 데이터와 동일하게 feature 프로세싱 후 사전에 생성된 AI 모델을 이용하여 예측을 진행하는 단계 5와, 테스트 데이터와 사전에 생성된 explainer를 이용하여 테스트 데이터의 SHAP value을 산출하는 단계 6과, FOS calculation information를 로드하여 테스트 데이터의 각 중요 feature 별 FOS를 계산하는 단계 7과, 그리고 각 feature 별로 FOS 계산 후 FOS를 종합하여 데이터 별 suspicion score를 계산하는 단계 8로 이루어지는 것을 특징으로 한다.

본 발명에 따른 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법에서, 단계 1은, AI 모델의 학습 과정을 처리하기 위해 feature 프로세싱을 수행한 후 AI 모델을 생성하는 것을 특징으로 한다.

본 발명에 따른 선별 방법에서, 상기 단계 2에서, 파이썬 내 라이브러리를 통해 AI 모델의 explainer를 생성하고, 상기 explainer에 학습 데이터를 이용하여 SHAP value를 산출하고, 상기 산출된 SHAP value를 통해 summary plot을 생성하고, 상기 summary plot에는 상위 20개이 주요 파쳐가 생성되고, 상기 20개의 feature 중에서 분석가의 지식을 기반으로 해석이 가능한 중요 feature 10개를 선정하는 것을 특징으로 한다.

본 발명에 따른 선별 방법에서, 상기 단계 3에서, 각 중요 feature별 고유한 값에 해당하는 데이터 수를 카운트하여 설정 조건을 충족하는 경우 SHAP value를 범위 그룹에 추가하는 방식으로 범위 그룹을 생성하는 것을 특징으로 한다.

본 발명에 따른 선별 방법에서, 상기 범위는 feature의 고유값을 통해 생성되는 것을 특징으로 한다.

본 발명에 따른 선별 방법에서, 상기 FOS calculation information에 각 feature 별 범위 및 평균,표준편차가 저장되는 것을 특징으로 한다.

본 발명에 따른 선별 방법에서, 상기 단계 7에서, 테스트 데이터의 각 데이터의 feature값을 FOS calculation information에 저장된 범위와 비교한 후 해당하는 그룹의 정보와 테스트 데이터의 SHAP value을 이용하여 FOS(abs(CDF-0.5)*2) 계산하는 것을 특징으로 한다.

본 발명에 따른 선별 방법에서, FOS(Feature Outlier Score) AI 모델 예측의 신뢰 및 의심을 판단하기 위해 각 feature 별 이상 정도를 나타내는 score를 계산하는 것을 특징으로 한다.

본 발명에 따른 선별 방법에서, 상기 단계 8에서, 각 데이터의 feature 별 FOS가 있으며, FOS가 설정 임계 이상인 경우 해당 feature은 AI 모델의 예측을 의심해야 한다고 판단하고, 임계 이하인 경우 해당 feature는 AI 모델의 예측을 신뢰해도 된다고 판단하는 것을 특징으로 한다.

본 발명에 따른 선별 방법에서, feature 별로 AI 모델 예측에 대한 의심 및 신뢰에 대한 판단을 진행한 후 의심으로 간주되는 feature의 수를 카운트하여 suspicion score를 계산하는 것을 특징으로 한다.

본 발명에 따른 선별 방법에서, 계산된 suspicion socre가 높을수록 해당 데이터는 추가 검토가 필요한 데이터로 선별되는 것을 특징으로 한다.

본 발명은 대량의 사이버 위협이 발생하는 실 보안 환경에서 valuable alert를 선별하여 효율적인 분석이 가능하다는 효과가 있다. 이를 검증하기 위해 공개된 IDS dataset인 NSL KDD에서 실험한 결과 기존 시스템 대비 92% 향상된 성능으로 AI 모델의 오류를 탐지하는 효과가 있다.

도 1은 Local explanation을 설명하기 위한 도면.
도 2는 SHAP 추출 및 중요 feature 추출을 설명하는 도면.
도 3은 데이터 분포별 범위 가공을 설명하기 위한 도면.
도 4는 데이터 분포별 범위 가공의 진행 과정을 설명하는 도면.
도 5는 feature 범위 별 평균, 표준편차의 예를 보여주는 도면.
도 6은 feature 범위 별 평균, 표준편차의 구성도.
도 7은 NSL-KDD Dataset을 보여주는 도면.
도 8a는 NSL-KDD Dataset에서 정상 및 공격 인스턴스를 예시한 것이고, 도 8b 및 8c는 학습 데이터와 테스트 데이터를 도시한 도면,
도 9는 feature 선정을 설명하기 위한 도면.
도 10은 XGBoost 파라미터를 보여주는 도면.
도 11은 범위 그룹 별 SHAP 평균, 표준편차를 산출예를 보여주는 도면.
도 12는 FOS 기반 suspicion rate 계산 및 분석예를 보여주는 도면.
도 13은 데이터 수와 그 중 AI 모델 오류 데이터 개수 및 AI 모델 오류 탐지율을 보여주는 도면.
도 14는 본 발명에서 제안한 프레임워크의 데이터 비율별 AI 모델의 오류 탐지율을 비교한 도면.
도 15는 AI 모델의 오류 탐지율을 설명하는 도면.
도 16은 본 발명에 따른 방법을 구현하기 위한 구성을 보여주는 구성도.

이하에서는, 첨부된 도면을 참고하여 본 발명에 따른 바람직한 실시예를 보다 상세하게 설명하기로 한다.

본 발명의 설명에 앞서, 이하의 특정한 구조 내지 기능적 설명들은 단지 본 발명의 개념에 따른 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며, 본 명세서에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니된다.

또한, 본 발명의 개념에 따른 실시예는 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있으므로, 특정 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, .이는 본 발명의 개념에 따른 실시예들을 특정한 개시 형태에 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경물, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

먼저 본 발명의 설명에 앞서 본 발명과 관련된 기술과 용어에 대해 정의하면 다음과 같다.

먼저 본 발명은, 복잡성으로 인해 모델의 결정에 대한 이유를 알 수 없었던 기존의 IDS의 단점을 해결하고 더 나은 설명을 제공하기 위하여 SHAP 기반 프레임워크를 사용하였다. 모든 IDS에 로컬(local) 및 글로벌(global) explanation을 제공하는 프레임워크를 를 제안하였으며, IDS의 트랜스퍼런시를 높이기 위해 SHAP 방법을 처음으로 적용하였다. explanation의 제공뿐만 아니라 one-va-all classifier과 multiclass classifier 간의 해석 차이를 분석 진행하였다.

실험을 위해 본 발명은 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법을 구현하기 위한 프로그램을 컴퓨터에서 실행하였으며, NSL-KDD dataset을 활용하였고, 총 42개의 feature로 구성되어 있으며 엔코딩(encoding) 과정을 통해 122개의 feature로 가공하여 활용하였다. 각 공격유형별로 local 및 global 분석을 진행하였으며, one-vs-classifier 및 multiclass classifier 간의 비교도 진행하였다.

실험결과, SHAP를 통해 보안 담당자가 IDS가 내린 판단의 이유를 이해하는데 기여하였고, Classifier 간의 비교를 통해 IDS의 구조를 최적화하거나 더 나은 설계를 위한 통찰력을 제공 가능하다는 것을 알았다. 각 그래프를 통해 원하는 정보를 직관적으로 해석 가능하였다. Local : 데이터별 판단 지표가 된 주요 feature를 확인하고 타당성 확인 가능하다. Global : 모델이 중요하다 생각하는 feature들을 확인하고, feature별 레벨에 따른 영향도를 비교하여 어느 레벨과 관련성이 높은지 확인 가능하였다.

XAI(eXplainable Artificail Intellignence; 설명 가능한 인공 지능) : 사용자가 인공지능 시스템의 전반적인 강점 및 약점을 이해하도록 도와주는 설명 가능한 인공지능.

Game theory : 여러 주제가 서로 영향을 미치는 상황에서 서로가 어떤 의사결정이나 행동을 하는지에 대해 이론화한 것

Shapley valeus : 협력 게임 이론(coalitional game theory)으로 도출된 개념. 가능한 모든 협동에 대한 모든 한계 기여도의 평균 값이 shapley value임. 인스턴스의 각 특성 예측 값이 지불인 게임에서 플레이어의 협력과 비 협력에 따른 영향력을 수치화를 통해 공정하게 지불(=예측)을 분배하는 방법을 제시함. Shapley value는 분류(확률을 다루는 경우)와 회귀 모델에 모두 적용 가능하다. 실제 예측에서 모든 인스턴스의 평균 예측 값을 뺀 값이고, 연산 시간은 feature의 수에 따라 기하급수적으로 증가한다.

SHAP(Shapley Additive Explanations):

SHAP는 LIME과 Shapley value를 연결한다. 각 SHAP value는 모델의 각 feature가 음적으로 또는 양적으로(positively or negatively) 기여하는 정도 측정한다. SHAP의 두 개의 필수적인 장점이 있다. 즉 simple linear model이 아닌 모든 model에 대해 SHAP vlaue가 계산 가능하다는 것과, 각 record에는 자체 SHAP value set이 있다는 것이다.

LIME과의 가장 큰 차이점은 regression model의 인스턴스 가중치(instance weight)이다. LIME은 오리지널 인스턴스와 얼마나 가까운지에 따라 인스턴스의 가중치를 부여한다. 이에 따라, coalition vector에 1이 많을수록 LIME의 가중치가 커진다.

그러나 SHAP는 coalition이 Shapley value estimation에서 얻을 수 있는 가중치 따라 샘플 인스턴스들의 가중치를 부여한다. 이에 따라, small coalitions(few 1)과 large coalitions(many 1)이 가장 큰 가중치를 받게된다.

SHAP의 목적은 예측에 대한 각 feature의 기여도를 계산하여 예측 값 설명을 위한 plot을 제공하는 것이다.

Xboost:

여러 개의 결정트리(Decision Tree)를 조합해서 사용하는 Ensemble 알고리즘이다. Boosting 기법을 이용하여 구현한 알고리즘은 Gradient Boost가 대표적이며, 이 알고리즘을 병렬 학습이 지원되도록 구현한 라이브러리가 XGBoost이다. GBM에 기반하고 있지만, GBM의 단점인 느린 수행시간, 과적합 규제 등을 해결한다. 분류 정확도는 우수하나 Outlier에 취약하다.

본 발명에 따라, 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법은 크게 세 부분으로 이루어진다.

첫 번째 부분은 AI 모델 생성이다. 이는 훈련 데이터(Train data)를 이용하여 AI 모델을 생성한다. 훈련 데이터를 이용하여 feature preprocessing 진행한다. 그런 다음, 정제된 feature를 이용하여 XGboost 학습 후 모델을 생성한다.

두 번째 부분은, Global explanation provided이다. 이는 FOS 산출을 위한 SHAP 및 범위(range)를 가공한다. 훈련 데이터 및 AI 학습 모델을 이용하여 SHAP 산출하고, 산출된 SHAP 및 SHAP plot에 기반하여 중요 feature를 선정한다. 선정된 각각의 중요 feature에 feature value을 이용하여 범위 작업을 진행한다. 각 범위별 데이터들의 Shapley value를 이용하여 평균 및 표준편차 계산하고, Local explanation을 위해 훈련 데이터의 범위 및 평균, 표준편차를 저장한다.

세 번째 부분은 Local explanation provided이다(도 1).

이는 Analysis data의 분석이다. Analysis data를 이용하여 feature 프로세싱을 진행하고, 정제된 feature를 이용해 미리 생성된 AI 모델에 입력(intput)으로 하여 예측 결과를 추출한다. 그리고, Analysis data 및 AI 학습 모델을 이용하여 SHAP를 산출한다. 두 번째 부분에서 생성된 FOS calculation information을 불러와 analysis data 각각에 맞는 범위에 맞춰 FOS를 계산한다. 각 feature의 FOS가 임계(threshold) 이상인 경우를 계수(count)하여 suspicion rate 측정하고, FOS 기반 결과 분석을 통해 AI 모델의 오류를 탐지한다.

본 발명에서 제시하는 프레임워크에서, 도 2에 예시한 바와 같이, SHAP 추출 및 중요 feature 추출은, 훈련 데이터를 이용하여 생성된 AI 학습 모델을 이용하여 SHAP 추출하고, SHAP 추출 후 모델 학습에 주요한 영향을 끼친 상위 20개의 feature에 대한 plot을 산출하며, 상위 20개의 feature 중 feature value값 별 SHAP value가 뚜렷한 10의 feature를 선정한다.

데이터 분포별 범위 가공에 대해 살펴보면, 도 3에 예시한 바와 같이, 각 feature value 별 데이터 분포에 따라 범위 가공을 진행하고, 각 feature value에 해당하는 데이터의 개수를 계수하여 범위 가공을 진행한다. 범위의 표준편차가 높아지는 경우를 최소화 하기 위해 데이터 개수가 임계 이상인 경우 하나의 범위로 가공한다.

도 4를 참조하여 데이터 분포별 범위 가공의 진행 과정을 살펴보면 다음과 같다.

case : feature value = [0,00 ~ 1.00 -> 0.01씩 증가

1. feature value = 0.00의 Data 개수가 임계를 넘으면 하나의 범위로 선정한다.

2. feature value = 0.01 의 Data 개수가 임계를 넘지 않으면 다음 feature값(0.02)의 데이터 개수를 합친다.

3, 데이터 개수가 임계를 넘을 때까지 2 단계를 반복 후 범위로 선정한다.

범위별 SHAP 평균, 표준편차 산출은 다음과 같다.

가공된 범위 각각에 해당하는 데이터들에 대한 그룹 생성을 위해 각 데이터의 feature value과 범위의 비교를 진행한다. 범위에 해당하는 feature value을 가진 데이터의 SHAP value를 이용해 그룹을 생성한다. 그런 다음, 생성된 각 범위 그룹을 이용하여 SHAP평균 및 표준편차 계산한다. 이와 관련해 도 5에 예가 도시되어 있다.

도 6을 참조하여 진행 과정을 좀 더 상세히 살펴보면 다음과 같다.

1. 범위 리스트에 저장된 첫 번째 범위를 불러와 분석 데이터의 feature value과 비교한다.

2. 범위와 feature value이 일치하는 경우, 해당 feature value에 해당하는 데이터의 shap value를 그룹에 추가한다.

3. 생성된 그룹의 shap value를 이용하여 평균 및 표준편차 산출한다.

4. local explanation을 위해 산출된 평균 및 표준편차를 각각 리스트에 저장 후 다음 범위를 불러와 상기 1 - 3 과정을 진행한다.

5. 범위 리스트의 전체에 대한 비교 완료시까지 상기 1 - 4과정을 반복 진행한다.

FOS(Feature Outlier Score)에 대해 살펴보면 다음과 같다. 데이터에서 공격 유형 별 feature value에 따른 Shapley value를 보고 변칙(anomaly) 정도를 나타내는 스코어(score)이다. AI 모델이 내린 판단을 의심할지 신뢰할지를 FOS를 통해 결정하게 된다. FOS가 높으면 판단을 의심하고, 낮으면 판단을 신뢰하게 된다.

FOS 산출 과정은 다음과 같다.

1. 데이터 분포별 가공된 범위 및 범위 별로 산출된 평균 표준편차 저장 정보 로드 (Load global explanation).

2. 각 데이터의 feature value이 해당하는 범위 그룹의 평균 및 표준편차와 SHAP value를 이용하여 CDF 계산한다.

3. CDF를 이용하여 FOS 산출를 산출한다(계산식 : abs(CDF-0.5)*2). 해당 범위 그룹의 평균에서 멀어질수록 표준편차가 높을수록 FOS가 높아지게 된다.

분석을 위한 FOS 기반 suspicion rate 계산은 다음과 같이 이루어진다.

각 feature 별 FOS 값이 임계 이상인 경우 해당 판단은 의심을 하게 되고, ㅇ이임계 이하인 경우 해당 판단은 신뢰하도록 진행된다. 각 데이터의 각 feature 별 의심 판단 개수를 계수하여 suspicion score 계산한다.

도 7에 도시된 예를 살펴보면 다음과 같다. 임계 = 0.5이다.

data 0의 경우, 전체 4개의 feature 중 판단이 의심되는 feature이 없으므로 suspicion score = 0 이다.

data 1의 경우, 전체 4개의 feature 중 판단이 의심되는 feature이 1개 이므로 supicion score = 0.25 이다.

data 2의 경우, 전체 4개의 feature 중 판단이 의심되는 feature가 3개 이므로 supicion score = 0.75 이다.

data 3의 경우, 전체 4개의 feature 중 판단이 의심되는 feature가 2개 이므로 supicion score = 0.5 이다.

이하 본 발명이 실험에 대해 설명하면 다음과 같다.

본 발명에서 실험을 위해 사용한 데이터셋은 NSL-KDD Dataset 이다. 이는 IDS 구축에 널리 사용되던 KDD'99의 단점을 보완하고 정제된 버전이다. 중복 레코드를 제거하여 빈번한 기록에서 더 나은 탐지율을 갖는 방법에 의해 편향되지 않는다. 또한 다양한 침입 탐지 방법을 비교하는 데 도움이 되는 효과적인 데이터셋이다.

도 8a 내지 8c에 NSL-KDD Dataset을 나타내었다.

도 8a는 NSL-KDD Dataset에서 정상 및 공격 인스턴스를 예시한 것이고, 도 8b 및 8c는 학습 데이터와 테스트 데이터를 도시한 것이다.

본 발명에서 feature 프로세싱 과정에서 사용된 feature는 다음과 같다.

Binary Features : Land, logged_in, root_shell, su_attempted, Is_hot_login, Is_guest_login

Continuous Features : duration,src_bytes, dst_bytes, etc..

Min-Max normalization

Symbolic Features : Protocol_type, Service, Flag

One-Hot Encoding

도 9에 도시되어 있듯이, Protocol_type은 3가지, Service는 70가지, Flag는 11가지로 변환된다.

Feature 선정은, SHAP 추출 후 summary plot을 시각화를 통해 모델 학습에 주요한 영향을 끼친 상위 20개 feature를 확인하고, 정확한 분석을 위해 상위 20개의 feature 중 feature value 별 SHAP value가 뚜렷한 10 feature을 선정하였다(도 10 참조).

AI 모델은 NSL-KDD Dataset의 학습 및 분석을 위해 XGBoost 알고리즘 사용하였고, SHAP value 추출을 위해 multiclass인 softprob 사용하였으며, 사용된 XGBoost 파라미터는 도 11과 같다.

범위 가공 및 SHAP 평균, 표준편차 산출은, 범위 가공 로직에 따라 학습 데이터의 각 feature value에 따른 데이터 분포별 범위로 가공하였고, 이때, 범위 가공을 위한 임계=1,000으로 설정하였다. 가공된 범위를 이용하여 평균, 표준편차 산출 로직에 따라 각 범위 그룹 별 SHAP 평균, 표준편차를 산출하였다. 예를 도 16에 도시하였다.

FOS 기반 suspicion rate 계산 및 분석에서는, 분석을 위한 FOS threshold = 0.9로 설정하였고, 각 feature 별로 FOS value가 0.9 이상인 경우 1(판단 의심), 0.9 이하인 경우 0(판단 신뢰)로 표기하였다. 결과예를 도 12a에 나타내었다.

각 데이터별로 판단 의심으로 표기된 feature 개수를 계수하여 suspicion score 를 계산하고, 계산된 suspicion score 및 prediction probability를 이용하여 분석을 진행하였다. 분석의 예를 도 12b에 나타내었다.

AI model 결과에서, XGBoost 예측 결과 전체 22,544개 중 4,480개가 오탐이었고, 이에 오탐률은 19.87% 였다.

FOS 분석 결과에서, 전체 XAI 판단 의심 개수(suspicion score)가 0.1 이상인 경우 : 10,208개, XAI 판단 의심 중 AI 모델 오류 개수 : 3,272개(AI 모델 오류 탐지율 : 32.05%)이고, 각 suspicion score 이상인 경우 데이터 수와 그 중 AI 모델 오류 데이터 개수 및 AI 모델 오류 탐지율은 도 13과 같았다.

suspicion score의 임계를 0.5로 설정하였을 경우, AI 모델의 오류 탐지율 52.00%로 가장 높은 확률로 AI의 잘못된 판단을 찾아낼 수 있다는 것을 확인할 수 있다.

AI 모델과 FOS의 AI 모델의 오류 탐지율을 분석 비교에서, AI 모델과 본 발명에서 제안한 프레임워크의 데이터 비율별 AI 모델의 오류 탐지율을 비교하였고, 도 14a와 14b의 그래프와 같이 본 발명이 제안한 프레임워크가 AI 모델보다 오류를 더 잘 탐지하는 것을 확인할 수 있다. 또한, 데이터가 전체 10%인 경우 본 발명에서 제안한 프레임워크의 AI 오류 탐지율은 38.15%로 가장 높은 탐지율을 보이고 있음을 알 수 있다.

Prediction probability를 포함한 FOS 분석 결과를 살펴보면, AI 오류 탐지를 위한 분석 방법으로 FOS 뿐만 아니라 prediction probability를 포함하여 AI 오류 탐지를 진행하였고, 이때 prediction probability의 임계는 총 3가지의 경우로 설정하여 임계 이하인 데이터에 대해서만 분석을 진행하였다. 대체적으로 prediction probability가 0.95 이하인 경우 AI 모델의 오류 탐지율이 높은 것을 확인할 수 있다(도 15 참조).

Prediction probability를 포함한 FOS 분석 결과를 살펴보면, Prediction probability의 포함 유무에 상관없이 suspicion score의 임계=0.5정도에서 AI 오류 탐지율이 가장 높게 나왔다. suspicion score=0.5인 경우 XAI 판단 의심 개수 : 75개였고, XAI 판단 의심 중 오탐 개수 : 39개로, AI 오류 탐지율 : 52.00% 였다. Prediction probability 0.95 이하, suspicion score=0.4 인 XAI 판단 의심 개수 : 43개이고, XAI 판단 의심 중 오탐 개수 : 32개로 AI 오류 탐지율 : 74.42% 였다.

Prediction probability를 포함하지 않은 방식도 AI 모델에 비해 잘못 탐지된 데이터들을 잘 찾아내었으나, prediction probability를 포함하여 분석할 경우 AI의 오류를 더 잘 찾아냄을 확인할 수 있었다.

도 16은 본 발명에 따른 방법을 개괄적으로 나타낸 도면이다.

본 발명의 방법에서 처리 절차 단계를 다시 한 번 살펴보면 다음과 같다.

1. 테스트 데이터의 예측을 위한 학습 데이터 기반 AI 모델을 생성. AI 모델의 학습 과정을 효과적으로 처리하기 위해 feature 프로세싱을 수행한 후 AI 모델을 생성.

2. AI 모델 explainer와 학습 데이터를 이용하여 XAI explainability 생성 및 summary plot 기반 중요 feature을 선정. 파이썬 내 라이브러리를 통해 AI 모델의 explainer 생성하고, explainer에 학습 데이터를 이용하여 SHAP value를 산출하고, 산출된 SHAP value를 통해 summary plot 생성. 이 때, summary plot에는 상위 20개의 주요 feature이 산출됨. 주요 20개 feature 중 분석가의 지식을 기반으로 해석이 가능한 중요 feature 10개 선정.

3. 편향없이 분석하기 위해 선정된 중요 feature들의 데이터 분포 기반 범위 프로세싱을 수행. 각 중요 feature 별 고유한 값에 해당하는 데이터 수를 카운트하여 설정 조건에 충족하는 경우 SHAP value를 범위 그룹에 추가하는 방식으로 범위 그룹을 생성. 범위는 feature의 고유값을 통해 생성된다. 예컨대, 전체 데이터에서 A라는 feature의 값이 [0.1, 0.1, 0.2, 0.3, 0.5]와 같이 있는 경우, 범위는 [0.1~0.2, 0.2~0.3, 0.3~0.5]로 생성될 수 있다.

4. 각 범위 그룹의 SHAP value 평균 및 표준편차를 산출한 후, 테스트 데이터의 의심 및 신뢰를 판단하기 위해 저장한다. FOS calculation information에 각 feature 별 범위, 평균, 표준편차가 저장된다.

5. 테스트 데이터 입력 시 학습 데이터와 동일하게 feature 프로세싱 후 사전에 생성된 AI 모델을 이용하여 예측을 진행한다.

6. 테스트 데이터와 사전에 생성된 explainer를 이용하여 테스트 데이터의 SHAP value을 산출한다.

7. FOS calculation information를 로드하여 테스트 데이터의 각 중요 feature 별 FOS를 계산한다. 테스트 데이터의 각 데이터의 feature value을 FOS calculation information에 저장된 범위와 비교한 후 해당하는 그룹의 정보와 테스트 데이터의 SHAP value을 이용하여 FOS(abs(CDF-0.5)*2) 계산한다. FOS(Feature Outlier Score) AI 모델 예측의 신뢰 및 의심을 판단하기 위해 각 feature 별 이상 정도를 나타내는 score를 계산한다.

8. 각 feature 별로 FOS 계산 후 FOS를 종합하여 데이터 별 suspicion score를 계산한다. 각 데이터의 feature 별 FOS가 있으며, FOS가 설정 임계 이상인 경우 해당 feature은 AI 모델의 예측을 의심해야 한다고 판단하고, 임계 이하인 경우 해당 feature은 AI 모델의 예측을 신뢰해도 된다고 판단한다. feature 별로 AI 모델 예측에 대한 의심 및 신뢰에 대한 판단을 진행한 후 의심으로 간주되는 feature의 수를 카운트하여 suspicion score를 계산한다. 계산된 suspicion socre가 높을수록 해당 데이터는 추가 검토가 필요한 데이터로 선별할 수 있다.

이상에서 본 발명은 첨부된 도면을 참조하여 기술된 실시예들을 중심으로 설명되었지만 이에 한정되는 것은 물론 아니다. 후술하는 청구항들은 본 발명의 범주 안에서 이들 실시예로부터 자명하게 도출 가능한 많은 변형예들을 포괄하도록 의도되었다.

Claims

컴퓨터에서 실행하는 악성 위협 탐지를 위한 valuable alert 선별 프로그램을 통한 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법에 있어서,
테스트 데이터의 예측을 위한 학습 데이터 기반 AI 모델을 생성하는 단계 1과;
AI 모델 explainer와 학습 데이터를 이용하여 XAI explainability 생성 및 summary plot 기반 중요 feature을 선정하는 단계 2와;
편향없이 분석하기 위해 선정된 중요 feature들의 데이터 분포 기반 범위 프로세싱을 수행하는 단계 3과;
각 범위 그룹의 SHAP value 평균 및 표준편차를 산출한 후, 테스트 데이터의 의심 및 신뢰를 판단하기 위해 저장하는 단계 4와;
테스트 데이터 입력 시 학습 데이터와 동일하게 feature 프로세싱 후 사전에 생성된 AI 모델을 이용하여 예측을 진행하는 단계 5와;
테스트 데이터와 사전에 생성된 explainer를 이용하여 테스트 데이터의 SHAP value을 산출하는 단계 6과;
FOS calculation information를 로드하여 테스트 데이터의 각 중요 feature 별 FOS를 계산하는 단계 7과; 그리고
각 feature 별로 FOS 계산 후 FOS를 종합하여 데이터 별 suspicion score를 계산하는 단계 8로 이루어지는 것을 feature으로 하는, 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법.
제1항에 있어서,
상기 단계 2에서, 파이썬 내 라이브러리를 통해 AI 모델의 explainer를 생성하고, 상기 explainer에 학습 데이터를 이용하여 SHAP value를 산출하고, 상기 산출된 SHAP value를 통해 summary plot을 생성하며, 상기 summary plot에는 상위 20개의 중요 feature가 생성되고, 상기 20개의 feature 중에서 분석가의 지식을 기반으로 해석이 가능한 중요 feature 10개를 선정하는 것을 특징으로 하는 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법.
제2항에 있어서,
상기 단계 3에서, 각 중요 feature별 고유한 값에 해당하는 데이터 수를 카운트하여 설정 조건을 충족하는 경우 SHAP value를 범위 그룹에 추가하는 방식으로 범위 그룹을 생성하는 것을 특징으로 하는 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법.
제3항에 있어서,
상기 범위는 feature의 고유값을 통해 생성되는 것을 특징으로 하는 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법.
제2항에 있어서,
상기 FOS calculation information에 각 중요 feature별 범위 및 평균, 표준편차가 저장되는 것을 특징으로 하는 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법.
제2항에 있어서,
상기 단계 7에서, 테스트 데이터의 각 데이터의 각 중요 feature value을 FOS calculation information에 저장된 범위와 비교한 후 해당하는 그룹의 정보와 테스트 데이터의 SHAP value을 이용하여 FOS=abs(CDF-0.5)*2) 계산하는 것을 특징으로 하는 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법.
제6항에 있어서,
FOS(Feature Outlier Score) AI 모델 예측의 신뢰 및 의심을 판단하기 위해 각 중요 feature별 이상 정도를 나타내는 score를 계산하는 것을 특징으로 하는 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법.
제2항에 있어서,
상기 단계 8에서, 각 데이터의 각 중요 feature별 FOS가 있으며, FOS가 설정 임계 이상인 경우 해당 feature는 AI 모델의 예측을 의심해야 한다고 판단하고, 임계 이하인 경우 해당 feature는 AI 모델의 예측을 신뢰해도 된다고 판단하는 것을 특징으로 하는 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법.
제8항에 있어서,
각 중요 feature 별로 AI 모델 예측에 대한 의심 및 신뢰에 대한 판단을 진행한 후 의심으로 간주되는 feature의 수를 카운트하여 suspicion score를 계산하는 것을 특징으로 하는 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법.
제9항에 있어서,
계산된 suspicion socre가 높을수록 해당 데이터는 추가 검토가 필요한 데이터로 선별되는 것을 특징으로 하는 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법.