KR102406421B1

KR102406421B1 - 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템 및 그 방법

Info

Publication number: KR102406421B1
Application number: KR1020200156777A
Authority: KR
Inventors: 남기효; 정문권; 이희웅
Original assignee: (주)유엠로직스
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2022-06-08
Also published as: KR20220069544A

Abstract

본 발명은 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는, 기발생한 사이버 표적공격에 대한 관련 정보들을 수집하는 공격 데이터 수집부(100), 인터넷 상의 다양한 텍스트 자료를 분석하여, 이슈 키워드를 수집하는 키워드 수집부(200), 상기 키워드 수집부(200)에서 수집한 상기 이슈 키워드들 간의 연관성 분석을 수행하여, 사회이슈 키워드를 도출하는 사회이슈 분석부(300), 상기 공격 데이터 수집부(100)에서 수집한 정보들과 상기 사회이슈 분석부(300)에서 도출한 상기 사회이슈 키워드를 통합 분석하여, 발생한 사이버 표적공격 중 사회이슈형 사이버 표적공격을 판단하고, 상기 발생한 사회이슈형 사이버 표적공격들에 관한 정보들을 학습 데이터로 생성하여, 다중 기계학습 기법을 이용하여 상기 학습 데이터에 대한 학습을 수행하는 학습 처리부(400), 상기 학습 처리부(400)의 학습 결과에 따른 다중 기계학습 모델들을 이용하여, 실시간으로 수집되는 서버 운영 데이터들을 분석하여, 사회이슈형 사이버 표적공격 발생 여부를 탐지하는 APT 탐지부(500) 및 상기 APT 탐지부(500)의 탐지 결과에 의한 상기 사회이슈형 사이버 표적공격의 탐지의 원인을 분석하는 APT 탐지 분석부(600)를 포함하여 구성되는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템에 관한 것이다.

Description

다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템 및 그 방법 {Explainable advanced persistent threat detect system and method using multiple machine learning}

본 발명은 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 발생한 사이버 표적공격과 해당하는 기간의 사회이슈 데이터를 연관 분석하여, 이 후, 발생하는 사회이슈형 사이버 표적공격을 탐지할 수 있는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템 및 그 방법에 관한 것이다.

또한, 사회이슈형 사이버 표적공격의 발생 여부를 탐지하고, 공격이 탐지된 원인을 유추하여 제공함으로써, 이를 활용한 보안 강화 및 예방을 수행할 수 있는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템 및 그 방법에 관한 것이다.

사이버 표적공격(APT 공격, Advanced Persistent Threat)은, 특정 실체를 목표로 하는 사람들에 의해 잠행적이고 지속적인 컴퓨터 해킹 프로세스들의 집합에 의해 공격이 이루어지며, 보통 개인 단체, 국가 또는 사업체나 정치단체(의 서버)를 그 표적으로 삼는다.

이러한 사이버 표적공격은 오랜 시간 동안 상당한 정도의 은밀함이 요구되어, 표적으로 삼고 있는 시스템 내의 취약점을 공격하기 위한 악성 소프트웨어를 이용하며, 이러한 악성 소프트웨어를 생성하기 위해 외부에서 지속적으로 표적 대상들에 대한 데이터를 감시하고 추출하게 된다.

이러한 사이버 표적공격이 알려지지 않은 취약점을 공격하기 때문에, 기존 보안 시스템의 시그니처 기반의 탐지로는 방어가 힘들며, 이상 트래픽을 감지하는 시스템 역시 무력화하기 위해 장기간 동안 아주 천천히 공격을 시도하므로 피해 자체를 인지하지 못하게 되는 문제점이 있다.

특히, 이러한 사이버 표적공격 중 사회이슈형 사이버 표적공격은 공격자 조직이 특정 사회이슈 등을 빌미로 여러 개의 공격 대상에 대해 전략적으로 수행하는 사이버 표적공격을 의미하며, 사회이슈형 사이버 표적공격은 여러 개의 공격 대상에 대해 동시에 또는 연속적으로 사이버 공격을 시도함으로써, 사회적으로도 많은 피해를 야기하게 된다.

종래에는 이러한 사이버 표적공격에 대응하기 위해서, 각각의 서버(기관 등)에서 개별적으로 보안 기법을 적용하여, 사회이슈형 사이버 표적공격이 발생하는 경우, 이를 하나의 공격 기조(사회이슈형 사이버 표적공격)로 인식하지 못하고, 개별적인 사이버 표적공격으로만 판단하여, 각각의 서버에서 개별적으로 대응하였기 때문에, 사이버 표적공격에 대한 탐지가 늦어질 뿐 아니라, 이를 미연에 방지하는 것 역시 거의 불가능했다.

다만, 최근들어 사회이슈 기반 사이버 표적공격이 갖고 있는 다양한 전조 현상과 공격 패턴이 많이 수집됨으로써, 기존에 벌어졌던 공격에 대한 빅데이터를 바탕으로 기계학습 기법을 이용하여, 일부에 대해서는 발생하는 사회이슈 사이버 표적공격의 탐지하고 있다. 그렇지만, 현재 대부분의 기계학습 기법(인공지능 모델, 딥러닝 등)은 블랙박스 모형으로 입력 데이터를 통해서 해석한 결과인 출력값만을 표현하고 있을 뿐, 출력값이 어떻게 도출되었는지, 다시 말하자면, 왜 해당 결과가 출력되었는지를 알 수 없기 때문에, 단순히 사회이슈형 사이버 표적공격의 탐지에 그칠 뿐, 이에 대한 원인을 이용한 재발생 자체를 근절하는 등의 보안 조치를 수행할 수 없다.

종래에는 이러한 문제점을 해소하기 위하여, 국내공개특허 제10-2014-0077405호("사이버 공격 탐지 장치 및 방법")에서는 미리 설정된 기간 동안 사이버 표적공격 관련 정보 소시들을 수집한 후, 미리 저장되어 있는 정상적 행위와 유사도를 비교하여 공격의 행위를 탐지하는 기술을 개시하고 있다.

국내공개특허 제10-2014-0077405호(공개일자 2014.06.24.)

본 발명은 상기한 바와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 사회이슈형 사이버 표적공격의 발생 여부를 탐지하고, 공격이 탐지된 원인을 유추하여 제공함으로써, 이를 활용한 보안 강화 및 예방을 수행할 수 있는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템 및 그 방법을 제공하는 것이다.

본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템은, 기발생한 사이버 표적공격에 대한 관련 정보들을 수집하는 공격 데이터 수집부(100), 인터넷 상의 다양한 텍스트 자료를 분석하여, 이슈 키워드를 수집하는 키워드 수집부(200), 상기 키워드 수집부(200)에서 수집한 상기 이슈 키워드들 간의 연관성 분석을 수행하여, 사회이슈 키워드를 도출하는 사회이슈 분석부(300), 상기 공격 데이터 수집부(100)에서 수집한 정보들과 상기 사회이슈 분석부(300)에서 도출한 상기 사회이슈 키워드를 통합 분석하여, 발생한 사이버 표적공격 중 사회이슈형 사이버 표적공격을 판단하고, 상기 발생한 사회이슈형 사이버 표적공격들에 관한 정보들을 학습 데이터로 생성하여, 다중 기계학습 기법을 이용하여 상기 학습 데이터에 대한 학습을 수행하는 학습 처리부(400), 상기 학습 처리부(400)의 학습 결과에 따른 다중 기계학습 모델들을 이용하여, 실시간으로 수집되는 서버 운영 데이터들을 분석하여, 사회이슈형 사이버 표적공격 발생 여부를 탐지하는 APT 탐지부(500) 및 상기 APT 탐지부(500)의 탐지 결과에 의한 상기 사회이슈형 사이버 표적공격의 탐지의 원인을 분석하는 APT 탐지 분석부(600)를 포함하여 구성되는 것이 바람직하다.

더 나아가, 상기 학습 처리부(400)는 상기 공격 데이터 수집부(100)에서 수집한 정보들과 상기 사회이슈 분석부(300)에서 도출한 상기 사회이슈 키워드를 통합 분석하여, 발생한 사이버 표적공격 중 사회이슈형 사이버 표적공격을 판단하는 공격 분석부(410), 상기 공격 분석부(410)에서 판단한 상기 사회이슈형 사이버 표적공격들에 관한 정보들을 정형화하여 다중 기계학습 기법에 활용할 상기 학습 데이터로 생성하는 학습 데이터 생성부(420), 기계학습 기법을 이용하여, 상기 학습 데이터 생성부(420)에서 생성한 전체 상기 학습 데이터에 대한 학습을 수행하는 기준 학습부(430), 상기 학습 데이터 생성부(420)에서 생성한 상기 학습 데이터를 이용하여, 상기 학습 데이터를 이루고 있는 항목들 중 기설정된 일부 항목들을 제외한 결핍 학습 데이터를 둘 이상 생성하는 결핍 데이터 생성부(440) 및 기계학습 기법을 이용하여, 상기 결핍 데이터 생성부(440)에서 생성한 둘 이상의 결핍 학습 데이터들에 대한 각각의 학습을 수행하는 결핍 학습부(450)를 더 포함하여 구성되는 것이 바람직하다.

더 나아가, 상기 APT 탐지부(500)는 실시간으로 수집되는 서버 운영 데이터들을 입력받아, 상기 기준 학습부(430)에서의 학습 결과에 의해 생성된 기준 학습 모델에 적용하여, 해당 사이트의 공격 발생 위험도를 분석하여, 사회이슈형 사이버 표적공격의 발생 여부를 탐지하는 기준 탐지부(510) 및 상기 기준 탐지부(510)에서 입력받은 상기 서버 운영 데이터들을 전달받아 상기 결핍 학습부(450)에서의 학습 결과에 의해 생성된 둘 이상의 결핍 학습 모델에 각각 적용하여, 해당 사이트의 공격 발생 위험도를 각각 분석하여, 사회이슈형 사이버 표적공격의 발생 여부를 탐지하는 결핍 탐지부(520)를 더 포함하여 구성되며, 상기 기준 탐지부(510)에 의한 탐지 결과를 사회이슈형 사이버 표적공격의 탐지 결과 정보로 설정하여, 외부에 전달하는 것이 바람직하다.

더 나아가, 상기 APT 탐지 분석부(600)는 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상기 결핍 탐지부(510)에 의한 각각의 탐지 결과 정보들을 비교 분석하는 비교부(610) 및 상기 비교부(610)의 비교 분석 결과에 따라, 상기 기준 탐지부(510)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보를 도출하는 원인 도출부(620)를 더 포함하여 구성되는 것이 바람직하다.

더 나아가, 상기 비교부(610)는 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상기 결핍 탐지부(520)에 의한 각각의 탐지 결과 정보들을 비교하여, 상기 결핍 탐지부(520)에 의한 각각의 탐지 결과 정보들 중 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석한 결핍 학습 모델을 판단하는 제1 비교부(611) 및 상기 제1 비교부(611)에서 판단한 결핍 학습 모델이 없을 경우, 상기 결핍 데이터 생성부(440)에서 상기 결핍 학습 데이터를 재조합하여 생성하도록 하는 제1 제어부(612)를 더 포함하여 구성되는 것이 바람직하다.

더 나아가, 상기 비교부(610)는 상기 제1 비교부(611)에서 판단한 결핍 학습 모델이 하나일 경우, 해당 결핍 학습 모델이 학습한 상기 결핍 학습 데이터를 도출하여, 상기 결핍 데이터 생성부(440)에 의해 해당하는 상기 결핍 학습 데이터에서 결핍시킨 항목을 도출하는 제2 비교부(613)를 더 포함하여 구성되며, 상기 원인 도출부(620)에서, 상기 제2 비교부(613)에서 도출한 상기 항목을 상기 기준 탐지부(510)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 도출하는 것이 바람직하다.

더 나아가, 상기 비교부(610)는 상기 제1 비교부(611)에서 판단한 결핍 학습 모델이 둘 이상일 경우, 해당 결핍 학습 모델들이 학습한 각각의 상기 결핍 학습 데이터를 도출하여, 상기 결핍 데이터 생성부(440)에 의해 해당하는 상기 결핍 학습 데이터에서 결핍시킨 항목들을 도출하는 제3 비교부(614), 상기 제3 비교부(614)에서 도출한 상기 결핍시킨 항목들에 대한 중요도 분석을 수행하고, 수행한 중요도 분석값을 토대로, 중요도가 소정값 미만인 항목을 제외한 후 결핍시킨 항목들을 이용하여 기계학습을 위한 탐지 학습 데이터를 생성하는 탐지 데이터 생성부(615), 기계학습 기법을 이용하여, 상기 탐지 데이터 생성부(615)에서 상기 탐지 학습 데이터에 대한 학습을 수행하는 탐지 학습부(616), 상기 기준 탐지부(510)에서 입력받은 상기 서버 운영 데이터들을 전달받아 상기 탐지 학습부(616)에서의 학습 결과에 의해 탐지 학습 모델에 적용하여, 해당 사이트의 공격 발생 위험도를 분석하여, 사회이슈형 사이버 표적공격의 발생 여부를 탐지하는 결핍 재탐지부(617) 및 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상기 결핍 재탐지부(617)에 의한 탐지 결과 정보를 비교하여, 일치 여부를 판단하는 제3 비교부(618)를 더 포함하여 구성되며, 상기 원인 도출부(620)에서, 상기 제3 비교부(618)의 판단 결과에 따라, 탐지 결과 정보가 일치할 경우, 상기 탐지 학습 데이터에 해당하는 항목을 상기 기준 탐지부(510)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 도출하는 것이 바람직하다.

더 나아가, 상기 비교부(610)는 상기 제3 비교부(618)의 판단 결과에 따라, 일치하지 않을 경우, 상기 제3 비교부(618)의 판단 결과로 일치가 나올 때까지, 상기 탐지 데이터 생성부(615)에서 상기 탐지 학습 데이터의 생성에 제외한 항목들 중 중요도가 큰 항목을 순차적으로 포함시켜 기계학습을 위한 탐지 학습 데이터를 재생성하여, 상기 탐지 학습부(616), 결핍 재탐지부(617) 및 제3 비교부(618)의 동작을 재수행하는 것이 바람직하다.

더 나아가, 상기 원인 도출부(620)는 상기 제3 비교부(618)의 재수행을 통해서, 탐지 결과 정보가 일치할 경우, 상기 탐지 학습 데이터의 재생성을 위해 포함시킨 항목을 상기 기준 탐지부(510)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 도출하는 것이 바람직하다.

본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 방법은, 기발생한 사이버 표적공격에 대한 관련 정보들을 수집하는 공격데이터 수집단계(S100), 인터넷 상의 다양한 텍스트 자료들을 분석하여, 사회이슈 키워드를 도출하는 사회이슈 분석단계(S200), 상기 공격데이터 수집단계(S100)에 의해 수집한 정보들과 상기 사회이슈 분석단계(S200)에 의해 도출한 상기 사회이슈 키워드를 통합 분석하여, 발생한 사이버 표적공격 중 사회이슈형 사이버 표적공격을 판단하는 공격 판단단계(S300), 상기 공격 판단단계(S300)에 의해 판단한 상기 사회이슈형 사이버 표적공격들에 관한 정보들을 학습 데이터로 생성하는 학습 데이터 생성단계(S400), 다중 기계학습 기법을 이용하여, 상기 학습 데이터 생성단계(S400)에 의해 생성한 상기 학습 데이터에 대한 학습을 수행하는 학습단계(S500), 상기 학습단계(S500)에 의한 학습 결과에 따른 다중 기계학습 모델들을 이용하여, 실시간으로 수집되는 서버 운영 데이터들을 분석하여, 사회이슈형 사이버 표적공격 발생 여부를 탐지하는 공격 탐지단계(S600) 및 상기 공격 탐지단계(S600)에 의한 탐지 결과를 이용하여, 탐지한 상기 사회이슈형 사이버 표적공격의 탐지의 원인을 분석하는 원인 분석단계(S700)를 포함하여 구성되는 것이 바람직하다.

더 나아가, 상기 학습 데이터 생성단계(S400)는 상기 공격 판단단계(S300)에 의해 판단한 상기 사회이슈형 사이버 표적공격들에 관한 정보들을 정형화하여 상기 학습 데이터로 생성하는 기준 학습 데이터 생성단계(S410) 및 상기 기준 학습 데이터 생성단계(S410)에 의해 생성한 상기 학습 데이터를 이용하여, 상기 학습 데이터를 이루고 있는 항목들 중 기설정된 일부 항목들을 제외한 결핍 학습 데이터를 둘 이상 생성하는 결핍 학습 데이터 생성단계(S420)를 더 포함하여 구성되는 것이 바람직하다.

더 나아가, 상기 학습단계(S500)는 기계학습 기법을 이용하여, 상기 기준 학습 데이터 생성단계(S410)에 의해 생성한 전체 상기 학습 데이터에 대한 학습을 수행하는 기준 학습 단계(S510) 및 기계학습 기법을 이용하여, 상기 결핍 학습 데이터 생성단계(S420)에 의해 생성한 둘 이상의 결핍 학습 데이터들에 대한 각각의 학습을 수행하는 결핍 학습 단계(S520)를 더 포함하여 구성되는 것이 바람직하다.

더 나아가, 상기 공격 탐지단계(S600)는 실시간으로 수집되는 서버 운영 데이터들을 입력받아, 상기 기준 학습 단계(S510)에 의한 학습 결과에 의해 생성된 기준 학습 모델에 적용하여, 해당 사이트의 공격 발생 위험도를 분석하여, 사회이슈형 사이버 표적공격의 발생 여부를 탐지하는 기준공격 탐지단계(S610) 및 상기 기준공격 탐지단계(S610)에서 입력받은 상기 서버 운영 데이터들을 전달받아, 상기 결핍 학습 단계(S520)에 의한 학습 결과에 의해 생성된 둘 이상의 결핍 학습 모델에 각각 적용하여, 해당 사이트의 공격 발생 위험도를 각각 분석하여, 사회이슈형 사이버 표적공격의 발생 여부를 각각 탐지하는 결핍공격 탐지단계(S620)를 더 포함하여 구성되며, 상기 기준공격 탐지단계(S610)에 의한 탐지 결과를 사회이슈형 사이버 표적공격의 탐지 결과 정보로 설정하여, 외부로 전달하는 것이 바람직하다.

더 나아가, 상기 원인 분석단계(S700)는 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상기 결핍공격 탐지단계(S620)에 의한 각각의 탐지 결과 정보들을 비교하여, 상기 결핍공격 탐지단계(S620)에 의한 탐지 결과 정보들 중 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석한 결핍 학습 모델을 판단하는 결과 비교단계(S710)를 더 포함하여 구성되는 것이 바람직하다.

더 나아가, 상기 원인 분석단계(S700)는 상기 결과 비교단계(S710)의 판단 결과에 따라, 상기 결핍공격 탐지단계(S620)에 의한 탐지 결과 정보들 중 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석한 결핍 학습 모델이 없을 경우, 상기 결핍 학습 데이터 생성단계(S420)를 재수행하여, 상기 결핍 학습 데이터를 재조합하여 생성하도록 하는 것이 바람직하다.

더 나아가, 상기 원인 분석단계(S700)는 상기 결과 비교단계(S710)의 판단 결과에 따라, 상기 결핍공격 탐지단계(S620)에 의한 탐지 결과 정보들 중 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석한 결핍 학습 모델이 하나일 경우, 해당하는 결핍 학습 모델에서 학습한 상기 결핍 학습 데이터를 도출하여, 해당하는 상기 결핍 학습 데이터에서 결핍시킨 항목을 도출하여, 도출한 상기 항목을 상기 기준공격 탐지단계(S610)에 의해 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 분석하는 제1 원인 결정단계(S720)를 더 포함하여 구성되는 것이 바람직하다.

더 나아가, 상기 원인 분석단계(S700)는 상기 결과 비교단계(S710)의 판단 결과에 따라, 상기 결핍공격 탐지단계(S620)에 의한 탐지 결과 정보들 중 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석한 결핍 학습 모델이 둘 이상일 경우, 해당하는 결핍 학습 모델들이 학습한 각각의 상기 결핍 학습 데이터를 도출하여, 해당하는 상기 결핍 학습 데이터에서 결핍시킨 항목들을 도출하는 제2-1 원인 결정단계(S731), 상기 제2-1 원인 결정단계(S731)에 의해 도출된 상기 결핍시킨 항목들에 대한 중요도 분석을 수행하는 제2-2 원인 결정단계(S732), 상기 제2-2 원인 결정단계(S732)에 의한 상기 결핍시킨 항목들의 각 중요도 분석값을 토대로 중요도 분석값이 소정값 미만인 항목을 제외한 후, 결핍시킨 항목들을 이용하여 기계학습을 위한 탐지 학습 데이터를 생성하는 제2-3 원인 결정단계(S733), 기계학습 기법을 이용하여, 상기 제2-3 원인 결정단계(S733)에 의해 생성한 상기 탐지 학습 데이터에 대한 학습을 수행하는 제2-4 원인 결정단계(S734), 상기 기준공격 탐지단계(S610)에서 입력받은 상기 서버 운영 데이터들을 전달받아, 상기 제2-4 원인 결정단계(S734에 의한 학습 결과에 의해 생성된 탐지 학습 모델에 적용하여, 해당 사이트의 공격 발생 위험도를 각각 분석하여, 사회이슈형 사이버 표적공격의 발생 여부를 탐지하는 제2-5 원인 결정단계(S735), 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상기 제2-5 원인 결정단계(S735)에 의한 탐지 결과 정보를 비교하여, 일치 여부를 판단하는 제2-6 원인 결정단계(S736) 및 상기 제2-6 원인 결정단계(S736)의 판단 결과에 따라, 탐지 결과 정보가 일치할 경우, 상기 탐지 학습 데이터에 해당하는 항목을 상기 기준공격 탐지단계(S610)에 의해 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 분석하는 제2-7 원인 결정단계(S737)를 더 포함하여 구성되는 것이 바람직하다.

더 나아가, 상기 원인 분석단계(S700)는 상기 제2-6 원인 결정단계(S736)의 판단 결과에 따라, 탐지 결과 정보가 일치하지 않을 경우, 상기 제2-3 원인 결정단계(S733)에 의해 상기 탐지 학습 데이터의 생성에 제외한 항목들 중 중요도가 큰 항목을 순차적으로 포함시켜 상기 탐지 학습 데이터를 재생성하여, 상기 제2-4 원인 결정단계(S734), 제2-5 원인 결정단계(S735) 및 제2-6 원인 결정단계(S736)를 재수행하되, 상기 제2-6 원인 결정단계(S736)의 판단 결과에 따른 탐지 결과 정보가 일치할 때까지 반복 수행하는 것이 바람직하다.

상기와 같은 구성에 의한 본 발명의 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템 및 그 방법은 발생한 사이버 표적공격과 해당하는 기간의 사회이슈 데이터를 연관 분석하여, 사회이슈형 사이버 표적공격의 발생 여부를 탐지하고, 공격이 탐지된 원인을 유추하여 제공함으로써, 이를 활용한 보안 강화 및 예방을 수행할 수 있는 장점이 있다.

이러한 탐지 결과 정보 및 원인 정보 등을 이용하여 서버를 운영하는 관리자(운영자 등)가 사회이슈에 따른 사이버 표적공격(사회이슈형 사이버 표적공격)에 따른 피해를 최소화할 수 있도록 대비책(방지책) 등을 강구할 수 있도록 제공할 수 있는 장점이 있다.

또한, 과거에 발생했던 사회이슈형 사이버 표적공격과 연관이 있는 사회이슈가 또다시 발생할 경우, 다시 말하자면, '사회이슈형 사이버 표적공격과 연관이 있는 사회이슈 키워드가 특정 기간에 다시 대두될 경우, 이와 관련도가 높은 공격 대상 그룹이 운영하고 있는 서버, 웹 사이트 등의 보안을 강화하고 지속적인 모니터링을 통해 사이버 표적공격을 미연에 방지하여, 예방 및 조치를 취할 수 있는 장점이 있다.

특히, 공격 발생 여부를 탐지하거나, 공격 가능성을 탐지하는 데에 그치지 않고, 인공지능 학습, 즉, 기계학습 기법에 사용되는 학습 데이터(입력 데이터)에 의도적인 결핍을 발생시킨 후, 이를 학습한 결핍 모델과, 결핍이 존재하지 않는 전체 학습 데이터를 학습한 기준 모델을 동시에 운영하여, 입력 데이터에 대한 결과가 각 모델이 상이함을 이용하여, 의도적으로 결핍시킨 데이터를 통해 기준 모델에서 출력된 결과의 원인을 유추하여, 사회이슈형 사이버 표적공격의 탐지의 원인을 분석할 수 있어, 사회이슈형 사이버 표적공격의 표적이 된 이유, 공격의 원인 등을 예측하여 보안 강화에 활용할 수 있는 장점이 있다.

뿐만 아니라, 학습 데이터에 의도적인 결핍을 발생시킨 결핍 학습 데이터를 다중으로 생성하고, 다중의 기계학습 모델들을 이용하여 각각 학습시킴으로써, 보다 정확하게 탐지의 원인을 유추할 수 있는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템을 나타낸 구성 예시도이다.
도 2는 본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템에 적용된 다중 기계학습 기법을 나타낸 예시도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 방법을 나타낸 순서 예시도이다.

이하 첨부한 도면들을 참조하여 본 발명의 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템 및 그 방법을 상세히 설명한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다.

이 때, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다.

더불어, 시스템은 필요한 기능을 수행하기 위하여 조직화되고 규칙적으로 상호 작용하는 장치, 기구 및 수단 등을 포함하는 구성 요소들의 집합을 의미한다.

먼저, 기존의 사이버 표적공격(APT 공격)과 사회이슈형 사이버 표적공격의 차이점에 대해서 알아보자면, 기존의 사이버 표적공격은 공격자 그룹이 하나의 표적을 정해서 수행하는 타겟형 사이버 공격이다. 이에 반해서, 사회이슈형 사이버 표적공격은 공격자 그룹이 어떠한 목적을 가지고 다수의 기관들을 대상으로 동시/연속적으로 수행하는 공격이다.

기존의 사이버 표적공격에 대한 대응은, 상술한 바와 같이, 각각의 기관에서 개별적인 보안 솔루션(APT 보안 솔루션 등)으로 대응하였고, 개별적으로는 어느 정도 공격탐지를 하였으나 공격이 어느 정도 진행된 후 탐지가 이루어지기 때문엣, 늦은 탐지에 따른 피해가 발생하는 것은 당연하였다.

최근들어 사회이슈형 사이버 표적공격이 발생하면서, 여러기관에서 동시 또는 연속적으로 사이버 공격을 받는 사례가 증가하고 있으며, 이러한 사회이슈형 사이버 표적공격은 공격에 따른 사회적 파급 효과가 커서 신속하게 탐지 또는 예측을 할 필요가 있으나, 현재까지 이에 대한 방어기술로 사회이슈 기반 사이버 표적공격이 갖고 있는 다양한 전조 현상과 공격 패턴을 이용하여, 빅데이터를 바탕으로 기계학습 기법을 통해 일 발생하는 사회이슈 사이버 표적공격의 탐지하고 있다. 그렇지만, 현재 대부분의 기계학습 기법(인공지능 모델, 딥러닝 등)은 블랙박스 모형으로 입력 데이터를 통해서 해석한 결과인 출력값만을 표현하고 있을 뿐, 출력값이 어떻게 도출되었는지, 다시 말하자면, 왜 해당 결과가 출력되었는지를 알 수 없기 때문에, 단순히 사회이슈형 사이버 표적공격의 탐지에 그칠 뿐, 탐지의 이유를 설명 가능하며, 이를 이용한 재발생 자체를 근절하는 등의 보안 조치를 수행할 수 없다.

이에 따라, 본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템 및 그 방법은, 공격자 조직이 특정 사회이슈 등을 빌미로 여러 개의 공격 대상(공격 대상 서버 등)에 전략적으로 수행하는 '사회이슈형 사이버 표적공격'을 탐지할 수 있을 뿐 아니라, 인공지능 학습, 즉, 기계학습 기법에 사용되는 학습 데이터(입력 데이터)에 의도적인 결핍을 발생시킨 후, 이를 학습한 결핍 모델과, 결핍이 존재하지 않는 전체 학습 데이터를 학습한 기준 모델을 동시에 운영하여, 입력 데이터에 대한 결과가 각 모델이 상이함을 이용하여, 의도적으로 결핍시킨 데이터를 통해 기준 모델에서 출력된 결과의 원인을 유추할 수 있다.

특히, 학습 데이터에 의도적인 결핍을 발생시킨 결핍 학습 데이터를 다중으로 생성하고, 다중의 기계학습 모델들을 이용하여 각각 학습시킴으로써, 보다 정확하게 탐지의 원인을 유추할 수 있다.

이를 통해서, 사회이슈형 사이버 표적공격이 발생함에 있어서 나타나는 패턴 등을 학습하여 앞으로 나타날 가능성이 높은 '사회이슈형 사이버 표적공격'을 탐지하여, 이를 위한 보안 강화 등을 통해 사이버 공격에 의한 피해를 미연에 방지할 수 있을 뿐 아니라, 사회이슈형 사이버 표적공격의 탐지의 원인을 분석할 수 있어, 사회이슈형 사이버 표적공격의 표적이 된 이유, 공격의 원인 등을 예측하여 보안 강화에 활용할 수 있다.

도 1은 본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템을 나타낸 구성도이며, 도 1을 참조로 하여 본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템을 상세히 설명한다.

본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템은 도 1에 도시된 바와 같이, 공격 데이터 수집부(100), 키워드 수집부(200), 사회이슈 분석부(300), 학습 처리부(400), APT 탐지부(500) 및 APT 탐지 분석부(600)를 포함하여 구성되는 것이 바람직하다. 또한, 각 구성들에서 발생하는 데이터들을 전송받아, 이를 데이터베이스화하여 저장 및 관리하는 데이터베이스부(미도시)를 더 포함하여 구성되는 것이 바람직하며, 각 구성들은 하나의 연산처리수단 또는 각각의 연산처리수단에 구성되어 동작을 수행하게 된다.

각 구성에 대해서 자세히 알아보자면,

상기 공격 데이터 수집부(100)는 이미 발생한 사이버 표적공격에 대한 관련 정보들을 수집하는 것으로, 다시 말하자면, 과거 발생했던 사이버 표적공격에 대한 공격 로그를 수집하는 것이 바람직하다.

상세하게는, 즉, 현재 발생하는 또는, 발생할 수 있는 사이버 표적공격을 탐지하기 위해서는, 과거에 발생했던 사이버 표적공격에 대한 분석이 필요하다. 이에 따라, 일정한 형태의 사이버 표적공격이 아닌, 모든 형태의 사이버 표적공격에 대한 로그 정보들을 전송받아, 이를 수집하여 빅데이터로 구성하는 것이 바람직하다.

이를 위해, 상기 공격 데이터 수집부(100)는 사이버 표적공격 관련 로그 정보들을 보관하고 있는 다양한 사이버 보안관제 운영 기관(보안관제 센터 등)들을 설정하고 이들을 관리하면서, 이들이 보관하고 있는 모든 형태의 사이버 표적공격 관련 로그 정보들을 전송받는 것이 바람직하다.

이 때, 단순히 로그 정보들을 모두 모아서, 빅데이터로 구성하는 것이 아니라, 전송받은 로그 정보의 형식이 데이터베이스 형식인지, 파일 형식인지 판별하여, 데이터베이스 형식일 경우, SQL과 연동 후 상기 데이터베이스부에 '사이버 표적공격 데이터'로 저장하고, 파일 형식일 경우, 해당 파일을 추출하여 '사이버 표적공격 데이터'로 데이터베이스화하여 저장 및 관리하는 것이 바람직하다.

상기 키워드 수집부(200)는 인터넷 상의 다양한 텍스트 자료들을 분석하여, 이슈 키워드들을 수집하는 것이 바람직하다.

상세하게는, 상기 키워드 수집부(200)는 외부로부터 수집하고자 하는 기간 정보를 입력받아, 해당하는 기간의 인터넷 상의 다양한 텍스트 자료들을 수집하고, 수집한 상기 텍스트 자료들에 대한 형태소 분석을 통해, 이슈 키워드를 설정하는 것이 바람직하다.

이 때, 분석한 형태소들 중 미리 설정된 블랙리스트 형태소들은 제외하고 나머지 형태소들을 상기 이슈 키워드로 설정하는 것이 바람직하다.

이를 통해서, 상기 키워드 수집부(200)는 인터넷 상에 존재하는 뉴스 사이트와 SNS를 활용하여 미리 설정한 기간에 존재하는 다양한 키워드들을 수집하게 된다.

일 예를 들자면, 포털 사이트(검색 사이트), 다양한 방송사 사이트, 다양한 방송사들의 SNS등을 통해서 업로드되는 모든 기사를 텍스트 자료들로 수집하는 것이 바람직하다.

이 때, 포털 사이트(검색 사이트), 다양한 방송사 사이트, 다양한 방송사들의 SNS에 해당하는 URL 링크 등을 입력하면서, 모든 기사들의 업로드 날짜가 포함되어 있는 파라미터 부분을 분리하여 수집함으로써, 날짜별 기사들을 텍스트 자료들로 수집할 수 있다.

이러한 기간 설정은 분석의 효율성을 높이기 위하여, 미리 설정된 소정기간마다 또는, 입력받은 특정 기간을 설정하여, 해당하는 기간 내의 모든 기사들을 수집하는 것이 바람직하다. 즉, 외부 관리자(사용자)가 원하는 특정 기간을 입력할 경우, 상기 키워드 수집부(200)는 크롤링 모듈을 이용하여 특정 기간에 해당하는 모든 기사에 포함되어 있는 텍스트 자료들을 수집하게 된다.

또한, 수집한 상기 텍스트 자료들에 형태소 분석을 수행하여, 키워드를 추출하는데, 상술한 바와 같이, 해당 키워드가 의미없거나 자주 등장하는 단어일 경우, 이를 블랙리스트로 등록하여, 이를 제외하고 나머지 형태소들을 이슈 키워드로 설정하는 것이 바람직하다.

상기 블랙리스트에 대한 일 예를 들자면, 기자이름, 뉴스이름, 사이트이름, 날씨 정보 등으로, 대부분의 기사에 의미없이 자주 등장하는 단어를 등록하는 것이 바람직하다.

여기서, 의미가 없다는 것은, 형태소 자체 의미를 의미하는 것이 아니라, 해당 형태소가 사이버 표적공격과는 연관 없이, 기사의 기본 포맷으로 반드시(대부분) 존재하는 것을 뜻한다.

이렇게 설정한 상기 이슈 키워드 역시 데이터베이스화하여 저장 및 관리하는 것이 바람직하다.

상기 사회이슈 분석부(300)는 상기 키워드 수집부(200)에서 수집한 상기 이슈 키워들 간의 연관성 분석을 수행하여, 사회이슈 키워드를 도출하는 것이 바람직하다.

상세하게는, 상기 사회이슈 분석부(300)는 상기 키워드 수집부(200)에서 수집한 상기 이슈 키워드들을 활용하여 해당 기간의 이슈 키워드들 간의 연관성을 분석하여, 사회이슈를 도출할 수 있다. 여기서, 해당 기간이란, 상기 키워드 수집부(200)를 통해서 기간 별로 텍스트 자료들을 수집하기 때문에, 텍스트 자료를 수집한 기간을 의미한다.

더불어, 상기 사회이슈 분석부(300)는 연관성 분석을 수행하기 위해서, 미리 설정된 기준에 따라, 상기 이슈 키워드들을 그룹화하는 것이 바람직하다.

이 때, 미리 설정된 기준으로는, 경제, 정치, 사회, 문화, 연예 등, 통상적으로 기사의 큰 카테고리로 설정하는 것이 바람직하다.

이러한 각각의 그룹 내 이슈 키워드들 간의 연관성 분석을 수행하여, 키워드 발생 빈도를 기준으로 사회이슈 키워드를 선정하는 것이 바람직하다. 다시 말하자면 특정 기간 내에 수집된 텍스트 자료들에서 분석된 형태소들이 발생 빈도가 높을 경우, 해당 형태소를 사회이슈 키워드로 선정하는 것이 바람직하다.

키워드 발생 빈도가 높다는 것은, 그만큼 기사로 자주 언급되었다는 것을 의미하기 때문에, 사회이슈 키워드일 가능성이 매우 높기 때문에, 이를 사회이슈 키워드로 선정하는 것이 바람직하다.

이렇게 선정한 상기 사회이슈 키워드는 데이터베이스화하여 저장 및 관리하는 것이 바람직하며, 단순하게 상기 사회이슈 키워드만을 저장하는 것이 아니라, 상기 사회이슈 키워드가 발생한 특정 기간 역시 데이터베이스화하여 같이 저장 및 관리하는 것이 바람직하다.

이를 통해서, 추후에 사회이슈 키워드를 조회하기 위하여, 원하는 기간을 입력할 경우, 해당하는 기간의 '사회이슈 키워드'를 확인할 수 도 있다.

상기 학습 처리부(400)는 상기 공격 데이터 수집부(100)에서 수집한 정보들과 상기 사회이슈 분석부(300)에서 도출한 상기 사회이슈 키워드를 통합 분석하여, 발생한 사이버 표적공격 중 사회이슈형 사이버 표적공격을 판단할 수 있다. 또, 상기 발생한 사회이슈형 사이버 표적공격들에 관한 정보들을 학습 데이터로 생성하여, 다중 기계학습 기법을 이용하여 상기 학습 데이터에 대한 학습을 수행하는 것이 바람직하다.

이를 위해, 상기 학습 처리부(400)는 도 1에 도시된 바와 같이, 공격 분석부(410), 학습 데이터 생성부(420), 기준 학습부(430), 결핍 데이터 생성부(440) 및 결핍 학습부(450)를 더 포함하여 구성되는 것이 바람직하다.

상기 공격 분석부(410)는 상기 공격 데이터 수집부(100)에서 수집한 정보들과 상기 사회이슈 분석부(300)에서 도출한 상기 사회이슈 키워드를 통합 분석하여, 발생한 사이버 표적공격 중 사회이슈형 사이버 표적공격을 판단하는 것이 바람직하다.

상세하게는, 상기 공격 분석부(410)는 상기 공격 데이터 수집부(100)에서 수집한 정보들을 이용하여 공격 날짜, 공격 유형, 공격 대상 등을 입력변수로 적용하여 미리 설정된 빈도분석, 회귀분석 등 다양한 통계분석을 수행하는 것이 바람직하다.

이를 통해서, 발생 이전(직전 등)에 나타나는 특징이 될 만한 패턴, 공격 발생 일자 및 공격 시간대별 주 공격 패턴 학습 결과, 공격자 그룹(출발지 IP정보, 출발지 PORT 정보 등)별 공격 패턴 학습 결과, 주 피해 대상 기관(목적지 IP정보, 목적지 PORT 정보 등)별 공격 패턴 학습 결과, 페이로드에 나타나는 공격 패턴 학습 결과 등을 분석할 수 있다.

이러한 상기 공격 데이터 수집부(100)에서 수집한 정보들의 분석 결과와 상기 사회이슈 분석부(300)에서 도출한 상기 사회이슈 키워드를 이용하여, 연관성 분석모듈을 통해 사회이슈형 사이버 표적공격 여부를 판단하는 것이 바람직하다.

즉, 상기 공격 데이터 수집부(100)에서 수집한 정보들의 분석 결과를 토대로 모든 형태의 사이버 표적공격의 로그 정보들을 분석하였기 때문에, '사회이슈형 사이버 표적공격'을 판단하기 위해서는, 해당 기간, 즉, 특정 사이버 표적공격이 발생하였을 때의 사회이슈 키워드가 특정 사이버 표적공격이 이루어진 공격 대상 그룹과 상관도가 있는지 분석하여, 상관도가 소정기준값 이상일 경우, 특정 사이버 표적공격이 '사회이슈형 사이버 표적공격'인 것으로 판단하는 것이 바람직하다.

이러한 사회이슈형 사이버 표적공격의 경우, 사회이슈를 빗대어 공격 대상 그룹을 비교적 특정할 수 있기 때문에, 과거에 발생했던 사회이슈형 사이버 표적공격을 분석하여 이에 대한 대비책 등을 마련하였을 경우, 동일한 사회이슈가 발생할 경우, 해당하는 공격 대상 그룹에서 이에 대해 선제적 대응책을 마련할 수 있는 장점이 있다. 즉, 모든 사이버 표적공격에 대한 방어책을 마련하는 것은 현실적으로 불가능하기 때문에, 가장 효과적으로 방어책을 마련할 수 있는 사회이슈형 사이버 표적공격부터 분석하여 이에 대한 선제적 대응을 진행하는 것이 바람직하다.

상기 학습 데이터 생성부(420)는 상기 공격 분석부(410)에서 판단한 상기 사회이슈형 사이버 표적공격들에 관한 정보들을 정형화하여 기계학습 기법에 활용한 학습 데이터로 생성하는 것이 바람직하다.

즉, 상기 공격 분석부(410)에서 판단한 상기 사회이슈형 사이버 표적공격들에 관한 정보들인, 발생 이전(직전 등)에 나타나는 특징이 될 만한 패턴, 공격 발생 일자 및 공격 시간대별 주 공격 패턴 학습 결과, 공격자 그룹(출발지 IP정보, 출발지 PORT 정보 등)별 공격 패턴 학습 결과, 주 피해 대상 기관(목적지 IP정보, 목적지 PORT 정보 등)별 공격 패턴 학습 결과, 페이로드에 나타나는 공격 패턴 학습 결과 등과, 해당하는 사회이슈 키워드를 정형화하여 학습 데이터로 생성하는 것이 바람직하다. 정형화란, 데이터 분석을 수행하기 위해, 문자, 문자열, 정수형 등의 다양한 데이터를 수치화하는 것을 의미한다.

이러한 정형화 과정을 통해서 추후에 상기 결핍 데이터 생성부(440)에서 상기 학습 데이터들 중 일부 데이터를 임의로 결핍시켜 결핍 학습 데이터를 생성할 수 있다.

상기 기준 학습부(430)는 기계학습 기법을 이용하여, 상기 학습 데이터 생성부(420)에서 생성한 전체 상기 학습 데이터에 대한 학습을 수행하는 것이 바람직하다.

상기 결핍 데이터 생성부(440)는 상기 학습 데이터 생성부(420)에서 생성한 상기 학습 데이터를 이용하여, 상기 학습 데이터를 이루고 있는 항목들 중 미리 설정된 일부 항목들을 제외한 결핍 학습 데이터를 둘 이상 생성하는 것이 바람직하다.

다시 말하자면, 상기 학습 데이터 생성부(420)의 정형화를 통해서 다양한 데이터들을 수치화함으로써, 하기의 표 1에 도시된 예시와 같이, 정형화된 학습 데이터를 토대로 일부 항목의 데이터들을 임의로 결핍시켜 다수의 결핍 학습 데이터들을 생성할 수 있다.

	임의 결핍 데이터	데이터 종류
제1 결핍 학습 데이터	공격 일자	공격 시간, 공격 일, 공격 월, 공격 수행 기간
제2 결핍 학습 데이터	공격 유형	웜/바이러스, 데이터 유출, 경유지 악용, DDoS
제3 결핍 학습 데이터	공격 대상	IT, 금융, 제조, 운수, 건설, 공공기관
제4 결핍 학습 데이터	공격자 주소	국가번호, IP주소, 포트 번호
제5 결핍 학습 데이터	사회이슈	정치, 경제, 문화, 세계, 생활

상기 결핍 학습부(450)는 기계학습 기법을 이용하여, 상기 결핍 데이터 생성부(440)에서 생성한 둘 이상의 결핍 학습 데이터들에 대한 각각의 학습을 수행하는 것이 바람직하다.

즉, 일 예를 들자면, 상기 기준 학습부(430)에서는, 공격 일자, 공격 유형, 공격 대상, 공격자 주소, 사회이슈를 모두 포함한 데이터에 대한 학습을 수행하는 것이 바람직하다. 상기 결핍 학습부(450)에서는, 공격 일자가 제외된 데이터에 대한 학습을 수행하는 제1 결핍 학습, 공격 유형이 제외된 데이터에 대한 학습을 수행하는 제2 결핍 학습, 공격 대상이 제외된 데이터에 대한 학습을 수행하는 제3 결핍 학습, 공격자 주소가 제외된 데이터에 대한 학습을 수행하는 제4 결핍 학습, 사회이슈가 제외된 데이터에 대한 학습을 수행하는 제5 결핍 학습을 수행하는 것이 바람직하다.

이를 통해서, 본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템은 도 2에 도시된 바와 같이, 상기 학습 처리부(400)를 통해서 다수 개의 기계학습 기법을 이용하여 각각 상이한 학습 데이터에 대한 학습을 수행함으로써, 다중 기계학습 기법을 활용하는 것이 바람직하다.

상기 APT 탐지부(500)는 상기 학습 처리부(400)의 학습 결과에 따른 다중 기계학습 모델들을 이용하여, 실시간으로 수집되는 서버 운영 데이터들을 분석하여, 사회이슈형 사이버 표적공격 발생 여부를 탐지하는 것이 바람직하다.

즉, 상기 APT 탐지부(500)는 상기 학습 처리부(400)에 의해 학습이 완료되면, 그 이후 시점에서 수집되는 공격 대상 서버들의 운영 데이터를 각각의 학습 결과 모델(학습 모델)에 적용함으로써, 사회이슈형 사이버 표적공격을 탐지할 수 있다.

상세하게는, 상기 APT 탐지부(500)는 상기 공격 대상 서버들로부터 실시간으로 운영 데이터를 입력받아, 상기 학습 처리부(400)에서의 학습 결과에 의해 생성된 각각의 학습 결과 모델(학습 모델)에 적용하여 상기 공격 대상 서버의 사이버 표적공격 위험도를 판단하는 것이 바람직하다. 뿐만 아니라, 판단한 상기 공격 대상 서버의 사이버 표적공격 위험도를 기반으로, 상기 공격 대상 서버의 사이버 표적공격 발생 여부까지 탐지할 수 있다.

이를 위해, 상기 APT 탐지부(500)는 상기 공격 대상 서버들로부터 실시간으로 상기 운영 데이터를 입력받는 것이 바람직하다. 즉, 과거 운영 데이터를 이용하여 사회이슈형 사이버 표적공격에 대한 학습을 완료한 후, 새롭게 입력되는 상기 운영 데이터들을 이용하여, 상기 공격 대상 서버들에 대한 보안 동작을 수행하게 된다.

상기 학습 처리부(400)에서의 학습 결과에 의해 생성된 각각의 학습 결과 모델(학습 모델)에 입력받은 상기 운영 데이터, 다시 말하자면, 학습이 완료된 후, 새롭게 입력되는 상기 공격 대상 서버들의 운영 데이터를 적용하여, 상기 공격 대상 서버들에 대한 사이버 표적공격 위험도를 판단하여, 각각의 학습 모델에서 각각의 상기 공격 대상 서버에 대한 사이버 표적공격 위험도로 설정하는 것이 바람직하다.

또한, 상기 APT 탐지부(500)는 단순하게 상기 공격 대상 서버에 대한 사이버 표적공격 위험도를 설정하는데 그치지 않고, 상기 공격 대상 서버에 대한 사이버 표적공격 위험도를 이용하여, 상기 공격 대상 서버에 대한 사이버 표적공격 발생 여부를 탐지(판단)할 수 있다.

이 때, 상기 공격 대상 서버에 대한 사이버 표적공격 발생 여부의 탐지는, 단순히 사회이슈형 사이버 표적공격의 발생/미발생으로 판단하는 것이 아니라, 설정한 상기 공격 대상 서버에 대한 사이버 표적공격 위험도가 미리 설정된 임계치(본 발명에서는 80%로 설정)를 초과할 경우에, 사이버 표적공격이 발생한 것으로 탐지하는 것이 바람직하다.

여기서, 임계치는 각각의 공격 대상 서버를 관리하는 관리자(운영자 등)의 요청에 의해, 또는 사이버 표적공격 탐지 시스템을 운영하는 운영자(관리자 등)에 의해 설정될 수 있으며, 과거 발생했던 사회이슈형 사이버 표적공격의 위험도에 따라서도 그 임계치를 상이하게 설정할 수 있다.

이러한 상기 APT 탐지부(500)는 도 1에 도시된 바와 같이, 기준 탐지부(510) 및 결핍 탐지부(520)를 더 포함하여 구성되는 것이 바람직하다.

상기 기준 탐지부(510)는 상기 기준 학습부(430)에서의 학습 결과에 의해 생성된 기준 학습 모델에 적용하여, 해당 사이트의 사이버 표적공격 위험도 설정 및 사이버 표적공격 발생 여부를 탐지(판단)할 수 있다.

상기 결핍 탐지부(520)는 상기 기준 탐지부(510)에서 상기 기준 학습 모델에 적용한 상기 실시간으로 운영 데이터들을 전달받아, 상기 결핍 학습부(450)에서의 학습 결과에 의해 생성된 둘 이상의 결핍 학습 모델에 각각 적용하여, 상기 기준 탐지부(510)와 동일하게 해당 사이트의 사이버 표적공격 위험도 설정 및 사이버 표적공격 발생 여부를 탐지(판단)할 수 있다.

이 때, 상기 APT 탐지부(500)는 당연히, 모든 데이터를 학습한 상기 기준 탐지부(510)에 의한 탐지 결과를 사회이슈형 사이버 표적공격의 탐지 결과 정보로 설정하여 외부로 전달하는 것이 바람직하다.

뿐만 아니라, 사이버 표적공격 발생을 탐지할 경우, 해당하는 상기 공격 대상 서버로 대응 조치 관련 정보들을 생성하여, 전달하는 것이 바람직하다. 즉, 사이버 표적공격이 발생한 것으로 탐지하는 것만으로 그치지 않고, 사이버 표적공격에 대한 선제적 대응책을 마련할 수 있도록 대응 조치 관련 정보들을 전달하는 것이 바람직하다.

상기 APT 탐지 분석부(600)는 상기 APT 탐지부(500)의 탐지 결과에 의한 상기 사회이슈형 사이버 표적공격의 탐지의 원인을 분석하는 것이 바람직하다.

즉, 상이한 학습 데이터로 인해 발생하는 상기 기준 탐지부(510)의 탐지 결과와 상기 결핍 탐지부(520)의 탐지 결과 차이를 분석하여 상기 사회이슈형 사이버 표적공격의 탐지의 원인을 유추하는 것이 바람직하다.

이러한 상기 APT 탐지 분석부(600)는 도 1에 도시된 바와 같이, 비교부(610) 및 원인 도출부(620)를 포함하여 구성되는 것이 바람직하다.

상기 비교부(610)는 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상기 결핍 탐지부(520)에 의한 각각의 탐지 결과 정보들을 비교 분석하여 차이점을 찾는 것이 바람직하며, 상기 원인 도출부(620)는 상기 비교부(610)의 비교 분석 결과에 따라 상기 기준 탐지부(510)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보를 도출하는 것이 바람직하다.

이를 위해, 상기 비교부(610)는 도 1에 도시된 바와 같이, 제1 비교부(611), 제1 제어부(612), 제2 비교부(613), 제3 비교부(614), 탐지 데이터 생성부(615), 탐지 학스부(616), 결핍 재탐지부(617), 제3 비교부(618)를 포함하여 구성되는 것이 바람직하다.

상기 제1 비교부(611)는 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상기 결핍 탐지부(520)에 의한 각각의 탐지 결과 정보들을 비교하여, 상기 결핍 탐지부(520)에 의한 각각의 탐지 결과 정보들 중 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석해낸 결핍 학습 모델을 판단하는 것이 바람직하다.

상기 제1 비교부(611)에서의 판단 결과에 따라, 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석해낸 결핍 학습 모델이 존재하지 않을 경우, 다시 말하자면, 모든 학습 모델이 동일하게 사회이슈형 사이버 표적공격을 탐지했을 경우, 상기 제1 제어부(612)에서 동작을 수행하는 것이 바람직하다.

상기 제1 제어부(612)는 상기 결핍 데이터 생성부(440)에서 생성한 상기 결핍 학습 데이터를 재조합함으로써, 의도적인 사회이슈형 사이버 표적공격의 탐지 누락을 생성하는 것이 바람직하다.

또한, 상기 제1 비교부(611)에서의 판단 결과에 따라, 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석해낸 결핍 학습 모델이 하나일 경우, 다시 말하자면, 단 하나의 학습 모델만이 사회이슈형 사이버 표적공격을 상이하게 탐지했을 경우, 상기 제2 비교부(613)에서 동작을 수행하는 것이 바람직하다.

상기 제2 비교부(613)는 사회이슈형 사이버 표적공격을 상이하게 탐지한 해당하는 결핍 학습 모델이 학습한 결핍 학습 데이터를 도출하여, 상기 결핍 데이터 생성부(440)에 의해 해당하는 상기 결핍 학습 데이터에서 결핍시킨 항목을 도출하는 것이 바람직하다.

즉, 단 하나의 학습 모델을 제외한 나머지 학습 모델은 'A' 항목을 학습 데이터로 포함하고 있고, 단 하나의 학습 모델은 'A' 항목을 학습 데이터에서 제외시킨 후, 탐지 결과를 살펴보니 'A' 항목을 학습 데이터에서 제외시킨 탐지 결과만이 특정한 사이버 표적공격을 탐지하지 못했을 경우, 'A' 항목이 해당하는 사이버 표적공격을 탐지할 수 있는 핵심 항목인 것으로 유추할 수 있다.

그렇기 때문에, 기준이라 할 수 있는 모든 데이터를 학습한 상기 기준 탐지부(510)에 의한 탐지 결과 정보를 일명 '정답'이라고 할 경우, 이 정답과 다른 답안을 제출한 결핍 학습 모델을 도출하고, 해당하는 결핍 학습 모델이 부족하게 학습한 부분이 무엇인지 분석하여, 이 부분이 정답으로 이끌 수 있는 핵심 항목으로 볼 수 있다.

이를 통해서, 상기 원인 도출부(620)는 상기 제2 비교부(613)에서 도출한 상가 결핍시킨 항목을 상기 기준 탐지부(510)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 도출하는 것이 바람직하다.

이러한 탐지 원인 정보를 기반으로, 사회이슈형 사이버 표적공격에 대한 선제적 대응을 보다 수월하게 진행할 수 있는 장점이 있다.

더불어, 상기 제1 비교부(611)에서의 판단 결과에 따라, 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석해낸 결핍 학습 모델이 둘 이상일 경우, 다시 말하자면, 둘 이상의 학습 모델이 사회이슈형 사이버 표적공격을 상이하게 탐지했을 경우, 상기 제3 비교부(614)에서 동작을 수행하는 것이 바람직하다.

상기 제3 비교부(614)는 사회이슈형 사이버 표적공격을 상이하게 탐지한 모든 결핍 학습 모델이 학습한 결핍 학습 데이터를 도출하여, 상기 결핍 데이터 생성부(440)에 의해 해당하는 상기 결핍 학습 데이터에서 결핍시킨 모든 항목을 도출하는 것이 바람직하다.

이 경우, 상술한 단 하나의 학습 모델만이 사회이슈형 사이버 표적공격을 상이하게 탐지했을 경우와는 달리, 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보를 정확하게 특정할 수 없기 때문에, 하기와 같은 추가 동작이 수행되는 것이 바람직하다.

상기 탐지 데이터 생성부(615)는 상기 제3 비교부(614)에서 도출한 상기 결핍시킨 항목들에 대한 중요도 분석을 수행하는 것이 바람직하다.

상세하게는, 해당하는 상기 결핍시킨 항목들에 포함된 특성치와 사회이슈 기반 사이버 표적공격의 탐지 확률을 변수로 활용하여 상관도 분석을 진행하여, 중요도를 분석하는 것이 바람직하다.

이 후, 상기 탐지 데이터 생성부(615)는 중요도 분석값을 토대로, 중요도가 소정값(본 발명에서는 - 0.3 ~ 0.3으로 설정)미만인 항목을 제외한 후, 결핍시킨 항목들을 이용하여 기계학습을 위한 탐지 학습 데이터를 생성하는 것이 바람직하다.

일 예를 들자면, 하기의 표 2와 같이, 도출한 상기 결핍시킨 항목들에 대한 중요도를 분석한 결과를 이용하여 하기의 표 3과 같이, 소정값 미만인 항목을 제외하고 나머지 결핍시킨 항목들을 이용하여 기계학습을 위한 탐지 학습 데이터를 생성하는 것이 바람직하다.

결핍 항목	M1			M2
특성치	A1	A2	A3	B1	B2	B3
중요도	1.0	0.8	0.3	0.7	0.1	0.6

	신규 탐지 학습 데이터
특성치	A1	A2	B1	B3
중요도	1.0	0.8	0.7	0.6

상기 탐지 학습부(616)는 기계학습 기법을 이용하여, 상기 탐지 데이터 생성부(615)에서 생성한 상기 탐지 학습 데이터에 대한 학습을 수행하는 것이 바람직하다.

상기 결핍 재탐지부(617)는 상기 기준 탐지부(510)에서 입력받은 상기 서버 운영 데이터들을 전달받아, 다시 말하자면, 현재 탐지 원인을 분석하고 있는 사회이슈형 사이버 표적공격이 탐지된 상기 서버 운영 데이터들을 전달받아, 상기 탐지 학습부(616)에서의 학습 결과에 의한 탐지 학습 모델에 적용하여, 해당 사이트의 사이버 표적공격 위험도 설정 및 사이버 표적공격 발생 여부를 탐지(판단)할 수 있다.

상기 제3 비교부(618)는 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상기 결핍 재탐지부(617)에 의한 탐지 결과 정보를 비교하여, 일치 여부를 판단하는 것이 바람직하다.

즉, 사회이슈형 사이버 표적공격을 탐지한 '정답' 탐지 결과 정보인 상기 기준 탐지부(510)에 의한 탐지 결과 정보와, '정답'을 탐지하지 못한 원인으로 예상되는 상기 결핍시킨 항목들만을 학습한 후의 탐지 결과 정보를 비교하여, 사회이슈형 사이버 표적공격을 탐지 결과가 일치할 경우, 예상하고 있던 오탐의 원인을 제대로 찾았음을 의미한다. 그렇기 때문에, 상기 원인 도출부(620)에서, 상기 제3 비교부(618)의 판단 결과에 따라, 탐지 결과가 일치할 경우, 상기 탐지 학습 데이터에 해당하는 항목을, 다시 말하자면, 예상하고 있던 오탐의 원인을 상기 기준 탐지부(510)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 판단하는 것이 바람직하다.

단, 상기 비교부(610)는 상기 제3 비교부(618)의 판단 결과에 따라, 탐지 결과가 일치하지 않을 경우, 상기 탐지 학습 데이터에 해당하는 항목을, 다시 말하자면, 예상하고 있던 오탐의 원인이 잘못된 것이므로, 이를 해소하기 위하여, 상기 탐지 데이터 생성부(615)에서 상기 탐지 학습 데이터의 생성에 제외한 항목들 중 중요도가 큰 항목부터 순차적으로 포함시켜 기계학습을 위한 탐지 학습 데이터를 재생성하는 것이 바람직하다.

상기의 표 2 및 표 3로 예를 들자면, 제외된 A3, B2 중 보다 중요도가 높은 A3을 신규 탐지 학습 데이터로 포함시켜 기계학습을 위한 탐지 학습 데이터를 재생성하여, 상기 탐지 학습부(616), 결핍 재탐지부(617) 및 제3 비교부(618)의 동작을 재수행하는 것이 바람직하다.

이러한 재수행 과정은 상기 제3 비교부(618)의 판단 결과가 일치할 때까지, 다시 말하자면, 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 재수행한 상기 결핍 재탐지부(617)에 의한 탐지 결과 정보를 비교하여, 일치할 때까지 반복되는 것이 바람직하다.

이 때, 상기 원인 도출부(620)는 상기 제3 비교부(618)의 재수행을 통해서 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 재수행한 상기 결핍 재탐지부(617)에 의한 탐지 결과 정보가 일치할 경우, 상기 탐지 학습 데이터의 재생성을 위해 포함시킨 항목을 상기 기준 탐지부(510)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 판단하는 것이 바람직하다.

상기의 표 2 및 표 3로 이어서 예를 들자면, A3을 신규 탐지 학습 데이터로 포함시켜 기계학습을 위한 탐지 학습 데이터를 재생성한 후, 탐지 결과 정보가 일치할 경우, 상기 탐지 학습 데이터의 재생성을 위해 포함시킨 항목인 A3이 상기 기준 탐지부(510)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 판단하는 것이 바람직하다.

도 3 및 도 4는 본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 방법을 나타낸 순서도이며, 도 3 및 도 4를 참조로 하여 본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 방법을 상세히 설명한다.

본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 방법은 도 3에 도시된 바와 같이, 공격데이터 수집단계(S100), 사회이슈 분석단계(S200), 공격 판단단계(S300), 학습 데이터 생성단계(S400), 학습단계(S500), 공격 탐지단계(S600) 및 원인 분석단계(S700)를 포함하여 구성되는 것이 바람직하다.

각 단계에 대해서 자세히 알아보자면,

상기 공격데이터 수집단계(S100)는 상기 공격 데이터 수집부(100)에서, 이미 발생한 사이버 표적공격에 대한 관련 정보들을 수집하는 것으로, 다시 말하자면, 과거 발생했던 사이버 표적공격에 대한 공격 로그를 수집하는 것이 바람직하다.

이를 위해, 상기 공격데이터 수집단계(S100)는 사이버 표적공격 관련 로그 정보들을 보관하고 있는 다양한 사이버 보안관제 운영 기관(보안관제 센터 등)들을 설정하고 이들을 관리하면서, 이들이 보관하고 있는 모든 형태의 사이버 표적공격 관련 로그 정보들을 전송받는 것이 바람직하다.

이 때, 단순히 로그 정보들을 모두 모아서, 빅데이터로 구성하는 것이 아니라, 전송받은 로그 정보의 형식이 데이터베이스 형식인지, 파일 형식인지 판별하여, 데이터베이스 형식일 경우, SQL과 연동 후 데이터베이스화하여 사이버 표적공격 데이터'로 저장하고, 파일 형식일 경우, 해당 파일을 추출하여 '사이버 표적공격 데이터'로 데이터베이스화하여 저장 및 관리하는 것이 바람직하다.

상기 사회이슈 분석단계(S200)는 인터넷 상의 다양한 텍스트 자료들을 분석하여, 사회이슈 키워드를 도출하는 것이 바람직하다.

상세하게는, 상기 사회이슈 분석단계(S200)는 상기 키워드 수집부(200)에서, 인터넷 상의 다양한 텍스트 자료들을 분석하여, 이슈 키워드들을 수집하게 된다. 즉, 외부로부터 수집하고자 하는 기간 정보를 입력받아, 해당하는 기간의 인터넷 상의 다양한 텍스트 자료들을 수집하고, 수집한 상기 텍스트 자료들에 대한 형태소 분석을 통해, 이슈 키워드를 설정하는 것이 바람직하다.

이를 통해서, 상기 사회이슈 분석단계(S200)는 인터넷 상에 존재하는 뉴스 사이트와 SNS를 활용하여 미리 설정한 기간에 존재하는 다양한 키워드들을 수집하게 된다.

이러한 기간 설정은 분석의 효율성을 높이기 위하여, 미리 설정된 소정기간마다 또는, 입력받은 특정 기간을 설정하여, 해당하는 기간 내의 모든 기사들을 수집하는 것이 바람직하다. 즉, 외부 관리자(사용자)가 원하는 특정 기간을 입력할 경우, 상기 사회이슈 분석단계(S200)는 크롤링 모듈을 이용하여 특정 기간에 해당하는 모든 기사에 포함되어 있는 텍스트 자료들을 수집하게 된다.

이 후, 상기 사회이슈 분석단계(S200)는 상기 사회이슈 분석부(300)에서, 수집한 상기 이슈 키워들 간의 연관성 분석을 수행하여, 사회이슈 키워드를 도출하는 것이 바람직하다.

즉, 상기 사회이슈 분석단계(S200)는 수집한 상기 이슈 키워드들을 활용하여 해당 기간의 이슈 키워드들 간의 연관성을 분석하여, 사회이슈를 도출할 수 있다. 여기서, 해당 기간이란, 기간 별로 텍스트 자료들을 수집하기 때문에, 텍스트 자료를 수집한 기간을 의미한다.

더불어, 상기 사회이슈 분석단계(S200)는 연관성 분석을 수행하기 위해서, 미리 설정된 기준에 따라, 상기 이슈 키워드들을 그룹화하는 것이 바람직하다.

상기 공격 판단단계(S300)는 상기 학습 처리부(400)에서, 상기 공격데이터 수집단계(S100)에 의해 수집한 정보들과 상기 사회이슈 분석단계(S200)에 의해 도출한 상기 사회이슈 키워드를 통합 분석하여, 발생한 사이버 표적공격 중 사회이슈형 사이버 표적공격을 판단할 수 있다.

상세하게는, 상기 공격 판단단계(S300)는 상기 공격데이터 수집단계(S100)에 의해 수집한 정보들을 이용하여 공격 날짜, 공격 유형, 공격 대상 등을 입력변수로 적용하여 미리 설정된 빈도분석, 회귀분석 등 다양한 통계분석을 수행하는 것이 바람직하다.

이러한 상기 공격데이터 수집단계(S100)에 의해 수집한 정보들의 분석 결과와 상기 상기 사회이슈 분석단계(S200)에 의해 도출한 상기 사회이슈 키워드를 이용하여, 연관성 분석모듈을 통해 사회이슈형 사이버 표적공격 여부를 판단하는 것이 바람직하다.

즉, 상기 공격 판단단계(S300)는 수집한 정보들의 분석 결과를 토대로 모든 형태의 사이버 표적공격의 로그 정보들을 분석하였기 때문에, '사회이슈형 사이버 표적공격'을 판단하기 위해서는, 해당 기간, 즉, 특정 사이버 표적공격이 발생하였을 때의 사회이슈 키워드가 특정 사이버 표적공격이 이루어진 공격 대상 그룹과 상관도가 있는지 분석하여, 상관도가 소정기준값 이상일 경우, 특정 사이버 표적공격이 '사회이슈형 사이버 표적공격'인 것으로 판단하는 것이 바람직하다.

상기 학습 데이터 생성단계(S400)는 상기 학습 처리부(400)에서, 상기 공격 판단단계(S300)에 의해 판단한 상기 사회이슈형 사이버 표적공격들에 관한 정보들을 정형화하여 기계학습 기법에 활용한 학습 데이터로 생성하는 것이 바람직하다.

즉, 상기 공격 판단단계(S300)에 의해 판단한 상기 사회이슈형 사이버 표적공격들에 관한 정보들인, 발생 이전(직전 등)에 나타나는 특징이 될 만한 패턴, 공격 발생 일자 및 공격 시간대별 주 공격 패턴 학습 결과, 공격자 그룹(출발지 IP정보, 출발지 PORT 정보 등)별 공격 패턴 학습 결과, 주 피해 대상 기관(목적지 IP정보, 목적지 PORT 정보 등)별 공격 패턴 학습 결과, 페이로드에 나타나는 공격 패턴 학습 결과 등과, 해당하는 사회이슈 키워드를 정형화하여 학습 데이터로 생성하는 것이 바람직하다. 정형화란, 데이터 분석을 수행하기 위해, 문자, 문자열, 정수형 등의 다양한 데이터를 수치화하는 것을 의미한다.

이러한 정형화 과정을 통해서 추후에 상기 학습 데이터들 중 일부 데이터를 임의로 결핍시켜 결핍 학습 데이터를 생성할 수 있다.

상기 학습 데이터 생성단계(S400)는 도 3에 도시된 바와 같이, 기준 학습 데이터 생성단계(S410) 및 결핍 학습 데이터 생성단계(S420)를 더 포함하여 구성되는 것이 바람직하다.

상기 기준 학습 데이터 생성단계(S410)는 상기 공격 판단단계(S300)에 의해 판단한 상기 사회이슈형 사이버 표적공격들에 관한 정보들을 정형화하여 상기 학습 데이터로 생성하는 것이 바람직하며,

상기 결핍 학습 데이터 생성단계(S420)는 상기 기준 학습 데이터 생성단계(S410)에 의해 생성한 상기 학습데이터를 이용하여, 상기 학습 데이터를 이루고 있는 항목들 중 미리 설정된 일부 항목들을 제외한 결핍 학습 데이터를 둘 이상 생성하는 것이 바람직하다.

다시 말하자면, 정형화를 통해서 다양한 데이터들을 수치화한 후, 정형화된 학습 데이터를 토대로 일부 항목의 데이터들을 임의로 결핍시켜 다수의 결핍 학습 데이터들을 생성할 수 있다.

상기 학습단계(S500)는 상기 학습 처리부(400)에서, 다중 기계학습 기법을 이용하여, 상기 학습 데이터 생성단계(S400)에 의해 생성한 상기 학습 데이터에 대한 학습을 수행하는 것이 바람직하다.

상세하게는, 상기 학습단계(S500)는 도 3에 도시된 바와 같이, 기준 학습 단계(S510) 및 결핍 학습 단계(S520)를 포함하여 구성되는 것이 바람직하다.

상기 기준 학습 단계(S510)는 기계학습 기법을 이용하여, 상기 기준 학습 데이터 생성단계(S410)에서 생성한 전체 상기 학습 데이터에 대한 학습을 수행하는 것이 바람직하다.

또한, 상기 결핍 학습 단계(S520)는 기계학습 기법을 이용하여, 상기 결핍 학습 데이터 생성단계(S420)에서 생성한 둘 이상의 결핍 학습 데이터들에 대한 각각의 학습을 수행하는 것이 바람직하다.

즉, 상기의 표 1을 이용하여 일 예를 들자면, 상기 기준 학습 단계(S510)는 공격 일자, 공격 유형, 공격 대상, 공격자 주소, 사회이슈를 모두 포함한 데이터에 대한 학습을 수행하고, 상기 결핍 학습 단계(S520)는 공격 일자가 제외된 데이터에 대한 학습을 수행하는 제1 결핍 학습, 공격 유형이 제외된 데이터에 대한 학습을 수행하는 제2 결핍 학습, 공격 대상이 제외된 데이터에 대한 학습을 수행하는 제3 결핍 학습, 공격자 주소가 제외된 데이터에 대한 학습을 수행하는 제4 결핍 학습, 사회이슈가 제외된 데이터에 대한 학습을 수행하는 제5 결핍 학습을 수행하는 것이 바람직하다.

상기 공격 탐지단계(S600)는 상기 APT 탐지부(500)에서, 상기 학습단계(S500)에 의한 학습 결과에 따른 다중 기계학습 모델들을 이용하여, 실시간으로 수집되는 서버 운영 데이터들을 분석하여, 사회이슈형 사이버 표적공격 발생 여부를 탐지하는 것이 바람직하다.

상세하게는, 상기 공격 탐지단계(S600)는 상기 학습단계(S500)에 의해 학습이 완료되면, 그 이후 시점에서 수집되는 공격 대상 서버들의 운영 데이터를 각각의 학습 결과 모델(학습 모델)에 적용함으로써, 사회이슈형 사이버 표적공격을 탐지할 수 있다.

상기 공격 대상 서버들로부터 실시간으로 운영 데이터를 입력받아, 학습 결과에 의해 생성된 각각의 학습 결과 모델(학습 모델)에 적용하여 상기 공격 대상 서버의 사이버 표적공격 위험도를 판단하는 것이 바람직하다. 뿐만 아니라, 판단한 상기 공격 대상 서버의 사이버 표적공격 위험도를 기반으로, 상기 공격 대상 서버의 사이버 표적공격 발생 여부까지 탐지할 수 있다.

이를 위해, 상기 공격 탐지단계(S600)는 상기 공격 대상 서버들로부터 실시간으로 상기 운영 데이터를 입력받는 것이 바람직하다. 즉, 과거 운영 데이터를 이용하여 사회이슈형 사이버 표적공격에 대한 학습을 완료한 후, 새롭게 입력되는 상기 운영 데이터들을 이용하여, 상기 공격 대상 서버들에 대한 보안 동작을 수행하게 된다.

학습 결과에 의해 생성된 각각의 학습 결과 모델(학습 모델)에 입력받은 상기 운영 데이터, 다시 말하자면, 학습이 완료된 후, 새롭게 입력되는 상기 공격 대상 서버들의 운영 데이터를 적용하여, 상기 공격 대상 서버들에 대한 사이버 표적공격 위험도를 판단하여, 각각의 학습 모델에서 각각의 상기 공격 대상 서버에 대한 사이버 표적공격 위험도로 설정하는 것이 바람직하다.

더불어, 상기 공격 탐지단계(S600)는 단순하게 상기 공격 대상 서버에 대한 사이버 표적공격 위험도를 설정하는데 그치지 않고, 상기 공격 대상 서버에 대한 사이버 표적공격 위험도를 이용하여, 상기 공격 대상 서버에 대한 사이버 표적공격 발생 여부를 탐지(판단)할 수 있다.

이러한 상기 공격 탐지단계(S600)는 도 3에 도시된 바와 같이, 기준공격 탐지단계(S610) 및 결핍공격 탐지단계(S620)를 포함하여 구성되는 것이 바람직하다.

상기 기준공격 탐지단계(S610)는 상기 공격 대상 서버들로부터 실시간으로 상기 운영 데이터를 입력받아, 상기 기준 학습 단계(S510)에 의한 학습 결과에 의해 생성된 기준 학습 모델에 적용하여, 해당 사이트의 사이버 표적공격 위험도 설정 및 사이버 표적공격 발생 여부를 탐지(판단)할 수 있다.

상기 결핍공격 탐지단계(S620)는 상기 기준공격 탐지단계(S610)에서 입력받은 상기 공격 대상 서버들로부터 실시간으로 상기 운영 데이터를 전달받아, 상기 결핍 학습 단계(S520)에 의한 학습 결과에 의해 생성된 둘 이상의 결핍 학습 모델에 각각 적용하여, 해당 사이트의 사이버 표적공격 위험도 설정 및 사이버 표적공격 발생 여부를 탐지(판단)할 수 있다.

이 때, 본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 방법은, 당연히 상기 기준공격 탐지단계(S610)를 통해서, 모든 데이터를 학습한 기준 학습 모델에 의한 탐지 결과를 사회이슈형 사이버 표적공격의 탐지 결과 정보로 설정하여 외부로 전달하는 것이 바람직하다.

단, 상술한 바와 같이, 기준 학습 모델에 의한 탐지 결과 만을 제공할 경우, 탐지 결과의 이유, 탐지 결과의 원인에 대해서는 알 수 없게 된다. 그렇기 때문에, 상기 원인 분석단계(S700)를 통해서, 상기 공격 탐지단계(S600)에 의한 탐지 결과를 이용하여, 탐지한 상기 사회이슈형 사이버 표적공격의 탐지의 원인을 분석하는 것이 바람직하다.

상기 원인 분석단계(S700)는 상기 APT 탐지 분석부(600)에 의해 동작이 이루어지며, 도 4에 도시된 바와 같이, 결과 비교단계(S710), 제1 원인 결정단계(S720), 제2-1 원인 결정단계(S731), 제2-2 원인 결정단계(S732), 제2-3 원인 결정단계(S733), 제2-4 원인 결정단계(S734), 제2-5 원인 결정단계(S735), 제2-6 원인 결정단계(S736) 및 제2-7 원인 결정단계(S737)를 포함하여 구성되는 것이 바람직하다.

상기 결과 비교단계(S710)는 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상기 결핍공격 탐지단계(S620)에 의한 각각의 탐지 결과 정보들을 비교하여, 상기 결핍공격 탐지단계(S620)에 의한 탐지 결과 정보들 중 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석한 결핍 학습 모델을 판단하는 것이 바람직하다.

즉, 결핍 학습 데이터로 인해 발생한 상이한 결과를 이용하여 정확한 탐지의 원인을 분석하게 된다.

상기 원인 분석단계(S700)는 상기 결과 비교단계(S710)의 판단 결과에 따라, 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석해낸 결핍 학습 모델이 존재하지 않을 경우, 다시 말하자면, 모든 학습 모델이 동일하게 사회이슈형 사이버 표적공격을 탐지했을 경우, 상기 결핍 학습 데이터 생성단계(S420)를 재수행하여, 상기 결핍 학습 데이터를 재조합함으로써, 의도적인 사회이슈형 사이버 표적공격의 탐지 누락을 생성하는 것이 바람직하다.

상기 제1 원인 결정단계(S720)는 상기 결과 비교단계(S710)의 판단 결과에 따라, 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석해낸 결핍 학습 모델이 하나일 경우, 다시 말하자면, 단 하나의 학습 모델만이 사회이슈형 사이버 표적공격을 상이하게 탐지했을 경우, 해당하는 결핍 학습 모델이 학습한 결핍 학습 데이터를 도출하고, 해당하는 상기 결핍 학습 데이터에서 결핍시킨 항목을 도출하는 것이 바람직하다.

그렇기 때문에, 기준이라 할 수 있는 모든 데이터를 학습한 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보를 일명 '정답'이라고 할 경우, 이 정답과 다른 답안을 제출한 결핍 학습 모델을 도출하고, 해당하는 결핍 학습 모델이 부족하게 학습한 부분이 무엇인지 분석하여, 이 부분이 정답으로 이끌 수 있는 핵심 항목으로 볼 수 있다.

이를 통해서, 상기 제1 원인 결정단계(S720)는 도출한 상가 결핍시킨 항목을 상기 기준공격 탐지단계(S610)에 의해 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 도출하는 것이 바람직하다.

상기 결과 비교단계(S710)의 판단 결과에 따라, 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석해낸 결핍 학습 모델이 둘 이상일 경우, 다시 말하자면, 둘 이상의 학습 모델이 사회이슈형 사이버 표적공격을 상이하게 탐지했을 경우, 상술한 단 하나의 학습 모델만이 사회이슈형 사이버 표적공격을 상이하게 탐지했을 경우와는 달리, 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보를 정확하게 특정할 수 없게 된다.

그렇기 때문에, 상기 제2-1 원인 결정단계(S731)를 통해서, 사회이슈형 사이버 표적공격을 상이하게 탐지한 모든 결핍 학습 모델이 학습한 결핍 학습 데이터를 도출하여, 해당하는 상기 결핍 학습 데이터에서 결핍시킨 모든 항목을 도출하는 것이 바람직하다.

상기 제2-2 원인 결정단계(S732)는 상기 제2-1 원인 결정단계(S731)에 의해 도출된 상기 결핍시킨 항목들에 대한 중요도 분석을 수행하는 것이 바람직하다.

상기 제2-3 원인 결정단계(S733)는 상기 제2-2 원인 결정단계(S732)에 의한 상기 결핍시킨 항목들의 각 중요도 분석값을 토대로, 중요도가 소정값(본 발명에서는 - 0.3 ~ 0.3으로 설정)미만인 항목을 제외한 후, 결핍시킨 항목들을 이용하여 기계학습을 위한 탐지 학습 데이터를 생성하는 것이 바람직하다.

상기 2-4 원인 결정단계(S734)는 기계학습 기법을 이용하여, 상기 제2-3 원인 결정단계(S733)에서 생성한 상기 탐지 학습 데이터에 대한 학습을 수행하는 것이 바람직하다.

상기 2-5 원인 결정단계(S735)는 상기 기준공격 탐지단계(S610)에서 입력받은 상기 서버 운영 데이터들을 전달받아, 다시 말하자면, 현재 탐지 원인을 분석하고 있는 사회이슈형 사이버 표적공격이 탐지된 상기 서버 운영 데이터들을 전달받아, 상기 2-4 원인 결정단계(S734)에 의한 학습 결과에 의한 탐지 학습 모델에 적용하여, 해당 사이트의 사이버 표적공격 위험도 설정 및 사이버 표적공격 발생 여부를 탐지(판단)할 수 있다.

상기 2-6 원인 결정단계(S736)는 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상기 2-5 원인 결정단계(S735)에 의한 탐지 결과 정보를 비교하여, 일치 여부를 판단하는 것이 바람직하다.

즉, 사회이슈형 사이버 표적공격을 탐지한 '정답' 탐지 결과 정보인 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와, 정답'을 탐지하지 못한 원인으로 예상되는 상기 결핍시킨 항목들만을 학습한 후의 탐지 결과 정보를 비교하여, 사회이슈형 사이버 표적공격을 탐지 결과가 일치할 경우, 예상하고 있던 오탐의 원인을 제대로 찾았음을 의미한다.

그렇기 때문에, 상기 2-7 원인 결정단계(S737)는 상기 2-6 원인 결정단계(S736)의 판단 결과에 따라, 탐지 결과가 일치할 경우, 상기 탐지 학습 데이터에 해당하는 항목을, 다시 말하자면, 예상하고 있던 오탐의 원인을 상기 기준공격 탐지단계(S610)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 판단하는 것이 바람직하다.

이와 달리, 상기 2-6 원인 결정단계(S736)의 판단 결과에 따라, 탐지 결과가 일치하지 않을 경우, 상기 탐지 학습 데이터에 해당하는 항목을, 다시 말하자면, 예상하고 있던 오탐의 원인이 잘못된 것이므로, 이를 해소하기 위하여, 상기 제2-3 원인 결정단계(S733)에 의해 상기 탐지 학습 데이터의 생성에 제외한 항목들 중 중요도가 큰 항목부터 순차적으로 포함시켜 기계학습을 위한 탐지 학습 데이터를 재생성하는 것이 바람직하다.

상기의 표 2 및 표 3로 예를 들자면, 제외된 A3, B2 중 보다 중요도가 높은 A3을 신규 탐지 학습 데이터로 포함시켜 기계학습을 위한 탐지 학습 데이터를 재생성하여, 상기 제2-4 원인 결정단계(S734), 제2-5 원인 결정단계(S735) 및 제2-6 원인 결정단계(S736)를 재수행하는 것이 바람직하다.

이러한 재수행 과정은 상기 2-6 원인 결정단계(S736)의 판단 결과가 일치할 때까지, 다시 말하자면, 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 재수행한 상기 2-5 원인 결정단계(S735)에 의한 탐지 결과 정보를 비교하여, 일치할 때까지 반복되는 것이 바람직하다.

이 때, 상기 원인 분석단계(S700)는 재수행 과정을 통해서 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 재수행한 상기 2-5 원인 결정단계(S735)에 의한 탐지 결과 정보가 일치할 경우, 상기 탐지 학습 데이터의 재생성을 위해 포함시킨 항목을 상기 기준공격 탐지단계(S610)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 판단하는 것이 바람직하다.

상기의 표 2 및 표 3로 이어서 예를 들자면, A3을 신규 탐지 학습 데이터로 포함시켜 기계학습을 위한 탐지 학습 데이터를 재생성한 후, 탐지 결과 정보가 일치할 경우, 상기 탐지 학습 데이터의 재생성을 위해 포함시킨 항목인 A3이 상기 기준공격 탐지단계(S610)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 판단하는 것이 바람직하다.

즉, 다시 말하자면, 본 발명의 일 실시예에 따른 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템 및 그 방법은, 단순히 사회이슈형 사이버 표적공격의 발생 가능성 탐지 또는 발생 여부 탐지에 그치는 것이 아니라, 탐지의 이유, 탐지의 원인, 즉, 왜 해당하는 탐지 결과가 출력되었는지를 설명할 수 있는 탐지 원인 정보를 제공할 수 있어, 보다 정확도 높게 사회이슈형 사이버 표적공격에 대한 보안 이슈를 향상시키거나, 사회이슈형 사이버 표적공격의 발생 원인 자체를 제거할 수 있는 장점이 있다.

이상과 같이 본 발명에서는 구체적인 구성 소자 등과 같은 특정 사항들과 한정된 실시예 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것 일 뿐, 본 발명은 상기의 일 실시예에 한정되는 것이 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허 청구 범위뿐 아니라 이 특허 청구 범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

100 : 공격 데이터 수집부
200 : 키워드 수집부
300 : 사회이슈 분석부
400 : 학습 처리부
410 : 공격 분석부 420 : 학습 데이터 생성부
430 : 기준 학습부 440 : 결핍 데이터 생성부
450 : 결핍 학습부
500 : APT 탐지부
510 : 기준 탐지부 520 : 결핍 탐지부
600 : APT 탐지 분석부
610 : 비교부
611 : 제1 비교부 612 : 제1 제어부
613 : 제2 비교부 614 : 제3 비교부
615 : 탐지 데이터 생성부 616 : 탐지 학습부
617 : 결핍 재탐지부 618 : 제3 비교부
620 : 원인 도출부

Claims

기발생한 사이버 표적공격에 대한 관련 정보들을 수집하는 공격 데이터 수집부(100);
인터넷 상의 다양한 텍스트 자료를 분석하여, 이슈 키워드를 수집하는 키워드 수집부(200);
상기 키워드 수집부(200)에서 수집한 상기 이슈 키워드들 간의 연관성 분석을 수행하여, 사회이슈 키워드를 도출하는 사회이슈 분석부(300);
상기 공격 데이터 수집부(100)에서 수집한 정보들과 상기 사회이슈 분석부(300)에서 도출한 상기 사회이슈 키워드를 통합 분석하여, 발생한 사이버 표적공격 중 사회이슈형 사이버 표적공격을 판단하고, 상기 발생한 사회이슈형 사이버 표적공격들에 관한 정보들을 학습 데이터로 생성하여, 다중 기계학습 기법을 이용하여 상기 학습 데이터에 대한 학습을 수행하는 학습 처리부(400);
상기 학습 처리부(400)의 학습 결과에 따른 다중 기계학습 모델들을 이용하여, 실시간으로 수집되는 서버 운영 데이터들을 분석하여, 사회이슈형 사이버 표적공격 발생 여부를 탐지하는 APT 탐지부(500); 및
상기 APT 탐지부(500)의 탐지 결과에 의한 상기 사회이슈형 사이버 표적공격의 탐지의 원인을 분석하는 APT 탐지 분석부(600);
를 포함하여 구성되며,
상기 학습 처리부(400)는
기계학습 기법을 이용하여, 생성한 전체 상기 학습 데이터에 대한 학습을 수행하여 학습 결과에 의해 기준 학습 모델을 생성하고, 생성한 전체 상기 학습 데이터를 이루고 있는 항목들 중 기설정된 일부 항목들을 제외한 결핍 학습 데이터를 둘 이상 생성하여, 생성한 둘 이상의 결핍 학습 데이터들에 대한 각각의 학습을 수행하여 학습 결과에 의해 둘 이상의 결핍 학습 모델을 생성하며,
상기 APT 탐지부(500)는
실시간으로 수집되는 서버 운영 데이터들을 입력받아, 상기 기준 학습 모델에 적용하여, 해당 사이트의 공격 발생 위험도를 분석하여, 사회이슈형 사이버 표적공격의 발생 여부를 탐지하는 기준 탐지부(510);와,
상기 기준 탐지부(510)에서 입력받은 상기 서버 운영 데이터들을 전달받아 상기 둘 이상의 결핍 학습 모델에 각각 적용하여, 해당 사이트의 공격 발생 위험도를 각각 분석하여, 사회이슈형 사이버 표적공격의 발생 여부를 탐지하는 결핍 탐지부(520)
를 더 포함하며,
상기 기준 탐지부(510)에 의한 탐지 결과를 사회이슈형 사이버 표적공격의 탐지 결과 정보로 설정하여, 외부에 전달하는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템.
제 1항에 있어서,
상기 학습 처리부(400)는
상기 공격 데이터 수집부(100)에서 수집한 정보들과 상기 사회이슈 분석부(300)에서 도출한 상기 사회이슈 키워드를 통합 분석하여, 발생한 사이버 표적공격 중 사회이슈형 사이버 표적공격을 판단하는 공격 분석부(410);
상기 공격 분석부(410)에서 판단한 상기 사회이슈형 사이버 표적공격들에 관한 정보들을 정형화하여 다중 기계학습 기법에 활용할 상기 학습 데이터로 생성하는 학습 데이터 생성부(420);
기계학습 기법을 이용하여, 상기 학습 데이터 생성부(420)에서 생성한 전체 상기 학습 데이터에 대한 학습을 수행하여 학습 결과에 의해 기준 학습 모델을 생성하는 기준 학습부(430);
상기 학습 데이터 생성부(420)에서 생성한 상기 학습 데이터를 이용하여, 상기 학습 데이터를 이루고 있는 항목들 중 기설정된 일부 항목들을 제외한 결핍 학습 데이터를 둘 이상 생성하는 결핍 데이터 생성부(440); 및
기계학습 기법을 이용하여, 상기 결핍 데이터 생성부(440)에서 생성한 둘 이상의 결핍 학습 데이터들에 대한 각각의 학습을 수행하여 학습 결과에 의해 둘 이상의 결핍 학습 모델을 생성하는 결핍 학습부(450);
를 더 포함하여 구성되는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템.
삭제
제 2항에 있어서,
상기 APT 탐지 분석부(600)는
상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상기 결핍 탐지부(520)에 의한 각각의 탐지 결과 정보들을 비교 분석하는 비교부(610); 및
상기 비교부(610)의 비교 분석 결과에 따라, 상기 기준 탐지부(510)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보를 도출하는 원인 도출부(620);
를 더 포함하여 구성되는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템.
제 4항에 있어서,
상기 비교부(610)는
상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상기 결핍 탐지부(520)에 의한 각각의 탐지 결과 정보들을 비교하여, 상기 결핍 탐지부(520)에 의한 각각의 탐지 결과 정보들 중 상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석한 결핍 학습 모델을 판단하는 제1 비교부(611); 및
상기 제1 비교부(611)에서 판단한 결핍 학습 모델이 없을 경우, 상기 결핍 데이터 생성부(440)에서 상기 결핍 학습 데이터를 재조합하여 생성하도록 하는 제1 제어부(612);
를 더 포함하여 구성되는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템.
제 5항에 있어서,
상기 비교부(610)는
상기 제1 비교부(611)에서 판단한 결핍 학습 모델이 하나일 경우, 해당 결핍 학습 모델이 학습한 상기 결핍 학습 데이터를 도출하여, 상기 결핍 데이터 생성부(440)에 의해 해당하는 상기 결핍 학습 데이터에서 결핍시킨 항목을 도출하는 제2 비교부(613);
를 더 포함하여 구성되며,
상기 원인 도출부(620)에서, 상기 제2 비교부(613)에서 도출한 상기 항목을 상기 기준 탐지부(510)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 도출하는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템.
제 5항에 있어서,
상기 비교부(610)는
상기 제1 비교부(611)에서 판단한 결핍 학습 모델이 둘 이상일 경우, 해당 결핍 학습 모델들이 학습한 각각의 상기 결핍 학습 데이터를 도출하여, 상기 결핍 데이터 생성부(440)에 의해 해당하는 상기 결핍 학습 데이터에서 결핍시킨 항목들을 도출하는 제3 비교부(614);
상기 제3 비교부(614)에서 도출한 상기 결핍시킨 항목들에 대한 중요도 분석을 수행하고, 수행한 중요도 분석값을 토대로, 중요도가 소정값 미만인 항목을 제외한 후 결핍시킨 항목들을 이용하여 기계학습을 위한 탐지 학습 데이터를 생성하는 탐지 데이터 생성부(615);
기계학습 기법을 이용하여, 상기 탐지 데이터 생성부(615)에서 상기 탐지 학습 데이터에 대한 학습을 수행하는 탐지 학습부(616);
상기 기준 탐지부(510)에서 입력받은 상기 서버 운영 데이터들을 전달받아 상기 탐지 학습부(616)에서의 학습 결과에 의해 탐지 학습 모델에 적용하여, 해당 사이트의 공격 발생 위험도를 분석하여, 사회이슈형 사이버 표적공격의 발생 여부를 탐지하는 결핍 재탐지부(617); 및
상기 기준 탐지부(510)에 의한 탐지 결과 정보와 상기 결핍 재탐지부(617)에 의한 탐지 결과 정보를 비교하여, 일치 여부를 판단하는 제3 비교부(618);
를 더 포함하여 구성되며,
상기 원인 도출부(620)에서, 상기 제3 비교부(618)의 판단 결과에 따라, 탐지 결과 정보가 일치할 경우, 상기 탐지 학습 데이터에 해당하는 항목을 상기 기준 탐지부(510)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 도출하는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템.
제 7항에 있어서,
상기 비교부(610)는
상기 제3 비교부(618)의 판단 결과에 따라, 일치하지 않을 경우, 상기 제3 비교부(618)의 판단 결과로 일치가 나올 때까지, 상기 탐지 데이터 생성부(615)에서 상기 탐지 학습 데이터의 생성에 제외한 항목들 중 중요도가 큰 항목을 순차적으로 포함시켜 기계학습을 위한 탐지 학습 데이터를 재생성하여, 상기 탐지 학습부(616), 결핍 재탐지부(617) 및 제3 비교부(618)의 동작을 재수행하는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템.
제 8항에 있어서,
상기 원인 도출부(620)는
상기 제3 비교부(618)의 재수행을 통해서, 탐지 결과 정보가 일치할 경우, 상기 탐지 학습 데이터의 재생성을 위해 포함시킨 항목을 상기 기준 탐지부(510)에서 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 도출하는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 시스템.
공격 데이터 수집부에서, 기발생한 사이버 표적공격에 대한 관련 정보들을 수집하는 공격데이터 수집단계(S100);
키워드 수집부에서, 인터넷 상의 다양한 텍스트 자료들을 분석하여, 사회이슈 분석부에서, 사회이슈 키워드를 도출하는 사회이슈 분석단계(S200);
학습 처리부에서, 상기 공격데이터 수집단계(S100)에 의해 수집한 정보들과 상기 사회이슈 분석단계(S200)에 의해 도출한 상기 사회이슈 키워드를 통합 분석하여, 발생한 사이버 표적공격 중 사회이슈형 사이버 표적공격을 판단하는 공격 판단단계(S300);
학습 처리부에서, 상기 공격 판단단계(S300)에 의해 판단한 상기 사회이슈형 사이버 표적공격들에 관한 정보들을 학습 데이터로 생성하는 학습 데이터 생성단계(S400);
학습 처리부에서, 다중 기계학습 기법을 이용하여, 상기 학습 데이터 생성단계(S400)에 의해 생성한 상기 학습 데이터에 대한 학습을 수행하는 학습단계(S500);
APT 탐지부에서, 상기 학습단계(S500)에 의한 학습 결과에 따른 다중 기계학습 모델들을 이용하여, 실시간으로 수집되는 서버 운영 데이터들을 분석하여, 사회이슈형 사이버 표적공격 발생 여부를 탐지하는 공격 탐지단계(S600); 및
APT 탐지 분석부에서, 상기 공격 탐지단계(S600)에 의한 탐지 결과를 이용하여, 탐지한 상기 사회이슈형 사이버 표적공격의 탐지의 원인을 분석하는 원인 분석단계(S700);
를 포함하여 구성되며,
상기 학습 데이터 생성 단계(S400)는
상기 공격 판단단계(S300)에 의해 판단한 상기 사회이슈형 사이버 표적공격들에 관한 정보들을 정형화하여 상기 학습 데이터로 생성하는 기준 학습 데이터 생성단계(S410);와, 상기 기준 학습 데이터 생성단계(S410)에 의해 생성한 상기 학습 데이터를 이용하여, 상기 학습 데이터를 이루고 있는 항목들 중 기설정된 일부 항목들을 제외한 결핍 학습 데이터를 둘 이상 생성하는 결핍 학습 데이터 생성단계(S420);를 포함하며,
상기 학습단계(S500)는
기계학습 기법을 이용하여, 상기 기준 학습 데이터 생성단계(S410)에 의해 생성한 전체 상기 학습 데이터에 대한 학습을 수행하는 기준 학습 단계(S510);와, 기계학습 기법을 이용하여, 상기 결핍 학습 데이터 생성단계(S420)에 의해 생성한 둘 이상의 결핍 학습 데이터들에 대한 각각의 학습을 수행하는 결핍 학습 단계(S520);를 포함하며,
상기 공격 탐지단계(S600)는
실시간으로 수집되는 서버 운영 데이터들을 입력받아, 상기 기준 학습 단계(S510)에 의한 학습 결과에 의해 생성된 기준 학습 모델에 적용하여, 해당 사이트의 공격 발생 위험도를 분석하여, 사회이슈형 사이버 표적공격의 발생 여부를 탐지하는 기준공격 탐지단계(S610);와, 상기 기준공격 탐지단계(S610)에서 입력받은 상기 서버 운영 데이터들을 전달받아, 상기 결핍 학습 단계(S520)에 의한 학습 결과에 의해 생성된 둘 이상의 결핍 학습 모델에 각각 적용하여, 해당 사이트의 공격 발생 위험도를 각각 분석하여, 사회이슈형 사이버 표적공격의 발생 여부를 각각 탐지하는 결핍공격 탐지단계(S620)를 포함하며,
상기 기준공격 탐지단계(S610)에 의한 탐지 결과를 사회이슈형 사이버 표적공격의 탐지 결과 정보로 설정하여, 외부로 전달하는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 방법.
삭제
삭제
삭제
제 10항에 있어서,
APT 탐지 분석부에서, 상기 원인 분석단계(S700)는
상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상기 결핍공격 탐지단계(S620)에 의한 각각의 탐지 결과 정보들을 비교하여, 상기 결핍공격 탐지단계(S620)에 의한 탐지 결과 정보들 중 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석한 결핍 학습 모델을 판단하는 결과 비교단계(S710);
를 더 포함하여 구성되는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 방법.
제 14항에 있어서,
APT 탐지 분석부에서, 상기 원인 분석단계(S700)는
상기 결과 비교단계(S710)의 판단 결과에 따라,
상기 결핍공격 탐지단계(S620)에 의한 탐지 결과 정보들 중 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석한 결핍 학습 모델이 없을 경우,
상기 결핍 학습 데이터 생성단계(S420)를 재수행하여, 상기 결핍 학습 데이터를 재조합하여 생성하도록 하는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 방법.
제 14항에 있어서,
APT 탐지 분석부에서, 상기 원인 분석단계(S700)는
상기 결과 비교단계(S710)의 판단 결과에 따라,
상기 결핍공격 탐지단계(S620)에 의한 탐지 결과 정보들 중 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석한 결핍 학습 모델이 하나일 경우,
해당하는 결핍 학습 모델에서 학습한 상기 결핍 학습 데이터를 도출하여, 해당하는 상기 결핍 학습 데이터에서 결핍시킨 항목을 도출하여, 도출한 상기 항목을 상기 기준공격 탐지단계(S610)에 의해 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 분석하는 제1 원인 결정단계(S720);
를 더 포함하여 구성되는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 방법.
제 14항에 있어서,
APT 탐지 분석부에서, 상기 원인 분석단계(S700)는
상기 결과 비교단계(S710)의 판단 결과에 따라,
상기 결핍공격 탐지단계(S620)에 의한 탐지 결과 정보들 중 상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상이한 탐지 결과 정보를 분석한 결핍 학습 모델이 둘 이상일 경우,
해당하는 결핍 학습 모델들이 학습한 각각의 상기 결핍 학습 데이터를 도출하여, 해당하는 상기 결핍 학습 데이터에서 결핍시킨 항목들을 도출하는 제2-1 원인 결정단계(S731);
상기 제2-1 원인 결정단계(S731)에 의해 도출된 상기 결핍시킨 항목들에 대한 중요도 분석을 수행하는 제2-2 원인 결정단계(S732);
상기 제2-2 원인 결정단계(S732)에 의한 상기 결핍시킨 항목들의 각 중요도 분석값을 토대로 중요도 분석값이 소정값 미만인 항목을 제외한 후, 결핍시킨 항목들을 이용하여 기계학습을 위한 탐지 학습 데이터를 생성하는 제2-3 원인 결정단계(S733);
기계학습 기법을 이용하여, 상기 제2-3 원인 결정단계(S733)에 의해 생성한 상기 탐지 학습 데이터에 대한 학습을 수행하는 제2-4 원인 결정단계(S734);
상기 기준공격 탐지단계(S610)에서 입력받은 상기 서버 운영 데이터들을 전달받아, 상기 제2-4 원인 결정단계(S734에 의한 학습 결과에 의해 생성된 탐지 학습 모델에 적용하여, 해당 사이트의 공격 발생 위험도를 각각 분석하여, 사회이슈형 사이버 표적공격의 발생 여부를 탐지하는 제2-5 원인 결정단계(S735);
상기 기준공격 탐지단계(S610)에 의한 탐지 결과 정보와 상기 제2-5 원인 결정단계(S735)에 의한 탐지 결과 정보를 비교하여, 일치 여부를 판단하는 제2-6 원인 결정단계(S736); 및
상기 제2-6 원인 결정단계(S736)의 판단 결과에 따라, 탐지 결과 정보가 일치할 경우, 상기 탐지 학습 데이터에 해당하는 항목을 상기 기준공격 탐지단계(S610)에 의해 탐지한 상기 사회이슈형 사이버 표적공격의 탐지 원인 정보로 분석하는 제2-7 원인 결정단계(S737);
를 더 포함하여 구성되는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 방법
제 17항에 있어서,
APT 탐지 분석부에서, 상기 원인 분석단계(S700)는
상기 제2-6 원인 결정단계(S736)의 판단 결과에 따라, 탐지 결과 정보가 일치하지 않을 경우, 상기 제2-3 원인 결정단계(S733)에 의해 상기 탐지 학습 데이터의 생성에 제외한 항목들 중 중요도가 큰 항목을 순차적으로 포함시켜 상기 탐지 학습 데이터를 재생성하여, 상기 제2-4 원인 결정단계(S734), 제2-5 원인 결정단계(S735) 및 제2-6 원인 결정단계(S736)를 재수행하되,
상기 제2-6 원인 결정단계(S736)의 판단 결과에 따른 탐지 결과 정보가 일치할 때까지 반복 수행하는 것을 특징으로 하는 다중 기계학습 기법을 이용한 설명 가능한 사이버 표적공격 탐지 방법