KR20190143758A - 심층 신경망을 이용한 사이버 위협 탐지 방법 및 장치 - Google Patents

심층 신경망을 이용한 사이버 위협 탐지 방법 및 장치 Download PDF

Info

Publication number
KR20190143758A
KR20190143758A KR1020180071694A KR20180071694A KR20190143758A KR 20190143758 A KR20190143758 A KR 20190143758A KR 1020180071694 A KR1020180071694 A KR 1020180071694A KR 20180071694 A KR20180071694 A KR 20180071694A KR 20190143758 A KR20190143758 A KR 20190143758A
Authority
KR
South Korea
Prior art keywords
data
neural network
learning
baseline
security event
Prior art date
Application number
KR1020180071694A
Other languages
English (en)
Other versions
KR102153992B1 (ko
Inventor
이종훈
김영수
김익균
김정태
김종현
김현주
박종근
이상민
최선오
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020180071694A priority Critical patent/KR102153992B1/ko
Priority to US16/202,869 priority patent/US20190394215A1/en
Publication of KR20190143758A publication Critical patent/KR20190143758A/ko
Application granted granted Critical
Publication of KR102153992B1 publication Critical patent/KR102153992B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2101Auditing as a secondary aspect

Abstract

베이스라인 데이터를 바탕으로 학습 데이터에 대해 기계 학습을 수행하여 학습 모델을 생성하는 단계, 실시간으로 수집되는 보안 이벤트를 신경망에 대한 입력 데이터로 변환하는 단계, 그리고 학습 모델을 바탕으로 입력 데이터에 대응하는 출력으로서 보안 이벤트가 정상인지 또는 위협인지 여부를 결정하는 단계를 통해 사이버 위협을 탐지하는 방법 및 신경망 연산 장치가 제공된다.

Description

심층 신경망을 이용한 사이버 위협 탐지 방법 및 장치{METHOD AND APPARATUS FOR DETECTING CYBER THREATS USING DEEP NEURAL NETWORK}
본 기재는 심층 신경망을 이용하여 사이버 위협을 탐지하는 방법 및 장치에 관한 것이다.
기업망에 상당한 위협이 되는 지능형 사이버 표적 공격을 탐지하기 위한 다양한 보안 시스템 및 솔루션이 개발되고 있다. 일반적으로 보안 센터의 관제 솔루션은 수집한 보안 이벤트에 대해 필터링, 시나리오 분석, 영향도 분석 등을 수행하여 자동으로 침해 위협을 탐지한다. 하지만, 보안 센터의 일반 관제 솔루션은 보안 이벤트의 양이 많을 때 위협을 잘못 탐지될 확률이 높다. 특히, 전통적인 룰(rule) 기반의 관제 솔루션은 과거 분석 데이터를 검색의 어려움 및 소요 시간 등의 문제 때문에 활용하지 못하고 있다.
한 실시예는 신경망을 이용하여 사이버 위협을 탐지하는 방법을 제공한다.
다른 실시예는 신경망을 이용하여 사이버 위협을 탐지하는 장치를 제공한다.
한 실시예에 따르면 신경망을 이용하여 사이버 위협을 탐지하는 방법이 제공된다. 상기 사이버 위협 탐지 방법은, 베이스라인 데이터를 바탕으로 학습 데이터에 대해 기계 학습을 수행하여 학습 모델을 생성하는 단계, 실시간으로 수집되는 보안 이벤트를 신경망에 대한 입력 데이터로 변환하는 단계, 그리고 학습 모델을 바탕으로 입력 데이터에 대응하는 출력으로서 보안 이벤트가 정상인지 또는 위협인지 여부를 결정하는 단계를 포함한다.
사이버 위협 탐지 방법에서 학습 모델을 생성하는 단계는, 기계 학습을 위한 원시 데이터의 학습 프로파일과 베이스라인 데이터의 복수의 베이스라인 프로파일 간의 복수의 유사도 값과, 원시 데이터의 미리 결정된 라벨을 바탕으로 기계 학습을 수행하는 단계를 포함하고, 라벨은 원시 데이터가 정상 보안 이벤트에 관한 데이터이면 정상이고 원시 데이터가 위협 보안 이벤트에 관한 데이터이면 위협일 수 있다.
상기 사이버 위협 탐지 방법에서 기계 학습을 수행하는 단계는, 복수의 유사도 값이 입력되면, 원시 데이터의 미리 결정된 라벨이 출력되는 것을 학습하는 단계를 포함할 수 있다.
상기 사이버 위협 탐지 방법에서 학습 데이터는, 기계 학습을 위한 원시 데이터의 학습 프로파일과 베이스라인 데이터의 복수의 베이스라인 프로파일 간의 복수의 유사도 값을 원소로서 포함하는 유사도 벡터와, 원시 데이터의 라벨을 원소로서 포함할 수 있다.
상기 사이버 위협 탐지 방법에서 실시간으로 수집되는 보안 이벤트를 신경망에 대한 입력 데이터로 변환하는 단계는, 보안 이벤트의 데이터 프로파일과 베이스라인 데이터의 복수의 베이스라인 프로파일 간의 복수의 유사도 값을 신경망의 입력 데이터로서 생성하는 단계를 포함할 수 있다.
다른 실시예에 따르면, 사이버 위협을 탐지하는 신경망 연산 장치가 제공된다. 상기 신경망 연산 장치는 프로세서, 메모리, 및 통신부를 포함하고, 프로세서는 메모리에 저장된 프로그램을 실행하여, 베이스라인 데이터를 바탕으로 학습 데이터에 대해 기계 학습을 수행하여 학습 모델을 생성하는 단계, 통신부를 통해 실시간으로 수집되는 보안 이벤트를 신경망에 대한 입력 데이터로 변환하는 단계, 그리고 학습 모델을 바탕으로 입력 데이터에 대응하는 출력으로서 보안 이벤트가 정상인지 또는 위협인지 여부를 결정하는 단계를 수행한다.
상기 신경망 연산 장치에서 프로세서는 학습 모델을 생성하는 단계를 수행할 때, 기계 학습을 위한 원시 데이터의 학습 프로파일과 베이스라인 데이터의 복수의 베이스라인 프로파일 간의 복수의 유사도 값과, 원시 데이터의 미리 결정된 라벨을 바탕으로 기계 학습을 수행하는 단계를 수행하고, 라벨은 원시 데이터가 정상 보안 이벤트에 관한 데이터이면 정상이고 원시 데이터가 위협 보안 이벤트에 관한 데이터이면 위협일 수 있다.
상기 신경망 연산 장치에서 프로세서는 기계 학습을 수행하는 단계를 수행할 때, 복수의 유사도 값이 입력되면, 원시 데이터의 미리 결정된 라벨이 출력되는 것을 학습하는 단계를 수행할 수 있다.
상기 신경망 연산 장치에서 학습 데이터는, 기계 학습을 위한 원시 데이터의 학습 프로파일과 베이스라인 데이터의 복수의 베이스라인 프로파일 간의 복수의 유사도 값을 원소로서 포함하는 유사도 벡터와, 원시 데이터의 라벨을 원소로서 포함할 수 있다.
상기 신경망 연산 장치에서 프로세서는 실시간으로 수집되는 보안 이벤트를 신경망에 대한 입력 데이터로 변환하는 단계를 수행할 때, 보안 이벤트의 데이터 프로파일과 베이스라인 데이터의 복수의 베이스라인 프로파일 간의 복수의 유사도 값을 신경망의 입력 데이터로서 생성하는 단계를 수행할 수 있다.
또 다른 실시예에 따르면, 사이버 위협을 탐지하는 신경망 시스템이 제공된다. 상기 신경망 시스템은, 베이스라인 데이터를 바탕으로 학습 데이터에 대해 기계 학습을 수행하여 학습 모델을 생성하는 복수의 히든 레이어, 그리고 통신부를 통해 실시간으로 수집되는 보안 이벤트를 신경망에 대한 입력 데이터로 변환하고, 학습 모델을 바탕으로 입력 데이터에 대응하는 출력으로서 보안 이벤트가 정상인지 또는 위협인지 여부를 결정하는 신경망 연산 장치를 포함한다.
과거의 위협 탐지 경험이 신경망의 회귀 분석을 통해 학습되고, 신경망은 학습 모델에 기반하여 실시간 보안 이벤트의 정상 또는 위협 여부를 정확히 결정할 수 있다.
도 1은 한 실시예에 따른 신경망의 학습 원리를 나타낸 개념도이다.
도 2는 한 실시예에 따른 지도 학습을 위한 데이터 프로파일의 생성 방법을 나타낸 흐름도이다.
도 3은 실시간으로 수집되는 보안 이벤트의 원시 데이터를 나타낸다.
도 4는 한 실시예에 따른 베이스라인 프로파일과 학습 프로파일을 관계를 나타낸 개념도이다.
도 5는 한 실시예에 따른 베이스라인 프로파일을 이용한 신경망의 기계 학습 방법을 나타낸 개념도이다.
도 6은 한 실시예에 따른 베이스라인 프로파일을 이용한 신경망의 기계 학습 방법을 나타낸 흐름도이다.
도 7은 한 실시예에 따른 학습 모델의 학습 데이터 구조를 나타낸 개념도이다.
도 8은 한 실시예에 따른 침해 위협을 탐지하는 방법을 나타낸 개념도이다.
도 9는 한 실시예에 따른 침해 위협을 탐지하는 방법을 나타낸 흐름도이다.
도 10은 한 실시예에 따른 데이터 프로파일과 베이스라인 프로파일 간의 유사도를 나타낸 개념도이다.
도 11은 한 실시예에 따른 신경망의 구조를 나타낸 개념도이다.
도 12는 한 실시예에 따른 신경망을 구현하는 컴퓨터 시스템을 나타낸 블록도이다.
아래에서는 첨부한 도면을 참고로 하여 본 기재의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 기재는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 기재를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 한 실시예에 따른 신경망의 학습 원리를 나타낸 개념도이다.
보안 인텔리전스(intelligence)를 구축하기 위해서 기계 학습(machine learning, ML) 분야의 신경망(neural network)(100)이 사용될 수 있다. 신경망(100)은 학습 데이터를 이용하여 학습 규칙에 따라 기계 학습을 수행하고, 데이터가 입력되면 기계 학습에 기반하여 결과를 출력한다. 신경망(100)에서 정보는 신경 세포(neuron)에 대응하는 노드(node) 간의 연결 관계를 변경하는 방식으로 저장된다. 이때 노드는 다른 노드로부터 전달되는 신호를 다른 노드에게 전달하고, 노드의 연결 상태가 신경망(100)에 저장되는 정보를 나타낸다. 뇌에서 가장 중요한 신경 세포의 연결 관계는, 신경망(100)에서 노드 간 연결의 연결 가중치로서 계산될 수 있다.
기계 학습 중 지도 학습(supervised learning)을 수행하는 신경망(100)은, 정답이 있는 학습 데이터를 인스턴스에 기반하여 학습하고, 데이터가 입력되면 학습 결과 중 입력 데이터와 가장 근접한 값을 출력한다. 이때 신경망(100) 내의 여러 변수들이 반복적으로 학습되어 신경망(100)의 출력의 정확도가 높아질 수 있다. 도 1을 참조하면, 신경망(100)은 피처(feature) 및 라벨(label)로 구성된 학습 데이터를 이용하여 기계 학습을 수행하고, 데이터가 입력되면 기계 학습 결과에 기반하여 입력된 데이터에 대응하는 답(Y)를 출력한다. 따라서 지도 학습에는, 피처 X(특징)와 라벨 Y(답)이 미리 결정되어 있는 학습 데이터가 요구된다.
회귀 분석(regression analysis)은 기계 학습을 위한 변수 간의 관계를 찾아내어 통계적 예측을 수행하기 위해 필요하다. 회귀 분석은 출력 유형에 따라 두 개의 결과 중 하나를 출력하는 이진 분류(binary classification) 및 복수의 결과 중 하나를 출력할 수 있는 다중 분류(multi-label classification)가 있다.
도 2는 한 실시예에 따른 지도 학습을 위한 데이터 프로파일의 생성 방법을 나타낸 흐름도이다.
도 2에는 베이스라인 데이터, 학습 데이터, 그리고 실시간으로 수집되는 원시 데이터 등으로부터 보안 이벤트의 데이터 프로파일을 생성하는 방법이 도시되어 있다. 이때 베이스라인 데이터는 침해 위협 리스트에 의해 침해 위협인 것으로 미리 결정된 원시 데이터이고, 베이스라인 데이터에 대응하는 베이스라인 프로파일은 침해 원시 데이터를 나타내는 프로파일이다. 즉, 베이스라인 데이터는 침해 위협 리스트(침해 이력 리스트)에서 선택되는 데이터이고, 베이스라인 프로파일은 베이스라인 데이터에 기반하여 생성된 데이터 프로파일을 의미한다.
먼저 미리 결정된 시간 간격(예를 들어, 1분 또는 5분) 동안 발생되는 보안 이벤트의 집성(aggregation)으로 구성되는 보안 이벤트 세트가 생성된다(S110). 도 3은 실시간으로 수집되는 보안 이벤트의 원시 데이터를 나타낸다. 비정형 보안 이벤트 로그에서는 이벤트 종류가 파싱된다(S120). 보안 이벤트의 이벤트 종류에는 UDP Source-IP Flooding 또는 Shell_Command_Injection 등이 있다.
다음, 이벤트 종류 별로 보안 이벤트 세트 중에서 보안 이벤트의 발생 횟수가 카운트된다(S130). 보안 이벤트 세트 내에서 각 보안 이벤트가 발생한 횟수는 연관성 판단 알고리즘에 기반하여 벡터화된 데이터 프로파일로 변환된다(S140). 데이터 프로파일은 {e1,e2,...,en} 형태의 벡터일 수 있다. 그리고 베이스라인 프로파일은 데이터베이스에 저장되어(S150), 이후 기계 학습 및 침해 위협의 탐지에 사용된다.
한 실시예에 따르면 보안 이벤트 세트와 보안 이벤트 사이의 연관성을 판단하기 위한 알고리즘으로서 단어빈도-역문서빈도(term frequency-inverse document frequency, TF-IDF) 알고리즘이 사용될 수 있다. TF-IDF 알고리즘은 특정 단어와 문서 사이의 연관성을 판단할 때 사용되는 알고리즘으로서, 한 실시예에 따르면 TF-IDF 알고리즘의 단어는 보안 이벤트의 명칭으로 치환되고, TF-IDF의 문서는 미리 결정된 시간 간격 동안 집성된 보안 이벤트 세트로 치환될 수 있다. TF-IDF 알고리즘에서 TF는 각 보안 이벤트가 각 보안 이벤트 세트 내에서 발생한 빈도를 나타내고, IDF는 각 보안 이벤트가 전체 보안 이벤트 세트 내에서 발생한 빈도를 나타낸다. TF-IDF는 위에서 설명한 두 개의 빈도 간의 곱셈으로 계산될 수 있다.
도 4는 한 실시예에 따른 베이스라인 프로파일과 학습 프로파일을 관계를 나타낸 개념도이고, 도 5는 한 실시예에 따른 베이스라인 프로파일을 이용한 신경망의 기계 학습 방법을 나타낸 개념도이고, 도 6은 한 실시예에 따른 베이스라인 프로파일을 이용한 신경망의 기계 학습 방법을 나타낸 흐름도이며, 도 7은 한 실시예에 따른 학습 모델의 학습 데이터 구조를 나타낸 개념도이다.
도 4에서, 도 2의 과정을 통해 생성된 학습 데이터에 대응하는 데이터 프로파일(학습 프로파일)은 베이스라인 데이터에 대응하는, 4개의 베이스라인 프로파일을 이용하여 기계 학습(지도 학습)이 수행될 수 있다. 도 4에서 데이터 프로파일의 개념이 쉽게 이해될 수 있도록 베이스라인 프로파일 및 학습 프로파일은 3개의 기저를 갖는 3차원으로 도시되어 있지만, 데이터 프로파일은 n개의 차원을 갖는 벡터로 표현될 수 있고 본 기재는 이에 한정되지 않는다.
도 5에서 기계 학습은 각 학습 프로파일과 4개의 베이스라인 프로파일 간의 유사도 계산을 통해 수행될 수 있다. 도 6을 참조하면, 먼저 라벨이 미리 결정되어 있는 학습 데이터의 학습 프로파일이 생성된다(S210). 한 실시예에 따르면 학습 데이터의 라벨은 정상(NORMAL) 또는 위협(THREAT)이며, 이후 유사도로 구성되는 입력 데이터와 함께 신경망(100)의 기계 학습을 위해 사용된다. 도 5에서 학습 프로파일 A와 4개의 베이스라인 프로파일 사이의 유사도는 Sim(A,1), Sim(A,2), Sim(A,3), Sim(A,4)으로 표시된다. 다른 학습 프로파일 B 및 C와 4개의 베이스라인 프로파일 사이의 유사도는 각각 Sim(B,1), Sim(B,2), Sim(B,3), Sim(B,4) 및 Sim(C,1), Sim(C,2), Sim(C,3), Sim(C,4)로 표시된다. 학습 프로파일과 베이스라인 프로파일 사이의 유사도는 신경망(100)의 입력 데이터로서 사용된다(S220). 신경망(100)은 학습 프로파일과 베이스라인 프로파일 사이의 유사도로서 구성된 입력 데이터와 미리 결정된 학습 데이터의 라벨을 매칭시켜서 기계 학습을 수행한다(S230). 한 실시예에 따르면, 학습 프로파일과 베이스라인 프로파일 간의 유사도는 벡터간 코사인 유사도일 수 있다. 도 5를 참조하면, 학습 데이터 A는 정상 원시 데이터이고, 학습 데이터 B 및 학습 데이터 C는 각각 서로 다른 유형의 위협 원시 데이터이다. 예를 들어, 신경망(100)은 입력 데이터가 Sim(A,1), Sim(A,2), Sim(A,3), Sim(A,4)이면 정상을 출력하고, 입력 데이터가 Sim(B,1), Sim(B,2), Sim(B,3), Sim(B,4)이면 위협을 출력해야 함을 학습할 수 있다. 이후, 신경망(100)은 기계 학습의 계산 결과에 대해 가중치를 변경하며 회귀 분석을 수행하고(S240), 학습 결과의 코스트(cost)가 가장 최소가 되는 모델을 학습 모델로 결정한다(S250). S240 및 S250은 딥러닝을 위한 인공신경망의 지도학습에서 제공되는 방법일 수 있다. 예를 들어, 학습 데이터의 학습시, 학습 데이터의 레이블의 값이 잘 계산될 수 있도록 신경망의 변수값(가중치 등)이 기계에 의해 생성되는 과정이 반복될 수 있다(즉, 회귀분석). 또는 테스트 수행시 신경망은, 테스트 데이터에 대해 신경망이 예측한 값과 실제 값의 차이의 합(cost)이 점점 줄어들도록 기계 학습을 수행한다. 이때 cost가 점점 줄어들게 만드는 함수로는 경사하강함수가 적용될 수 있다. 학습 모델은 데이터베이스에 저장되어 침해 위협의 탐지에 사용된다.
도 7을 참조하면, 침해 위협을 탐지하기 위한 학습 모델의 i번째 학습 데이터는 기계 학습을 위해 미리 결정된 원시 데이터의 학습 프로파일과, n개의 베이스라인 프로파일 간의 유사도 값을 나타내는 유사도 벡터를 포함한다. 유사도 벡터는 원소로서 similarity1 내지 similarityn을 포함한다. 또한 i번째 학습 데이터는 미리 결정된 원시 데이터가 정상 보안 이벤트에 관한 데이터인지 또는 위협 보안 이벤트에 관한 데이터인지 여부를 나타내는 라벨을 포함한다. 즉, 신경망의 기계 학습을 위한 학습 데이터는 신경망의 입력 및 출력으로서 유사도 벡터 및 라벨을 원소로서 포함할 수 있다. 신경망은 학습 프로파일과 베이스라인 프로파일 간의 유사도를 나타내는 유사도 벡터와 유사도 벡터에 대해 미리 결정된 라벨(예를 들어, 정상 또는 위협)을 이용하여 기계 학습을 수행할 수 있다. 데이터베이스에 저장된 하나의 학습 모델은 N개의 학습 데이터를 포함한다.
도 8은 한 실시예에 따른 침해 위협을 탐지하는 방법을 나타낸 개념도이고, 도 9는 한 실시예에 따른 침해 위협을 탐지하는 방법을 나타낸 흐름도이고, 도 10은 한 실시예에 따른 데이터 프로파일과 베이스라인 프로파일 간의 유사도를 나타낸 개념도이며, 도 11은 한 실시예에 따른 신경망 연산 장치의 구조를 나타낸 개념도이다.
도 9를 참조하면, 먼저 실시간으로 수집되는 보안 이벤트의 데이터 프로파일이 생성된다(S310). 도 8에서 보안 이벤트의 데이터 프로파일은 굵은 실선으로 표시되어 있고, 베이스라인 프로파일은 가는 실선으로 표시되어 있다. 이후 보안 이벤트의 데이터 프로파일과 베이스라인 프로파일들 간의 유사도가 신경망(100)의 입력 데이터로서 생성된다(S320). 도 8을 참조하면, 실시간 보안 이벤트의 데이터 프로파일 T와 4개의 베이스라인 프로파일 간의 유사도 Sim(T,1), Sim(T,2), Sim(T,3), Sim(T,4)가 입력 데이터로서 신경망(100)에 입력된다. 도 10을 참조하면, 실시간 보안 이벤트의 데이터 프로파일 A와 100개의 베이스라인 프로파일 간의 유사도가 계산된다. 도 10의 실시예에서, 신경망으로 입력되는 입력 데이터는 100×1의 열벡터이고, 도 11에서 신경망 연산 장치의 입력 데이터는 Similarity1 내지 Similarity100을 원소로서 포함하는 열벡터이다.
입력 데이터가 신경망 연산 장치로 입력되면, 신경망 연산 장치는 학습 모델에 기반하여 정상(NORMAL) 또는 위협(THREAT) 중 하나의 출력을 결정한다(S330). 신경망의 출력은 회귀 분석을 위한 이진 분류이고, 신경망은 복수의 히든 레이어(hidden layer)를 포함하는 심층 신경망이다. 신경망은 복수의 히든 레이어를 이용하여 학습 모델을 생성하고, 학습 모델에 기반하여 입력 데이터에 대응하는 출력을 결정할 수 있다. 신경망의 출력은, 실시간 보안 이벤트가 정상인지 또는 위협인지 여부를 나타낼 수 있다.
위에서 설명한 바와 같이, 한 실시예에 따르면 과거의 위협 탐지 경험이 신경망의 회귀 분석에 의해 학습되고, 학습 모델에 기반하여 실시간 보안 이벤트의 정상 또는 위협 여부를 정확히 결정할 수 있다.
도 12은 한 실시예에 따른 신경망을 구현하는 컴퓨터 시스템을 나타낸 블록도이다.
한 실시예에 따른 신경망은, 컴퓨터 시스템, 예를 들어 컴퓨터 판독 가능 매체로 구현될 수 있다. 도 12을 참조하면, 컴퓨터 시스템(1200)은, 버스(1270)를 통해 통신하는 프로세서(1210), 메모리(1230), 사용자 인터페이스 입력 장치(1250), 사용자 인터페이스 출력 장치(12120), 및 저장 장치(1240) 중 적어도 하나를 포함할 수 있다. 컴퓨터 시스템(1200)은 또한 네트워크에 결합된 통신 장치(1220)를 포함할 수 있다. 프로세서(1210)는 중앙 처리 장치(central processing unit, CPU)이거나, 또는 메모리(1230) 또는 저장 장치(1240)에 저장된 명령을 실행하는 반도체 장치일 수 있다. 메모리(1230) 및 저장 장치(1240)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(read only memory) 및 RAM(random access memory)를 포함할 수 있다. 본 기재의 실시예에서 메모리는 프로세서의 내부 또는 외부에 위치할 수 있고, 메모리는 이미 알려진 다양한 수단을 통해 프로세서와 연결될 수 있다. 메모리는 다양한 형태의 휘발성 또는 비휘발성 저장 매체이며, 예를 들어, 메모리는 읽기 전용 메모리(read-only memory, ROM) 또는 랜덤 액세스 메모리(random access memory, RAM)를 포함할 수 있다.
따라서, 본 발명의 실시예는 컴퓨터에 구현된 방법으로서 구현되거나, 컴퓨터 실행 가능 명령이 저장된 비일시적 컴퓨터 판독 가능 매체로서 구현될 수 있다. 한 실시예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 본 기재의 적어도 하나의 양상에 따른 방법을 수행할 수 있다. 통신 장치(1220)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다.
한편, 본 발명의 실시예는 지금까지 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 상술한 실시예의 기재로부터 본 발명이 속하는 기술 분야의 통상의 기술자라면 쉽게 구현할 수 있는 것이다. 구체적으로, 본 발명의 실시예에 따른 방법(예, 네트워크 관리 방법, 데이터 전송 방법, 전송 스케줄 생성 방법 등)은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어, 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은, 본 발명의 실시예를 위해 특별히 설계되어 구성된 것이거나, 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체는 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치를 포함할 수 있다. 예를 들어, 컴퓨터 판독 가능 기록 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 롬(ROM), 램(RAM), 플래시 메모리 등일 수 있다. 프로그램 명령은 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라, 인터프리터 등을 통해 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (11)

  1. 신경망을 이용하여 사이버 위협을 탐지하는 방법으로서,
    베이스라인 데이터를 바탕으로 학습 데이터에 대해 기계 학습을 수행하여 학습 모델을 생성하는 단계,
    실시간으로 수집되는 보안 이벤트를 상기 신경망에 대한 입력 데이터로 변환하는 단계, 그리고
    상기 학습 모델을 바탕으로 상기 입력 데이터에 대응하는 출력으로서 상기 보안 이벤트가 정상인지 또는 위협인지 여부를 결정하는 단계
    를 포함하는 사이버 위협 탐지 방법.
  2. 제1항에서,
    상기 학습 모델을 생성하는 단계는,
    기계 학습을 위한 원시 데이터의 학습 프로파일과 상기 베이스라인 데이터의 복수의 베이스라인 프로파일 간의 복수의 유사도 값과, 상기 원시 데이터의 미리 결정된 라벨을 바탕으로 기계 학습을 수행하는 단계
    를 포함하고, 상기 라벨은 상기 원시 데이터가 정상 보안 이벤트에 관한 데이터이면 정상이고 상기 원시 데이터가 위협 보안 이벤트에 관한 데이터이면 위협인, 사이버 위협 탐지 방법.
  3. 제2항에서,
    상기 기계 학습을 수행하는 단계는,
    상기 복수의 유사도 값이 입력되면, 상기 원시 데이터의 미리 결정된 라벨이 출력되는 것을 학습하는 단계
    를 포함하는, 사이버 위협 탐지 방법.
  4. 제1항에서,
    상기 학습 데이터는,
    기계 학습을 위한 원시 데이터의 학습 프로파일과 상기 베이스라인 데이터의 복수의 베이스라인 프로파일 간의 복수의 유사도 값을 원소로서 포함하는 유사도 벡터와, 상기 원시 데이터의 라벨을 원소로서 포함하는, 사이버 위협 탐지 방법.
  5. 제1항에서,
    상기 실시간으로 수집되는 보안 이벤트를 상기 신경망에 대한 입력 데이터로 변환하는 단계는,
    상기 보안 이벤트의 데이터 프로파일과 상기 베이스라인 데이터의 복수의 베이스라인 프로파일 간의 복수의 유사도 값을 상기 신경망의 입력 데이터로서 생성하는 단계
    를 포함하는, 사이버 위협 탐지 방법.
  6. 사이버 위협을 탐지하는 신경망 연산 장치로서,
    프로세서, 메모리, 및 통신부를 포함하고, 상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여,
    베이스라인 데이터를 바탕으로 학습 데이터에 대해 기계 학습을 수행하여 학습 모델을 생성하는 단계,
    상기 통신부를 통해 실시간으로 수집되는 보안 이벤트를 상기 신경망에 대한 입력 데이터로 변환하는 단계, 그리고
    상기 학습 모델을 바탕으로 상기 입력 데이터에 대응하는 출력으로서 상기 보안 이벤트가 정상인지 또는 위협인지 여부를 결정하는 단계
    를 수행하는 신경망 연산 장치.
  7. 제6항에서,
    상기 프로세서는 상기 학습 모델을 생성하는 단계를 수행할 때,
    기계 학습을 위한 원시 데이터의 학습 프로파일과 상기 베이스라인 데이터의 복수의 베이스라인 프로파일 간의 복수의 유사도 값과, 상기 원시 데이터의 미리 결정된 라벨을 바탕으로 기계 학습을 수행하는 단계
    를 수행하고, 상기 라벨은 상기 원시 데이터가 정상 보안 이벤트에 관한 데이터이면 정상이고 상기 원시 데이터가 위협 보안 이벤트에 관한 데이터이면 위협인, 신경망 연산 장치
  8. 제7항에서,
    상기 프로세서는 상기 기계 학습을 수행하는 단계를 수행할 때,
    상기 복수의 유사도 값이 입력되면, 상기 원시 데이터의 미리 결정된 라벨이 출력되는 것을 학습하는 단계
    를 수행하는 신경망 연산 장치.
  9. 제6항에서,
    상기 학습 데이터는,
    기계 학습을 위한 원시 데이터의 학습 프로파일과 상기 베이스라인 데이터의 복수의 베이스라인 프로파일 간의 복수의 유사도 값을 원소로서 포함하는 유사도 벡터와, 상기 원시 데이터의 라벨을 원소로서 포함하는, 신경망 연산 장치.
  10. 제6항에서,
    상기 프로세서는 상기 실시간으로 수집되는 보안 이벤트를 상기 신경망에 대한 입력 데이터로 변환하는 단계를 수행할 때,
    상기 보안 이벤트의 데이터 프로파일과 상기 베이스라인 데이터의 복수의 베이스라인 프로파일 간의 복수의 유사도 값을 상기 신경망의 입력 데이터로서 생성하는 단계
    를 수행하는 신경망 연산 장치.
  11. 사이버 위협을 탐지하는 신경망 시스템으로서,
    베이스라인 데이터를 바탕으로 학습 데이터에 대해 기계 학습을 수행하여 학습 모델을 생성하는 복수의 히든 레이어, 그리고
    상기 통신부를 통해 실시간으로 수집되는 보안 이벤트를 상기 신경망에 대한 입력 데이터로 변환하고, 상기 학습 모델을 바탕으로 상기 입력 데이터에 대응하는 출력으로서 상기 보안 이벤트가 정상인지 또는 위협인지 여부를 결정하는 신경망 연산 장치
    를 포함하는 신경망 시스템.
KR1020180071694A 2018-06-21 2018-06-21 심층 신경망을 이용한 사이버 위협 탐지 방법 및 장치 KR102153992B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180071694A KR102153992B1 (ko) 2018-06-21 2018-06-21 심층 신경망을 이용한 사이버 위협 탐지 방법 및 장치
US16/202,869 US20190394215A1 (en) 2018-06-21 2018-11-28 Method and apparatus for detecting cyber threats using deep neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180071694A KR102153992B1 (ko) 2018-06-21 2018-06-21 심층 신경망을 이용한 사이버 위협 탐지 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190143758A true KR20190143758A (ko) 2019-12-31
KR102153992B1 KR102153992B1 (ko) 2020-09-09

Family

ID=68982267

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180071694A KR102153992B1 (ko) 2018-06-21 2018-06-21 심층 신경망을 이용한 사이버 위협 탐지 방법 및 장치

Country Status (2)

Country Link
US (1) US20190394215A1 (ko)
KR (1) KR102153992B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210103808A1 (en) * 2019-10-08 2021-04-08 InteliSecure Automatic triaging of network events
US11824876B2 (en) 2020-01-31 2023-11-21 Extreme Networks, Inc. Online anomaly detection of vector embeddings
US11740618B2 (en) 2021-04-23 2023-08-29 General Electric Company Systems and methods for global cyber-attack or fault detection model
CN113487010B (zh) * 2021-05-21 2024-01-05 国网浙江省电力有限公司杭州供电公司 基于机器学习的电网网络安全事件分析方法
US11853418B2 (en) 2021-09-01 2023-12-26 Rockwell Collins, Inc. System and method for neural network based detection of cyber intrusion via mode-specific system templates
CN113886524A (zh) * 2021-09-26 2022-01-04 四川大学 一种基于短文本的网络安全威胁事件抽取方法
CN116827658B (zh) * 2023-07-17 2024-01-16 青岛启弘信息科技有限公司 一种ai智能应用安全态势感知预测系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160095856A (ko) * 2015-02-04 2016-08-12 한국전자통신연구원 새로운 공격 유형의 자동 탐지 및 공격 유형 모델 갱신을 통한 지능형 침입 탐지 시스템 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11777963B2 (en) * 2017-02-24 2023-10-03 LogRhythm Inc. Analytics for processing information system data
US11271954B2 (en) * 2017-07-14 2022-03-08 Cisco Technology, Inc. Generating a vector representative of user behavior in a network
US10885469B2 (en) * 2017-10-02 2021-01-05 Cisco Technology, Inc. Scalable training of random forests for high precise malware detection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160095856A (ko) * 2015-02-04 2016-08-12 한국전자통신연구원 새로운 공격 유형의 자동 탐지 및 공격 유형 모델 갱신을 통한 지능형 침입 탐지 시스템 및 방법

Also Published As

Publication number Publication date
US20190394215A1 (en) 2019-12-26
KR102153992B1 (ko) 2020-09-09

Similar Documents

Publication Publication Date Title
KR102153992B1 (ko) 심층 신경망을 이용한 사이버 위협 탐지 방법 및 장치
Raskutti et al. Learning directed acyclic graph models based on sparsest permutations
US10880321B2 (en) Method and system for learning representations of network flow traffic
US11595415B2 (en) Root cause analysis in multivariate unsupervised anomaly detection
CN111600919B (zh) 智能网络应用防护系统模型的构建方法和装置
CN112800116B (zh) 一种业务数据的异常检测方法及装置
US10733287B2 (en) Resiliency of machine learning models
Gowtham et al. Semantic query-featured ensemble learning model for SQL-injection attack detection in IoT-ecosystems
US11645500B2 (en) Method and system for enhancing training data and improving performance for neural network models
US20190340614A1 (en) Cognitive methodology for sequence of events patterns in fraud detection using petri-net models
KR20220109418A (ko) 신경 흐름 증명
US9436912B1 (en) Symmetric schema instantiation method for use in a case-based reasoning system
Al-Shabi et al. Using deep learning to detecting abnormal behavior in internet of things
Liu et al. Multi-step attack scenarios mining based on neural network and Bayesian network attack graph
Champneys et al. On the vulnerability of data-driven structural health monitoring models to adversarial attack
Singh et al. User behaviour based insider threat detection in critical infrastructures
Mukherjee Detection of data-driven blind cyber-attacks on smart grid: A deep learning approach
de la Torre-Abaitua et al. A compression based framework for the detection of anomalies in heterogeneous data sources
US20210216422A1 (en) Identifying anomalies in data during data outage
Bertino et al. Machine Learning Techniques for Cybersecurity
US11907334B2 (en) Neural network negative rule extraction
CN114756401B (zh) 基于日志的异常节点检测方法、装置、设备及介质
US20240073229A1 (en) Real time behavioral alert processing in computing environments
US11544377B2 (en) Unsupervised graph similarity learning based on stochastic subgraph sampling
Wehbi Machine Learning Based Practical and Efficient DDoS Attacks Detection System for IoT

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant