KR20230072279A - Ai 가변 임계치를 사용한 이상징후 탐지 시스템 - Google Patents

Ai 가변 임계치를 사용한 이상징후 탐지 시스템 Download PDF

Info

Publication number
KR20230072279A
KR20230072279A KR1020210158850A KR20210158850A KR20230072279A KR 20230072279 A KR20230072279 A KR 20230072279A KR 1020210158850 A KR1020210158850 A KR 1020210158850A KR 20210158850 A KR20210158850 A KR 20210158850A KR 20230072279 A KR20230072279 A KR 20230072279A
Authority
KR
South Korea
Prior art keywords
data
learning
detection
individual
cpu
Prior art date
Application number
KR1020210158850A
Other languages
English (en)
Inventor
서성민
김범식
김진
Original Assignee
상명대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상명대학교산학협력단 filed Critical 상명대학교산학협력단
Priority to KR1020210158850A priority Critical patent/KR20230072279A/ko
Publication of KR20230072279A publication Critical patent/KR20230072279A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • G06K7/10009Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation sensing by radiation using wavelengths larger than 0.1 mm, e.g. radio-waves or microwaves
    • G06K7/10237Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation sensing by radiation using wavelengths larger than 0.1 mm, e.g. radio-waves or microwaves the reader and the record carrier being capable of selectively switching between reader and record carrier appearance, e.g. in near field communication [NFC] devices where the NFC device may function as an RFID reader or as an RFID tag
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/20Individual registration on entry or exit involving the use of a pass
    • G07C9/22Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/20Individual registration on entry or exit involving the use of a pass
    • G07C9/27Individual registration on entry or exit involving the use of a pass with central registration
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/20Individual registration on entry or exit involving the use of a pass
    • G07C9/28Individual registration on entry or exit involving the use of a pass the pass enabling tracking or indicating presence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Toxicology (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Electromagnetism (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

AI 가변 임계치를 사용한 이상징후 탐지 시스템 및 방법이 개시된다. AI 가변 임계치를 사용한 이상징후 탐지 시스템은 보안 지역의 태그 출입증을 소지한 출입자의 출입 기록, 디지털 문서 보안실의 웹 접속 기록(log 기록), 원격 PC의 CPU 상태 모니터링 데이터를 개인별로 데이터베이스에 누적 저장하여 시간대별/일자별/기간별 통계에 의해 개인별로 z-score, 평균, 표준 편차에 따라 정규분포화 한 후 개인별로 다른 AI 가변 임계치를 결정하며, 학습 데이터를 딥러닝 또는 머신러닝 학습 알고리즘을 사용하여 정상 패턴을 학습하고, 실시간으로 해당 탐지 데이터에 대하여 개인별로 다른 AI 가변 임계치를 적용하여 정상 패턴 데이터와 비정상적인 이상 패턴을 갖는 비정상적인 이상 패턴 데이터를 제공하는 보안 서버; 및 상기 보안 서버에 유무선 통신망을 통해 연결된 사용자 단말을 포함한다.

Description

AI 가변 임계치를 사용한 이상징후 탐지 시스템{Mysterious symptom detection system using AI variable threshold}
본 발명은 딥러닝 또는 머신러닝 학습 알고리즘을 사용하여 학습데이터의 정상 패턴을 학습하고 개인별 AI 가변 임계치를 사용하여 이상 패턴을 출력하는, AI 가변 임계치를 사용한 이상징후 탐지 시스템에 관한 것이다.
최근, 회사의 보안 구역 Room에 설치된 태그 리더기로 인식된 태그 출입증의 출입 기록과, 사용자 단말(PC, 스마트폰, 태블릿 PC)로부터 유무선 통신망을 통해 접속된 디지털 문서 보안실의 웹 접속 기록은 보안관리 서버의 데이터베이스에 저장되며, 보안구역 Room의 출입 기록과 디지털 문서 보안실의 웹 접속 기록을 모니터링하여 비정상적인 정보 유출을 방지하기 위해 문서 보안이 필요하다.
종래 문서보안 시스템은 클라이언트 단말기가 디지털 정보를 암호화할 때에 문서보안 서버에 의해 기 정의된 키 값에 의해 인증이 수행되며, 인증 수행 후 상기 클라이언트 단말기에 의해 작성된 디지털 정보가 외부 저장장치에 암호화되어 저장되고, 다시 이를 액세스할 때 복호화하여 디지털 정보를 열람하게 된다.
예를 들면, 보안 구역 Room의 RFID 태그 리더기를 구비한 출입증의 13.56MHz RFID 태그를 사용한 출입자와 사용자 단말로부터 유무선 통신망을 통해 접속된 디지털 문서 보안실의 출입자는 예를들면, 보안 관리자(manager)는 10번 출입, 해당 직원들은 관련 업무에 따라 5회, 3회, 2회, 1회 출입하게 된다. 보안 구역 Room의 출입증의 태그를 사용한 출입자와 디지털 문서 보안실의 출입자의 출입 기록을 누적하여 개인별로 일별/주별/월별 통계를 산출하고, 출입 기록과 웹 접속 기록을 분석하여 체계적으로 관리하여 이상징후를 갖는 비정상 데이터를 관리하는 것이 필요하다.
이와 관련된 선행기술1로써, 특허등록번호 10-0750697에서는 "사용자 액세스 기능을 갖는 공유스토리지가 구비된 디지털문서보안 시스템, 및 그 시스템을 이용한 문서 처리방법"이 등록되어 있다.
컴퓨터에 의해 작업되는 디지털 정보가 비정상적으로 유출되는 것을 방지하도록 구성되는, 사용자 액세스 기능을 갖는 공유스토리지가 구비된 디지털 문서보안 시스템은
적어도 하나 이상의 DRM 클라이언트 단말기중 어느 하나가 공유스토리지와 접속되어 그 공유저장매체에 디지털 정보를 암호화하여 저장하고 사용자 액세스제어기능에 따라 암호화된 디지털 정보를 복호화하여 편집기능을 행하도록 구성되며,
상기 공유스토리지는; 상기 각각의 DRM 클라이언트 단말기가 접속하여 등록 인증을 행할 수 있도록 제공되는 물리적 시리얼 번호와, 상기 디지털 정보가 저장되는 저장부로 이루어지고,
상기 DRM 클라이언트 단말기는; 상기 공유스토리지가 갖는 물리적인 시리얼번호(Serial Number)를 입력하여 인증절차를 수행하며, 인증 절차 수행 후 상기 디지털 정보를 암호화 및 복호화하는 암호화부/복호화부와, 상기 공유스토리지와 연계되어 디지털 정보에 대한 편집 등의 권한 설정기능을 제공하는 애플리케이션 툴로 이루어지는 것을 특징으로 한다.
이와 관련된 선행기술2로써, 특허등록번호 10-2185190에서는 "머신러닝을 이용한 이상징후 탐지 방법 및 시스템"이 등록되어 있다.
도 1은 종래의 머신 러닝을 이용한 이상 징후 탐지 시스템(100)을 예시적인 도면이다.
머신러닝을 이용한 이상 징후 탐지 시스템의 탐지 방법은,
머신 러닝을 이용하여 학습 데이터에 대한 예측치와 실측치 사이의 비용 변화들을 저장하는 단계;
상기 저장된 비용 변화들 중에서 타겟의 비용 변화와 유사한 패턴을 갖는 이웃을 검색하는 단계; 및
상기 검색된 이웃의 비용 변화와 상기 타겟의 비용 변화의 차이를 근거로 하여 상기 타겟의 정상/비정상을 판단하는 단계를 포함하고,
상기 비용 변화들을 저장하는 단계는
테스트 데이터에 상응하는 비용을 기반으로 정상과 비정상을 구분하는 상기 비용의 임계값을 결정하는 단계; 상기 임계값을 기반으로 상기 테스트 데이터의 정상/비정상을 판단하는 단계; 및 상기 테스트 데이터에서 상기 임계값보다 상기 비용이 크면서 정상 상황에 대하여 제 1 시간 동안 비용 변화를 저장하는 단계를 포함하며, 상기 비용은 상기 예측치와 실측치의 차이인 것을 특징으로 한다.
또한, 머신러닝을 이용한 이상 징후 탐지 시스템은
머신 러닝을 이용하여 테스트 데이터를 학습함으로써 학습 모델을 생성하는 학습기;
상기 학습 모델에 따른 예측치와 실측치의 차이에 대응하는 비용에 대한 임계값을 근거로 하여 타겟에 대한 정상/비정상을 1차적으로 판단하는 예측 기준 판단기; 및
상기 예측 기준 판단기의 상기 타겟에 대한 1차적인 판단 결과를 수신하고, 사전에 결정된 시간 동안 추출된 상기 타겟의 비용 변화와 이웃의 비용 변화의 차이를 계산하고, 상기 계산된 비용 변화 차이값과 비용 변화 차이 제한값을 비교함으로써 상기 타겟에 대한 정상/비정상을 2차적으로 판단하는 비용 변화 기준 판단기를 포함하고,
상기 테스트 데이터에서 상기 임계값보다 크고 정상 상황에 대해 제 1 시간 동안의 임계값-초과 비용 변화들이 저장되며,
상기 임계값-초과 비용 변화들 사이의 차이를 계산하는 제 1 비용 변화 차이 함수가 결정되고,
상기 제 1 비용 변화 차이 함수를 이용하여 상기 임계값-초과 비용 변화들 사이의 차이에 대한 제 1 임계값이 결정된다.
최근, 보안(security)이 요구되는 회사는 임원, 부서/사원별로 출입 기록, 비밀 문서 포함된 회사의 문서 보안실의 보안, 및 컴퓨터의 CPU 상태를 모니터링을 하여 정상 패턴을 학습하여 비정상적인 이상 패턴을 추출하여 관리해야 한다.
그러나, 기존의 보안 시스템은 보안 구역의 문서 보안실의 태그 출입증을 소지한 출입자의 출입 기록, 디지털 문서 보안실의 웹 접속 기록, 원격 PC의 CPU 상태 모니터링(cpu_system_pct, cpu_user_pct, tot_cpu_pct), log 기록을 개인별로 보안 서버의 데이터베이스에 누적 저장하고, 시간대별/일자별/기간별 통계에 따라 개인별 가변 임계치(상한치, 하한치)에 따라 보안 서버가 출입 기록, 웹 접속 기록, 원격 PC의 CPU 상태 모니터링(cpu_system_pct, cpu_user_pct, tot_cpu_pct), log 기록을 포함하는 학습 데이터를 딥러닝 또는 머신 러닝 학습 알고리즘을 사용하여 정상 패턴을 학습하고, 실시간으로 해당 탐지 데이터에 대하여 개인별로 다른 AI 가변 임계치(상한치, 하한치)를 적용하여 정상 데이터(5~95% 이내 정상)와 비정상적인 이상 패턴을 갖는 비정상 데이터(5% 이하, 95% 이상)를 분리 추출하여 표시하는 기능을 제공하지 않았다.
특허등록번호 10-0750697 (등록일자 2007년 08월 13일), "사용자 액세스 기능을 갖는 공유스토리지가 구비된 디지털문서보안 시스템, 및 그 시스템을 이용한 문서 처리방법", 주식회사 마크애니 특허등록번호 10-2185190 (등록일자 2020년 11월 25일), "머신러닝을 이용한 이상징후 탐지 방법 및 시스템", 한국전자통신연구원
상기 문제점을 해결하기 위한 본 발명의 목적은 회사의 보안 구역 Room에 설치된 태그 리더기로 인식된 태그 출입증의 출입 기록과, 디지털 문서 보안실의 웹 접속 기록(log 기록), 모니터링 데이터를 보안 서버의 데이터베이스에 저장되며, 보안 서버는 (1) 보안 구역의 문서 보안실의 태그 출입증을 소지한 출입자의 출입 기록, 보안 서버의 디지털 문서 보안실의 웹 접속 기록(log 기록), 원격 PC의 CPU 상태 모니터링(cpu_system_pct, cpu_user_pct, tot_cpu_pct)을 개인별로 보안 서버의 데이터베이스에 누적 저장하여 시간대별/일자별/기간별 통계에 따라 개인별 z-score, 평균, 표준편차를 갖는 정규분포화 한 후 개인별 임계치(상한치, 하한치)를 결정하며, 보안 서버가 출입 기록, 웹 접속 기록(log 기록), 원격 PC의 CPU 상태 모니터링(cpu_system_pct, cpu_user_pct, tot_cpu_pct)을 포함하는 학습 데이터를 딥러닝 또는 머신 러닝 학습 알고리즘을 사용하여 정상 패턴을 학습하고, 실시간으로 해당 탐지 데이터에 대하여 개인별로 다른 AI 가변 임계치(상한치, 하한치)를 적용하여 정상 패턴 데이터(정규 분포의 5~95% 이내 정상)와 비정상적인 이상 패턴을 갖는 비정상적인 이상 패턴 데이터(정규 분포의 5% 이하, 95% 이상)를 분리 추출하여 사용자 단말로 UI 화면에 표시하며, 로그(출력페이지수/업무시간, 출력페이지수/비업무시간)를 포함한 최종결과를 출력하고, (2) 개인별 AI 가변 임계치가 적용된 출입 기록/웹 접속 기록/원격 PC의 CPU 상태 모니터링(cpu_system_pct, cpu_user_pct, tot_cpu_pct)/log 기록을 포함하는 학습 데이터와, 실시간으로 탐지 데이터 이미지를 보안 서버에 접속된 사용자 단말로 출력하며, 탐지 데이터 시각화, 비정상적인 이상 패턴을 갖는 데이터(5% 이하, 95% 이상)를 추출하여 화면에 표시하여 출력하는, AI 가변 임계치를 사용한 이상징후 탐지 시스템을 제공한다.
본 발명의 목적을 달성하기 위해, AI 가변 임계치를 사용한 이상징후 탐지 시스템은 보안 지역의 태그 출입증을 소지한 출입자의 출입 기록, 디지털 문서 보안실의 웹 접속 기록(log 기록), 원격 PC의 CPU 상태 모니터링 데이터를 개인별로 데이터베이스에 누적 저장하여 시간대별/일자별/기간별 통계에 의해 개인별로 z-score, 평균, 표준 편차에 따라 정규분포화 한 후 개인별 AI 가변 임계치를 결정하며, 학습 데이터를 학습 알고리즘을 사용하여 정상 패턴을 학습하고, 실시간으로 해당 탐지 데이터에 대하여 개인별로 다른 AI 가변 임계치를 적용하여 정상 패턴 데이터와 비정상적인 이상 패턴을 갖는 비정상적인 이상 패턴 데이터를 제공하는 보안 서버; 및 상기 보안 서버에 유무선 통신망을 통해 연결된 사용자 단말을 포함한다.
본 발명의 AI 가변 임계치를 사용한 이상징후 탐지 시스템은 회사의 보안 구역 Room에 설치된 RFID 태그 리더기로 인식된 출입자의 RFID 태그 출입증의 출입 기록과, 디지털 문서 보안실의 웹 접속 기록(log 기록), 모니터링 데이터를 보안 서버의 데이터베이스에 저장되며, (1) 보안 지역의 문서 보안실의 태그 출입증을 소지한 출입자의 출입 기록, 보안 서버의 디지털 문서 보안실의 웹 접속 기록(log 기록), 원격 PC의 CPU 상태 모니터링(cpu_system_pct, cpu_user_pct, tot_cpu_pct)을 개인별로 보안 서버의 데이터베이스에 누적 저장하여 시간대별/일자별/기간별 통계에 따라 개인별 z-score, 평균, 표준편차를 갖는 정규분포화 한 후 개인별 임계치(상한치, 하한치)를 결정하며, 보안 서버가 출입 기록, 웹 접속 기록(log 기록), 원격 PC의 CPU 상태 모니터링(cpu_system_pct, cpu_user_pct, tot_cpu_pct)을 포함하는 학습 데이터를 딥러닝 또는 머신 러닝 학습 알고리즘을 사용하여 정상 패턴을 학습하고, 실시간으로 해당 탐지 데이터에 대하여 개인별로 다른 AI 가변 임계치(상한치, 하한치)를 적용하여 정상 패턴 데이터(정규 분포의 5~95% 이내 정상)와 비정상적인 이상 패턴을 갖는 비정상적인 이상 패턴 데이터(정규 분포의 5% 이하, 95% 이상)를 분리 추출하여 사용자 단말로 UI 화면에 표시하며, 로그(출력페이지수/업무시간, 출력페이지수/비업무시간)를 포함한 최종결과를 출력하고,
(2) 개인별 AI 가변 임계치가 적용된 출입 기록/웹 접속 기록/원격 PC의 CPU 상태 모니터링(cpu_system_pct, cpu_user_pct, tot_cpu_pct)/log 기록을 포함하는 학습 데이터와, 실시간으로 탐지 데이터 이미지를 보안 서버에 접속된 사용자 단말로 출력하며, 탐지 데이터 시각화, 비정상적인 이상 패턴을 갖는 데이터(5% 이하, 95% 이상)를 추출하여 화면에 표시하여 관리하는 효과가 있다.
도 1은 종래의 머신 러닝을 이용한 이상 징후 탐지 시스템(100)을 예시적인 도면이다.
도 2는 본 발명에 따른 AI 가변 임계치를 사용한 이상징후 탐지 시스템 구성도이다.
도 3a는 회사 보안 구역의 개인별 출입 기록과 웹 접속 기록(log 기록)을 보안 서버에 저장하고, 개인별 기록의 z-score, 평균(mean), 표준 편차(standard deviation)를 이용하여 정규분포화 한 후 개인별로 유동적인 AI 가변 임계치를 적용하는 화면이다.
도 3b는 보안 서버가 출입 기록과 웹 접속 기록을 머신 러닝을 사용하여 학습하여 개인별로 다른 AI 가변 임계치(상한치, 하한치)를 적용하여 정상 데이터(5~95% 이내 정상)와 이상 징후를 갖는 비정상 데이터(5% 이하, 95% 이상)를 추출하여 관리하는 화면이다.
도 3c는 개인별 AI 가변 임계치(DRM 해제 이상)를 적용하는 학습 데이터 쿼리(SPL), 탐지 데이터 쿼리(SPL) 화면이다.
도 3d는 개인별 AI 가변 임계치(DRM 해제 이상)가 적용된 학습 데이터 이미지(Splunk Image), 탐지 데이터 이미지(Splunk Image) 화면이다.
도 3e는 UserID에 따라, 일자별 학습데이터 트렌드(추이 그래프), value별 빈도를 나타낸 학습데이터 분포(막대 그래프)를 데이터 시각화하여 표출한 화면이다.
도 3f는 출입 기록/웹 접속 기록에 대하여 학습 알고리즘을 사용하여 개인별 일자별 학습 데이터를 사용하여 개인별 임계치를 계산하고, 개인별 상한 임계치/하한 임계치를 계산하며 이를 비교하여 개인별 출입 기록/웹 접속 기록의 탐지 데이터를 추출하여 최종결과를 출력하는 화면이다.
도 3g는 개인별 상한 임계치/하한 임계치를 표시하고, UserID에 따라, 일자별 학습데이터 트렌드(추이 그래프), value별 빈도를 나타낸 학습데이터 분포(막대 그래프)를 데이터 시각화 한 화면이다.
도 4a는 사용자 단말의 JMachine 내 시나리오를 보인 클라이언트 화면이다.
도 4b는 학습 알고리즘의 추가적인 설명: 군집 분석(cluster), 이상행위 분석 설정[전체 임직원 분석(당일 분석/기간 분석), 특정 임직원 분석(당일 분석/기간 분석), 전체 인프라 분석(당일 분석/기간 분석), 특정 인프라 분석(당일 분석/기간 분석), 전체 IP 주소 분석(당일 분석/기간 분석), 특정 IP 주소 분석(당일 분석/기간 분석)-이상행위 옵션]을 설정하는 화면이다.
도 4c는 Test Data 쿼리(AI 이상징후 탐지-임직원 당일 분석) 화면이다.
도 4d는 Test Data Splunk Image(AI 이상징후 탐지-임직원 당일 분석) 화면이다.
도 4e 및 4f는 학습 알고리즘 후의 모습: UserID 개인별로 다른 AI 가변 임계치(상한치, 하한치)를 적용하여 정상 데이터(5~95% 이내 정상)와 이상 징후를 갖는 비정상 데이터(5% 이하, 95% 이상)를 분리 추출하며, 로그(출력페이지수/업무시간, 출력페이지수/비업무시간)를 리스트하고 이상 징후를 갖는 비정상 데이터를 포함한 최종결과를 출력하는 화면이다.
도 4g는 분석 대상[임직원, 인프라, IP 주소], 시간 기준[당일 분석, 기간 분석]을 설정하고, 사번/이름/부서, 사번 검색창, 검색 결과를 리스트하고 분석 화면을 출력하는 JMachine 내 이상징후 탐지 화면이다.
도 4h는 사번/이름/부서에 따라 JMachine 웹사이트에 의해 추출된 JMachine(Python) 화면이다.
도 5a는 AI 수치 이상 탐지: 학습 알고리즘에 의해 정상 패턴을 학습하여 수치 데이터 이상 패턴을 탐지하는 머신러닝 알고리즘을 보인 화면이다.
도 5b와 5c는 AI 탐지 옵션(Sensitivity, Duplication, Accumulated Data, Sloop degree, Time Window Unit, Outlier/Inlier)을 보인 화면이다.
도 5d는 학습데이터 쿼리(SPL), 탐지 데이터 쿼리(SPL)를 사용한 Test Data (KPI = 1) 쿼리(AI 수치 이상 탐지) 화면이다.
도 5e는 학습 데이터 이미지(Splunk Image), 탐지 데이터 이미지(Splunk Image)를 포함하는 Test Data Splunk Image(AI 수치 이상 탐지) 화면이다.
도 5f는 UserID에 따라, 일자별 학습데이터 트렌드(추이 그래프), value별 빈도를 나타낸 학습데이터 분포(막대 그래프)를 데이터 시각화(KPI = 1) 한 화면이다.
도 5g는 UserID에 따라, 일자별 탐지데이터 트렌드(추이 그래프-이상 패턴(Anomaly-Outlier)), value별 빈도를 나타낸 탐지데이터 분포(막대 그래프-이상 패턴(Outlier))를 포함하는 탐지 데이터 시각화(KPI = 1) 한 화면이다.
도 5h, 5i는 학습 알고리즘을 사용하여 학습 데이터에 대하여 정상 패턴을 학습 후, 딥러닝 모델을 사용하여 개인별 수치 이상 탐지 임계치(threshold)를 적용하고 탐지 데이터를 출력하고, 탐지 데이터의 예측 값과 실제 값의 거리(distance)를 계산하여 탐지 데이터를 출력하는 화면이다.
도 5j는 학습 알고리즘 후의 일자별 탐지 데이터에 대한 AI 탐지 민감도(Sensitivity) 화면이다.
도 5k는 JMachine 시나리오 - 탐지 데이터에 대한 AI 탐지 민감도, AI 탐지 원천 데이터 화면이다.
도 6a는 학습데이터 쿼리(SPL), 탐지 데이터 쿼리(SPL)를 사용한 Test Data (KPI = 3) 쿼리(AI 수치 이상 탐지) 화면이다.
도 6b는 학습 데이터 이미지(Splunk Image), 탐지 데이터 이미지(Splunk Image)를 포함하는 Test Data Splunk Image(AI 수치 이상 탐지)(KPI =3) 화면이다.
도 6c는 cpu_system_pct, cpu_user_pct, tot_cpu_pct에 대한 시간대별 학습데이터 트렌드(추이 그래프), value별 빈도를 나타낸 학습데이터 분포(막대 그래프)를 데이터 시각화(KPI = 3) 한 화면이다.
도 6d는 cpu_system_pct, cpu_user_pct, tot_cpu_pct에 대한 시간대별 탐지데이터 트렌드(추이 그래프-이상 패턴(Anomaly-Outlier)), cpu_system_pct, cpu_user_pct, tot_cpu_pct별 빈도를 나타낸 탐지데이터 분포(막대 그래프-이상 패턴(Outlier))를 포함하는 탐지 데이터 시각화(KPI = 3) 한 화면이다.
도 6e는 학습 알고리즘의 cpu_system_pct, cpu_user_pct, tot_cpu_pct 학습 데이터에 대하여 시간대별/일자별 정상 패턴 학습 후, 딥러닝 모델을 사용하여 개인별 수치 이상 탐지 임계치(threshold)를 적용하여 탐지 데이터를 출력하고, cpu_system_pct, cpu_user_pct, tot_cpu_pct에 대한 시간대별/일자별 탐지 데이터의 예측 값과 실제 값의 거리(distance)를 계산하여 탐지 데이터를 출력하는 화면이다.
도 6f는 학습 알고리즘을 사용하여 cpu_system_pct, cpu_user_pct, tot_cpu_pct 학습 데이터의 정상 패턴 학습 후 결과: cpu_system_pct, cpu_user_pct, tot_cpu_pct 학습 데이터에 대한 시간대별/일자별 정상 패턴 학습 후, 이상 패턴 표시 화면이다.
도 6g는 JMachine 시나리오 - cpu_system_pct, cpu_user_pct, tot_cpu_pct 탐지 데이터에 관한 AI 탐지 민감도, AI 탐지 원천 데이터 화면이다.
도 6h는 cpu_system_pct, cpu_user_pct, tot_cpu_pct 탐지 데이터에 관한 각각 value별 빈도별 히스토그램을 표시한 탐지 데이터를 나타낸 탐지 이벤트 시각화 화면이다.
도 7a, 7b는 AI 로그 이상탐지: 로그 텍스트 데이터를 수치 데이터로 변형 후 수치 데이터의 이상 패턴 탐지(정상 패턴을 학습하여, 이상 패턴을 수치화하여 임계치 지정) Test Data(KPI=1) 학습 데이터 쿼리(SPL), 탐지 데이터 쿼리(SPL) - AI 로그 이상 탐지 화면이다.
도 7c는 학습 데이터 이미지(Splunk), 탐지 데이터 이미지(Splunk)를 포함하는 Test Data Splunk Image(AI 로그 이상 탐지) 화면이다.
도 7d는 시간, log_key별 시계열적인 순서로 학습 데이터, 탐지 데이터의 임베디드된 텍스트(AI 로그 이상 탐지) 화면이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 발명의 구성 및 동작을 상세하게 설명한다. 본 발명의 설명에 있어서 관련된 공지의 기능 또는 공지의 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 자세한 설명을 생략한다. 또한, 도면 번호는 동일한 구성을 표기할 때에 다른 도면에서 동일한 도면번호를 부여한다.
(실시예)
비정상적인 정보 유출을 방지하기 위해 문서 보안이 요구되는 회사의 보안 구역 Room에 설치된 13.56MHz RFID 태그 리더기로 인식된 출입자의 RFID 태그 출입증의 출입 기록과, 사용자 단말(PC, 스마트폰, 태블릿PC)로부터 유무선 통신망을 통해 서버의 디지털 문서 보안실의 웹 접속 기록은 보안 서버의 데이터베이스에 저장되어 관리된다.
문서 보안실의 출입자는 예를들면, 문서 보안실에 보안 manager는 10번 출입, 해당 직원들은 관련 업무에 따라 5회, 3회, 2회, 1회 출입하게 되며, 이를 누적하여 1달 동안 출입 기록과 문서 보안실의 Z-score 평균, 표준 편차를 계산할 수 있다.
일반적으로, 회사의 보안 구역 Room관련 출입자의 RFID 태그 출입증의 출입 기록과 디지털 문서 보안실의 웹 접속 기록은 z-score, 평균, 표준편차는 경험적으로 정규분포를 갖는다.
실시예1) 보안 구역의 문서 보안실의 태그 출입증을 소지한 출입자의 출입 기록, 보안 서버의 디지털 문서 보안실의 웹 접속 기록(log 기록) 모니터링
실시예2) 네트워트 장비의 가상 머신을 사용한 원격 PC의 CPU 상태 모니터링(cpu_system_pct, cpu_user_pct, tot_cpu_pct) 모니터링
도 2는 본 발명에 따른 AI 가변 임계치를 사용한 이상징후 탐지 시스템 구성도이다.
실시예에서는, (실시예1) 회사의 보안 지역 Room에 설치된 RFID 태그 리더(110)로 인식된 출입자의 RFID 태그 출입증(130)의 출입 기록과, 디지털 문서 보안실의 웹 접속 기록(log 기록), 추가적으로, (실시예2) 원격 PC의 CPU 모니터링 기능을 갖는 네트워크 장비를 사용하여 모니터링되는 회사내 임직원 PC의 CPU 모니터링 데이터를 보안 서버(200)의 데이터베이스에 저장된다.
본 발명의 AI 가변 임계치를 사용한 이상징후 탐지 시스템은
보안 지역의 문서 보안실의 출입 시에, 출입자의 태그 출입증(130)을 태깅한 태그 리더(110)의 출입 기록을 전송하는, 태그 리더(110)와 연결된 PC(120);
보안 구역(100)의 출입문의 태그 리더(110)에 의해 태깅된 태그 출입증(130)을 소지한 출입자의 출입 기록, 보안 서버의 디지털 문서 보안실의 웹 접속 기록(log 기록), 원격 PC의 CPU 상태 모니터링 데이터(cpu_system_pct, cpu_user_pct, tot_cpu_pct)을 개인별로 보안 서버의 데이터베이스에 누적 저장하여 시간대별/일자별/기간별 통계에 의해 개인별 z-score, 평균, 표준편차에 따라 정규분포화 한 후 개인별 AI 가변 임계치(상한치, 하한치)를 결정하며,
필요에 따라 선택적으로, 출입 기록, 웹 접속 기록(log 기록), 원격 PC의 CPU 상태 모니터링 데이터(cpu_system_pct, cpu_user_pct, tot_cpu_pct)을 포함하는 학습 데이터를 딥러닝 또는 머신 러닝 학습 알고리즘을 사용하여 정상 패턴을 학습하고, 실시간으로 해당 탐지 데이터에 대하여 개인별로 다른 AI 가변 임계치(상한치, 하한치)를 적용하여 정상 패턴 데이터(정규 분포의 5~95% 이내 정상)와 비정상적인 이상 패턴을 갖는 비정상적인 이상 패턴 데이터(정규 분포의 5% 이하, 95% 이상)를 분리 추출하여 사용자 단말로 UI 화면에 표시하며, 로그를 포함한 최종결과를 리스트 또는 데이터 시각화하여 출력하는 보안 서버(200); 및
상기 보안 서버(200)에 유무선 통신망을 통해 연결된 사용자 단말(179)을 포함한다.
상기 디지털 문서 보안실은 문서와 파일을 저장하는 파일 서버(230)를 더 포함한다.
상기 시스템은, 보안 지역(100)의 문서 보안실의 출입 시에, 출입자의 태그 출입증(130)을 태깅한 태그 리더(110)의 출입 기록을 전송하고, 상기 태그 리더(110)와 연결된 PC(120)를 더 포함한다.
보안 관리자의 사용자 단말은 보안 서버에 접속되고, 탐지 데이터의 유형, 탐지 대상과 기간을 선택하고, 개인별로 다른 AI 가변 임계치가 적용된 출입 기록/웹 접속 기록/원격 PC의 CPU 상태 모니터링 데이터(cpu_system_pct, cpu_user_pct, tot_cpu_pct)를 포함하는 학습 데이터와, 학습 데이터의 정상 패턴(상한치, 하한치)을 표시하고, 실시간으로 탐지되는 탐지 데이터 이미지를 보안 서버(200)에 접속된 사용자 단말로 출력하며, 학습 데이터 시각화, 개인별로 다른 AI 가변 임계치(상한치, 하한치)와 이상 패턴이 표시된 탐지 데이터 시각화, 비정상적인 이상 패턴 데이터(5% 이하, 95% 이상)를 추출하여 로그(log)를 포함한 최종 결과와 리스트 또는 이를 데이터 시각화하여 AI 수치 이상을 화면에 출력된다.
회사내 보안 지역의 문서 보관실(100)은 출입문에 RFID 태그 리더(110)가 출입자의 13.56MHz 태그 출입증(130)의 출입 기록이 문서 보관실 PC(120)를 통해 미들웨어로 연결된 보안 서버(200)로 전송된다.
회사는 사장, 임원/부서/직원별 다수의 사용자 단말(170)이 구비된다.
사용자 단말(170)은 PC 이외에 스마트폰 또는 태블릿 PC를 사용할 수 있다.
학습 데이터는 실시예1) 보안 구역의 문서 보안실의 태그 출입증을 소지한 출입자의 출입 기록, 보안 서버의 디지털 문서 보안실의 웹 접속 기록(log 기록)을 포함한다.
또한, 학습 데이터는 실시예2) 네트워트 장비의 가상 머신을 사용한 원격 PC의 CPU 상태 모니터링(cpu_system_pct, cpu_user_pct, tot_cpu_pct) 데이터를 포함한다.
상기 학습 알고리즘은 딥러닝(CNN) 또는 머신 러닝 알고리즘을 사용하여 학습 데이터의 정상 패턴을 학습하고, 누적된 통계 데이터를 기초로 Z-score, 평균, 표준 편차를 계산하고 정규분포화 한 후 개인별로 다른 AI 가변 임계치(상한치, 하한치)를 결정하고, 개인별로 다른 AI 가변 임계치(상한치, 하한치)에 따라 탐지 데이터의 비정상적인 이상 패턴을 추출하여 탐지 데이터를 제공하며, 이를 데이터 시각화하여 표시되도록 한다.
상기 학습 알고리즘은 사용자 단말의 클라이언트 프로그램에서 AI 기계 학습은 "기계학습 실행" 메뉴에서 딥러닝(CNN) 또는 여러 종류의 머신러닝 알고리즘과 "AI 탐지 옵션"이 선택되며, 학습 데이터에 대하여 개인별로 정규 분포의 상한치~하한치(5~95%) 범위내의 정상 패턴의 데이터를 학습하고, 상기 AI 가변 임계치(상한치, 하한치)에 따라 탐지 데이터에 대하여 정규 분포의 하한치 이하(5% 이하), 상한치 이상(95% 이상)을 갖는 비정상적인 이상 패턴 데이터를 추출한다.
상기 학습 알고리즘은 딥러닝(CNN) 또는 여러 종류의 머신러닝 알고리즘을 선택하여 사용되며, 비지도-가시화-탐지(CNN), 비지도-선행제어-탐지 (AutoEncoder), 비지도-메모리-탐지(LSTM), 심층메모리-탐지(Deep LSTM), 비지도-양방향-메모리-탐지(Bidirectional LSTM), 비지도-가시화-메모리-탐지(Convolution LSTM), 비지도-양방향-순환-탐지(Bidirectional GRU), 및 비지도-양방향-중첩순환-탐지(Stacked Bidirectional GRU) 알고리즘 중 어느 하나의 알고리즘을 사용한다.
AI 탐지 옵션은 AI 탐지 데이터의 민감도(Sensitivity), 데이터 중복 제거(De-duplication), 누적된 면적(Accumulated Area), 기울기(Slope degree), 타임 윈도우 유닛(Time Window Unit), Outlier/Inlier(이상 징후/정상 징후)가 포함된다.
* 민감도(Sensitivity) : 예측과 실제 값의 차이 정도를 나타내며, 추후 이벤트 탐지의 척도가 됨
* 데이터 중복 제거(De-duplication) : 중복되는 값의 데이터 제외
* 누적된 면적(Accumulated Area) : 데이터의 면적을 이용한 filter 적용
예) 기준치 미만의 낮은 값의 데이터일때 탐지 X)
* 기울기(Slope degree) : 데이터의 기울기를 이용한 필터 적용
(예: 급감할 때 이벤트 탐지 X
* 타임 윈도우 유닛(Time Window Unit) : Window 내 데이터 row 수
예) 7 unit: 7개의 데이터를 하나의 패턴(input)으로 봄
* Outlier/Inlier : 이상 징후/정상 징후 중 하나의 이벤트로 탐지 여부
보안 서버(200)는 사용자 단말(170)과 유무선 통신망을 통해 연결되는 WWW 서버(201); 보안 기능을 제어하는 제어부(203); 출입 기록, 디지털 문서 보안실의 웹 접속 기록(log 기록), 원격 PC의 CPU 상태 모니터링(cpu_system_pct, cpu_user_pct, tot_cpu_pct) 데이터, 그 외 필요시 모니터링 데이터를 저장하는 DB(207); 회원정보를 등록받아 저장하여 관리하는 회원관리부(209); ID/Passwd 또는 인증 서버와 연동된 개인 인증서/범용 인증서를 사용하여 사용자를 인증하는 사용자 인증부(211); 기간별로 누적된 학습 데이터의 통계에 기초하여 개인별로 다른 AI 가변 임계치(상한치, 하한치)를 설정하는 AI 가변 임계치 설정부(213); 딥러닝 또는 머신러닝 학습 알고리즘을 사용하여 해당 학습 데이터를 학습하여 상한치에서 하한치까지의 정상 범위의 정상 패턴을 학습하는 기계학습부(215); 상기 개인별로 다른 AI 가변 임계치(상한치, 하한치)를 기준으로 실시간으로 탐지되는 탐지 데이터의 이상 패턴을 탐지하는 이상 패턴 탐지부(217); 해당 학습 데이터와 탐지 데이터를 학습 데이터와 탐지 데이터 리스트 또는 학습 데이터 시각화/탐지 데이터 시각화하여 출력하는 학습 데이터/탐지 데이터 출력부(219); 개인별/부서별/전체 데이터의 Z-score, 평균, 분산, 표준편차의 통계 정보를 제공하는 데이터, 리스트, 또는 비쥬얼하게 데이터 시각화하여 제공하는 통계 처리부(221)를 포함한다.
(실시예1)
도 3a는 회사 보안 구역의 개인별 출입 기록과 웹 접속 기록(log 기록)을 보안 서버에 저장하고, 개인별 기록의 z-score, 평균(mean), 표준 편차(standard deviation)를 이용하여 정규분포화 한 후 개인별로 유동적인 AI 가변 임계치를 적용하는 화면이다.
통계적으로, 모집단(population)에서 크기가 n인 임의의 표본(sample)을 추출시에, 모집단의 분포가 평균 m, 표준편차가 σ인 정규분포 N(m,
Figure pat00001
)를 따를때, 크기가 n인 임의 표본의 표본 평균이 X, 표준편차 σ일때,
모집단의 평균 m의 신뢰도(95% 신뢰도)에서,
신뢰 구간은 [X - 1.96
Figure pat00002
, X + 1.96
Figure pat00003
]이며,
X - 1.96
Figure pat00004
≤ m ≤ X + 1.96
Figure pat00005
조건을 만족한다.
확률변수 X가 정규 분포(m,
Figure pat00006
) 를 가질 때,
Figure pat00007
Z score와, 평균과 표준 편차가 계산된다.
도 3b는 보안 서버가 출입 기록과 웹 접속 기록을 머신 러닝을 사용하여 학습하여 개인별로 다른 AI 가변 임계치(상한치, 하한치)를 적용하여 정상 데이터(5~95% 이내 정상)와 이상 징후를 갖는 비정상 데이터(5% 이하, 95% 이상)를 추출하여 관리하는 화면이다.
도 3c는 개인별 AI 가변 임계치(DRM 해제 이상)를 적용하는 학습 데이터 쿼리(SPL), 탐지 데이터 쿼리(SPL) 화면이다.
도 3d는 개인별 AI 가변 임계치(DRM 해제 이상)가 적용된 학습 데이터 이미지(Splunk Image), 탐지 데이터 이미지(Splunk Image) 화면이다.
도 3e는 UserID에 따라, 일자별 학습데이터 트렌드(추이 그래프), value별 빈도를 나타낸 학습데이터 분포(막대 그래프)를 데이터 시각화 한 화면이다.
도 3f는 학습 알고리즘 개인별 일자별 학습 데이터를 사용하여 개인별 임계치를 계산하고, 개인별 상한 임계치/하한 임계치를 계산하며 이를 비교하여 개인별 출입 기록/웹 접속 기록의 탐지 데이터를 추출하여 최종결과를 출력하는 화면이다.
도 3g는 개인별 상한 임계치/하한 임계치를 표시하고, UserID에 따라, 일자별 학습데이터 트렌드(추이 그래프), value별 빈도를 나타낸 학습데이터 분포(막대 그래프)를 데이터 시각화 한 화면이다.
도 4a는 사용자 단말의 JMachine 내 시나리오를 보인 클라이언트 화면이다.
도 4b는 학습 알고리즘의 추가적인 설명: 군집 분석(cluster), 이상행위 분석 설정[전체 임직원 분석(당일 분석/기간 분석), 특정 임직원 분석(당일 분석/기간 분석), 전체 인프라 분석(당일 분석/기간 분석), 특정 인프라 분석(당일 분석/기간 분석), 전체 IP 주소 분석(당일 분석/기간 분석), 특정 IP 주소 분석(당일 분석/기간 분석)-이상행위 옵션]을 설정하는 화면이다.
도 4c는 Test Data 쿼리(AI 이상징후 탐지-임직원 당일 분석) 화면이다.
도 4d는 Test Data Splunk Image(AI 이상징후 탐지-임직원 당일 분석) 화면이다.
도 4e 및 4f는 학습 알고리즘 후의 모습: UserID 개인별로 다른 AI 가변 임계치(상한치, 하한치)를 적용하여 정상 데이터(5~95% 이내 정상)와 이상 징후를 갖는 비정상 데이터(5% 이하, 95% 이상)를 분리 추출하며, 로그(출력페이지수/업무시간, 출력페이지수/비업무시간)를 리스트하고 이상 징후를 갖는 비정상 데이터를 포함한 최종 결과를 출력하는 화면이다
도 4g는 분석 대상[임직원, 인프라, IP 주소], 시간 기준[당일 분석, 기간 분석]을 설정하고, 사번/이름/부서, 사번 검색창, 검색 결과를 리스트하고 분석 화면을 출력하는 JMachine 내 이상징후 탐지 화면이다.
도 4h는 사번/이름/부서에 따라 JMachine 웹사이트에 의해 사번 추출된 JMachine(Python) 화면이다.
(2) AI 수치 이상 탐지: 학습 알고리즘에 의해 학습 데이터의 정상 패턴을 학습하여 탐지 데이터의 수치 데이터 이상 패턴을 탐지하는 머신러닝 알고리즘
도 5a는 AI 수치 이상 탐지: 학습 알고리즘에 의해 정상 패턴을 학습하여 수치 데이터 이상 패턴을 탐지하는 머신러닝 알고리즘을 보인 화면이다.
보안 서버에 연결된 사용자 단말의 모니터링 클라이언트의 탐지 속성은 탐지 형태(AI 탐지, AI 수치 이상탐지), 탐지 기본 정보(탐지 대상 필드명, 집계 쿼리), AI 기계학습(AI 알고리즘, 기계학습 쿼리, 기계학습 실행, 탐지 쿼리), AI 예측 탐지(AI 탐지 옵션)을 구비한다.
AI 기계 학습은 "기계학습 실행" 메뉴에서 딥러닝(CNN) 또는 여러 종류의 머신러닝 알고리즘을 선택하여 학습 데이터의 학습을 실행한다.
* 비지도-가시화-탐지(CNN)
- 1겹의 CNN으로 구성되어 있으며, 시계열 및 이미지 데이터에 효율적
* 비지도-선행제어-탐지 (AutoEncoder)
- 데이터 특성을 보존하여 차원 축소, 다양한 학습 데이터에 사용가능
* 비지도-메모리-탐지 (LSTM)
- 1겹의 LSTM으로 이루어져 있으며, 시계열/텍스트 데이터에 효율적
* 심층메모리-탐지 (Deep LSTM)
- 3겹의 LSTM으로 이루어져 있으며, 시계열/텍스트 데이터에 효율적
* 비지도-양방향-메모리-탐지 (Bidirectional LSTM)
- 1겹의 양방향 LSTM으로 이루어지며, 시계열/텍스트 데이터에 효율적
* 비지도-가시화-메모리-탐지 (Convolution LSTM)
- 차원을 축소한 데이터를 LSTM에 적용하는 구조로, 공간적 특성을 가지는 이미지나 비디오 데이터에 효율적
* 비지도-양방향-순환-탐지 (Bidirectional GRU)
- LSTM 단순화 된 버전인 1겹의 Bidirectional GRU로 이루어져 있으며, 시계열/텍스트 데이터에 효과적
* 비지도-양방향-중첩순환-탐지 (Stacked Bidirectional GRU)
- 3겹의 Bidirectional GRU로 이루어져 있으며, 시계열/텍스트 데이터에 효과적
참고로, Transformer encoder의 레이어(layer)의 수가 늘어날수록, 복잡하거나 긴 Sequence 데이터에 효과적이다. k개의 Transformer encoder를 통해 patch/position 임베딩된 데이터를 인코딩된 데이터를 k개의 decoder에 의해 디코딩되어 학습한다.
컨볼류션 신경망(Convolutional Neural Networks, CNN)은 주로 문자 인식과 영상의 이미지 분석에 사용되는 다층 신경망이다. 컨볼류션 신경망(CNN)은 컨볼루션 층(convolution layer)과 풀링 층(pooling layer)을 쌍(pair)의 형태로 여러 개 사용하고(convolution layer, pooling layer, convolution layer, pooling layer,.. ), 그 뒤에는 몇 개의 FC 층(fully-connected layer)으로 구성된 입력층/은닉층/출력층을 구비하는 다층 퍼셉트론(Multilayer Perceptron, MLP)를 사용할 수 있다. 예를들면, 특정 영상이 CNN의 입력으로 주어졌을 때, 각 층에서 생성되는 특징 맵(feature map)의 재구성 과정을 거친다. 각각의 특징 맵(feature map)으로부터 입력 영상에서 단계적으로 특징들이 추출되고(feature extraction), 분류(classification)된다. 특징 맵(feature map)을 생성하는 과정에서 가중치들을 필터(filter)라고 하며, 컨볼루션 층(convolution layer)에서 사용되는 마스크(mask), 풀링 층(pooling layer)에서 사용되는 2x2, 3x3, 4x4 또는 5x5 윈도우(window), FC 층에서 사용되는 가중치들의 모음을 모두 필터라고 할 수 있다. 풀링 층에서의 down-sampling 또는 sub-sampling)을 위해 평균을 계산하는 mean 함수 또는 최대치를 선택하는 max 함수를 선택하여 사용된다.
또한, CPU, GPU, 메모리 등의 연산 능력과 컴퓨팅 기술의 비약적인 발전으로, RNN(Recurrent Neural Network), LSTM (Long Short-Term Memory), GRU(Gated Recurrent Unit) 등의 딥러닝 알고리즘들은 인공 신경망의 순차 데이터 순서를 유지하며, 많은 분량의 학습 데이터를 학습할 수 있다.
참고로, 순환 신경망(Recurrent Neural Network, RNN)은 특정 노드의 출력이 해당 노드(node)에 다시 입력되는 구조를 갖는 신경망이며 즉, 현재 입력 데이터와 과거의 입력 데이터를 동시에 고려하여 결과값을 도출하며, 학습도 김은 신경망의 학습에서 vanishing gradient problem에 대한 해결 방안으로써, LSTM(Long Short-Term Memory)이 제안되었다.
LSTM(Long Short-Term Memory 장단기 메모리 신경망)은 셀 상태에 정보를 추가하거나 삭제할 수 있는 게이트(gate) 구조를 갖는다. 게이트(gate)는 정보 결정에 있어 선택할 수 있으며, sigmoid 신경망 층과 벡터의 요소 간 곱 연산으로 구성된다.
Bidirectional-LSTM(Bidirectional Long Short-Term Memory, Bi-LSTM, 양방향 장단기 신경망)은 단방향 LSTM 모델과 동일한 입력을 사용하며, 단방향 LSTM 모델의 구조와 달리 양방향으로 언어 모델(language model)의 문장의 시계열적인 정보를 사용하여 훈련(training)한다.
각 layer의 모든 토큰의 output (크기: 512x768)을 LSTM의 입력으로 사용하였으며, LSTM은 2개의 layer로 구성되고, 각 LSTM layer는 512개의 LSTM cell로 구성되며, 각 layer의 LSTM output (크기: 512x192)을 결합한 후에 완전 연결층(fully connected layer)을 사용한다.
Bidirectional GRU(Bidirectional Gated Recurrent Unit, Bi-GRU)는 문장 유사도 측정(sentence similarity measure) 용으로 사용된다.
전처리 후, 각각의 문장의 토큰 시퀀스(each sequence of tokens)는 단어의 임베딩 레이어(Embedding layer)를 통해 임의의 벡터(random vector)로 임베디드 된다. 실시예에서는, Bi-GRU는 크기를 256으로 설정했으며, 포함된 벡터가 계산된다. 실시예에서는, 유사도(similarity)는 완전 연결층(full connect layer, FC)과 유클리디안 거리를 사용한 sigmoid로 계산된다. 유사도(similarity)는 0 ~ 1 사이의 값을 가지며, 유사도 값이 1에 가까울수록 두 문장이 유사하다. 유사도를 측정하기 위해 완전 연결층(FC)과의 거리(distance)를 측정하며, 거리는 Euclidean 거리, Cosine 거리, Manhatten 거리, Minkowski 거리, Chebyshev 거리를 사용할 수 있다.
도 5b와 5c는 AI 탐지 옵션(Sensitivity, Duplication, Accumulated Data, Sloop degree, Time Window Unit, Outlier/Inlier)을 보인 화면이다.
AI 탐지 옵션은 AI 탐지 데이터의 민감도(Sensitivity), 데이터 중복 제거(De-duplication), 누적된 면적(Accumulated Area), 기울기(Slope degree), 타임 윈도우 유닛(Time Window Unit), Outlier/Inlier(이상 징후/정상 징후)가 포함된다.
* 민감도(Sensitivity) : 예측과 실제 값의 차이 정도를 나타내며, 추후 이벤트 탐지의 척도가 됨
* 데이터 중복 제거(De-duplication) : 중복되는 값의 데이터 제외
* 누적된 면적(Accumulated Area) : 데이터의 면적을 이용한 filter 적용
예) 낮은 값의 데이터일때 탐지 X)
* 기울기(Slope degree) : 데이터의 기울기를 이용한 필터 적용 (예: 급감할 때는 이벤트 탐지 X
* 타임 윈도우 유닛(Time Window Unit) : Window 내 데이터 row 수
예) 7 unit: 7개의 데이터를 하나의 패턴 (input) 으로 봄
* Outlier/Inlier : 이상 징후/정상 징후 중 어느 부분을 이벤트로 탐지할
지에 대한 여부
도 5d는 학습데이터 쿼리(SPL), 탐지 데이터 쿼리(SPL)를 사용한 Test Data (KPI = 1) 쿼리(AI 수치 이상 탐지) 화면이다.
도 5e는 학습 데이터 이미지(Splunk Image), 탐지 데이터 이미지(Splunk Image)를 포함하는 Test Data Splunk Image(AI 수치 이상 탐지) 화면이다.
도 5f는 UserID에 따라, 일자별 학습데이터 트렌드(추이 그래프), value별 빈도를 나타낸 학습데이터 분포(막대 그래프)를 데이터 시각화(KPI = 1) 한 화면이다.
도 5g는 UserID에 따라, 일자별 탐지데이터 트렌드(추이 그래프-이상 패턴(Anomaly-Outlier)), value별 빈도를 나타낸 탐지데이터 분포(막대 그래프-이상 패턴(Outlier))를 포함하는 탐지 데이터 시각화(KPI = 1) 한 화면이다.
도 5h, 5i는 학습 알고리즘을 사용하여 학습 데이터에 대하여 정상 패턴을 학습 후, 딥러닝 모델을 사용하여 개인별 수치 이상 탐지 임계치(threshold)를 적용하여 탐지 데이터를 출력하고, 탐지 데이터의 예측 값과 실제 값의 거리(distance)를 계산하여 탐지 데이터를 출력하는 화면이다.
도 5j는 학습 알고리즘 후의 일자별 탐지 데이터에 대한 AI 탐지 민감도(Sensitivity) 화면이다.
도 5k는 JMachine 시나리오 - 탐지 데이터에 대한 AI 탐지 민감도, AI 탐지 원천 데이터 화면이다.
(실시예2)
네트워크 장비의 가상 머신을 사용하여 CPU 사용량의 기록을 모니터링할 때,
CPU 시스템(cpu_system_pct), 개인 사용자별 CPU 사용량(cpu_user_pct), 전체 CPU 사용량(tot_cpu_pct)
도 6a는 학습데이터 쿼리(SPL), 탐지 데이터 쿼리(SPL)를 사용한 Test Data (KPI = 3) 쿼리(AI 수치 이상 탐지) 화면이다.
도 6b는 학습 데이터 이미지(Splunk Image), 탐지 데이터 이미지(Splunk Image)를 포함하는 Test Data Splunk Image(AI 수치 이상 탐지)(KPI =3) 화면이다.
도 6c는 cpu_system_pct, cpu_user_pct, tot_cpu_pct 학습 데이터에 대한 일자별/시간대별 학습데이터 트렌드(추이 그래프), value별 빈도를 나타낸 학습데이터 분포(막대 그래프)를 데이터 시각화(KPI = 3) 한 화면이다.
도 6d는 cpu_system_pct, cpu_user_pct, tot_cpu_pct에 대한 일자별/시간대별 탐지데이터 트렌드(추이 그래프-이상 패턴(Anomaly-Outlier)), value별 빈도를 나타낸 탐지데이터 분포(막대 그래프-이상 패턴(Outlier))를 갖는 탐지 데이터 시각화(KPI = 3) 한 화면이다.
도 6e는 학습 알고리즘의 cpu_system_pct, cpu_user_pct, tot_cpu_pct 학습 데이터에 대하여 시간대별/일자별 정상 패턴 학습 후, 딥러닝 모델을 사용하여 개인별 수치 이상 탐지 임계치(threshold)를 적용하여 탐지 데이터를 출력하고, cpu_system_pct, cpu_user_pct, tot_cpu_pct에 대한 시간대별/일자별 탐지 데이터의 예측 값과 실제 값의 유클리디안 거리(distance)를 계산하여 탐지 데이터를 출력하는 화면이다.
도 6f는 학습 알고리즘을 사용하여 cpu_system_pct, cpu_user_pct, tot_cpu_pct 학습 데이터의 정상 패턴 학습 후 결과: cpu_system_pct, cpu_user_pct, tot_cpu_pct 학습 데이터에 대한 시간대별/일자별 정상 패턴 학습 후, 이상 패턴 표시 화면이다.
도 6g는 JMachine 시나리오 - cpu_system_pct, cpu_user_pct, tot_cpu_pct 탐지 데이터에 관한 AI 탐지 민감도, AI 탐지 원천 데이터 화면이다.
도 6h는 cpu_system_pct, cpu_user_pct, tot_cpu_pct 탐지 데이터에 관한 각각 value별 빈도별 히스토그램을 표시한 탐지 데이터를 나타낸 탐지 이벤트 시각화 화면이다.
(3) AI 로그 이상탐지: 로그 텍스트 데이터를 수치 데이터로 변형 후 수치 데이터의 이상 패턴 탐지(정상 패턴을 학습하여, 이상 패턴을 수치화하여 임계치 지정)
도 7a, 7b는 AI 로그 이상탐지: 로그 텍스트 데이터를 수치 데이터로 변형 후 수치 데이터의 이상 패턴 탐지(정상 패턴을 학습하여, 이상 패턴을 수치화하여 임계치 지정) Test Data(KPI=1) 학습 데이터 쿼리(SPL), 탐지 데이터 쿼리(SPL) - AI 로그 이상 탐지 화면이다.
도 7c는 학습 데이터 이미지(Splunk), 탐지 데이터 이미지(Splunk)를 포함하는 Test Data Splunk Image(AI 로그 이상 탐지) 화면이다.
도 7d는 시간, log_key별 시계열적인 순서로 학습 데이터, 탐지 데이터의 임베디드된 텍스트(AI 로그 이상 탐지) 화면이다.
본 발명에 따른 실시예들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되고 컴퓨터 판독 가능 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 기록 매체는 프로그램 명령, 데이터 파일, 데이터 구조를 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 기록 매체는 스토리지, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 저장 매체에 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예는 컴파일러에 의해 만들어지는 것과, 기계어 코드뿐만 아니라 인터프리터를 사용하여 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상기 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로써 작동하도록 구성될 수 있다.
이상에서 설명한 바와 같이, 본 발명의 방법은 프로그램으로 구현되어 컴퓨터의 소프트웨어를 이용하여 읽을 수 있는 형태로 기록매체(CD-ROM, RAM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등)에 저장될 수 있다.
본 발명의 구체적인 실시예를 참조하여 설명하였지만, 본 발명은 상기와 같이 기술적 사상을 예시하기 위해 구체적인 실시 예와 동일한 구성 및 작용에만 한정되지 않고, 본 발명의 기술적 사상과 범위를 벗어나지 않는 한도 내에서 다양하게 변형하여 실시될 수 있으며, 본 발명의 범위는 후술하는 특허청구범위에 의해 결정되어야 한다.
100: 보안 지역 문서 보관실 110: 태그 리더
120: 문서 보관실 PC 130: 출입자의 태그 출입증
131: 태그 칩 170: 사용자 단말
190: 라우터 200: 보안 서버

Claims (5)

  1. 보안 지역의 태그 출입증을 소지한 출입자의 출입 기록, 디지털 문서 보안실의 웹 접속 기록(log 기록), 원격 PC의 CPU 상태 모니터링 데이터를 개인별로 데이터베이스에 누적 저장하여 시간대별/일자별/기간별 통계에 의해 개인별 z-score, 평균, 표준편차에 따라 정규분포화 한 후 개인별로 다른 AI 가변 임계치를 결정하며, 학습 데이터를 학습 알고리즘을 사용하여 정상 패턴을 학습하고, 실시간으로 해당 탐지 데이터에 대하여 개인별로 다른 AI 가변 임계치를 적용하여 정상 패턴 데이터와 비정상적인 이상 패턴을 갖는 비정상적인 이상 패턴 데이터를 제공하는 보안 서버; 및
    상기 보안 서버에 유무선 통신망을 통해 연결된 사용자 단말;
    을 포함하는 AI 가변 임계치를 사용한 이상징후 탐지 시스템.
  2. 제1항에 있어서,
    상기 디지털 문서 보안실은 문서와 파일을 저장하는 파일 서버를 더 포함하는 AI 가변 임계치를 사용한 이상징후 탐지 시스템.
  3. 제1항에 있어서,
    보안 지역의 문서 보안실의 출입 시에, 출입자의 태그 출입증을 태깅한 태그 리더의 출입 기록을 전송하고, 상기 태그 리더와 연결된 PC를 더 포함하는 AI 가변 임계치를 사용한 이상징후 탐지 시스템.
  4. 제1항에 있어서,
    상기 학습 알고리즘은 딥러닝(CNN) 또는 머신 러닝 알고리즘을 사용하여 학습 데이터의 정상 패턴을 학습하고, 누적된 통계 데이터를 기초로 Z-score, 평균, 표준 편차를 계산하고 정규분포화 한 후 개인별로 다른 AI 가변 임계치(상한치, 하한치)를 결정하고, 개인별로 다른 AI 가변 임계치(상한치, 하한치)에 따라 탐지 데이터의 비정상적인 이상 패턴을 추출하여 탐지 데이터를 제공하며, 이를 데이터 시각화하여 표시되도록 하는, AI 가변 임계치를 사용한 이상징후 탐지 시스템.
  5. 제1항에 있어서,
    상기 학습 알고리즘은 사용자 단말의 클라이언트 프로그램에서 AI 기계 학습은 "기계학습 실행" 메뉴에서 딥러닝(CNN) 또는 여러 종류의 머신러닝 알고리즘과 "AI 탐지 옵션"이 선택되며, 학습 데이터에 대하여 개인별로 정규 분포의 상한치~하한치(5~95%) 범위 정상 패턴의 데이터를 학습하고, 상기 AI 가변 임계치(상한치, 하한치)에 따라 탐지 데이터에 대하여 정규 분포의 하한치 이하(5% 이하), 상한치 이상(95% 이상)을 갖는 비정상적인 이상 패턴 데이터를 추출하는, AI 가변 임계치를 사용한 이상징후 탐지 시스템.
KR1020210158850A 2021-11-17 2021-11-17 Ai 가변 임계치를 사용한 이상징후 탐지 시스템 KR20230072279A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210158850A KR20230072279A (ko) 2021-11-17 2021-11-17 Ai 가변 임계치를 사용한 이상징후 탐지 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210158850A KR20230072279A (ko) 2021-11-17 2021-11-17 Ai 가변 임계치를 사용한 이상징후 탐지 시스템

Publications (1)

Publication Number Publication Date
KR20230072279A true KR20230072279A (ko) 2023-05-24

Family

ID=86540889

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210158850A KR20230072279A (ko) 2021-11-17 2021-11-17 Ai 가변 임계치를 사용한 이상징후 탐지 시스템

Country Status (1)

Country Link
KR (1) KR20230072279A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100750697B1 (ko) 2005-11-16 2007-08-22 주식회사 마크애니 사용자 액세스 기능을 갖는 공유스토리지가 구비된 디지털문서보안 시스템, 및 그 시스템을 이용한 문서 처리방법
KR102185190B1 (ko) 2018-12-12 2020-12-01 한국전자통신연구원 머신러닝을 이용한 이상징후 탐지 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100750697B1 (ko) 2005-11-16 2007-08-22 주식회사 마크애니 사용자 액세스 기능을 갖는 공유스토리지가 구비된 디지털문서보안 시스템, 및 그 시스템을 이용한 문서 처리방법
KR102185190B1 (ko) 2018-12-12 2020-12-01 한국전자통신연구원 머신러닝을 이용한 이상징후 탐지 방법 및 시스템

Similar Documents

Publication Publication Date Title
JP6080940B2 (ja) 人物検索方法及びホーム滞留人物検索装置
US8761517B2 (en) Human activity determination from video
CN112863683B (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
Rakesh Performance analysis of anomaly detection of different IoT datasets using cloud micro services
Amaro et al. Evaluation of machine learning techniques for face detection and recognition
Mohindru et al. A review of anomaly detection techniques using computer vision
Manikandan et al. A neural network aided attuned scheme for gun detection in video surveillance images
CN111831715A (zh) 一种基于人工智能大数据智慧接访及存证系统及方法
CN112948897B (zh) 一种基于drae与svm相结合的网页防篡改检测方法
Choudhry et al. A Comprehensive Survey of Machine Learning Methods for Surveillance Videos Anomaly Detection
KR102644230B1 (ko) 머신러닝 학습알고리즘을 이용한 보안실 보관관리 시스템
US20210034671A1 (en) Method and system for enhancing a vms by intelligently employing access control information therein
Mudgalgundurao et al. Pixel‐wise supervision for presentation attack detection on identity document cards
KR102659067B1 (ko) 딥러닝을 적용한 출입문 출입관리 시스템
KR20230072279A (ko) Ai 가변 임계치를 사용한 이상징후 탐지 시스템
CN106530199B (zh) 基于窗口式假设检验的多媒体综合隐写分析方法
KR102661221B1 (ko) 로그인 진행시 발생하는 텍스트를 활용하여 로그인시 발생되는 이상징후 탐지방법
KR20230119311A (ko) Ai 가변 임계값을 사용한 각 구성요소별 이상징후 탐지방법
KR102647002B1 (ko) 유저별 ai 가변 임계값을 활용한 이상징후 탐지방법.
Kaur et al. An advance 2D face recognition by feature extraction (ICA) and optimize multilayer architecture
Singh et al. Automated attendance system with face recognition
Tan et al. An artificial intelligence and internet of things platform for healthcare and industrial applications
Ayub et al. Getting Smarter with Fatrix: A Facial Recognition Access Control System
Reddy et al. Real time security surveillance using machine learning
Necochea-Chamorro et al. Systematic Literature Review: Biometric Technology Applied to Educational Institutions