KR102107847B1

KR102107847B1 - 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법

Info

Publication number: KR102107847B1
Application number: KR1020180081940A
Authority: KR
Inventors: 박승영; 김태윤; 정태준; 고은아
Original assignee: 클라우드브릭주식회사
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2020-05-15
Also published as: JP2020013536A; JP6715316B2; KR20200007613A; US20200019880A1; KR102107847B9; US11475354B2

Abstract

본 발명의 목적은, 16진수를 이용하여 웹 트래픽(URL)을 인식할 수 있으며, 증분학습을 이용하여 웹 트래픽(URL)의 인식율을 증가시킬 수 있는, 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법을 제공하는 것이다.

Description

웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법{Deep Learning Method}

본 발명은 딥러닝 방법에 관한 것이다.

딥러닝은 기계가 사람처럼 특정 데이터 종류를 학습하고 스스로 인지, 추론, 판단할 수 있는 기술이다. 예를 들어, 딥러닝은 기계에게 그림 수 만개를 학습 시켜 새로운 그림이 무엇인지 기계가 스스로 인식할 수 있도록 하는 기술이다.

딥러닝은 데이터를 이미지로 인식 후, 여러 번의 데이터 압축과 프로세싱을 통해 학습을 거친다.

이미지를 인식하도록 설계 되어있는 알고리즘은 많은 반면, 문자열을 인식하도록 설계 되어있는 알고리즘은 별로 없다. 그리고, 문자열을 인식 할 수 있는 알고리즘들은 대체로 68개의 문자만 인식하도록 설계되어 있다. 즉, 종래의 딥러닝 방법은 영문 소문자 26개, 숫자 10개, 기호 32개로 이루어진 68개의 문자를 이미지로 변환해서 딥러닝 모듈을 학습시키고 있다.

그러나, 웹 트래픽(또는 웹 주소 또는 URL 이라함)에 딥러닝을 적용하기 위해서는 딥러닝 모듈이 전세계의 언어를 인식할 필요가 있을 뿐만 아니라, 대문자/소문자 역시 구별해야 한다.

웹 트래픽(URL)이 영어로만 되어있는 것이 아니라 전세계의 어느 언어로든 생성될 수 있으며, 영어도 대문자와 소문자의 여부에 따라 의미가 달라지기 때문이다. 따라서, 딥러닝 모듈이 68개의 문자만 인식 할 경우, 웹 트래픽에 대한 학습이 제대로 이뤄지기 힘들다.

또한, 한번 일정 데이터로 학습을 마친 딥러닝 모듈을 새로운 데이터에 대해 추가적으로 학습시키는 것은 불가능 하다. 즉, 딥러닝 모듈은 새로운 데이터에 대한 학습을 계속 쌓아갈 수는 없다.

따라서, 웹 트래픽(URL)에 딥러닝을 적용할 경우, 시간이 지날수록 또는 새로운 데이터를 테스트하는 비중이 높아질수록 딥러닝 모듈의 정확도는 떨어진다. 사이트를 한번 개편하거나 사이트 내에 새로운 페이지를 추가할 경우, 기존에 학습된 데이터와는 전혀 다른 형식의 웹 트래픽(URL)이 사용될 가능성이 높기 때문이다.

1. 공개공보 10-2018-0066643호: 딥러닝 기반 영상 비교를 이용한 상품 검색 시스템 및 방법

상술한 문제점을 해결하기 위해 제안된 본 발명의 목적은, 16진수를 이용하여 웹 트래픽(URL)을 인식할 수 있으며, 증분학습을 이용하여 웹 트래픽(URL)의 인식율을 증가시킬 수 있는, 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법을 제공하는 것이다.

상술한 기술적 과제를 달성하기 위한 본 발명에 따른 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법은, 적어도 두 개 이상의 딥러닝 머신들 각각이 16진수를 이용하여 웹 트래픽을 학습하는 단계; 및 상기 딥러닝 머신들이 가중치를 이용한 증분 학습을 이용해 웹 트래픽을 학습하는 단계를 포함하고, 상기 적어도 두 개 이상의 딥러닝 머신들 각각이 16진수를 이용하여 웹 트래픽을 학습하는 단계는, 웹 트래픽이 수신되면, 상기 딥러닝 머신들 각각이 상기 웹 트래픽의 문자열을 UTF-8 16진수로 인코딩하는 단계; 및 상기 딥러닝 머신들 각각이 상기 문자열을 이미지로 변환하여, 상기 이미지를 딥러닝 학습하는 단계를 포함하며, 상기 증분 학습을 이용해 웹 트래픽을 학습하는 단계는, 상기 딥러닝 머신들 중, 딥러닝 머신1이 1-3주차 데이터를 학습하고, 딥러닝 머신2가 2-4주차 데이터를 학습하고, 딥러닝 머신3이 3-5주차 데이터를 학습하여, 상기 딥러닝 머신들이 학습하는 데이터를 중첩시키는 단계; 5주차 데이터들 중 관리자에 의해 이미 판단이 끝단 일부 데이터들을 이용하여 상기 딥러닝 머신들을 테스트하는 단계; 및 상기 테스트 결과를 이용하여 상기 딥러닝 머신들 각각에 대한 웨이트를 설정하는 단계를 포함한다.

본 발명은 웹 트래픽(URL)에 딥러닝을 적용할 경우 발생될 수 있는 문제점을 해결하기 위한 것이며, 아래와 같은 효과들을 제공하고 있다.

첫째, 본 발명은 68개의 문자만 인식 할 수 있는 종래의 딥러닝 알고리즘의 한계를 벗어나, 딥러닝 모듈이 UTF-8 16진수를 인식하도록 함으로써, 딥러닝 모듈이 웹 트래픽에 대한 학습을 할 수 있도록 하는 효과를 제공하고 있다.

딥러닝 모듈이 UTF-8 16진수를 인식하도록 함으로써, 딥러닝 모듈은, 영문의 경우 2개의 16진수 채널로 256자를 표현할 수 있으며, 한글의 경우 6개의 16진수 채널로 16,777,216자를 표현할 수 있다. 이 경우, 영문은 1 byte, 한글은 3 bytes의 크기를 가진다.

둘째, 웹사이트의 특성상 완전히 새로운 패턴의 트래픽이 들어오기 마련이지만, 종래에는, 한번 학습을 마친 딥러닝 모듈에 새로운 데이터를 추가로 학습시키는 것은 어려웠다. 이를 해결하기 위해, 본 발명은 증분 학습(Incremental Learning)을 이용하고 있다. 즉, 본 발명은 학습한 데이터의 주기가 다른 여러 개의 딥러닝 모듈들을 사용하고, 에러율에 따른 가중치(Weight)를 각 모듈에 지정함으로써 딥러닝의 정확도를 높이고 있다.

셋째, 본 발명은 웹 트래픽(URL)에 대한 딥러닝의 정확도를 높임으로써, 해킹을 신속하게 인식하고 이에 대해 신속하게 대응할 수 있다.

도 1은 본 발명에 따른 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법이 적용되는 딥러닝 시스템의 일실시예 구성도.
도 2는 본 발명에 따른 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법의 일실시에 흐름도.
도 3은 본 발명에 따른 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법에 적용되는 16진수 활용 방법을 설명하기 위한 예시도.
도 4는 본 발명에 따른 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법 중 16진수를 이용하는 방법을 나타낸 예시도.
도 5는 본 발명에 따른 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법 중 증분학습 방법을 나타낸 예시도.

이하, 첨부된 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다.

도 1은 본 발명에 따른 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법이 적용되는 딥러닝 시스템의 일실시예 구성도이다.

본 발명에 따른 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법(이하, 간단히 딥러닝 방법이라 함)이 적용되는 딥러닝 시스템은, 도 1에 도시된 바와 같이, 적어도 두 개 이상의 딥러닝 머신(10)들, 상기 딥러닝 머신(10)들을 제어 및 관리하는 제어 서버(20), 일반 사용자들이 이용하는 사용자 단말기(30), 해커들이 이용하는 해커 단말기(40) 및 상기 딥러닝 머신(10)들을 관리하는 관리업체(90)로부터 본 발명에 따라 생성된 딥러닝 솔루션을 제공받아 운영하는 업체서버(50)를 포함한다.

상기 관리업체(90)는 본 발명에 따른 딥러닝 방법을 수행하여 딥러닝 솔루션을 생성하여 웹 트래픽 공격을 직접 탐지할 수 있으며, 또는, 상기 딥러닝 솔루션(90)을 업무제휴 되어있는 상기 업체서버(50)로 제공할 수도 있다.

상기 업체서버(50)는 사용자 단말기(30)로 다양한 서비스를 제공하는 서버이며, 상기 딥러닝 솔루션(90)을 탑재하고 있다. 따라서, 불법 적인 의도를 가지고 있는 해커에 의해 사용되는 해커 단말기(40)로부터 상기 업체서버(50)로 웹 트래픽에 의한 해킹이 시도되면, 상기 딥러닝 솔루션(90)이 상기 해킹을 차단시킬 수 있다. 본 발명에서 웹 트래픽이란, 웹 주소 또는 URL을 의미한다.

즉, 상기 관리업체(90)는 본 발명에 따른 딥러닝 방법을 이용하여, 웹 트래픽을 통한 해킹을 방지할 수 있는 딥러닝 솔루션을 개발하여 직접 이용할 뿐만 아니라, 상기 딥러닝 솔루션을 상기 업체서버(50)로 제공할 수도 있다.

상기 업체서버(50)는 일반 사용자들을 상대로 서비스를 제공하는 업체에 의해 관리되고 있으며, 상기 딥러닝 솔루션을 이용하여 웹 트래픽에 의한 해킹을 차단시킬 수 있다.

본 발명에 따른 딥러닝 방법의 특징은 다음과 같다.

예를 들어, 본 발명에서는 4개의 딥러닝 머신(10)들이, 16진수를 활용하여 문자열들을 인식하여 해킹과 관련된 문자열들을 파악하는 학습을 한다. 이 경우, 4개의 딥러닝 머신들이 서로 중첩되는 데이터로 학습을 하며, 1차적으로 학습 및 테스트된 결과에 따라, 각 딥러닝 머신의 웨이트가 결정된다.

웨이트가 결정된 상태에서, 딥러닝 머신들은 새롭게 수신되는 웹 트래픽을 분석하여 해킹 여부를 판단할 수 있다.

즉, 웨이트가 결정된 상태에서, 딥러닝 머신들은 새로 수집된 데이터들, 즉, 웹 트래픽들을 분석하여, 상기 웹 트래픽이 공격인지 아닌지의 여부를 탐지하며, 그 결과에 따라, 상기 웹 트래픽을 차단하거나 또는 예외처리할 수 있다.

부연하여 설명하면, 본 발명에서는, 예를 들어, 4개의 딥러닝 머신들이, 16진수를 활용하여 문자열들을 인식하여 해킹과 관련된 문자열들을 파악하는 학습을 한다. 이 경우, 4개의 딥러닝 머신들이 서로 중첩되는 데이터로 학습을 하며, 1차적으로 학습 및 테스트된 결과에 따라, 각 딥러닝 머신의 웨이트가 결정된다.

웨이트가 결정된 상태에서, 상기 딥러닝 머신들은 웹 트래픽을 분석하여 상기 웹 트래픽의 공격(해킹) 여부를 판단한다.

이 경우, 상기 딥러닝 머신들이 모두 웹 트래픽 공격 탐지에 이용될 수도 있고, 또는, 상기 딥러닝 머신들로부터 추출된 분석 알고리즘이 별도의 딥러닝 솔루션으로 생성되어, 상기 딥러닝 솔루션이 장착된 하나의 딥러닝 머신, 예를 들어, 상기 업체서버(50)가 웹 트래픽 공격을 탐지할 수도 있으며, 또는 상기 딥러닝 머신들을 제어하는 하나의 서버, 예를 들어, 상기 제어 서버(20)가 웹 트래픽을 공격을 탐지할 수도 있다.

부연하여 설명하면, 본 발명에 따른 딥러닝 방법은, 적어도 두 개 이상의 딥러닝 머신들 각각이 16진수를 이용하여 웹 트래픽을 학습하는 단계 및 상기 딥러닝 머신들이 가중치를 이용한 증분 학습을 이용해 웹 트래픽을 학습하는 단계를 포함한다.

여기서, 상기 적어도 두 개 이상의 딥러닝 머신들 각각이 16진수를 이용하여 웹 트래픽을 학습하는 단계는, 웹 트래픽이 수신되면, 상기 딥러닝 머신들 각각이 상기 웹 트래픽의 문자열을 UTF-8 16진수로 인코딩하는 단계 및 상기 딥러닝 머신들 각각이 상기 문자열을 이미지로 변환하여, 상기 이미지를 딥러닝 학습하는 단계를 포함한다.

또한, 상기 증분 학습을 이용해 웹 트래픽을 학습하는 단계는, 상기 딥러닝 머신들 중, 딥러닝 머신1이 1-3주차 데이터를 학습하고, 딥러닝 머신2가 2-4주차 데이터를 학습하고, 딥러닝 머신3이 3-5주차 데이터를 학습하여, 상기 딥러닝 머신들이 학습하는 데이터를 중첩시키는 단계, 5주차 데이터들 중 관리자에 의해 이미 판단이 끝단 일부 데이터들을 이용하여 상기 딥러닝 머신들을 테스트하는 단계 및 상기 테스트 결과를 이용하여 상기 딥러닝 머신들 각각에 대한 웨이트를 설정하는 단계를 포함한다.

이 경우, 상기 웨이트가 각각 설정된 상기 딥러닝 머신들은 웹 트래픽 공격을 탐지한다.

이하에서는 상기 딥러닝 머신(10)들에 의해 수행되는 본 발명에 따른 딥러닝 방법이 설명된다.

도 2는 본 발명에 따른 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법의 일실시에 흐름도이며, 도 3은 본 발명에 따른 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법에 적용되는 16진수 활용 방법을 설명하기 위한 예시도이다.

본 발명에 따른 딥러닝 방법은, 도 2에 도시된 바와 같이, 상기 딥러닝 머신(10)이 16진수를 이용하여 웹 트래픽을 이미지화한 후 웹 트래픽을 인식하는 단계(100), 적어도 두 개 이상의 상기 딥러닝 머신(10)들이 이미지화된 웹 트래픽을 가중치를 이용한 증분 학습을 이용해 분석하여 웹 트래픽 분석 기능을 향상시키는 단계(200) 및 상기 분석 기능을 이용하여 웹 트래픽 공격을 탐지하는 단계(300)를 포함한다.

본 발명은 상기 딥러닝 머신이 웹 트래픽을 지속적으로 학습하도록 함으로써, 웹 트래픽 분석의 정확도를 유지할 수 있다는 효과를 제공하고 있다.

본 발명의 핵심적인 특징은 다음과 같다.

첫째, 본 발명은 16진수를 이용해 웹 트래픽을 이미지화하여, 웹 트래픽을 인식할 수 있다.

웹 트래픽의 특성상 여러 나라의 언어가 사용되고 있으며, 영어의 경우에도, 웹 트래픽으로 대문자 및 소문자가 모두 사용되고 있다. 그러나, 종래의 68개의 문자열에 의해서는, 영어의 대문자 및 타 언어에 대한 표현이 불가능하다.

즉, 웹 트래픽을 딥러닝에 적용하기 위해서는, 보다 많은 문자열이 보다 신속하게 인식되어야 한다. 이러한 조건을 맞추기 위해, 본 발명은 UTF-8 16진수 포맷을 이용하고 있다.

즉, 웹 트래픽이 UTF-8 16진수를 이용하여 관리됨으로써, 종래보다 많은 문자열이 인식될 수 있다.

본 발명에서는, UTF-8 16진수가 이용되기 때문에, 16개의 채널이 이용되고 있다.

본 발명에서 이용되는 UTF-8 16진수는 인코딩/디코딩 방식이다. UTF-8 16진수가 이용되면, 예를 들어, A는 41로, J는 4a로, j는 6a와 같은 방법으로 변환이 가능하다.

딥러닝 머신에게 "41"은 UTF-8 16진수 형태라고 알려주면, 딥러닝 머신은 "41"을 디코딩해서 "A"로 인식할 수 있다.

그러나, 웹 트래픽에 대한 딥러닝 방법을 이용하는 딥러닝 머신은 웹 트래픽이 이미지화된 정보를 수신한다. 따라서, 단순히 "A"를 "41"로 변환해서, 딥러닝 머신에게 "A"는 "41"이라는 값을 갖는다는 점을 학습시킬 수는 없다.

기존의 68개의 문자열만 학습 가능하던 딥러닝 머신에게 DBFC를 학습 시키기 위해서는, 도 3에 도시된 바와 같은 이미지를 학습시켜야 한다.

예를 들어, 도 3에 도시된 표의 각 칸은 픽셀(이미지)이 될 수 있고, 상기 표의 X축, 즉, 가로로 되어 있는 항목은 입력 값이며, Y축, 즉 세로로 되어 있는 항목은 각 칸이 매칭 돼 있는 문자를 의미한다.

즉, 딥러닝 머신이 웹 페이지의 URL 형식을 받아들이기 위해서는, UTF-8 16진수에 대한 이미지 변환이 수행되어야 한다.

부연하여 설명하면, 본 발명에서는 UTF-8 16진수 형식이 이미지화되어 표현될 수 있다.

기존의 경우, 대문자도 소문자로 변환하여 68자 안에 속하는 문자가 입력될경우 68차원 one-hot vector로 변환되고 여기에 속하지 않는 문자가 입력될경우 68차원 영 벡터로 변환, 즉, 무시된다.

그러나, 본 발명은 대문자를 소문자로 변환하지 않으며, 그냥 유니코드를 지원하는 인코딩 기법(utf-8일 필요는 없음)으로 읽어들이며, 이들은 컴퓨터에 비트로 저장된다.

예를 들어, 알파벳은 문자당 8비트, 한글은 문자당 16비트로 저장된다. 본 발명은 이러한 비트들을 4비트 단위로 16진수 변환을 한다. 즉, 본 발명은 알파벳은 문자당 2자리의 16진수, 한글은 문자당 4자리의 16진수로 변환한다.

이러한 변환이 수행되면, 모든 문자가 16진수로 표현되므로 변환 대상이 되는 최종 문자열은 0123456789abcdef 중에 하나로만 구성될 수 있다. 즉, 문자당 16차원 one hot vector가 될 수 있다.

이런 작업을 거치면 영문만으로 구성된 문자열은 2배가 될 수 있다(문자당 2개의 16진수이므로). 이로 인해 신경망 훈련에 사용되는 메모리 량은 증가될 수 있으며, 메모리 량은 입력문자열의 길이에도 영향을 받을 수 있다.

본 발명이 16진수를 활용하는 특징에 대해 다시 정리하면 다음과 같다.

종래에는 68개의 문자열 밖에 인식되지 못했으나, 본 발명이 16진수를 활용함에 따라, 본 발명은 68개 보다 많은 문자열들을 인식할 수 있다.

특히, 본 발명은, (i) 웹트래픽이 수신되면, (ii) 딥러닝 머신(10)들 각각이 문자열을 UTF-8 16진수로 인코딩하고, (iii) 문자열을 이미지로 변환하여, (iv) 이미지를 딥러닝 학습한다는 특징을 가지고 있다.

즉, 본 발명이 16진수를 이용한다는 것은, 딥러닝 머신(10)이 웹트래픽의 문자열을 UTF-8 16진수로 표현한다는 것을 의미한다.

본 발명의 특징은, 웹트래픽을 UTF-8 16진수로 인코딩하여 이미지화한 후, 이미지화된 정보를 딥러닝 학습에 이용한다는 것이다.

둘째, 본 발명은 증분 학습을 이용하고 있다.

웹 트래픽의 특성상 사이트의 구조가 변경되거나 개선된 경우, 기존에 들어오던 웹 트래픽의 형태가 확연히 달라지기 때문에, 기존에 이용되던 딥러닝 머신의 정확도가 떨어질 확률이 높다. 즉, 종래의 딥러닝 방법에 의하면, 딥러닝 머신이 웹 트래픽을 학습한 시기로 부터 시간이 지나면 지날수록, 딥러닝 머신이 웹 트래픽을 분석하여 해킹 여부를 파악하는 정확도가 떨어지는 문제가 발생될 수 있다. 그러나, 종래에는, 딥러닝 머신을 추가 데이터로 "업데이트" 하기가 힘들었다.

이를 해결하기 위해, 본 발명은 증분 학습(incremental learning)을 이용하고 있다.

증분 학습에 의하면, 딥러닝 머신이 추가 데이터로 "업데이트"될 수 있으며, 따라서, 하나의 딥러닝 머신이 잘못된 판단을 내릴 경우, 함께 이용되고 있는 또 다른 딥러닝 머신이 상기 잘못을 수정해 줄 수 있다.

부연하여 설명하면, 증분 학습이란, 추가적으로 학습이 불가하던 딥러닝 머신 하나를, 학습 주기가 다른 또 다른 딥러닝 머신들과 함께 운영하면서, 각 딥러닝 머신에 에러율에 따른 웨이트를 지정하여, 딥러닝 머신들 각각의 에러를 최소화시키는 방법이다.

종래의 증분 학습 방법은, 각 딥러닝 머신에 중복되는 데이터 없이, 새로운 데이터만 학습했다. 예를 들어, 종래의 증분 학습 방법은, 딥러닝 머신1에게는 1주차 데이터만 학습시키고, 딥러닝 머신2에는 2주차 데이터만 학습시키며, 딥러닝 머신3에는 3주차 데이터만 학습시켰다. 웹 트래픽의 패턴이 일정하다고 생각하면, 이것은 문제가 되지 않는다. 그러나, 웹 트래픽의 형태는 쉽게 바뀔 수 있기 때문에, 각 딥러닝 머신이 특정 주기만 학습한 상태에서 에러율이 계산되고, 각 딥러닝 머신에 웨이트가 지정되면, 하나의 딥러닝 머신의 결과만 과대 평가될 우려가 있다.

이를 방지하기 위해, 본 발명에서는, 딥러닝 머신들이 학습하는 데이터의 주기가 겹치도록 설계되어 있다. 예를 들어, 딥러닝 머신1은 1주차 내지 4주차 데이터를 학습하도록 설정되고, 딥러닝 머신2는 2주차 내지 5주차 데이터를 학습하도록 설정되며, 딥러닝 머신3은 3주차 내지 6주차 데이터를 학습하도록 설정될 수 있다.

또한, 본 발명에서는, 가장 최근의 데이터로 각 머신의 에러율이 계산될 수 있으며, 가장 에러율이 낮은 딥러닝 머신은 탐지용 딥러닝 머신으로 활용될 수 있다.

이 경우, 딥러닝 머신의 에러율에 따라, 웨이트가 각 딥러닝 머신에 지정될 수 있다.

즉, 상기한 바와 같은 본 발명에 의하면, 하나의 딥러닝 머신이 지나친 평가를 내리는 것이 방지될 수 있으며, 웹 트래픽의 특성이 고려될 수 있다.

본 발명이 증분 학습을 이용하는 특징에 대해 다시 정리하면 다음과 같다.

본 발명이 이용하는 증분 학습의 가장 큰 특징은, 예를 들어, 딥러닝 머신1이 1-3주차 데이터를 학습하고, 딥러닝 머신2가 2-4주차 데이터를 학습하고, 딥러닝 머신3이 3-5주차 데이터를 학습함으로써, 딥러닝 머신들이 학습하는 데이터가 중첩된다는 것이다.

이 경우, 5주차 데이터의 약 10프로에 대해서는, 딥러닝 머신들이는 학습을 하지 않으며, 학습되지 않은 데이터들은 테스터용으로 사용된다.

이 여분의 10프로의 데이터들에 의해, 3개의 딥러닝 머신들이 테스트될 때, 딥러닝 머신들 각각의 에러율(정확도)이 파악될 수 있다.

왜냐하면, 상기 여분의 10프로의 데이터들은, 이미 정탐인지 오탐인지, 관리자에 의해 판단이 끝난 데이터들이기 때문이다.

상기 정확도(에러율)에 기반하여, 도 5에 도시된 공식에 의해, 각 딥러닝 머신의 웨이트가 설정될 수 있다. 즉, 정확도가 더 높은 머신은 웨이트를 더 높게, 정확도가 더 낮은 머신은 웨이트가 더 낮게 설정될 수 있다.

상기 과정을 통해 최종적으로 웹 트래픽 분석 기능이 향상될 수 있다.

이하에서는, 도 4를 참조하여 16진수를 활용하는 본 발명의 특징이 상세히 설명되며, 도 5를 참조하여 증분 학습에 대한 특징이 상세히 설명된다.

도 4는 본 발명에 따른 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법 중 16진수를 이용하는 방법을 나타낸 예시도이다. 도 4에서 (a)는 종래의 딥러닝 방법을 나타내며, (b)는 본 발명에 따른 딥러닝 방법을 나타낸다.

종래의 딥러닝 방법에서는, (a)에 도시된 바와 같이, 웹 트래픽이 수신되면, 웹 트래픽을 68개의 문자로 표현하기 위해, 머신이 웹 트래픽을 68개의 채널을 활용하여 이미지로 변환시킨 후, 변환된 이미지에 대해 딥러닝 학습을 수행하여, 최종적으로 학습을 완료한다.

그러나, 본 발명에 따른 딥러닝 방법에서는, (b)에 도시된 바와 같이, 웹 트래픽싱 수신되면, 웹 트래픽을 16진수로 표현하기 위해, 머신이 웹 트래픽을 16개의 채널을 활용하여 이미지로 변환시킨 후, 변환된 이미지에 대해 딥러닝 학습을 수행하여, 최종적으로 학습을 완료한다.

즉, 본 발명에 의하면, 종래에 68개의 문자로 밖에 표현되지 못했던 웹 트팩픽이, 영문의 경우 2개의 16진수 채널을 이용하여 256자가 표현될 수 있으며, 한글의 경우 6개의 16진수 채널을 이용하여 16,777,216자가 표현될 수 있다.

이 경우, 영문은 1 byte,로 표현될 수 있으며, 한글은 3 bytes로 표현될 수 있다.

즉, 본 발명에 의하면, 다양한 문자 및 형태로 구성된 모든 종류의 웹 트래픽이 인식될 수 있으며, 이에 따라, 모든 종류의 해킹이 검출될 수 있다.

16진수 변환에 대해 부연하여 설명하면 다음과 같다.

웹 트래픽, 즉, URL은 기존 문자열들과 달리, 대소문자의 차이와 언어의 차이에 의해, 그 의미가 확연히 달라질 수 있다. 기존에는 68개의 문자열 이외의 문자가 웹 트래픽으로 입력되면, 상기 문자는 공백으로 처리되었다(대문자의 경우에는 소문자로 치환).　

예를 들어, "https://www.asdf.com/나쁜파일.exe"가 성공하면, 즉, 정상적으로 수행되면, 공격(해킹)이 될 수도 있지만, 종래에는 "https://www.asdf.com/　　 .exe"로 인식되었기 때문에, "https://www.asdf.com/　　 .exe"는 실행 자체가 되지 않았다.

그러나, 딥러닝 머신이 학습을 할때 "https://www.asdf.com/　　 .exe"가 공격, 즉, 해킹이라고 학습을 한다면, 추후에 "https://www.asdf.com/좋은파일.exe"이 수신되었을 때, "https://www.asdf.com/좋은파일.exe"가 공격이 아님에도 불구하고, 딥러닝 머신은 "https://www.asdf.com/좋은파일.exe"을 공격이라 판단할 수 있다. 따라서, 이러한 오류는 수정되어야 한다. 이를 위해, 본 발명은 UTF-8 16진수를 이용하고 있다.

즉, UTF-8 16 진수를 이용하면, 보다 많은 문자열이 인식될 수 있기 때문에, 딥러닝 머신은 보다 다양한 정보들을 인식하여, 보다 다양한 분석 결과를 제공할 수 있다.

또한, UTF-8 16 진수를 이용하면, 메모리의 증가를 최소화시키면서도 보다 많은 문자열들에 대한 정보가 신속하게 저장될 수 있다.

도 5는 본 발명에 따른 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법 중 증분학습 방법을 나타낸 예시도이다.

본 발명에 적용되는 증분학습 방법은, 다음과 같은 특징을 가지고 있다.

첫째, 본 발명에 적용되는 증분학습 방법은 각 주기 별로 학습한 머신의 에러율을 계산하고, 그에 따른 웨이트를 지정할 수 있다.

둘째, 본 발명에 적용되는 증분학습 방법은 다수의 머신을 동시에 운영함으로써, 하나의 머신에 대한 오류를 최소화시킬 수 있다.

셋째, 본 발명에 적용되는 증분학습 방법은 새로운 웹 트래픽을 신속하게 인식할 수 있기 때문에, 새로운 웹 트래픽에 대한 더욱 즉각적인 대응이 가능하다.

본 발명에 적용되는 증분학습 방법은 도 1 및 도 4에 도시된 바와 같이, 네 개의 딥러닝 머신만을 이용하는 것은 아니다. 즉, 본 발명에 적용되는 딥러닝 머신의 개수와 학습 주기는 상황에 따라 다양하게 변경될 수 있다.

증분 학습에 대해 부연하여 설명하면 다음과 같다.

일반적으로, 딥러닝 머신이 아무리 학습을 하더라도, 딥러닝 머신이 웹 트래픽의 해킹 여부를 100% 정확하게 판단할 수는 없다. 이 정확하지 않은 부분은 에러율이라고 한다. 시간이 지나면 지날수록, 딥러닝 머신의 학습 기반은 오래된 데이터인 반면에, 웹 트래픽은 언제나 변하기 때문에, 딥러닝 머신의 정확도는 점점더 줄어들게 된다.

또한, 종래의 방법은, 이미 학습을 완료한 딥러닝 머신을 새로운 데이터를 이용하여 추가적으로 학습시킬 수도 없었다.

이를 해결하기 위해, 본 발명은 새로운 데이터로 학습된 딥러닝 머신을, 오래된 데이터를 학습한 딥러닝 머신과 함께 사용하고 있으며, 이러한 방법은 증분 학습이라 한다.

예를 들어, 종래의 방법에서, 딥러닝 머신1은 첫 째주 데이터를 학습하고, 딥러닝 머신2는 둘째주 데이터를 학습하고, 딥러닝 머신3은 셋째주 데이터를 학습했다고 가정할 때, 딥러닝 머신3은 셋째 주 데이터에서 약 10%정도는 제외한 데이터로 학습을 한다.

이 경우, 세개의 딥러닝 머신들이, 상기에서 빼두었던 10%의 데이터에 의해 테스트된다면, 상기 세 개의 딥러닝 머신들에 대한 에러율이 나온다.

에러율이 나오면, 각 딥러닝 머신들에 대해 웨이트가 지정된다.

예를 들어, 딥러닝 머신1은 에러율 3%, 딥러닝 머신2는 에러율 2%, 딥러닝 머신3은 에러율 1% 라고 가정할 때, log(1/에러율)의 공식에 의해서 딥러닝 머신1의 웨이트(weight)는 약 1.5, 딥러닝 머신2의 웨이트는 약 1.7, 딥러닝 머신3의 웨이는 약 2가 될 수 있다.

이 경우, 새로운 웹 트래픽을, 딥러닝 머신1은 공격(해킹)으로 판단하고, 딥러닝 머신2는 공격이 아니라고 판단하며, 딥러닝 머신3은 공격이라고 판단한다면, 최종 판정은 공격으로 판단될 수 있다. 즉, 딥러닝 머신들 각각의 웨이트와 판단 결과를 고려하여 최종적인 판단결과가 산출될 수 있다.

이후, 다음 학습 주기가 되면 딥러닝 머신1을 제거한 후, 딥러닝 머신4가 새롭게 추가된다.

즉, 종래에는 딥러닝 머신들이 학습하는 데이터가 겹치지 않았기 때문에, 특정 머신의 웨이트가 비약적으로 치우치는 경향이 있을 수도 있었다. 왜냐하면, 에러율을 산정하기 위한 테스트 데이터가 대체로 새로운 형식의 웹 트래픽이면, 가장 최근의 데이터로 학습한 딥러닝 머신의 에러율이 낮고, 나머지 딥러닝 머신의 에러율이 높아지기 때문이다.　

따라서,　딥러닝 머신1의 에러율이 30%이고, 딥러닝 머신2의 에러율이 20%이며, 딥러닝 머신3의 에러율이 5%라면, log(1/에러율)의 공식에 의해서 딥러닝 머신1의 웨이트는 약 0.5, 딥러닝 머신2의 웨이트는 약 0.7, 딥러닝 머신3의 웨이트는 약 1.3으로 설정될 수 있다.

이 경우, 딥러닝 머신1과 딥러닝 머신2가 맞고, 5%의 확률로 딥러닝 머신3이 틀리더라도, 무조건 딥러닝 머신3의 결과가 최종 판단결과가 된다.

그러나, 본 발명에서와 같이, 학습 주기가 겹쳐지면, 예를 들어, 상기에서 설명된 바와 같이, 딥러닝 머신1은 1주차 내지 4주차 데이터를 학습하도록 설정되고, 딥러닝 머신2는 2주차 내지 5주차 데이터를 학습하도록 설정되며, 딥러닝 머신3은 3주차 내지 6주차 데이터를 학습하도록 설정되어, 각 딥러닝 머신이 예전 데이터와 새로운 데이터에 의해 동시에 학습되면, 웨이트가 치우치는 현상이 방지될 수 있다.

왜냐하면, 딥러닝 머신이 새로운 데이터만 학습한 것이 아니라, 기존의 데이터도 학습했기 때문이다.

본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.　 그러므로, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

10: 딥러닝 머신 20: 제어 서버
30: 사용자 단말기 40: 해커 단말기
50: 업체서버 90: 관리업체

Claims

적어도 두 개 이상의 딥러닝 머신들 각각이 16진수를 이용하여 웹 트래픽을 학습하는 단계; 및
상기 딥러닝 머신들이 가중치를 이용한 증분 학습을 이용해 웹 트래픽을 학습하는 단계를 포함하고,
상기 적어도 두 개 이상의 딥러닝 머신들 각각이 16진수를 이용하여 웹 트래픽을 학습하는 단계는,
웹 트래픽이 수신되면, 상기 딥러닝 머신들 각각이 상기 웹 트래픽의 문자열을 UTF-8 16진수로 인코딩하는 단계; 및
상기 딥러닝 머신들 각각이 상기 문자열을 이미지로 변환하여, 상기 이미지를 딥러닝 학습하는 단계를 포함하며,
상기 증분 학습을 이용해 웹 트래픽을 학습하는 단계는,
상기 딥러닝 머신들 중, 딥러닝 머신1이 1-3주차 데이터를 학습하고, 딥러닝 머신2가 2-4주차 데이터를 학습하고, 딥러닝 머신3이 3-5주차 데이터를 학습하여, 상기 딥러닝 머신들이 학습하는 데이터를 중첩시키는 단계;
5주차 데이터들 중 관리자에 의해 이미 판단이 끝단 일부 데이터들을 이용하여 상기 딥러닝 머신들을 테스트하는 단계; 및
상기 테스트 결과를 이용하여 상기 딥러닝 머신들 각각에 대한 웨이트를 설정하는 단계를 포함하는 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법.
제 1 항에 있어서,
상기 웨이트가 각각 설정된 상기 딥러닝 머신들이 웹 트래픽 공격을 탐지하는 단계를 더 포함하는 웹 트래픽 학습을 위한 16진수 이미지 변환과 증분학습을 적용한 딥러닝 방법.