KR102221035B1

KR102221035B1 - 머신러닝 기반 산업기술 유출 예측 알고리즘과 이를 이용한 예측 시스템 및 방법

Info

Publication number: KR102221035B1
Application number: KR1020190062374A
Authority: KR
Inventors: 정화민
Original assignee: 타우데이타 주식회사
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2021-02-26
Also published as: KR20200136620A

Abstract

머신러닝 기반 산업기술 유출 예측 알고리즘과 이를 이용한 예측 시스템 및 방법이 제공된다. 유출 방지를 위한 agent 프로그램을 통해서 수집 가능한 데이터를 도출하고 데이터의 타당성, 신뢰성을 확보하고 시나리오 에 따른 유출 행위(Behavior) 기반 유출자 예측 및 분류하여 유출 행위, 위험도를 예측하여 산업기술 유출을 사전에 예방하는 행위 기반 산업유출방지 예측 플랫폼을 제시한다.

Description

머신러닝 기반 산업기술 유출 예측 알고리즘과 이를 이용한 예측 시스템 및 방법 { Prediction Algorithm for Industrial Technology Leakage Based on Machine Learning and its Prediction System and Method }

본 발명은 산업기술의 유출을 미리 예측하는 빅데이터, 머신러닝, 인공신경망 기반 알고리즘을 이용한 예측 시스템 및 그 방법에 관한 것으로서, 보다 상세하게는 산업기술 유출 데이터 수집 및 이상행위를 탐지하는 시나리오를 작성하여 머신러닝(Machine learning)을 통해 유의미한 이상행위 변수 도출방법을 스스로 학습하여 도출하도록 구성함으로써 완성도 있는 산업기술 유출 예측 시스템 및 방법을 제공하기 위한 것이다.

산업기술 유출의 행위 주체는 퇴사한 직원, 협력업체, 신규 입사자, 비인가자, 핵심인력 등이며 이러한 사람들이 첨단기술, 생산기술 등의 핵심기술 또는 계약서, 시험성적서 등 주요 문서등에 대하여 문서 복사, 출력, 스크린샷, 파일 열기, 파일 수정, 접근요청, 접근승인 등의 산업기술 유출행위를 함으로써 기업의 귀중한 자산이 침해되는 행위가 늘어나고 있다. 특히 최근에는 노하우, 아이디어, 도안 등의 지식재산의 중요도가 높아지면서 이러한 기업의 산업기술 유출을 미리 예측하고 고위험군을 선별하여 관리할 필요성이 대두되고 있다.

그러나 종래에는 산업기술이 유출된 이후에야 유출을 알 수 있었고 유출을 예측하는 알고리즘이 부재하였다.

전술한 문제점을 해결하기 위하여 본 발명이 이루고자 하는 기술적 과제는, 산업기술이 유출이 예측되는 시나리오 데이터를 수집하여 머신러닝 기반의 산업기술 유출 예측 알고리즘을 개발하여 이를 통한 기술 유출을 사전에 방지하여 기업의 귀중한 자산을 보호하고자 함에 있다.

본 발명의 해결과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 기술적 과제를 해결하기 위한 수단으로서, 본 발명의 실시예에 따르면, 기술유출 예측 시스템은, 산업기술 유출에 관한 전반적인 데이터를 수집하여 데이터 웨어하우스(Data Warehouse)를 구축하는 정보수집부; 상기 데이터 웨어하우스에서 데이터를 추출하고 머신러닝을 적용하기에 적당한 형태로 데이터를 전처리(pre-processing)하고 변환하는 정보분석부; 상기 정보분석부에서 변환된 데이터를 머신러닝 알고리즘(Machine learning algorithm)을 이용하여 이상행위 변수를 도출하고 유출 확률 분석을 통해 모델링을 완성하는 분석모형 생성부; 를 포함한다.

정보수집부는, 산업기술 유출 예측 알고리즘 개발을 위한 agent의 데이터 및 산업 기술 유출과 관련된 행위 주체, 행위 객체, 행위에 대한 전반적인 데이터를 수집하고 데이터마트(Data Mart)를 위한 데이터 웨어하우스를 구축하는 구축부;를 포함한다.

정보분석부는, 상기 데이터 웨어하우스에서 SQL을 통하여 데이터를 추출하고 머신러닝을 적용하기에 적당한 형태로 데이터를 전처리(pre-processing)하고 변환하는 변환부;를 포함한다.

생성부는, 산업기술의 유출 경로, 유출 행위, 행위 주체로 구분된 유출 가능자의 이상행위 탐지 시나리오를 작성하는 시나리오 작성부; 상기 머신러닝 알고리즘을 이용하여 변환된 데이터를 분석하여 분석 모형을 최종 결과로 도출하는 모델링부;를 포함한다. 여기서 머신러닝 알고리즘은, 유의미한 이상행위 변수도출, 시나리오에 기초한 유출행위를 독립변수로 한 종속변수인 산업기술 유출의 확률을 분석하고 Supervised Learning Algorithm을 비교하여 예측도가 우수한 모델링을 완성한 후 독립변수 별 유출행위의 확률을 예측 및 분석하는 것;을 특징으로 한다.

한편 본 발명의 다른 실시예에 따르면, 기술유출 예측 방법은 산업기술 유출에 관한 전반적인 데이터를 수집하여 데이터 웨어하우스(Data Warehouse)를 구축하는 정보수집단계; 상기 데이터 웨어하우스에서 데이터를 추출하고 머신러닝을 적용하기에 적당한 형태로 데이터를 전처리(pre-processing)하고 변환하는 정보분석단계; 상기 정보분석부에서 변환된 데이터를 머신러닝 알고리즘(Machine learning algorithm)을 이용하여 이상행위 변수를 도출하고 유출 확률 분석을 통해 모델링을 완성하는 분석 모형 생성단계;를 포함한다.

정보수집단계는, 산업기술 유출 예측 알고리즘 개발을 위한 agent의 데이터 및 산업 기술 유출과 관련된 행위 주체, 행위 객체, 행위에 대한 전반적인 데이터를 수집하고 데이터마트(Data Mart)를 위한 데이터 웨어하우스를 구축하는 구축단계;를 포함한다.

정보분석단계는, 상기 데이터 웨어하우스에서 SQL을 통하여 데이터를 추출하고 머신러닝을 적용하기에 적당한 형태로 데이터를 전처리(pre-processing)하고 변환하는 변환단계;를 포함한다.

생성단계는, 산업기술의 유출 경로, 유출 행위, 행위 주체로 구분된 유출 가능자의 이상행위 탐지 시나리오를 작성하는 시나리오 작성단계; 상기 머신러닝 알고리즘을 이용하여 변환된 데이터를 분석하여 분석 모형을 최종 결과로 도출하는 모델링단계;를 포함한다. 여기서 머신러닝 알고리즘은, 유의미한 이상행위 변수도출, 시나리오에 기초한 유출행위를 독립변수로 한 종속변수인 산업기술 유출의 확률을 분석하고 Supervised Learning Algorithm을 비교하여 예측도가 우수한 모델링을 완성한 후 독립변수 별 유출행위의 확률을 예측 및 분석하는 것;을 특징으로 한다.

또한 이러한 기술유출 예측 방법은 상기 분석 모형을 토대로 데이터 변수를 기반으로 추가적인 시계열 데이터를 확보하여 분석 모형을 정교화, 최적화 하는 최적화 단계; 모형 최적화를 통해 머신러닝 기반 분석 예측 정확도가 제일 높은 알고리즘을 지속적으로 도출하여 유출행위 예측을 고도화 하는 고도화 단계; 산업기술 유출 의심자를 특정지은 경우, GPS 트래킹을 통하여 위도 및 경도 데이터를 추적하는 예측자 트래킹 단계;를 더 포함할 수 있다.

본 발명에 따르면,

기업의 산업기술 유출로 인한 피해 발생을 미리 방지하고자 산업기술이 유출이 예측되는 시나리오 데이터를 수집하여 머신러닝 기반의 산업기술 유출 예측 알고리즘을 개발함으로써 이를 통한 기술 유출을 사전에 방지하여 기업의 귀중한 자산을 보호하는 데 있다.

구체적으로 기술적으로 산업기술 유출 관련 빅데이터 확보, 사전 유출 예방 및 예측 알고리즘 개발, 보안 플랫폼 구축을 가능토록 할 것이고, 사회적으로 산업기술을 보호함으로써 초연결 지능화 융합보안의 초석을 구축하고, 산업 측면에서 산업기술 보호 수준의 고도화로 인한 국내 주요 기업의 산업보안 경쟁력 확보하는데 있다.

도 1은 본 발명의 실시예에 의한 머신러닝 기반 산업기술 유출 예측 시스템의 구성도,
도 2는 본 발명의 실시예에 의해 구축된 산업기술 유출 분석 데이터 웨어하우스(Data Warehouse),
도 3은 도 1의 분석모형 생성부의 구성도,
도 4는 산업기술 유출 예측 알고리즘의 개발 순서도,
도 5는 본 발명의 실시예에 의한 머신러닝 기반 산업기술 유출 예측 방법의 순서도,
도 6은 도 5의 산업기술 유출 방지 예측 고도화 단계의 순서도이다.

이상의 본 발명의 목적들, 다른 목적들, 특징들 및 이점들은 첨부된 도면과 관련된 이하의 바람직한 실시 예들을 통해서 쉽게 이해될 것이다. 그러나 본 발명은 여기서 설명되는 실시 예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려 여기서 소개되는 실시 예들은 개시된 내용이 철저하고 완전해질 수 있도록, 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다.

본 명세서에서 제1, 제2 등의 용어가 구성요소들을 기술하기 위해서 사용된 경우, 이들 구성요소들이 이 같은 용어들에 의해서 한정되어서는 안 된다. 이들 용어들은 단지 어느 구성요소를 다른 구성요소와 구별시키기 위해서 사용되었을 뿐이다. 여기에 설명되고 예시되는 실시 예들은 그것의 상보적인 실시 예들도 포함한다.

또한, 어떤 엘리먼트, 구성요소, 장치, 또는 시스템이 프로그램 또는 소프트웨어로 이루어진 구성요소를 포함한다고 언급되는 경우, 명시적인 언급이 없더라도, 그 엘리먼트, 구성요소, 장치, 또는 시스템은 그 프로그램 또는 소프트웨어가 실행 또는 동작하는데 필요한 하드웨어(예를 들면, 메모리, CPU 등)나 다른 프로그램 또는 소프트웨어(예를 들면 운영체제나 하드웨어를 구동하는데 필요한 드라이버 등)를 포함하는 것으로 이해되어야 할 것이다.

또한 본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다(comprises)' 및/또는 '포함하는(comprising)'은 언급된 구성요소는 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

또한, 본 명세서에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함 만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.

아래의 특정 실시 예들을 기술하는 데 있어서, 여러 가지의 특정적인 내용들은 발명을 더 구체적으로 설명하고 이해를 돕기 위해 작성되었다. 하지만 본 발명을 이해할 수 있을 정도로 이 분야의 지식을 갖고 있는 독자는 이러한 여러 가지의 특정적인 내용이 없어도 사용될 수 있다는 것을 인지할 수 있다.

어떤 경우에는, 발명을 기술하는 데 있어서 흔히 알려졌으면서 발명과 크게 관련 없는 부분들은 본 발명을 설명하는 데 있어 별 이유 없이 혼돈이 오는 것을 막기 위해 기술하지 않음을 미리 언급 해둔다.

이하, 본 발명에서 실시하고자 하는 구체적인 기술 내용에 대해 첨부도면을 참조하여 상세하게 설명하기로 한다.

도 1은 본 발명의 실시예에 의한 머신러닝 기반 산업기술 유출 예측 시스템의 대략적인 구성을 나타낸 블록 구성도, 도 2는 본 발명의 실시예에 의해 구축된 산업기술 유출 분석 데이터 웨어하우스(Data Warehouse)이며, 도 3은 도 1의 구성 중 분석모형 생성부(130)의 구성도이다.

도 1을 참조하면, 기술유출 예측 시스템(100, 이하, 예측시스템)은 산업기술 유출 알고리즘 개발을 위한 데이터 웨어하우스(Data Warehouse, 시계열 데이터)를 구축하는 정보수집부(110), 데이터 웨어하우스에서 데이터를 추출하고 머신러닝을 적용하기에 적당한 형태로 데이터를 전처리(pre-processing)하여 변환하는 정보분석부(120), 데이터를 머신러닝 알고리즘을 통해 분석 모델링을 완성하는 분석모형 생성부(130)를 포함하고 있다. 본 발명에 따른 데이터 웨어하우스를 구축하는 형태에 대한 상세한 설명은 도 3을 참조하여 후술하기로 한다.

정보수집부(110)는, 산업기술 유출 예측 알고리즘 개발을 위해 agent의 데이터를 수집하고, DataMart를 위한 데이터 웨어하우스는 행위주체, 행위객체, 행위로 구분하여 저장하고, 인구통계적 특성을 추가하여 행위 주체별 이상행위 가능성을 판단할 수 있도록 한다. 이러한 데이터를 수집 및 분류하여 데이터 웨어하우스를 구축한다.

도 2을 참조하면, 산업기술 유출 분석 데이터 웨어하우스(Data Warehouse)는 퇴사직원, 협력업체, 신규입사자 등의 행위 주체, 첨단기술, 생산기술 등의 행위 객체, 문서 복사, 출력, 스크린샷 등의 행위 자체의 카테고리로 분류하고 있으며, 이에 더하여 인구통계적 특성은 ID, 연령, 직급, 소속그룹 등으로 분류하여 수집되어 있다.

정보분석부(120)는, 상기 데이터 웨어하우스에서 SQL을 통하여 데이터를 추출하고 데이터 전처리와 탐색 진행, 전문가 인터뷰, 산업기술 유출기업 사례 등 산업기술 유출과 관련된 행위 주체, 행위 객체, 행위 자체에 대한 전반적인 데이터를 수집하고 머신러닝을 적용하기 적당한 형태로 데이터를 전처리하고 변환한다.

도 3을 참조하면, 분석모형 생성부(130)는, 시나리오 작성부(131)에서 이상행위 시나리오를 작성하고, 이를 기초로 모델링부(132)에서 산업기술 유출 머신러닝 알고리즘을 적용하여 예측 및 분류에 최적화된 모델링을 완성한다.

여기서 시나리오 작성부(131)는, 상기의 단계에서 데이터 전처리와 탐색을 거친 후 사용하고자 하는 머신러닝 기법을 적용할 학습용 데이터, 검증용 데이터, 및 평가용 데이터를 분할하고 산업기술 유출 이상행위 시나리오를 작성한다. 데이터의 전처리는 [표 1]과 같은 순서로 시행될 수 있다.

① 결측치 및 이상치 처리
② 데이터 형태 변환, 수치가공
③ 데이터 정규화 및 표준화
④ 데이터 집계 및 요약

시나리오 작성부(131)는 더욱 구체적으로는 산업기술의 유출 경로, 유출 행위, 행위 주체로 구분하고 산업기술 유출 가능한 자의 이상 행위 탐지 시나리오를 작성하며, 데이터 웨어하우스 등에 축적되고 있는 기밀 파일 열기 횟수, 열람 시간, 접근 요청 등과 데이터와 조직 내 IT 부서 담당자 혹은 데이터 엔지니어 등 전문가 인터뷰(전문가 회의 진행)를 통한 유출 행위 사례 등 데이터를 추가로 확보하여, 유출 가능한 자의 이상 행위 탐지 데이터를 수집한다. 이와 같이 수집하는 데이터의 예시는 [표 2]와 같다.

1) 기밀문서파일 열기, 파일 열람 시간, 파일 접근 요청, 파일 접근 승인 등 데이터
2) 주 10회 이상의 산업 기밀 외부 저장매체 반출 승인자 탐지 데이터
3) 산업기밀 10개 이상 과다 보유자의 위험 그룹 설정 데이터
4) 기밀 및 보안 파일 등의 과다 행위 탐지 및 행위자 로그 데이터(접근 계정 이름, 컴퓨터 이름, 운영체제, 내외부 IP, 접송 일자, 사용자이름, ID 등)

다음으로 모델링부(132)는 산업기술 유출 방지 알고리즘을 개발하여, 이를 통한 이상행위 변수별 유출행위의 확률을 예측 분석한다.산업기술 유출의 객체가 유출 행위를 정량적으로 수집하여 제안된 알고리즘으로 유의미한 이상행위 변수를 도출한다(p<0.05).

머신러닝 알고리즘별 유의미한 이상행위 변수도출, 시나리오에 기초한 유출행위들을 독립변인으로한 종속변수인 산업기술 유출의 확률(0:미유출 / 1:유출)을 분석하고 Supervised Learning Algorithm(Binominal logistic regression, Decision Tree, Artificial Neural Network, Support Vector Machine, Random Forest)을 비교하여 예측도가 우수한 모델링을 완성 후 독립변수 별 유출행위의 확률을 예측 분석한다. Supervised Learning Algorithm의 R코딩 예시는 [표 3]과 같다.

1) Binomial Logistic Regression R 코딩
Industrial technology spill<- glm(outcome ~ Copy document + Document output + screenshot + File open count +
File viewing time + Edit file + User Location +
Password restrictions + File access request + File Access Authorization, security_data=dat, family="binomial")
summary(Industrial technology spill)

2) Decision Tree R 코딩
install.packages("rpart")
library(rpart)
Industrial technology spill <- ctree(cotcome ~ ., data = security_data)

3) 인공신경망 R 코딩
install.packages("nnet")
library(nnet)
security_data_train_scale<-as.data.frame(sapply(security_data_train[,-5], scale)) security_data_test_scale<-as.data.frame(sapply(security_data_test[,-5], scale))
security_data_train_scale$outcome<-security_data_train$outcome
security_data_test_scale$outcome<-security_data_test$outcome
nnet.result<-nnet(outcome ~., security_data_train_scale, size=3)
nnet.pred<-predict(nnet.result, security_data_test_scale, type="class")
table(nnet.pred, security_data_test$outcome)

4) Support Vector Machine R 코딩
install.packages("kernlab")
library(kernlab)
svm.result <- ksvm(outcome~ ., security_data_train_scale, kernel="rbfdot")
svm.pred <- predict(svm.result, security_data_test_scale, type="response")
table(svm.pred, iris_test$outcome)

5) Random Forest R 코딩
install.packages("randomForest")
library(randomForest)
set.seed(1)
rf.fit<-randomForest(medv~., data=security_data_train_scale, mtry=6, importance=T)
> rf.fit
> rf.yhat<-predict(rf.fit, newdata=security_data_test)
> mean((rf.yhat-security_data_test$medv)^2)

학습용 데이터로부터 데이터 타당성 검정을 위한 요인분석, 신뢰성 검정을 위한 신뢰도 검증(크론바하 알파값) 머신러닝 모델링 수행 예시는 [표 4]과 같다.

① Regresssion Analysis 모수에 대해 선형일 경우 선형회귀분석
모델링 공식 예)

② Decision Tree 자동으로 특성(Feature)을 선택해주므로, 많은 변수를 가진 수치예측 문제에 사용
모델링 공식 예)

③ Artificial Neural Network 선형회귀 및 로지스틱 회귀, 일반화 선형모형, 일반화 가법모형 등 다양한 통계분석 모형을 포함하는 통합적 모형
모델링 공식 예)

④ Random Forest 분류문제에서는 각 예측 분류 결과를 투표하여 과반수 이상인 분류결과를 최종결과로 도출함_앙상블 모형 등

또한, 데이터 타당성 검정, 신뢰도 검정 및 유의미한 이상행위 변수 도출에 관한 R코딩 예시는 [표 5]에 나타나 있다.

1) 데이터 타당성검정 R 코딩
> `Industrial technology spill <- factanal(security_data[,2:6],
factors = 2,
rotation = "varimax",
scores="regression")

2) 데이터 신뢰도 검정 R 코딩
cronbach.alpha(security_data, standardized = FALSE, CI = FALSE,
probs = c(0.025, 0.975), B = 1000, na.rm = FALSE)

3) 유의미한 이상행위 변수 도출 R 코딩
input <- security_data[,c("outcome", "Copy document", "Document output", " screenshot", "File open count", "File viewing time", "Edit file", "User Location", "Password restrictions", "File access request", "File Access Authorizationmpg")]
print(head(input))
model <- lm(outcome~ Copy document + Document output + screenshot + File open count + File viewing time + Edit file + User Location + Password restrictions + File access request + File Access Authorization, , data = input)
print(model)
summary(model)

Call: over Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05
# Signif 0.05 미만인 변수가 유의미한 변수로 choose

다음으로, 도 4는 산업기술 유출 예측 알고리즘의 개발 순서도이다. 도 4를 참조하면, 기술유출 예측 방법은 정보수집부(110)에서 데이터 웨어하우스를 구축(S100)하는 정보수집단계, 정보분석부(120)에서 데이터를 전처리하고 변환(S200)하는 정보분석단계, 생성부에서 머신러닝 알고리즘을 통해 모델링을 완성하는 분석모형 생성단계의 순서로 이루어지며, 상기 생성단계는 Supervised Learning Algorithm을 통해(S310) 유의미한 이상행위 변수를 도출(S320)하고, 유출행위의 확률분석으로 모델링을 완성(S330)한다. 또한 상기 Supervised Learning Algorithm(S310), 유의미한 이상행위 변수 도출(S320), 모델링 완성(S330)의 단계를 구체적으로 표현하면 Supervised Learning Algorithm(Binominal logistic regression, Decision Tree, Artificial Neural Network, Support Vector Machine, Random Forest)(S311)의 Prediction model을 각각 도출한 후(S321), 각 Prediction model을 비교하여 Accuracy 높은 순으로 선택한 이후 N차 유출행위 예측 최적화 모델링(S331)이 가능하다. 이러한 각 단계는 상기 기술유출 예측 시스템의 각 부에서 수행되는 것과 동일하게 수행되므로, 이에 대한 설명은 상기 시스템에 대한 설명으로 갈음한다. 도 5는 본 발명의 실시예에 의한 머신러닝 기반 산업기술 유출 예측 방법의 순서도, 도 6은 도 5의 산업기술 유출 방지 예측 고도화 단계의 순서도로서, 도 5를 참조하면 상기 분석 모형을 생성하는 생성단계(S300) 이후에는, 분석모형을 최적화하는 단계(S400), 예측 고도화하는 단계(S500), GPS 기반 유출행위 예측자를 트레킹하는 단계(S600)가 부가될 수 있다.

구체적으로, 분석모형을 최적화하는 단계(S400)는, 머신러닝 알고리즘을 통해 만들어진 분석 모형을 토대로 유의미한 데이터 레이블(변수)을 기반으로 추가 시계열 데이터를 확보하여 분석 모형을 정교화 한 후 분석예측모형을 최적화한다.

예측을 고도화하는 단계(S500)는, 상기 분석모형 최적화를 통하여 머신러닝 기반 분석 예측 정확도가 제일 높은 알고리즘을 지속적으로 도출하여 유출 행위 예측을 고도화한다.

유출행위 예측 고도화에 활용되는 용어는 [표 6]에 나타나 있다.

① 데이터 타당도(주성분분석 Factor Loading 값 , KMO값, F통계량): 신뢰도(Cronbach Alpha).
② 정확도 (accuracy): 계산식 (TP+TN) / (TP+TN+FP+FN) 실제 분류 범주를 정확하게 예측한 비율
③ 민감도 (sensitivity) = 참 긍정률 (TP Rate): 계산식 (TP) / (TP+FN) 실제로 '긍정(positive)'인 범주 중에서'긍정'으로 올바르게 예측 (True Positive)한 비율
④ 특이도 (specificity): 계산식 (TN) / (TN+FP) 실제로 '부정(negative)'인 범주 중에서'부정'으로 올바르게 예측 (True Negative)한 비율.

도 6을 참조하면, 이러한 예측 고도화하는 단계는 하기의 Clustering Analysis 단계(S502), Reporting 단계(S504)로 이루어진다. 여기에서 Clustering Analysis 단계(S502)는 산업기술 유출 방지의 알고리즘을 보다 정확하게 유추하기 위하여 자율학습의 Clustering 분석 방법을 이용하여 산업 기술 유출 행위가 가능한 패턴을 분석하여 유출행위 가능 군집을 분류한다(비 계층적 군집분석 K-평균(K-Means)). 또한 Reporting 단계(S504)는 유출 행위 가능 그룹별 Reporting 시스템 개발을 통해 운영자가 산업기술 유출 예정자를 행위기반으로 예측하고 Clustering 통하여 군집의 특성(군집 A는 유출 행위 고위험군, 군집 B는 유출 행위 저위험군으로 구분하고 각각의 군별 해당 행위자를 특정지을 수 있도록 개발하고 결과물이 리포팅 형태로 보고 및 출력이 가능하도록 Reporting System을 갖춘다. GPS에 기반하여 유출행위 예측자를 트레킹하는 단계(S600)는, 예를 들어 유출방지 플랫폼의 알고리즘을 통하여 산업기술 유출 의심자를 예측하고 (Binomial Logistic Regression 예: odds 1.5이상, 산업기술 유출예측 60%) 특정하는 유출행위 알림 모듈을 포함할 수 있고, 예측자 트레킹은 산업기술 유출 의심자를 특정지으면 App이용자의 GPS트래킹이 가능할 경우 위경도 데이터를 추적하는 트레킹 시스템을 개발할 수 있다. 또한 추가적으로, 산업기술 유출 방지 플랫폼 알고리즘과 산업기술 유출 의심자의 트래킹 정보를 병합하여 시스템으로 구현, 대쉬보드를 포함한 시각화 플랫폼 개발도 가능하다.

100 : 기술유출 예측 시스템
110 : 정보수집부 120 : 정보분석부
130 : 분석모형 생성부
131 : 시나리오 작성부 132 : 모델링부

Claims

기술유출 예측 시스템에 있어서,
산업기술 유출에 관한 데이터를 수집하여 데이터 웨어하우스(Data Warehouse)를 구축하는 정보수집부;
상기 데이터 웨어하우스에서 데이터를 추출하고 머신러닝을 적용하기 위한 형태로 데이터를 전처리(pre-processing)하고 변환하는 정보분석부;
상기 정보분석부에서 변환된 데이터를 머신러닝 알고리즘(Machine learning algorithm)을 이용하여 이상행위 변수를 도출하고 유출 확률 분석을 통해 모델링을 완성하는 분석모형 생성부;
를 포함하되,
상기 정보수집부는,
산업기술 유출 예측 알고리즘 개발을 위한 agent의 데이터를 수집하고, 행위 주체, 행위 객체, 행위로 구분하여 저장하고, 행위 주체 별 이상행위 가능성을 판단할 수 있도록 인구통계적 특성을 추가한 데이터를 수집 및 분류하여 데이터 마트(DataMark)를 위한 데이터 웨어하우스를 구축하는 구축부;
를 포함하고,
상기 정보분석부는,
상기 데이터 웨어하우스에서 SQL을 통하여 데이터를 추출하고 머신러닝을 적용하기 위해 데이터의 결측치 및 이상치 처리, 데이터 형태 변환 및 수치가공, 데이터의 정규화 및 표준화, 데이터의 집계 및 요약 등으로 전처리(pre-processing)하고 변환하는 변환부;
를 포함하며,
상기 생성부는,
산업기술의 유출 경로, 유출 행위, 행위 주체로 구분하고 산업기술 유출 가능한 자의 이상 행위 탐지 데이터를 수집하여 이상 행위 탐지 시나리오를 작성하는 시나리오 작성부; 및
상기 머신러닝 알고리즘을 이용하여 변환된 데이터를 분석하여 분석 모형을 최종 결과로 도출하는 모델링부;
를 포함하는 것을 특징으로 하는 기술유출 예측 시스템.
삭제
삭제
삭제
제1항에 있어서,
상기 머신러닝 알고리즘은,
유의미한 이상행위 변수를 도출하고, 시나리오에 기초한 유출행위를 독립변수로 한 종속변수인 산업기술 유출의 확률을 분석하여 Supervised Learning Algorithm을 비교하여 모델링을 완성한 후 독립변수 별 유출행위의 확률을 예측 및 분석하는 것;
을 특징으로 하는 기술유출 예측 시스템.
기술유출 예측 방법에 있어서,
정보수집부는 산업기술 유출에 관한 데이터를 수집하여 데이터 웨어하우스(Data Warehouse)를 구축하는 정보수집단계;
정보분석부는 상기 데이터 웨어하우스에서 데이터를 추출하고 머신러닝을 적용하기 위한 형태로 데이터를 전처리(pre-processing)하고 변환하는 정보분석단계;
분석모델 생성부는 상기 정보분석부에서 변환된 데이터를 머신러닝 알고리즘(Machine learning algorithm)을 이용하여 이상행위 변수를 도출하고 유출 확률 분석을 통해 모델링을 완성하는 분석 모형 생성단계;
분석모델 생성부는 상기 분석 모형을 토대로 데이터 변수를 기반으로 추가적인 시계열 데이터를 확보하여 분석 모형을 최적화 하는 최적화 단계;
분석모델 생성부는 분석 모형 최적화를 통해 머신러닝 기반 분석 예측 정확도가 제일 높은 알고리즘을 지속적으로 도출하여 유출행위 예측을 고도화 하는 고도화 단계; 및
분석모델 생성부는 산업기술 유출 의심자를 특정지은 경우, GPS 트래킹을 통하여 위도 및 경도 데이터를 추적하는 예측자 트래킹 단계;
를 포함하되,
상기 정보수집단계는,
상기 정보수집부는 산업기술 유출 예측 알고리즘 개발을 위한 agent의 데이터를 수집하고, 행위 주체, 행위 객체, 행위로 구분하여 저장하고, 행위 주체 별 이상행위 가능성을 판단할 수 있도록 인구통계적 특성을 추가한 데이터를 수집 및 분류하여 데이터 마트(DataMark)를 위한 데이터 웨어하우스를 구축하는 구축단계;
를 포함하고,
상기 정보분석단계는,
상기 정보분석부는 상기 데이터 웨어하우스에서 SQL을 통하여 데이터를 추출하고 머신러닝을 적용하기 위해 데이터의 결측치 및 이상치 처리, 데이터 형태 변환 및 수치가공, 데이터의 정규화 및 표준화, 데이터의 집계 및 요약 등으로 전처리(pre-processing)하고 변환하는 변환단계;
를 포함하며,
상기 생성단계는,
시나리오 작성부는 산업기술의 유출 경로, 유출 행위, 행위 주체로 구분하고 산업기술 유출 가능한 자의 이상 행위 탐지 데이터를 수집하여 이상 행위 탐지 시나리오를 작성하는 시나리오 작성단계; 및
모델링부는 상기 머신러닝 알고리즘을 이용하여 변환된 데이터를 분석하여 분석 모형을 최종 결과로 도출하는 모델링단계;
를 포함하는 것을 특징으로 하는 기술유출 예측 방법.
삭제
삭제
삭제
제6항에 있어서,
상기 머신러닝 알고리즘은,
유의미한 이상행위 변수를 도출하고, 시나리오에 기초한 유출행위를 독립변수로 한 종속변수인 산업기술 유출의 확률을 분석하여 Supervised Learning Algorithm을 비교하여 모델링을 완성한 후 독립변수 별 유출행위의 확률을 예측 및 분석하는 것;
을 특징으로 하는 기술유출 예측 방법.
삭제