KR102146116B1

KR102146116B1 - 오픈 소스 분석 도구를 활용한 기계학습 기반의 비정형 빅데이터 거버넌스 방법

Info

Publication number: KR102146116B1
Application number: KR1020200064369A
Authority: KR
Inventors: 유형록; 김재정
Original assignee: 주식회사 갑인정보기술
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-08-20

Abstract

분석 대상 스토리지에서 비정형 데이터를 수집하는 단계; 수집한 비정형 데이터를 분석하여 속성 정보 및 본문 내용을 추출하는 단계; 및 비정형 데이터의 속성 정보 및 본문 내용에 따라 비정형 데이터를 데이터베이스화하는 단계;를 포함하는, 오픈 소스 분석 도구를 활용한 기계학습 기반의 비정형 빅데이터 거버넌스 방법을 개시한다.

Description

오픈 소스 분석 도구를 활용한 기계학습 기반의 비정형 빅데이터 거버넌스 방법{A METHOD OF UNSTRUCTURED BIG DATA GOVERNANCE USING OPEN SOURCE ANALYSIS TOOL BASED ON MACHINE LEARNING}

본 발명은 오픈 소스 분석 도구를 활용한 기계학습 기반의 비정형 빅데이터 거버넌스 방법에 관한 것이다.

빅데이터(big data)는 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합을 말하며, 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 빅데이터 분석이라고 한다. 빅데이터라는 개념이 등장하기 이전에도 기업은 사용자 개인의 PC, 외장저장장치, NAS(Network-Attached Storage)등에 파일을 적재하고 필요시 접근하여 사용해 왔다.

하지만, 빅데이터가 대두되면서 기업은 막대한 양의 비정형 정보를 관리하고 통제해 가치있는 정보로 활용해야 하는 과제를 안게 되었다. 정형 정보는 데이터베이스의 형태로 이미 기업의 핵심 정보로 자리 잡고 있는 데다, 데이터 웨어하우스나 비즈니스 인텔리전스의 형태로 분석과 활용이 이루어지고 있다.

반면, 비정형 정보는 새로 생성되는 데이터의 90%를 넘는 비중을 차지하면서도 문서에서부터 멀티미디어 파일까지 관리/통제하기 쉽지 않은 형태로 IT 시스템의 곳곳에 저장되어 있는 것이 현실이다.

또한, 많은 비정형 정보는 다크 데이터(Dark Data) 상태로 방치되어 있다. 다크 데이터는 이미 비용을 들여 수집해 다양한 시스템과 스토리지에 저장되어 있지만, 당장 활용이나 분석하지 않는 것은 물론 심지어 액세스조차 하지 않는 데이터를 말한다. 다크 데이터는 공유 드라이브는 물론 셰어포인트와 같은 협업 툴, 이메일, 아카이브뿐만 아니라 문서를 관리하기 위한 ECM에도 산재해 있다.

가장 큰 문제는 잠재적인 정보인 다크 데이터를 그대로 두면 정보가 되지 못하는 것뿐만 아니라 여러 가지 위험을 유발한다는 것이고 다크 데이터는 제대로 통제되지 않기 때문에 유출의 위험성도 크고 의도치 않게 외부에 노출되어 규제를 위반하거나 평판을 떨어뜨리는 결과를 가져올 수 있으며, 비즈니스 관계에 악영향을 미치기도 한다.

즉, 비정형 데이터의 막대한 양, 고립성 등의 특성과 이를 대하는 사용자의 인식이 합쳐지면서 비정형 데이터에 대한 정보 거버넌스 환경을 구현하는 것이 어려운 실정이다.

본 발명의 일측면은 비정형 데이터의 속성 정보 및 본문 내용을 분석하여 데이터베이스화하는 오픈 소스 분석 도구를 활용한 기계학습 기반의 비정형 빅데이터 거버넌스 방법을 제공한다.

본 발명의 다른 측면은 기계 학습에 따라 유사한 비정형 데이터를 그룹화하여 제공하는 오픈 소스 분석 도구를 활용한 기계학습 기반의 비정형 빅데이터 거버넌스 방법을 제공한다.

본 발명의 또 다른 측면은 비정형 데이터를 분석하여 민감 정보를 포함하고 있는 데이터를 추출하고, 추출한 데이터가 따로 관리되도록 하는 기계학습 기반의 비정형 빅데이터 거버넌스 방법을 제공한다.

본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 측면에 따른 오픈 소스 분석 도구를 활용한 기계학습 기반의 비정형 빅데이터 거버넌스 방법은, 분석 대상 스토리지에서 비정형 데이터를 수집하는 단계; 수집한 비정형 데이터를 분석하여 속성 정보 및 본문 내용을 추출하는 단계; 및 비정형 데이터의 속성 정보 및 본문 내용에 따라 비정형 데이터를 데이터베이스화하는 단계;를 포함한다.

한편, 데이터베이스화 한 비정형 데이터를 관리자 단말에서 확인할 수 있도록 인터페이스를 생성하여 상기 관리자 단말로 출력하는 단계;를 더 포함하고,

상기 분석 대상 스토리지에서 비정형 데이터를 수집하는 단계는, 상기 분석 대상 스토리지에 접근하여 크롤링 방식으로 아래아 한글(hwp), 마이크로 소프트 워드(doc, docx), 파워포인트(ppt, pptx) 및 어도비 pdf(pdf) 중 어느 하나의 형태인 비정형 데이터를 수집하는 단계;를 포함하고,

상기 분석 대상 스토리지에서 비정형 데이터를 수집하는 단계는, 상기 분석 대상 스토리지를 포함하는 컴퓨터 시스템의 사용 패턴을 분석하고, 상기 컴퓨터 시스템의 사용 패턴에 따라 비정형 데이터의 수집 주기를 설정하는 단계;를 더 포함하고,

수집한 비정형 데이터를 분석하여 속성 정보 및 본문 내용을 추출하는 단계는, 오픈 소스 기반의 파일 속성 추출기인 아파치 티카(Apache Tika)를 이용하여 수집한 비정형 데이터에서 해시코드(MD5), 파일의 크기(Content-length), 파일의 유형(Content-type), 최종 작성자(Last-Author), 최초 생성일(Creation-date), 최종 수정일(Last-modified) 및 파일명(resourceName)을 포함하는 속성 정보 및 본문 내용을 추출하는 단계;를 포함하고,

비정형 데이터의 속성 정보 및 본문 내용에 따라 비정형 데이터를 데이터베이스화하는 단계는, 오픈 소스 기반의 검색 및 정보 분석 엔진인 엘라스틱 서치(Elastic Search)를 이용하여 수집한 비정형 데이터의 속성 정보를 색인(indexing) 처리하여 데이터베이스화하는 단계;를 포함하고,

비정형 데이터의 속성 정보 및 본문 내용에 따라 비정형 데이터를 데이터베이스화하는 단계는, 비정형 데이터를 저장한 데이터베이스에서 유사 데이터를 추출하여 그룹화하는 단계;를 더 포함하고,

비정형 데이터를 저장한 데이터베이스에서 유사 데이터를 추출하여 그룹화하는 단계는, 데이터베이스에서 현재 수집한 비정형 데이터와 동일한 해시코드(MD5)를 갖는 비정형 데이터를 유사 데이터로 추출하여 그룹화하는 단계; 및 데이터베이스에 저장되어 있는 비정형 데이터들을 텍스트마이닝 처리하여 각 비정형 데이터에 대한 군집 분석 데이터를 생성하고, 비정형 데이터들의 군집 데이터를 이용하여 군집 분석을 수행하는 비지도 기계 학습(unsupervised machine learning) 방법에 따라 데이터베이스에 저장된 비정형 데이터 중 유사한 비정형 데이터를 추출하여 그룹화하는 단계;를 포함하고,

비정형 데이터를 저장한 데이터베이스에서 유사 데이터를 추출하여 그룹화하는 단계는, 비정형 데이터의 그룹 별로 기준 데이터를 설정하는 단계;를 더 포함하고,

비정형 데이터의 그룹 별로 기준 데이터를 설정하는 단계는, 비정형 데이터의 그룹에서 속성 정보 중 최종 수정일이 가장 최근인 비정형 데이터를 기준 데이터로 설정하는 단계;를 포함하고,

비정형 데이터의 속성 정보 및 본문 내용에 따라 비정형 데이터를 데이터베이스화하는 단계는, 비정형 데이터에 대한 폐기, 복제, 백업, 아카이빙 및 보존 중 어느 하나의 추천 이벤트를 생성하는 단계;를 더 포함하고,

비정형 데이터에 추천 이벤트를 생성하는 단계는, 지도 기계 학습(supervised machine learning) 방법을 적용하여 비정형 데이터에 대한 추천 이벤트를 생성하는 단계; 및 지도 기계 학습에 의한 추천 이벤트 생성에 대하여 강화 학습(reinforcement learning)을 적용하는 단계;를 포함하고,

상기 지도 기계 학습 방법을 적용하여 비정형 데이터에 대한 추천 이벤트를 생성하는 단계는, 비정형 데이터에 대하여 관리자가 폐기, 복제, 백업, 아카이빙 및 보존 중 어느 하나의 이벤트를 발생한 경우, 해당 데이터의 속성 정보를 벡터 형태로 포함하고 있으며, 각각의 벡터에 대해 원하는 결과가 발생한 이벤트로 표시되어 있는 데이터를 학습한 딥러닝 모델을 구축하고, 상기 딥러닝 모델을 이용하여 비정형 데이터에 대한 추천 이벤트를 생성하는 단계;를 포함하고,

상기 지도 기계 학습에 의한 추천 이벤트 생성에 대하여 강화 학습을 적용하는 단계는, 상기 지도 기계 학습에 의해 생성된 추천 이벤트를 관리자가 발생시키는 경우, 해당 이벤트를 보상으로 하여 강화 학습을 수행하는 단계;를 포함하고,

비정형 데이터의 속성 정보 및 본문 내용에 따라 비정형 데이터를 데이터베이스화하는 단계는, 미리 정해진 주기마다 데이터베이스에 저장된 비정형 데이터 중 최종 수정일이 현재 날짜로부터 기 설정된 기간 이상인 비정형 데이터를 폐기 처리하는 방식으로 데이터베이스를 갱신하는 단계;를 더 포함하고,

데이터베이스화 한 비정형 데이터를 관리자 단말에서 확인할 수 있도록 인터페이스를 생성하여 상기 관리자 단말로 출력하는 단계는, 속성 정보로 비정형 데이터를 검색할 수 있는 인터페이스를 생성하여 상기 관리자 단말로 제공하는 단계; 및 관리자가 비정형 데이터를 검색하여 열람하는 경우, 해당 비정형 데이터에 대해 이벤트를 실행할 수 있는 인터페이스를 생성하여 상기 관리자 단말로 제공하는 단계;를 포함할 수 있다.

또한, 상기 수집한 비정형 데이터를 분석하여 속성 정보 및 본문 내용을 추출하는 단계는, 추출한 본문 내용에서 민감 정보를 검출하는 단계; 및 민감 정보가 검출되는 경우, 해당 비정형 데이터에 마킹 처리하는 단계;를 더 포함하고,

추출한 본문 내용에서 민감 정보를 검출하는 단계는, 주민등록번호 패턴, 계좌번호 패턴, 신용카드 번호 패턴 및 전화번호 패턴을 포함하는 민감 정보 패턴을 설정하고, 본문 내용에서 민감 정보 패턴에 해당하는 내용이 포함되는 경우, 해당 비정형 데이터에 민감 정보가 포함된 것으로 검출하는 단계; 인명, 기업명 및 기술명을 포함하는 민감 단어를 설정하고, 본문 내용에서 민감 단어에 해당하는 내용이 포함되는 경우, 해당 비정형 데이터에 민감 정보가 포함된 것으로 검출하는 단계; 상기 관리자 단말을 통해 입력되는 기준문서를 학습한 기계 학습 툴을 학습하여, 입력 데이터에 대하여 상기 기준문서와의 유사도 점수를 출력하는 딥러닝 모델을 구축하고, 비정형 데이터를 입력한 딥러닝 모델의 출력에 따른 유사도 점수가 기 설정된 점수 이상인 경우, 해당 비정형 데이터에 민감 정보가 포함된 것으로 검출하는 단계; 및 관리자의 개인 SNS 웹 페이지 및 뉴스 웹 페이지 중 최근 일자로부터 기 설정된 기간 이내에 작성된 웹 페이지 화면을 캡쳐하여 딥러닝 모델의 입력 데이터로 추출하고, 입력 데이터와의 유사도 점수를 출력하는 딥러닝 모델을 구축하며, 비정형 데이터를 입력한 딥러닝 모델의 출력에 따른 유사도 점수가 기 설정된 점수 이상인 경우, 해당 비정형 데이터에 민감 정보가 포함된 것으로 검출하는 단계;를 포함하고,

상기 민감 정보가 검출되는 경우, 해당 비정형 데이터에 마킹 처리하는 단계는, 비정형 데이터의 속성 정보에 민감 정보 태그를 추가하여, 해당 비정형 데이터가 민감 정보를 포함함을 마킹 처리하는 단계;를 포함하고,

상기 미리 정해진 주기마다 데이터베이스에 저장된 비정형 데이터 중 최종 수정일이 현재 날짜로부터 기 설정된 기간 이상인 비정형 데이터를 폐기 처리하는 방식으로 데이터베이스를 갱신하는 단계는, 폐기 처리 대상으로 선정된 비정형 데이터의 속성 정보에 민감 정보를 포함함을 마킹 처리가 되어 있는 경우, 해당 비정형 데이터를 임시 저장소로 이관하여 저장하는 단계; 상기 임시 저장소에 저장된 비정형 데이터에 대하여 관리자에게 이벤트 처리를 요청하는 단계; 및 관리자에게 이벤트 처리를 요청한 기간이 기 설정된 기간을 초과하는 경우, 해당 비정형 데이터를 폐기 처리하는 단계;를 포함할 수 있다.

상술한 본 발명의 일 측면에 따르면, 비정형 데이터를 관리 및 통제되는 데이터로 보여주어 다크 데이터로부터 유발되는 정보 소유의 위험성을 감소시킬 수 있으며, 스토리지 사용의 효율성을 향상시키고, 정보의 활용성을 높일 수 있다.

본 발명의 다른 측면에 따르면 기계 학습 엔진을 이용하여 유사한 데이터를 그룹화함으로써 기계적으로 유사한 데이터뿐만 아니라 내용적으로도 유사한 데이터를 추출하여 그룹화할 수 있다.

본 발명의 또 다른 측면에 따르면 민감 정보를 포함하는 데이터를 따로 관리함으로써, 빅데이터의 소유에 따른 위험성을 감소시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 장치의 개념도이다.
도 2는 본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 방법의 흐름도이다.
도 3 내지 도 6은 도 2에 도시된 각 단계의 세부 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계 및 동작은 하나 이상의 다른 구성요소, 단계 및 동작의 존재 또는 추가를 배제하지 않는다.

도 1은 본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 장치의 개념도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 장치(1)는 비정형 데이터 수집부(10), 비정형 데이터 분석부(20), 비정형 데이터 처리부(30) 및 결과 출력부(40)를 포함하여 비정형 데이터에 대한 정보 거버넌스 환경을 구축할 수 있다.

본 실시예에서 비정형 데이터는 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보를 의미하고, 일정한 규격이나 형태를 지닌 숫자 데이터와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른, 구조화되지 않은 데이터로, 예컨대, 아래아 한글(hwp), 마이크로 소프트 워드(doc, docx), 파워포인트(ppt, pptx), 어도비 pdf(pdf) 형태를 포함할 수 있다.

본 실시예에 따른 비정형 데이터의 거버넌스 장치(1)는 다크 데이터(Dark data) 상태로 방치되어 있는 비정형 데이터를 수집하고, 오픈 소스 기반의 기계학습 분석 툴을 이용하여 수집한 비정형 데이터를 분석하며, 데이터 분석 결과에 따라 수집한 데이터를 처리할 수 있다.

이와 같은 본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 장치(1)는 컴퓨터 시스템의 일 구성으로 포함되어, 컴퓨터 시스템에 저장되는 비정형 데이터를 수집할 수 있다. 예컨대, 컴퓨터 시스템은 정형 데이터 및 비정형 데이터를 저장하는 스토리지를 포함할 수 있다.

또는, 본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 장치(1)는 개방형 컴퓨터 네트워크에 참여하여, 분석 대상 스토리지에서 비정형 데이터를 수집할 수 있다. 예컨대, 개방형 컴퓨터 네트워크에는 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAS(Wide Area Network), PAN(Personal Area Network)등이 포함될 수 있으며, 인터넷의 경우, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(HyperText Transfer Protocol), FTP(File Transfer Protocol), NFS(Network File Service)를 포함할 수 있다.

또는, 본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 장치(1)는 컴퓨터 시스템의 각 제조사가 배포하는 비정형 데이터 접근 API를 통해 분석 대상 스토리지에서 비정형 데이터를 수집할 수 있다. 예컨대, 비정형 데이터 접근 API에는 Microsoft 사가 제공하는 쉐어 포인트(Share poing), EMC 사가 제공하는 Documentum 등을 포함할 수 있다.

본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 장치(1)는 관리자 단말을 통해 비정형 데이터의 처리 결과를 출력할 수 있다. 여기서, 관리자 단말은 외부장치와 유선 또는 무선 통신이 가능하고, 정보의 입력, 출력 및 처리가 가능한 전자 장치로, 본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 장치(1)의 분석 대상 스토리지에 접근할 수 있다.

이러한 본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 장치(1)의 각 구성은 통합 모듈로 형성되거나 하나 이상의 모듈로 이루어질 수 있다. 또는, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.

본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 장치(1)는 데이터 수집, 분석 및 처리 등을 위한 프로그램이 탑재된 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 장치(1)의 각 구성은 이러한 소프트웨어에 의해 제어될 수 있다.

이하, 도 1에 도시된 장치(1)의 각 구성에 대하여 구체적으로 설명하기로 한다.

비정형 데이터 수집부(10)는 분석 대상 스토리지에 접근하여 크롤링 방식으로 비정형 데이터를 수집할 수 있다. 여기서, 비정형 데이터는 문서 형태로, 아래아 한글(hwp), 마이크로 소프트 워드(doc, docx), 파워포인트(ppt, pptx) 및 어도비 pdf(pdf) 중 어느 하나의 형태인 것을 예로 들어 설명한다.

예를 들면, 비정형 데이터 수집부(10)는 분석 대상 스토리지와 네트워크로 연결되어 분석 대상 스토리지에서 비정형 데이터를 수집할 수 있다. 여기서, 네트워크는 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAS(Wide Area Network) 및 PAN(Personal Area Network) 중 어느 하나 이상의 형태를 포함할 수 있으며, 인터넷의 경우, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉, HTTP(HyperText Transfer Protocol), FTP(File Transfer Protocol), NFS(Network File Service)를 제공하는 개방형 컴퓨터 네트워크 구조를 포함할 수 있다.

또는, 비정형 데이터 수집부(10)는 분석 대상 스토리지를 탑재한 컴퓨터 시스템에 접근 가능한 저장 매체를 이용하여 분석 대상 스토리지에서 비정형 데이터를 수집할 수 있다. 이때, 저장 매체에는 하드디스크(hard disk drive), CD(compact disk), DVD(Digital Versatile Disc) 및 USB(Universal Serial Bus) 등이 포함될 수 있다.

또는, 비정형 데이터 수집부(10)는 분석 대상 스토리지에 대하여 접근 권한을 제공하는 API를 통해 분석 대상 스토리지에서 비정형 데이터를 수집할 수 있다. 이때, 접근 권한을 제공하는 API는 Microsoft 사의 Sharepoint, EMC 사의 Documentum 등을 포함할 수 있다.

비정형 데이터 수집부(10)는 위와 같은 3 가지 방식 중 적어도 하나 이상의 방식으로 분석 대상 스토리지로부터 비정형 데이터를 수집할 수 있다. 이때, 비정형 데이터 수집부(10)는 미리 정해진 주기에 따라 비정형 데이터를 수집할 수 있다.

여기에서, 비정형 데이터 수집부(10)는 컴퓨터 시스템의 사용 패턴을 분석하고, 컴퓨터 시스템의 사용 패턴에 따라 비정형 데이터의 수집 주기를 설정할 수 있다.

비정형 데이터 수집부(10)는 분석 대상 스토리지로부터 수집한 비정형 데이터를 데이터베이스화하여 저장할 수 있다.

예를 들면, 비정형 데이터 수집부(10)는 수집한 비정형 데이터에서 분석 대상 스토리지에서의 파일 저장 위치(URL), 파일 수집 시간 및 파일 크기의 각 항목 정보를 추출하고, 비정형 데이터를 각 항목 별로 검색 가능하도록 데이터베이스화하여 저장할 수 있다.

비정형 데이터 분석부(20)는 수집한 비정형 데이터를 분석하여 속성 정보 및 본문 내용을 추출할 수 있다.

비정형 데이터 분석부(20)는 오픈 소스 기반의 파일 속성 추출기인 아파치 티카(Apache Tika)를 이용하여 수집한 비정형 데이터에서 속성 정보 및 본문 내용을 추출할 수 있다. 아파치 티카는 문서 바이너리 파일을 감지하고 메타 데이터 및 본문 내용을 추출하는 툴로 널리 사용되고 있다. 여기서, 속성 정보에는 해시코드(MD5), 파일의 크기(Content-length), 파일의 유형(Content-type), 최종 작성자(Last-Author), 최초 생성일(Creation-date), 최종 수정일(Last-modified) 및 파일명(resourceName)을 포함할 수 있다.

또한, 비정형 데이터 분석부(20)는 추출한 본문 내용에서 민감 정보를 검출할 수 있으며, 민감 정보가 검출되는 경우, 해당 비정형 데이터에 마킹 처리할 수 있다.

비정형 데이터 분석부(20)는 관리자에 의해 설정되는 민감 정보 패턴을 이용하여 본문 내용에서 민감 정보를 검출할 수 있다. 여기서, 민감 정보 패턴에는 주민등록번호 패턴, 계좌번호 패턴, 신용카드 번호 패턴 및 전화번호 패턴 등이 포함될 수 있다. 비정형 데이터 분석부(20)는 본문 내용에서 민감 정보 패턴에 해당하는 내용이 포함되는 경우, 해당 비정형 데이터에 민감 정보가 포함된 것으로 판단할 수 있다.

비정형 데이터 분석부(20)는 관리자에 의해 설정되는 민감 단어를 이용하여 본문 내용에서 민감 정보를 검출할 수 있다. 여기서, 민감 단어에는 인명, 기업명, 기술명 등이 포함될 수 있다. 비정형 데이터 분석부(20)는 본문 내용에서 민감 단어에 해당하는 내용이 포함되는 경우, 해당 비정형 데이터에 민감 정보가 포함된 것으로 판단할 수 있다.

비정형 데이터 분석부(20)는 기준문서를 학습한 기계 학습 툴을 이용하여 본문 내용에서 민감 정보를 검출할 수 있다. 여기서, 기준문서는 관리자로부터 입력되는 문서로, 관리자가 지정한 민감 정보가 포함될 수 있다. 기계 학습 툴은 이러한 기준문서를 학습한 딥러닝 모델로, 입력 데이터에 대하여 기준문서와 유사도 점수를 출력할 수 있을 것이다. 이때, 입력 데이터는 본문 내용에 해당한다. 비정형 데이터 분석부(20)는 딥러닝 모델의 출력에 따른 유사도 점수가 기 설정된 점수 이상인 경우, 해당 비정형 데이터에 민감 정보가 포함된 것으로 판단할 수 있다.

비정형 데이터 분석부(20)는 관리자의 개인 SNS 웹 페이지, 최근 뉴스 웹 페이지 등을 학습한 기계 학습 툴을 이용하여 본문 내용에서 민감 정보를 검출할 수 있다. 이때, 비정형 데이터 분석부(20)는 관리자의 개인 SNS 웹 페이지 및 뉴스 웹 페이지 중 최근 일자로부터 기 설정된 기간 이내에 작성된 웹 페이지 화면을 캡쳐하여 상술한 딥러닝 모델의 입력 데이터로 추출할 수 있다. 즉, 비정형 데이터 분석부(20)는 관리자의 개인 SNS 웹 페이지 및 뉴스 웹 페이지를 학습한 딥러닝 모델의 출력에 따른 유사도 점수가 기 설정된 점수 이상인 경우, 해당 비정형 데이터에 민감 정보가 포함된 것으로 판단할 수 있다.

비정형 데이터 분석부(20)는 비정형 데이터에 민감 정보가 포함된 것으로 판단하는 경우, 해당 비정형 데이터의 속성 정보에 민감 정보 태그를 추가하여, 해당 비정형 데이터가 민감 정보를 포함함을 마킹 처리할 수 있다.

비정형 데이터 처리부(30)는 수집한 비정형 데이터의 속성 정보 및 본문 내용에 따라 유사 데이터를 추출하여 그룹화할 수 있다.

비정형 데이터 처리부(30)는 수집한 비정형 데이터의 속성 정보를 색인(indexing) 처리하여 데이터베이스화할 수 있다. 여기에서, 비정형 데이터 처리부(30)는 오픈 소스 기반의 검색 및 정보 분석 엔진인 엘라스틱 서치(Elastic Search)를 이용하여 수집한 비정형 데이터의 속성 정보를 색인 처리할 수 있다. 엘라스틱 서치는 Apache Kibana 및 Logstash와 연동하여 HTTP 웹 인터페이스와 스키마에서 자유로운 JSON문서와 함께 분산 멀티테넌트를 지원하는 전문 정보분석 엔진이다. 엘라스틱 서치는 다양한 상용문서를 분석하는데 사용할 수 있고, 가변 검색 및 실시간에 가까운 검색/분석을 지원한다.

비정형 데이터 처리부(30)는 비정형 데이터를 저장한 데이터베이스에서 유사 데이터를 추출하여 그룹화할 수 있다.

비정형 데이터 처리부(30)는 속성 정보 중 해시코드(MD5)를 이용하여 유사 데이터를 추출할 수 있다. 비정형 데이터 처리부(30)는 데이터베이스에서 현재 수집한 비정형 데이터와 동일한 해시코드(MD5)를 갖는 비정형 데이터를 유사 데이터로 추출하여 그룹화할 수 있다.

비정형 데이터 처리부(30)는 비지도 기계 학습(unsupervised machine learning) 방법을 적용하여 유사 데이터를 추출할 수 있다. 예를 들면, 비정형 데이터 처리부(30)는 데이터베이스에 저장되어 있는 비정형 데이터들을 텍스트마이닝 처리하여 각 비정형 데이터에 대한 군집 분석 데이터를 생성할 수 있다. 텍스트마이닝은 반정형 또는 비정형의 텍스트 데이터에 자연어 처리 기술을 적용하여 의미 있는 정보를 추출, 가공하는 기술이다. 자연어 처리(Natural Language Processing: NLP) 기술은 자연 언어 이해와 자연 언어 생성이 가능하도록 하는 기술로, 자연어 분석, 자연어 이해, 자연어 생성 등의 기술이 포함된다. 이때, 자연어 분석은 그 정도에 따라 형태소 분석(morphological analysis), 통사 분석(syntactic analysis), 의미 분석(semantic analysis) 및 화용 분석(pragmatic analysis)으로 이루어 질 수 있다. 비정형 데이터 처리부(30)는 비정형 데이터들의 군집 데이터를 이용하여 군집 분석을 수행할 수 있다. 군집 분석은 서로 유사한 정도에 따라 다수의 객체를 군집으로 나누는 작업으로, 가장 대표적인 비지도 기계 학습 방법 중 하나이다. 비정형 데이터 처리부(30)는 이러한 군집 분석을 통해 데이터베이스에 저장된 비정형 데이터 중 유사한 비정형 데이터를 추출하여 그룹화할 수 있다.

이처럼 비정형 데이터 처리부(30)는 데이터의 속성 정보뿐만 아니라 군집 분석을 통해 유사한 비정형 데이터를 그룹화함으로써, 기계적으로 유사한 데이터뿐만 아니라 내용적으로도 유사한 데이터를 추출하여 그룹화할 수 있다. 예컨대, 파일 작성자가 파일을 최초 작성한 이후, 내용의 일부를 수정하고 다른 이름으로 저장한 경우, 해당 파일에 대한 속성 정보로부터는 유사한 데이터로 추출할 수 없으나 군집 분석을 통해서는 유사한 데이터로 추출할 수 있을 것이다.

비정형 데이터 처리부(30)는 비정형 데이터의 그룹 별로 기준 데이터를 설정할 수 있다. 비정형 데이터 처리부(30)는 후술하는 결과 출력부(40)를 통해 비정형 데이터의 그룹을 관리자에게 제공할 수 있는데, 이때, 각 그룹 별 기준 데이터를 추천하여 줄 수 있다. 관리자는 각 그룹에서 기준 데이터만을 남겨두고 나머지 데이터들은 중복 데이터로 간주하여 폐기하는 이벤트를 발생시킬 수 있을 것이다.

비정형 데이터 처리부(30)는 속성 정보 중 최종 수정일에 따라 비정형 데이터의 그룹에서 기준 데이터를 설정할 수 있다. 비정형 데이터 처리부(30)는 비정형 데이터의 그룹에서 속성 정보 중 최종 수정일이 가장 최근인 비정형 데이터를 기준 데이터로 설정할 수 있다.

또한, 비정형 데이터 처리부(30)는 관리자에게 비정형 데이터에 대한 이벤트를 추천할 수 있다. 여기서, 이벤트는 비정형 데이터에 대한 폐기, 복제, 백업, 아카이빙, 보존 등의 처리를 포함할 수 있다.

비정형 데이터 처리부(30)는 지도 기계 학습(supervised machine learning) 방법을 적용하여 비정형 데이터에 대한 추천 이벤트를 출력할 수 있다. 비정형 데이터 처리부(30)는 비지도 기계 학습 방법의 특징인 데이터 간의 의존구조에 기반하는 한계점을 극복하기 위하여 지도 기계 학습 방법을 적용할 수 있다. 지도 기계 학습은 입력 데이터로부터 하나의 함수를 유추해내기 위한 기계학습의 한 방법으로, 훈련 데이터는 일반적으로 입력 데이터에 대한 속성을 벡터 형태로 포함하고 있으며, 각각의 벡터에 대해 원하는 결과가 무엇인지 표시되어 있다. 예컨대, 훈련 데이터는 비정형 데이터에 대하여 관리자가 폐기, 복제, 백업, 아카이빙, 보존 등의 이벤트를 발생한 경우, 해당 데이터의 파일명, 최초 생성일, 최종 수정일, 작성자 등의 속성 정보를 벡터 형태로 포함하고 있으며, 각각의 벡터에 대해 원하는 결과가 발생한 이벤트로 표시되어 있다. 비정형 데이터 분석부(20)는 이러한 훈련 데이터를 학습한 딥러닝 모델을 이용하여 비정형 데이터의 추천 이벤트를 추출할 수 있다.

비정형 데이터 처리부(30)는 지도 기계 학습에 의한 추천 이벤트 출력에 대하여 강화 학습(reinforcement learning)을 적용할 수 있다.

강화 학습은 지도/비지도 기계 학습에 이용되는 훈련 데이터 대신, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여 선택 가능한 행동들 중 보상을 최대화하는 행동 또는 행동 순서를 선택하는 방법이다. 강화 학습의 초점은 학습 과정에서의 성능이며, 이는 탐색과 이용의 균형을 맞춤으로써 제고된다.

비정형 데이터 처리부(30)는 지도 기계 학습에 의한 추천 이벤트를 관리자가 발생시키는 경우, 해당 이벤트를 보상으로 하여 강화 학습을 수행함으로써, 정확도를 향상시킬 수 있다.

비정형 데이터 처리부(30)는 미리 정해진 주기마다 비정형 데이터들을 저장한 데이터베이스를 갱신할 수 있다.

비정형 데이터 처리부(30)는 데이터베이스에 저장된 비정형 데이터들의 속성 정보 중 최종 수정일 정보를 이용하여 데이터베이스를 갱신할 수 있다. 예를 들면, 비정형 데이터 처리부(30)는 데이터베이스에 저장된 비정형 데이터 중 최종 수정일이 현재 날짜로부터 기 설정된 기간 이상인 경우, 해당 비정형 데이터를 폐기 처리할 수 있다.

한편, 비정형 데이터 처리부(30)는 폐기 처리 대상으로 선정된 비정형 데이터의 속성 정보에 민감 정보를 포함함을 마킹 처리가 되어 있는 경우, 해당 비정형 데이터를 임시 저장소로 이관하여 저장할 수 있다.

비정형 데이터 처리부(30)는 임시 저장소에 저장된 비정형 데이터에 대하여 관리자에게 이벤트 처리를 요청할 수 있다. 이때, 비정형 데이터 처리부(30)는 관리자에게 이벤트 처리를 요청한 기간이 기 설정된 기간을 초과하는 경우, 해당 비정형 데이터를 폐기 처리할 수 있다.

결과 출력부(40)는 비정형 데이터 처리부(30)에서 처리한 비정형 데이터들을 관리자 단말에서 확인할 수 있도록 인터페이스를 생성하여 관리자 단말로 제공할 수 있다.

결과 출력부(40)는 속성 정보로 비정형 데이터를 검색할 수 있는 인터페이스를 생성하여 관리자 단말로 제공할 수 있다. 즉, 결과 출력부(40)는 관리자에게 분석 대상 스토리지에 대한 인사이트를 제공할 수 있다. 관리자는 상기 속성 정보를 통해 원하는 비정형 데이터를 검색할 수 있을 것이다.

결과 출력부(40)는 관리자가 비정형 데이터를 검색하여 열람하는 경우, 비정형 데이터 처리부(30)에서 해당 비정형 데이터에 대하여 추출한 추천 이벤트를 확인하고, 이벤트를 실행할 수 있는 인터페이스를 생성하여 관리자 단말로 제공할 수 있다. 이때, 결과 출력부(40)는 비정형 데이터에 대하여 실행된 이벤트 또는 인터페이스를 통해 비정형 데이터에 대하여 추천 이벤트가 실행되는 경우, 추천 이벤트가 실행되었음을 비정형 데이터 처리부(30)로 알릴 수 있다. 비정형 데이터 처리부(30)는 이러한 알림을 통해 지도 학습 및 강화 학습을 실현할 수 있을 것이다.

한편, 도 2는 본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 방법의 흐름도이다.

본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 방법은 도 1에 도시된 장치(1)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 장치(1)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 비정형 데이터의 거버넌스 방법은, 분석 대상 스토리지에서 비정형 데이터 수집 단계(S100), 수집한 비정형 데이터를 분석하여 속성 정보 및 본문 내용을 추출하는 분석 단계(S200), 수집한 비정형 데이터의 속성 정보 및 본문 내용에 따라 비정형 데이터를 데이터베이스화하는 처리 단계(S400) 및 비정형 데이터를 관리자 단말에서 확인할 수 있도록 인터페이스를 생성하는 결과 출력 단계(S500)를 포함할 수 있다.

도 3 내지 도 6은 도 2에 도시된 각 단계의 세부 순서도이다.

도 3을 참조하면, 비정형 데이터 수집부(10)는 컴퓨터 시스템의 사용 패턴을 분석하여 컴퓨터 시스템의 사용 패턴에 따라 비정형 데이터의 수집 주기를 설정하고(S110), 비정형 데이터의 수집 주기에 도달하는 경우, 분석 대상 스토리지에 접근하여 크롤링 방식으로 비정형 데이터를 수집할 수 있다(S120).

도 4를 참조하면, 비정형 데이터 분석부(20)는 아파치 티카(Apache Tika)를 이용하여 수집한 비정형 데이터에서 속성 정보 및 본문 내용을 추출하고(S210), 추출한 본문 내용을 분석하여 민감 정보를 검출하며(S220), 민감 정보가 검출되는 경우, 해당 비정형 데이터에 마킹 처리할 수 있다(S230).

도 5를 참조하면, 비정형 데이터 처리부(30)는 수집한 비정형 데이터의 속성 정보를 색인(indexing) 처리하여 데이터베이스화하고(S310), 비정형 데이터를 저장한 데이터베이스에서 속성 정보 및 비지도 기계 학습을 이용하여 유사 데이터를 그룹화하며(S320), 비정형 데이터의 그룹 별로 기준 데이터를 설정하고(S330), 지도 기계 학습 및 강화 학습을 이용하여 비정형 데이터에 대한 추천 이벤트를 출력할 수 있다(S340).

도 6을 참조하면, 결과 출력부(40)는 속성 정보로 비정형 데이터를 검색할 수 있는 인터페이스를 생성하여 관리자 단말로 제공하고(S410), 비정형 데이터에 대한 추천 이벤트 열람 및 이벤트 실행을 위한 인터페이스를 생성하여 관리자 단말로 제공할 수 있다(S420).

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

1: 비정형 데이터의 거버넌스 장치
10: 비정형 데이터 수집부
20: 비정형 데이터 분석부
30: 비정형 데이터 처리부
40: 결과 출력부

Claims

분석 대상 스토리지에서 비정형 데이터를 수집하는 단계;
수집한 비정형 데이터를 분석하여 속성 정보 및 본문 내용을 추출하는 단계; 및
비정형 데이터의 속성 정보 및 본문 내용에 따라 비정형 데이터를 데이터베이스화하는 단계;를 포함하고,
데이터베이스화 한 비정형 데이터를 관리자 단말에서 확인할 수 있도록 인터페이스를 생성하여 상기 관리자 단말로 출력하는 단계;를 더 포함하고,
상기 분석 대상 스토리지에서 비정형 데이터를 수집하는 단계는,
상기 분석 대상 스토리지에 접근하여 크롤링 방식으로 아래아 한글(hwp), 마이크로 소프트 워드(doc, docx), 파워포인트(ppt, pptx) 및 어도비 pdf(pdf) 중 어느 하나의 형태인 비정형 데이터를 수집하는 단계;를 포함하고,
상기 분석 대상 스토리지에서 비정형 데이터를 수집하는 단계는,
상기 분석 대상 스토리지를 포함하는 컴퓨터 시스템의 사용 패턴을 분석하고, 상기 컴퓨터 시스템의 사용 패턴에 따라 비정형 데이터의 수집 주기를 설정하는 단계;를 더 포함하고,
수집한 비정형 데이터를 분석하여 속성 정보 및 본문 내용을 추출하는 단계는,
오픈 소스 기반의 파일 속성 추출기인 아파치 티카(Apache Tika)를 이용하여 수집한 비정형 데이터에서 해시코드(MD5), 파일의 크기(Content-length), 파일의 유형(Content-type), 최종 작성자(Last-Author), 최초 생성일(Creation-date), 최종 수정일(Last-modified) 및 파일명(resourceName)을 포함하는 속성 정보 및 본문 내용을 추출하는 단계;를 포함하고,
비정형 데이터의 속성 정보 및 본문 내용에 따라 비정형 데이터를 데이터베이스화하는 단계는,
오픈 소스 기반의 검색 및 정보 분석 엔진인 엘라스틱 서치(Elastic Search)를 이용하여 수집한 비정형 데이터의 속성 정보를 색인(indexing) 처리하여 데이터베이스화하는 단계;를 포함하고,
비정형 데이터의 속성 정보 및 본문 내용에 따라 비정형 데이터를 데이터베이스화하는 단계는,
비정형 데이터를 저장한 데이터베이스에서 유사 데이터를 추출하여 그룹화하는 단계;를 더 포함하고,
비정형 데이터를 저장한 데이터베이스에서 유사 데이터를 추출하여 그룹화하는 단계는,
데이터베이스에서 현재 수집한 비정형 데이터와 동일한 해시코드(MD5)를 갖는 비정형 데이터를 유사 데이터로 추출하여 그룹화하는 단계; 및
데이터베이스에 저장되어 있는 비정형 데이터들을 텍스트마이닝 처리하여 각 비정형 데이터에 대한 군집 분석 데이터를 생성하고, 비정형 데이터들의 군집 데이터를 이용하여 군집 분석을 수행하는 비지도 기계 학습(unsupervised machine learning) 방법에 따라 데이터베이스에 저장된 비정형 데이터 중 유사한 비정형 데이터를 추출하여 그룹화하는 단계;를 포함하고,
비정형 데이터를 저장한 데이터베이스에서 유사 데이터를 추출하여 그룹화하는 단계는,
비정형 데이터의 그룹 별로 기준 데이터를 설정하는 단계;를 더 포함하고,
비정형 데이터의 그룹 별로 기준 데이터를 설정하는 단계는,
비정형 데이터의 그룹에서 속성 정보 중 최종 수정일이 가장 최근인 비정형 데이터를 기준 데이터로 설정하는 단계;를 포함하고,
비정형 데이터의 속성 정보 및 본문 내용에 따라 비정형 데이터를 데이터베이스화하는 단계는,
비정형 데이터에 대한 폐기, 복제, 백업, 아카이빙 및 보존 중 어느 하나의 추천 이벤트를 생성하는 단계;를 더 포함하고,
비정형 데이터에 추천 이벤트를 생성하는 단계는,
지도 기계 학습(supervised machine learning) 방법을 적용하여 비정형 데이터에 대한 추천 이벤트를 생성하는 단계; 및
지도 기계 학습에 의한 추천 이벤트 생성에 대하여 강화 학습(reinforcement learning)을 적용하는 단계;를 포함하고,
상기 지도 기계 학습 방법을 적용하여 비정형 데이터에 대한 추천 이벤트를 생성하는 단계는,
비정형 데이터에 대하여 관리자가 폐기, 복제, 백업, 아카이빙 및 보존 중 어느 하나의 이벤트를 발생한 경우, 해당 데이터의 속성 정보를 벡터 형태로 포함하고 있으며, 각각의 벡터에 대해 원하는 결과가 발생한 이벤트로 표시되어 있는 데이터를 학습한 딥러닝 모델을 구축하고, 상기 딥러닝 모델을 이용하여 비정형 데이터에 대한 추천 이벤트를 생성하는 단계;를 포함하고,
상기 지도 기계 학습에 의한 추천 이벤트 생성에 대하여 강화 학습을 적용하는 단계는,
상기 지도 기계 학습에 의해 생성된 추천 이벤트를 관리자가 발생시키는 경우, 해당 이벤트를 보상으로 하여 강화 학습을 수행하는 단계;를 포함하고,
비정형 데이터의 속성 정보 및 본문 내용에 따라 비정형 데이터를 데이터베이스화하는 단계는,
미리 정해진 주기마다 데이터베이스에 저장된 비정형 데이터 중 최종 수정일이 현재 날짜로부터 기 설정된 기간 이상인 비정형 데이터를 폐기 처리하는 방식으로 데이터베이스를 갱신하는 단계;를 더 포함하고,
데이터베이스화 한 비정형 데이터를 관리자 단말에서 확인할 수 있도록 인터페이스를 생성하여 상기 관리자 단말로 출력하는 단계는,
속성 정보로 비정형 데이터를 검색할 수 있는 인터페이스를 생성하여 상기 관리자 단말로 제공하는 단계; 및
관리자가 비정형 데이터를 검색하여 열람하는 경우, 해당 비정형 데이터에 대해 이벤트를 실행할 수 있는 인터페이스를 생성하여 상기 관리자 단말로 제공하는 단계;를 포함하는, 오픈 소스 분석 도구를 활용한 기계학습 기반의 비정형 빅데이터 거버넌스 방법.
삭제