KR102619522B1

KR102619522B1 - 인공지능 기반의 기밀정보 유출 탐지 방법 및 장치

Info

Publication number: KR102619522B1
Application number: KR1020210165235A
Authority: KR
Inventors: 김근진; 김경민; 박성주
Original assignee: 주식회사 스파이스웨어
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2023-12-29
Also published as: KR20230077963A

Abstract

인공지능 기반의 기밀정보 유출 탐지 방법 및 장치가 제공된다. 상기 방법은, 파일 저장소를 통해 공유된 파일 내 기밀정보의 포함 여부를 판단하는 단계 및 상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 파일의 공유 경로를 탐지하는 단계를 포함한다.

Description

인공지능 기반의 기밀정보 유출 탐지 방법 및 장치{METHOD AND APPARATUS FOR DETECTING LEAKAGE OF CONFIDENTION INFORMATION BASED ON ARTIFICIAL INTELLIGENCE}

본 발명은 인공지능 기반의 기밀정보 유출 탐지 방법 및 장치에 관한 것이다.

개인정보란 개인에 관한 정보로서 성명, 주민등록번호, 주소 등 특정한 개인을 식별할 수 있는 정보를 말한다. 개인정보의 침해, 누설, 도용 등을 방지하기 위하여, 물리적 및 기술적 안전 조치가 요구된다.

한편, 코로나 19가 오랫동안 지속되면서 재택근무, 원격회의, 온라인 행사와 같은 비대면 활동이 늘어나고 있다. 이로 인해, 비대면 서비스를 위한 각종 기술과 솔루션들이 시장에서 각광 받고 있다. 특히, 클라우드 컴퓨팅을 기반으로 하는 파일 공유를 위한 솔루션들이 상용화되고 있다.

그러나, 파일 공유 솔루션의 대부분이 파일 내에 포함된 기밀정보가 쉽게 노출되는 문제점을 가진다. 즉, 기업에서 다루는 문서들에는 개인의 신원을 파악하는 용도의 개인정보뿐만 아니라 기업의 영업정보까지 다수 포함되어 공유되게 되는데, 이로 인해, 개인정보의 주체인 개인은 물론 영업정보로 인해 기업까지 피해를 받는 사례들이 증가하고 있다.

따라서, 개인정보가 포함된 파일이 공유된 경우에, 해당 파일에 대한 공유 경로를 파악하기 위한 방안이 필요하다.

공개특허공보 제10-2016-0089295호, 2016.07.27.

본 발명이 해결하고자 하는 과제는 인공지능 기반의 기밀정보 유출 탐지 방법 및 장치를 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또 다른 과제들이 존재할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 인공지능 기반의 기밀정보 유출 탐지 방법은, 파일 저장소를 통해 공유된 파일 내 기밀정보의 포함 여부를 판단하는 단계 및 상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 파일의 공유 경로를 탐지하는 단계를 포함하고, 상기 기밀정보는 개인정보 및 영업정보 중 적어도 하나를 포함하며, 상기 판단 단계는, 개인정보 문장 및 문맥 탐지를 위한 제1 모델 및 개인정보 이미지 탐지를 위한 제2 모델 중 적어도 하나를 이용하여 상기 파일 내 상기 개인정보의 포함 여부를 판단하고, 영업정보 문장 탐지를 위한 제3 모델 및 영업정보 이미지 탐지를 위한 제4 모델 중 적어도 하나를 이용하여 상기 파일 내 상기 영업정보의 포함 여부를 판단한다.

또한, 상기 제1 모델은, 상기 파일에 포함된 텍스트에 대해 단어 단위로 개체 명 인식을 수행한 결과와, 문장 단위로 문장 민감 여부를 탐지한 결과를 취합하여, 상기 파일 내 개인정보에 해당하는 문장을 탐지하는 것일 수 있다.

또한, 상기 제2 모델은, 상기 파일에 포함된 이미지에 대해 이미지 내 개인정보 추출기를 적용하여, 상기 파일 내 개인정보 위치를 탐지하는 것일 수 있다.

또한, 상기 제3 모델은, 상기 파일에 포함된 텍스트에 대해 문장 단위로 기 공유된 파일과 유사도를 산출하고, 상기 산출된 유사도 중에서 기 설정된 기준값보다 큰 유사도만 추출하여 평균을 산출하고, 산출된 평균값을 기초로 상기 파일 내 영업정보에 해당하는 문장을 탐지하는 것일 수 있다.

또한, 상기 제4 모델은, 상기 파일에 포함된 이미지에 대해 특징 추출기를 이용하여 기 공유된 파일과 비교하고, 비교된 결과를 기초로 상기 파일 내 기밀 정보에 해당하는 영역을 탐지하는 것일 수 있다.

또한, 상기 판단 단계 이전에, 상기 파일이 파일 저장소를 통해 공유되면, 상기 파일의 포맷을 구분하고, 상기 구분된 포맷에 따라 상기 파일을 파싱하는 단계를 더 포함할 수 있다.

또한, 상기 제1 모델, 상기 제2 모델, 상기 제3 모델 및 상기 제4 모델 중 적어도 하나는, 상기 파싱된 결과 및 상기 판단된 결과에 기초하여 업데이트될 수 있다.

또한, 상기 제1 학습모델, 상기 제2 학습모델, 상기 제3 학습모델 및 상기 제4 학습모델 중 적어도 하나는, 상기 파일을 공유한 사용자의 종류 별로 상기 파싱된 결과 및 상기 판단된 결과를 분류하여 업데이트될 수 있다.

또한, 상기 탐지 단계는, 상기 기밀정보가 포함된 파일의 공유 현황 기록을 추출하여 관리자 단말로 전송하는 것이고, 상기 공유 현황 기록은, 상기 파일의 업로더, SNS 종류, 채널, 업로드 시간, 파일명, 기밀정보 포함 여부 중 적어도 하나를 포함할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 인공지능 기반의 기밀정보 유출 탐지 장치는, 통신부, 인공지능 기반으로 파일 저장소를 통해 공유된 파일의 공유 경로를 탐지하기 위한 적어도 하나의 프로세스를 저장하고 있는 메모리 및 상기 프로세스에 따라 동작하는 프로세서를 포함하고, 상기 프로세서는, 상기 프로세스를 기반으로, 상기 파일 내 기밀정보의 포함 여부를 판단하고, 상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 파일의 공유 경로를 탐지하고, 상기 기밀정보는 개인정보 및 영업정보 중 적어도 하나를 포함하며, 상기 프로세서가, 상기 판단 시에, 개인정보 문장 및 문맥 탐지를 위한 제1 모델 및 개인정보 이미지 탐지를 위한 제2 모델 중 적어도 하나를 이용하여 상기 파일 내 상기 개인정보의 포함 여부를 판단하고, 영업정보 문장 탐지를 위한 제3 모델 및 영업정보 이미지 탐지를 위한 제4 모델 중 적어도 하나를 이용하여 상기 파일 내 상기 영업정보의 포함 여부 판단한다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

상술한 본 발명에 의하면, 파일 저장소 상 파일 공유 현황을 모니터링함으로써 공유된 파일 내 기밀정보의 포함 여부를 실시간 또는 주기적으로 확인할 수 있고, 기밀정보가 포함된 파일에 대한 공유 경로를 확인함으로써 해당 파일에 대한 2차 공유를 방지할 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명에 따른 인공지능 기반의 기밀정보 유출 탐지 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 유출 탐지 서버의 개략적인 구성도이다.
도 3은 본 발명에 따른 인공지능 기반의 기밀정보 유출 탐지 방법의 순서도이다.
도 4는 본 발명에 따른 기밀정보 탐지를 위한 제1 학습 모델을 설명하기 위한 도면이다.
도 5는 본 발명에 따른 기밀정보 탐지를 위한 제2 학습 모델을 설명하기 위한 도면이다.
도 6은 본 발명에 따른 기밀정보 탐지를 위한 제3 학습 모델을 설명하기 위한 도면이다.
도 7은 본 발명에 따른 기밀정보 탐지를 위한 제4 학습 모델을 설명하기 위한 도면이다.
도 8은 본 발명에 따른 인공지능 기반의 기밀정보 유출 탐지 장치의 개략적인 구성도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하에서 도 1 및 도 2를 참조하여, 파일 저장소를 통해 공유되는 파일을 모니터링하여 기밀정보가 포함된 파일에 대한 유출 경로를 탐지하는 수행하는 시스템에 대해서 상세하게 설명하도록 한다.

도 1은 본 발명에 따른 인공지능 기반의 기밀정보 유출 탐지 시스템을 설명하기 위한 도면이다.

도 2는 도 1의 시스템에 포함된 유출 탐지 서버의 개략적인 구성도이다.

도 1을 참조하면, 본 발명의 시스템(1)은 유출 탐지 서버(10), 사용자 단말(20), 파일 저장소30) 및 관리자 단말(40)을 포함할 수 있다. 다만, 몇몇 실시예에서 시스템(1)은 도 1에 도시된 구성요소보다 더 적은 수의 구성요소나 더 많은 구성요소를 포함할 수도 있다.

유출 탐지 서버(10)는 파일의 공유 현황을 모니터링하고 파일 내의 기밀정보 포함 여부를 판단하고, 기밀정보가 포함된 파일의 유출을 탐지하는 서비스를 제공하는 업체의 서버일 수 있다.

유출 탐지 서버(10)는 파일 저장소(30)를 통해 공유되는 파일 중 기밀정보가 포함된 파일에 대한 공유 경로를 파악하여 해당 파일의 공유자에게 소명을 지시함으로서, 기밀정보가 포함된 파일의 무차별한 공유를 통한 기밀정보의 유출을 막을 수 있다.

사용자 단말(20)은 상기 유출 탐지 서버(10)가 제공하는 서비스를 이용하는 가입자의 단말일 수 있다. 보다 상세하게, 사용자 단말(20)은 상기 유출 탐지 서버(10)가 제공하는 서비스를 이용하는 기업에 속한 직원의 단말일 수 있다.

사용자는 사용자 단말(20)을 이용하여 파일 저장소(30)에 파일을 공유할 수 있다. 또한, 사용자는 사용자 단말(20)을 이용하여 파일 저장소(30)에 공유된 파일을 열람할 수 있다.

사용자 단말(20)은 휴대폰, 스마트폰, PDA(Personal Digital Assistant), PMP(Portable Multimedia Player), 태블릿 PC, 데스크탑, 랩탑 등과 같이 네트워크를 통하여 유출 탐지 서버(10) 또는 파일 저장소(30)와 연결될 수 있고, 카메라를 구비하며, 화면을 통해 다양한 정보의 입출력이 가능한 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치일 수 있다.

실시예에 따라, 파일 저장소(30)는 데이터 스토리지를 서비스로서 관리하고 운영하는 클라우드 컴퓨팅 공급자를 통해 데이터를 인터넷에 저장하는 클라우드 컴퓨팅 모델일 수 있다. 개인 또는 단체는 클라우드 스토리지 용량을 제공자로부터 구매 또는 임대하여 개인 또는 단체의 데이터나 애플리케이션의 데이터를 저장할 수 있다. 파일 저장소(30)는 상용화된 모든 종류의 파일 공유 서비스 플랫폼을 포함할 수 있다.

실시예에 따라, 파일 저장소(30)는 동일한 그룹(회사)에 속한 사용자 간의 의사소통과 정보 공유를 위한 온라인 플랫폼일 수 있다. 개인 또는 단체는 클라우드 스토리지 용량을 제공자로부터 구매 또는 임대하여 개인 또는 단체의 데이터나 애플리케이션의 데이터를 저장할 수 있다. 파일 저장소(30)는 상용화된 모든 종류의 소셜 네트워크 서비스 플랫폼을 포함할 수 있다.

관리자 단말(40)은 상기 유출 탐지 서버(10)에 의한 서비스 제공 상황 및 결과를 관리하고 후속 조치를 수행하는 상기 서비스 관리자의 단말일 수 있다.

관리자 단말(40)은 휴대폰, 스마트폰, PDA(Personal Digital Assistant), PMP(Portable Multimedia Player), 태블릿 PC, 데스크탑, 랩탑 등과 같이 네트워크를 통하여 유출 탐지 서버(10) 또는 사용자 단말(20)과 연결될 수 있고, 카메라를 구비하며, 화면을 통해 다양한 정보의 입출력이 가능한 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치일 수 있다.

도 2를 참조하면, 유출 탐지 서버(10)는 접근 프록시 모듈(11), 클라우드 감시 모듈(12), 데이터 분류 및 생성 모듈(13), 인공지능 모듈(14) 및 파일 정보 추출 모듈(15)을 포함할 수 있다. 다만, 몇몇 실시예에서 유출 탐지 서버(10)는 도 2에 도시된 구성요소보다 더 적은 수의 구성요소나 더 많은 구성요소를 포함할 수도 있다.

접근 프록시 모듈(11)은 사용자 단말(20)의 파일 저장소(30)로의 접근을 중계하는 역할을 한다. 즉, 사용자 단말(20)은 파일 저장소(30)에 접근하려면 상기 접근 프록시 모듈(11)을 거쳐야 한다.

실시예에 따라, 사용자 단말(20)이 접근 프록시 모듈(11)을 통하지 않고 파일 저장소(30)에 접근하는 경우, 유출 탐지 서버(10) 또는 파일 저장소(30)는 사용자 단말(20)로 경고 메시지를 보낼 수 있다.

클라우드 감시 모듈(12)은 파일 저장소(30)에 새롭게 공유된 파일을 실시간 또는 주기적으로 모니터링하는 역할을 한다.

클라우드 감시 모듈(12)은 새롭게 공유된 파일의 정보를 추출할 수 있다. 여기서, 정보는 파일, 시간, url, 업로더를 포함할 수 있으며, 이에 제한되는 것은 아니다.

데이터 분류 및 생성 모듈(13)은 파일 저장소(30)에 공유된 파일의 포맷을 구분하고, 상기 구분된 포맷에 따라 상기 파일을 파싱하는 역할을 한다.

보다 상세하게, 파일은 바디(body)와 헤더(header)로 나뉘는데, 데이터 분류 및 생성 모듈(13)은 헤더의 앞의 특정 개수의 hex값을 이용하여 파일의 포맷을 구분할 수 있다. 예를 들어, JPEG 파일의 경우, hex값이 "FF D8 FF E0″일 수 있다. 즉, 데이터 분류 및 생성 모듈(13)은 새롭게 공유된 파일의 hex값이 "FF D8 FF E0″이면, 해당 파일의 타입이 JPEG 파일임을 알 수 있다.

인공지능 모듈(14)은 인공지능 기반의 학습모델을 이용하여 파일 내 기밀정보의 포함 여부를 판단하는 역할을 한다.

인공지능 모듈(14)은 하나 이상의 코어로 구성될 수 있으며, 컴퓨팅 장치의 중앙 처리 장치(CPU: central processing unit), 범용 그래픽 처리 장치 (GPGPU: general purpose graphics processing unit), 텐서 처리 장치(TPU: tensor processing unit) 등의 데이터 분석, 딥러닝을 위한 프로세서를 포함할 수 있다. 인공지능 모듈(14)은 메모리에 저장된 컴퓨터 프로그램을 판독하여 본 발명의 일 실시예에 따른 기계 학습을 위한 데이터 처리를 수행할 수 있다. 본 발명의 일실시예에 따라 인공지능 모듈(14)은 신경망의 학습을 위한 연산을 수행할 수 있다. 인공지능 모듈(14)은 딥러닝(DL: deep learning)에서 학습을 위한 입력 데이터의 처리, 입력 데이터에서의 피처 추출, 오차 계산, 역전파(backpropagation)를 이용한 신경망의 가중치 업데이트 등의 신경망의 학습을 위한 계산을 수행할 수 있다. 인공지능 모듈(14)의 CPU, GPGPU, 및 TPU 중 적어도 하나가 네트워크 함수의 학습을 처리할 수 있다. 예를 들어, CPU 와 GPGPU가 함께 네트워크 함수의 학습, 네트워크 함수를 이용한 데이터 분류를 처리할 수 있다. 또한, 본 발명의 일 실시예에서 복수의 컴퓨팅 장치의 프로세서를 함께 사용하여 네트워크 함수의 학습, 네트워크 함수를 이용한 데이터 분류를 처리할 수 있다. 또한, 본 발명의 일 실시예에 따른 컴퓨팅 장치에서 수행되는 컴퓨터 프로그램은, CPU, GPGPU 또는 TPU 실행가능 프로그램일 수 있다.

본 발명의 '학습모델'은 인공지능을 기반으로 하는 학습모델로서, 다양한 인공지능 알고리즘을 기반으로 학습될 수 있다. 예를 들어, CNN, DNN, RNN, KNN, 서포트 벡터 머신(SVM) 등과 같이 학습을 위한 알고리즘은 모두 적용 가능하다.

파일 정보 추출 모듈(15)은 파일 공유 현황 기록을 추출하는 역할을 한다. 여기서, 상기 공유 현황 기록은, 상기 파일의 업로더, SNS 종류, 채널, 업로드 시간, 파일명, 기밀정보 포함 여부 중 적어도 하나를 포함할 수 있다.

파일 정보 추출 모듈(15)은 대시보드 형태로 기밀정보가 포함된 파일의 공유 현황 기록을 파악하고, 이를 관리자 페이지로 구축하여 상기 관리자 단말(40)로 제공할 수 있다. 이때, 이상 공유 기록과 관련된 로그 기록은 정상적인 공유 기록과는 상이한 방식으로 표시되어 제공될 수 있다. 예를 들어, 색상에 있어서 차이를 줄 수 있다.

도 2에 도시된 웹 관리 콘솔(web management console)은 관리자가 관리자 단말을 통해 파일 저장소(30) 내 공유 현황을 확인할 수 있도록 하는 역할을 한다.

이하에서는 도 3 내지 도 7을 참조하여, 상기 유출 탐지 서버(10)가 소셜 네트워크 서비스(SNS)를 통해 공유되는 파일을 모니터링하여 기밀정보가 포함된 파일에 대한 유출 경로를 탐지하는 방법에 대해서 상세하게 설명하도록 한다.

도 3은 본 발명에 따른 인공지능 기반의 기밀정보 유출 탐지 방법의 순서도이다.

도 4는 본 발명에 따른 기밀정보 탐지를 위한 제1 학습 모델을 설명하기 위한 도면이다.

도 5는 본 발명에 따른 기밀정보 탐지를 위한 제2 학습 모델을 설명하기 위한 도면이다.

도 6은 본 발명에 따른 기밀정보 탐지를 위한 제3 학습 모델을 설명하기 위한 도면이다.

도 7은 본 발명에 따른 기밀정보 탐지를 위한 제4 학습 모델을 설명하기 위한 도면이다.

도 3을 참조하면, 상기 유출 탐지 서버(10)의 인공지능 모듈(14)은 파일 저장소(30)에 공유된 파일 내 기밀정보의 포함 여부를 판단할 수 있다(S110).

여기서, 파일은 텍스트 파일일 수 있고, 이미지 파일일 수 있고, 또는 텍스트가 포함된 이미지 파일일 수 있고, 또는 텍스트와 이미지가 개별적으로 포함된 파일일 수 있다.

여기서, 기밀정보는 개인정보 및 영업정보 중 적어도 하나를 포함할 수 있다. 개인정보는 기업의 직원 또는 고객을 식별할 수 있는 개인 신상과 관련된 모든 정보를 포함할 수 있다. 영업정보는 기업의 운영과 관련된 모든 정보를 포함할 수 있으며, 보다 상세하게, 영업정보는 각 기업에서 보안등급 내 모든 문서를 의미할 수 있다.

즉, 공유된 파일 내에는 개인정보만 포함될 수도 있고, 영업정보만 포함될 수도 있으며, 개인정보와 영업정보가 모두 포함될 수도 있다.

먼저, 파일 내에서 상기 기밀정보 중 개인정보에 해당하는 정보를 탐지하는 방법을 설명하도록 한다.

단계 S110에서, 인공지능 모듈(14)은 개인정보 문장 및 문맥 탐지를 위한 제1 학습모델 및 개인정보 이미지 탐지를 위한 제2 학습모델 중 적어도 하나를 이용하여 상기 파일 내의 상기 개인정보 포함 여부를 판단할 수 있다.

상기 제1 학습모델은, 상기 파일에 포함된 텍스트에 대해 단어 단위로 개체명 인식을 수행한 결과와, 문장 단위로 문장 민감 여부를 탐지한 결과를 취합하여, 상기 파일 내 개인정보에 해당하는 문장을 탐지할 수 있다.

도 4를 참조하면, 인공지능 모듈(14)은 상기 제1 학습모델을 통해 상기 텍스트를 토큰화(tokenization)할 수 있다. 즉, 인공지능 모듈(14)은 텍스트 파일에 대해 문장 토큰화(Sentence Tokenization) 또는 단어 토큰화(Word Tokenization)하여 상기 텍스트 파일에 대한 전처리를 수행할 수 있다.

그런 다음, 인공지능 모듈(14)은 제1 학습모델을 통해 상기 전처리된 텍스트를 연산이 가능한 실수형 벡터(dense representation)로 변환할 수 있다(embedding vector).

그런 다음, 인공지능 모듈(14)은 제1 학습모델을 통해 상기 실수형 벡터로 변환된 텍스트에 대해 단어 단위로 개체명 인식을 수행할 수 있다. 제1 학습모델은 개인정보를 개체로 인식하도록 학습되어 상기 텍스트에 포함된 개인정보에 대한 개체명 인식을 수행할 수 있다. 인공지능 모듈(14)은 CRF layer를 이용하여 텍스트에 대한 제약 조건을 적용하여 텍스트의 문장의 순서가 무질서하게 예측되는 것을 방지할 수 있다.

또한, 인공지능 모듈(14)은 제1 학습모델을 통해 상기 실수형 벡터로 변환된 텍스트에 대해 문장 단위로 문장 민감 여부를 탐지할 수 있다. 제1 학습모델은 단어 간 상관관계를 학습하여 상기 텍스트에 포함된 각각의 문장이 개인정보가 포함된 민감 문장인지 개인정보가 포함되지 않은 일반 문장인지를 구분할 수 있다. 예를 들어, “저는 여의도동에 사는 홍길동입니다.”라는 문장에 대해서 제1 학습모델은 “여의도동”과 “홍길동” 사이의 상관관계(지역-이름, 즉 해당 이름의 사람이 해당 지역에 사는 것을 유추할 수 있음)에 따라 해당 문장이 민감 문장임을 예측할 수 있다. 반면에, “오늘 강원도 해수욕장에 10만 인파가 몰렸습니다.”라는 문장에 대해서 제1 학습모델은 “강원도”와 상관관계가 있는 단어가 없으므로 해당 문장이 일반 문장임을 예측할 수 있다. 인공지능 모듈(14)은 sentence classifier를 이용하여 민감 문장은 1, 일반 문장은 0으로 분류할 수 있다.

이와 같이, 제1 모델은 개체명 인식 결과와 문장 민감 여부 탐지 결과를 취합하여 기밀정보에 포함된 개인정보를 탐지함으로써, 개체명 인식을 통해 놓칠 수 있는 부분을 문장 민감 여부 탐지를 통해 보완하고, 반대로 문장 민감 여부 탐지를 통해 놓칠 수 있는 부분을 개체명 인식을 통해 보완함으로써, 제1 모델의 예측 성능을 개선할 수 있다.

상기 제2 학습모델은, 상기 파일에 포함된 이미지에 대해 이미지 내 개인정보 추출기를 적용하여, 상기 파일 내 개인정보 위치를 탐지할 수 있다.

도 5를 참조하면, 인공지능 모듈(14)은 상기 제2 학습모델을 통해 상기 이미지 내의 개인정보를 탐지할 수 있다. 제2 학습모델은 딥러닝 기반의 face detector 및 privacy detector in image를 활용하여 이미지 내에서 개인정보(예를 들어, 얼굴)를 탐지할 수 있다. 구체적으로, 인공지능 모듈(14)은 제2 학습모델을 통해 이미지 내에서 얼굴 영역을 탐지하고, 탐지된 얼굴 영역에서 눈, 코, 입, 윤곽 등의 특징점들의 위치를 탐지할 수 있다. 제2 학습모델은 CNN U-net 구조의 히트맵(heatmap)을 산출하여 위치화(localization)를 통해 특징점의 위치를 판정할 수 있다.

인공지능 모듈(14)은 영업정보 문장 탐지를 위한 제3 학습모델 및 영업정보 이미지 탐지를 위한 제4 학습모델 중 적어도 하나를 이용하여 상기 파일 내의 상기 영업정보 포함 여부를 판단할 수 있다.

상기 제3 학습모델은, 상기 파일에 포함된 텍스트에 대해 문장 단위로 기 공유된 파일과 유사도를 산출하고, 상기 산출된 유사도 중에서 기 설정된 제1 기준값보다 큰 유사도만 추출하여 평균을 산출하고, 산출된 평균값을 기초로 상기 파일 내 영업정보에 해당하는 문장을 탐지할 수 있다. 여기서, 기 공유된 파일은 상기 서비스의 시스템에 한번이라도 거쳐갔던(예를 들어, 이전에 이미 공유된 적이 있거나, 또는 공유되어 기밀정보 암호화가 수행됐던) 모든 파일을 의미할 수 있다.

도 6을 참조하면, 인공지능 모듈(14)은 상기 제3 학습모델을 통해 상기 텍스트를 토큰화(tokenization)할 수 있다. 즉, 인공지능 모듈(14)은 텍스트 파일에 대해 문장 토큰화(Sentence Tokenization) 또는 단어 토큰화(Word Tokenization)하여 상기 텍스트 파일에 대한 전처리를 수행할 수 있다.

그런 다음, 인공지능 모듈(14)은 제3 학습모델을 통해 상기 전처리된 텍스트를 연산이 가능한 실수형 벡터(dense representation)로 변환할 수 있다(embedding vector).

그런 다음, 인공지능 모듈(14)은 제3 학습모델을 통해 입력 텍스트(문서 1)의 각각의 문장(문장 1, 문장 2, 문장 3…)과, 상기 기 공유된 파일(문서 2)의 각각의 문자(문장 1, 문장 2, 문장 3…)을 비교하여 각각의 유사도를 산출할 수 있다. 보다 상세하게, 문서 1의 문장 1을 문서 2의 문장 1, 문장 2, 문장 3 각각와 비교하여 유사도를 산출하고, 문서 1의 문장 2를 문서 2의 문장 1, 문장 2, 문장 3 각각와 비교하여 유사도를 산출하고, 문서 1의 문장 3를 문서 2의 문장 1, 문장 2, 문장 3 각각와 비교하여 유사도를 산출할 수 있다. 이렇게 산출된 총 9개의 유사도 중 상기 제1 기준값보다 작은 유사도를 갖는 문장에 대해선 같은 문장이 아닌 것으로 판단하여 제외하고, 상기 제1 기준값보다 큰 유사도를 갖는 문장에 대해서만 유사도 평균 산정하여 최종 유사도를 산출할 수 있다. 그리고, 산출된 최종 유사도가 기 설정된 제2 기준값보다 크면, 해당 파일은 기 공유된 파일와 유사(동일)한 것으로 판단하여 해당 파일 내 기밀정보가 포함된 것으로 판단할 수 있다(유사도가 높은 문장이 기밀정보가 포함된 문장임).

상기 제4 학습모델은, 상기 파일에 포함된 이미지에 대해 특징 추출기를 이용하여 기 공유된 파일과 비교하고, 비교된 결과를 기초로 상기 파일 내 기밀 정보에 해당하는 영역을 탐지할 수 있다. 여기서, 제4 학습모델은 특징 추출기로서 스케일 불변 특징 변환(SIFT, Scale Invariant Feature Transform), 샴 네트워크(Siamese network)를 이용할 수 있으며, 이에 제한되지 않고 인공지능 기반의 알고리즘이라면 상기 특징 추출기로서 이용될 수 있다.

도 7을 참조하면, 인공지능 모듈(14)은 상기 제4 학습모델을 통해 상기 이미지를 위치화(localization)할 수 있다. 보다 상세하게, 제4 학습모델은 입력 이미지와 기 공유된 이미지를 비교하여 각 이미지 내에서 유사한 이미지의 위치를 탐지할 수 있다. 예를 들어, 입력 이미지는 복잡한 이미지가 아닌 도형 및 글로 이루어져 있으므로 제4 학습모델은 특징 추출기(예를 들어, SIFT)에 기반하여 위치화를 수행할 수 있다. 이와 같이 유사한 이미지를 탐지하여 다음 단계 수행을 위한 후보로 선정할 수 있다.

그런 다음, 인공지능 모듈(14)은 상기 제4 학습모델을 통해 상기 후보로 선정된 이미지의 특징을 추출하여 유사도를 평가할 수 있다. 파일 A(입력 이미지)와 파일 B(기 공유된 이미지)에서 탐지된 유사한 이미지에 대해 특징을 추출하고, 이들의 유사도를 산출할 수 있다. 산출된 유사도가 1에 가까울수록 두 이미지가 유사함을 의미할 수 있다. 산출된 유사도가 기 설정된 제3 기준값보다 크면, 해당 파일은 기 공유된 파일와 유사(동일)한 것으로 판단하여 해당 파일 내 기밀정보가 포함된 것으로 판단할 수 있다(유사도가 높은 이미지의 위치가 기밀정보가 포함된 영역임).

다시 도 3을 참조하면, 상기 유출 탐지 서버(10)의 파일 정보 추출 모듈(15)은 상기 파일의 공유 경로를 탐지할 수 있다(S120).

즉, 파일 정보 추출 모듈(15)은 기밀정보가 포함된 파일의 공유 현황 기록을 추출하여, 이상 공유 기록을 파악하고, 해당 파일에 대한 공유 경로를 탐지할 수 있다. 이와 같이, 파일 정보 추출 모듈(15)은 실시간 또는 주기적으로 공유 기록을 모니터링하여 권한이 없는 공간에 파일이 공유되었을 경우, 경고 알림을 관리자 단말(40)로 전송하고, 관리자 단말(40)이 이상 공유자에게 소명을 요구하도록 할 수 있다.

한편, 도 3에 도시하지는 않았지만, 본 발명은, 상기 단계 S110 이전에, 상기 파일이 파일 저장소(30)에 공유되면, 상기 파일의 포맷을 구분하고, 상기 구분된 포맷에 따라 상기 파일을 파싱하는 단계를 더 포함할 수 있다. 이는 상기에서 데이터 분류 및 생성 모듈(13)과 관련하여 설명한 바와 중복되므로 상세한 설명은 생략한다. 이와 같이, 파일의 포맷에 따라 파싱함으로써 인공지능 모듈(14)이 파일의 포맷에 맞는 예측 알고리즘을 적용하도록 하여 효율적인 기밀정보 탐지가 가능하다.

상기 제1 학습모델, 상기 제2 학습모델, 상기 제3 학습모델 및 상기 제4 학습모델 중 적어도 하나는 상기 파싱된 결과 및 상기 판단된 결과에 기초하여 업데이트될 수 있다. 즉, 상기 제1 학습모델, 상기 제2 학습모델, 상기 제3 학습모델 및 상기 제4 학습모델 중 적어도 하나는 공유 파일의 타입의 특징값(파싱된 결과)과 해당 파일에 포함된 기밀 정보의 특징값(판단된 결과)를 학습함으로써 예측 성능을 개선할 수 있다.

실시예에 따라, 상기 제1 학습모델, 상기 제2 학습모델, 상기 제3 학습모델 및 상기 제4 학습모델 중 적어도 하나는 상기 파일을 공유한 사용자의 종류 별로 상기 파싱된 결과 및 상기 판단된 결과를 분류하여 업데이트될 수 있다. 상기 유출 탐지 서비스를 사용하는 사용자들은 다양한 산업으로 분류될 수 있으며, 각 산업 별로 공유되는 파일의 타입 및 해당 파일에 포함되는 기밀 정보의 종류와 형태가 다를 수 있다. 따라서, 본 발명의 학습모델은 사용자들에 의해 공유되는 파일에 대해서 각 사용자들이 속한 산업 별로 해당 파일의 타입의 특징값(파싱된 결과)과 해당 파일에 포함된 기밀 정보의 특징값(판단된 결과)를 학습함으로써, 각 산업 분류마다 특화된 모델로 업데이트될 수 있다. 이에 따라, 본 발명의 학습모델은 보다 세부적인 예측이 가능하다.

도 3은 단계 S110 및 단계 S120을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 3에 기재된 순서를 변경하여 실행하거나 단계 S110 및 단계 S120를 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 3은 시계열적인 순서로 한정되는 것은 아니다.

한편, 상술한 설명에서, 단계 S110 및 단계 S120은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 후술하는 도 8의 내용은 도 1 내지 도 7를 참조하여 설명한 인공지능 기반의 기밀정보 유출 탐지 방법에도 적용될 수 있다.

이하에서는 도 8을 참조하여, 본 발명에 따른 인공지능 기반의 기밀정보 유출 탐지 장치(200)를 설명하도록 한다. 본 발명의 유출 탐지 장치(200)는 상술한 유출 탐지 방법을 수행하는 장치일 수 있다.

도 8은 본 발명에 따른 인공지능 기반의 기밀정보 유출 탐지 장치의 개략적인 구성도이다.

도 8을 참조하면, 유출 탐지 장치(200)는 통신부(210), 메모리(220) 및 프로세서(230)를 포함한다.

통신부(210)은 외부 장치 또는 외부 서버로부터 예측용 입력 데이터를 수신할 수 있다. 여기서, 외부 장치 또는 외부 서버는 사용자 단말(20) 또는 파일 저장소(30)일 수 있지만, 이에 제한되는 것은 아니다. 예측용 입력 데이터는 파일 저장소(30)에 공유된 파일을 의미할 수 있다.

본 발명의 유출 탐지 장치(200)의 통신부(210)는 통신망을 통해서 외부 장치 또는 외부 서버로부터 기밀정보를 탐지하고 공유 경로를 탐지하기 위한 각종 데이터를 수신할 수 있다.

여기서, 통신망은 다양한 형태의 통신망이 이용될 수 있으며, 예컨대, WLAN(Wireless LAN), 와이파이(Wi-Fi), 와이브로(Wibro), 와이맥스(Wimax), HSDPA(High Speed Downlink Packet Access) 등의 무선 통신방식 또는 이더넷(Ethernet), xDSL(ADSL, VDSL), HFC(Hybrid Fiber Coax), FTTC(Fiber to The Curb), FTTH(Fiber To The Home) 등의 유선 통신방식이 이용될 수 있다.

한편, 통신망은 상기에 제시된 통신방식에 한정되는 것은 아니며, 상술한 통신방식 이외에도 기타 널리 공지되었거나 향후 개발될 모든 형태의 통신 방식을 포함할 수 있다.

메모리(220)에는 인공지능 기반으로 파일 저장소(30)를 통해 공유된 파일의 공유 경로를 탐지하기 위한 적어도 하나의 프로세스가 저장된다.

프로세서(230)는 유출 탐지 장치(200)를 제어하기 위한 전반적인 기능 및 기계학습과 연관된 각종 동작을 수행할 수 있다. 예를 들어, 프로세서(230)는 메모리(220)에 저장된 프로그램들을 실행함으로써 유출 탐지 장치(200)를 제어하기 위한 전반적인 기능 및 기계학습과 연관된 각종 동작을 수행할 수 있다. 프로세서(230)는 유출 탐지 장치(200) 내에 구비된 CPU(Central Processing Unit), GPU(Graphic Processing Unit), DSP(Digital Signal Processor), NPU(Neural Processing Unit) 또는 AP(Application Processor) 등으로 구현될 수 있으나, 이에 제한되지 않는다.

보다 상세하게, 프로세서(230)는 메모리(220)에 저장된 프로세스를 실행시킨다. 프로세서(230)는 메모리(220)에 저장된 프로세스를 실행시킴에 따라, 상기 SNS(30)에 공유된 파일(예측용 입력 데이터) 내 기밀정보의 포함 여부를 판단하고, 상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 파일의 공유 경로를 탐지하고, 상기 기밀정보는 개인정보 및 영업정보 중 적어도 하나를 포함할 수 있다.

또한, 상기 프로세서(230)는 개인정보 문장 및 문맥 탐지를 위한 제1 모델 및 개인정보 이미지 탐지를 위한 제2 모델 중 적어도 하나를 이용하여 상기 파일 내 상기 개인정보의 포함 여부를 판단할 수 있다.

상기 프로세서(230)는 영업정보 문장 탐지를 위한 제3 모델 및 영업정보 이미지 탐지를 위한 제4 모델 중 적어도 하나를 이용하여 상기 파일 내 상기 영업정보의 포함 여부를 판단할 수 있다.

도 8을 참조하여 설명한 장치(200)는 상술한 유출 탐지 시스템의 유출 탐지 서버(20)로서 제공될 수 있다.

이상에서 전술한 본 발명에 따른 인공지능 기반의 기밀정보 유출 탐지 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 컴퓨터 판독가능 기록 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

1: 시스템
10: 유출 탐지 서버
11: 접근 프록시 모듈
12: 클라우드 감시 모듈
13: 데이터 분류 및 생성 모듈
14: 인공지능 모듈
15: 파일 정보 추출 모듈
20: 사용자 단말
30: 파일 저장소
40: 관리자 단말
200: 유출 탐지 장치
210: 통신부
220: 메모리
230: 프로세서

Claims

장치에 의해 수행되는 방법에 있어서,
파일 저장소를 통해 공유된 파일 내 기밀정보의 포함 여부를 판단하는 단계; 및
상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 파일의 공유 경로를 탐지하는 단계; 를 포함하고,
상기 기밀정보는 개인정보 및 영업정보 중 적어도 하나를 포함하며,
상기 판단 단계는,
개인정보 문장 및 문맥 탐지를 위한 제1 모델 및 개인정보 이미지 탐지를 위한 제2 모델 중 적어도 하나를 이용하여 상기 파일 내 상기 개인정보의 포함 여부를 판단하고,
영업정보 문장 탐지를 위한 제3 모델 및 영업정보 이미지 탐지를 위한 제4 모델 중 적어도 하나를 이용하여 상기 파일 내 상기 영업정보의 포함 여부를 판단하되,
상기 제1 모델은, CRF layer를 이용하여 텍스트에 대한 제약 조건을 적용한 후, 상기 파일에 포함된 텍스트에 대해 단어 단위로 개체 명 인식을 수행한 결과와, 문장 단위로 문장 민감 여부를 탐지한 결과를 취합하여, 상기 파일 내 개인정보에 해당하는 문장을 탐지하고,
상기 제2 모델은, 딥러닝 기반의 face detector 및 privacy detector in image를 활용하여 상기 파일에 포함된 이미지에 대해 이미지 내 개인정보 추출기를 적용한 후, 상기 파일 내 개인정보 위치를 탐지하고,
상기 제3 모델은, 상기 파일에 포함된 텍스트에 대해 문장 단위로 이전에 이미 공유된 적이 있거나, 또는 공유되어 기밀정보 암호화가 수행됐던 파일에 상응하는 기 공유된 파일과 유사도를 산출하고, 상기 산출된 유사도 중에서 기 설정된 기준값보다 큰 유사도만 추출하여 평균을 산출하고, 산출된 평균값을 기초로 상기 파일 내 영업정보에 해당하는 문장을 탐지하고,
상기 제4 모델은, 상기 파일에 포함된 이미지에 대해 스케일 불변 특징 변환(SIFT, Scale Invariant Feature Transform), 샴 네트워크(Siamese network) 기반의 특징 추출기를 이용하여 상기 기 공유된 파일과 비교하고, 상기 비교된 결과를 기초로 상기 파일 내 기밀 정보에 해당하는 영역을 탐지하고,
상기 탐지 단계는,
상기 기밀정보가 포함된 파일의 공유 현황 기록을 추출하여 관리자 단말로 전송하고,
상기 공유 현황 기록은, 상기 파일의 업로더, SNS 종류, 채널, 업로드 시간, 파일명, 기밀정보 포함 여부를 포함하는 것을 특징으로 하는, 인공지능 기반의 기밀정보 유출 탐지 방법.
삭제
삭제
삭제
삭제
제1 항에 있어서,
상기 판단 단계 이전에,
상기 파일이 파일 저장소를 통해 공유되면, 상기 파일의 포맷을 구분하고, 상기 구분된 포맷에 따라 상기 파일을 파싱하는 단계;를 더 포함하는, 인공지능 기반의 기밀정보 유출 탐지 방법.
제6 항에 있어서,
상기 제1 모델, 상기 제2 모델, 상기 제3 모델 및 상기 제4 모델 중 적어도 하나는, 상기 파싱된 결과 및 상기 판단된 결과에 기초하여 업데이트되는, 인공지능 기반의 기밀정보 유출 탐지 방법.
제7 항에 있어서,
상기 제1 모델, 상기 제2 모델, 상기 제3 모델 및 상기 제4 모델 중 적어도 하나는, 상기 파일을 공유한 사용자의 종류 별로 상기 파싱된 결과 및 상기 판단된 결과를 분류하여 업데이트되는, 인공지능 기반의 기밀정보 유출 탐지 방법.
삭제
컴퓨터와 결합되어, 제1항, 제6항 내지 제8항 중 어느 한 항의 방법을 실행하기 위해 컴퓨터 판독가능 기록 매체에 저장된 프로그램.
통신부;
인공지능 기반으로 파일 저장소를 통해 공유된 파일의 공유 경로를 탐지하기 위한 적어도 하나의 프로세스를 저장하고 있는 메모리; 및
상기 프로세스에 따라 동작하는 프로세서; 를 포함하고,
상기 프로세서는, 상기 프로세스를 기반으로,
상기 파일 내 기밀정보의 포함 여부를 판단하고,
상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 파일의 공유 경로를 탐지하고,
상기 기밀정보는 개인정보 및 영업정보 중 적어도 하나를 포함하며,
상기 프로세서가, 상기 판단 시에,
개인정보 문장 및 문맥 탐지를 위한 제1 모델 및 개인정보 이미지 탐지를 위한 제2 모델 중 적어도 하나를 이용하여 상기 파일 내 상기 개인정보의 포함 여부를 판단하고,
영업정보 문장 탐지를 위한 제3 모델 및 영업정보 이미지 탐지를 위한 제4 모델 중 적어도 하나를 이용하여 상기 파일 내 상기 영업정보의 포함 여부를 판단하되,
상기 제1 모델은, CRF layer를 이용하여 텍스트에 대한 제약 조건을 적용한 후, 상기 파일에 포함된 텍스트에 대해 단어 단위로 개체 명 인식을 수행한 결과와, 문장 단위로 문장 민감 여부를 탐지한 결과를 취합하여, 상기 파일 내 개인정보에 해당하는 문장을 탐지하고,
상기 제2 모델은, 딥러닝 기반의 face detector 및 privacy detector in image를 활용하여 상기 파일에 포함된 이미지에 대해 이미지 내 개인정보 추출기를 적용한 후, 상기 파일 내 개인정보 위치를 탐지하고,
상기 제3 모델은, 상기 파일에 포함된 텍스트에 대해 문장 단위로 이전에 이미 공유된 적이 있거나, 또는 공유되어 기밀정보 암호화가 수행됐던 파일에 상응하는 기 공유된 파일과 유사도를 산출하고, 상기 산출된 유사도 중에서 기 설정된 기준값보다 큰 유사도만 추출하여 평균을 산출하고, 산출된 평균값을 기초로 상기 파일 내 영업정보에 해당하는 문장을 탐지하고,
상기 제4 모델은, 상기 파일에 포함된 이미지에 대해 스케일 불변 특징 변환(SIFT, Scale Invariant Feature Transform), 샴 네트워크(Siamese network) 기반의 특징 추출기를 이용하여 상기 기 공유된 파일과 비교하고, 상기 비교된 결과를 기초로 상기 파일 내 기밀 정보에 해당하는 영역을 탐지하고,
상기 프로세서는,
상기 기밀정보가 포함된 파일의 공유 현황 기록을 추출하여 관리자 단말로 전송하고,
상기 공유 현황 기록은, 상기 파일의 업로더, SNS 종류, 채널, 업로드 시간, 파일명, 기밀정보 포함 여부를 포함하는 것을 특징으로 하는, 인공지능 기반의 기밀정보 유출 탐지 장치.