KR102619521B1 - 인공지능 기반의 기밀정보 암호화 방법 및 장치 - Google Patents

인공지능 기반의 기밀정보 암호화 방법 및 장치 Download PDF

Info

Publication number
KR102619521B1
KR102619521B1 KR1020210165230A KR20210165230A KR102619521B1 KR 102619521 B1 KR102619521 B1 KR 102619521B1 KR 1020210165230 A KR1020210165230 A KR 1020210165230A KR 20210165230 A KR20210165230 A KR 20210165230A KR 102619521 B1 KR102619521 B1 KR 102619521B1
Authority
KR
South Korea
Prior art keywords
file
learning model
confidential information
information
artificial intelligence
Prior art date
Application number
KR1020210165230A
Other languages
English (en)
Other versions
KR20230077960A (ko
Inventor
김근진
김경민
박성주
Original Assignee
주식회사 스파이스웨어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 스파이스웨어 filed Critical 주식회사 스파이스웨어
Priority to KR1020210165230A priority Critical patent/KR102619521B1/ko
Publication of KR20230077960A publication Critical patent/KR20230077960A/ko
Application granted granted Critical
Publication of KR102619521B1 publication Critical patent/KR102619521B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

인공지능 기반의 기밀정보 암호화 방법 및 장치가 제공된다. 상기 방법은, 파일 저장소에 공유된 파일 내 기밀정보의 포함 여부를 판단하는 단계 및 상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 기밀정보를 암호화하는 단계를 포함한다.

Description

인공지능 기반의 기밀정보 암호화 방법 및 장치{METHOD AND APPARATUS FOR ENCRYPTING CONFIDENTION INFORMATION BASED ON ARTIFICIAL INTELLIGENCE}
본 발명은 인공지능 기반의 기밀정보 암호화 방법 및 장치에 관한 것이다.
개인정보란 개인에 관한 정보로서 성명, 주민등록번호, 주소 등 특정한 개인을 식별할 수 있는 정보를 말한다. 개인정보의 침해, 누설, 도용 등을 방지하기 위하여, 물리적 및 기술적 안전 조치가 요구된다.
한편, 코로나 19가 오랫동안 지속되면서 재택근무, 원격회의, 온라인 행사와 같은 비대면 활동이 늘어나고 있다. 이로 인해, 비대면 서비스를 위한 각종 기술과 솔루션들이 시장에서 각광 받고 있다. 특히, 클라우드 컴퓨팅을 기반으로 하는 파일 공유를 위한 솔루션들이 상용화되고 있다.
그러나, 파일 공유 솔루션의 대부분이 파일 내에 포함된 기밀정보가 쉽게 노출되는 문제점을 가진다. 즉, 기업에서 다루는 문서들에는 개인의 신원을 파악하는 용도의 개인정보뿐만 아니라 기업의 영업정보까지 다수 포함되어 공유되게 되는데, 이로 인해, 개인정보의 주체인 개인은 물론 영업정보로 인해 기업까지 피해를 받는 사례들이 증가하고 있다.
따라서, 공유된 파일에 포함된 개인정보를 보호하기 위한 방안이 필요하다.
공개특허공보 제10-2016-0089295호, 2016.07.27.
본 발명이 해결하고자 하는 과제는 인공지능 기반의 기밀정보 암호화 방법 및 장치를 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또 다른 과제들이 존재할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 인공지능 기반의 기밀정보 암호화 방법은, 파일 저장소에 공유된 파일 내 기밀정보의 포함 여부를 판단하는 단계 및 상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 기밀정보를 암호화하는 단계를 포함하고, 상기 기밀정보는 개인정보 및 영업정보 중 적어도 하나를 포함하며, 상기 판단 단계는, 개인정보 문장 및 문맥 탐지를 위한 제1 학습모델 및 개인정보 이미지 탐지를 위한 제2 학습모델 중 적어도 하나를 이용하여 상기 파일 내의 상기 개인정보 포함 여부를 판단하고, 영업정보 문장 탐지를 위한 제3 학습모델 및 영업정보 이미지 탐지를 위한 제4 학습모델 중 적어도 하나를 이용하여 상기 파일 내의 상기 영업정보 포함 여부를 판단한다
또한, 상기 제1 학습모델은, 상기 파일에 포함된 텍스트에 대해 단어 단위로 개체명 인식을 수행한 결과와, 문장 단위로 문장 민감 여부를 탐지한 결과를 취합하여, 상기 파일 내 개인정보에 해당하는 문장을 탐지하는 것일 수 있다.
또한, 상기 제2 학습모델은, 상기 파일에 포함된 이미지에 대해 이미지 내 개인정보 추출기를 적용하여, 상기 파일 내 개인정보 위치를 탐지하는 것일 수 있다.
또한, 상기 제3 학습모델은, 상기 파일에 포함된 텍스트에 대해 문장 단위로 기 공유된 파일과 유사도를 산출하고, 상기 산출된 유사도 중에서 기 설정된 기준값보다 큰 유사도만 추출하여 평균을 산출하고, 산출된 평균값을 기초로 상기 파일 내 영업정보에 해당하는 문장을 탐지하는 것일 수 있다.
또한, 상기 제4 학습모델은, 상기 파일에 포함된 이미지에 대해 특징 추출기를 이용하여 기 공유된 파일과 비교하고, 비교된 결과를 기초로 상기 파일 내 기밀 정보에 해당하는 영역을 탐지하는 것일 수 있다.
또한, 상기 암호화 단계는, 상기 기밀정보에 대해 마스킹, 범주화, 가명화, 총계처리 및 데이터 값 삭제 중 적어도 하나를 적용하여 암호화하는 것일 수 있다.
또한, 상기 방법은, 상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 파일 전체에 대한 암호화를 수행하는 단계를 더 포함할 수 있다.
또한, 상기 판단 단계 이전에, 상기 파일이 파일 저장소에 공유되면, 상기 파일의 포맷을 구분하고, 상기 구분된 포맷에 따라 상기 파일을 파싱하는 단계를 더 포함하고, 상기 제1 학습모델, 상기 제2 학습모델, 상기 제3 학습모델 및 상기 제4 학습모델 중 적어도 하나는, 상기 파싱된 결과 및 상기 판단된 결과에 기초하여 업데이트될 수 있다.
또한, 상기 제1 학습모델, 상기 제2 학습모델, 상기 제3 학습모델 및 상기 제4 학습모델 중 적어도 하나는, 상기 파일을 공유한 사용자의 종류 별로 상기 파싱된 결과 및 상기 판단된 결과를 분류하여 업데이트될 수 있다.
또한, 상기 암호화 단계 이후에, 특정 사용자 단말로부터 상기 기밀정보가 암호화된 파일에 대한 열람 요청이 수신되면, 상기 특정 사용자의 권한 여부에 따라 상기 기밀정보가 암호화된 파일을 복호화하는 단계를 더 포함할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 인공지능 기반의 기밀정보 암호화 장치는, 통신부, 인공지능 기반으로 파일 저장소에 공유된 파일 내의 기밀정보를 암호화하기 위한 적어도 하나의 프로세스를 저장하고 있는 메모리 및 상기 프로세스에 따라 동작하는 프로세서를 포함하고, 상기 프로세서는, 상기 프로세스를 기반으로, 상기 파일 내 기밀정보의 포함 여부를 판단하고, 상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 기밀정보를 암호화하고, 상기 기밀정보는 개인정보 및 영업정보 중 적어도 하나를 포함하며, 상기 프로세서가, 상기 판단 시에, 개인정보 문장 및 문맥 탐지를 위한 제1 학습모델 및 개인정보 이미지 탐지를 위한 제2 학습모델 중 적어도 하나를 이용하여 상기 파일 내 상기 개인정보의 포함 여부를 판단하고, 영업정보 문장 탐지를 위한 제3 학습모델 및 영업정보 이미지 탐지를 위한 제4 학습모델 중 적어도 하나를 이용하여 상기 파일 내 상기 영업정보의 포함 여부를 판단한다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
상술한 본 발명에 의하면, 파일 저장소에 파일 공유 현황을 모니터링함으로써 공유된 파일 내 기밀정보의 포함 여부를 실시간 또는 주기적으로 확인할 수 있고, 기밀정보가 포함된 파일에 대한 암호화를 수행함으로써 기밀정보의 유출을 방지할 수 있다.
또한, 기밀정보의 암호화 및 비식별화를 동시 처리함으로써, 기밀정보를 안전하게 보호하면서도 비식별화를 위한 추가적인 시간 및 비용의 낭비를 차단할 수 있으며, 보안 취약점을 제거할 수 있는 효과가 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명에 따른 인공지능 기반의 기밀정보 암호화 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 암호화 서버의 개략적인 구성도이다.
도 3은 본 발명에 따른 인공지능 기반의 기밀정보 암호화 방법의 순서도이다.
도 4는 본 발명에 따른 기밀정보 탐지를 위한 제1 학습모델을 설명하기 위한 도면이다.
도 5는 본 발명에 따른 기밀정보 탐지를 위한 제2 학습모델을 설명하기 위한 도면이다.
도 6은 본 발명에 따른 기밀정보 탐지를 위한 제3 학습모델을 설명하기 위한 도면이다.
도 7은 본 발명에 따른 기밀정보 탐지를 위한 제4 학습모델을 설명하기 위한 도면이다.
도 8은 본 발명에 따른 인공지능 기반의 기밀정보 암호화 장치의 개략적인 구성도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하에서 도 1 및 도 2를 참조하여, 파일 저장소에 공유되는 파일을 모니터링하여 기밀정보가 포함된 파일에 대해서 암호화를 수행하는 시스템에 대해서 상세하게 설명하도록 한다.
도 1은 본 발명에 따른 인공지능 기반의 기밀정보 암호화 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 암호화 서버의 개략적인 구성도이다.
도 1을 참조하면, 본 발명의 시스템(1)은 암호화 서버(10), 사용자 단말(20) 및 파일 저장소(30)를 포함할 수 있다. 다만, 몇몇 실시예에서 시스템(1)은 도 1에 도시된 구성요소보다 더 적은 수의 구성요소나 더 많은 구성요소를 포함할 수도 있다.
암호화 서버(10)는 파일의 공유 현황을 모니터링하고 파일 내의 기밀정보를 암호화하는 서비스를 제공하는 업체의 서버일 수 있다.
암호화 서버(10)는 파일 저장소(30)를 통해 공유되는 파일에 대한 모니터링을 수행하여 기밀정보가 포함된 파일의 무차별한 공유를 통한 기밀정보의 유출을 막을 수 있다.
암호화 서버(10)는 파일 저장소(30)에 공유된 파일 중 기밀정보가 포함된 파일에 대해서 암호화를 수행하고, 암호화된 파일에 대한 열람을 요청하는 사용자의 권한을 확인하여, 권한이 있는 사용자에게만 암호화된 파일을 복호화하여 제공할 수 있다.
사용자 단말(20)은 상기 암호화 서버(10)가 제공하는 서비스를 이용하는 가입자의 단말일 수 있다. 보다 상세하게, 사용자 단말(20)은 상기 암호화 서버(10)가 제공하는 서비스를 이용하는 기업에 속한 직원의 단말일 수 있다.
사용자는 사용자 단말(20)을 이용하여 파일 저장소(30)에 파일을 공유할 수 있다. 또한, 사용자는 사용자 단말(20)을 이용하여 파일 저장소(30)에 공유된 파일을 열람할 수 있다.
사용자 단말(20)은 휴대폰, 스마트폰, PDA(Personal Digital Assistant), PMP(Portable Multimedia Player), 태블릿 PC, 데스크탑, 랩탑 등과 같이 네트워크를 통하여 암호화 서버(10) 또는 파일 저장소(30)와 연결될 수 있고, 카메라를 구비하며, 화면을 통해 다양한 정보의 입출력이 가능한 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치일 수 있다.
실시예에 따라, 파일 저장소(30)는 데이터 스토리지를 서비스로서 관리하고 운영하는 클라우드 컴퓨팅 공급자를 통해 데이터를 인터넷에 저장하는 클라우드 컴퓨팅 모델일 수 있다. 개인 또는 단체는 클라우드 스토리지 용량을 제공자로부터 구매 또는 임대하여 개인 또는 단체의 데이터나 애플리케이션의 데이터를 저장할 수 있다. 파일 저장소(30)는 상용화된 모든 종류의 파일 공유 서비스 플랫폼을 포함할 수 있다.
실시예에 따라, 파일 저장소(30)는 동일한 그룹(회사)에 속한 사용자 간의 의사소통과 정보 공유를 위한 온라인 플랫폼일 수 있다. 개인 또는 단체는 클라우드 스토리지 용량을 제공자로부터 구매 또는 임대하여 개인 또는 단체의 데이터나 애플리케이션의 데이터를 저장할 수 있다. 파일 저장소(30)는 상용화된 모든 종류의 소셜 네트워크 서비스 플랫폼을 포함할 수 있다.
도 1에 도시되지는 않았지만, 시스템(1)은 관리자 단말을 더 포함할 수 있다. 관리자 단말은 상기 암호화 서버(10)에 의한 서비스 제공 상황 및 결과를 관리하고 후속 조치를 수행하는 상기 서비스 관리자의 단말일 수 있다.
관리자 단말은 휴대폰, 스마트폰, PDA(Personal Digital Assistant), PMP(Portable Multimedia Player), 태블릿 PC, 데스크탑, 랩탑 등과 같이 네트워크를 통하여 암호화 서버(10) 또는 사용자 단말(20)과 연결될 수 있고, 카메라를 구비하며, 화면을 통해 다양한 정보의 입출력이 가능한 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치일 수 있다.
도 2를 참조하면, 암호화 서버(10)는 접근 프록시 모듈(11), 클라우드 감시 모듈(12), 데이터 분류 및 생성 모듈(13), 인공지능 모듈(14), 암호화 모듈(15), 접근 권한 및 키 관리 모듈(16) 및 복호화 모듈(17)을 포함할 수 있다. 다만, 몇몇 실시예에서 암호화 서버(10)는 도 2에 도시된 구성요소보다 더 적은 수의 구성요소나 더 많은 구성요소를 포함할 수도 있다.
접근 프록시 모듈(11)은 사용자 단말(20)의 파일 저장소(30)로의 접근을 중계하는 역할을 한다. 즉, 사용자 단말(20)은 파일 저장소(30)에 접근하려면 상기 접근 프록시 모듈(11)을 거쳐야 한다.
실시예에 따라, 사용자 단말(20)이 접근 프록시 모듈(11)을 통하지 않고 파일 저장소(30)에 접근하는 경우, 암호화 서버(10) 또는 파일 저장소(30)는 사용자 단말(20)로 경고 메시지를 보낼 수 있다.
클라우드 감시 모듈(12)은 파일 저장소(30)에 새롭게 공유된 파일을 실시간 또는 주기적으로 모니터링하는 역할을 한다.
클라우드 감시 모듈(12)은 새롭게 공유된 파일의 정보를 추출할 수 있다. 여기서, 정보는 파일, 시간, url, 업로더를 포함할 수 있으며, 이에 제한되는 것은 아니다.
데이터 분류 및 생성 모듈(13)은 파일 저장소(30)에 공유된 파일의 포맷을 구분하고, 상기 구분된 포맷에 따라 상기 파일을 파싱하는 역할을 한다.
보다 상세하게, 파일은 바디(body)와 헤더(header)로 나뉘는데, 데이터 분류 및 생성 모듈(13)은 헤더의 앞의 특정 개수의 hex값을 이용하여 파일의 포맷을 구분할 수 있다. 예를 들어, JPEG 파일의 경우, hex값이 "FF D8 FF E0″일 수 있다. 즉, 데이터 분류 및 생성 모듈(13)은 새롭게 공유된 파일의 hex값이 "FF D8 FF E0″이면, 해당 파일의 타입이 JPEG 파일임을 알 수 있다.
인공지능 모듈(14)은 인공지능 기반의 학습모델을 이용하여 파일 내 기밀정보의 포함 여부를 판단하는 역할을 한다.
인공지능 모듈(14)은 하나 이상의 코어로 구성될 수 있으며, 컴퓨팅 장치의 중앙 처리 장치(CPU: central processing unit), 범용 그래픽 처리 장치 (GPGPU: general purpose graphics processing unit), 텐서 처리 장치(TPU: tensor processing unit) 등의 데이터 분석, 딥러닝을 위한 프로세서를 포함할 수 있다. 인공지능 모듈(14)은 메모리에 저장된 컴퓨터 프로그램을 판독하여 본 발명의 일 실시예에 따른 기계 학습을 위한 데이터 처리를 수행할 수 있다. 본 발명의 일실시예에 따라 인공지능 모듈(14)은 신경망의 학습을 위한 연산을 수행할 수 있다. 인공지능 모듈(14)은 딥러닝(DL: deep learning)에서 학습을 위한 입력 데이터의 처리, 입력 데이터에서의 피처 추출, 오차 계산, 역전파(backpropagation)를 이용한 신경망의 가중치 업데이트 등의 신경망의 학습을 위한 계산을 수행할 수 있다. 인공지능 모듈(14)의 CPU, GPGPU, 및 TPU 중 적어도 하나가 네트워크 함수의 학습을 처리할 수 있다. 예를 들어, CPU 와 GPGPU가 함께 네트워크 함수의 학습, 네트워크 함수를 이용한 데이터 분류를 처리할 수 있다. 또한, 본 발명의 일 실시예에서 복수의 컴퓨팅 장치의 프로세서를 함께 사용하여 네트워크 함수의 학습, 네트워크 함수를 이용한 데이터 분류를 처리할 수 있다. 또한, 본 발명의 일 실시예에 따른 컴퓨팅 장치에서 수행되는 컴퓨터 프로그램은, CPU, GPGPU 또는 TPU 실행가능 프로그램일 수 있다.
본 발명의 '학습모델'은 인공지능을 기반으로 하는 학습모델로서, 다양한 인공지능 알고리즘을 기반으로 학습될 수 있다. 예를 들어, CNN, DNN, RNN, KNN, 서포트 벡터 머신(SVM) 등과 같이 학습을 위한 알고리즘은 모두 적용 가능하다.
암호화 모듈(15)은 상기 인공지능 모듈(14)에 의해 기밀정보로 탐지된 부분을 암호화하는 역할을 한다.
실시예에 따라, 암호화 모듈(15)은 암호화 키를 이용하여 파일 내용 중 기밀정보인 부분을 암호화할 수 있다.
실시예에 따라, 암호화 모듈(15)은 암호화 키를 이용하여 기밀 정보가 포함된 파일 자체를 암호화할 수 있다.
접근 권한 및 키 관리 모듈(16)은 랜덤한 암호화 키를 생성할 수 있다. 랜덤하게 생성된 암호화 키는 암호화 모듈(15)에서 파일의 암호화 시 사용되고 이후 복호화 모듈(17)에서 해당 파일의 복호화 시 동일한 암호화 키가 사용될 수 있다.
접근 권한 및 키 관리 모듈(16)은 사용자 단말(20)의 접근 권한을 확인하고, 복호화 모듈(17)은 암호화된 파일을 복호화하는 역할을 한다. 즉, 암호화된 파일에 대해 특정 사용자 단말(20)이 열람을 요청하면, 접근 권한 및 키 관리 모듈(16)은 특정 사용자 단말(20)이 해당 파일에 대한 권한이 있는지를 확인하고, 권한이 있으면 복호화 모듈(17)이 해당 파일을 복호화하여 특정 사용자 단말(20)로 제공할 수 있다.
여기서, 접근 권한 및 키 관리 모듈(16) 및 복호화 모듈(17)은 상술한 바와 같이 암호화 서버(10)의 구성요소로 포함되어 기능할 수 있지만, 이에 제한되지 않고, 파일 저장소(30)의 구성요소로 포함되어 각 기능을 수행할 수도 있다.
도 2에 도시된 웹 관리 콘솔(web management console)은 관리자가 관리자 단말을 통해 파일 저장소(30) 내 공유 현황을 확인할 수 있도록 하는 역할을 한다.
이하에서는 도 3 내지 도 7을 참조하여, 상기 암호화 서버(10)가 파일 저장소에 공유되는 파일을 모니터링하여 기밀정보가 포함된 파일에 대해서 암호화를 수행하는 방법에 대해서 상세하게 설명하도록 한다.
도 3은 본 발명에 따른 인공지능 기반의 기밀정보 암호화 방법의 순서도이다.
도 4는 본 발명에 따른 기밀정보 탐지를 위한 제1 학습모델을 설명하기 위한 도면이다.
도 5는 본 발명에 따른 기밀정보 탐지를 위한 제2 학습모델을 설명하기 위한 도면이다.
도 6은 본 발명에 따른 기밀정보 탐지를 위한 제3 학습모델을 설명하기 위한 도면이다.
도 7은 본 발명에 따른 기밀정보 탐지를 위한 제4 학습모델을 설명하기 위한 도면이다.
도 3을 참조하면, 상기 암호화 서버(10)의 인공지능 모듈(14)은 파일 저장소(30)에 공유된 파일 내 기밀정보의 포함 여부를 판단할 수 있다(S110).
여기서, 파일은 텍스트 파일일 수 있고, 이미지 파일일 수 있고, 또는 텍스트가 포함된 이미지 파일일 수 있고, 또는 텍스트와 이미지가 개별적으로 포함된 파일일 수 있다.
여기서, 기밀정보는 개인정보 및 영업정보 중 적어도 하나를 포함할 수 있다. 개인정보는 기업의 직원 또는 고객을 식별할 수 있는 개인 신상과 관련된 모든 정보를 포함할 수 있다. 영업정보는 기업의 운영과 관련된 모든 정보를 포함할 수 있으며, 보다 상세하게, 영업정보는 각 기업에서 보안등급 내 모든 문서를 의미할 수 있다.
즉, 공유된 파일 내에는 개인정보만 포함될 수도 있고, 영업정보만 포함될 수도 있으며, 개인정보와 영업정보가 모두 포함될 수도 있다.
먼저, 파일 내에서 상기 기밀정보 중 개인정보에 해당하는 정보를 탐지하는 방법을 설명하도록 한다.
단계 S110에서, 인공지능 모듈(14)은 개인정보 문장 및 문맥 탐지를 위한 제1 학습모델 및 개인정보 이미지 탐지를 위한 제2 학습모델 중 적어도 하나를 이용하여 상기 파일 내의 상기 개인정보 포함 여부를 판단할 수 있다.
상기 제1 학습모델은, 상기 파일에 포함된 텍스트에 대해 단어 단위로 개체명 인식을 수행한 결과와, 문장 단위로 문장 민감 여부를 탐지한 결과를 취합하여, 상기 파일 내 개인정보에 해당하는 문장을 탐지할 수 있다.
도 4를 참조하면, 인공지능 모듈(14)은 상기 제1 학습모델을 통해 상기 텍스트를 토큰화(tokenization)할 수 있다. 즉, 인공지능 모듈(14)은 텍스트 파일에 대해 문장 토큰화(Sentence Tokenization) 또는 단어 토큰화(Word Tokenization)하여 상기 텍스트 파일에 대한 전처리를 수행할 수 있다.
그런 다음, 인공지능 모듈(14)은 제1 학습모델을 통해 상기 전처리된 텍스트를 연산이 가능한 실수형 벡터(dense representation)로 변환할 수 있다(embedding vector).
그런 다음, 인공지능 모듈(14)은 제1 학습모델을 통해 상기 실수형 벡터로 변환된 텍스트에 대해 단어 단위로 개체명 인식을 수행할 수 있다. 제1 학습모델은 개인정보를 개체로 인식하도록 학습되어 상기 텍스트에 포함된 개인정보에 대한 개체명 인식을 수행할 수 있다. 인공지능 모듈(14)은 CRF layer를 이용하여 텍스트에 대한 제약 조건을 적용하여 텍스트의 문장의 순서가 무질서하게 예측되는 것을 방지할 수 있다.
또한, 인공지능 모듈(14)은 제1 학습모델을 통해 상기 실수형 벡터로 변환된 텍스트에 대해 문장 단위로 문장 민감 여부를 탐지할 수 있다. 제1 학습모델은 단어 간 상관관계를 학습하여 상기 텍스트에 포함된 각각의 문장이 개인정보가 포함된 민감 문장인지 개인정보가 포함되지 않은 일반 문장인지를 구분할 수 있다. 예를 들어, “저는 여의도동에 사는 홍길동입니다.”라는 문장에 대해서 제1 학습모델은 “여의도동”과 “홍길동” 사이의 상관관계(지역-이름, 즉 해당 이름의 사람이 해당 지역에 사는 것을 유추할 수 있음)에 따라 해당 문장이 민감 문장임을 예측할 수 있다. 반면에, “오늘 강원도 해수욕장에 10만 인파가 몰렸습니다.”라는 문장에 대해서 제1 학습모델은 “강원도”와 상관관계가 있는 단어가 없으므로 해당 문장이 일반 문장임을 예측할 수 있다. 인공지능 모듈(14)은 sentence classifier를 이용하여 민감 문장은 1, 일반 문장은 0으로 분류할 수 있다.
이와 같이, 제1 모델은 개체명 인식 결과와 문장 민감 여부 탐지 결과를 취합하여 기밀정보에 포함된 개인정보를 탐지함으로써, 개체명 인식을 통해 놓칠 수 있는 부분을 문장 민감 여부 탐지를 통해 보완하고, 반대로 문장 민감 여부 탐지를 통해 놓칠 수 있는 부분을 개체명 인식을 통해 보완함으로써, 제1 모델의 예측 성능을 개선할 수 있다.
상기 제2 학습모델은, 상기 파일에 포함된 이미지에 대해 이미지 내 개인정보 추출기를 적용하여, 상기 파일 내 개인정보 위치를 탐지할 수 있다.
도 5를 참조하면, 인공지능 모듈(14)은 상기 제2 학습모델을 통해 상기 이미지 내의 개인정보를 탐지할 수 있다. 제2 학습모델은 딥러닝 기반의 face detector 및 privacy detector in image를 활용하여 이미지 내에서 개인정보(예를 들어, 얼굴)를 탐지할 수 있다. 구체적으로, 인공지능 모듈(14)은 제2 학습모델을 통해 이미지 내에서 얼굴 영역을 탐지하고, 탐지된 얼굴 영역에서 눈, 코, 입, 윤곽 등의 특징점들의 위치를 탐지할 수 있다. 제2 학습모델은 CNN U-net 구조의 히트맵(heatmap)을 산출하여 위치화(localization)를 통해 특징점의 위치를 판정할 수 있다.
인공지능 모듈(14)은 영업정보 문장 탐지를 위한 제3 학습모델 및 영업정보 이미지 탐지를 위한 제4 학습모델 중 적어도 하나를 이용하여 상기 파일 내의 상기 영업정보 포함 여부를 판단할 수 있다.
상기 제3 학습모델은, 상기 파일에 포함된 텍스트에 대해 문장 단위로 기 공유된 파일과 유사도를 산출하고, 상기 산출된 유사도 중에서 기 설정된 제1 기준값보다 큰 유사도만 추출하여 평균을 산출하고, 산출된 평균값을 기초로 상기 파일 내 영업정보에 해당하는 문장을 탐지할 수 있다. 여기서, 기 공유된 파일은 상기 서비스의 시스템에 한번이라도 거쳐갔던(예를 들어, 이전에 이미 공유된 적이 있거나, 또는 공유되어 기밀정보 암호화가 수행됐던) 모든 파일을 의미할 수 있다.
도 6을 참조하면, 인공지능 모듈(14)은 상기 제3 학습모델을 통해 상기 텍스트를 토큰화(tokenization)할 수 있다. 즉, 인공지능 모듈(14)은 텍스트 파일에 대해 문장 토큰화(Sentence Tokenization) 또는 단어 토큰화(Word Tokenization)하여 상기 텍스트 파일에 대한 전처리를 수행할 수 있다.
그런 다음, 인공지능 모듈(14)은 제3 학습모델을 통해 상기 전처리된 텍스트를 연산이 가능한 실수형 벡터(dense representation)로 변환할 수 있다(embedding vector).
그런 다음, 인공지능 모듈(14)은 제3 학습모델을 통해 입력 텍스트(문서 1)의 각각의 문장(문장 1, 문장 2, 문장 3…)과, 상기 기 공유된 파일(문서 2)의 각각의 문자(문장 1, 문장 2, 문장 3…)을 비교하여 각각의 유사도를 산출할 수 있다. 보다 상세하게, 문서 1의 문장 1을 문서 2의 문장 1, 문장 2, 문장 3 각각와 비교하여 유사도를 산출하고, 문서 1의 문장 2를 문서 2의 문장 1, 문장 2, 문장 3 각각와 비교하여 유사도를 산출하고, 문서 1의 문장 3를 문서 2의 문장 1, 문장 2, 문장 3 각각와 비교하여 유사도를 산출할 수 있다. 이렇게 산출된 총 9개의 유사도 중 상기 제1 기준값보다 작은 유사도를 갖는 문장에 대해선 같은 문장이 아닌 것으로 판단하여 제외하고, 상기 제1 기준값보다 큰 유사도를 갖는 문장에 대해서만 유사도 평균 산정하여 최종 유사도를 산출할 수 있다. 그리고, 산출된 최종 유사도가 기 설정된 제2 기준값보다 크면, 해당 파일은 기 공유된 파일와 유사(동일)한 것으로 판단하여 해당 파일 내 기밀정보가 포함된 것으로 판단할 수 있다(유사도가 높은 문장이 기밀정보가 포함된 문장임).
상기 제4 학습모델은, 상기 파일에 포함된 이미지에 대해 특징 추출기를 이용하여 기 공유된 파일과 비교하고, 비교된 결과를 기초로 상기 파일 내 기밀 정보에 해당하는 영역을 탐지할 수 있다. 여기서, 제4 학습모델은 특징 추출기로서 스케일 불변 특징 변환(SIFT, Scale Invariant Feature Transform), 샴 네트워크(Siamese network)를 이용할 수 있으며, 이에 제한되지 않고 인공지능 기반의 알고리즘이라면 상기 특징 추출기로서 이용될 수 있다.
도 7을 참조하면, 인공지능 모듈(14)은 상기 제4 학습모델을 통해 상기 이미지를 위치화(localization)할 수 있다. 보다 상세하게, 제4 학습모델은 입력 이미지와 기 공유된 이미지를 비교하여 각 이미지 내에서 유사한 이미지의 위치를 탐지할 수 있다. 예를 들어, 입력 이미지는 복잡한 이미지가 아닌 도형 및 글로 이루어져 있으므로 제4 학습모델은 특징 추출기(예를 들어, SIFT)에 기반하여 위치화를 수행할 수 있다. 이와 같이 유사한 이미지를 탐지하여 다음 단계 수행을 위한 후보로 선정할 수 있다.
그런 다음, 인공지능 모듈(14)은 상기 제4 학습모델을 통해 상기 후보로 선정된 이미지의 특징을 추출하여 유사도를 평가할 수 있다. 파일 A(입력 이미지)와 파일 B(기 공유된 이미지)에서 탐지된 유사한 이미지에 대해 특징을 추출하고, 이들의 유사도를 산출할 수 있다. 산출된 유사도가 1에 가까울수록 두 이미지가 유사함을 의미할 수 있다. 산출된 유사도가 기 설정된 제3 기준값보다 크면, 해당 파일은 기 공유된 파일와 유사(동일)한 것으로 판단하여 해당 파일 내 기밀정보가 포함된 것으로 판단할 수 있다(유사도가 높은 이미지의 위치가 기밀정보가 포함된 영역임).
다시 도 3을 참조하면, 상기 암호화 서버(10)의 암호화 모듈(15)은 상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 기밀정보를 암호화할 수 있다(S120).
실시예에 따라, 암호화 모듈(15)은 상기 제1 학습모델, 상기 제2 학습모델, 상기 제3 학습모델 및 상기 제4 학습모델 중 적어도 하나에 의해 탐지된 기밀정보에 대해 마스킹, 범주화, 가명화, 총계처리 및 데이터 값 삭제 중 적어도 하나를 적용하여 암호화할 수 있다.
일 예로, 기밀정보가 이미지 또는 텍스트 형태로 포함된 경우, 이미지 내 얼굴에 해당하는 영역(또는, 눈, 코, 입에 해당하는 영역) 또는 텍스트 내 기밀정보에 해당하는 단어에 대해서만 명암을 어둡게 조절하거나 특수문자 등으로 대체하여 마스킹할 수 있다.
다른 예로, 기밀정보가 텍스트 형태로 포함된 경우, 텍스트 내 기밀정보에 해당하는 단어에 대해서 해당 단어보다 큰 개념으로 치환하여 일반화 또는 범주화할 수 있다.
다른 예로, 기밀정보가 텍스트 형태로 포함된 경우, 텍스트 내 기밀정보에 해당하는 단어에 대해서 해당 정보를 식별할 수 있는 요소를 다른값으로 대체하여 가명화할 수 있다.
다른 예로, 기밀정보가 텍스트 형태로 포함된 경우, 텍스트 내 기밀정보에 해당하는 단어에 대해서 해당 정보의 일부 또는 전부를 제거하여 데이터 값 삭제할 수 있다.
다른 예로, 기밀정보가 텍스트 형태로 포함된 경우, 텍스트 내 기밀정보에 해당하는 단어에 대해서 해당 정보의 일부 또는 전부를 제거하여 데이터 값 삭제할 수 있다.
다른 예로, 기밀정보가 텍스트 형태로 포함된 경우, 텍스트 내 기밀정보에 해당하는 수치에 대해서 해당 값들을 총합하거나 평균하여 총계처리할 수 있다.
상기와 같이 기밀 정보에 대해 비식별화를 수행할 때, 암호화 모듈(15)은 접근 권한 및 키 관리 모듈(16)에 의해 생성된 암호화 키를 이용할 수 있다. 그리고 비식별화 시 이용된 암호화 키는 이후 해당 파일에 대한 열람이 요청되었을 때 비식별화된 기밀 정보의 식별화에 사용될 수 있다.
실시예에 따라, 암호화 모듈(15)은 상기 기밀정보가 포함된 상기 파일 전체에 대해 암호화할 수 있다. 구체적으로 암호화 모듈(15)은 접근 권한 및 키 관리 모듈(16)에 의해 생성된 암호화 키를 이용하여 파일 전체를 암호화할 수 있다.
한편, 도 3에 도시하지는 않았지만, 본 발명은, 상기 단계 S110 이전에, 상기 파일이 파일 저장소에 공유되면, 상기 파일의 포맷을 구분하고, 상기 구분된 포맷에 따라 상기 파일을 파싱하는 단계를 더 포함할 수 있다. 이는 상기에서 데이터 분류 및 생성 모듈(13)과 관련하여 설명한 바와 중복되므로 상세한 설명은 생략한다. 이와 같이, 파일의 포맷에 따라 파싱함으로써 인공지능 모듈(14)이 파일의 포맷에 맞는 예측 알고리즘을 적용하도록 하여 효율적인 기밀정보 탐지가 가능하다.
상기 제1 학습모델, 상기 제2 학습모델, 상기 제3 학습모델 및 상기 제4 학습모델 중 적어도 하나는 상기 파싱된 결과 및 상기 판단된 결과에 기초하여 업데이트될 수 있다. 즉, 상기 제1 학습모델, 상기 제2 학습모델, 상기 제3 학습모델 및 상기 제4 학습모델 중 적어도 하나는 공유 파일의 타입의 특징값(파싱된 결과)과 해당 파일에 포함된 기밀 정보의 특징값(판단된 결과)를 학습함으로써 예측 성능을 개선할 수 있다.
실시예에 따라, 상기 제1 학습모델, 상기 제2 학습모델, 상기 제3 학습모델 및 상기 제4 학습모델 중 적어도 하나는 상기 파일을 공유한 사용자의 종류 별로 상기 파싱된 결과 및 상기 판단된 결과를 분류하여 업데이트될 수 있다. 암호화 서비스를 사용하는 사용자들은 다양한 산업으로 분류될 수 있으며, 각 산업 별로 공유되는 파일의 타입 및 해당 파일에 포함되는 기밀 정보의 종류와 형태가 다를 수 있다. 따라서, 본 발명의 학습모델은 사용자들에 의해 공유되는 파일에 대해서 각 사용자들이 속한 산업 별로 해당 파일의 타입의 특징값(파싱된 결과)과 해당 파일에 포함된 기밀 정보의 특징값(판단된 결과)를 학습함으로써, 각 산업 분류마다 특화된 모델로 업데이트될 수 있다. 이에 따라, 본 발명의 학습모델은 보다 세부적인 예측이 가능하다.
또한, 도 3에 도시하지는 않았지만, 본 발명은, 상기 단계 S120 이후에, 특정 사용자 단말로부터 상기 기밀정보가 암호화된 파일에 대한 열람 요청이 수신되면, 상기 특정 사용자의 권한 여부에 따라 상기 기밀정보가 암호화된 파일을 복호화하는 단계를 더 포함할 수 있다. 이는 접근 권한 및 키 관리 모듈(16) 및 복호화 모듈(17)과 관련하여 설명한 바와 중복되므로 상세한 설명은 생략한다.
도 3은 단계 S110 및 단계 S120을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 3에 기재된 순서를 변경하여 실행하거나 단계 S110 및 단계 S120를 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 3은 시계열적인 순서로 한정되는 것은 아니다.
한편, 상술한 설명에서, 단계 S110 및 단계 S120은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 후술하는 도 8의 내용은 도 1 내지 도 7를 참조하여 설명한 인공지능 기반의 기밀정보 암호화 방법에도 적용될 수 있다.
이하에서는 도 8을 참조하여 본 발명에 따른 인공지능 기반의 기밀정보 암호화 장치(200)를 설명하도록 한다. 본 발명의 암호화 장치(200)는 상술한 암호화 방법을 수행하는 장치일 수 있다.
도 8은 본 발명에 따른 인공지능 기반의 기밀정보 암호화 장치의 개략적인 구성도이다.
도 8을 참조하면, 암호화 장치(200)는 통신부(210), 메모리(220) 및 프로세서(230)를 포함한다.
통신부(210)은 외부 장치 또는 외부 서버로부터 예측용 입력 데이터를 수신할 수 있다. 여기서, 외부 장치 또는 외부 서버는 사용자 단말(20) 또는 파일 저장소(30)일 수 있지만, 이에 제한되는 것은 아니다. 예측용 입력 데이터는 파일 저장소(30)에 공유된 파일을 의미할 수 있다.
본 발명의 암호화 장치(200)의 통신부(210)는 통신망을 통해서 외부 장치 또는 외부 서버로부터 기밀정보를 탐지하고 암호화하기 위한 각종 데이터를 수신할 수 있다.
여기서, 통신망은 다양한 형태의 통신망이 이용될 수 있으며, 예컨대, WLAN(Wireless LAN), 와이파이(Wi-Fi), 와이브로(Wibro), 와이맥스(Wimax), HSDPA(High Speed Downlink Packet Access) 등의 무선 통신방식 또는 이더넷(Ethernet), xDSL(ADSL, VDSL), HFC(Hybrid Fiber Coax), FTTC(Fiber to The Curb), FTTH(Fiber To The Home) 등의 유선 통신방식이 이용될 수 있다.
한편, 통신망은 상기에 제시된 통신방식에 한정되는 것은 아니며, 상술한 통신방식 이외에도 기타 널리 공지되었거나 향후 개발될 모든 형태의 통신 방식을 포함할 수 있다.
메모리(220)에는 인공지능 기반으로 파일 저장소(30)에 공유된 파일 내의 기밀정보를 암호화하기 위한 적어도 하나의 프로세스가 저장된다.
프로세서(230)는 암호화 장치(200)를 제어하기 위한 전반적인 기능 및 기계학습과 연관된 각종 동작을 수행할 수 있다. 예를 들어, 프로세서(230)는 메모리(220)에 저장된 프로그램들을 실행함으로써 암호화 장치(200)를 제어하기 위한 전반적인 기능 및 기계학습과 연관된 각종 동작을 수행할 수 있다. 프로세서(230)는 암호화 장치(200) 내에 구비된 CPU(Central Processing Unit), GPU(Graphic Processing Unit), DSP(Digital Signal Processor), NPU(Neural Processing Unit) 또는 AP(Application Processor) 등으로 구현될 수 있으나, 이에 제한되지 않는다.
보다 상세하게, 프로세서(230)는 메모리(220)에 저장된 프로세스를 실행시킨다. 프로세서(230)는 메모리(220)에 저장된 프로세스를 실행시킴에 따라, 상기 파일 저장소(30)에 공유된 파일(예측용 입력 데이터) 내 기밀정보의 포함 여부를 판단하고, 상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 기밀정보를 암호화하고, 상기 기밀정보는 개인정보 및 영업정보 중 적어도 하나를 포함할 수 있다.
또한, 상기 프로세서(230)는 개인정보 문장 및 문맥 탐지를 위한 제1 모델 및 개인정보 이미지 탐지를 위한 제2 모델 중 적어도 하나를 이용하여 상기 파일 내 상기 개인정보의 포함 여부를 판단할 수 있다.
상기 프로세서(230)는 영업정보 문장 탐지를 위한 제3 모델 및 영업정보 이미지 탐지를 위한 제4 모델 중 적어도 하나를 이용하여 상기 파일 내 상기 영업정보의 포함 여부를 판단할 수 있다.
도 8을 참조하여 설명한 장치(200)는 상술한 암호화 시스템의 암호화 서버(20)로서 제공될 수 있다.
이상에서 전술한 본 발명에 따른 인공지능 기반의 기밀정보 암호화 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 컴퓨터 판독가능 기록 매체에 저장될 수 있다. 여기서, 컴퓨터는 앞에서 설명한 위협탐지시스템의 서버일 수 있다.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
1: 시스템
10: 암호화 서버
11: 접근 프록시 모듈
12: 클라우드 감시 모듈
13: 데이터 분류 및 생성 모듈
14: 인공지능 모듈
15: 암호화 모듈
16: 접근 권한 및 키 관리 장치
17: 복호화 모듈
20: 사용자 단말
30: 파일 저장소
200: 암호화 장치
210: 통신부
220: 메모리
230: 프로세서

Claims (12)

  1. 장치에 의해 수행되는 방법에 있어서,
    파일 저장소에 공유된 파일 내 기밀정보의 포함 여부를 판단하는 단계; 및
    상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 기밀정보를 암호화하는 단계;를 포함하고,
    상기 기밀정보는 개인정보 및 영업정보 중 적어도 하나를 포함하며,
    상기 판단 단계는,
    개인정보 문장 및 문맥 탐지를 위한 제1 학습모델 및 개인정보 이미지 탐지를 위한 제2 학습모델 중 적어도 하나를 이용하여 상기 파일 내의 상기 개인정보 포함 여부를 판단하고,
    영업정보 문장 탐지를 위한 제3 학습모델 및 영업정보 이미지 탐지를 위한 제4 학습모델 중 적어도 하나를 이용하여 상기 파일 내의 상기 영업정보 포함 여부를 판단하고,
    상기 판단 단계 이전에,
    상기 파일이 파일 저장소에 공유되면, 상기 파일의 포맷을 구분하고, 상기 구분된 포맷에 따라 상기 파일을 파싱하는 단계;를 더 포함하고,
    상기 제1 학습모델, 상기 제2 학습모델, 상기 제3 학습모델 및 상기 제4 학습모델 중 적어도 하나는, 상기 파싱된 결과 및 상기 판단된 결과에 기초하여 업데이트되는, 인공지능 기반의 기밀정보 암호화 방법.
  2. 제1 항에 있어서,
    상기 제1 학습모델은,
    상기 파일에 포함된 텍스트에 대해 단어 단위로 개체명 인식을 수행한 결과와, 문장 단위로 문장 민감 여부를 탐지한 결과를 취합하여, 상기 파일 내 개인정보에 해당하는 문장을 탐지하는 것인, 인공지능 기반의 기밀정보 암호화 방법.
  3. 제2 항에 있어서,
    상기 제2 학습모델은,
    상기 파일에 포함된 이미지에 대해 이미지 내 개인정보 추출기를 적용하여, 상기 파일 내 개인정보 위치를 탐지하는 것인, 인공지능 기반의 기밀정보 암호화 방법.
  4. 제2 항에 있어서,
    상기 제3 학습모델은,
    상기 파일에 포함된 텍스트에 대해 문장 단위로 기 공유된 파일과 유사도를 산출하고, 상기 산출된 유사도 중에서 기 설정된 기준값보다 큰 유사도만 추출하여 평균을 산출하고, 산출된 평균값을 기초로 상기 파일 내 영업정보에 해당하는 문장을 탐지하는 것인, 인공지능 기반의 기밀정보 암호화 방법.
  5. 제2 항에 있어서,
    상기 제4 학습모델은,
    상기 파일에 포함된 이미지에 대해 특징 추출기를 이용하여 기 공유된 파일과 비교하고, 비교된 결과를 기초로 상기 파일 내 기밀 정보에 해당하는 영역을 탐지하는 것인, 인공지능 기반의 기밀정보 암호화 방법.
  6. 제1 항에 있어서,
    상기 암호화 단계는,
    상기 기밀정보에 대해 마스킹, 범주화, 가명화, 총계처리 및 데이터 값 삭제 중 적어도 하나를 적용하여 암호화하는 것인, 인공지능 기반의 기밀정보 암호화 방법.
  7. 제1 항에 있어서,
    상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 파일 전체에 대한 암호화를 수행하는 단계;를 더 포함하는, 인공지능 기반의 기밀정보 암호화 방법.
  8. 삭제
  9. 제1 항에 있어서,
    상기 제1 학습모델, 상기 제2 학습모델, 상기 제3 학습모델 및 상기 제4 학습모델 중 적어도 하나는, 상기 파일을 공유한 사용자의 종류 별로 상기 파싱된 결과 및 상기 판단된 결과를 분류하여 업데이트되는, 인공지능 기반의 기밀정보 암호화 방법.
  10. 제1 항에 있어서,
    상기 암호화 단계 이후에,
    특정 사용자 단말로부터 상기 기밀정보가 암호화된 파일에 대한 열람 요청이 수신되면, 상기 특정 사용자의 권한 여부에 따라 상기 기밀정보가 암호화된 파일을 복호화하는 단계;를 더 포함하는, 인공지능 기반의 기밀정보 암호화 방법.
  11. 컴퓨터와 결합되어, 제1 항 내지 제7 항, 제9 항 및 제10 항 중 어느 한 항의 방법을 실행하기 위해 컴퓨터 판독가능 기록 매체에 저장된 프로그램.
  12. 통신부;
    인공지능 기반으로 파일 저장소에 공유된 파일 내의 기밀정보를 암호화하기 위한 적어도 하나의 프로세스를 저장하고 있는 메모리; 및
    상기 프로세스에 따라 동작하는 프로세서;를 포함하고,
    상기 프로세서는, 상기 프로세스를 기반으로,
    상기 파일 내 기밀정보의 포함 여부를 판단하고,
    상기 파일에 상기 기밀정보가 포함된 것으로 판단되면, 상기 기밀정보를 암호화하고,
    상기 기밀정보는 개인정보 및 영업정보 중 적어도 하나를 포함하며,
    상기 프로세서가, 상기 판단 시에,
    개인정보 문장 및 문맥 탐지를 위한 제1 학습모델 및 개인정보 이미지 탐지를 위한 제2 학습모델 중 적어도 하나를 이용하여 상기 파일 내 상기 개인정보의 포함 여부를 판단하고,
    영업정보 문장 탐지를 위한 제3 학습모델 및 영업정보 이미지 탐지를 위한 제4 학습모델 중 적어도 하나를 이용하여 상기 파일 내 상기 영업정보의 포함 여부를 판단하고,
    상기 프로세서가, 상기 판단 이전에,
    상기 파일이 파일 저장소에 공유되면, 상기 파일의 포맷을 구분하고, 상기 구분된 포맷에 따라 상기 파일을 파싱하고,
    상기 제1 학습모델, 상기 제2 학습모델, 상기 제3 학습모델 및 상기 제4 학습모델 중 적어도 하나는, 상기 파싱된 결과 및 상기 판단된 결과에 기초하여 업데이트되는, 인공지능 기반의 기밀정보 암호화 장치.
KR1020210165230A 2021-11-26 2021-11-26 인공지능 기반의 기밀정보 암호화 방법 및 장치 KR102619521B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210165230A KR102619521B1 (ko) 2021-11-26 2021-11-26 인공지능 기반의 기밀정보 암호화 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210165230A KR102619521B1 (ko) 2021-11-26 2021-11-26 인공지능 기반의 기밀정보 암호화 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20230077960A KR20230077960A (ko) 2023-06-02
KR102619521B1 true KR102619521B1 (ko) 2023-12-29

Family

ID=86755870

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210165230A KR102619521B1 (ko) 2021-11-26 2021-11-26 인공지능 기반의 기밀정보 암호화 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102619521B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102113756B1 (ko) * 2018-12-20 2020-05-21 주식회사 디알엠인사이드 이미지 출처 확인을 통한 무단 사용 방지 시스템
KR102129030B1 (ko) * 2020-01-28 2020-07-02 주식회사 지란지교데이터 전자문서의 보안정보 비식별화 방법 및 장치
KR102319492B1 (ko) * 2020-04-23 2021-10-29 주식회사 컴트루테크놀로지 Ai 딥러닝을 이용한 개인정보 처리시스템 및 이를 이용한 개인정보 처리방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101729198B1 (ko) 2015-01-19 2017-05-02 경희대학교 산학협력단 개인정보 비식별화 전송장치 및 전송방법
KR20160139112A (ko) * 2015-05-26 2016-12-07 한국전자통신연구원 비정형 데이터 추출 및 익명화 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102113756B1 (ko) * 2018-12-20 2020-05-21 주식회사 디알엠인사이드 이미지 출처 확인을 통한 무단 사용 방지 시스템
KR102129030B1 (ko) * 2020-01-28 2020-07-02 주식회사 지란지교데이터 전자문서의 보안정보 비식별화 방법 및 장치
KR102319492B1 (ko) * 2020-04-23 2021-10-29 주식회사 컴트루테크놀로지 Ai 딥러닝을 이용한 개인정보 처리시스템 및 이를 이용한 개인정보 처리방법

Also Published As

Publication number Publication date
KR20230077960A (ko) 2023-06-02

Similar Documents

Publication Publication Date Title
Imtiaz et al. DeepAMD: Detection and identification of Android malware using high-efficient Deep Artificial Neural Network
Naseri et al. Local and central differential privacy for robustness and privacy in federated learning
Shu et al. Fast detection of transformed data leaks
US9183384B1 (en) Leveraging indexed document matching to automatically train SVM classifiers
US8844059B1 (en) Method and apparatus for preventing data loss through screen capture
Afzal et al. Urldeepdetect: A deep learning approach for detecting malicious urls using semantic vector models
US9043247B1 (en) Systems and methods for classifying documents for data loss prevention
US11025649B1 (en) Systems and methods for malware classification
US20190319957A1 (en) Utilizing transport layer security (tls) fingerprints to determine agents and operating systems
Ghouse et al. Data leakage prevention for data in transit using artificial intelligence and encryption techniques
US11663329B2 (en) Similarity analysis for automated disposition of security alerts
Nayak et al. Data leakage detection and prevention: Review and research directions
Han et al. CloudDLP: Transparent and scalable data sanitization for browser-based cloud storage
Meenakshi et al. A review on security attacks and protective strategies of machine learning
Han et al. Machine learning for Internet of things anomaly detection under low-quality data
Rossi et al. Challenges of protecting confidentiality in social media data and their ethical import
US11714919B2 (en) Methods and systems for managing third-party data risk
Sharma et al. An ensemble-based supervised machine learning framework for android ransomware detection.
Chen et al. Fraud analysis and detection for real-time messaging communications on social networks
KR102619521B1 (ko) 인공지능 기반의 기밀정보 암호화 방법 및 장치
KR102619522B1 (ko) 인공지능 기반의 기밀정보 유출 탐지 방법 및 장치
Canelón et al. Unstructured data for cybersecurity and internal control
US11556653B1 (en) Systems and methods for detecting inter-personal attack applications
Ullah et al. Classification of cybercrime indicators in open social data
Belfedhal et al. A Lightweight Phishing Detection System Based on Machine Learning and URL Features

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant