KR20220013314A

KR20220013314A - 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템 및 방법

Info

Publication number: KR20220013314A
Application number: KR1020210080319A
Authority: KR
Inventors: 조경민; 신상우; 곽상훈; 김재룡
Original assignee: (주)이노코어
Priority date: 2020-07-24
Filing date: 2021-06-21
Publication date: 2022-02-04

Abstract

본 발명은 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템 및 방법에 관한 것으로, 해결하고자 하는 과제는 개인정보 처리자가 판단하기 어려운 식별자(ID), 준식별자(QI), 민감정보(SA)를 자동으로 분류하고, 개인정보 처리자에게 제안하는데 있다.
일례로, 비식별화 대상인 원본데이터의 메타정보를 수집하는 메타정보 수집부; 상기 메타정보 수집부를 통해 수집된 상기 메타정보에 대하여 미리 등록된 컬럼 이름이 있는지 여부를 분석하고, 미리 정의된 컬럼 속성이 있는지 여부를 분석하며, 상기 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 입력데이터로 하여 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델을 이용한 분석 중 적어도 하나를 통해 상기 원본데이터에 대한 식별등급을 분류하는 메타정보 분석부; 및 상기 메타정보 분석부를 통해 분류된 결과데이터를 저장하는 식별등급분류 결과데이터 저장부를 포함하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템을 개시한다.

Description

빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템 및 방법{DATA FIELD AUTOMATIC CLASSIFICATION SYSTEM FOR DE-IDENTIFICATION PROCESSING OF PERSONAL INFORMATION IN BIG-DATA ENVIRONMENT}

본 발명의 실시예는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템 및 방법에 관한 것으로, 좀 더 구체적으로는 비식별을 진행할 데이터 필드의 데이터 타입을 자동으로 분류하여, 비식별 작업을 처리하는 개인정보처리자에게 식별자(ID: Identifiers), 준식별자(QI: Quasi-Identifiers), 민감정보(SA: Sensitive Attributes) 등을 자동으로 분류하여 제안하는 시스템 및 방법에 관한 것이다.

빅데이터란, 기존의 기업 환경이나 공공 기관에서 사용되는 정형화된 데이터는 물론, 전자상거래 데이터, 메타 데이터, 웹로그, 무선식별(RFID) 데이터, 센서 네트워크 데이터, 소셜 네트워크 데이터, 소셜 데이터, 인터넷 텍스트와 문서, 인터넷 검색 인덱싱 등 기존에 미처 활용되지 못하던 비정형화 또는 반 정형화된 데이터를 모두 포함하는 데이터로서, 이와 같은 데이터는 일반적으로 보통의 소프트웨어 툴 및 컴퓨터 시스템으로는 다루기 어려운 수준의 데이터 양을 갖게 된다는 의미에서 빅데이터(Big Data)라 칭하고 있다.

개인정보'란 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보(해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 것을 포함함)를 말한다(개인정보 보호법」 제2조제1호).

비식별이란, 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가 정보가 없이는 특정 개인을 알아볼 수 없도록 처리하는 것을 말한다. 비식별처리에서 식별자(ID)는 개인 또는 개인과 관련한 사물에 고유하게 부여된 값 또는 이름을 말하는 것으로 주민등록번호, 여권번호, 운전면허번호, 의료보험번호, 계좌번호, 사업자등록번호, 아이디 등을 포함하여, 개인을 식별할수 있는 속성들을 말한다. 준식별자(QI)는 식별자(ID)에 준하는 것으로 직접적으로 대상을 알 수는 없지만 조합을 통해 간접적으로 개인 식별이 가능한 것으로서, 생년월일, 성별, 거주 도시, 우편번호, 몸무게, 혈액형 등을 포함하며, 다른 데이터와 결합을 통해 특정 개인을 간접 적으로 추론하는데 사용될 수 있는 속성들을 말한다. 민감정보(SA)는 개인에 대한 민감한 사생활 정보를 포함하는 특성으로서, 금융정보, 병명, 건강상태, 종교 등을 포함한다.

빅데이터, IoT 등 IT 융합기술 발전으로 데이터 이용 수요가 급증함에 따라 미국, 영국 등 주요 선진국은 데이터 산업 활성화를 위한 정책 추진 중이다. 이에 빅데이터 활용에 필요한 비식별 조치 기준, 절차, 방법 등을 구체적으로 안내하여 안전한 빅데이터 활용기반 마련과 개인정보 보호 강화를 도모 하기 위하여, 2016년 6월, 행정자치부 및 관계부처 합동으로 "개인정보 비식별 조치 가이드 라인"을 발간했다. '특허등록번호 10-1784265호'와 같이 빅데이터를 비식별화하는 방법에 대한 관심이 높아지고 있다.

특히 2020년 1월, 데이터3법 개정안이 국회 본회의를 통과하면서, 데이터 활용을 활성화하기 위해 가명정보(비식별)의 개념을 도입하고, 그 처리에 관한 특례 규정을 신설하였다. 이에 따라 개인정보 처리자는 가명정보를 통계작성, 과학적 연구, 공익적 기록보존 등의 목적으로 정보주체의 동의 없이 처리할 수 있게 되었다. 따라서, 공공, 보건, 의료, 유통, 마케팅, 제조업 등 다양한 분야에서 빅데이터를 수집하여 비식별 처리 후 활용할 수 있게 되었다.

그러나, 이러한 빅데이터 환경에서 개인정보 비식별 처리를 진행함에 있어서 개인정보 처리자는 어느 데이터를 식별자(ID), 준식별자(QI), 민감정보(SA)로 지정해야 할지 어려움이 있다.

등록특허공보 제10-1784265호(등록일자: 2017년09월27일) 등록특허공보 제10-2067926호(등록일자: 2020년01월13일)

본 발명의 실시예는, 개인정보 처리자가 판단하기 어려운 식별자(ID), 준식별자(QI), 민감정보(SA)를 자동으로 분류하고, 개인정보 처리자에게 제안하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템 및 방법을 제공한다.

본 발명의 실시예에 따른 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템은, 비식별화 대상인 원본데이터의 메타정보를 수집하는 메타정보 수집부; 상기 메타정보 수집부를 통해 수집된 상기 메타정보에 대하여 미리 등록된 컬럼 이름이 있는지 여부를 분석하고, 미리 정의된 컬럼 속성이 있는지 여부를 분석하며, 상기 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 입력데이터로 하여 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델을 이용한 분석 중 적어도 하나를 통해 상기 원본데이터에 대한 식별등급을 분류하는 메타정보 분석부; 및 상기 메타정보 분석부를 통해 분류된 결과데이터를 저장하는 식별등급분류 결과데이터 저장부를 포함한다.

또한, 상기 메타정보 분석부는, 국가행정표준용어를 식별등급으로 분류하고 사전화하여 구축된 컬럼이름사전에 상기 메타정보에 포함된 컬럼 이름을 조회하여 등록된 컬럼 이름이 검색되는 경우, 해당 조회 대상의 원본데이터를 상기 컬럼이름사전에서 검색된 해당 컬럼 이름에 대한 식별등급으로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고, 등록된 컬럼 이름이 검색되지 않는 경우, 해당 조회 대상의 원본데이터를 미분류로 처리하는 컬럼 이름 분석부를 포함할 수 있다.

또한, 상기 메타정보 분석부는, 상기 메타정보에 포함된 컬럼 이름 중 접두사(Prefix)와 접미사(Suffix) 문구를 제외한 컬럼 이름을 상기 컬럼이름사전에 조회할 수 있다.

또한, 상기 메타정보 분석부는 컬럼 속성 분석부를 포함하고, 상기 컬럼 속성 분석부는, 상기 메타정보에 포함된 컬럼속성정보를 수집하고, 수집된 상기 컬럼속성정보 중 기본키(Primary Key) 속성이 존재하는 여부를 검사하고, 기본키(Primary Key) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고, 기본키(Primary Key) 속성이 존재하지 않는 경우 고유성(Unique) 속성이 존재하는지 여부를 검사하고, 고유성(Unique) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고, 고유성(Unique) 속성이 존재하지 않는 경우 자동 증가(Auto Incremental) 속성이 존재하는지 여부를 검사하고, 자동 증가(Auto Incremental) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고, 자동 증가(Auto Incremental) 속성이 존재하는 경우 해당 컬럼속성정보에 설명(description)이 존재하는지 여부를 검사하고, 설명(description)이 존재하는 경우 상기 문장 분류 모델을 통해 식별등급이 분류되도록 해당 검사 대상을 상기 문장 분류 모델로 전달하며, 자동 증가(Auto Incremental) 속성이 존재하지 않는 경우 해당 검사 대상의 원본데이터를 미분류로 처리할 수 있다.

또한, 상기 메타정보 분석부는, 상기 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델의 입력데이터로서 입력하고, 해당 입력데이터에 포함되어 있는 상기 메타정보의 설명 문장에 대하여 데이터 정형화에 필요한 텍스트 처리를 수행하고, 해당 설명 문장 내 단어에 대한 수치화하는 워드 임베딩 작업을 수행하고, 수치화된 데이터를 입력 받아 상기 원본데이터에 대한 식별등급을 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하는 컬럼 설명 분석부를 포함할 수 있다.

본 발명의 다른 실시예에 따른 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 방법은, 메타정보 수집부가, 비식별화 대상인 원본데이터의 메타정보를 수집하는 메타정보 수집 단계; 메타정보 분석부가, 상기 메타정보 수집 단계를 통해 수집된 상기 메타정보에 대하여 미리 등록된 컬럼 이름이 있는지 여부를 분석하고, 미리 정의된 컬럼 속성이 있는지 여부를 분석하며, 상기 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 입력데이터로 하여 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델을 이용한 분석 중 적어도 하나를 통해 상기 원본데이터에 대한 식별등급을 분류하는 메타정보 분석 단계; 및 식별등급분류 결과데이터 저장부가, 상기 메타정보 분석 단계를 통해 분류된 결과데이터를 저장하는 식별등급분류 결과데이터 저장 단계를 포함한다.

또한, 상기 메타정보 분석 단계는, 국가행정표준용어를 식별등급으로 분류하고 사전화하여 구축된 컬럼이름사전에 상기 메타정보에 포함된 컬럼 이름을 조회하여 등록된 컬럼 이름이 검색되는 경우, 해당 조회 대상의 원본데이터를 상기 컬럼이름사전에서 검색된 해당 컬럼 이름에 대한 식별등급으로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고, 등록된 컬럼 이름이 검색되지 않는 경우, 해당 조회 대상의 원본데이터를 미분류로 처리하는 컬럼 이름 분석 단계를 포함할 수 있다.

또한, 상기 메타정보 분석 단계는, 상기 메타정보에 포함된 컬럼 이름 중 접두사(Prefix)와 접미사(Suffix) 문구를 제외한 컬럼 이름을 상기 컬럼이름사전에 조회할 수 있다.

또한, 상기 메타정보 분석 단계는 컬럼 속성 분석 단계를 포함하고, 상기 컬럼 속성 분석 단계는, 상기 메타정보에 포함된 컬럼속성정보를 수집하고, 수집된 상기 컬럼속성정보 중 기본키(Primary Key) 속성이 존재하는 여부를 검사하고, 기본키(Primary Key) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고, 기본키(Primary Key) 속성이 존재하지 않는 경우 고유성(Unique) 속성이 존재하는지 여부를 검사하고, 고유성(Unique) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고, 고유성(Unique) 속성이 존재하지 않는 경우 자동 증가(Auto Incremental) 속성이 존재하는지 여부를 검사하고, 자동 증가(Auto Incremental) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고, 자동 증가(Auto Incremental) 속성이 존재하는 경우 해당 컬럼속성정보에 설명(description)이 존재하는지 여부를 검사하고, 설명(description)이 존재하는 경우 상기 문장 분류 모델을 통해 식별등급이 분류되도록 해당 검사 대상을 상기 문장 분류 모델로 전달하며, 자동 증가(Auto Incremental) 속성이 존재하지 않는 경우 해당 검사 대상의 원본데이터를 미분류로 처리할 수 있다.

또한, 상기 메타정보 분석 단계는, 상기 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델의 입력데이터로서 입력하고, 해당 입력데이터에 포함되어 있는 상기 메타정보의 설명 문장에 대하여 데이터 정형화에 필요한 텍스트 처리를 수행하고, 해당 설명 문장 내 단어에 대한 수치화하는 워드 임베딩 작업을 수행하고, 수치화된 데이터를 입력 받아 상기 원본데이터에 대한 식별등급을 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하는 컬럼 설명 분석 단계를 포함할 수 있다.

본 발명에 따르면, 개인정보 처리자가 판단하기 어려운 식별자(ID), 준식별자(QI), 민감정보(SA)를 자동으로 분류하고, 개인정보 처리자에게 제안하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템 및 방법을 제공할 수 있다.

도 1은 본 발명의 실시예에 따른 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템의 전체 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 컬럼 이름 분석부의 동작 방식을 설명하기 위해 나타낸 흐름도이다.
도 3은 본 발명의 실시예에 따른 컬럼 속성 분석부의 동작 방식을 설명하기 위해 나타낸 흐름도이다.
도 4 및 도 5는 본 발명의 실시예에 따른 문장 분류 모델을 통한 컬럼 설명 분석부의 추론 과정을 설명하기 위해 나타낸 흐름도이다.
도 6은 본 발명의 실시예에 따른 문장 분류 모델의 학습 과정을 설명하기 위해 나타낸 흐름도이다.
도 7은 본 발명의 실시예에 따른 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 방법을 나타낸 흐름도이다.
도 8은 본 발명의 실시예에 따른 메타정보 분석 단계의 상세 구성을 나타낸 흐름도이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나 이상의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

도 1은 본 발명의 실시예에 따른 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템의 전체 구성을 나타낸 블록도이고, 도 2는 본 발명의 실시예에 따른 컬럼 이름 분석부의 동작 방식을 설명하기 위해 나타낸 흐름도이고, 도 3은 본 발명의 실시예에 따른 컬럼 속성 분석부의 동작 방식을 설명하기 위해 나타낸 흐름도이다.

도 1을 참조하면, 본 발명의 실시예에 따른 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템(1000)은, 메타정보 수집부(100), 메타정보 분석부(200) 및 식별등급분류 결과데이터 저장부(300) 중 적어도 하나를 포함할 수 있다.

상기 메타정보 수집부(100)는, 비식별화 대상인 원본데이터가 적재되어 있는 저장소와 연계하여 각 원본데이터의 메타정보를 수집할 수 있다. 이때, 메타정보 수집부(100)는, 메타 정보를 가지고 있는 File, 관계형 데이터베이스 관리 시스템(RDBMS) 및 비관계형 데이터베이스 관리 시스템(NoSql) 등 다양한 데이터 저장소와 연계하여 비식별화 대상인 원본데이터의 메타정보를 수집할 수 있다.

상기 메타정보 분석부(200)는, 메타정보 수집부(100)를 통해 수집된 메타정보에 대하여 미리 등록된 컬럼 이름이 있는지 여부를 분석하고, 미리 정의된 컬럼 속성이 있는지 여부를 분석하며, 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 입력데이터로 하여 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델을 이용한 분석 중 적어도 하나를 통해 원본데이터에 대한 식별등급을 분류할 수 있다.

이를 위해 메타정보 분석부(200)는 도 1에 도시된 바와 같이 컬럼 이름 분석부(210), 컬럼 속성 분석부(220) 및 컬럼 설명 분석부(230) 중 적어도 하나를 포함할 수 있다.

상기 컬럼 이름 분석부(210)는, 도 2에 도시된 바와 같이 국가행정표준용어를 식별등급으로 분류하고 사전화하여 미리 구축된 컬럼이름사전(10)에 메타정보(테이블 정보)에 포함되어 있는 컬럼 이름을 조회하여 등록된 컬럼 이름이 검색되는 경우, 해당 조회 대상의 원본데이터를 컬럼이름사전에서 검색된 해당 컬럼 이름에 대한 식별등급으로 분류하여 해당 결과데이터를 식별등급분류 결과데이터 저장부(300)로 반환(return)하고, 등록된 컬럼 이름이 검색되지 않는 경우, 해당 조회 대상의 원본데이터를 미분류로 처리할 수 있다. 이때, 메타정보에 포함된 컬럼 이름 중 컬럼 이름으로 잘 사용되는 접두사(Prefix)와 접미사(Suffix) 문구를 제외한 컬럼 이름을 기반으로 컬럼이름사전(10)을 조회하여 해당 메타정보의 컬럼 이름 즉, 해당 원본데이터에 대한 식별등급을 확인하여 분류할 수 있다.

본 실시예에 따른 식별등급은 식별자(ID), 준식별자(QI), 민감정보(SA), 비민감정보(NSA) 등을 포함할 수 있다. 여기서, 식별자(ID)는 개인 또는 개인과 관련한 사물에 고유하게 부여된 값 또는 이름을 말하는 것으로 주민등록번호, 여권번호, 운전면허번호, 의료보험번호, 계좌번호, 사업자등록번호, 아이디 등을 포함하여, 개인을 식별할수 있는 속성들을 포함하고. 준식별자(QI)는 식별자(ID)에 준하는 것으로 직접적으로 대상을 알 수는 없지만 조합을 통해 간접적으로 개인 식별이 가능한 것으로서, 생년월일, 성별, 거주 도시, 우편번호, 몸무게, 혈액형 등을 포함하며, 다른 데이터와 결합을 통해 특정 개인을 간접 적으로 추론하는데 사용될 수 있는 속성들을 포함하며, 민감정보(SA)는 개인에 대한 민감한 사생활 정보를 포함하는 특성으로서, 금융정보, 병명, 건강상태, 종교 등을 포함할 수 있다.

상기 컬럼 속성 분석부(220)는, 도 3에 도시된 바와 같이, 메타정보에 포함된 컬럼속성정보를 수집하고, 수집된 컬럼속성정보 중 기본키(Primary Key) 속성이 존재하는 여부를 검사하고, 기본키(Primary Key) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 식별등급분류 결과데이터 저장부(300)로 반환(return)할 수 있다.

또한, 컬럼 속성 분석부(220)는, 도 3에 도시된 바와 같이, 기본키(Primary Key) 속성이 존재하지 않는 경우 고유성(Unique) 속성이 존재하는지 여부를 검사하고, 고유성(Unique) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 식별등급분류 결과데이터 저장부(300)로 반환(return)할 수 있다.

또한, 컬럼 속성 분석부(220)는, 도 3에 도시된 바와 같이, 고유성(Unique) 속성이 존재하지 않는 경우 자동 증가(Auto Incremental) 속성이 존재하는지 여부를 검사하고, 자동 증가(Auto Incremental) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 식별등급분류 결과데이터 저장부(300)로 반환(return)할 수 있다.

또한, 컬럼 속성 분석부(220)는, 도 3에 도시된 바와 같이, 자동 증가(Auto Incremental) 속성이 존재하는 경우 해당 컬럼속성정보에 설명(description)이 존재하는지 여부를 검사하고, 설명(description)이 존재하는 경우 문장 분류 모델을 통해 식별등급이 분류되도록 해당 검사 대상을 해당 문장 분류 모델로 전달하며, 자동 증가(Auto Incremental) 속성이 존재하지 않는 경우 해당 검사 대상의 원본데이터를 미분류로 처리할 수 있다.

상기 컬럼 설명 분석부(230)는, 도 3에 도시된 바와 같이, 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델의 입력데이터로서 입력하고, 해당 입력데이터에 포함되어 있는 메타정보의 설명 문장에 대하여 데이터 정형화에 필요한 텍스트 처리를 수행하고, 해당 설명 문장 내 단어에 대한 수치화하는 워드 임베딩 작업을 수행하고, 수치화된 데이터를 입력 받아 원본데이터에 대한 식별등급을 분류하여 해당 결과데이터를 식별등급분류 결과데이터 저장부(300)로 반환(return)할 수 있다.

도 4 및 도 5는 본 발명의 실시예에 따른 문장 분류 모델을 통한 컬럼 설명 분석부의 추론 과정을 설명하기 위해 나타낸 흐름도이고, 도 6은 본 발명의 실시예에 따른 문장 분류 모델의 학습 과정을 설명하기 위해 나타낸 흐름도이다.

도 4에 도시된 바와 같이 본 발명의 실시예에 따른 문장 분류 모델은 딥러닝 알고리즘(CNN-합성곱 신경망)을 통해 메타정보의 컬럼 속성 정보에 설명(description)을 입력데이터로 입력 받아 식별자(ID), 준식별자(QI), 민감정보(SA), 비민감정보(NSA) 중 어느 하나의 식별등급을 추론함으로써 분류할 수 있다.

이를 위해 컬럼 설명 분석부(230)는 도 5에 도시된 바와 같이 데이터 세트(추론용), 텍스트 처리, 워딩 임베딩, 모델 추론의 과정을 수행할 수 있다. 여기서, 데이터 세트(추론용)는 비식별화 대상인 원본데이터의 메타정보의 설명 문장을 포함할 수 있고, 텍스트 처리과정에서는 데이터 정형화에 필요한 텍스트 처리를 수행하는데, 예를 들어 설명 문장의 앞뒤 공백을 제거하고, 영문의 경우 소문자로 일괄 처리하는 등의 텍스트 처리를 수행할 수 있다. 워드 임베딩의 경우 Word2Vec 임베딩 모델을 사용하여 설명 문장 내 단어를 수치화하는 작업을 수행하며, 모델 추론 과정에서는 수치화된 데이터를 입력 받아 식별등급에 대한 결과를 추론할 수 있다.

한편, 도 6에 도시된 바와 같이 문장 분류 모델은 구축하기 위하여 데이터 세트(학습용), 텍스트 처리, 워딩 임베딩, 모델 추론의 과정을 수행할 수 있다. 여기서, 데이터 세트(추론용) 과정에서는 공공데이터 및 공개된 테이블 명세 자료에 대한 식별등급을 레이블링하여 모델 학습용 데이터를 생성하여 준비할 수 있다. 텍스트 처리과정에서는 데이터 정형화에 필요한 텍스트 처리를 수행하는데, 예를 들어 설명 문장의 앞뒤 공백을 제거하고, 영문의 경우 소문자로 일괄 처리하는 등의 텍스트 처리를 수행할 수 있다. 워드 임베딩의 경우 Word2Vec 임베딩 모델을 사용하여 설명 문장 내 단어를 수치화하는 작업을 수행하며, 모델 생성 과정에서는 수치화된 데이터를 기반으로 CNN 딥러닝 알고리즘 모델을 학습하여 생성할 수 있다.

상기 식별등급분류 결과데이터 저장부(300)는, 메타정보 분석부(200)를 통해 분류된 결과데이터를 저장할 수 있다. 이러한 식별등급분류 결과데이터 저장부(300)는 컬럼 별로 식별등급이 분류된 결과데이터를 데이터 저장소와 연계하여 저장할 수 있으며, 이때 데이터 저장소는 File, RDBMS 및 RESTful API 연계를 지원할 수 있다.

도 7은 본 발명의 실시예에 따른 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 방법을 나타낸 흐름도이고, 도 8은 본 발명의 실시예에 따른 메타정보 분석 단계의 상세 구성을 나타낸 흐름도이다.

도 7을 참조하면, 본 발명의 실시예에 따른 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 방법(S1000)은, 메타정보 수집 단계(S100), 메타정보 분석 단계(S200) 및 식별등급분류 결과데이터 저장 단계(S300) 중 적어도 하나를 포함할 수 있다.

상기 메타정보 수집 단계(S100)에서는, 비식별화 대상인 원본데이터가 적재되어 있는 저장소와 연계하여 각 원본데이터의 메타정보를 수집할 수 있다. 이때, 메타정보 수집 단계(S100) 에서는, 메타 정보를 가지고 있는 File, 관계형 데이터베이스 관리 시스템(RDBMS) 및 비관계형 데이터베이스 관리 시스템(NoSql) 등 다양한 데이터 저장소와 연계하여 비식별화 대상인 원본데이터의 메타정보를 수집할 수 있다.

상기 메타정보 분석 단계(S200)에서는, 메타정보 수집 단계(S100)를 통해 수집된 메타정보에 대하여 미리 등록된 컬럼 이름이 있는지 여부를 분석하고, 미리 정의된 컬럼 속성이 있는지 여부를 분석하며, 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 입력데이터로 하여 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델을 이용한 분석 중 적어도 하나를 통해 원본데이터에 대한 식별등급을 분류할 수 있다.

이를 위해 메타정보 분석 단계(S200)에서는 도 8에 도시된 바와 같이 컬럼 이름 분석 단계(S210), 컬럼 속성 분석 단계(S220) 및 컬럼 설명 분석 단계(S230) 중 적어도 하나를 포함할 수 있다.

상기 컬럼 이름 분석 단계(S210)에서는, 도 2에 도시된 바와 같이 국가행정표준용어를 식별등급으로 분류하고 사전화하여 미리 구축된 컬럼이름사전(10)에 메타정보(테이블 정보)에 포함되어 있는 컬럼 이름을 조회하여 등록된 컬럼 이름이 검색되는 경우, 해당 조회 대상의 원본데이터를 컬럼이름사전에서 검색된 해당 컬럼 이름에 대한 식별등급으로 분류하여 해당 결과데이터를 식별등급분류 결과데이터 저장 단계(S300)로 반환(return)하고, 등록된 컬럼 이름이 검색되지 않는 경우, 해당 조회 대상의 원본데이터를 미분류로 처리할 수 있다. 이때, 메타정보에 포함된 컬럼 이름 중 컬럼 이름으로 잘 사용되는 접두사(Prefix)와 접미사(Suffix) 문구를 제외한 컬럼 이름을 기반으로 컬럼이름사전(10)을 조회하여 해당 메타정보의 컬럼 이름 즉, 해당 원본데이터에 대한 식별등급을 확인하여 분류할 수 있다.

상기 컬럼 속성 분석 단계(S220)에서는, 도 3에 도시된 바와 같이, 메타정보에 포함된 컬럼속성정보를 수집하고, 수집된 컬럼속성정보 중 기본키(Primary Key) 속성이 존재하는 여부를 검사하고, 기본키(Primary Key) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 식별등급분류 결과데이터 저장 단계(S300)로 반환(return)할 수 있다.

또한, 컬럼 속성 분석 단계(220)에서는, 도 3에 도시된 바와 같이, 기본키(Primary Key) 속성이 존재하지 않는 경우 고유성(Unique) 속성이 존재하는지 여부를 검사하고, 고유성(Unique) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 식별등급분류 결과데이터 저장 단계(S300)로 반환(return)할 수 있다.

또한, 컬럼 속성 분석 단계(220)에서는, 도 3에 도시된 바와 같이, 고유성(Unique) 속성이 존재하지 않는 경우 자동 증가(Auto Incremental) 속성이 존재하는지 여부를 검사하고, 자동 증가(Auto Incremental) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 식별등급분류 결과데이터 저장 단계(S300)로 반환(return)할 수 있다.

또한, 컬럼 속성 분석 단계(220)에서는, 도 3에 도시된 바와 같이, 자동 증가(Auto Incremental) 속성이 존재하는 경우 해당 컬럼속성정보에 설명(description)이 존재하는지 여부를 검사하고, 설명(description)이 존재하는 경우 문장 분류 모델을 통해 식별등급이 분류되도록 해당 검사 대상을 해당 문장 분류 모델로 전달하며, 자동 증가(Auto Incremental) 속성이 존재하지 않는 경우 해당 검사 대상의 원본데이터를 미분류로 처리할 수 있다.

상기 컬럼 설명 분석 단계(S230)에서는, 도 3에 도시된 바와 같이, 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델의 입력데이터로서 입력하고, 해당 입력데이터에 포함되어 있는 메타정보의 설명 문장에 대하여 데이터 정형화에 필요한 텍스트 처리를 수행하고, 해당 설명 문장 내 단어에 대한 수치화하는 워드 임베딩 작업을 수행하고, 수치화된 데이터를 입력 받아 원본데이터에 대한 식별등급을 분류하여 해당 결과데이터를 식별등급분류 결과데이터 저장 단계(S300)로 반환(return)할 수 있다.

이를 위해 컬럼 설명 분석 단계(S230)는 도 5에 도시된 바와 같이 데이터 세트(추론용), 텍스트 처리, 워딩 임베딩, 모델 추론의 과정을 수행할 수 있다. 여기서, 데이터 세트(추론용)는 비식별화 대상인 원본데이터의 메타정보의 설명 문장을 포함할 수 있고, 텍스트 처리과정에서는 데이터 정형화에 필요한 텍스트 처리를 수행하는데, 예를 들어 설명 문장의 앞뒤 공백을 제거하고, 영문의 경우 소문자로 일괄 처리하는 등의 텍스트 처리를 수행할 수 있다. 워드 임베딩의 경우 Word2Vec 임베딩 모델을 사용하여 설명 문장 내 단어를 수치화하는 작업을 수행하며, 모델 추론 과정에서는 수치화된 데이터를 입력 받아 식별등급에 대한 결과를 추론할 수 있다.

상기 식별등급분류 결과데이터 저장 단계(S300)에서는, 메타정보 분석 단계(S200)를 통해 분류된 결과데이터를 저장할 수 있다. 이러한 식별등급분류 결과데이터 저장 단계(S300)에서는 컬럼 별로 식별등급이 분류된 결과데이터를 데이터 저장소와 연계하여 저장할 수 있으며, 이때 데이터 저장소는 File, RDBMS 및 RESTful API 연계를 지원할 수 있다.

이상에서 설명한 것은 본 발명에 의한 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템 및 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기 실시예에 한정되지 않고, 이하의 특허청구범위에서 청구하는 바와 같이 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.

1000: 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템
100: 메타정보 수집부
200: 메타정보 분석부
210: 컬럼 이름 분석부
220: 컬럼 속성 분석부
230: 컬럼 설명 분석부
300: 식별등급분류 결과데이터 저장부
10: 컬럼이름사전
S1000: 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 방법
S100: 메타정보 수집 단계
S200: 메타정보 분석 단계
S210: 컬럼 이름 분석 단계
S220: 컬럼 속성 분석 단계
S230: 컬럼 설명 분석 단계
S300: 식별등급분류 결과데이터 저장 단계

Claims

비식별화 대상인 원본데이터의 메타정보를 수집하는 메타정보 수집부;
상기 메타정보 수집부를 통해 수집된 상기 메타정보에 대하여 미리 등록된 컬럼 이름이 있는지 여부를 분석하고, 미리 정의된 컬럼 속성이 있는지 여부를 분석하며, 상기 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 입력데이터로 하여 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델을 이용한 분석 중 적어도 하나를 통해 상기 원본데이터에 대한 식별등급을 분류하는 메타정보 분석부; 및
상기 메타정보 분석부를 통해 분류된 결과데이터를 저장하는 식별등급분류 결과데이터 저장부를 포함하는 것을 특징으로 하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템.
제1 항에 있어서,
상기 메타정보 분석부는,
국가행정표준용어를 식별등급으로 분류하고 사전화하여 구축된 컬럼이름사전에 상기 메타정보에 포함된 컬럼 이름을 조회하여 등록된 컬럼 이름이 검색되는 경우, 해당 조회 대상의 원본데이터를 상기 컬럼이름사전에서 검색된 해당 컬럼 이름에 대한 식별등급으로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고, 등록된 컬럼 이름이 검색되지 않는 경우, 해당 조회 대상의 원본데이터를 미분류로 처리하는 컬럼 이름 분석부를 포함하는 것을 특징으로 하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템.
제1 항에 있어서,
상기 메타정보 분석부는,
상기 메타정보에 포함된 컬럼 이름 중 접두사(Prefix)와 접미사(Suffix) 문구를 제외한 컬럼 이름을 상기 컬럼이름사전에 조회하는 것을 특징으로 하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템.
제1 항에 있어서,
상기 메타정보 분석부는 컬럼 속성 분석부를 포함하고,
상기 컬럼 속성 분석부는,
상기 메타정보에 포함된 컬럼속성정보를 수집하고,
수집된 상기 컬럼속성정보 중 기본키(Primary Key) 속성이 존재하는 여부를 검사하고, 기본키(Primary Key) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고,
기본키(Primary Key) 속성이 존재하지 않는 경우 고유성(Unique) 속성이 존재하는지 여부를 검사하고, 고유성(Unique) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고,
고유성(Unique) 속성이 존재하지 않는 경우 자동 증가(Auto Incremental) 속성이 존재하는지 여부를 검사하고, 자동 증가(Auto Incremental) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고,
자동 증가(Auto Incremental) 속성이 존재하는 경우 해당 컬럼속성정보에 설명(description)이 존재하는지 여부를 검사하고, 설명(description)이 존재하는 경우 상기 문장 분류 모델을 통해 식별등급이 분류되도록 해당 검사 대상을 상기 문장 분류 모델로 전달하며, 자동 증가(Auto Incremental) 속성이 존재하지 않는 경우 해당 검사 대상의 원본데이터를 미분류로 처리하는 것을 특징으로 하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템.
제1 항에 있어서,
상기 메타정보 분석부는,
상기 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델의 입력데이터로서 입력하고, 해당 입력데이터에 포함되어 있는 상기 메타정보의 설명 문장에 대하여 데이터 정형화에 필요한 텍스트 처리를 수행하고, 해당 설명 문장 내 단어에 대한 수치화하는 워드 임베딩 작업을 수행하고, 수치화된 데이터를 입력 받아 상기 원본데이터에 대한 식별등급을 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하는 컬럼 설명 분석부를 포함하는 것을 특징으로 하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 시스템.
메타정보 수집부가, 비식별화 대상인 원본데이터의 메타정보를 수집하는 메타정보 수집 단계;
메타정보 분석부가, 상기 메타정보 수집 단계를 통해 수집된 상기 메타정보에 대하여 미리 등록된 컬럼 이름이 있는지 여부를 분석하고, 미리 정의된 컬럼 속성이 있는지 여부를 분석하며, 상기 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 입력데이터로 하여 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델을 이용한 분석 중 적어도 하나를 통해 상기 원본데이터에 대한 식별등급을 분류하는 메타정보 분석 단계; 및
식별등급분류 결과데이터 저장부가, 상기 메타정보 분석 단계를 통해 분류된 결과데이터를 저장하는 식별등급분류 결과데이터 저장 단계를 포함하는 것을 특징으로 하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 방법.
제6 항에 있어서,
상기 메타정보 분석 단계는,
국가행정표준용어를 식별등급으로 분류하고 사전화하여 구축된 컬럼이름사전에 상기 메타정보에 포함된 컬럼 이름을 조회하여 등록된 컬럼 이름이 검색되는 경우, 해당 조회 대상의 원본데이터를 상기 컬럼이름사전에서 검색된 해당 컬럼 이름에 대한 식별등급으로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고, 등록된 컬럼 이름이 검색되지 않는 경우, 해당 조회 대상의 원본데이터를 미분류로 처리하는 컬럼 이름 분석 단계를 포함하는 것을 특징으로 하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 방법.
제6 항에 있어서,
상기 메타정보 분석 단계는,
상기 메타정보에 포함된 컬럼 이름 중 접두사(Prefix)와 접미사(Suffix) 문구를 제외한 컬럼 이름을 상기 컬럼이름사전에 조회하는 것을 특징으로 하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 방법.
제6 항에 있어서,
상기 메타정보 분석 단계는 컬럼 속성 분석 단계를 포함하고,
상기 컬럼 속성 분석 단계는,
상기 메타정보에 포함된 컬럼속성정보를 수집하고,
수집된 상기 컬럼속성정보 중 기본키(Primary Key) 속성이 존재하는 여부를 검사하고, 기본키(Primary Key) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고,
기본키(Primary Key) 속성이 존재하지 않는 경우 고유성(Unique) 속성이 존재하는지 여부를 검사하고, 고유성(Unique) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고,
고유성(Unique) 속성이 존재하지 않는 경우 자동 증가(Auto Incremental) 속성이 존재하는지 여부를 검사하고, 자동 증가(Auto Incremental) 속성이 존재하는 경우 해당 검사 대상의 원본데이터를 식별자(ID)로 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하고,
자동 증가(Auto Incremental) 속성이 존재하는 경우 해당 컬럼속성정보에 설명(description)이 존재하는지 여부를 검사하고, 설명(description)이 존재하는 경우 상기 문장 분류 모델을 통해 식별등급이 분류되도록 해당 검사 대상을 상기 문장 분류 모델로 전달하며, 자동 증가(Auto Incremental) 속성이 존재하지 않는 경우 해당 검사 대상의 원본데이터를 미분류로 처리하는 것을 특징으로 하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 방법.
제6 항에 있어서,
상기 메타정보 분석 단계는,
상기 메타정보의 컬럼 속성 정보에 설명(description)이 존재하는 경우 해당 설명을 미리 구축된 딥러닝 알고리즘 기반의 문장 분류 모델의 입력데이터로서 입력하고, 해당 입력데이터에 포함되어 있는 상기 메타정보의 설명 문장에 대하여 데이터 정형화에 필요한 텍스트 처리를 수행하고, 해당 설명 문장 내 단어에 대한 수치화하는 워드 임베딩 작업을 수행하고, 수치화된 데이터를 입력 받아 상기 원본데이터에 대한 식별등급을 분류하여 해당 결과데이터를 상기 식별등급분류 결과데이터 저장부로 반환하는 컬럼 설명 분석 단계를 포함하는 것을 특징으로 하는 빅데이터 환경에서의 개인정보 비식별화 처리를 위한 데이터 필드 자동 분류 방법.