KR101879266B1 - 개인정보 비식별화 검증 시스템 - Google Patents

개인정보 비식별화 검증 시스템 Download PDF

Info

Publication number
KR101879266B1
KR101879266B1 KR1020160124219A KR20160124219A KR101879266B1 KR 101879266 B1 KR101879266 B1 KR 101879266B1 KR 1020160124219 A KR1020160124219 A KR 1020160124219A KR 20160124219 A KR20160124219 A KR 20160124219A KR 101879266 B1 KR101879266 B1 KR 101879266B1
Authority
KR
South Korea
Prior art keywords
identifier
attribute
data
sensitivity
semi
Prior art date
Application number
KR1020160124219A
Other languages
English (en)
Other versions
KR20180034108A (ko
Inventor
최원균
유기근
이원섭
Original Assignee
(주)조은아이앤에스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)조은아이앤에스 filed Critical (주)조은아이앤에스
Priority to KR1020160124219A priority Critical patent/KR101879266B1/ko
Publication of KR20180034108A publication Critical patent/KR20180034108A/ko
Application granted granted Critical
Publication of KR101879266B1 publication Critical patent/KR101879266B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은, 개인정보가 포함된 데이터에 대하여 개인정보의 비식별화가 적정하게 이루어졌는지를 검증할 수 있는 개인정보 비식별화 검증 시스템을 제공하는데 있다.

Description

개인정보 비식별화 검증 시스템{a System for verifing unidentifiable Personal Information}
본 발명은 개인정보가 포함된 데이터에 대하여 개인정보의 비식별화가 적정하게 이루어졌는지를 검증하는 시스템에 관한 것이다.
최근 스마트폰, 태블릿 PC와 같은 이동 통신 단말기의 보급이 대중화되고 소셜 네트워크 서비스(SNS, Social Network Service), 사물 네트워크(M2M, Machine To Machine), 센서 네트워크(Sensor Network) 등의 사용이 증가함에 따라 데이터의 양, 생성 속도 및 그 다양성이 기하급수적으로 증가하고 있다.
빅데이터란, 기존의 기업 환경이나 공공 기관에서 사용되는 정형화된 데이터는 물론, 전자상거래 데이터, 메타데이터, 웹로그, 무선식별(RFID) 데이터, 센서 네트워크 데이터, 소셜 네트워크 데이터, 소셜 데이터, 인터넷 텍스트와 문서, 인터넷 검색 인덱싱 등 기존에 미처 활용되지 못하던 비정형화 또는 반정형화된 데이터를 모두 포함하는 데이터로서, 이와 같은 데이터는 일반적으로 보통의 소프트웨어 툴 및 컴퓨터 시스템으로는 다루기 어려운 수준의 데이터 양을 갖게 된다는 의미에서 빅데이터(Big Data)라 칭하고 있다.
최근 들어, 기업뿐만 아니라 정부에서도, 다양하게 수집된 빅데이터 정보 및 그를 활용한 통계 분석 데이터를 의사 결정과 정책 결정 등에 적극적으로 활용하고자하는 시도가 이어지고 있으며, 빅데이터를 활용하여 데이터 중심의 컴퓨팅 환경을 구축하기 위한 빅데이터 처리 기술이 활발하게 연구되고 있다.
한편, 빅데이터는 해당 자료가 수집되는 조직 내에서 분석하여 활용하게 되지만, 자료를 수집하는 조직에 따라 수집되는 데이터의 속성에 차이가 있어 다른 조직의 자료를 활용할 필요가 발생하며, 자료를 수집할 능력이나 시스템이 갖추어져 있지 않은 조직의 경우에도 타 조직의 빅데이터나 그들의 조합으로부터 해당 조직이 독특하게 필요로 하는 정보를 분석하여 의사결정에 활용할 필요성이 대두되고 있다.
또한, 특정의 개인에 관한 정보도 수많은 단체로부터 얻을 수 있다. 나아가, 병원, 연구소, 은행, 보험 회사 및 소매업자 등의 건강, 금융 및 영리 단체는 연구 및 개발, 마케팅 및 다른 상업 목적을 위해서 이용 가능한 데이터를 소유하고 있다.
그러나, 빅데이터의 성격상 데이터의 양이 방대할 뿐만 아니라, 대부분의 빅데이터에는 개인신상에 대한 정보가 필연적으로 포함될 수 밖에 없는 바, 개인 신상 정보의 유출에 따른 법적 분쟁이 발생할 소지가 다분하기 때문에, 빅데이터의 조직간의 교류나 유통에는 한계가 있었으며, 이에 따라, 빅데이터의 수집이 가능한 조직의 입장에서는, 개인 신상정보의 유출에 따른 법적 분쟁의 발생을 피하기 위해, 빅데이터 자체를 사업적 목적으로 가공하여 유통하기보다는, 특정 목적에 필요한 정보만을 대상으로 이를 군집화(clustering) 작업이나 통계분석 작업을 통해 통계적 정보 수준으로 가공하여 제공하고 있는 실정이므로, 빅데이터의 활용을 필요로 하는 조직의 입장에서는 조직의 독특한 사업 환경에 꼭 필요로 하는 분석 자료를 획득하기가 어렵다는 문제점이 있었다.
한편, 통계 결과 데이터가 아닌 통계 분석용으로서의 빅데이터 자체를 사업적 목적으로 가공하여 유통하기 위하여, 마스킹, 치환, 반식별화, 유형화 등을 통해 개인 속성을 비식별화하는 방법이 일각에서 적용되고 있다.
마스킹은, 대상정보를 마스킹 또는 삭제하는 것이고(예; 670101-10491910 → **************), 치환은 대상정보에 대응하여 생성된 정보로 치환하는 것이며(예; 670101-10491910 → ID2311331), 반식별화는 대상 정보의 일부만 나타내도록 반식별화하는 것이고(예; 670101-10491910 → 67-1), 유형화는 대상정보를 유형화시켜 구분하는 방식(예; 670101-10491910 → 남자)이다.
그러나, 개인 정보를 마스킹, 치환, 반식별화, 유형화 등에 의해 비식별화 한다 하더라도, 조합(Mash-Up)이나 역추적을 통해 개인정보의 유출 위험이 존재한다는 단점이 있다.
이에, 대한민국특허10-1630752호인 유통용 비식별 빅데이터 처리방법에서는 개인정보의 유출 우려없이 데이터를 비식별하는 방법에 대하여 제시하고 있으나, 개인식별 요소를 제거한 데이터라도 데이터의 연결 및 추론을 통해 개인정보를 재식별할 위험을 내포하는 문제점이 있다. 따라서, 데이터의 연결 및 추론에 의하더라도 개인정보의 비식별화가 적정하게 수행되었는지에 대해 검토할 필요성은 여전히 존재하게 된다.
따라서, 정보주체의 개인정보를 보호하면서, 데이터 개방, 공유 및 빅데이터 분석 활성화를 위해서는 개인정보가 포함된 데이터에 대한 개인정보 식별 요소 제거 조치가 적정하게 이루어졌는지를 확인하기 위한 체계적이고 객관적인 검증 방안이 요구된다.
본 발명에서 해결하고자 하는 과제는 개인정보가 포함된 데이터에 대하여 개인정보의 비식별화가 적정하게 이루어졌는지를 검증할 수 있는 개인정보 비식별화 검증 시스템을 제공하는데 있다.
본 발명은 상술한 과제를 해결하고자 다음과 같은 수단을 포함한다.
본 발명에 따른 개인정보 비식별화 검증 시스템은 데이터를 저장하는 저장부와, 상기 저장부의 데이터를 처리하는 데이터처리부를 포함하며, 상기 데이터처리부는, 상기 저장부에 저장된 데이터를 파싱하여 식별자, 준식별자와 민감속성으로 분류하는 속성구분부와, 상기 속성구분부를 거친 데이터의 개인정보가 재식별화되는지 여부를 검증하는 재식별감시부를 포함하며,
상기 재식별감시부는, 식별자가 비식별화되었는지를 판단하는 식별자판단모듈과, 준식별자개량값과 준식별자기준치를 비교판단하는 준식별자판단모듈과, 민감속성개량값과 민감속성기준치를 비교판단하는 민감속성판단모듈을 추가로 포함하는 것을 특징으로 한다.
또한, 상기 준식별자기준치는, 준식별자가 민감정보로 사용되는 경우에 가중치를 부여하는 준식별자가중치를 추가로 포함하는 것을 특징으로 한다.
상기 민감속성기준치는, 유출시 위험도에 따라 가중치를 부여하는 민감속성가중치를 추가로 포함하는 것을 특징으로 한다.
상기 민감속성가중치는, 민감속성이 복수개일 경우에 복수개 각각의 민감속성가중치를 합산하여 민감속성가중치를 형성하는 것을 특징으로 한다.
상기 재식별감시부는, 식별자가 식별화되지 않은 경우에 해당 레코드를 사용자에게 알려주는 식별자파싱모듈을 추가로 포함하는 것을 특징으로 한다.
상기 재식별감시부는, 준식별자가 식별화되지 않은 경우에 해당 레코드를 사용자에게 알려주는 준식별자파싱모듈을 추가로 포함하는 것을 특징으로 한다.
상기 재식별감시부는, 민감속성이 식별화되지 않은 경우에 해당 레코드를 사용자에게 알려주는 민감속성파싱모듈을 추가로 포함하는 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따른 개인정보 비식별화 검증시스템은 데이터를 저장하는 저장부와, 상기 저장부의 데이터를 처리하는 데이터처리부를 포함하며, 상기 데이터처리부는, 상기 저장부에 저장된 데이터를 파싱하여 식별자, 준식별자와 민감속성으로 분류하는 속성구분부와, 상기 속성구분부를 거친 데이터의 개인정보가 재식별화되는지 여부를 검증하는 재식별감시부를 포함하며, 상기 재식별감시부는, 식별자가 비식별화되었는지를 판단하는 식별자판단모듈과, 준식별자개량값과 준식별자기준치를 비교판단하는 준식별자판단모듈과, 동일한 속성의 준식별자가 있는 데이터테이블 내의 레코드의 민감속성개량값과 민감속성기준치를 비교판단하는 민감속성판단모듈을 추가로 포함하는 것을 특징으로 한다.
상기 개인정보 비식별화 검증 시스템은, 준식별자개량값이 준식별자기준치보다 큰 것을 특징으로 한다.
상기 민감속성개량값이 민감속성기준치보다 큰 것을 특징으로 한다.
본 발명은 개인정보가 포함된 데이터에 대하여 개인정보의 비식별화가 적정하게 이루어졌는지를 검증할 수 있는 효과를 도모한다.
또한, 본 발명은 개인정보가 포함된 데이터에 대하여 개인정보의 비식별화가 이루어지지 않을 경우에 해당 레코드를 제공함으로써 원본데이터에서 비식별화가 이루어지지 않은 부분을 쉽게 수정 보완할 수 있는 효과를 제공한다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.
본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고 유사하게 제2 구성 요소는 제1 구성 요소로도 명명될 수 있다.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 명세서에서, 사용자 단말은 이동국(mobile station), 이동 단말(mobile terminal), 가입자국(subscriber station), 휴대 가입자국(portable subscriber station), 사용자 장치(user equipment), 접근 단말(access terminal) 등을 지칭할 수 있고, 이동국, 이동 단말, 가입자국, 휴대 가입자 국, 사용자 장치, 접근 단말 등의 전부 또는 일부의 기능을 포함하는 것일 수 있다.
또한, 단말은 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 태블릿(tablet) PC, 무선전화기(wireless phone), 모바일폰(mobile phone), 스마트 폰(smart phone), 스마트 워치(smart watch), 스마트 글래스(smart glass) 등의 형태를 가질 수 있다.
이하, 본 발명을 상세하게 설명한다. 다만, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다.
본 발명에 따른 개인정보 비식별화 검증시스템은 저장부, 데이터처리부를 포함한다.
저장부는 개인정보가 포함된 데이터를 저장하는 것이다. 저장된 데이터는 다양한 형태로 저장될 수 있으나, 하기 표 1에서 확인할 수 있듯이, 본 발명에서 저장된 데이터는 통계적으로 유의미한 의미를 지니기 위하여 식별자, 준식별자, 민감속성을 포함하는 방식으로 구성되어 있으며, 이를 데이터테이블이라고 부른다. 데이터 테이블의 각열은 레코드라 하고 각행은 식별자, 준식별자, 민감속성의 속성을 나타내는 것으로 지칭한다.

식별자 준식별자 민감속성
주민번호 성별 우편번호 병명
레코드 730102-1932212 482010
레코드 740210-2932110 482750
레코드 681210-1922410 471120 감기
레코드 691250-2931129 420880 당뇨
상기 데이터처리부는 저장부에 연결되어 저장부에 저장된 프로그램을 수행하는 프로세서에 탑재될 수 있다. 즉, 데이터처리부는 프로세서의 적어도 일부 기능이나 모듈 또는 이러한 모듈에 상응하는 기능을 수행하는 구성부로 구현될 수 있다.
여기서, 프로세서는 마이크로프로세서(Microprocessor), 중앙 처리 장치(CPU: Central Processing Unit), 또는 이와 유사한 수단이나 이러한 수단에 상응하는 기능을 수행하는 구성부를 포함할 수 있다. 프로세서는 계산을 수행하는 연산장치(Arithmetic Logic Unit: ALU), 데이터 및 명령어의 일시적인 저장을 위한 레지스터, 그리고 미들웨어들 간의 인터페이스 장치를 제어하거나 관리하기 위한 컨트롤러를 구비할 수 있다. 프로세서는, 서로 다른 기능을 수행하는 복수의 모듈 중 하나 이상을 레지스터의 소정 영역에 로드(load)하고, 각 모듈의 작용이나 이들의 상호작용에 의해 빅데이터 등을 분석하고 분석 결과를 출력할 수 있다.
이러한 프로세서는 디지털(Digital) 사의 알파(Alpha), MIPS 테크놀로지, NEC, IDT, 지멘스(Siemens) 등의 MIPS, 인텔(Intel)과 사이릭스(Cyrix), AMD 및 넥스젠(Nexgen)을 포함하는 회사의 x86 및 IBM과 모토롤라(Motorola)의 파워PC(PowerPC)와 같이 다양한 아키텍처(Architecture)를 구비할 수 있으나, 이에 한정되지는 않는다.
상기 데이터처리부는 속성구분부와 재식별감시부를 포함한다.
상기 속성구분부는 상기 저장부에 저장된 데이터를 파싱하여 식별자, 준식별자와 민감속성으로 분류하여 데이터테이블화한다.
본 발명에서 명명하는 식별자(Identifiers)는 그 자체로 개인의 신원을 명백히 나타내는 것을 지칭하는 것으로서 주민등록번호, 여권번호, 운전면허번호, 의료보험번호, 계좌번호, 사업자등록번호, 아이디 등을 포함한다.
또한, 준식별자(Key Attributes)는 직접적으로 대상을 알 수는 없지만 조합을 통해 간접적으로 개인 식별이 가능한 것으로서, 생년월일, 성별, 우편번호 등을 포함한다.
또한, 민감속성(Sensitive)은 개인에 대한 민감한 정보를 포함하는 특성으로서, 금융정보, 병명, 건강상태 등을 포함하는 것으로서 데이터가 유통될 경우에 통계적으로 사용되는 정보를 말한다.
상기 재식별감시부는 상기 속성구분부에서 파싱된 데이터테이블의 레코드인 개인정보가 재식별화되는지 여부를 검증한다.
일반적으로 개인정보가 포함된 데이터는 배포 및 공개하기 전에 가명처리, 총계처리, 범주화, 데이터 마스킹 등 개인 식별 요소를 제거하여 데이터로부터 개인을 명백히 파악할 수 있는 주민등록번호 등의 식별자를 삭제 또는 변경하더라도, 다른 데이터와 연계하여 분석하면 개인정보가 노출되는 문제가 있다.
투표인명부
이름 나이 성별 우편번호
홍길동 25 53711
이영희 28 55410
김희영 31 90210
... ... ... ...
진료기록
나이 성별 우편번호 병명
25 53711 독감
25 53712 간염
27 53712 에이즈
... ... ... ...
표 2와 표 3은 유권자 정보와 의학정보를 연계해서 환자의 신원을 확인할 수 있음을 보여주는 것으로서 표 3에서 식별자를 제거하였으나 표 2와 연계하면 홍길동의 성별, 연령, 우편번호는 물론, 질병정보까지 공개되는 문제가 있다.
따라서, 개인정보가 재식별되는 지 여부를 검증하기 위하여 재식별감시부는 식별자판단모듈과, 준식별자판단모듈과, 민감속성판단모듈을 추가로 포함한다.
상기 식별자판단모듈은 식별자가 비식별화되었는지를 판단하는 것으로서, 식별자는 그 자체로 개인의 신원을 명백히 나타내는 것으로서, 식별자가 가명처리, 총계처리, 데이터값 삭제, 범주화, 마스킹 등의 방법으로 비식별되었는지를 판단하는 것으로서, 상기 각각의 비식별방법에 따라 식별자의 비식별여부를 판단할 수 있게 형성될 수 있으나, 그 구체적인 방법은 본 발명의 요지를 흐리지 않기 위해 상세한 설명은 생략한다.
상기 준식별자판단모듈은 준식별자개량값과 준식별자기준치를 비교판단하는 것으로서, 준식별자가 가명처리, 총계처리, 데이터값 삭제, 범주화, 마스킹 등의 개인정보 비식별화방법으로 비식별되었을 경우에 데이터테이블 내의 레코드에서 동일한 속성의 준식별자개량값이 준식별자기준치보다 클 경우에 준식별자가 비식별화되었다고 판단하게 된다.
상기 준식별자개량값은 상기 속성구분부에서 분류된 다양한 개인정보 비식별화방법에 의해 비식별된 동일한 속성의 준식별자의 개수를 지칭하고, 준식별자기준치는 사용자의 나이, 성별, 우편번호 등의 준식별자에 대하여 각각 저장부에 저장되어 있도록 하고, 바람직하게는 준식별자기준치가 2이상인 것이 적합하다.
식별자 나이 성별 우편번호
A1 20-24 482***
A2 20-24 482***
A3 20-24 482***
A4 45-49 420***
A5 45-49 420***
A6 45-49 420***
A7 30-34 410***
A8 30-34 410***
A9 30-34 410***
상기 표 4와 같은 데이터테이블이 있는 경우에 준식별자판단모듈에서, 준식별자기준치를 2로 설정할 경우에 동일한 속성의 준식별자개량값은 3으로서 준식별자기준치인 2보다 크다고 판단함으로 인해 준식별자에 대한 비식별화 검증은 만족한다고 판단한다.
즉, 상기 A1, A2와 A3는 동일한 준식별자 속성을 가지고 있으므로 준식별자개량값이 3으로서 구분할 수 없으며, A4, A5와 A6도 구분할 수 없고, A7, A8와 A9도 구분할 수 없게 되어 비식별화가 되었다고 판단할 수 있다.
한편, 본 발명의 다른 실시예에 따르면, 준식별자기준치는 준식별자가 민감정보, 즉 유통되는 실사용데이터로 사용되는 경우에 가중치를 부여하는 준식별자가중치를 추가로 포함할 수 있다. 이 경우 준식별자기준치는 기 설정된 준식별자기준치에 준식별자가중치를 데이터처리부에서 합산하여 준식별자판단모듈로 제공된다. 이는 준식별자의 속성이 민감정보보다 개인정보를 재식별할 수 있는 가능성이 높기 때문에 준식별자기준치를 높일 수 있도록 한다.
상기 민감속성판단모듈은 민감속성개량값과 민감속성기준치를 비교판단하는 것으로서, 데이터테이블 내의 레코드에서 동일한 속성의 민감속성에 대한 민감속성개량값이 민감속성기준치보다 클 경우에 민감속성이 비식별화가 되었다고 판단하는 것이 적합하다.
상기 민감속성개량값은 상기 속성구분부에서 분류된 동일한 속성의 민감속성의 개수를 지칭하고, 민감속성기준치는 각각의 민감속성에 대하여 각각 저장부에 저장되어 있도록 하고, 바람직하게는 민감속성기준치가 2 이상인 것이 적합하다.
상기 식별자판단모듈, 준식별자판단모듈과 민감속성판단모듈에서 모두 적합하다 판단되면 데이터처리부로 신호를 보내고, 저장부에 저장되었던 데이터는 개인정보가 비식별화가 되었다는 검증사인을 사용자 단말의 디스플레이로 보여주게 된다.
식별자 나이 성별 우편번호 병명
A1 20-24 82***
A2 20-24 82***
A3 20-24 82***
A4 45-49 20*** 감기
A5 45-49 20*** 감기
A6 45-49 20*** 당뇨
A7 30-34 10*** 피부염
A8 30-34 10*** 뇌출열
A9 30-34 10*** 폐혈증
한편, 본 발명의 또 다른 실시예에 따르면, 상기 민감속성개량값은 동일한 속성의 준식별자가 있는 데이터테이블 내의 레코드의 민감속성개량값과 민감속성기준치를 비교판단하는 민감속성판단모듈을 추가로 포함하는 것을 특징으로 한다.
상기 표 5에서 볼 수 있듯이, 민감속성기준치가 2일 경우에, A1, A2, A3는 준식별자개량값은 3이나, 민감속성개량값은 1이다. 따라서, A1, A2, A3의 병명은 반드시 암이라는 사실을 알 수 있게 된다. 이는 다른 데이터테이블과 연계하게 되면 개인정보가 재식별될 가능성이 높게 된다. 따라서, 동일한 속성의 준식별자가 있는 데이터테이블 내의 레코드의 민감속성개량값이 민감속성기준치보다 커야 재식별가능성이 없을 것이다. 한편, A7, A8, A9는 민감속성개량값이 3으로서 민감속성기준값인 2보다 커 재식별가능성이 없을 것이다.
또한, 상기 민감속성기준치는 유출시 위험도에 따라 각각의 민감속성에 가중치를 부여하는 민감속성가중치를 추가로 포함할 수 있다. 이 경우 민감속성기준치는 기 설정된 민감속성기준치에 민감속성가중치를 데이터처리부에서 합산하여 민감속성판단모듈로 제공한다. 이는 유출시 위험도가 높은 민감속성에 대하여는 민감속성기준치를 높여 재식별가능성을 더욱 낮추기 위함이다.
나아가, 본 발명의 다른 실시예에 따르면 상기 민감속성가중치는, 유통되는 민감속성이 복수개, 예를 들면 병명, 혈액형, 체중 등의 민감속성을 제공하는 데이터를 제공하는 경우라면, 각각의 속성에 따른 민감속성가중치를 합산하는 것을 포함한다. 이는 제공되는 민감속성데이터가 많으면 개인신상이 재식별될 가능성이 상대적으로 높아 민감속성기준치를 높여서 검증절차를 면밀하게 할 필요가 있기 때문이다.
본 발명에서 각각의 기준치와 가중치는 준식별자, 민감속성에 따라 사용자가 저장부에 저장하여 각각의 판단모듈에 제공하거나, 데이터처리부에서 처리하여 각각의 판단모듈에 제공될 수 있으나, 이에 한정되는 것은 아니다.
한편, 본 발명의 다른 실시예에 따르면, 재식별감시부는 식별자파싱모듈, 준식별자파싱모듈, 민감속성파싱모듈을 추가로 포함하여 데이터가 개인정보 비식별화 검증 시스템을 통과하지 못한 경우에 해당 레코드를 사용자에게 알려주어 사용자가 신속히 이를 수정 보완하도록 할 수 있다.
상기 식별자파싱모듈은 식별자판단모듈에서 식별자가 비식별되었을 경우에 해당 레코드의 정보를 파싱하여 데이터처리부로 보내고, 데이터처리부에서 사용자단말로 그 정보를 디스플레이하여 사용자가 데이터가 개인정보 비식별화 검증시스템을 통과할 수 있도록 수정 보완할 수 있게 하나, 이에 한정되는 것은 아니다.
나아가, 상기 준식별자파싱모듈과 민감속성파싱모듈도 본 발명에 따른 검증시스템에서 식별화되지 않은 경우에 해당 레코드의 정보를 파싱하여 데이터처리부로 보내고 그 정보를 디스플레이하여 사용자가 데이터가 개인정보 비식별화 검증시스템을 통과할 수 있도록 수정 보완할 수 있게 하나, 이에 한정되는 것은 아니다.

Claims (10)

  1. 데이터를 저장하는 저장부와, 상기 저장부의 데이터를 처리하는 데이터처리부를 포함하며,
    상기 데이터처리부는,
    상기 저장부에 저장된 데이터를 파싱하여 식별자, 준식별자와 민감속성으로 분류하는 속성구분부와; 상기 속성구분부를 거친 데이터의 개인정보가 재식별화되는지 여부를 검증하는 재식별감시부;를 포함하며,
    상기 재식별감시부는,
    식별자가 비식별화되었는지를 판단하는 식별자판단모듈과, 준식별자개량값과 준식별자기준치를 비교하여 준식별자개량값이 준식별자기준치 이하인 경우 비식별화되지 않은 것으로 판단하는 준식별자판단모듈과, 민감속성개량값과 민감속성기준치를 비교하여 민감속성개량값이 민감속성기준치 이하인 경우 비식별화되지 않은 것으로 판단하는 민감속성판단모듈을 포함하고,
    상기 준식별자기준치는 준식별자가 민감정보로 사용되는 경우에 가중치를 부여하는 준식별자가중치를 포함하며,
    상기 민감속성기준치는 유출시 위험도에 따라 가중치를 부여하는 민감속성가중치를 포함하고,
    상기 민감속성가중치는 민감속성이 복수개일 경우에 복수개 각각의 민감속성가중치를 합산하여 민감속성가중치를 형성하도록 하며,
    상기 재식별감시부는 식별자가 비식별화되지 않은 경우에 해당 레코드를 사용자에게 알려주는 식별자파싱모듈과, 준식별자가 비식별화되지 않은 경우에 해당 레코드를 사용자에게 알려주는 준식별자파싱모듈과, 민감속성이 비식별화되지 않은 경우에 해당 레코드를 사용자에게 알려주는 민감속성파싱모듈을 포함하는 것을 특징으로 하는 개인정보 비식별화 검증 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
KR1020160124219A 2016-09-27 2016-09-27 개인정보 비식별화 검증 시스템 KR101879266B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160124219A KR101879266B1 (ko) 2016-09-27 2016-09-27 개인정보 비식별화 검증 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160124219A KR101879266B1 (ko) 2016-09-27 2016-09-27 개인정보 비식별화 검증 시스템

Publications (2)

Publication Number Publication Date
KR20180034108A KR20180034108A (ko) 2018-04-04
KR101879266B1 true KR101879266B1 (ko) 2018-07-17

Family

ID=61975829

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160124219A KR101879266B1 (ko) 2016-09-27 2016-09-27 개인정보 비식별화 검증 시스템

Country Status (1)

Country Link
KR (1) KR101879266B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102067926B1 (ko) * 2019-04-10 2020-01-17 주식회사 데이타솔루션 전자문서에 포함된 개인정보 비식별화 장치 및 방법
KR102357935B1 (ko) 2021-07-05 2022-02-08 주식회사 데이타스 가명정보 처리 및 재식별 가능성 평가 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102218374B1 (ko) * 2019-04-17 2021-02-19 연세대학교 산학협력단 비정형 트랜잭션 비식별 데이터의 품질 측정 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060056233A (ko) * 2004-11-19 2006-05-24 마이크로소프트 코포레이션 개체 모델들에의 프라이버시 표시
WO2012127987A1 (ja) * 2011-03-24 2012-09-27 日本電気株式会社 情報監視装置及び情報監視方法
JP2016018379A (ja) * 2014-07-08 2016-02-01 Kddi株式会社 プライバシー保護装置、方法及びプログラム
KR20160028952A (ko) * 2015-08-20 2016-03-14 한국과학기술정보연구원 개인정보를 보호하는 장치, 개인정보를 보호하는 방법 및 개인정보를 보호하는 프로그램을 저장하는 저장매체

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060056233A (ko) * 2004-11-19 2006-05-24 마이크로소프트 코포레이션 개체 모델들에의 프라이버시 표시
WO2012127987A1 (ja) * 2011-03-24 2012-09-27 日本電気株式会社 情報監視装置及び情報監視方法
JP2016018379A (ja) * 2014-07-08 2016-02-01 Kddi株式会社 プライバシー保護装置、方法及びプログラム
KR20160028952A (ko) * 2015-08-20 2016-03-14 한국과학기술정보연구원 개인정보를 보호하는 장치, 개인정보를 보호하는 방법 및 개인정보를 보호하는 프로그램을 저장하는 저장매체

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102067926B1 (ko) * 2019-04-10 2020-01-17 주식회사 데이타솔루션 전자문서에 포함된 개인정보 비식별화 장치 및 방법
KR102357935B1 (ko) 2021-07-05 2022-02-08 주식회사 데이타스 가명정보 처리 및 재식별 가능성 평가 시스템

Also Published As

Publication number Publication date
KR20180034108A (ko) 2018-04-04

Similar Documents

Publication Publication Date Title
KR101982954B1 (ko) 헬스케어 데이터 상호 교환 시스템 및 방법
US20210150269A1 (en) Anonymizing data for preserving privacy during use for federated machine learning
Hatamian et al. Revealing the unrevealed: Mining smartphone users privacy perception on app markets
US8984583B2 (en) Healthcare privacy breach prevention through integrated audit and access control
Xiang et al. Privacy protection and secondary use of health data: strategies and methods
Davari et al. Access control model extensions to support data privacy protection based on GDPR
US20190236310A1 (en) Self-contained system for de-identifying unstructured data in healthcare records
KR101879266B1 (ko) 개인정보 비식별화 검증 시스템
KR20200067596A (ko) 블록체인을 이용한 의료정보관리시스템
US20160301706A1 (en) Enriched system for suspicious interaction record detection
CN113726784B (zh) 一种网络数据的安全监控方法、装置、设备及存储介质
CN109636641A (zh) 基于大数据分析的医保异常检测方法、装置、设备和介质
KR20160066454A (ko) 유통용 비식별 빅데이터 처리 방법
Flors-Sidro et al. Analysis of diabetes apps to assess privacy-related permissions: systematic search of apps
CN113902574A (zh) 协议数据处理方法、装置、计算机设备及存储介质
Kumar et al. Privacy preservation of electronic health record: Current status and future direction
de Oliveira Silva et al. Privacy and data mining: Evaluating the impact of data anonymization on classification algorithms
Zhang et al. Bearings fault diagnosis based on adaptive local iterative filtering–multiscale permutation entropy and multinomial logistic model with group-lasso
Sei et al. Re-identification in differentially private incomplete datasets
Cho et al. Double privacy layer architecture for big data framework
Soni et al. Expenditures for commonly treated conditions among adults age 18 and older in the US civilian noninstitutionalized population, 2013
Asare-Frempong et al. Exploring the Impact of Big Data in Healthcare and Techniques in Preserving Patients' Privacy
EP4060543A1 (en) System and method for risk aware data anonymization
James et al. Participatory personalization in classification
Simoes et al. Information Extraction tasks: a survey

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant