KR102126386B1 - K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치 - Google Patents

K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치 Download PDF

Info

Publication number
KR102126386B1
KR102126386B1 KR1020180104660A KR20180104660A KR102126386B1 KR 102126386 B1 KR102126386 B1 KR 102126386B1 KR 1020180104660 A KR1020180104660 A KR 1020180104660A KR 20180104660 A KR20180104660 A KR 20180104660A KR 102126386 B1 KR102126386 B1 KR 102126386B1
Authority
KR
South Korea
Prior art keywords
identification
column
records
data set
data
Prior art date
Application number
KR1020180104660A
Other languages
English (en)
Other versions
KR20200026559A (ko
Inventor
박성규
Original Assignee
(주)아이알컴퍼니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아이알컴퍼니 filed Critical (주)아이알컴퍼니
Priority to KR1020180104660A priority Critical patent/KR102126386B1/ko
Publication of KR20200026559A publication Critical patent/KR20200026559A/ko
Application granted granted Critical
Publication of KR102126386B1 publication Critical patent/KR102126386B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치에 관한 것으로, 본 발명에 따른 방법은 비식별화 대상 데이터 셋에 대해서 준식별자 속성에 대응하는 컬럼별 속성값 분포를 확인하는 단계, 컬럼별 속성값 분포를 고려하여 비식별화 대상 데이터 셋의 컬럼별로 비식별화 처리를 하는 1차 가공 단계, 1차 가공된 비식별화 대상 데이터 셋에서 하나 이상의 컬럼의 속성값이 동일한 레코드가 K 개 이상이면, 속성값이 동일한 레코드를 레코드 그룹으로 그룹핑하는 단계, 그리고 레코드 그룹에서 속성값이 동일하지 않은 컬럼의 속성값 분포를 고려하여 K-익명성 요건을 만족하도록 속성값이 동일하지 않은 컬럼에 대한 비식별화 처리를 하는 단계를 포함한다. 본 발명에 의하면 K-익명성 요건은 만족하되 데이터 뭉개짐을 최소화할 수 있으며, 비식별화 처리 속도를 향상하는 장점이 있다.

Description

K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치{Dataset De-identification Method and Apparatus Using K-anonymity Model}
본 발명은 데이터 셋 비식별화 방법 및 장치에 관한 것으로, 보다 자세하게는 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치에 관한 것이다.
개인정보가 포함된 데이터는 데이터 수집자(예를 들어 기업, 병원, 정부 등의 여러 기관)에 의하여 수집되고 이용된다. 데이터 수집자는 개인 맞춤형 서비스 등을 제공하기 위하여 고객 또는 사용자들의 방대한 개인정보를 수집하고 있다. 또한, 데이터 수집자는 수집된 데이터를 통합하여 제3의 기관(예를 들어, 데이터 분석 기관 등)에 데이터 분석을 의뢰할 수도 있다. 이때, 수집된 개인정보는 정보주체의 민감한 정보를 포함하고 있기 때문에, 유출시 각종 범죄에 악용될 가능성이 있다.
일반적으로 통계적으로 수집된 데이터는 식별자(identifier), 준 식별자(quasi-identifier, QI), 민감한 속성(sensitive attribute, SA)으로 구분한다. 개인의 신원을 명백히 나타내는 주민등록번호 등을 식별자라고 하며, 생년월일, 성별, 우편번호 등 개인의 특징을 나타내는 속성인 준 식별자는 직접적으로 대상을 알 수는 없지만 조합을 통해 간접적으로 개인 식별이 가능한 속성이다. 또한, 민감한 속성은 데이터 테이블이 제공하고자 하는 개인의 민감한 정보를 나타낸다.
일반적으로 민감한 속성에 대한 정보를 제공하기 위해, 식별자를 제거하고 준 식별자를 익명화함으로써 프라이버시 보호를 수행한다. 이를 위해 공개된 정보를 연결해서 민감한 정보를 알아내는 방법(연결 공격 : LinKage AttacK)을 막기 위한 프라이버시 보호 모델 중 하나인 K-익명성 기법이 이용된다.
K-익명성 모델은 공개된 데이터 집합에서 나이, 거주 지역과 같은 준식별자 속성값들이 동일한 레코드가 적어도 K개 존재해야 하는 것으로 정의가 되며, 비식별화된 개인정보의 재식별을 방지하기 위하여 K-익명성이 요구되고 있다.
도 1은 종래의 K-익명성 모델을 이용한 비식별화 과정을 설명하기 위해 제공되는 도면이다.
도 1을 참고하면, '성명', '나이', '주민등록번호', '주소' 등의 준 식별자에 대해서 K-익명성을 맞추기 위한 개수가 3으로 지정된 경우, K=3을 만족하기 어려운 컬럼에 해당하는 '성명', '주민등록번호'를 삭제하고, '나이'에 대해서는 5살 단위로 범주화를 하고, '주소'에 대해서 '동' 단위를 삭제하는 부분 삭제를 적용하였다(Round1). Round1에서 K=3을 만족하지 못하므로, '나이'에 대해서는 10살 단위로 범주화를 하고, '주소'에 대해서도 한 단계 더 부분 삭제를 적용하였다(ROUND2). Round2에서도 K=3을 만족하지 못하므로, '나이'에 대해서 추가로 '20-60'으로 범주화 처리를 하여 최종적으로 K=3을 만족시켰다.
이와 같이 종래의 K-익명성을 만족시키기 위해 바로 속성별 일반화 계층 트리의 조합으로 이루어진 계층 격자에 따라 일반화 단계를 높여가는 계층적 알고리즘을 적용할 경우, 분석에 활용할 수 있는 컬럼이 과도하게 삭제되거나, 데이터 비식별화 처리 후 데이터 뭉개짐이 심해져서, 분석 데이터로 활용이 어려워지는 문제점이 있었다.
한국공개특허 제10-2012-0063050호(공개일자: 2012-06-15) 한국등록특허 제1,652,328호(등록일자: 2016-08-24)
따라서 본 발명이 해결하고자 하는 기술적 과제는 데이터 뭉개짐을 최소화할 수 있는 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치를 제공하는 것이다.
상기한 기술적 과제를 해결하기 위한 본 발명에 따른 K-익명성 알고리즘 개선 데이터 비식별화 방법은 비식별화 대상 데이터 셋에 대해서 준식별자 속성에 대응하는 컬럼별 속성값 분포를 확인하는 단계, 상기 컬럼별 속성값 분포를 고려하여 상기 비식별화 대상 데이터 셋의 컬럼별로 비식별화 처리를 하는 1차 가공 단계, 상기 1차 가공된 비식별화 대상 데이터 셋에서 하나 이상의 컬럼의 속성값이 동일한 레코드가 K 개 이상이면, 상기 속성값이 동일한 레코드를 레코드 그룹으로 그룹핑하는 단계, 그리고 상기 레코드 그룹에서 속성값이 동일하지 않은 컬럼의 속성값 분포를 고려하여 K-익명성 요건을 만족하도록 속성값이 동일하지 않은 컬럼에 대한 비식별화 처리를 하는 단계를 포함한다.
상기 비식별화 처리는 가명처리, 총계처리, 데이터 삭제, 데이터범주화 및 데이터마스킹 중 하나일 수 있다.
상기 방법은, 상기 비식별화 대상 데이터 셋에서 K-익명성 요건을 만족하지 않는 레코드는 삭제하는 단계를 더 포함할 수 있다.
상기 비식별화 대상 데이터 셋의 전체 레코드 중에서 레코드 그룹으로 그룹핑되는 레코드의 비율이 미리 정해진 기준 이상이 되도록 상기 1차 가공 단계에서 비식별화 처리를 수행할 수 있다.
상기한 기술적 과제를 해결하기 위한 본 발명에 따른 K-익명성 알고리즘 개선 데이터 비식별화 장치는, 비식별화 대상 데이터 셋에 대해서 준식별자 속성에 대응하는 컬럼별 속성값 분포를 확인하는 분포 확인부, 상기 컬럼별 속성값 분포를 고려하여 상기 비식별화 대상 데이터 셋의 컬럼별로 비식별화 처리를 하는 1차 가공부, 상기 1차 가공된 비식별화 대상 데이터 셋에서 하나 이상의 컬럼의 속성값이 동일한 레코드가 K 개 이상이면, 상기 속성값이 동일한 레코드를 레코드 그룹으로 그룹핑하는 그룹핑부, 그리고 상기 레코드 그룹에서 속성값이 동일하지 않은 컬럼의 속성값 분포를 고려하여 K-익명성 요건을 만족하도록 속성값이 동일하지 않은 컬럼에 대한 비식별화 처리를 하는 데이터 비식별화부를 포함한다.
상기 장치는, 상기 비식별화 대상 데이터 셋에서 K-익명성 요건을 만족하지 않는 레코드는 삭제하는 데이터 삭제부를 더 포함할 수 있다.
상기 1차 가공부는, 상기 비식별화 대상 데이터 셋의 전체 레코드 중에서 레코드 그룹으로 그룹핑되는 레코드의 비율이 미리 정해진 기준 이상이 되도록 상기 1차 가공 단계에서 비식별화 처리를 수행할 수 있다.
컴퓨터에 상기 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함할 수 있다.
본 발명에 의하면 K-익명성 요건은 만족하되 데이터 뭉개짐을 최소화할 수 있으며, 비식별화 처리 속도를 향상하는 장점이 있다.
도 1은 종래의 K-익명성 모델을 이용한 비식별화 과정을 설명하기 위해 제공되는 도면이다.
도 2는 본 발명의 일 실시예에 따른 K-익명성 모델 이용 데이터 셋 비식별화 장치의 구성을 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 K-익명성 모델을 이용한 비식별화 과정을 설명하기 위해 제공되는 도면이다.
도 4는 본 발명의 일 실시예에 따른 K-익명성 모델 이용 데이터 셋 비식별화 장치의 동작을 설명하기 위해 제공되는 흐름도이다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
도 2는 본 발명의 일 실시예에 따른 K-익명성 모델 이용 데이터 셋 비식별화 장치의 구성을 나타낸 블록도이고, 도 3은 본 발명의 일 실시예에 따른 K-익명성 모델을 이용한 비식별화 과정을 설명하기 위해 제공되는 도면이다.
도 2를 참고하면, 본 발명의 일 실시예에 따른 K-익명성 모델 이용 데이터 셋 비식별화 장치(100)는 분포 확인부(110), 1차 가공부(120), 그룹핑부(130), 데이터 비식별화부(140) 및 데이터 삭제부(150)를 포함할 수 있다.
분포 확인부(110)는 비식별화 대상 데이터 셋에 대해서 준식별자 속성에 대응하는 컬럼별 속성값 분포를 확인할 수 있다.
비식별화 대상 데이터 셋(10)이 도 3에 예시한 것과 같이 성명, 나이, 주민등록번호 및 주소 등 준식별자 속성에 대응하는 복수 개의 컬럼(11, 12, 13, 14)으로 이루어져 있는 경우, 분포 확인부(110)는 컬럼별 속성값 분포를 확인할 수 있다.
1차 가공부(120)는 분포 확인부(110)에서 확인된 컬럼별 속성값 분포를 고려하여 비식별화 대상 데이터 셋(10)의 컬럼별로 비식별화 처리를 할 수 있다.
예컨대 성명 컬럼(11)의 경우 성명의 뒷부분 2글자에 대해 마스킹 처리를 하고, 나이 컬럼(12)의 경우 10살 단위로 범주화하면, 레코드(R1, R4, R7)와 레코드(R2, R3, R6)에 대해서는 부분적으로 성명 컬럼(11)과 나이 컬럼(12)에 대해서는 K-익명성 요건을 만족하게 할 수 있다. 여기서 K=3으로 설정된 것으로 가정한다. 한편 주민등록번호 컬럼(13)과 주소 컬럼(14)의 경우 속성값 분포 등을 고려할 때 K=3을 만족할 수 없으므로, 해당 컬럼에 대해서 데이터가 완전히 뭉개지기 직전 단계까지 비식별화 처리를 할 수 있다. 예컨대 주민등록번호 컬럼(13)은 주민등록번호의 맨 앞자리를 기준으로 60년생, 70년생, 80년생, 90년생 등으로 총계처리를 하고, 주소 컬럼(14)은 경기도, 서울시 등의 최상위 행정 단위를 남기고 나머지 주소는 부분 삭제 처리를 할 수 있다.
1차 가공부(120)에서 수행되는 비식별화 처리는 일반적으로 알려진 17가지 방법이 해당 컬럼의 속성을 고려하여 적용될 수 있다. 예컨대 가명 처리 기법에 해당하는 휴리스틱 가명화, 암호화, 교환방법, 총계 처리 기법에 해당하는 총계 처리(총합 평균), 부분 총계, 라운딩, 재배열, 데이터 삭제 기법에 해당하는 식별자 삭제, 식별자 부분 삭제, 레코드 삭제, 식별요소 전부 삭제, 데이터 범주화 기법에 해당하는 감추기, 랜덤 라운딩, 범위 방법, 제어 라운딩, 데이터 마스킹 기법에 해당하는 임의 잡음 추가, 공백과 대체 등 17가지 방법이 적용될 수 있다.
그룹핑부(130)는 1차 가공된 비식별화 대상 데이터 셋(20)에서 하나 이상의 컬럼의 속성값이 동일한 레코드가 K 개 이상이면(여기서 K=3), 속성값이 동일한 레코드를 레코드 그룹으로 그룹핑할 수 있다. 그룹핑부(130)는 레코드(R1, R4, R7)와 레코드(R2, R3, R6)를 각각 하나의 그룹으로 그룹핑할 수 있다.
데이터 비식별화부(140)는 레코드 그룹별로 각각 속성값이 동일하지 않은 컬럼의 속성값 분포를 고려하여 K-익명성 요건을 만족하도록 속성값이 동일하지 않은 컬럼에 대한 비식별화 처리를 할 수 있다. 예컨대 레코드(R1, R4, R7) 그룹에 대해서 속성값이 동일하지 않은 컬럼(13, 14)의 속성값 분포를 고려하여, 컬럼(13)에 대해서는 속성값을 '90년생'으로 비식별화를 수행하고, 컬럼(14)에 대해서는 '서울-경기도'로 비식별화를 수행할 수 있다. 마찬가지로 레코드(R2, R3, R6)에 대해서도 속성값이 동일하지 않은 컬럼(13, 14)의 속성값 분포를 고려하여, 컬럼(13)에 대해서는 속성값을 '70-80년생'으로 비식별화를 수행하고, 컬럼(14)에 대해서는 '서울-경기도'로 비식별화를 수행할 수 있다.
주민등록번호 컬럼(13)의 경우, 레코드(R1, R4, R7) 그룹의 경우 90년생으로도 K-익명성 요건을 만족하므로 추가적인 비식별화를 더 수행하지 않았고, 레코드(R2, R3, R6)의 경우는 70년생과 80년생이 포함되어 있으므로, '70-80년생'으로 비식별화를 수행할 수 있다. 이와 같이 컬럼별로 일반화 정도를 다르게 할 수 있다. 레코드(R1, R4, R7) 그룹에 비해서 레코드(R2, R3, R6)의 일반화가 더 수행되었다.
데이터 삭제부(150)는 데이터 비식별화부(140)에 의해 비식별화가 수행된 비식별화 대상 데이터 셋(30)에서 K-익명성 요건을 만족하지 않는 레코드(R5)를 삭제할 수 있다. 최초 비식별화 대상 데이터 셋(10)에 포함된 모든 레코드에 대해서 K-익명성 요건을 만족시키려면, 데이터 뭉개짐 현상이 심화될 수 있으므로, 레코드(R5)를 삭제하여, 최종적으로 데이터 셋 비식별화를 완료할 수 있다.
도 4는 본 발명의 일 실시예에 따른 K-익명성 모델 이용 데이터 셋 비식별화 장치의 동작을 설명하기 위해 제공되는 흐름도이다.
도 4를 참고하면, 먼저 분포 확인부(110)는 비식별화 대상 데이터 셋에 대해서 준식별자 속성에 대응하는 컬럼별 속성값 분포를 확인할 수 있다(S410).
다음으로 1차 가공부(120)는 분포 확인부(110)에서 확인된 컬럼별 속성값 분포를 고려하여 비식별화 대상 데이터 셋(10)의 컬럼별로 비식별화 처리를 할 수 있다(S420).
단계(S420)에서 1차 가공부(120)는 비식별화 대상 데이터 셋의 전체 레코드 중에서 레코드 그룹으로 그룹핑되는 레코드의 비율이 미리 정해진 기준 이상이 되도록 1차 가공 단계에서 비식별화 처리를 수행할 수 있다.
이후 그룹핑부(130)는 1차 가공된 비식별화 대상 데이터 셋(20)에서 하나 이상의 컬럼의 속성값이 동일한 레코드가 K 개 이상이면, 속성값이 동일한 레코드를 레코드 그룹으로 그룹핑할 수 있다(S430).
다음으로 데이터 비식별화부(140)는 레코드 그룹별로 각각 속성값이 동일하지 않은 컬럼의 속성값 분포를 고려하여 K-익명성 요건을 만족하도록 속성값이 동일하지 않은 컬럼에 대한 비식별화 처리를 할 수 있다(S440).
마지막으로 데이터 삭제부(150)는 데이터 비식별화부(140)에 의해 비식별화가 수행된 비식별화 대상 데이터 셋(30)에서 K-익명성 요건을 만족하지 않는 레코드(R5)를 삭제할 수 있다(S450). 최초 비식별화 대상 데이터 셋(10)에 포함된 모든 레코드에 대해서 K-익명성 요건을 만족시키려면, 데이터 뭉개짐 현상이 심화될 수 있으므로, 레코드(R5)를 삭제하여, 최종적으로 데이터 셋 비식별화를 완료할 수 있다.
본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 앞서 설명한 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disK)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치 등이 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
110: 분포 확인부
120: 1차 가공부
130: 그룹핑부
140: 데이터 비식별화부
150: 데이터 삭제부

Claims (9)

  1. 준식별자 속성에 대응하는 복수 개의 컬럼을 포함하는 비식별화 대상 데이터 셋에 대해서 준식별자 속성에 대응하는 컬럼별 속성값 분포를 확인하는 단계,
    상기 비식별화 대상 데이터 셋의 전체 레코드 중에서 레코드 그룹으로 그룹핑되는 레코드의 비율이 미리 정해진 기준 이상이 되도록 상기 컬럼별 속성값 분포를 고려하여 상기 비식별화 대상 데이터 셋의 컬럼별로 비식별화 처리를 하는 1차 가공 단계,
    상기 1차 가공된 비식별화 대상 데이터 셋에서 하나 이상의 컬럼의 속성값이 동일한 레코드가 K 개 이상이면, 상기 속성값이 동일한 레코드를 레코드 그룹으로 그룹핑하는 단계, 그리고
    상기 레코드 그룹에서 속성값이 동일하지 않은 컬럼의 속성값 분포를 고려하여 K-익명성 요건을 만족하도록 속성값이 동일하지 않은 컬럼에 대한 비식별화 처리를 레코드 그룹별로 하는 단계
    를 포함하는 K-익명성 알고리즘 개선 데이터 비식별화 방법.
  2. 제 1 항에서,
    상기 비식별화 처리는 가명처리, 총계처리, 데이터 삭제, 데이터범주화 및 데이터마스킹 중 하나인 K-익명성 알고리즘 개선 데이터 비식별화 방법.
  3. 제 1 항에서,
    상기 비식별화 대상 데이터 셋에서 K-익명성 요건을 만족하지 않는 레코드는 삭제하는 단계
    를 더 포함하는 K-익명성 알고리즘 개선 데이터 비식별화 방법.
  4. 삭제
  5. 준식별자 속성에 대응하는 복수 개의 컬럼을 포함하는 비식별화 대상 데이터 셋에 대해서 준식별자 속성에 대응하는 컬럼별 속성값 분포를 확인하는 분포 확인부,
    상기 비식별화 대상 데이터 셋의 전체 레코드 중에서 레코드 그룹으로 그룹핑되는 레코드의 비율이 미리 정해진 기준 이상이 되도록 상기 컬럼별 속성값 분포를 고려하여 상기 비식별화 대상 데이터 셋의 컬럼별로 비식별화 처리를 하는 1차 가공부,
    상기 1차 가공된 비식별화 대상 데이터 셋에서 하나 이상의 컬럼의 속성값이 동일한 레코드가 K 개 이상이면, 상기 속성값이 동일한 레코드를 레코드 그룹으로 그룹핑하는 그룹핑부, 그리고
    상기 레코드 그룹에서 속성값이 동일하지 않은 컬럼의 속성값 분포를 고려하여 K-익명성 요건을 만족하도록 속성값이 동일하지 않은 컬럼에 대한 비식별화 처리를 레코드 그룹별로 하는 데이터 비식별화부
    를 포함하는 K-익명성 알고리즘 개선 데이터 비식별화 장치.
  6. 제 5 항에서,
    상기 비식별화 처리는 가명처리, 총계처리, 데이터 삭제, 데이터범주화 및 데이터마스킹 중 하나인 K-익명성 알고리즘 개선 데이터 비식별화 장치.
  7. 제 6 항에서,
    상기 비식별화 대상 데이터 셋에서 K-익명성 요건을 만족하지 않는 레코드는 삭제하는 데이터 삭제부
    를 더 포함하는 K-익명성 알고리즘 개선 데이터 비식별화 장치.
  8. 삭제
  9. 컴퓨터에 제 1 항 내지 제 3 항 중 어느 한 항에 기재된 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020180104660A 2018-09-03 2018-09-03 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치 KR102126386B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180104660A KR102126386B1 (ko) 2018-09-03 2018-09-03 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180104660A KR102126386B1 (ko) 2018-09-03 2018-09-03 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200026559A KR20200026559A (ko) 2020-03-11
KR102126386B1 true KR102126386B1 (ko) 2020-06-24

Family

ID=69809754

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180104660A KR102126386B1 (ko) 2018-09-03 2018-09-03 K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102126386B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102670080B1 (ko) * 2023-08-09 2024-05-28 (주)이지서티 데이터 재식별 가능성 감소를 위한 데이터 처리 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013183250A1 (ja) * 2012-06-04 2013-12-12 日本電気株式会社 匿名化を行う情報処理装置及び匿名化方法
JP2014106691A (ja) 2012-11-27 2014-06-09 Fujitsu Ltd 匿名化処理方法及び装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100954075B1 (ko) * 2008-07-16 2010-04-23 성균관대학교산학협력단 동적 데이터의 배포시에 개인정보 보호방법 및 이를 이용한개인정보 보호 시스템
KR101197443B1 (ko) 2010-12-07 2012-11-06 서울대학교산학협력단 K-익명성을 제공하는 정보 보호 방법 및 장치
KR101652328B1 (ko) 2015-10-14 2016-08-31 고려대학교 산학협력단 익명화 기법을 이용한 데이터 수집 방법 및 시스템
KR101973949B1 (ko) * 2016-11-29 2019-04-30 주식회사 파수닷컴 목적에 따라 비식별화된 데이터를 최적화하는 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013183250A1 (ja) * 2012-06-04 2013-12-12 日本電気株式会社 匿名化を行う情報処理装置及び匿名化方法
JP2014106691A (ja) 2012-11-27 2014-06-09 Fujitsu Ltd 匿名化処理方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102670080B1 (ko) * 2023-08-09 2024-05-28 (주)이지서티 데이터 재식별 가능성 감소를 위한 데이터 처리 방법

Also Published As

Publication number Publication date
KR20200026559A (ko) 2020-03-11

Similar Documents

Publication Publication Date Title
US11652608B2 (en) System and method to protect sensitive information via distributed trust
Garfinkel Forensic feature extraction and cross-drive analysis
Eryurek et al. Data governance: The definitive guide
CA2906475C (en) Method and apparatus for substitution scheme for anonymizing personally identifiable information
US20070255704A1 (en) Method and system of de-identification of a record
Schmidlin et al. Privacy preserving probabilistic record linkage (P3RL): a novel method for linking existing health-related data and maintaining participant confidentiality
US20140136941A1 (en) Focused Personal Identifying Information Redaction
WO2013088681A1 (ja) 匿名化装置、匿名化方法、並びにコンピュータ・プログラム
WO2022064348A1 (en) Protecting sensitive data in documents
US11128469B1 (en) Block chain proof for identification
Morgado et al. A security model for access control in graph-oriented databases
US9148410B2 (en) Recording medium storing data processing program, data processing apparatus and data processing system
Bender et al. Privacy and confidentiality
Lee et al. Re-identification of medical records by optimum quasi-identifiers
Khan et al. Development of national health data warehouse Bangladesh: Privacy issues and a practical solution
KR102126386B1 (ko) K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치
Lee et al. What are the optimum quasi-identifiers to re-identify medical records?
de Oliveira Silva et al. Privacy and data mining: Evaluating the impact of data anonymization on classification algorithms
RU2309450C1 (ru) Способ защиты частной информации пользователя в системе обработки информации
JP5839460B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
Cavoukian et al. De-identification protocols: essential for protecting privacy
Terry Developments in genetic and epigenetic data protection in behavioral and mental health spaces
Dutta et al. Comparative analysis of anonymization techniques
Kumar et al. Privacy-preservation of vertically partitioned electronic health record using perturbation methods
KR102113680B1 (ko) 빅 데이터 비식별화 처리 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant