WO2018128207A1 - 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법{system and method for privacy presevation in skewed data} - Google Patents

왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법{system and method for privacy presevation in skewed data} Download PDF

Info

Publication number
WO2018128207A1
WO2018128207A1 PCT/KR2017/000221 KR2017000221W WO2018128207A1 WO 2018128207 A1 WO2018128207 A1 WO 2018128207A1 KR 2017000221 W KR2017000221 W KR 2017000221W WO 2018128207 A1 WO2018128207 A1 WO 2018128207A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency distribution
sensitive information
data
identifier
quasi
Prior art date
Application number
PCT/KR2017/000221
Other languages
English (en)
French (fr)
Inventor
홍충선
수하일사바
라즈샤시 판데이
Original Assignee
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경희대학교 산학협력단 filed Critical 경희대학교 산학협력단
Publication of WO2018128207A1 publication Critical patent/WO2018128207A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Definitions

  • the present invention relates to a privacy protection system and method for distorted data.
  • EHR electronic health record
  • PPDP Privacy Preserving Data Publishing
  • K-anonymous privacy model prevents identity exposure but does not provide sufficient protection against exposure of attribute values. Therefore, attribute values that contain highly sensitive personal information (eg patient diagnosis, salary, occupation, etc.) are likely to be exposed.
  • the purpose of the patent is to protect the privacy of individuals against distorted data through outsourcing and to optimize the usefulness of the data set.
  • a privacy protection system relates to a privacy protection system for distorted data, comprising: a table partitioner for dividing a micro data table by the number of partitions determined by a data owner, and a semi-identifier table and a sensitive information table.
  • each partition determined by the table partitioner includes a unique identifier, and the unique identifier may be the same for all records belonging to the same group.
  • the anonymization module may include a quasi-identifier table module for generating a quasi-identifier table including at least one element selected from the group consisting of age, gender, and zip code.
  • the anonymization module may include a sensitivity information table module for generating a sensitivity information table including sensitive information including at least one attribute selected from the group consisting of diseases and disorders.
  • a privacy protection method relates to a privacy protection method for distorted data, comprising: dividing a micro data table into a quasi-identifier table and a sensitive information table; calculating a frequency distribution in the sensitive information table; And assigning a weight according to a frequency distribution of the sensitive information table.
  • the weighting step may give more weight if the frequency distribution has a low value.
  • Privacy protection system and method for distorted data according to an embodiment of the present invention, to protect the privacy of the patient in the EMR / EHR data and to use the data for research and analysis purposes.
  • FIG. 1 shows a system model according to an embodiment of the invention.
  • 2 is a partitioned micro data table and an anonymous table schema.
  • FIG. 3 is a flowchart illustrating a process of forming an anonymization table according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating an anonymization table according to an embodiment of the present invention.
  • Embodiments according to the inventive concept may be variously modified and have various forms, so embodiments are illustrated in the drawings and described in detail herein. However, this is not intended to limit the embodiments in accordance with the concept of the present invention to specific embodiments, and includes modifications, equivalents, or substitutes included in the spirit and scope of the present invention.
  • first or second may be used to describe various components, but the components should not be limited by the terms. The terms are only for the purpose of distinguishing one component from another component, for example, without departing from the scope of the rights according to the inventive concept, the first component may be called a second component, Similarly, the second component may also be referred to as the first component.
  • the micro data table is partitioned and entered into the anonymization process.
  • the anonymization module splits the micro data table into two sub-anonymous tables.
  • QIT has patient demographic information
  • ST has patient sensitivity information.
  • Users searchers or analysts can outsource and query anonymized tables.
  • this patent extends the anatomical approach [4]. Divide the micro data table into two QIT and ST.
  • QIT has a quasi-identifier attribute value and divides the entire data by assigning a unique group ID.
  • each group ID and unique sensitive information attribute values of the QIT are included.
  • the frequency distribution column relates the percentage of each sensitive information in the quasi-identifier group to the corresponding frequency in the entire table.
  • the weight column has numeric values for sensitive attributes of each quasi-identifier group. Higher weights indicate that the frequency of specific sensitive information is higher in the quasi-identifier group.
  • the proposed privacy plan can be used to protect the medical data and privacy of patients suffering from chronic diseases.
  • the distribution of anonymized medical information may be used by researchers for statistical analysis (studying gender differences in health or disease incidence), data mining (using healthcare resources, supporting clinical decision support and integrating genomic data), and severity in specific areas of disease research. Can be. In addition, it can help pharmaceutical companies scrutinize doctors' prescription patterns.
  • micro data table records are divided into partitions or groups, the average table count is divided by the number of partitions determined by the data owner. To identify a specific group, a unique identifier is assigned to each group. Therefore, the corresponding ID value is the same for all records belonging to the same group.
  • 2 is a partitioned micro data table and an anonymous table schema.
  • the micro data table is divided into a quasi-identifier table (QIT) and a sensitivity information table (ST).
  • QIT quasi-identifier table
  • ST sensitivity information table
  • the anonymization module divides the micro data table into two tables: the quasi-identifier table (QIT) and the sensitive information table (ST).
  • QIT quasi-identifier table
  • ST sensitive information table
  • the quasi-identifier table consists of attributes (numeric or categorical) such as age, gender, postal code, for example. It consists of one additional column called the group identifier (G-ID).
  • the schema of QIT is as follows: For quasi-identifier and group IDs A1qi, A2qi, ..., Anqi (A1qi, A2qi, ..., Anqi, G-ID)
  • the sensitive information table consists of sensitive attributes (category), for example diseases or disorders. This assumes that the sensitive attribute values in the table are not very different. It consists of two additional columns, the frequency distribution (FD) and the weight.
  • the ST's schema is as follows: (G-ID, AS, FD, W)
  • G-ID is the same as the group identifier assigned to the quasi-identifier table, where AS is the sensitive attribute, FD is the frequency distribution, and W is each of the sensitive attributes.
  • the weight assigned to the distribution is
  • Weights are assigned to each distribution so that lower frequency distribution values are given more weight, and higher weight values are lower. This information is used by users or analysts while querying on anonymized tables.
  • FIG. 3 is a flowchart illustrating a process of forming an anonymization table according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating an anonymization table according to an embodiment of the present invention.
  • the micro data table is divided into partitions called groups, and a unique ID is assigned to each group, and a specific group is calculated to calculate a frequency distribution. Dividing the number of sensitive attribute values by the total number of attributes of the entire data table, and assigning a weight.
  • weights are assigned to each distribution so that lower frequency distributions are given more weights, and higher weights are assigned less weights, and this information can be retrieved by users or analysts while querying on anonymized tables. use.

Landscapes

  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시예에 따른 프라이버시 보호 시스템은 왜곡된 데이터에 대한 프라이버시 보호 시스템에 관한 것으로서, 마이크로 데이터 테이블을 데이터 소유자가 결정한 파티션 개수로 나누는 테이블 분할부, 마이크로 데이터 테이블을 준식별자 테이블과 민감정보 테이블로 나누는 익명화 모듈, 특정 그룹의 속성값의 수를 전체 데이터테이블의 속성값의 갯수로 나눠 빈도 분포를 계산하는 빈도분포모듈 및 상기 빈도분포에 할당되어 낮은 빈도분포값이 더 많은 가중치를 부여하는 가중치부여부를 포함한다.

Description

[규칙 제26조에 의한 보정 20.01.2017] 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법
본 발명은 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법에 관한 것이다.
환자의 인구 통계, 진단 코드, 약물, 알레르기, 병력 및 실험실 검사 결과에 대한 정보를 포함하는 전자 건강 기록(EHR) 시스템의 데이터가 다양한 목적으로 점점 더 많이 사용되고 있다. PPDP(Privacy Preserving Data Publishing) 프라이버시 모델과 알고리즘은 데이터 제공자가 삭제 메커니즘을 통해 프라이버시와 유용성간의 균형을 이루도록 한다. 이에 대해 데이터의 유용성을 최소화 하면서 프라이버시를 보장하는 삭제 메커니즘을 어떻게 설계할 것인가에 대한 이슈가 존재한다. 그에 대한 해결방안으로 Sweeney [1] 는 준식별자를 사용하여 연결 공격을 방지하는 k-익명성을 제안하였고 현재는 널리 알려져있다. K-익명성 프라이버시 모델은 신원 노출을 방지하지만 속성값들의 노출에 대해서는 충분한 보호를 제공하지 못한다. 그러므로 매우 민감한 개인 정보(예: 환자 진단, 급여, 직업 등)가 포함된 속성값들은 노출될 가능성이 있다.
Machaanavajjhala 등[2]은 k-익명성 모델의 이러한 문제를 강조하고 개인과 이러한 민감 정보간의 연관성을 보호하는데 초점을 맞춘 프라이버시 모델인 l-다양성을 제안했다. L-다양성 모델은 각 동질집합의 민감한 속성에 대하여 적어도 하나의 구분되는 민감 정보 값이 있어야 함을 제안한다. 앞서 언급한 두 가지 기법 모두 준식별자 값을 일반화하여 프라이버시를 보장한다. 그러나 속성값 일반화의 심각한 단점은 마이크로 데이터 집합에서 준식별자 속성의 계층이 많아질수록 상당한 양의 정보를 잃어버린다는 것이다[3]. 또한 고차원 공간에서는 각 일반화된 값이 항상 넓은 간격을 갖게되므로 연구목적으로는 쓸모가없는 데이터 테이블이 된다. 이러한 문제를 해결하기 위해 Xiao 등은 마이크로 데이터 집합에서 프라이버시와 상관관계를 보존하는 기술을 제안하여 일반화의 단점을 극복한다. 그러나 Xiao가 [4]에서 제안한 기법을 (동일한 값을 갖는)왜곡된 데이터에 적용하면 동질집합에서 같은 질병을 갖는 환자의 정확한 수를 알아낼 수 있다.
특허의 목적은 아웃소싱을 통해 왜곡된 데이터에 대하여 개인의 프라이버시를 보호하고 데이터 집합의 유용성을 최적화하는데 있다.
본 발명의 실시예에 따른 프라이버시 보호 시스템은 왜곡된 데이터에 대한 프라이버시 보호 시스템에 관한 것으로서, 마이크로 데이터 테이블을 데이터 소유자가 결정한 파티션 개수로 나누는 테이블 분할부, 마이크로 데이터 테이블을 준식별자 테이블과 민감정보 테이블로 나누는 익명화 모듈, 특정 그룹의 속성값의 수를 전체 데이터테이블의 속성값의 갯수로 나눠 빈도 분포를 계산하는 빈도분포모듈 및 상기 빈도분포에 할당되어 낮은 빈도분포값이 더 많은 가중치를 부여하는 가중치부여부를 포함한다.
여기서, 상기 테이블 분할부에서 결정된 각 파티션은 고유 식별자를 포함하며, 동일한 그룹에 속하는 모든 레코드에 고유 식별자는 동일할 수 있다.
여기서, 상기 익명화 모듈은 나이, 성별 및 우편번호로 이루어진 군에서 선택된 적어도 어느 하나의 요소를 포함하는 준식별자 테이블을 생성하는 준식별자 테이블모듈을 포함할 수 있다.
여기서, 상기 익명화 모듈은 질병, 장애로 이루어진 군에서 선택된 적어도 어느 하나의 속성을 포함하는 민감정보를 포함하는 민감정보 테이블을 생성하는 민감정보 테이블 모듈을 포함할 수 있다.
본 발명의 실시예에 따른 프라이버시 보호 방법은 왜곡된 데이터에 대한 프라이버시 보호 방법에 관한 것으로서, 마이크로 데이터 테이블을 준식별자 테이블과 민감정보 테이블로 분할하는 단계 상기 민감정보 테이블에 빈도분포를 연산하는 단계 및 상기 민감정보 테이블의 빈도분포에 따라서 가중치를 부여하는 단계를 포함한다.
여기서, 상기 가중치를 부여하는 단계는 빈도분포가 낮은 값을 갖는 경우 더 많은 가중치를 부여할 수 있다.
본 발명의 실시예에 따른 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법에 의하면, EMR / EHR 데이터에서 환자의 프라이버시를 보호하고 데이터를 연구 및 분석 목적으로 사용할 수 있도록 한다.
도 1은 본 발명의 실시예에 따른 시스템 모델을 나타낸다.
도 2는 분할 마이크로 데이터 테이블 및 익명화된 테이블 스키마이다.
도 3은 본 발명의 실시예에 따른 익명화 테이블을 형성하는 과정을 나타내는 순서도이다.
도 4는 본 발명의 실시예에 따른 익명화 테이블을 예시도이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
이하 본 발명의 실시예에 따른 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법에 관해서 도면을 통해서 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 시스템 모델을 나타낸다. 마이크로 데이터 테이블은 분할되어 익명화 프로세스에 입력된다. 익명화 모듈은 마이크로 데이터 테이블을 두 개의 하위 익명화 테이블로 분할한다. QIT는 환자의 인구 통계 정보를 가지며 ST는 환자의 민감 정보를 갖는다. 사용자(연구원 또는 분석가)는 아웃소싱을 거쳐 익명화된 테이블에 대하여 쿼리를 할 수 있다.
정적 데이터를 제공하는 경우 몇몇 민감한 속성값들이 다른 민감한 정보와 비교하여 데이터 집합에서 많이 나타나면 공격자는 높은 확률로 개인의 민감 정보를 추론할 수 있다. 본 제안사항에서는 심장 질환을 가진 환자만을 다루는 병원을 예를 들어 설명한다. 마이크로 데이터 테이블에는 협심증, 당뇨병, 빈맥의 3가지 속성값을 갖는 24개의 레코드가 존재한다고 가정하자. (협심증 21명, 당뇨병 1명, 고혈압 2명)
이 경우 어떤 개인은 심장질환을 갖게 될 가능성이 높다. 따라서 몇몇 프라이버시 모델은 편향된 데이터의 비율을 낮추어 공격자가 개개인을 식별할 수 있는 확률을 낮추는데 필요하다.
이를 해결하기 위해 본 특허에서는 해부학적 접근법[4]을 확장한다. 마이크로 데이터 테이블을 QIT와 ST 두 개로 나눈다. QIT에서는 준식별자 속성값을 가지며 전체 데이터를 고유한 그룹 ID를 할당하여 나눈다. ST에서는 QIT의 각 그룹 ID와 고유 민감 정보 속성값들을 갖는다. ST에는 빈도 분포와 가중치 두 개의 추가 열이 존재한다. 빈도 분포 열은 준식별자 그룹의 각 민감 정보의 백분율을 전체 테이블의 해당 빈도와 관련된다. 가중치 열은 각 준식별자 그룹의 민감한 속성에 대해 숫자 값을 갖는다. 가중치가 높을수록 특정 민감 정보의 빈도가 준식별자 그룹에서 더 높다는 것을 나타난다.
제안된 개인 정보 보호 계획은 만성 질환으로 고통받는 환자의 의료 데이터 및 프라이버시를 보호하는데 사용될 수 있다. 익명화된 의료 정보의 배포는 연구자가 통계 분석(건강 또는 질병 발생 빈도의 성별 차이 연구), 데이터 마이닝(건강 관리 자원 활용, 임상 의사 결정 지원과 게놈 데이터 통합) 및 질병 연구 특정 지역의 심각성 등에 활용될 수 있다. 그 외에도 제약회사가 의사의 처방 패턴을 면밀히 조사하는데 도움이 될 수 있다.
- Partition / QI-Group Formation : 마이크로 데이터 테이블 레코드
마이크로 데이터 테이블 레코드는 파티션 또는 그룹으로 나누어지므로 모든 파티션에는 평균 테이블 수가 데이터 소유자가 결정한 파티션 개수로 나눠진다. 특정 그룹을 식별하기 위해서 각 그룹에 고유 식별자가 지정된다. 따라서 동일한 그룹에 속하는 모든 레코드에 대한 해당 ID 값은 동일하다
도 2는 분할 마이크로 데이터 테이블 및 익명화된 테이블 스키마이다.
도 2에 도시된 바와 같이 마이크로 데이터 테이블을 준식별자 테이블(QIT)과 민감정보 테이블(ST)로 나눈다.
- Anonymization Module : 익명화 모듈
익명화 모듈은 마이크로 데이터 테이블을 준식별자 테이블(QIT)와 민감 정보 테이블(ST)이라는 두 개의 테이블로 나눈다. 테이블의 스키마는 다음과 같다.
a. QIT Schema:
준식별자 테이블은 예를 들어, 나이, 성별, 우편번호 등의 속성(숫자 또는 범주형)으로 구성된다. 그룹 식별자(G-ID)로 불리는 하나의 추가 열로 구성된다. QIT의 스키마는 다음과 같다: 준식별자 및 그룹 ID A1qi, A2qi,..., Anqi 에 대하여 (A1qi, A2qi,..., Anqi, G-ID )
b. ST Schema:
민감정보 테이블은 민감한 속성(카테고리), 예를 들어 질병 또는 장애 등으로 구성된다. 이 때 테이블에 존재하는 민감한 속성값이 많이 다르지 않다고 가정한다. 빈도 분포(FD)와 가중치라는 두 개의 추가 열로 구성된다. ST의 스키마는 다음과 같다 : (G-ID, AS, FD, W) G-ID는 준식별자 테이블에 할당된 그룹 식별자와 동일하며 AS 는 민감한 속성, FD는 빈도 분포, W는 민감한 속성의 각 분포에 할당된 가중치이다.
- Frequency Distribution and Weightage (FWD) Basic Module
a. Computation of Frequency Distribution:
빈도 분포를 계산하려면 특정 그룹의 민감한 속성값의 수를 전체 데이터 테이블의 민감한 속성의 총 개수로 나눈다.
b. Computation of Weightage:
가중치는 각 분포에 할당되어 낮은 빈도 분포 값이 더 많은 가중치가 주어지며, 높은 가중치 값은 가중치가 더 낮아진다. 이 정보는 익명화된 테이블에서 쿼리하는동안 사용자 또는 분석자가 사용한다.
도 3은 본 발명의 실시예에 따른 익명화 테이블을 형성하는 과정을 나타내는 순서도이다.
도 4는 본 발명의 실시예에 따른 익명화 테이블을 예시도이다.
도 3과 도 4에 도시된 바와 같이 본 발명의 실시예에 따른 익명화 테이블 형성과정은 마이크로 데이터 테이블은 그룹이라는 파티션으로 나누어지며 각 그룹에는 고유한 ID가 할당하는 단계, 빈도분포를 계산하려면 특정그룹의 민감한 속성값의 수를 전체데이터 테이블 속성의 총개수로 나누는 단계, 가중치를 부여하는 단계를 포함한다.
가중치를 부여하는 단계는 가중치는 각 분포에 할당되어 낮은 빈도분포값이 더 많은 가중치가 주어지며, 높은 가중치값은 가중치가 더 적게 할당되며, 이 정보는 익명화된 테이블에서 쿼리하는 동안 사용자 또는 분석자가 사용한다.

Claims (6)

  1. 왜곡된 데이터에 대한 프라이버시 보호 시스템에 관한 것으로서,
    마이크로 데이터 테이블을 데이터 소유자가 결정한 파티션 개수로 나누는 테이블 분할부;
    마이크로 데이터 테이블을 준식별자 테이블과 민감정보 테이블로 나누는 익명화 모듈;
    특정 그룹의 속성값의 수를 전체 데이터테이블의 속성값의 갯수로 나눠 빈도 분포를 계산하는 빈도분포모듈; 및
    상기 빈도분포에 할당되어 낮은 빈도분포값이 더 많은 가중치를 부여하는 가중치부여부를 포함하는 것을 특징으로 하는 프라이버시 보호 시스템.
  2. 제1항에 있어서,
    상기 테이블 분할부에서 결정된 각 파티션은 고유 식별자를 포함하며, 동일한 그룹에 속하는 모든 레코드에 고유 식별자는 동일한 것을 특징으로 하는 프라이버시 보호 시스템.
  3. 제1항에 있어서,
    상기 익명화 모듈은 나이, 성별 및 우편번호로 이루어진 군에서 선택된 적어도 어느 하나의 요소를 포함하는 준식별자 테이블을 생성하는 준식별자 테이블모듈을 포함하는 것을 특징으로 하는 프라이버시 보호 시스템.
  4. 제1항에 있어서,
    상기 익명화 모듈은 질병, 장애로 이루어진 군에서 선택된 적어도 어느 하나의 속성을 포함하는 민감정보를 포함하는 민감정보 테이블을 생성하는 민감정보 테이블 모듈을 포함하는 것을 특징으로 하는 프라이버시 보호 시스템.
  5. 왜곡된 데이터에 대한 프라이버시 보호 방법에 관한 것으로서,
    마이크로 데이터 테이블을 준식별자 테이블과 민감정보 테이블로 분할하는 단계;
    상기 민감정보 테이블에 빈도분포를 연산하는 단계; 및
    상기 민감정보 테이블의 빈도분포에 따라서 가중치를 부여하는 단계를 포함하는 것을 특징으로 하는 프라이버시 보호 방법.
  6. 제5항에 있어서,
    상기 가중치를 부여하는 단계는 빈도분포가 낮은 값을 갖는 경우 더 많은 가중치를 부여하는 것을 특징으로 하는 프라이버시 보호 방법.
PCT/KR2017/000221 2017-01-06 2017-01-06 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법{system and method for privacy presevation in skewed data} WO2018128207A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170002271A KR20180081261A (ko) 2017-01-06 2017-01-06 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법
KR10-2017-0002271 2017-01-06

Publications (1)

Publication Number Publication Date
WO2018128207A1 true WO2018128207A1 (ko) 2018-07-12

Family

ID=62789566

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/000221 WO2018128207A1 (ko) 2017-01-06 2017-01-06 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법{system and method for privacy presevation in skewed data}

Country Status (2)

Country Link
KR (1) KR20180081261A (ko)
WO (1) WO2018128207A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11159580B2 (en) 2019-09-25 2021-10-26 Brilliance Center Bv System for anonymously tracking and/or analysing web and/or internet visitors
US11404167B2 (en) * 2019-09-25 2022-08-02 Brilliance Center Bv System for anonymously tracking and/or analysing health in a population of subjects
CN115310135A (zh) * 2022-10-09 2022-11-08 北京中超伟业信息安全技术股份有限公司 一种基于隐匿模型的仓储数据安全存储方法及系统
US11930354B2 (en) 2019-09-25 2024-03-12 Mobitrax Ab Methods and systems for anonymously tracking and/or analysing movement of mobile communication devices connected to a mobile network or cellular network

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102055864B1 (ko) * 2019-05-08 2019-12-13 서강대학교 산학협력단 차분 프라이버시를 적용한 시간 간격 데이터 공개 방법
KR102405084B1 (ko) * 2020-02-27 2022-06-02 호서대학교 산학협력단 대규모 그래프 데이터에 대한 분산처리 비식별화 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100954075B1 (ko) * 2008-07-16 2010-04-23 성균관대학교산학협력단 동적 데이터의 배포시에 개인정보 보호방법 및 이를 이용한개인정보 보호 시스템
KR101197443B1 (ko) * 2010-12-07 2012-11-06 서울대학교산학협력단 K-익명성을 제공하는 정보 보호 방법 및 장치
KR20130024144A (ko) * 2011-08-30 2013-03-08 고려대학교 산학협력단 프라이버시를 보장하는 가중치 기반의 키워드 검색을 위한 방법 및 장치
JP2013161428A (ja) * 2012-02-08 2013-08-19 Hitachi Ltd 個人情報匿名化装置および方法
KR20150122162A (ko) * 2013-03-04 2015-10-30 톰슨 라이센싱 프라이버시 보호 카운팅을 위한 방법 및 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100954075B1 (ko) * 2008-07-16 2010-04-23 성균관대학교산학협력단 동적 데이터의 배포시에 개인정보 보호방법 및 이를 이용한개인정보 보호 시스템
KR101197443B1 (ko) * 2010-12-07 2012-11-06 서울대학교산학협력단 K-익명성을 제공하는 정보 보호 방법 및 장치
KR20130024144A (ko) * 2011-08-30 2013-03-08 고려대학교 산학협력단 프라이버시를 보장하는 가중치 기반의 키워드 검색을 위한 방법 및 장치
JP2013161428A (ja) * 2012-02-08 2013-08-19 Hitachi Ltd 個人情報匿名化装置および方法
KR20150122162A (ko) * 2013-03-04 2015-10-30 톰슨 라이센싱 프라이버시 보호 카운팅을 위한 방법 및 시스템

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11159580B2 (en) 2019-09-25 2021-10-26 Brilliance Center Bv System for anonymously tracking and/or analysing web and/or internet visitors
US11404167B2 (en) * 2019-09-25 2022-08-02 Brilliance Center Bv System for anonymously tracking and/or analysing health in a population of subjects
US11930354B2 (en) 2019-09-25 2024-03-12 Mobitrax Ab Methods and systems for anonymously tracking and/or analysing movement of mobile communication devices connected to a mobile network or cellular network
CN115310135A (zh) * 2022-10-09 2022-11-08 北京中超伟业信息安全技术股份有限公司 一种基于隐匿模型的仓储数据安全存储方法及系统
CN115310135B (zh) * 2022-10-09 2023-02-07 北京中超伟业信息安全技术股份有限公司 一种基于隐匿模型的仓储数据安全存储方法及系统

Also Published As

Publication number Publication date
KR20180081261A (ko) 2018-07-16

Similar Documents

Publication Publication Date Title
WO2018128207A1 (ko) 왜곡된 데이터에 대한 프라이버시 보호 시스템 및 방법{system and method for privacy presevation in skewed data}
Amezcua et al. Race and ethnicity on MS presentation and disease course
Amerio et al. Covid-19 pandemic impact on mental health: a web-based cross-sectional survey on a sample of Italian general practitioners
CN102790761B (zh) 一种区域医疗信息系统及访问权限控制方法
Roberts et al. Barbiturates for acute traumatic brain injury
Meid et al. Combinations of QTc-prolonging drugs: towards disentangling pharmacokinetic and pharmacodynamic effects in their potentially additive nature
Anjum et al. An efficient approach for publishing microdata for multiple sensitive attributes
Warren et al. A genomic score prognostic of outcome in trauma patients
US20100082371A1 (en) Patient Document Privacy And Disclosure Engine
Chandramouli A framework for multiple authorization types in a healthcare application system
US7580922B2 (en) Methods for relating data in healthcare databases
US20050260610A1 (en) Method for diagnosing and prescribing a regimen of therapy for human health risk
Maron-Katz et al. Individual patterns of abnormality in resting-state functional connectivity reveal two data-driven PTSD subgroups
Loukides et al. Utility-aware anonymization of diagnosis codes
WO2018169257A1 (ko) 개인의료정보데이터 관리방법 및 시스템
Jaarsma et al. Flexibility and safety in times of coronavirus disease 2019 (COVID-19): Implications for nurses and allied professionals in cardiology
Bennett et al. Linked records of children with traumatic brain injury
Turalde et al. Burnout among neurology residents during the COVID-19 pandemic: a national cross-sectional study
CN113707263A (zh) 基于群体划分的药物有效性评价方法、装置及计算机设备
Hu et al. Research on differential privacy for medical health big data processing
Muhuri Expenditures for Commonly Treated Conditions Among Older Adults: Estimates From the Medical Expenditure Panel Survey, 2019
CN111241581A (zh) 基于敏感度分层的多敏感属性隐私保护方法及系统
Pangalos et al. Improving the security of medical database systems
Wu et al. Determining the cost-savings threshold for HIV adherence intervention studies for persons with serious mental illness and HIV
Qu Security of human genomic data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17890283

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17890283

Country of ref document: EP

Kind code of ref document: A1