KR102648905B1 - Method and device for privacy-constrained data perturbation - Google Patents

Method and device for privacy-constrained data perturbation Download PDF

Info

Publication number
KR102648905B1
KR102648905B1 KR1020230023048A KR20230023048A KR102648905B1 KR 102648905 B1 KR102648905 B1 KR 102648905B1 KR 1020230023048 A KR1020230023048 A KR 1020230023048A KR 20230023048 A KR20230023048 A KR 20230023048A KR 102648905 B1 KR102648905 B1 KR 102648905B1
Authority
KR
South Korea
Prior art keywords
data
record
privacy protection
records
noise
Prior art date
Application number
KR1020230023048A
Other languages
Korean (ko)
Inventor
정연돈
장덕연
Original Assignee
(주)이지서티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)이지서티 filed Critical (주)이지서티
Priority to KR1020230023048A priority Critical patent/KR102648905B1/en
Application granted granted Critical
Publication of KR102648905B1 publication Critical patent/KR102648905B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K1/00Secret communication
    • H04K1/02Secret communication by adding a second signal to make the desired signal unintelligible
    • H04K1/025Secret communication by adding a second signal to make the desired signal unintelligible using an analogue chaotic signal

Abstract

프라이버시 보호 수준을 설정할 수 있는 데이터 변조 방법 및 장치가 개시된다. 상기 프라이버시 보호 수준을 설정할 수 있는 데이터 변조 방법은 적어도 프로세서(processor)를 포함하는 컴퓨팅 장치에 의해 수행되는 데이터 변조 방법으로써, 각각이 복수의 속성 값들을 갖는 복수의 레코드들을 포함하는 데이터를 획득하는 단계, 상기 복수의 레코드들 중 하나의 레코드에 노이즈를 부가하여 변조된 레코드를 생성하는 단계, 및 상기 변조된 레코드가 미리 정해진 프라이버시 보호 수준을 만족하는지 판단하는 단계를 포함한다.A data modification method and device capable of setting a privacy protection level are disclosed. The data modification method capable of setting the privacy protection level is a data modification method performed by a computing device including at least a processor, and includes the steps of obtaining data including a plurality of records each having a plurality of attribute values. , generating a modified record by adding noise to one of the plurality of records, and determining whether the modified record satisfies a predetermined privacy protection level.

Description

프라이버시 보호 수준을 설정할 수 있는 데이터 변조 방법 및 장치{METHOD AND DEVICE FOR PRIVACY-CONSTRAINED DATA PERTURBATION}Data tampering method and device capable of setting a privacy protection level {METHOD AND DEVICE FOR PRIVACY-CONSTRAINED DATA PERTURBATION}

본 발명은 프라이버시 보호 수준을 설정할 수 있는 데이터 변조 방법에 관한 것이다.The present invention relates to a data modification method that can set a privacy protection level.

데이터베이스는 분석 과정이나 공개 과정에서 유출되어서는 안 되는 개인의 민감한 정보를 포함하고 있기 때문에, 데이터 프라이버시(data privacy)는 매우 중요하다. 데이터 변조(data perturbation)는 원본 데이터에 변화를 주어 익명성을 보장하면서 활용 가능한 데이터를 생성하는 것을 의미한다. 데이터 변조는 개인 정보 보호가 필요한 데이터의 배포 시에 효율적이다. 현재까지 사용되는 데이터 변조 방식은 데이터 처리자가 주관에 따라 임의의 노이즈(noise, 잡음)을 원본 데이터에 추가하는 방식으로, 프라이버시 보호 정도에 대한 정량적 지표가 존재하지 않는다.Data privacy is very important because databases contain sensitive personal information that should not be disclosed during analysis or disclosure. Data perturbation means creating usable data while ensuring anonymity by changing the original data. Data modification is efficient when distributing data that requires privacy protection. The data modulation method used to date is a method in which the data processor adds random noise to the original data according to the subjectivity, and there is no quantitative indicator for the degree of privacy protection.

따라서, 본 발명에서는 관계형 데이터의 변조를 위한 정량적인 프라이버시 보호 기준을 제시하고, 이 기준을 만족하는 새로운 데이터 변조 기법을 제안한다.Therefore, the present invention proposes quantitative privacy protection standards for falsifying relational data and proposes a new data falsification technique that satisfies these standards.

대한민국 공개특허 제2019-0010091호 (2019.01.30. 공개)Republic of Korea Patent Publication No. 2019-0010091 (published on January 30, 2019) 대한민국 등록특허 제1652328호 (2016.08.31. 공고)Republic of Korea Patent No. 1652328 (announced on August 31, 2016) 대한민국 공개특허 제2022-0003380호 (2022.01.10. 공개)Republic of Korea Patent Publication No. 2022-0003380 (published on January 10, 2022) 대한민국 등록특허 제2035796호 (2019.10.24. 공고)Republic of Korea Patent No. 2035796 (announced on October 24, 2019)

본 발명이 이루고자 하는 기술적인 과제는 프라이버시 보호 수준을 설정할 수 있는 데이터 변조 방법을 제공하는 것이다.The technical problem to be achieved by the present invention is to provide a data modification method that can set a privacy protection level.

본 발명의 일 실시예에 따른 데이터 변조 방법은 적어도 프로세서(processor)를 포함하는 컴퓨팅 장치에 의해 수행되는 데이터 변조 방법으로써, 각각이 복수의 속성 값들을 갖는 복수의 레코드들을 포함하는 데이터를 획득하는 단계, 상기 복수의 레코드들 중 하나의 레코드에 노이즈를 부가하여 변조된 레코드를 생성하는 단계, 및 상기 변조된 레코드가 미리 정해진 프라이버시 보호 수준을 만족하는지 판단하는 단계를 포함한다.A data modulation method according to an embodiment of the present invention is a data modulation method performed by a computing device including at least a processor, and includes the steps of obtaining data including a plurality of records each having a plurality of attribute values. , generating a modified record by adding noise to one of the plurality of records, and determining whether the modified record satisfies a predetermined privacy protection level.

본 발명의 실시예에 따른, 프라이버시 보호 수준을 설정할 수 있는 데이터 변조 방법 및 장치에 의할 경우, 설정된 보호 수준을 만족하는 변조된 데이터 셋을 획득할 수 있는 효과가 있다.In the case of using a data modification method and device that can set a privacy protection level according to an embodiment of the present invention, it is possible to obtain a modified data set that satisfies the set protection level.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 ρ-RDP 프레임워크를 나타내는 알고리즘 1을 도시한다.
도 2는 본 발명의 실시예에 의할 경우의 쿼리 결과를 도시한다.
도 3은 본 발명의 일 실시예에 따른 데이터 변조 방법을 설명하기 위한 흐름도이다.
In order to more fully understand the drawings cited in the detailed description of the present invention, a detailed description of each drawing is provided.
Figure 1 shows Algorithm 1, representing the ρ-RDP framework.
Figure 2 shows query results according to an embodiment of the present invention.
Figure 3 is a flowchart for explaining a data modulation method according to an embodiment of the present invention.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.Specific structural or functional descriptions of the embodiments according to the concept of the present invention disclosed in this specification are merely illustrative for the purpose of explaining the embodiments according to the concept of the present invention. They may be implemented in various forms and are not limited to the embodiments described herein.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.Since the embodiments according to the concept of the present invention can make various changes and have various forms, the embodiments will be illustrated in the drawings and described in detail in this specification. However, this is not intended to limit the embodiments according to the concept of the present invention to specific disclosed forms, and includes all changes, equivalents, or substitutes included in the spirit and technical scope of the present invention.

제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고 유사하게 제2 구성 요소는 제1 구성 요소로도 명명될 수 있다.Terms such as first or second may be used to describe various components, but the components should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another component, for example, without departing from the scope of rights according to the concept of the present invention, a first component may be named a second component and similarly a second component The component may also be named a first component.

어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.When a component is said to be “connected” or “connected” to another component, it is understood that it may be directly connected to or connected to that other component, but that other components may also exist in between. It should be. On the other hand, when it is mentioned that a component is “directly connected” or “directly connected” to another component, it should be understood that there are no other components in between. Other expressions that describe the relationship between components, such as "between" and "immediately between" or "neighboring" and "directly adjacent to" should be interpreted similarly.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in this specification are only used to describe specific embodiments and are not intended to limit the invention. Singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, terms such as “comprise” or “have” are intended to designate the presence of features, numbers, steps, operations, components, parts, or combinations thereof described in this specification, but are not intended to indicate the presence of one or more other features. It should be understood that this does not exclude in advance the possibility of the existence or addition of elements, numbers, steps, operations, components, parts, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by a person of ordinary skill in the technical field to which the present invention pertains. Terms as defined in commonly used dictionaries should be interpreted as having meanings consistent with the meanings they have in the context of the related technology, and unless clearly defined in this specification, should not be interpreted in an idealized or overly formal sense. No.

이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시예들을 상세히 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings attached to this specification. However, the scope of the patent application is not limited or limited by these examples. The same reference numerals in each drawing indicate the same members.

데이터 분석(data analysis)과 데이터 마이닝(data mining) 분야에서 데이터 프라이버시는 매우 중요하다. 그러나, 전통적인 비식별화(de-identification) 기법은 개개인의 프라이버시를 보호하기에 충분하지 않다. AOL이나 Netflix 경우와 같이, 비식별화된 데이터셋으로부터 재식별(re-identification)되는 실제 케이스들이 있었다. 게다가, 멤버쉽 추론(membership inference)이나 모델 전도 공격(model inversion attacks)과 같은 다양한 프라이버시 위반 시나리오들(privacy breach scenarios)이 알려져 있다. 본 발명에서는 이러한 문제점을 해결하기 위해, 프라이버시 보호 수준을 설정할 수 있는 데이터 변조 방법을 제안하고자 한다.Data privacy is very important in the fields of data analysis and data mining. However, traditional de-identification techniques are not sufficient to protect individual privacy. There have been real cases of re-identification from de-identified datasets, such as in the case of AOL or Netflix. Additionally, various privacy breach scenarios are known, such as membership inference or model inversion attacks. In order to solve this problem, the present invention proposes a data modification method that can set the privacy protection level.

관계(relation) R은 N 개의 레코드들 ri(i=1~N, N은 임의의 자연수)로 구성된다. 여기서, 레코드 ri는 M 개의 독립적인 속성 값들 rij(j=1~M, 0≤rij≤1, M은 임의의 자연수)로 구성된다. 모든 속성들은 연속적이고 [0,1]의 범위를 갖는다. 실제로, 어떠한 수치라도, 적절한 스케일링(scaling)과 변환(transforming)을 통해, 사용될 수 있다. 카테고리 속성들(categorical attributes) 역시, 연관된 스코어 함수들(scoring functions)과 거리 측정(distance measures)이 명시된다면, 이용될 수 있다. 본 발명에서, 관계는 어떠한 식별 속성들(identifying attributes)도 포함하지 않는 것으로 가정한다.Relationship R consists of N records r i (i=1~N, N is any natural number). Here, record r i consists of M independent attribute values r ij (j=1~M, 0≤r ij ≤1, M is any natural number). All properties are continuous and have the range [0,1]. In fact, any number can be used, with appropriate scaling and transforming. Categorical attributes can also be used, provided the associated scoring functions and distance measures are specified. In the present invention, it is assumed that the relationship does not contain any identifying attributes.

Definition 1 (RDP): M 개의 속성들을 갖는 N 개의 레코드들의 관계 R에 대하여, 관계형 데이터 변조(relational data perturbation)의 문제는 R로부터 N 개의 데이터 레코드들 를 포함하는 관계 R′을 생성하는 것이다. 여기서, (i=1~N,j=1~M)이고, X는 [-1,1] 내의 랜덤 노이즈이다. Definition 1 (RDP): For a relationship R of N records with M attributes, the problem of relational data perturbation is the problem of relational data perturbation of N data records from R. The goal is to create a relationship R′ containing . here, (i=1~N,j=1~M), and X is random noise within [-1,1].

RDP는 오리지널 데이터 레코드들의 속성 값들을 랜덤화한다. 무작위성(randomness)으로 인해, 프라이버시 유출은 확률적으로 제한된다. 그러나, 보호해야 하는 정도에 대한 기준이 존재하지 않아 사용이 어려움 문제점이 있다. 따라서, 기준이 될 수 있는 프라이버시 보호 기준이 필요하다.RDP randomizes attribute values of original data records. Due to randomness, privacy leaks are limited to probabilities. However, there is no standard for the degree of protection, making it difficult to use. Therefore, a privacy protection standard that can serve as a standard is needed.

Definition 2 (ρ-safeness, ρ-안전성): ri 사이의 비유사도(dissimilarity)가 ρ(0≤ρ≤1) 보다 크면, 변조된 레코드 는 오리지널 레코드 ri에 비해 'ρ-안전'하다고 말할 수 있다. 여기서, ri 사이의 비유사도는 이다. Definition 2 (ρ-safeness, ρ-safety) : r i and If the dissimilarity between them is greater than ρ(0≤ρ≤1), the tampered record can be said to be 'ρ-safe' compared to the original record r i . Here, r i and The dissimilarity between am.

비유사도는 M 차원 공간의 두 레코드들 ri 사이의 거리의 비율을 나타낸다. 본 발명에서는, 비유사도 측정을 위해 맨하탄 거리(Manhattan (L1) distance)를 이용한다. r(0.3)과 r′(0.7) 사이의 프라이버시 안전성은 0.4이다. 레코드 r′(0.1,0.4)은, 오리지널 레코드 r(0.4,0.1)에 비해, 0.45 프라이버시-안전하다.The dissimilarity is between two records r i in M-dimensional space. It represents the ratio of the distance between them. In the present invention, Manhattan (L 1 ) distance is used to measure dissimilarity. The privacy safety between r(0.3) and r′(0.7) is 0.4. Record r′(0.1,0.4) is 0.45 privacy-secure compared to the original record r(0.4,0.1).

Definition 3 (ρ-RDP): N 개의 레코드들과 M 개의 속성들을 갖는 관계 R에 대하여, 프라이버시 안정성 ρ를 갖는 프라이버시 보호 수준을 갖는 관계형 데이터 변조의 문제는 R로부터 N 개의 데이터 레코드들 ; 을 갖는 관계 R′을 생성하는 것이다. 여기서, X는 [-1,1] 내의 노이즈이고, 비유사도 dissimilarity(ri,)>ρ이다. Definition 3 (ρ-RDP) : For a relation R with N records and M attributes, the problem of relational data tampering with a level of privacy protection with privacy stability ρ is the problem of tampering with N data records from R. ; is to create a relationship R′ with . Here, X is the noise in [-1,1], and the dissimilarity (ri, )>ρ.

ρ-RDP는 오리지널 데이터 레코드들의 속성 값들을, 모든 레코드들이 'ρ-안전'하도록, 랜덤화한다.ρ-RDP randomizes the attribute values of original data records so that all records are 'ρ-safe'.

프라이버시 보호수준을 설정할 수 있는 데이터 변조 방법들Data modification methods that can set the level of privacy protection

도 1에 도시된 알고리즘 1은 ρ-RDP 프레임워크를 도시한다. 알고리즘은 노이즈 X를 각 rij에 부가하고(Line 4), 프라이버시 보호수순을 체크한다(Line 6~7). 만약 변조된 값이 프라이버시 보호수준을 만족하지 못하면, 변조를 다시 수행한다. 노이즈 생성을 위해, 아래의 두 가지 방법들이 고려될 수 있다.Algorithm 1 shown in Figure 1 illustrates the ρ-RDP framework. The algorithm adds noise X to each r ij (Line 4) and checks the privacy protection procedure (Lines 6-7). If the modulated value does not meet the privacy protection level, the modulation is performed again. For noise generation, the following two methods can be considered.

1. 유니폼 노이즈(Uniform noise): |X| ~ U (0,1)1. Uniform noise: |X| ~U(0,1)

2. 라플라스 노이즈(Laplace noise): |X| ~ Lap (ρ,0.1)2. Laplace noise: |X| ~ Lap (ρ,0.1)

유니폼 노이즈의 경우, [0,1] 내의 값이 랜덤하게 선택되고, 오리지널 속성 값 rij에 부가(또는 차감)된다. 그러나, ρ-안전성을 위한 노이즈가 필요함에도 불구하고, 너무 많은 노이즈는 바람직하지 않다. 데이터 유용성(data utility)을 감소시킬 수 있기 때문이다. 요구되는 ρ-안전성(즉, )을 만족시켜야 하는 제약 하에서, 에러, 즉 오리지널 값과 변조된 값 사이의 차이를 최소화할 수 있다. 적절한 양의 노이즈를 제공하기 위하여, 라플라스 노이즈가 선택될 수 있다. 그러나, 본 발명의 권리범위가 이에 제한되는 것은 아니다. 라플라스 노이즈의 경우, 평균(mean) ρ의 라플라스 분포로부터 노이즈가 생성될 수 있다. 이때, 단순화를 위해, 스케일 파라미터 '0.1'을 사용할 수 있다. In the case of uniform noise, values within [0,1] are randomly selected and added (or subtracted) to the original attribute value r ij . However, although noise is necessary for ρ-safety, too much noise is undesirable. This is because it can reduce data utility. The required ρ-safety (i.e. ), the error, that is, the difference between the original value and the modulated value, can be minimized. To provide an appropriate amount of noise, Laplace noise may be chosen. However, the scope of the present invention is not limited thereto. In the case of Laplace noise, noise can be generated from the Laplace distribution with a mean ρ. At this time, for simplicity, the scale parameter '0.1' can be used.

성능 평가performance evaluation

이하에서는, 본 발명 기법에 의할 경우 데이터 유용성을 집중적으로 살펴보도록 한다.Below, we will focus on data usability when using the present invention.

[표 1][Table 1]

우선, 다양한 세팅(N=1,000 and 10,000; M=10 and 20; ρ=0.01 and 0.1; uniform/normal distributions of source data)을 갖는 합성 데이터(synthetic data)를 이용하여 오리지널 관계와 변조된 관계의 통계를 비교한다. 표 1은 20 이상의 트라이얼(trials)에 대한 평균 결과를 나타낸다. 여기서, MAE(Mean Absolute Error), VAE(Variance of Absolute Errors), JSD(Jensen-Shannon distance)가 사용되었다. JSD를 계산할 때, 변조된 값이 [0,1]에 포함되도록 하였다.First, statistics of the original relationship and the modulated relationship were calculated using synthetic data with various settings (N=1,000 and 10,000; M=10 and 20; ρ=0.01 and 0.1; uniform/normal distributions of source data). Compare. Table 1 shows the average results for over 20 trials. Here, MAE (Mean Absolute Error), VAE (Variance of Absolute Errors), and JSD (Jensen-Shannon distance) were used. When calculating JSD, the modulated value was included in [0,1].

다음으로, 선형 쿼리들(linear queries)의 성능을 비교하였다. 선형 쿼리는 데이터 분석 분야에서 널리 이용되는 쿼리 중 하나이다. 아래와 같이 4 개의 쿼리들 L1~L4을 사용하였고, 결과는 도 2에 도시되어 있다.Next, we compared the performance of linear queries. Linear query is one of the widely used queries in the field of data analysis. Four queries L 1 to L 4 were used as shown below, and the results are shown in Figure 2.

마지막으로, 실제 데이터 셋(UCI adult data)을 이용한 집계 쿼리(aggregation query) 결과 비교를 통해 데이터 유용성을 평가하였다(표 2). 이 실험에서, 오직 숫자 속성(numeric attributes)만이 변조되었다. 아래와 같이 SQL 쿼리들 A1~A4를 이용하였다.Lastly, data usefulness was evaluated by comparing the results of an aggregation query using the actual data set (UCI adult data) (Table 2). In this experiment, only numeric attributes were modulated. SQL queries A 1 to A 4 were used as shown below.

[표 2][Table 2]

모든 실험에서, 라플라스 노이즈 기법의 성능이 유니폼 노이즈 기법의 성능보다 높았다. 이는, 라플라스 노이즈 기법을 통한 노이즈의 양이 주어진 프라이버시 보호수준을 만족시키기에 적절하기 때문이다. 또한, 소스 데이터의 분포는 라플라스 노이즈 기법에 의할 때 더 잘 보존되었다. 명백하게, 작은 ρ 값을 갖는 변조가 더욱 정확한 결과를 제공하였다.In all experiments, the performance of the Laplace noise method was higher than that of the uniform noise method. This is because the amount of noise through the Laplace noise technique is appropriate to satisfy the given privacy protection level. Additionally, the distribution of the source data was better preserved when using the Laplace noise technique. Clearly, modulation with small ρ values gave more accurate results.

도 3은 본 발명의 일 실시예에 따른 데이터 변조 방법을 설명하기 위한 흐름도이다. 도 3을 참조하여 설명되는 데이터 변조 방법은 적어도 프로세서(processor) 및/또는 메모리(memory)를 포함하는 컴퓨팅 장치에 의해 수행될 수 있다. 따라서, 데이터 변조 방법의 단계들 중 적어도 일부는 컴퓨팅 장치의 프로세서의 동작으로 이해될 수도 있다. 또한, 컴퓨팅 장치는 PC(Personal Computer), 랩탑 컴퓨터, 태블릿 PC, 서버(server) 등을 포함하고, 데이터 변조 장치로 명명될 수 있다.Figure 3 is a flowchart for explaining a data modulation method according to an embodiment of the present invention. The data modulation method described with reference to FIG. 3 may be performed by a computing device including at least a processor and/or memory. Accordingly, at least some of the steps of the data modulation method may be understood as operations of the processor of the computing device. Additionally, computing devices include personal computers (PCs), laptop computers, tablet PCs, servers, etc., and may be referred to as data modulation devices.

우선, 변조 대상 데이터가 획득된다(S110). 데이터는 복수의 레코드들을 포함하고, 레코드들 각각은 복수의 속성 값을 가질 수 있다. 또한, 데이터는 관계형 데이터를 의미할 수 있다. 데이터는 소정의 유무선 통신망을 통하여 수신되거나, USB 메모리 장치와 같은 저장 장치로부터 수신될 수 있다.First, data to be modulated is obtained (S110). Data includes multiple records, and each record may have multiple attribute values. Additionally, data may refer to relational data. Data may be received through a certain wired or wireless communication network or from a storage device such as a USB memory device.

데이터에 포함된 레코드들 각각에 대하여, 데이터 변조가 수행될 수 있다(S120). 데이터 변조는 오리지널 레코드에 임의의 노이즈를 부가(또는 차감)함으로써 수행될 수 있다. 이때 노이즈는 라플라스 노이즈를 의미할 수 있다.Data modulation may be performed on each record included in the data (S120). Data modulation can be performed by adding (or subtracting) arbitrary noise to the original record. At this time, noise may mean Laplace noise.

노이즈가 부가된 변조된 레코드에 대하여, 미리 정해진 프라이버시 보호 수준(안정성 등으로 명명될 수도 있음)을 만족하는지 여부에 대한 판단이 수행될 수 있다(S130). 이때, 변조된 레코드가 미리 정해진 보호 수준을 만족하지 못하는 경우, S120 단계를 재차 수행하여 레코드에 대한 변조 동작을 수행한다.With respect to the modified record to which noise has been added, a determination may be made as to whether or not it satisfies a predetermined privacy protection level (which may also be named stability, etc.) (S130). At this time, if the tampered record does not satisfy the predetermined protection level, step S120 is performed again to perform a tampering operation on the record.

미리 정해진 보호 수준을 만족하는지 여부를 판단하기 위해서, 변조된 레코드와 오리지널 레코드(변조전 레코드) 사이의 비유사도가 계산될 수 있다. 이때, 비유사도가 미리 정해진 임계치(보호 수준을 의미할 수 있음) 보다 클 경우(실시예에 따라 같은 경우를 포함할 수 있음) 안전성을 만족하는 것으로 판단될 수 있고, 비유사도가 미리 정해진 임계치 보다 작을 경우(실시예에 따라 같은 경우를 포함할 수 있음) 안전성을 만족하지 않는 것으로 판단될 수 있다.To determine whether a predetermined level of protection is satisfied, the dissimilarity between the tampered record and the original record (record before tampering) can be calculated. At this time, if the dissimilarity is greater than a predetermined threshold (which may mean a protection level) (which may include the same case depending on the embodiment), safety may be determined to be satisfied, and the dissimilarity may be greater than the predetermined threshold. If it is small (the same case may be included depending on the embodiment), it may be determined that safety is not satisfied.

이후에, 데이터에 포함된 모든 레코드들에 대한 변조가 완료되었는지 판단된다(S140). 데이터 내에 아직 변조되지 않은 레코드가 존재한다면, S120 단계부터 재차 수행할 수 있다. 이를 통하여, 데이터 내의 포함된 레코드들 모두가 미리 정해진 프라이버시 보호 수순을 만족하도록 변조될 수 있다.Afterwards, it is determined whether the alteration of all records included in the data has been completed (S140). If there are records in the data that have not yet been tampered with, the process can be performed again from step S120. Through this, all records included in the data can be altered to satisfy predetermined privacy protection procedures.

이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 집합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital Signal Processor), 마이크로컴퓨터, FPA(Field Programmable array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(Operation System, OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술 분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(Processing Element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor)와 같은, 다른 처리 구성(Processing Configuration)도 가능하다.The device described above may be implemented as a hardware component, a software component, and/or a set of hardware components and software components. For example, devices and components described in the embodiments include, for example, a processor, a controller, an Arithmetic Logic Unit (ALU), a Digital Signal Processor, a microcomputer, a Field Programmable Array (FPA), It may be implemented using one or more general-purpose or special-purpose computers, such as a Programmable Logic Unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. Additionally, a processing device may access, store, manipulate, process, and generate data in response to the execution of software. For ease of understanding, a single processing device may be described as being used; however, those skilled in the art will understand that a processing device may include multiple processing elements and/or multiple types of processing elements. It can be seen that it may include. For example, a processing device may include a plurality of processors or one processor and one controller. Additionally, other processing configurations, such as parallel processors, are also possible.

소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(Code), 명령(Instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(Collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성 요소(Component), 물리적 장치, 가상 장치(Virtual Equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(Signal Wave)에 영구적으로, 또는 일시적으로 구체화(Embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of these, and may configure a processing unit to operate as desired, or may be processed independently or collectively. You can command the device. Software and/or data may be used on any type of machine, component, physical device, virtual equipment, computer storage medium or device to be interpreted by or to provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-optical Media), 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc., singly or in combination. Program instructions recorded on the medium may be specially designed and configured for the embodiment or may be known and available to those skilled in the art of computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -Includes specially configured hardware devices to store and execute program instructions, such as magneto-optical media, ROM, RAM, flash memory, etc. Examples of program instructions include machine language code, such as that produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter, etc. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성 요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성 요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.The present invention has been described with reference to the embodiments shown in the drawings, but these are merely illustrative, and those skilled in the art will understand that various modifications and other equivalent embodiments are possible therefrom. For example, the described techniques are performed in a different order than the described method, and/or components of the described system, structure, device, circuit, etc. are combined or combined in a different form than the described method, or other components are used. Alternatively, appropriate results may be achieved even if substituted or substituted by an equivalent. Therefore, the true scope of technical protection of the present invention should be determined by the technical spirit of the attached registration claims.

Claims (6)

적어도 프로세서(processor)를 포함하는 컴퓨팅 장치에 의해 수행되는 데이터 변조 방법에 있어서,
각각이 복수의 속성 값들을 갖는 복수의 레코드들을 포함하는 데이터를 획득하는 단계;
상기 복수의 레코드들 중 하나의 레코드에 노이즈를 부가하여 변조된 레코드를 생성하는 단계; 및
상기 변조된 레코드가 미리 정해진 프라이버시 보호 수준을 만족하는지 판단하는 단계를 포함하고,
상기 판단하는 단계는,
상기 변조된 데이터와 상기 하나의 레코드 사이의 비유사도를 산출하는 단계;
상기 비유사도를 미리 정해진 임계값과 비교하는 단계; 및
상기 비유사도가 상기 미리 정해진 임계값을 초과하는 경우 상기 프라이버시 보호 수준을 만족하는 것으로 판단하고, 상기 비유사도가 상기 미리 정해진 임계값 보다 작은 경우 상기 프라이버시 보호 수준을 만족하지 않는 것으로 판단하는 단계를 포함하고,
상기 비유사도(dissimilarity)는 수학식에 의해 산출되고,
상기 수학식은 이고,
상기 ri는 상기 하나의 레코드이고,
상기 는 상기 변조된 레코드이고,
상기 rij는 상기 ri의 j번째 속성 값이고,
상기 는 상기 의 j번째 속성 값이고,
상기 M은 속성의 개수인,
데이터 변조 방법.
In a data modulation method performed by a computing device including at least a processor,
Obtaining data including a plurality of records each having a plurality of attribute values;
generating a modulated record by adding noise to one of the plurality of records; and
A step of determining whether the altered record satisfies a predetermined level of privacy protection,
The above judgment step is,
calculating dissimilarity between the modulated data and the one record;
comparing the dissimilarity to a predetermined threshold; and
If the dissimilarity exceeds the predetermined threshold, determining that the privacy protection level is satisfied, and if the dissimilarity is less than the predetermined threshold, determining that the privacy protection level is not satisfied. do,
The dissimilarity is calculated by the equation,
The above equation is ego,
The r i is the one record,
remind is the modified record,
The r ij is the jth attribute value of the r i ,
remind above is the jth attribute value of
Where M is the number of attributes,
Methods of data tampering.
삭제delete 제1항에 있어서,
상기 판단하는 단계에서 상기 프라이버시 보호 수준을 만족하지 않는 것으로 판단되는 경우,
상기 하나의 레코드에 노이즈를 부가하여 변조된 레코드를 생성하는 단계를 재차 수행하는,
데이터 변조 방법.
According to paragraph 1,
If it is determined that the level of privacy protection is not satisfied in the above determination step,
Performing the step of adding noise to the one record to create a modulated record again,
Methods of data tampering.
제3항에 있어서,
상기 복수의 레코드들 모두에 대한 변조가 수행되었는지 여부를 판단하는 단계를 더 포함하는,
데이터 변조 방법.
According to paragraph 3,
Further comprising determining whether modulation has been performed on all of the plurality of records,
Methods of data tampering.
삭제delete 제1항에 있어서,
상기 노이즈는 라플라스 분포를 갖는 노이즈 중 임의로 선택된 노이즈인,
데이터 변조 방법.
According to paragraph 1,
The noise is randomly selected noise with a Laplace distribution,
Methods of data tampering.
KR1020230023048A 2023-02-21 2023-02-21 Method and device for privacy-constrained data perturbation KR102648905B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230023048A KR102648905B1 (en) 2023-02-21 2023-02-21 Method and device for privacy-constrained data perturbation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230023048A KR102648905B1 (en) 2023-02-21 2023-02-21 Method and device for privacy-constrained data perturbation

Publications (1)

Publication Number Publication Date
KR102648905B1 true KR102648905B1 (en) 2024-03-18

Family

ID=90474053

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230023048A KR102648905B1 (en) 2023-02-21 2023-02-21 Method and device for privacy-constrained data perturbation

Country Status (1)

Country Link
KR (1) KR102648905B1 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101652328B1 (en) 2015-10-14 2016-08-31 고려대학교 산학협력단 Method and system for collecting data using anonymization method
KR20170042522A (en) * 2017-03-29 2017-04-19 안나영 Storage device for processing de-identification request and operating method
KR20190010091A (en) 2017-07-21 2019-01-30 고려대학교 산학협력단 Anonymization Device for Preserving Utility of Data and Method thereof
KR102035796B1 (en) 2018-07-26 2019-10-24 주식회사 딥핑소스 Method, system and non-transitory computer-readable recording medium for processing data to be anonymized
KR20220003380A (en) 2020-07-01 2022-01-10 삼성에스디에스 주식회사 Apparatus and method for anonymizing data
KR102352356B1 (en) * 2021-07-09 2022-01-18 주식회사 넥스인테크놀로지 Method, apparatus and computer program for preprocessing personal information using pre-trained artificial intelligence model
JP2022041957A (en) * 2020-08-31 2022-03-11 株式会社日立製作所 Method and device for generating privacy protection data for data analysis system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101652328B1 (en) 2015-10-14 2016-08-31 고려대학교 산학협력단 Method and system for collecting data using anonymization method
KR20170042522A (en) * 2017-03-29 2017-04-19 안나영 Storage device for processing de-identification request and operating method
KR20190010091A (en) 2017-07-21 2019-01-30 고려대학교 산학협력단 Anonymization Device for Preserving Utility of Data and Method thereof
KR102035796B1 (en) 2018-07-26 2019-10-24 주식회사 딥핑소스 Method, system and non-transitory computer-readable recording medium for processing data to be anonymized
KR20220003380A (en) 2020-07-01 2022-01-10 삼성에스디에스 주식회사 Apparatus and method for anonymizing data
JP2022041957A (en) * 2020-08-31 2022-03-11 株式会社日立製作所 Method and device for generating privacy protection data for data analysis system
KR102352356B1 (en) * 2021-07-09 2022-01-18 주식회사 넥스인테크놀로지 Method, apparatus and computer program for preprocessing personal information using pre-trained artificial intelligence model

Similar Documents

Publication Publication Date Title
EP3887993B1 (en) Differentially private database permissions system
US11409911B2 (en) Methods and systems for obfuscating sensitive information in computer systems
US9081978B1 (en) Storing tokenized information in untrusted environments
US10642847B1 (en) Differentially private budget tracking using Renyi divergence
US20180365290A1 (en) Execution optimization of database statements involving encrypted data
Sallam et al. DBSAFE—an anomaly detection system to protect databases from exfiltration attempts
US10943027B2 (en) Determination and visualization of effective mask expressions
Royston et al. Interaction of treatment with a continuous variable: simulation study of significance level for several methods of analysis
US20230195877A1 (en) Project-based permission system
CN110348238B (en) Privacy protection grading method and device for application
CN106209821A (en) The big data management system of information security based on credible cloud computing
KR101620601B1 (en) Method for conducting security check, Computer program for the same, and Recording medium storing computer program for the same
CN113254988B (en) High-dimensional sensitive data privacy classified protection publishing method, system, medium and equipment
Kumar et al. Content sensitivity based access control framework for Hadoop
Bampoulidis et al. PrioPrivacy: a local recoding k-anonymity tool for prioritised quasi-identifiers
US20210097203A1 (en) Database management system and database processing method
KR102648905B1 (en) Method and device for privacy-constrained data perturbation
Delgado et al. Accurate and fast computations with positive extended Schoenmakers–Coffey matrices
Lu et al. Practical inference control for data cubes
Srivastava et al. Verity: Blockchains to detect insider attacks in DBMS
Li et al. Preventing interval-based inference by random data perturbation
Hua et al. FMC: An approach for privacy preserving OLAP
Sallam et al. Techniques and systems for anomaly detection in database systems
WO2020248149A1 (en) Data sharing and data analytics implementing local differential privacy
CN109522750A (en) A kind of new k anonymity realization method and system

Legal Events

Date Code Title Description
N231 Notification of change of applicant
GRNT Written decision to grant