WO2020241943A1 - 빅데이터의 비식별화 처리방법 - Google Patents
빅데이터의 비식별화 처리방법 Download PDFInfo
- Publication number
- WO2020241943A1 WO2020241943A1 PCT/KR2019/006586 KR2019006586W WO2020241943A1 WO 2020241943 A1 WO2020241943 A1 WO 2020241943A1 KR 2019006586 W KR2019006586 W KR 2019006586W WO 2020241943 A1 WO2020241943 A1 WO 2020241943A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- abstraction
- record
- data
- value
- field
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Definitions
- the present invention relates to a method of de-identifying big data, and more particularly, by reliably anonymizing big data so that it can be freely distributed to external systems without fear of leakage of personal information, and calculated from the distributed data.
- the present invention relates to a method for de-identifying big data to ensure the reliability of statistical analysis by making the statistical value as close as possible to the statistical value of the original data.
- Big data refers to e-commerce data, metadata, web logs, wireless identification (RFID) data, sensor network data, social network data, social data, Internet text, as well as standardized data used in existing corporate environments or public institutions. It is data that includes all unstructured or semi-structured data that has not been previously utilized, such as documents, documents, and Internet search indexing. Such data generally has a level of data that is difficult to handle with ordinary software tools and computer systems. It is called Big Data in the sense of becoming.
- Masking is to mask or delete object information (e.g. 670101-10491910 ⁇ ************), and replacement is to replace with information generated in response to object information (e.g. ; 670101-10491910 ⁇ ID2311331), semi-identification refers to semi-identification so that only a part of the target information is displayed (e.g. 670101-10491910 ⁇ 67-1), and typification is a method of classifying and classifying the target information (e.g. 670101- 10491910 ⁇ male).
- My own pre-invention is that big data used for distribution is for statistical analysis rather than use of specific information about individuals, and statistical analysis for the entire data is performed by first performing statistical analysis of a part of the data and then combining them.
- the invention was made based on the fact that there is no significant difference in the results even if analyzed, and among the various fields constituting big data, a field that can be used as a standard for statistical analysis and a field that can be used for statistical analysis are selected for distribution.
- One abstracted record that creates big data, but can maintain the original meaning of statistical analysis while having a plurality of original records and field values different from those of the original record, as illustrated in Table 1 below. It is characterized by abstracting.
- the following shows an example of allocating an identifier (ID) to each abstraction record after creating an abstraction record of.
- the abstraction criterion fields age group, gender, and city represent values that are common to the selected record, and represent an example of assigning the average value of the income field values of the selected record as representative values of the income field, which is an abstraction target field.
- the identifier (ID) value is generated to uniquely distinguish each abstraction record.
- the method of de-identifying big data according to the person's own invention is to obtain new information having the value of statistical analysis, but to fundamentally prevent backtracking through specific personal information and combinations thereof. It was a very useful invention to be able to provide.
- the present invention is an invention for solving the problem of conventional anonymized big data as described above, and by completely performing de-identification of data, that is, de-personal information, it is fundamentally that a specific individual is re-identified during distribution of big data.
- the purpose is to provide a method for de-identifying big data that can be safely used for distribution without the need to obtain permission from individuals for sensitive personal information.
- Another object of the present invention is to provide a method for de-identifying big data that enables analysis information that is uniquely required by each required location to be appropriately selected and processed.
- Another object of the present invention is to reliably anonymize big data so that it can be freely distributed to external systems without fear of leakage of personal information, while statistics calculated from the distributed data are as close as possible to the statistics of the original data. Its purpose is to provide a method for de-identifying big data that can secure the reliability of analysis.
- the processing unit includes: Storing data collected through the communication unit from a terminal connected through a network in a storage unit of the data server; Including, the data abstraction step of generating a record different from the original record by combining at least two or more records of the original record constituting the data; the data abstraction step, wherein the original constituting the data Setting at least one field of each field of a record as an abstraction reference field, and setting at least one or more fields of fields other than the abstraction reference field as an abstraction target field; Selecting at least two or more (N) of records having the same value of the abstraction reference field among the original records as an abstraction target record group; The selected N abstraction target record groups are abstracted into one abstraction record consisting of the abstraction reference field and the abstraction target field, and the numerical attribute field of the abstraction record is allocated to include at least one or
- a field that can be a standard for statistical analysis and a field that can be an object of statistical analysis are selected to generate big data for distribution,
- By abstracting the original record into one abstract record that can maintain the original meaning of statistical analysis while having a field value different from the value of the original record it is possible to obtain new information having the value of statistical analysis, while providing individual specific information. And it is possible to provide big data that can fundamentally prevent backtracking through the combination.
- the abstraction criterion field means a field that serves as a criterion for performing data abstraction, and if the corresponding field of the original record is a continuous numeric data type, it is preprocessed with a histogram, binning, clustering technique, etc. to discretize the corresponding property. It is desirable to select an abstraction reference field after converting it to categorical data.
- the abstraction target field is a field that is subject to statistical value calculation. If the abstraction target field is a numeric data type, the corresponding field value of the abstraction record is average value, deviation, maximum value, minimum value, average, standard deviation, median value, quartile-quartile distance(Q3-Q1),
- Another feature of the present invention is that when the abstraction reference field is two or more, the abstraction operation is performed by selecting at least two or more (N) of records having the same abstraction reference field as an abstraction target record group. Thereafter, for the remaining records that have not been subjected to the abstraction operation, the remaining fields except for any one of the abstraction reference fields are set as a new abstraction reference field, and at least two of the records having all the same values of the new abstraction reference fields And performing the abstraction operation by selecting each of the above (N') as an abstraction target record group.
- the abstraction operation is performed by performing grouping according to the abstraction reference field in multiple steps before any grouping, so that the accuracy of statistical analysis based on the distributed data can be further improved.
- the present invention by completely performing de-identification of data, that is, de-personal information, it fundamentally prevents a specific individual from being re-identified during the distribution of big data, thereby obtaining permission for each individual for sensitive personal information. Big data that can be safely used for distribution without need can be provided.
- FIG. 1 is an exemplary diagram illustrating a data-centric computing environment forming a big data processing system of the present invention.
- Fig. 2 is a block diagram showing the main configuration of the data server shown in Fig. 1;
- FIG. 3 is a block diagram showing the basic steps of data abstraction according to an embodiment of the present invention.
- a data-centric computing environment forming the big data processing system of the present invention may be constructed by a data server 110 and a plurality of user terminals 120 connected to the data server through wired and wireless networks. .
- the data-centric computing environment is a social network service (SNS), smart grid, intelligent home appliance, using data generated in real time from a number of user terminals 120. It refers to a technology based on big data processing that can provide various applications such as real-time streaming or real-time decision making.
- SNS social network service
- smart grid intelligent home appliance
- the big data processing system and method according to the present invention is implemented by a data server 110 connected to a plurality of user terminals 120, and after collecting and processing data generated by a plurality of user terminals 120, By storing and providing the stored data to the user terminal 120 in need, an environment in which a data-centric computing application can be executed is established.
- the user terminal 120 is an information processing terminal such as a computer or laptop equipped with a communication device to be connected to the data server 110 and having an information processing function to generate data according to the operation of the user terminal 120 ,
- Mobile communication terminals such as smartphones and tablet PCs, smart home appliances, wireless identification (RFID) data, black boxes, or transportation means such as cars, trains, and airplanes in which navigation is operated, but are not limited thereto.
- RFID wireless identification
- the data server 110 is connected to a plurality of user terminals 120 through a wired/wireless network through the communication unit 113 to collect data generated by the user terminal 120, and the storage unit 112
- it may mean a cloud server or a web server that stores and stores data collected by the processing unit 111 including a plurality of processors, but is not limited thereto.
- Original data collected through the communication unit 113 from the terminals 120 connected through a wired or wireless network are stored in the storage unit 112 of the data server 110.
- the processing unit 111 appropriately processes large-capacity big data stored in the storage unit 112, selects and abstracts data necessary for analysis, reduces capacity, and de-identifies it to reduce the cost of distribution. It is processed into identification big data and stored in the storage unit 112, and the non-identifying big data for distribution stored in a relatively small amount in the storage unit 112 needs to be analyzed and utilized through the communication unit 113 and the communication network of the server. It is sent to the destination.
- FIG. 3 is a block diagram showing a basic step of data abstraction according to an embodiment of the present invention.
- a method of de-identifying big data performed by a processor of a data server will be described in detail with reference to FIG. 3.
- the abstraction criterion field means a field that serves as a criterion for performing data abstraction, and if the corresponding field of the original record is a continuous numeric data type, it is preprocessed with a histogram, binning, clustering technique, etc. to discretize the corresponding property. It is desirable to select an abstraction reference field after converting it to categorical data.
- the processing unit 111 By the processing unit 111, at least two or more (N) records having the same abstraction reference field value among the original records are selected as an abstraction target record group (S3), and the selected plurality of records are abstracted into one abstraction record. It becomes (S4).
- the processing unit prefferably has a step of sorting the data based on the value of the abstraction reference field by the processing unit prior to the selection step (S3), and the original record included in one abstraction record is constant for each abstraction record. It is preferable to select the number of records, but it is also possible to select a different number of original records to be included in each abstraction record.
- the numerical property field of abstraction record contains at least one of the statistical function values such as mean value, deviation, maximum value, minimum value, mean, standard deviation, median value, quartile-quartile distance(Q3-Q1),
- the category attribute field of the abstraction record is allocated as a connection type attribute value including the corresponding category attribute value and the occurrence rate value of the corresponding category attribute value in the abstraction target record group, and stored in the storage unit 112 ( S5).
- the generated abstraction record can be allocated and stored identically to each record.
- the former can save the capacity of data, but calculations can be cumbersome when using statistics, and the latter has advantages and disadvantages in that the calculation is easy when using statistics, although the data capacity is larger than the former. It is possible.
- M is a number greater than N in order to secure non-identification of data, and is preferably set to about twice as much as N.
- the numerical attribute field of the abstraction record is allocated to include at least one or more of the statistical function values
- the category attribute field of the abstraction record is the occurrence ratio value of the corresponding category attribute value and the corresponding category attribute value in the abstract target record group.
- the remaining fields except for any one of the abstraction reference fields are set as the new abstraction reference field, and the values of all the new abstraction reference fields are at least among the same records. It is also possible to perform abstraction work by selecting two or more (N') each as an abstraction target record group. According to this method, grouping according to the abstraction reference field is performed in multiple stages to proceed with abstraction work, It is possible to further improve the accuracy of statistical analysis.
- Table 2 is a simple example of the original data before data abstraction, where the social security number, gender, key, and disease name are included as fields of the original record, and for convenience of work, an example of sorting by disease name and gender, which are abstraction standard fields. Represents.
- an abstraction object field a resident number that can be identified by an individual is not selected, but a key that is the object of statistics is selected as an abstraction object field.
- the abstraction target record group is shown in Table 3.
- the numerical attribute field allocates the average, deviation, maximum, and minimum value among the statistical function values
- the category attribute field is the corresponding category attribute value of male, liver cancer, and the corresponding category within the abstract target record group.
- Table 4 shows when allocating as a connection type attribute value including the occurrence rate value of the attribute value.
- the incidence rate value in the group is 1.
- Table 5 shows an example of storing the abstraction records generated as described above by allocating identically to records for each record included in the abstraction target record group.
- the numerical attribute fields allocate the average, deviation, maximum, and minimum values among statistical function values
- the category attribute field is the corresponding category attribute values, such as female, liver cancer, and abstract target record groups.
- Table 7 shows when allocating as a linked attribute value including the occurrence rate value of the corresponding category attribute value within.
- Table 8 shows an example in which the abstraction records generated as described above are identically allocated to and stored in the records for each record included in the abstraction target record group.
- the numerical attribute field of the abstraction record is allocated to include at least one or more of the statistical function values
- the category attribute field of the abstraction record is the occurrence ratio value of the corresponding category attribute value and the corresponding category attribute value in the abstract target record group. It is allocated as a connection type attribute value including a and stored in the storage unit 112.
- Table 12 shows the overall abstraction record table formed by abstracting the original data of Table 2.
- the statistical value of the numerical attribute value for the partial record is calculated as in the following example.
- the determined statistical value of the average key is the average key value for records with a female ratio of 1, and corresponds to 166, which is the average key of the pseudonym identifiers R4, R5, and R6.
- the final statistical value for the female's maximum height corresponds to 175
- the possible statistical value of the maximum female height is (female, x) It is expressed as (v, w) by calculating the maximum value v among the records having the attribute value of as the attribute statistic value, and calculating the excitation ratio w of the corresponding record as a reliability value, and in the case of the abstract record table of Table 12 (187, 0.33)
- the final statistical value for the female's minimum height is (157, 1)
- the possible statistical value for the female's minimum height is (155, 0.33).
- Table 13 is a table showing the statistical values calculated from the abstraction record table of Table 12 and the statistics calculated from the original record table of Fig. 2, and the statistics calculated from the abstraction table are similar to the statistics of the original record. It shows that it can be used reliably as data.
- the abstracted de-identified big data formed by the present invention can be used in conjunction with two or more independently generated big data, and the process is as follows.
- Tables 14 and 15 show abstraction record tables A and B for two different big data A and B, respectively, and combine the two tables based on the pseudonym identifiers common to the two abstraction record tables for statistical analysis. Use.
- the maximum value corresponds to the largest 191 among the maximum value attribute values of the key, and the minimum value of the key for all records corresponds to the smallest 155 among the minimum key attribute values.
- the final statistical value for the maximum height of Guui-dong residents corresponds to 191, which is the maximum value among records with a Guui-dong ratio of 1. It is expressed as (v, w) by calculating the maximum value v as the attribute statistic value and the reliability ratio w of the corresponding record.In the case of the abstraction record table in Tables 14 and 15, it corresponds to (191, 1). , The final statistical value for the minimum height of Guui-dong residents is (158, 1), and the possible statistical value for the minimum height of Guui-dong residents is (157, 0.33).
- Table 16 is a table showing the comparison of the statistical values calculated from the abstraction record tables in Tables 14 and 15 and the statistical values calculated from the original record table (not shown).
- the statistical values calculated from the abstraction table are the statistical values of the original record. It is similar to and shows that it can be reliably used as statistical data.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은, 개인정보의 유출우려 없이 외부 시스템에 자유롭게 유통시킬 수 있도록 빅데이터를 익명화하면서, 유통된 데이터로부터 산출되는 통계값이 원본 데이터의 통계값에 최대한 가깝게 하여 통계 분석의 신뢰성을 확보할 수 있도록 하는 빅데이터의 비식별화 처리 방법에 관한 발명으로, 본 발명에 따르면, 추상화 기준필드의 값이 모두 동일한 레코드의 수가 N개 이하인 레코드에 대해서도 이들을 추상화 대상에서 제외시키지 않고 별도로 그룹화하고, 그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값을 추상화 레코드의 속성값으로 할당하여 추상화 누락 데이터를 최소화함으로서, 유통되는 데이터로부터 산출되는 통계값이 원본 데이터의 통계값에 최대한 가깝게 되어 통계 분석의 신뢰성을 확보할 수 있게 된다.
Description
본 발명은, 빅데이터의 비식별화 처리 방법에 관한 것으로서, 더욱 상세하게는, 빅데이터를 확실하게 익명화하여 개인정보의 유출 우려 없이 외부 시스템에 자유롭게 유통시킬 수 있도록 하면서, 유통된 데이터로부터 산출되는 통계값이 원본 데이터의 통계값에 최대한 가깝게 하여 통계 분석의 신뢰성을 확보할 수 있도록 하는 빅데이터의 비식별화 처리 방법에 관한 것이다.
빅데이터란, 기존의 기업 환경이나 공공 기관에서 사용되는 정형화된 데이터는 물론, 전자상거래 데이터, 메타 데이터, 웹로그, 무선식별(RFID) 데이터, 센서 네트워크 데이터, 소셜 네트워크 데이터, 소셜 데이터, 인터넷 텍스트와 문서, 인터넷 검색 인덱싱 등 기존에 미처 활용되지 못하던 비정형화 또는 반정형화된 데이터를 모두 포함하는 데이터로서, 이와 같은 데이터는 일반적으로 보통의 소프트웨어 툴 및 컴퓨터 시스템으로는 다루기 어려운 수준의 데이터 양을 갖게 된다는 의미에서 빅데이터(Big Data)라 칭하고 있다.
최근 들어, 기업뿐만 아니라 정부에서도, 다양하게 수집된 빅데이터 정보 및 그를 활용한 통계 분석 데이터를 의사 결정과 정책 결정 등에 적극적으로 활용하고자하는 시도가 이어지고 있으며, 빅데이터를 활용하여 데이터 중심의 컴퓨팅 환경을 구축하기 위한 빅데이터 처리 기술이 활발하게 연구되고 있다.
한편, 빅데이터는 해당 자료가 수집되는 조직 내에서 분석하여 활용하게 되지만, 자료를 수집하는 조직에 따라 수집되는 데이터의 속성에 차이가 있어 다른 조직의 자료를 활용할 필요가 발생하며, 자료를 수집할 능력이나 시스템이 갖추어져 있지 않은 조직의 경우에도 타 조직의 빅데이터나 그들의 조합으로부터 해당 조직이 독특하게 필요로 하는 정보를 분석하여 의사결정에 활용할 필요성이 대두되고 있다.
그러나, 빅데이터의 성격상 데이터의 양이 방대할 뿐만 아니라, 대부분의 빅데이터에는 개인신상에 대한 정보가 필연적으로 포함될 수밖에 없는 바, 개인 신상 정보의 유출에 따른 법적 분쟁이 발생할 소지가 다분하기 때문에, 빅데이터의 조직간 교류나 유통에 한계가 있었다.
이에 따라, 빅데이터의 수집이 가능한 조직의 입장에서는, 개인 신상정보 유출에 따른 법적 분쟁의 발생을 피하기 위해 빅데이터를 사업적 목적으로 가공하여 유통하기보다는 대부분 통계적 정보 수준으로 가공하여 제공하고 있는 실정이며, 빅데이터의 활용을 필요로 하는 조직의 입장에서는 조직의 독특한 사업 환경에 꼭 필요로 하는 분석 자료를 획득하기가 어렵다는 문제점이 있었다.
상기의 문제점을 해결하기 위한 것으로, 데이터를 그룹화한다거나, 마스킹, 치환, 반식별화, 유형화를 통해 개인 속성을 익명화(비식별화) 하는 빅데이터 처리 시스템 및 방법이 일각에서 적용되고 있다.
마스킹은, 대상정보를 마스킹 또는 삭제하는 것이고(예; 670101-10491910 → **************), 치환은 대상정보에 대응하여 생성된 정보로 치환하는 것이며(예; 670101-10491910 → ID2311331), 반식별화는 대상 정보의 일부만 나타내도록 반식별화하는 것이며(예; 670101-10491910 → 67-1), 유형화는 대상정보를 유형화시켜 구분하는 방식(예; 670101-10491910 → 남자)이다.
그러나, 개인 정보를 마스킹, 치환, 반식별화, 유형화 등에 의해 비식별화하더라도, 조합(Mash-Up)이나 개인의 특정 정보 및 그 조합을 통한 역추적 등을 통해 개인정보의 유출 위험이 존재한다는 단점이 있었으며, 또한 별도 환경에서 독립적으로 생성된 빅데이터들의 연계 분석이 어렵다는 문제점이 있었다.
이러한 종래의 빅데이터 비식별화 방식의 문제점을 해결하기 위한 발명으로, 본 발명자는, '빅데이터의 비식별화 처리방법'을 안출하여, 2016. 06. 09자 대한민국 특허출원 제 10-2016-0071747호로 출원하여, 2017. 09. 27자 대한민국 등록특허 제10- 1784265호로 등록받은 바 있다.
이러한 본인의 선 발명은, 유통용으로 활용되는 빅데이터는 개개인에 대한 특정 정보의 활용보다는 통계 분석용이며, 데이터 전체에 대한 통계 분석은 데이터의 일부분 일부분의 통계 분석을 먼저 수행한 후 이를 조합하여 분석한다 하더라도 결과에서 큰 차이점이 없다는 점에 착안하여 이루어진 발명으로서, 빅데이터를 구성하는 여러 가지 필드 중 통계 분석의 기준이 될 수 있는 필드와 통계 분석의 대상이 될 수 있는 필드를 선택하여 유통용 빅데이터를 생성하되, 아래 표 1에 예시된 바와 같이, 복수의 원본 레코드를, 원본 레코드의 값과는 다른 필드값을 갖으면서 통계 분석 본연의 의미를 유지할 수 있는 하나의 추상화 레코드(Abstracted Record)로 추상화(Abstracting)하는 것을 특징으로 한다.
[표 1]
표 1은 연령대, 성별, 도시를 추상화 기준 필드로 선택하고, 소득을 추상화 대상필드로 선택하여, 추상화 기준 필드가 동일한 레코드를 3개(N=3) 씩을 선택하고, 선택된 복수의 레코드들로부터 하나의 추상화 레코드를 생성한 후, 각각의 추상화 레코드에 대해 식별자(ID)를 할당한 예를 나타낸다.
추상화 기준필드인 연령대, 성별, 도시는 선택된 레코드에 공통되는 값이 할당된 것을 나타내며, 추상화 대상필드인 소득필드의 대표값으로, 선택된 레코드의 소득 필드값의 평균값을 할당한 예를 나타낸다.
식별자(ID) 값은 각각의 추상화 레코드를 유일하게 구별할 수 있도록 생성된다.
본인의 선발명에 따른 빅데이터 비식별화 처리방법은, 통계 분석의 가치를 갖는 새로운 정보를 얻을 수 있으면서도, 개인의 특정 정보 및 그 조합을 통한 역추적을 근본적으로 방지할 수 있는 유통용 빅데이터를 제공할 수 있도록 하는 매우 유용한 발명이었다.
그러나, 추상화 레코드 생성시 추상화 기준 필드가 동일한 레코드가 N개 이하인 경우 해당 레코드들은 추상화 대상에서 단순 제외되는 바, 이와 같이 추상화 대상에서 제외되는 레코드가 많아지는 경우, 통계 분석의 정확도가 다소 떨어진다는 단점이 있음을 확인할 수 있었다.
본 발명은 상기와 같은 종래 익명화 빅데이터의 문제점을 해결하기 위한 발명으로, 데이터의 비식별화 즉, 탈 개인정보를 완벽하게 수행함으로서, 빅데이터의 유통시 특정 개인이 재식별화되는 것을 근본적으로 방지하여, 민감한 개인정보에 대해 개개인에 대한 허락을 받을 필요 없이 안전하게 유통용으로 활용할 수 있는 빅데이터의 비식별화 처리 방법을 제공하는 데 그 목적이 있다.
본 발명의 또 다른 목적은, 개개의 소요처에서 독특하게 필요로 하는 분석용 정보를 적절하게 선별 가공하여 제공할 수 있도록 하는 빅데이터의 비식별화 처리 방법을 제공하는 데 그 목적이 있다.
본 발명의 또 다른 목적은, 빅데이터를 확실하게 익명화하여 개인정보의 유출 우려 없이 외부 시스템에 자유롭게 유통시킬 수 있도록 하면서, 유통된 데이터로부터 산출되는 통계값이 원본 데이터의 통계값에 최대한 가깝게 되어 통계 분석의 신뢰성을 확보할 수 있도록 하는 빅데이터의 비식별화 처리 방법을 제공하는 데 그 목적이 있다.
상기의 목적을 달성하기 위한 본 발명에 따른 빅데이터의 비식별화 처리방법은, 통신부, 처리부 및 저장부를 구비하는 데이터 서버에서 수행되는 빅데이터의 비식별화 처리 방법에 있어서, 상기 처리부가, 유무선 네트워크를 통해 연결된 단말로부터 상기 통신부를 통해 수집되는 데이터를 상기 데이터 서버의 저장부에 저장하는 단계; 상기 처리부가, 상기 데이터를 구성하는 원본 레코드 중 적어도 두 개 이상의 레코드를 조합하여 원본 레코드와는 상이한 레코드를 생성하는 데이터 추상화 단계;를 포함하되, 상기 데이터 추상화 단계는, 상기 데이터를 구성하는 상기 원본 레코드의 각각의 필드 중 적어도 하나 이상의 필드를 추상화 기준필드로 설정하고, 상기 추상화 기준필드 이외의 필드 중 적어도 하나 이상의 필드를 추상화 대상필드로 설정하는 단계; 상기 원본 레코드 중 상기 추상화 기준필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N 개)씩을 추상화대상 레코드그룹으로 선택하는 단계; 상기 선택된 N개의 추상화대상 레코드그룹을 상기 추상화 기준필드와 상기 추상화 대상필드로 이루어지는 하나의 추상화 레코드로 추상화하되, 상기 추상화 레코드의 수치 속성필드는 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고, 상기 추상화 레코드의 범주(Catagory) 속성필드는 해당 범주 속성값과 상기 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하는 단계; 상기 추상화 기준필드의 값이 모두 동일한 레코드의 수가 상기 N개 이하인 레코드들중 적어도 2개 이상(M 개)씩을 추상화대상 레코드그룹으로 선택하는 단계; 상기 선택된 M개의 추상화대상 레코드그룹을 상기 추상화 기준필드와 상기 추상화 대상필드로 이루어지는 하나의 추상화 레코드로 추상화하되, 상기 추상화 레코드의 수치 속성필드는 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고, 상기 추상화 레코드의 범주 속성필드는 해당 범주 속성값과 상기 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하는 단계; 상기 처리부가, 상기 추상화 레코드를 상기 추상화 데이터의 레코드로서 상기 저장부에 저장하는 단계;를 구비하는 것을 특징으로 한다.
본 발명의 위와 같은 특징에 따르면, 빅데이터를 구성하는 여러 가지 필드 중 통계 분석의 기준이 될 수 있는 필드와 통계 분석의 대상이 될 수 있는 필드를 선택하여 유통용 빅데이터를 생성하되, 복수의 원본 레코드를, 원본 레코드의 값과는 다른 필드값을 갖으면서 통계 분석 본연의 의미를 유지할 수 있는 하나의 추상화 레코드로 추상화함으로서, 통계 분석의 가치를 갖는 새로운 정보를 얻을 수 있으면서도, 개인의 특정 정보 및 그 조합을 통한 역추적을 근본적으로 방지할 수 있는 빅데이터를 제공할 수 있게 된다.
특히, 추상화 기준필드의 값이 모두 동일한 레코드의 수가 N개 미만인 레코드에 대해서도 이들을 추상화 대상에서 제외시키지 않고 별도로 그룹화하고, 그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값을 추상화 레코드의 속성값으로 할당하여 추상화 누락 데이터를 최소화함으로서, 유통되는 데이터로부터 산출되는 통계값이 원본 데이터의 통계값에 최대한 가깝게 되어 통계 분석의 신뢰성을 확보할 수 있게 된다.
추상화 기준필드는, 데이터 추상화를 수행하는 기준이 되는 필드를 의미하는 것으로서, 원본 레코드의 해당 필드가 연속 수치 데이터형인 경우 히스토그램, 비닝(Binning), 군집화 기법 등으로 전처리하여 해당 속성을 불연속(Discrete) 범주형 데이터로 변환한 후 추상화 기준필드 선택하는 바람직하다.
추상화 대상필드는, 통계값 산정의 대상이 되는 필드로서, 추상화 대상필드가 수치 데이터형일 경우, 추상화 레코드의 해당 필드값은 평균값, 편차, 최댓값, 최소값, 평균, 표준편차, 중간값, quartile-quartile distance(Q3-Q1), |최대치-최소치| 등의 통계함수값 중 적어도 어느 하나 이상의 값을 할당하는 것이 바람직하며, 수치 데이터가 아닌 경우 합집합, 교집합, 샘플링, 빈발 행위원소, 군집화, 히스토그램 등의 통합함수를 적용하여 산출할 수 있다.
하나의 추상화 레코드에 포함되는 원본 레코드는, 각각의 추상화 레코드에 대해 일정 갯수로 선택하는 것이 바람직하나, 각각의 추상화 레코드에 서로 다른 갯수의 원본 레코드가 포함되도록 선택하는 것도 가능하다
본 발명의 또 다른 특징은, 상기 추상화 기준필드가 2개 이상인 경우, 추상화 기준 필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N 개)씩을 추상화대상 레코드그룹으로 선택하여 상기 추상화 작업을 진행한 후, 상기 추상화 작업에 진행되지 않은 나머지 레코드들에 대해, 상기 추상화 기준필드중 어느 하나를 제외한 나머지 필드를 새로운 추상화 기준필드로 설정하여, 상기 새로운 추상화 기준필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N' 개)씩을 추상화대상 레코드그룹으로 선택하여 상기 추상화 작업을 진행하는 단계;를 더 포함하는 것을 특징으로 한다.
본 발명의 위와 같은 특징에 따르면, 임의의 그룹화 이전에 추상화 기준필드에 따른 그룹화를 다단계로 진행하여 추상화 작업을 진행함으로서, 유통된 데이터에 의한 통계 분석의 정확도를 더욱 향상시킬 수 있게 된다.
본 발명에 따르면, 데이터의 비식별화 즉, 탈 개인정보를 완벽하게 수행함으로서, 빅데이터의 유통시 특정 개인이 재식별화되는 것을 근본적으로 방지하여, 민감한 개인정보에 대해 개개인에 대한 허락을 받을 필요 없이 안전하게 유통용으로 활용할 수 있는 빅데이터를 제공할 수 있게 된다.
또한, 개개의 소요처에서 독특하게 필요로 하는 분석용 정보를 적절하게 선별 가공하여 제공할 수 있게 된다.
또한, 추상화 기준필드의 값이 모두 동일한 레코드의 수가 기준치에 못미치는 레코드에 대해서도, 이들을 추상화 대상에서 제외시키지 않고 별도 그룹화하여를 진행하고, 그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값을 추상화 레코드의 속성값으로 할당하여 추상화 누락 데이터를 최소화함으로서, 유통되는 데이터로부터 산출되는 통계값이 원본 데이터의 통계값에 최대한 가깝게 되어 통계 분석의 신뢰성을 확보할 수 있게 된다.
도 1은 본 발명의 빅데이터 처리 시스템을 형성하는 데이터 중심 컴퓨팅 환경을 설명하는 예시도.
도 2는 도 1에 도시한 데이터 서버의 주요 구성을 나타내는 블록도.
도 3은 본 발명의 일 실시예에 따른 데이터 추상화의 기본적인 단계를 나타내는 블록도.
이하, 본 발명에 따른 빅데이터의 비식별화 처리 방법 및 생성된 유통형 빅데이터로부터의 통계 정보 산출 방법을 구체적으로 설명한다.
도 1을 참조하면, 본 발명의 빅테이터 처리 시스템을 형성하는 데이터 중심의 컴퓨팅 환경은 데이터 서버(110)와 데이터 서버와 유무선 네트워크를 통해 연결되는 다수의 사용자 단말(120)에 의해 구축될 수 있다.
데이터 중심의 컴퓨팅(data-centric computing) 환경이란 다수의 사용자 단말(120)에서 실시간으로 생성되는 데이터를 활용하여 소셜 네트 워크서비스(Social Network Service, SNS), 스마트 그리드(smart grid), 지능형 가전, 실시간 스트리밍 또는 실시간 의사 결정 등의 다양한 응용 프로그램을 제공할 수 있는 빅데이터 처리에 기반한 기술을 의미한다.
본 발명에 따른 빅데이터 처리 시스템 및 방법은, 다수의 사용자 단말(120)과 연결된 데이터 서버(110)에 의해 구현되는 바, 다수의 사용자 단말(120)에서 생성되는 데이터를 수집하고 이를 처리한 후 저장하고, 저장된 데이터를 소요로 하는 사용자 단말(120)에 제공함으로써, 데이터 중심의 컴퓨팅 응용이 수행될 수 있는 환경이 구축된다.
여기에서, 사용자 단말(120)은 데이터 서버(110)와 연결되도록 통신 장치를 탑재하고, 사용자 단말(120)의 운용에 따라 데이터가 생성되도록 정보 처리 기능을 구비하는 컴퓨터, 노트북과 같은 정보 처리 단말, 스마트폰, 태블릿 PC 등의 이동 통신 단말, 스마트 가전 기기, 무선식별(RFID) 데이터, 블랙 박스 또는 네비게이션이 운용되는 자동차, 기차, 비행기와 같은 교통 수단 등을 의미할 수 있으나 이에 한정되는 것은 아니다.
도 2에 도시된 바와 같이, 데이터 서버(110)는 통신부(113)를 통해 다수의 사용자 단말(120)과 유무선 네트워크로 연결되어 사용자 단말(120)에서 생성된 데이터를 수집하여 저장부(112)에 저장하고, 일반적으로 복수의 프로세서로 이루어지는 처리부(111)에 의해 수집된 데이터를 처리하여 저장하는 클라우드 서버 또는 웹 서버를 의미할 수 있으나 이에 한정되는 것은 아니다.
유무선 네트워크를 통해 연결된 단말들(120)로부터 통신부(113)를 통해 수집되는 원본 데이터는 데이터 서버(110)의 저장부(112)에 저장된다.
본 발명에 따른 처리부(111)는 저장부(112)에 저장되어 있는 대용량의 빅데이터를 적절하게 처리하여, 분석에 필요한 데이터를 선택하여 추상화 함으로서 용량을 줄임과 동시에 비식별화하여 유통용의 비식별 빅데이터로 가공하여 저장부(112)에 저장하게 되며, 저장부(112)에 상대적으로 소용량으로 저장된 유통용 비식별 빅데이터는 서버의 통신부(113) 및 통신망을 통해 이의 분석 및 활용이 필요한 소요처로 전송된다.
도 3은 본 발명의 일 실시예에 따른 데이터 추상화의 기본적인 단계를 나타내는 블록도로서, 이하, 도 3을 참조하여 데이터 서버의 처리부에서 수행되는 빅데이터의 비식별화 처리 방법을 구체적으로 설명한다.
먼저, 저장부(112)에 저장된 데이터를 구성하는 원본 레코드의 각각의 필드 중 빅데이터의 소요처에서 독특하게 필요로 하는 필드 정보만을 적절하게 선별하게 되는 데, 적어도 하나 이상의 필드를 추상화 기준필드로 설정하고(S1), 추상화 기준필드 이외의 필드 중 적어도 하나 이상의 필드를 추상화 대상필드로 설정한다(S2).
추상화 기준필드는, 데이터 추상화를 수행하는 기준이 되는 필드를 의미하는 것으로서, 원본 레코드의 해당 필드가 연속 수치 데이터형인 경우 히스토그램, 비닝(Binning), 군집화 기법 등으로 전처리하여 해당 속성을 불연속(Discrete) 범주(Catalog)형 데이터로 변환한 후 추상화 기준필드 선택하는 바람직하다.
처리부(111)에 의해, 원본 레코드 중 추상화 기준필드의 값이 모두 동일한 레코드가 적어도 두 개 이상(N 개) 추상화대상 레코드그룹으로 선택되고(S3), 선택된 복수의 레코드가 하나의 추상화 레코드로 추상화 된다(S4).
선택 단계(S3) 이전에 상기 처리부에 의해 상기 데이터를 상기 추상화 기준필드의 값을 기준으로 정렬하는 단계를 갖는 것이 바람직하며, 하나의 추상화 레코드에 포함되는 원본 레코드는, 각각의 추상화 레코드에 대해 일정 갯수로 선택하는 것이 바람직하나, 각각의 추상화 레코드에 서로 다른 갯수의 원본 레코드가 포함되도록 선택하는 것도 가능하다.
추상화 레코드의 수치 속성필드는 평균값, 편차, 최댓값, 최소값, 평균, 표준편차, 중간값, quartile-quartile distance(Q3-Q1), |최대치-최소치|등의 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고, 추상화 레코드의 범주(Catagory) 속성필드는 해당 범주 속성값과 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하여 저장부(112)에 저장한다(S5).
이 단계에서는 추상화 기준필드의 값이 모두 동일한 레코드가 추상화대상 레코드그룹을 형성하므로, 각각의 범주 속성값의 발생 비율값은 1이 된다.
추상화 레코드의 저장시, 각각의 추상화 레코드에 대해 가명 식별자 및 추상화대상 레코드그룹에 포함되는 레코드의 숫자에 대한 정보를 함께 저장하거나, 추상화대상 레코드그룹에 포함되는 각각의 레코드에 대해 가명 식별자를 부여한 후, 생성된 추상화 레코드를 각각의 레코드에 동일하게 할당하여 저장할 수 있다.
전자는 데이터의 용량을 절약할 수 있으나, 통계 활용시 계산이 번거로울 수 있으며, 후자는 데이터의 용량은 전자에 비해 커지지만, 통계 활용시 계산이 용이하다는 장단점이 있으므로 상황에 따라 적절한 방식을 적용하는 것이 가능하다.
추상화 기준필드의 값이 모두 동일한 레코드의 수가 N개 이상 남아있는 경우, 즉 N그룹화가 가능할 때까지 위 과정을 반복하여 추상화 레코드를 생성한다.
추상화 기준필드의 값이 모두 동일한 레코드의 수가 상기 N개 미만으로 되는 경우, 즉 N 그룹화가 불가능하게 되는 경우, 남아 있는 레코드들중 적어도 2개 이상(M 개)씩을 추상화대상 레코드그룹으로 선택(S7)하여, 추상화 작업을 진행한다.(S8).
이때, M은 데이터의 비식별성을 확보하기 위해 N 보다는 큰 숫자로서, 바람직하게는 N의 2배 정도로 설정하는 것이 바람직하다.
또한, 추상화 진행 중 남은 레코드의 수가 M개 이하가 되는 경우, 비식별성을 확보하기 위해서는 N 그룹화가 가능한 레코드들이 있더라도, 이들에 대해서는 N 그룹화에 의한 추상화를 진행하지 않고 M 그룹화 추상화를 진행하는 것이 바람직하다.
이 경우도, 추상화 레코드의 수치 속성필드는 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고, 추상화 레코드의 범주 속성필드는 해당 범주 속성값과 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하여 저장부(112)에 저장한 후(S9), 나머지 원본 데이터에 걸쳐 S7 내지 S10의 과정을 반복하게 되며, 원본 데이터 전체에 걸쳐 데이터 추상화 작업이 완료되면 작업을 종료(S11)하게 된다.
한편, 추상화 기준필드가 2개 이상인 경우, 추상화 기준 필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N 개)씩을 추상화대상 레코드그룹으로 선택하여 상기 추상화 작업을 진행한 후(S3~S6), 단계 S7을 수행하기 전에, 추상화 작업에 진행되지 않은 나머지 레코드들에 대해, 추상화 기준필드중 어느 하나를 제외한 나머지 필드를 새로운 추상화 기준필드로 설정하여, 새로운 추상화 기준필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N')씩을 추상화대상 레코드그룹으로 선택하여 추상화 작업을 수행하는 것도 가능하며, 이 방식에 따르면, 추상화 기준필드에 따른 그룹화를 다단계로 진행하여 추상화 작업을 진행함으로서, 유통되는 데이터에 의한 통계 분석의 정확도를 더욱 향상시킬 수 있게 된다.
위에 언급한 데이터 추상화 과정을 구체적인 예를 들어 설명하면 다음과 같다.
표 2는 데이터 추상화 이전의 원본 데이터의 간단한 예로서, 주민등록번호, 성별, 키, 병명이 원본 레코드의 각 필드로 포함되어 있으며, 작업의 편의를 위해 추상화 기준필드인 병명, 성별을 기준으로 정렬한 예를 나타낸다.
[표 2] 원본 데이터의 예
추상화 대상필드로는 개인이 식별될 수 있는 주민번호는 선택하지 않고, 통계 대상인 키를 추상화 대상필드로 선택한다.
먼저, 원본 데이터에서 추상화 기준 필드인 병명, 성별이 모두 같은 레코드 3개씩(N=3)을 추상화대상 레코드그룹으로 선택하는 경우, 추상화대상 레코드그룹은 표 3과 같다.
[표 3]
표 3의 추상화대상 레코드그룹에 대해, 수치 속성필드는 통계함수값 중 평균, 편차, 최대값, 최소값을 할당하고, 범주 속성필드는 해당 범주 속성값인 남자, 간암 및 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하면 표 4와 같다.
범주 속성값인 남자, 간암 모두 그룹내 발생 비율값은 1이 된다.
[표 4]
표 5는 이와 같이 생성된 추상화 레코드를, 추상화대상 레코드그룹에 포함되어 있는 각각의 레코드에 대해 레코드에 동일하게 할당하여 저장하는 예를 나타낸다.
[표 5]
본 예의 원본 데이터에 따르면, 위 추상화 작업 진행 후 나머지 레코드중 추상화 기준필드의 값이 모두 동일한 레코드의 수가 3개(N=3) 미만이어서 더 이상의 N 그룹화가 불가능하므로, 추상화 기준필드중 병명를 제외한 나머지 필드 즉, 성별을 새로운 추상화 기준필드로 설정하여, 성별 필드값이 동일한 레코드 중 3개(N'=3)씩을 추상화대상 레코드그룹으로 선택하여 추상화 작업을 수행하게 되는 데, 먼저, 원본 데이터에서 추상화 기준 필드인 성별이 모두 같은 레코드 3개씩(N'=3)을 추상화대상 레코드그룹으로 선택하는 경우, 추상화대상 레코드그룹은 표 6과 같다.
[표 6]
표 6의 추상화대상 레코드그룹에 대해, 앞서와 같이 수치 속성필드는 통계함수값 중 평균, 편차, 최대값, 최소값을 할당하고, 범주 속성필드는 해당 범주 속성값인 여자, 간암 및 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하면 표 7와 같다.
[표 7]
추상화대상 레코드그룹내에 서로 다른 범주값 x, y, z가 존재하는 경우, 연결형 속성값 (x, fx)/(y, fy)/(z, fz) ... 로 모든 범주값을 연결하여 연결형 속성값으로 할당하는 데, 표 6에서, 병명 속성값은 {(위암, 2회=2/3=0.67), (간암, 1회=1/3=0.33)}이므로, 추상화 레코드의 병명 속성값에는 (위암,0.67)/간암,0.33)의 값이 할당된다.
표 8은 이와 같이 생성된 추상화 레코드를, 추상화대상 레코드그룹에 포함되어 있는 각각의 레코드에 대해 레코드에 동일하게 할당하여 저장하는 예를 나타낸다.
[표 8]
한편, 본 예의 원본 데이터에 따르면, 위 추상화 작업 진행 후 나머지 레코드 중 추상화 기준필드의 값 즉, 성별 필드값이 동일한 레코드의 수가 3개(N'=3) 미만이어서 더 이상의 N' 그룹화가 불가능하므로, 남아 있는 레코드들 6개(M=6)씩을 추상화대상 레코드그룹으로 선택하여, 추상화 작업을 진행한다.
이 경우도, 추상화 레코드의 수치 속성필드는 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고, 추상화 레코드의 범주 속성필드는 해당 범주 속성값과 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하여 저장부(112)에 저장하게 된다.
표 9는 성별 필드값이 동일한 레코드의 수가 3개(N'=3) 미만이어서 더 이상의 N' 그룹화가 불가능한 레코드중 6개(M=6)씩을 추상화대상 레코드그룹으로 선택한 예를 나타내고, 표 10은 표 9의 추상화대상 레코드그룹에 대해 추상화를 진행한 결과를 나타내며, 표 11은 이와 같이 생성된 추상화 레코드를, 추상화대상 레코드그룹에 포함되어 있는 각각의 레코드에 대해 레코드에 동일하게 할당하여 저장하는 예를 나타낸다.
[표 9]
[표 10]
[표 11]
표 12는 표 2의 원본 데이터를 추상화하여 형성된 전체적인 추상화 레코드 테이블을 나타낸다.
[표 12]
이하, 본 발명에 따른 추상화 레코드를 활용하여 통계값을 산정하는 방법을 표 12의 추상화 레코드 테이블을 참조로 하여 설명하기로 한다.
먼저 전체 레코드에 대한 수치 속성값(평균, 편차, 최대, 최소)의 활용에 대해 설명한다.
전체 레코드에 대한 키의 평균값은 (각 레코드의 키 속성값의 합)/레코드 수에 해당되며, 표 12의 예의 경우, 2034/12 = 169.5에 해당되며, 전체 레코드에 대한 키의 최대값은 키의 최대값 속성값중 가장 큰 191에 해당되고, 전체 레코드에 대한 키의 최소값은 키의 최소값 속성값중 가장 작은 155에 해당된다.
한편, 여자의 평균키와 같이 부분 레코드에 대한 수치 속성값의 통계값은 다음의 예와 같이 산출한다.
여자의 숫자 즉, 여자의 레코드 수는 Σ(여자 비율) = 1*3 + 0.33*6 = 5에 해당되고, 여자들의 평균키는 Σ(키 평균*여자비율)/Σ(여자비율) = 835/5 = 167에 해당되며, 이 경우 신뢰도는 계산에 사용된 레코드들의 여자비율의 평균값 즉, Σ(여자 비율)/ (계산에 사용된 레코드 수) = 5/9 = 4.55에 해당되며, 여자들의 평균키의 확정 통계값은 여자 비율이 1인 레코드들에 대한 평균키 값으로서, 가명 식별자 R4, R5, R6의 평균키인 166에 해당된다.
또한, 여자의 최대 키에 대한 확정 통계값 즉, 신뢰도 100%의 최대값은 여자 비율이 1인 레코드들 중의 최대값인 175에 해당되며, 여자의 최대 키의 가능 통계값은 (여성, x)의 속성값을 갖는 레코드들 중의 최대값 v를 속성 통계값으로, 해당 레코드의 여자 비율 w를 신뢰도로 산정하여 (v, w)로 표현되며, 표 12의 추상화 레코드 테이블의 경우 (187, 0.33)에 해당되며, 마찬가지로, 여자의 최소 키에 대한 확정 통계값은 (157, 1), 여자의 최소 키에 대한 가능 통계값은 (155, 0.33)에 해당된다.
표 13은 표 12의 추상화 레코드 테이블로부터 산출된 통계값과 도 2의 원본 레코드 테이블로부터 산출된 통계값을 대비하여 나타낸 표로서, 추상화 테이블로부터 산출된 통계값이 원본 레코드의 통계값과 유사하여 통계자료로서 신뢰성 있게 활용 가능하다는 것을 보여주고 있다.
[표 13]
한편, 추상화 레코드 테이블의 범주 속성값을 이용한 통계값 산출 방법은 다음과 같다.
표 12의 추상화 레코드 테이블에서, 병명이 간암인 레코드 수는 각 레코드의 해당 속성값 비율의 합(= 3+ 3*0.33 = 4)에 해당되며, 병명이 정상인 레코드 수는 해당 속성값 비율의 합(= 0.67*6 = 4)에 해당되며, 마찬가지 방법으로, 병명이 위암인 레코드 수는 2, 병명이 폐암인 레코드 수는 1, 병명이 폐암인 레코드 수는 1에 해당된다.
이와 같이, 본 발명에 의해 형성되는 추상화된 비식별화 빅데이터는, 독립적으로 생성된 두 개 이상의 빅데이터들의 연계 활용이 가능하게 되는 바, 그 과정은 다음과 같다.
표 14와 표 15는 두 개의 서로 상이한 빅데이터 A와 B에 대한 추상화 레코드 테이블 A와 B를 각각 나타내는 바, 두 개의 추상화 레코드 테이블에 공통되는 가명 식별자를 기준으로 두 개의 테이블을 결합하여 통계 분석에 활용한다.
[표 14]
[표 15]
예를 들어, 표 14, 표 15의 전체 레코드에 대한 키의 평균값은 (각 레코드의 키 속성값의 합)/레코드 수에 해당되며, 1524.5/9 = 169.5에 해당되며, 전체 레코드에 대한 키의 최대값은 키의 최대값 속성값중 가장 큰 191에 해당되고, 전체 레코드에 대한 키의 최소값은 키의 최소값 속성값중 가장 작은 155에 해당된다.
한편, 구의동 거주자의 평균키와 같이 부분 레코드에 대한 수치 속성값의 통계값은 다음의 예와 같이 산출한다.
구의동 거주자의 평균키 = Σ(키 평균*구의동 비율)/Σ(구의동 비율) = 611.2/3.66 = 167에 해당되며, 신뢰도는 계산에 적용된 구의동 비율의 평균값인 0.52에 해당된다.
또한, 구의동 거주자 최대 키에 대한 확정 통계값은 구의동 비율이 1인 레코드들 중의 최대값인 191에 해당되며, 구의동 거주자 최대 키의 가능 통계값은 (구의동, x)의 속성값을 갖는 레코드들 중의 최대값 v를 속성 통계값으로, 해당 레코드의 구의동 비율 w를 신뢰도로 산정하여 (v, w)로 표현되며, 표 14, 표15의 추상화 레코드 테이블의 경우 (191, 1)에 해당되며, 마찬가지로, 구의동 거주자의 최소 키에 대한 확정 통계값은 (158, 1), 구의동 거주자의 최소 키에 대한 가능 통계값은 (157, 0.33)에 해당된다.
표 16은 표 14, 표15의 추상화 레코드 테이블로부터 산출된 통계값과 원본 레코드 테이블(도시 안함)로부터 산출된 통계값을 대비하여 나타낸 표로서, 추상화 테이블로부터 산출된 통계값이 원본 레코드의 통계값과 유사하여 통계자료로서 신뢰성 있게 활용 가능하다는 것을 보여주고 있다.
[표 16]
한편, 추상화 레코드 테이블의 범주 속성값을 이용한 통계값 산출 방법은 다음과 같다.
표 14, 15의 추상화 레코드 테이블에서, 병명이 간암인 레코드 수는 각 레코드의 해당 속성값 비율의 합 = 2 + 0.33*2 = 2.66에 해당되고, 주소가 정동인 레코드 수는 각 레코드의 해당 속성값 비율의 합 = 0.17*5 + 0.29*2 = 1.43에 해당된다.
또한, 성별이 ‘남자'이고, 주소가 ‘구의동'인 레코드 수는, 각 레코드의 해당 속성값 비율*속성값 비율의 합 = 1*1*2 + 0.67*0.33*3 = 2.67에 해당되며, 성별이 ‘여자'이고, 주소가 ‘창천동'인 레코드 수는 각 레코드의 해당 속성값 비율*속성값 비율의 합 = 1*0.33*2 + 0.33*0.33*3 = 1에 해당된다.
이상 설명은 이해를 돕기 위해 설명에 필요한 최소한의 레코드를 예로 들어 설명하였으나, 본 발명의 원리는 레코드 수가 방대한 빅데이터에 대해 동일하게 적용될 수 있으며, 데이터의 수가 많을수록 추상화 레코드 테이블로부터 산출되는 통계값의 신뢰성을 확보할 수 있음을 확인할 수 있었다.
Claims (3)
- 통신부, 처리부 및 저장부를 구비하는 데이터 서버에서 수행되는 빅데이터의 비식별화 처리 방법에 있어서,상기 처리부가, 유무선 네트워크를 통해 연결된 단말로부터 상기 통신부를 통해 수집되는 데이터를 상기 데이터 서버의 저장부에 저장하는 단계;상기 처리부가, 상기 데이터를 구성하는 원본 레코드 중 적어도 두 개 이상의 레코드를 조합하여 원본 레코드와는 상이한 레코드를 생성하는 데이터 추상화 단계;를 포함하되,상기 데이터 추상화 단계는, 상기 데이터를 구성하는 상기 원본 레코드의 각각의 필드 중 적어도 하나 이상의 필드를 추상화 기준필드로 설정하고, 상기 추상화 기준필드 이외의 필드 중 적어도 하나 이상의 필드를 추상화 대상필드로 설정하는 단계;상기 원본 레코드 중 상기 추상화 기준필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N 개)씩을 추상화대상 레코드그룹으로 선택하는 단계;상기 선택된 N개의 추상화대상 레코드그룹을 상기 추상화 기준필드와 상기 추상화 대상필드로 이루어지는 하나의 추상화 레코드로 추상화하되,상기 추상화 레코드의 수치 속성필드는 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고,상기 추상화 레코드의 범주(Catagory) 속성필드는 해당 범주 속성값과 상기 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하는 단계;상기 추상화 기준필드의 값이 모두 동일한 레코드의 수가 상기 N개 미만인 레코드들중 적어도 2개 이상(M 개)씩을 추상화대상 레코드그룹으로 선택하는 단계;상기 선택된 M개의 추상화대상 레코드그룹을 상기 추상화 기준필드와 상기 추상화 대상필드로 이루어지는 하나의 추상화 레코드로 추상화하되, 상기 추상화 레코드의 수치 속성필드는 통계함수값 중 적어도 하나 이상의 값이 포함되도록 할당하고,상기 추상화 레코드의 범주 속성필드는 해당 범주 속성값과 상기 추상화대상 레코드그룹내의 해당 범주 속성값의 발생 비율값을 포함하는 연결형 속성값으로 할당하는 단계;상기 처리부가, 상기 추상화 레코드를 상기 추상화 데이터의 레코드로서 상기 저장부에 저장하는 단계;를 구비하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
- 제 1 항에 있어서,상기 통계함수값은 평균값, 편차, 최댓값, 최소값, 평균, 표준편차, 중간값, quartile-quartile distance(Q3-Q1), |최대치-최소치|를 포함하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
- 제 1 항 또는 제 2 항 중 어느 한 항에 에 있어서,상기 추상화 기준필드가 2개 이상인 경우, 추상화 기준 필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N 개)씩을 추상화대상 레코드그룹으로 선택하여 상기 추상화 작업을 진행한 후,상기 추상화 작업에 진행되지 않은 나머지 레코드들에 대해, 상기 추상화 기준필드중 어느 하나를 제외한 나머지 필드를 새로운 추상화 기준필드로 설정하여, 상기 새로운 추상화 기준필드의 값이 모두 동일한 레코드중 적어도 두 개 이상(N')씩을 추상화대상 레코드그룹으로 선택하여 상기 추상화 작업을 진행하는 단계;를 더 포함하는 것을 특징으로 하는 빅데이터의 비식별화 처리 방법.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020227001535A KR102640123B1 (ko) | 2019-05-31 | 2019-05-31 | 빅데이터의 비식별화 처리방법 |
PCT/KR2019/006586 WO2020241943A1 (ko) | 2019-05-31 | 2019-05-31 | 빅데이터의 비식별화 처리방법 |
US17/608,040 US11941153B2 (en) | 2019-05-31 | 2019-05-31 | De-identification method for big data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/KR2019/006586 WO2020241943A1 (ko) | 2019-05-31 | 2019-05-31 | 빅데이터의 비식별화 처리방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020241943A1 true WO2020241943A1 (ko) | 2020-12-03 |
Family
ID=73552353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2019/006586 WO2020241943A1 (ko) | 2019-05-31 | 2019-05-31 | 빅데이터의 비식별화 처리방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11941153B2 (ko) |
KR (1) | KR102640123B1 (ko) |
WO (1) | WO2020241943A1 (ko) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120131481A1 (en) * | 2010-11-22 | 2012-05-24 | International Business Machines Corporation | Dynamic De-Identification of Data |
US20150235049A1 (en) * | 2014-02-20 | 2015-08-20 | International Business Machines Corporation | Maintaining Data Privacy in a Shared Data Storage System |
US20150324607A1 (en) * | 2014-05-07 | 2015-11-12 | Hush Hush | Methods and systems for obfuscating sensitive information in computer systems |
KR20170078983A (ko) * | 2015-12-29 | 2017-07-10 | 가천대학교 산학협력단 | 라이프로그 데이터 가공 장치 및 방법 |
KR101784265B1 (ko) * | 2016-06-09 | 2017-10-12 | 주식회사 그리즐리 | 빅데이터의 비식별화 처리 방법 |
KR20180060390A (ko) * | 2016-11-29 | 2018-06-07 | 주식회사 파수닷컴 | 목적에 따라 비식별화된 데이터를 최적화하는 방법 및 장치 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3089500A1 (fr) * | 2018-12-05 | 2020-06-12 | Airbus | système D’AIDE A LA RESOLUTION de PANNES D’AERONEFS |
-
2019
- 2019-05-31 US US17/608,040 patent/US11941153B2/en active Active
- 2019-05-31 WO PCT/KR2019/006586 patent/WO2020241943A1/ko active Application Filing
- 2019-05-31 KR KR1020227001535A patent/KR102640123B1/ko active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120131481A1 (en) * | 2010-11-22 | 2012-05-24 | International Business Machines Corporation | Dynamic De-Identification of Data |
US20150235049A1 (en) * | 2014-02-20 | 2015-08-20 | International Business Machines Corporation | Maintaining Data Privacy in a Shared Data Storage System |
US20150324607A1 (en) * | 2014-05-07 | 2015-11-12 | Hush Hush | Methods and systems for obfuscating sensitive information in computer systems |
KR20170078983A (ko) * | 2015-12-29 | 2017-07-10 | 가천대학교 산학협력단 | 라이프로그 데이터 가공 장치 및 방법 |
KR101784265B1 (ko) * | 2016-06-09 | 2017-10-12 | 주식회사 그리즐리 | 빅데이터의 비식별화 처리 방법 |
KR20180060390A (ko) * | 2016-11-29 | 2018-06-07 | 주식회사 파수닷컴 | 목적에 따라 비식별화된 데이터를 최적화하는 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
US20220215128A1 (en) | 2022-07-07 |
KR20220027961A (ko) | 2022-03-08 |
US11941153B2 (en) | 2024-03-26 |
KR102640123B1 (ko) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018205373A1 (zh) | 人伤理赔定损费用测算方法、装置、服务器和介质 | |
JP6829762B2 (ja) | ビッグデータの非識別化処理方法 | |
WO2020040537A1 (ko) | 건축규정 분류체계별 건축규정 법령정보 검색 시스템 및 그 방법 | |
KR101630752B1 (ko) | 유통용 비식별 빅데이터 처리 방법 | |
WO2020108111A1 (zh) | 医保欺诈行为的识别方法、装置、设备及可读存储介质 | |
WO2015129983A1 (ko) | 분산 퍼지 연관 규칙 마이닝에 기반한 영화 추천 장치 및 방법 | |
WO2022059826A1 (ko) | 디지털 트윈 환경 기반의 융합형 스마트-IoT 커넥티드 미들웨어 장치 및 제공 방법 | |
WO2021068349A1 (zh) | 基于区块链的图片标注方法、装置及存储介质、服务器 | |
Taylor | Global data justice | |
WO2020096262A1 (ko) | 전자 장치, 그의 개인 정보 제공 방법 및 이를 기록한 컴퓨터 판독 가능 기록매체 | |
WO2020241943A1 (ko) | 빅데이터의 비식별화 처리방법 | |
WO2020143296A1 (zh) | 数据采集方法、装置、设备及计算机可读存储介质 | |
WO2013127195A1 (zh) | 链式沟通协作方法、装置及系统 | |
US20040073627A1 (en) | Patent or utility model information retrieval management system using the internet | |
WO2019098584A1 (ko) | 사물 인터넷 환경에서 낯선 기기에 대한 사용자 신뢰도 계산 시스템 및 방법 | |
WO2023113158A1 (ko) | 범죄 행위자 프로파일링 방법, 이를 수행하는 장치 및 컴퓨터 프로그램 | |
WO2019189969A1 (ko) | 빅데이터 개인정보 익명화 및 익명 데이터 결합 방법 | |
WO2022075560A1 (ko) | 에너지 데이터 중개 시스템 및 방법 | |
WO2013008979A1 (ko) | 다중 온톨로지를 이용한 개체식별장치 및 방법 | |
CN107169044A (zh) | 一种城市人才资源综合管理方法 | |
WO2018139777A1 (ko) | 데이터구조를 이용한 수치정보관리장치 | |
WO2015147348A1 (ko) | 다자간 전자명함 교환 방법 및 시스템 | |
Christen et al. | Secure health data linkage and geocoding: Current approaches and research directions | |
WO2023191126A1 (ko) | 개인 식별화 정보의 관리를 위한 비식별화 처리 방법 및 그 장치 | |
WO2012046905A1 (ko) | 다중 자원의 통합에 의한 자원 검색 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19930408 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 20227001535 Country of ref document: KR Kind code of ref document: A |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19930408 Country of ref document: EP Kind code of ref document: A1 |