KR20160066454A - Data Processing Method for Distributable and Unidentifiable Big Data - Google Patents

Data Processing Method for Distributable and Unidentifiable Big Data Download PDF

Info

Publication number
KR20160066454A
KR20160066454A KR1020140170846A KR20140170846A KR20160066454A KR 20160066454 A KR20160066454 A KR 20160066454A KR 1020140170846 A KR1020140170846 A KR 1020140170846A KR 20140170846 A KR20140170846 A KR 20140170846A KR 20160066454 A KR20160066454 A KR 20160066454A
Authority
KR
South Korea
Prior art keywords
individual
personal
data
representative
record
Prior art date
Application number
KR1020140170846A
Other languages
Korean (ko)
Other versions
KR101630752B1 (en
Inventor
이윤하
이원석
Original Assignee
주식회사 춘하지원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 춘하지원 filed Critical 주식회사 춘하지원
Priority to KR1020140170846A priority Critical patent/KR101630752B1/en
Publication of KR20160066454A publication Critical patent/KR20160066454A/en
Application granted granted Critical
Publication of KR101630752B1 publication Critical patent/KR101630752B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a method for producing and managing unidentifiable big data for distribution capable of being used in a variety of ways by linking produced data in a separate environment and of being freely distributed to an external system, preventing the leakages of private information. According to the present invention, information can be exclusively selected and processed for each group by grouping data on private information in private information representative records; extracting private information required by individuals included in each group as a set of individual log data by personal acting log data; and matching or integrating the same into the private information representative record after integrating the personal acting log data with a certain standard and making single type of representative log data. Also, by separately grouping personal information and personal acting information and integrating the same, the probability of leakages of personal information caused by back tracking or combination can be significantly reduced compared to the existing method of grouping the whole information under a certain standard or local or spatial features.

Description

유통용 비식별 빅데이터 처리 방법{Data Processing Method for Distributable and Unidentifiable Big Data}Technical Field [0001] The present invention relates to a data processing method for distributing non-

본 발명은, 유통용 비식별 빅데이터의 처리 방법에 관한 것으로서, 더욱 상세하게는, 개인정보의 유출우려 없이 외부 시스템에 자유롭게 유통시킬 수 있으며, 별도 환경에서 생성된 데이터를 연계하여 다양한 용도로 활용할 수 있는 유통용 비식별 빅데이터를 생성 및 관리하기 위한 방법에 관한 것이다.
The present invention relates to a method of processing non-identifying big data for distribution, and more particularly, to a method for processing non-identification big data for distribution, which can freely circulate the data to an external system without fear of leakage of personal information, RTI ID = 0.0 > non-identified < / RTI > big data for distribution.

빅데이터란, 기존의 기업 환경이나 공공 기관에서 사용되는 정형화된 데이터는 물론, 전자상거래 데이터, 메타 데이터, 웹로그, 무선식별(RFID) 데이터, 센서 네트워크 데이터, 소셜 네트워크 데이터, 소셜 데이터, 인터넷 텍스트와 문서, 인터넷 검색 인덱싱 등 기존에 미처 활용되지 못하던 비정형화 또는 반정형화된 데이터를 모두 포함하는 데이터로서, 이와 같은 데이터는 일반적으로 보통의 소프트웨어 툴 및 컴퓨터 시스템으로는 다루기 어려운 수준의 데이터 양을 갖게 된다는 의미에서 빅데이터( Big Data)라 칭하고 있다.Big data refers to electronic data such as electronic commerce data, metadata, web logs, radio frequency identification (RFID) data, sensor network data, social network data, social data, and Internet text Data that includes both informal and semi-structured data that have not been used before, such as documents, Internet search indexes, and the like. Such data generally has a level of data that can not be handled by ordinary software tools and computer systems (Big Data).

빅데이터가 다양한 가치를 만들어내기 시작하면서, 사람들은 빅데이터를 원유에 비유하기 시작했다. 기름이 없으면 기기가 돌아가지 않듯이, 빅데이터 없이 정보시대를 보낼 수 없다는 의미에서다. 미국의 시장조사기관 가트너는 데이터는 미래 경쟁력을 좌우하는 21세기 원유라며 기업들은 다가오는 데이터 경제시대를 이해하고 이에 대비해야 한다라고 강조했다. 21세기 기업에게 가장 중요한 자산은 데이터이며 이를 관리하고 여기서 가치를 이끌어내지 못하면 경쟁에서 살아남을 수 없다는 뜻이다.As Big Data began to create various values, people began to compare Big Data to crude oil. It means that you can not spend the information age without big data just like the equipment does not run without oil. Gartner, a US market researcher, said the data is the 21st century crude oil that will influence future competitiveness, and companies must understand and prepare for the upcoming data economic era. The most important asset for a 21st century company is data, which means that you can not survive if you do not manage and value it.

최근 들어, 기업뿐만 아니라 정부에서도, 다양하게 수집된 빅데이터 정보 및 그를 활용한 통계 분석 데이터를 의사 결정과 정책 결정 등에 적극적으로 활용하고자하는 시도가 이어지고 있으며, 빅데이터를 활용하여 데이터 중심의 컴퓨팅 환경을 구축하기 위한 빅데이터 처리 기술이 활발하게 연구되고 있다.In recent years, not only companies but also governments have been actively trying to utilize various collected big data information and statistical analysis data utilizing them in decision making and policy making, A large data processing technique is being actively studied.

한편, 빅데이터는 해당 자료가 수집되는 조직 내에서 분석하여 활용하게 되지만, 자료를 수집하는 조직에 따라 수집되는 데이터의 속성에 차이가 있어 다른 조직의 자료를 활용할 필요가 발생하며, 자료를 수집할 능력이나 시스템이 갖추어져 있지 않은 조직의 경우에도 타 조직의 빅데이터나 그들의 조합으로부터 해당 조직이 독특하게 필요로 하는 정보를 분석하여 의사결정에 활용할 필요성이 대두되고 있다.Big data is analyzed and utilized within the organization in which the data are collected. However, there is a difference in the attributes of the data collected according to the organization that collects the data, so it is necessary to utilize the data of another organization. In the case of organizations that lack the ability or system, there is a need to analyze the information unique to the organization from the big data of other organizations or their combination and use it for decision making.

그러나, 빅데이터의 성격상 데이터의 양이 방대할 뿐만 아니라, 대부분의 빅데이터에는 개인신상에 대한 정보가 필연적으로 포함될 수 밖에 없는 바, 개인 신상 정보의 유출에 따른 법적 분쟁이 발생할 소지가 다분하기 때문에, 빅데이터의 조직간의 교류나 유통에는 한계가 있었으며, 이에 따라, 빅데이터의 수집이 가능한 조직의 입장에서는, 개인 신상정보 유출에 따른 법적 분쟁의 발생을 피하기 위해 빅데이터를 사업적 목적으로 가공하여 유통하기 보다는 대부분 통계적 정보 수준으로 가공하여 제공하고 있는 실정이며, 빅데이터의 활용을 필요로 하는 조직의 입장에서는 조직의 독특한 사업 환경에 꼭 필요로 하는 분석 자료를 획득하기가 어렵다는 문제점이 있었다.However, because of the nature of Big Data, not only is the amount of data enormous, but most Big Data contains inevitably information about personal information, and there is a possibility that a legal dispute will arise due to the leakage of personally identifiable information Therefore, there is a limit to the exchange and distribution of Big Data between organizations. Accordingly, in order to avoid the occurrence of legal disputes due to the leakage of personal information, an organization capable of collecting Big Data is required to process Big Data for business purposes In addition, it is difficult to acquire analytical data, which is essential for the unique business environment of the organization, from the viewpoint of the organization that needs the utilization of the big data.

상기의 문제점을 해결하기 위한 것으로, 데이터를 그룹화 한다거나, 마스킹, 치환, 반식별화, 유형화를 통해 개인 속성을 비식별화 하는 빅데이터 처리 시스템 및 방법이 일각에서 적용되고 있다.In order to solve the above problems, some big data processing systems and methods for grouping data, or non-identifying personal attributes through masking, substitution, semi-discrimination, and typing have been applied in some fields.

마스킹은, 대상정보를 마스킹 또는 삭제하는 것이고( 예; 670101-10491910 ************** ), 치환은 대상정보에 대응하여 생성된 정보로 치환하는 것이며(예; 670101-10491910 ID2311331), 반식별화는 대상 정보의 일부만 나타내도록 반식별화하고(예; 670101-10491910 67-1), 유형화는 대상정보를 유형화시켜 구분하는 방식(예; 670101-10491910 남자)이다.The masking is to mask or delete the object information (e.g., 670101-10491910 **************), and the replacement is to replace the information generated corresponding to the object information (e.g. 670101-10491910 ID2311331), the semi-discrimination is semi-discriminated to represent only a part of the object information (for example, 670101-10491910 67-1), and the type is a method of classifying and distinguishing object information (for example, 670101-10491910 man) .

그러나, 종래의 빅데이터 처리 방식에 따르면, 데이터를 그룹화 하는 데 있어서, 유사 레코드들의 속성값을 집계하여 대표 레코드화 하거나(총계 처리), 속성 범위값으로 단순히 그룹핑 집계하는 것(범주화)이기 때문에서, 개개의 소요처에서 독특하게 필요로 하는 정보만을 적절하게 선별 가공하여 제공하는 것이 곤란하였으며, 개인 정보를 마스킹, 치환, 반식별화 , 유형화 등에 의해 비식별화 한다 하더라도, 조합(Mash-Up)이나 역추적을 통해 개인정보의 유출 위험이 존재한다는 단점이 있었으며, 또한 별도 환경에서 독립적으로 생성된 빅데이터들의 연계 분석이 어렵다는 문제점이 있었다.However, according to the conventional big data processing method, in the grouping of data, attribute values of similar records are aggregated and converted into representative records (total processing), and grouping is performed simply by grouping with attribute range values (categorization) , It is difficult to appropriately select and process only the information that is uniquely required in the respective destinations. Even if the personal information is unidentified by masking, substitution, semi-identification, or type, There is a risk that there is a risk of leakage of personal information through backtracking, and there is a problem that it is difficult to perform linkage analysis of big data independently generated in separate environments.

본 발명은, 이와 같은 문제점을 해결하기 위한 것으로, 개개의 소요처에서 독특하게 필요로 하는 정보만을 적절하게 선별 가공하여 제공할 수 있도록 하는 유통용 비식별 빅데이터 처리 방법을 제공하는 데 그 목적이 있다.An object of the present invention is to provide a non-discriminating big data processing method for distribution which can selectively process only necessary information uniquely required by individual destinations .

본 발명의 다른 목적은, 데이터상에서 비식별화 즉, 탈 개인정보를 완벽하게 수행함으로서, 빅데이터의 유통시 특정 개인이 재식별화 되는 것을 원천적으로 불가능하게 하여, 민감한 개인정보에 대해 개개인에 대한 허락을 받을 필요 없이 안전하게 유통용으로 활용할 수 있는 유통용 빅데이터 처리 방법을 제공하는 데 있다.It is a further object of the present invention to provide a method and system for providing personal information to a user by making it possible to completely re-identify a particular individual at the time of distribution of big data, And to provide a big data processing method for distribution that can be safely used for distribution without having to obtain permission.

본 발명의 또 다른 목적은, 별도 환경에서 독립적으로 생성된 두 개 이상의 빅데이터를 필요에 따라 다양하게 연계하여 분석에 활용할 수 있도록 하는 유통용 비식별 빅데이터 처리 방법을 제공하는 데 있다. It is still another object of the present invention to provide a method for processing non-identifying big data for distribution, which enables two or more big data independently generated in separate environments to be used in various analysis as needed.

상기의 목적을 당성하기 위한 본 발명에 따른 유통용 비식별 빅데이터 처리 방법은, 통신부, 처리부 및 저장부를 구비하는 데이터 서버에서 수행되는 빅데이터 처리방법에 있어서, 유무선 네트워크를 통해 연결된 단말로부터 상기 통신부를 통해 수집되는 원본 데이터가 상기 데이터 서버의 저장부에 저장되는 단계; 상기 처리부가, 상기 저장부에 저장된 원본 데이터에 포함된 개인신상 데이터 중 적어도 하나 이상의 속성을 그룹핑 키로 하여, 다수의 개인신상 개별 레코드를 하나의 개인신상 대표 레코드로 그룹화하는 단계; 상기 처리부가, 그룹화된 각각의 개인신상 대표 레코드에 대해, 해당 개인신상 대표 레코드에 포함된 각각의 개인을 특정할 수 있는 속성을 대응시켜 개인 식별 리스트를 생성하는 단계; 상기 처리부가, 상기 저장된 원본 데이터에 포함된 개인행위 로그 데이터로부터, 상기 각각의 개인 식별리스트에 속해 있는 모든 개인의 개인행위 개별 로그데이터를 추출하여, 상기 각각의 개인신상 대표 레코드에 대한 개인행위 개별 로그데이터 세트로 생성하는 단계; 상기 처리부가, 상기 개인행위 개별 로그데이터 세트를, 적어도 하나 이상의 속성을 기준으로 통합하여, 하나의 개인행위 대표 로그데이터를 생성하는 단계; 상기 처리부가, 상기 개인신상 대표 레코드와 상기 개인행위 대표 로그데이터를 상기 저장부에 저장하는 단계;를 포함하는 것을 특징으로 한다.A method for processing large data for distribution according to the present invention is a method for processing large data in a data server having a communication unit, a processing unit and a storage unit, And storing the original data collected in the storage unit of the data server; Grouping a plurality of individual individual record into one personal representative record by using at least one attribute of the personal data contained in original data stored in the storage unit as a grouping key; Generating a personal identification list by associating, for each grouped personal representative record, an attribute that can specify each individual included in the personal representative record; Wherein the processing unit extracts individual log data of individual actions of all individuals belonging to the respective individual identification lists from the individual activity log data included in the stored original data, Generating a log data set; The processing unit integrating the individual behavior individual log data sets based on at least one or more attributes to generate one personal behavior representative log data; And storing the personal representative representative record and the personal behavior representative log data in the storage unit.

본 발명에 따르면, 개인신상 데이터는 개인신상 대표 레코드로 그룹화하고, 개인 행위 로그데이터는, 각 그룹에 포함된 각각의 개인에 대해, 필요로 하는 개인행위 정보만를 추출하여 이를 개인행위 개별 로그데이터 세트로 하고, 이를 특정 속성을 기준으로 통합하여 하나의 개인행위 대표 로그데이터로 한 후 개인신상 대표 레코드에 매칭/통합시킴으로서, 개개의 소요처에서 독특하게 필요로 하는 정보만을 적절하게 선별 가공하여 제공할 수 있게 된다.According to the present invention, the individual personality data is grouped into individual personal representative records, and the personal behavior log data is obtained by extracting only the personal behavior information required for each person included in each group, And integrates them based on specific attributes, converts them into one personal behavior representative log data, and then matches / integrates them with the personal representative record, so that only the information that is uniquely required by each individual destination can be appropriately screened and provided .

또한, 개인신상 정보와 개인 행위 정보를 별도로 그룹화하며 머지시킴으로서, 시공간이나 지역적 공간 또는 특정 속성을 기준으로 전체적인 정보를 그룹화하는 종래 방식에 비해 조합이나 역추적에 의한 개인정보의 유출 가능성을 현저히 감소시킬 수 있게 된다.In addition, by grouping and merging personal information and personal behavior information separately, it is possible to significantly reduce the possibility of leakage of personal information by combination or backtracking compared to the conventional method of grouping the whole information on the basis of time, space, .

본 발명의 또 다른 특징은, 상기 개인신상 대표 레코드로의 그룹화 단계가 개인신상 정보의 비식별화 단계을 포함하되, 상기 비식별화 단계는, 상기 원본 데이터에 포함된 상기 개인신상 개별 레코드로부터 개개인을 특정할 수 있는 속성값을 제거하는 유일성 제거 단계와; 그룹화된 상기 개인신상 대표 레코드의 어느 속성값이, 원본 데이터에 포함된 상기 개인신상 개별 레코드의 해당 속성값과 동일한 경우, 개인신상 대표 레코드의 해당 속성값을 보정함으로서, 동일한 속성에 대해 개인신상 대표 레코드의 속성값이 원본 데이터에 포함된 개인신상 정보중의 해당 속성값과 모두 상이하도록 하는 동일성 제거 단계와; 사용자가 미리 정의한 유사도 계산함수에 근거하여, 상기 개인신상 대표레코드와 이의 생성에 적용되는 하나 이상의 상기 개인신상 개별레코드와의 유사도 값이 미리 설정된 최대유사도 임계치 값 보다 클 경우, 해당 개인신상 대표레코드를 삭제하는 유사성 제거 단계와; 미리 설정된 기간이 경과된 이후에는, 상기 개인신상 대표레코드에 포함되는 개인신상 개별레코드가 동일인에 대해서 동일한 그룹으로 재 그룹화되는 것을 방지하도록 하는 연속성 제거 단계; 중 적어도 어느 하나 이상의 단계를 포함하는 것을 특징으로 한다.In another aspect of the present invention, the step of grouping into the individual personal representative record includes a step of non-identifying the personal information, wherein the non-identifying step includes the step of identifying an individual from the individual individual record included in the original data An uniqueness removal step of removing attribute values that can be specified; If the attribute value of the grouped individual personal representative record is the same as the corresponding attribute value of the individual personal individual record included in the original data, the corresponding attribute value of the individual personal representative record is corrected, The attribute value of the record is different from the attribute value of the personal information included in the original data; If a similarity value between the personal representative record and one or more individual personal records applied to generation thereof is greater than a predetermined maximum similarity threshold value based on a similarity calculation function predefined by the user, Removing similarity; A continuity removal step of preventing individual individual record included in the individual personal representative record from being regrouped into the same group for the same person after a predetermined period of time has elapsed; And at least one of the above-mentioned steps.

본 발명의 이러한 특징에 따르면, 개인신상 정보의 그룹화와 더불어, 그룹화 과정에서 탈 개인정보 즉, 비식별화를 더욱 수행함으로서, 빅데이터의 유통시 특정 개인이 재식별화 되는 것을 원천적으로 불가능하게 하여, 민감한 개인정보에 대해 개개인에 대한 허락을 받을 필요 없이 안전하게 유통용으로 활용할 수 있게 된다.According to this aspect of the present invention, in addition to the grouping of personal information, further performing the de-personalization, i.e., non-discrimination, in the grouping process makes it impossible for the individual to be re-identified at the time of distribution of the big data , It is possible to safely use the sensitive personal information for distribution without having to obtain permission from the individual.

한편, 본 발명의 또 다른 특징은, 상기 개인신상 대표 레코드로의 그룹화 단계가, 동일한 개인신상 대표 레코드에 그룹핑된 개인신상 개별 레코드들의 상기 그룹핑키의 속성값 분포정보를 그룹핑키 분포속성으로 상기 개인신상 대표 레코드에 추가하는 단계와; 동일한 개인신상 대표 레코드에 그룹핑된 개인신상 개별레코드의 속성중 상기 그룹핑키가 아닌 속성 중 적어도 어느 하나 이상의 속성값 분포정보를 그룹 분포속성으로 상기 개인신상 대표 레코드에 추가하는 단계; 중 적어도 어느 하나 이상의 단계를 포함하는 것을 특징으로 하는 바, Meanwhile, in another aspect of the present invention, the grouping step into the individual personal representative record is performed by dividing the attribute value distribution information of the group personal information of the individual personal individual records grouped in the same personal representative record into the group Adding to the personal representative record; Adding at least one attribute value distribution information among attributes of the individual person individual records grouped in the same individual person representative record to the personal representative record as a group distribution attribute; And at least one of the steps of:

본 발명의 이러한 특징에 따르면, 상기 그룹핑키 분포속성 및 /또는 그룹 분포속성을 매개로, 별도 환경에서 독립적으로 생성된 두 개 이상의 빅데이터를 필요에 따라 다양하게 연계하여 분석에 활용할 수 있게 된다.According to this aspect of the present invention, two or more big data independently generated in a separate environment via the grouping of the pinky distribution attribute and / or the group distribution attribute can be used for analysis in various ways as needed.

본 발명에 따르면, 개인신상 정보는 개인신상 대표 레코드로 그룹화하고, 개인 행위 로그데이터는, 각 그룹에 포함된 각각의 개인에 대해, 필요로 하는 개인행위 정보만를 추출하여 이를 개인행위 개별 로그데이터 세트로 한 후, 이를 특정 속성을 기준으로 통합하여 하나의 개인행위 대표 로그데이터로 하여 개인신상 대표 레코드에 매칭/머지 시킴으로서, 개개의 소요처에서 독특하게 필요로 하는 정보만을 적절하게 선별 가공하여 제공할 수 있게 된다.According to the present invention, individual personality information is grouped into individual personal representative records, and individual behavior log data is obtained by extracting only individual personal behavior information required for each person included in each group, , And then integrates them based on specific attributes to match and merge them to individual personal representative records as one personal behavior representative log data so that only the information that is uniquely required by each individual destination can be selectively processed and provided .

또한, 개인신상 정보와 개인 행위 정보를 별도로 그룹화하며 머지시킴으로서, 시공간이나 지역적 공간 또는 특정 속성을 기준으로 전체적인 정보를 그룹화하는 종래 방식에 비해 조합이나 역추적에 의한 개인정보의 유출 가능성을 현저히 감소시킬 수 있게 된다.In addition, by grouping and merging personal information and personal behavior information separately, it is possible to significantly reduce the possibility of leakage of personal information by combination or backtracking compared to the conventional method of grouping the whole information on the basis of time, space, .

또한, 개인신상 정보의 그룹화와 더불어, 그룹화 과정에서 탈 개인정보 즉, 비식별화를 더욱 수행함으로서, 빅데이터의 유통시 특정 개인이 재식별화 되는 것을 원천적으로 불가능하게 하여, 민감한 개인정보에 대해 개개인에 대한 허락을 받을 필요 없이 안전하게 유통용으로 활용할 수 있게 된다.In addition, in addition to the grouping of personal information, it is possible to carry out de-personalization or non-discrimination in the grouping process, thereby making it impossible to re-identify a specific individual at the time of distribution of big data, It can be safely used for distribution without having to obtain permission from individual persons.

또한, 상기 그룹핑키 분포속성 및 /또는 그룹 분포속성을 매개로, 별도 환경에서 독립적으로 생성된 두 개 이상의 빅데이터를 필요에 따라 다양하게 연계하여 분석에 활용할 수 있게 된다.In addition, two or more big data independently generated in a separate environment can be variously linked and used for analysis as needed via the grouping of the pinky key distribution attribute and / or the group distribution attribute.

도 1은 본 발명의 빅데이터 처리 시스템을 형성하는 데이터 중심 컴퓨팅 환경을 설명하는 예시도.
도 2는 도 1에 도시한 데이터 서버의 주요 구성을 나타내는 블록도.
도 3은 데이터 서버의 처리부에서 수행되는 유통용 비식별 빅데이터의 생성 단계를 계통적으로 나타낸 블록도.
도 4는 도 3의 단계를 거쳐 생성되는 대표 레코드의 예를 나타내는 바, 연령대 및 성별을 그룹핑키로 하여 5명을 그룹핑하여 대표 레코드를 생성한 예시도.
BRIEF DESCRIPTION OF THE DRAWINGS Figure 1 is an exemplary diagram illustrating a data-centric computing environment that forms the Big Data Processing System of the present invention.
2 is a block diagram showing a main configuration of the data server shown in FIG.
FIG. 3 is a block diagram schematically showing steps of generating non-distribution large data for distribution performed in a processing unit of a data server; FIG.
FIG. 4 shows an example of a representative record generated through the steps of FIG. 3. FIG. 4 illustrates an example in which representative records are generated by grouping five persons by using age groups and genders as grouping keys.

도 1을 참조하면, 본 발명의 빅테이터 처리 시스템을 형성하는 데이터 중심의 컴퓨팅 환경은 데이터 서버(110)와 데어터 서버와 유무선 네트워크를 통해 연결되는 다수의 사용자 단말(120)에 의해 구축될 수 있다.Referring to FIG. 1, a data-centric computing environment for forming a big data processing system of the present invention may be constructed by a plurality of user terminals 120 connected to a data server 110 and a data server via a wired or wireless network .

데이터 중심의 컴퓨팅(data-centric computing) 환경이란 다수의 사용자 단말(120)에서 실시간으로 생성되는 데이터를 활용하여 소셜 네트 워크 서비스(Social Network Service, SNS), 스마트 그리드(smart grid), 지능형 가전, 실시간 스트리밍 또는 실시간 의사 결정 등의 다양한 응용 프로그램을 제공할 수 있는 빅데이터 처리에 기반한 기술을 의미한다.The data-centric computing environment utilizes data generated in real time from a plurality of user terminals 120 to provide a variety of functions such as a social network service (SNS), a smart grid, an intelligent home appliance, Means a technology based on big data processing that can provide various applications such as real-time streaming or real-time decision making.

본 발명에 따른 빅데이터 처리 시스템 및 방법은, 다수의 사용자 단말(120)과 연결된 데이터 서버(110)에 의해 구현되는 바, 다수의 사용자 단말(120)에서 생성되는 데이터를 수집하고 이를 처리한 후 저장하고, 저장된 데이터를 소요로 하는 사용자 단말(120)에 제공함으로써, 데이터 중심의 컴퓨팅 응용이 수행될 수 있는 환경이 구축된다.The big data processing system and method according to the present invention are implemented by a data server 110 connected to a plurality of user terminals 120 and collect data generated by a plurality of user terminals 120 and process the data And provides the stored data to the user terminal 120 that takes up the data, thereby establishing an environment in which data-centric computing applications can be performed.

여기에서, 사용자 단말(120)은 데이터 서버(110)와 연결되도록 통신 장치를 탑재하고, 사용자 단말(120)의 운용에 따라 데이터가 생성되도록 정보 처리 기능을 구비하는 컴퓨터, 노트북과 같은 정보 처리 단말, 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant) 등의 이동 통신 단말, 스마트 가전 기기, 무선식별(RFID) 데이터, 블랙 박스 또는 네비게이션이 운용되는 자동차, 기차, 비행기와 같은 교통 수단 등을 의미할 수 있으나 이에 한정되는 것은 아니다.The user terminal 120 may be a computer having a communication device connected to the data server 110 and having an information processing function for generating data according to the operation of the user terminal 120, , Mobile communication terminals such as smart phones, tablet PCs, and PDAs (personal digital assistants), smart home appliances, radio frequency identification (RFID) data, vehicles such as black boxes or navigation systems, trains, airplanes But is not limited thereto.

도 2에 도시된 바 와 같이, 데이터 서버(110)는 통신부(113)를 통해 다수의 사용자 단말(120)과 근거리 무선 통신, 와이파이, 3G(3Generation), LTE(Long Term Evolution)과 같은 유무선 네트워크로 연결되어 사용자 단말(120)에서 생성된 데이터를 수집하여 저장부(112)에 저장하고, 일반적으로 복수의 프로세서로 이루어지는 처리부(111)에 의해 수집된 데이터를 처리하여 저장하는 클라우드 서버 또는 웹 서버를 의미할 수 있으나 이에 한정되는 것은 아니다.2, the data server 110 is connected to a plurality of user terminals 120 through a communication unit 113, such as a wired / wireless network such as short-range wireless communication, Wi-Fi, 3G (3Generation) A cloud server or a web server that collects data generated in the user terminal 120 and stores the data in the storage unit 112 and processes and stores the data collected by the processing unit 111, But is not limited thereto.

유무선 네트워크를 통해 연결된 단말들(120)로부터 통신부(113)를 통해 수집되는 원본 데이터는 데이터 서버(110)의 저장부(112)에 저장된다.Original data collected through the communication unit 113 from the terminals 120 connected via the wire / wireless network is stored in the storage unit 112 of the data server 110.

최근 들어 네트워크 기술의 발달 및 스마트 폰의 비약적인 보급으로 인해, 기업 및 기관에서 운영중인 빅데이터 처리 시스템에서 하루에 생산되는 로그의 량은 수십 ~ 수백 기가바이트까지 증가 되었으며, 원본 빅데이터의 사이즈는 테라바이트를 초과하여 엑사바이트 또는 제타바이트의 범위를 가질 수도 있게 되었다.In recent years, due to the development of network technology and the proliferation of smart phones, the amount of logs produced per day in a big data processing system operated by enterprises and institutions has been increased to tens to hundreds of gigabytes, It is also possible to have a range of exabytes or zeta bytes exceeding a byte.

본 발명에 따른 처리부(111)는 저장부(112)에 저장되어 있는 대용량의 빅데이터를 적절하게 처리하여, 분석에 필요한 데이터를 선택하여 그룹화함으로서 용량을 줄임과 동시에 비식별화하되, 개인정보의 유출 가능성을 보다 확실히 방지하기 위해 그룹화시 별도의 비식별화 과정을 수행하여 유통용의 비식별 빅데이터로 가공하여 저장부(112)에 저장하게 되며, 저장부(112)에 상대적으로 소용량으로 저장된 유통용 비식별 빅데이터는 서버의 통신부(113) 및 통신망을 통해 이의 분석 및 활용이 필요한 소요처로 전송된다.The processing unit 111 according to the present invention appropriately processes the large data stored in the storage unit 112 to select and group the data necessary for analysis so that the capacity is reduced and the data is unidentified, In order to more reliably prevent the outflow possibility, a separate non-identifying process is performed at the time of grouping so as to be processed into non-identifying big data for distribution and stored in the storing unit 112, and stored in a relatively small capacity in the storing unit 112 The non-distribution big data for distribution is transmitted to the requester requiring analysis and utilization thereof through the communication unit 113 of the server and the communication network.

도 3은 데이터 서버의 처리부에서 수행되는 유통용 비식별 빅데이터의 생성 단계를 계통적으로 나타낸 블록도로, 설명의 편의를 위해 유통용 대표레코드 하나의 생성을 기준으로 도시하였다. 이하, 도 3을 참조하여 본 발명의 유통용 비식별 빅데이터 생성방법을 구체적으로 설명한다.FIG. 3 is a block diagram schematically showing a generation step of distribution non-identifying big data performed in the processing unit of the data server. For convenience of description, generation of one representative record for distribution is used as a reference. Hereinafter, a method for generating non-identifying big data for distribution of the present invention will be described in detail with reference to FIG.

먼저, 처리부(111)는, 기억수단에 저장된 원본 데이터에 포함된 개인신상 데이터 중 적어도 하나 이상의 속성을 그룹핑 키(Grouping Key)로 하여, 다수의 개인신상 개별 레코드를 하나의 개인신상 대표 레코드로 그룹화한다.First, the processing unit 111 groups at least one attribute of the personal image data included in the original data stored in the storage unit into a single personal representative record by using a grouping key as a grouping key do.

이와 같이 그룹화된 개개의 개인신상 대표 레코드는 저장부에 레코드의 집합 즉 테이블 형태로 저장부(112)에 저장된다.Individual personal representative records grouped in this way are stored in a storage unit 112 in a form of a set of records in the form of a table.

원본 데이터란 운영계 서비스를 진행하면서 수집된 개별 개인의 신상 데이터와 개인의 행위 로그 데이터로 구성되는 데, 개인신상정보는 개인이 고유하게 구분되는 데이터 또는 이에 준하는 개인정보를 포함하는 데이터로서 개인식별정보(주민등록번호, 여권번호, 의료보험번호, 차량등록번호, 성명, 번지/동호까지의 주소, 전화번호)와 개인일반정보(임금, 나이, 키, 질병 등) 등으로 구성되며, 개인행위 로그 데이터는 서비스를 활용하면서 발생된 개인의 서비스 요청/제공/사용 내역 등으로 구성된다.The original data is composed of personal data of individual individuals and activity log data collected during the service of the operating system. The personal information is data including the data uniquely classified by the individual or corresponding personal information, (Wage, age, height, illness, etc.), and personal activity log data is composed of personal information (social security number, passport number, medical insurance number, vehicle registration number, name, address, Service request / provision / use history generated by utilizing the service.

그룹화란, 개인 비식별화의 무결성 확보를 위해 다수개(N개)의 레코드를 하나의 대표레코드로 표현하는 것으로서, 데이터의 유효성 및 활용성을 최대한 높일 수 있도록 유사한 레코드를 그루핑하는 최소 규모(N)를 선정하는 것이 바람직하다.The grouping is a representation of a plurality of (N) records as one representative record in order to secure the integrity of the individual non-discrimination. The grouping is a minimum scale of grouping similar records to maximize the validity and usability of data ) Is preferably selected.

그룹핑키는, 원본 개인신상 개별 레코드의 속성(필드)들 중에 그룹핑을 수행하는 기준이 되는 속성을 의미하는 것으로서, 연속 수치데이터형 속성을 그룹핑키로 하는 경우 히스토그램, 비닝(Binning), 군집화 기법 등으로 전처리하여 해당 속성을 불연속(Discrete) 카다고리형 데이터로 변환한 후 그룹핑하는 것이 바람직하다.The grouping key refers to an attribute that serves as a reference for performing grouping among the attributes (fields) of the original individual individual record. When a continuous numeric data type attribute is used as a grouping key, a histogram, a binning, It is preferable to convert the attribute into discrete card type data and then group them.

N:1 그룹핑을 수행할 경우, 동일한 그룹핑키 값을 갖는 원본 개인신상 개별 레코드의 수가 M일 때, 해당 그룹핑 속성값에 대해 대략 M/N개의 대표레코드들이 생성된다.  In case of performing N: 1 grouping, when the number of original individual individual records having the same group pinky value is M, approximately M / N representative records are generated for the grouping attribute value.

대표레코드에 포함되는 속성중 그룹핑키가 아닌 속성으로서 수치형일 경우, 일반적인 집계함수(합계, 평균, 미디언, 최대치, 샘플링 등)를 적용하여, 그룹핑되는 N개의 속성 값들을 대표하는 대표 속성값으로 변환한 후, 이를 대표레코드의 해당 속성 값으로 할당한다. If the attributes included in the representative record are numeric as attributes other than the group pinky, apply general aggregate functions (sum, mean, median, maximum value, sampling, etc.) to the representative attribute values representing the grouped N attribute values After conversion, it is assigned to the attribute value of the representative record.

데이터 서버의 처리부에서, 원본 데이터로부터 개인신상 대표 레코드로 그룹화 처리하는 과정을 구체적인 예를 들어 설명하면 다음과 같다.A process of grouping the original data into the personal representative record at the processing unit of the data server will now be described in detail.

표 1은 원본 데이터에서 추출되는 개인신상정보의 예로서, 주민등록번호, 나이 성명, 주소, 소득이 대표레코드에 포함되는 속성으로 설정되어 있다.Table 1 is an example of personal information extracted from original data, and is set as an attribute included in the representative record, such as resident registration number, age name, address, and income.

표 1Table 1

Figure pat00001

Figure pat00001

표 2는 개별 속성을 비식별화하기 위해 변환한 예를 나타낸다.Table 2 shows an example of conversion to un-identify individual attributes.

표 2 Table 2

Figure pat00002
Figure pat00002

표 3은 위와 같이 변환된 데이터를 연령대, 성별, 도시를 기준으로 3개씩(N=3) 그룹핑하여 한 그룹당 1개의 레코드를 생성한 후 각각의 그룹에 대해 ID를 할당한 예를 나타낸다. 식별자(ID) 값은 각 대표레코드를 유일하게 구별할 수 있게 생성한다. Table 3 shows an example in which three records (N = 3) are grouped based on the age, sex, and city, and one ID is generated for each group, and IDs are assigned to the respective groups. An identifier (ID) value is generated to uniquely distinguish each representative record.

표 3Table 3

Figure pat00003

Figure pat00003

표 4는 표 2의 개인신상정보에 대해 3개의 속성 즉, 연령대, 성별, 도시를 기준 즉 그룹핑키로 하여 표 3과는 달리 2개씩(N=2) 그룹핑한 예를 나타내는 바, 1개의 <40대 남 서울> 그룹과 2개의 <40대 여 서울>그룹이 생성된다. Table 4 shows an example of grouping two personalities (N = 2) of personal information in Table 2, that is, groups of age, sex, and city as groups, differently from Table 3, 40s South Seoul> group and 2 <40s Seoul> groups are created.

또한 소득 속성에 대해서 평균 함수를 적용하여 대표레코드의 소득 속성값을 할당하면 아래와 같이 개인신상 대표레코드들이 생성되며, 그룹화된 각각의 개인신상 대표 레코드에 대해, 해당 개인신상 대표 레코드에 포함된 각각의 개인을 특정할 수 있는 속성(예; 주민등록번호)을 대응시켜 개인 식별 리스트를 생성한다.In addition, by applying the average function to the income attribute and assigning the income attribute value of the representative record, individual personal representative records are generated as follows, and for each grouped personal representative record, And generates an individual identification list by associating an attribute (e.g., a resident registration number) that can specify an individual.

표 4Table 4

Figure pat00004
Figure pat00004

이상과 설명한 바와 같은 그룹화 과정에 의해, 데이터의 용량 감소 및개인 비식별화가능하나, 개인정보의 유출을 보다 확실하게 방지하기 위해그룹화 과정과 더불어 유일성 제거, 동일성 제거, 유사성 제거 및연속성 제거 등의 개인정보 비식별화 과정이 수행되는 것이 바람직하다.By the grouping process as described above, it is possible to reduce the capacity of the data and discriminate the individual. However, in order to more reliably prevent the leakage of the personal information, the grouping process, as well as the uniqueness removal, It is preferable that the personal information non-discrimination process be performed.

유일성 제거란, 표 5에 예시된 바와 같이, 원본 개인식별 개별레코드에서 개개인을 특정할 수 있는 식별정보(예; 주민등록 번호)를 제거하는 것을 의미한다.Uniqueness removal refers to the removal of identification information (e.g., a resident registration number) that can identify an individual in a source individual identification individual record, as illustrated in Table 5.

표 5Table 5

Figure pat00005
Figure pat00005

동일성 제거는, 표 6에 예시된 바와 같이, N:1 그룹핑된 그룹내에서 생성된 개인신상 대표레코드의속성값이 개별레코드의 해당 속성값과 동일할 경우 대표레코드의 속성값을 보정하여 동일한 속성에 대해개별레코드의 속성값과 대표레코드의 속성값이 모두 상이하도록 수정하는 것이다. In the case where the attribute value of the personal representative record generated in the N: 1 grouped group is the same as the corresponding attribute value of the individual record, as illustrated in Table 6, the attribute value of the representative record is corrected, The attribute value of the individual record and the attribute value of the representative record are different from each other.

속성값이 연속 수치데이터형인 경우 동일성을 제거하기 위해 히스토그램, 비닝, 군집화 기법 등으로전처리하여 불연속 카다고리형 데이터형으로 변환할 수 있다.If the attribute value is a continuous numeric data type, it can be converted into a discontinuous Cartesian type data type by preprocessing with histogram, binning, clustering, etc. to remove the identity.

표 6Table 6

Figure pat00006

Figure pat00006

유사성 제거는, 미리 정의된 유사도 함수에 근거하여, 개인신상 대표레코드와 하나 이상의 원본 개인신상 개별레코드와의유사도 값이 최대유사도 임계치 값(ε) 보다 클 경우 해당 개인신상 대표 레코드는 삭제하고 생성하지 않는것이다..Similarity removal is based on a predefined similarity function and if the similarity value between the personal representative record and one or more original individual personal records is greater than the maximum similarity threshold value ε, will be..

원본 개인신상 개별레코드를 x라 하고, 가공된 개인신상 대표레코드를 y라 할때, x와 y 간의 유사도는 아래와 같이 정의된다.If the original individual record is x and the processed individual record is y, the similarity between x and y is defined as follows.

Struc_sim(x,y) = 원본 개인신상 개별레코드 x와, 그룹핑되어 생성된 개인신상 대표레코드 y와의 유사도 계산 함수Struc_sim (x, y) = the similarity calculation function between the original individual individual record x and the grouped individual personal representative record y

(0<=Struc_sim(x,y)<=1, (0 < = Struc_sim (x, y) < = 1,

Struc_sim(x,y)==1 => x와 y가 동일레코드 임)        Struc_sim (x, y) == 1 => x and y are the same record)

연속성 제거는, 생성된유통용 빅데이터에서사용하는 레코드 식별자 매핑 방식을 미리 정해진 기간이 경과된 이후에는 다른 방식으로 변경하여 N:1 대표레코드 식별자 값이 동일인에 대해서 동일한 값으로 지속적으로 사용되는 것을 방지하는 것이다.Continuity removal is performed by changing the record identifier mapping scheme used in the generated distribution big data to a different method after a predetermined period of time elapses so that the N: 1 representative record identifier value is continuously used for the same value .

다시 말해, 개인신상 대표레코드의 생성에 사용된 개인신상 개별레코드들이 향후 동일한 개인신상 데이터에 대해서 동일한 그룹으로 그룹핑되는 것이 방지되도록 일정 기간 경과후 매핑방식을 달리하여 재그룹핑하는 것을 의미한다.In other words, the re-grouping is performed by changing the mapping method after a certain period of time so that the individual individual records used in generating the personal representative record are prevented from being grouped into the same group for the same personal personal data in the future.

이상은 처리부(111)에 의한 개인신상 대표레코드의 생성 방법에 대해 설명하였는 바, 다음으로는, 각각의 개인신상 대표레코드에 속해있는 개인들의 개별 로그 데이터를 원본 데이터상의 개별행위 로그 데이터로부터 추출하여, 개인행위 대표 로그데이터를 생성하는 과정에 대해 예시를 참조하여 상세히 설명하기로 한다.The above describes the method of generating the personal representative record by the processing unit 111. Next, the individual log data of the individuals belonging to each individual personal representative record is extracted from the individual activity log data on the original data , The process of generating personal behavior representative log data will be described in detail with reference to an example.

표 7은 개인행위 로그 데이터의 예를 나타내는 것으로, 앞서 언급한 바와 같이, 개인행위 로그 데이터는 서비스를 활용하면서 발생된 개인의 서비스 요청/제공/사용 내역 등으로 구성되는 데, 일반적으로 반정형개인행위 로그데이터는 개인의 시공간적인 행위 상태변화를 나타내므로 개인식별속성, 시간속성 및 공간속성을 기본적으로 가지고 있으며 해당시점에 해당 공간에서 해당 개인이 행한 행위 아이템들을 로그 속성값으로서 반정형 형태로 가지고 있다. Table 7 shows an example of the personal behavior log data. As mentioned above, the personal behavior log data is composed of personal service request / provision / use history generated while utilizing the service, and generally, The action log data basically has the person identification attribute, the time attribute, and the space attribute because it indicates the change of the individual's spatio-temporal action state. The action log items have the semi-regular form as the log attribute value have.

표 7Table 7

Figure pat00007
Figure pat00007

먼저, 개인신상 대표레코드 별로 구한 개인식별 리스트에 있는 모든 개인을 대상으로 하여, 개인행위 개별 로그데이터를 추출하여 해당 개인신상 대표레코드의 개인행위 개별 로그데이터 세트로 생성한다.First, individual log data of individual actions is extracted for all individuals in the individual identification list obtained for each individual personal representative record, and is generated as a set of personal behavior individual log data of the corresponding individual personal representative record.

개인 식별 리스트는 앞서 표 4와 관련하여 설명한 바와 같이, 그룹화된 각각의 개인신상 대표 레코드에 대해, 해당 개인신상 대표 레코드에 포함된 각각의 개인을 특정할 수 있는 속성(예 주민등록번호)을 대응시킴으로서 생성된다.As described in conjunction with Table 4 above, the personal identification list is generated by associating, with each grouped personal representative record, an attribute (e.g., a resident registration number) that can identify each individual included in the corresponding personal representative record do.

예를 들어, 표 4에서, 개인신상 대표레코드 id321의 개인식별 리스트는 표 8과 같으며, 이를 대상으로 한 개인신상 대표레코드 id321의 개인행위 개별로그데이터 세트 표 9와 같이 생성될 수 있다. For example, in Table 4, the personal identification list of the personal representative record id321 is as shown in Table 8, and it can be generated as shown in Table 9 for the personal behavior individual log data set of the individual personal representative record id321.

표 8Table 8

Figure pat00008
Figure pat00008

표 9Table 9

Figure pat00009
Figure pat00009

이와 같이 각 개인신상 대표레코드를 대상으로 추출된 개인행위 개별 로그데이터들을 하나의 개인행위 대표 로그데이터로 통합 즉, 그룹화한다. In this way, individual log data of individual actions extracted for each individual personal representative record are integrated into one personal behavior representative log data, that is, grouped.

각각의 개인신상 대표레코드별로 추출된 개인행위 개별 로그데이터를 하나의 개인행위 대표 로그데이터로 통합할 때, 시간이나 공간 조건을 제약조건으로 주어서 근접한 공간이나 시간별로 통합 대상을 선정할 수 있다.When integrating individual log data of individual behavior extracted for each individual personal representative record into one personal behavior representative log data, the integration target can be selected by the space or the time close by giving time or space condition as a constraint.

선정된 통합 대상인 개인행위 개별 로그데이터들은 다양한 통합 함수를 적용하여 하나의 개인행위 대표 로그데이터로 통합한다.The integrated log data of the selected individual activities are integrated into one personal behavior representative log data by applying various integration functions.

통합 함수로는 합집합, 교집합, 샘플링, 빈발 행위원소, 군집화, 히스토그램 등을 들 수 있다.Integration functions include union, intersection, sampling, frequent elements, clustering, and histogram.

예를 들어, 표 4의 개인신상 대표레코드 id321의 개인행위 개별 로그데이터 세트(표 9)에 각종 통합함수를 적용하는 경우의 생성되는 개인행위 대표로그데이터는 다음과 같다. For example, the personal behavior representative log data generated when various integration functions are applied to the individual behavior individual log data set (Table 9) of the individual personal representative record id321 in Table 4 is as follows.

통합 대상을 전체로 하여 합집합으로 통합하는 경우,

Figure pat00010

In the case of merging into a union as a whole,
Figure pat00010

통합 대상을 전체로 하여 교집합으로 통합하는 경우,In the case of integration into an intersection as a whole,

Figure pat00011

Figure pat00011

시간 또는 공간 조건을 제약조건으로 주어 선택적으로 통합하는 예로, 7분 이내 개인행위들의 합집합,An example of selectively integrating time or space constraints by constraints is the union of individual behaviors within 7 minutes,

Figure pat00012
Figure pat00012

동일 행정구별 개인행위들의 합집합The union of individual acts by the same administrative division

Figure pat00013
Figure pat00013

이상과 같이, 생성되는 각각의 개인신상 대표레코드와 개인행위 대표 로그데이터는 저장부(112)에 테이블 형태로 순차적으로 저장되어 유통용 빅데이터를 형성하게 되는 바, 각 테이블의 개인신상 대표레코드와 개인행위 대표 로그데이터를 매칭시켜 통합함으로서 개개의 대표레코드로 형성된다.As described above, the generated individual personal representative record and the personal behavior representative log data are sequentially stored in the form of a table in the storage unit 112 to form big data for distribution, And is formed by individual representative records by matching and integrating personal behavior representative log data.

대표 레코드로의 매칭/통합은 유통용 빅데이터를 제공하는 서버에서 이루어질 수도 있고, 빅데이터 사용처의 서버에서 이루어질 수도 있다.The matching / integration to the representative record may be performed in a server providing big data for distribution or in a server where big data is used.

도 4는, 이상의 방법에 의해 생성되는 대표 레코드의 예를 나타내는 바, 연령대 및 성별을 그룹핑키로 하여 5명을 그룹핑하여 대표 레코드로 생성한 예를 나타낸다.FIG. 4 shows an example of a representative record generated by the above method, and shows an example in which 5 persons are grouped by age group and gender as a grouping key to generate a representative record.

한편, 본 발명에 의해 형성되는 유통용 빅데이터에 따르면, 비식별화된 개인신상 대표 레코드의 그룹핑키는 동일한 그룹핑키로 비식별화된 다른 유통용 개인신상 데이터와 결합하여 연계 분석하는데 활용될 수 있다.On the other hand, according to the distribution big data formed by the present invention, the group fingerprint of the non-identified individual personal representative record can be used for linkage analysis by combining with other personal identification data for distribution which is not identified by the same grouping key have.

즉, 본 발명의 방법에 의해 별도환경에서 독립적으로 생성된 두 개 이상의 유통용 빅데이터들의 연계활용이 가능하게 된다.That is, by using the method of the present invention, it is possible to use two or more distribution big data independently generated in separate environments.

본 발명의 또 다른 특징에 따르면, 데이터의 연계 분석시 유사한 특성의 대표레코드들이 연계되도록 함으로서 연계정확도를 향상시키기 위해, 그룹핑키의 분포 속성 및 그룹의 분포 속성을 연계분석에 활용하는 데 있다. According to another aspect of the present invention, in order to improve the linking accuracy by linking representative records of similar characteristics in linkage analysis of data, a distribution attribute of group pinky and a distribution attribute of group are used for linkage analysis.

동일한 대표 레코드로 하나의 그룹으로 그룹핑되는 원본 개인신상 개별 레코드들의 그룹핑키 속성값 분포정보를 새로운 속성으로 대표레코드에 추가할 수 있다. 이렇게 추가된 속성을 그룹핑키 분포속성으로 정의한다.The distribution information of the grouping of the individual individual individual records grouped into one group with the same representative record can be added to the representative record as a new attribute. This added attribute is defined as a group pinky distribution property.

이와 유사하게, 그룹핑키가 아닌 속성에 대해서도 하나의 그룹으로 그룹핑되는 원본 개인신상 개별레코드 속성값들의 분포를 나타내는 새로운 속성을 대표레코드에 추가할 수 있다. 이런속성을 그룹핑 분포속성이라 정의한다. Similarly, a new attribute may be added to the representative record that represents the distribution of the original individual individual record attribute values grouped into a group for attributes other than the grouping key. These attributes are defined as grouping distribution properties.

이러한 두 가지 형태의 분포속성 값은, 일반적인 분포를 나타내는 함수로 표현할 수 있으며 대표적인 유형은 표준편차, 미디언(Median), quartile-quartile distance(Q3-Q1), 최대치, |최대치-최소치| 또는 서로 다른 속성값 갯수 등이 될 수 있다.These two types of distribution property values can be expressed as a function representing a general distribution. Typical types are standard deviation, median, quartile-quartile distance (Q3-Q1), maximum value, | maximum-minimum value | Or the number of different attribute values.

이하, 구체적인 예를 들어, 그룹핑키 분포속성과 그룹핑 분포 속성을 이용하여 서로 독립적으로 가공된 데이터 세트를 연결하는 방법을 설명한다.Hereinafter, a method of connecting data sets that are processed independently of each other using a grouping policy distribution attribute and a grouping distribution attribute will be described in detail.

먼저, 평균 소득정보를 담고 있는 유통형 개인신상 데이터 A와 평균 유동자산정보를 담고 있는 유통용 개인신상 데이터 B가 모두 동일한 그룹핑키인 나이 속성와 성별 속성으로 각각 별도로 본 발명의 그룹핑 방식에 의해 변환되었다고 가정한다.First, the distribution type personal image data A containing the average income information and the distribution personal image data B containing the average flow property information are all converted by the grouping method of the present invention separately as the age attribute and the sex attribute of the same grouping I suppose.

또한 A에는 각 그룹의 소득 최대치를 그룹핑 분포 속성으로, B에는 유동자산의 최대치를 그룹핑 분포속성으로 추가하였다고 가정한다. It is also assumed that the maximum income of each group is added to the grouping distribution attribute in A, and the maximum value of the liquid asset is added to the grouping distribution attribute in B.

그룹핑키 분포속성인 나이분포 속성은 그룹내 중간 나이인 미디언(Median)값으로 동일하게 정의하면, 표 10에 예시된 바와같이, A와 B의 각 대표레코드에 대해 분포속성들이 추가적으로 생성된다. If the age distribution attribute, which is a group Pinky distribution property, is equally defined as a middle age median value in the group, distribution attributes are additionally generated for each representative record of A and B, as illustrated in Table 10. [

표 10Table 10

Figure pat00014
Figure pat00014

각각 변환된 데이터 셋 A와 B를 그룹핑키인 나이대와 성별로 조인하면서 두 데이터 셋의 그룹핑키 분포속성인 나이 분포속성 값의 차이가 각각 2이내인 조건을 만족하는 대표레코드들만 연결하면 표 11과 같이 소득과 유동자산 대표레코드들이 연결된 두 개의 개인신상 연결 대표레코드가 생성된다.If only the representative records satisfying the condition that the difference of the age distribution attribute value of the group of the two sets of data set is within 2 are inputted while joining the converted data sets A and B with the grouping key of the age and sex, Likewise, two personal-linked representative records are linked to income and liquid assets representative records.

표 11
Table 11

Figure pat00015
Figure pat00015

이와 같이, 본 발명에 의해 형성되는 유통용 빅데이터는, 별도환경에서 독립적으로 생성된 두 개 이상의 유통용 빅데이터들의 연계 활용이 가능하게 되는 바, 그 과정은 다음과 같다.As described above, the distribution big data formed by the present invention can be used in conjunction with two or more distribution big data independently generated in a separate environment, and the process is as follows.

두 개의 서로 상이한 유통용 빅데이터 A(개인신상 대표레코드 세트 AS, 개인행위 대표 로그데이터세트 AL)와 B( 개인신상 대표레코드 세트 BS, 개인행위 대표 로그데이터 세트BL)가 주어졌을 때, A의 개인신상 대표레코드 세트 AS와 B의 개인신상 대표레코드 세트 BS가 앞서의 표 10, 11에 예로 들어 설명한 바와 같이 연결된다.Two different distribution big data A (personal representative representative record set A S , personal behavior representative log data set A L ) and B (personal representative record set B S , personal behavior representative log data set B L ) when, in the personal a representative set of records a and S B are representative personal record set S B are connected as described above as an example in Table 10, 11 of the above.

이 결과를 기반으로 A의 개인행위 대표 로그데이터 세트 AL과 B의 개인행위 대표 로그데이터 세트 BL중에 동일한 개인신상 대표레코드별로 결합하여 A와 B가 통합된 대표 로그 데이터를 새롭게 생성하여 두 원시 데이터에 대한 빅데이터 연계 분석을 수행한다. Based on this result, the representative log data A and B are newly created by combining the individual personal representative representative log records A L and B's personal behavior representative log data record B L , And performs a big data linkage analysis on the data.

개인신상 대표레코드 x∈AS와 개인신상 대표레코드 y∈BS가 앞서 예시한 바와 같이 결합되었다면 x의 개인행위 대표로그 데이터 v∈AL와 y의 개인행위 대표로그 데이터 w∈BL는 동일한 개인의 행위 내역으로 간주하고 두 빅데이터 A와 B를 연계 분석할 때 두 개인행위 대표 로그데이터 <v, w>가 의미적으로 연결되었다고 가정하고 통합 빅데이터 (AL BL)에 대한 행위 분석을 수행하게 된다. Representative personal record x∈A S and personal records representing y∈B S is coupled as previously illustrated if x represents individual behavior log data v∈A L and y represent individual actions of the log data of the same L w∈B considered as a personal act of history, and when the linkage analysis of two big data a and B with two actions represent the log data <v, w> is behavior analysis to assume that means linked to and integrated Big data (a L B L) .

한편, 개인행위 개별 로그데이터로부터 개인행위대표 로그데이터를 생성하는 과정에도, 개인신상 대표레코드의 그룹화 생성과정과 유사하게 유일성 제거, 동일성 제거, 유사성 제거 및 연속성 제거 등의 비식별화 과정이 수행되는 것이 바람직하다.On the other hand, in the process of generating personal behavior representative log data from individual log data of the individual behavior, non-identification processes such as uniqueness removal, identity removal, similarity removal, and continuity removal are performed similarly to the grouping generation process of the personal representative record .

개인행위 대표 로그데이터 생성시의 유일성 제거는, 개인신상 대표레코드별로 추출된 반정형 개인행위 개별 로그데이터에서 개개인을 특정할 수있는 식별정보(예, 주민번호 등)를 제거하는 것이며, 동일성 제거는, 개인신상 대표레코드별로 통합된 대표 로그데이터에 대해서 적어도 하나의 개인행위 개별 로그데이터와 동일한 대표 로그레코드는 모두 삭제하는 것이다.The elimination of uniqueness in the generation of personal behavior representative log data is to remove identification information (eg, resident registration number, etc.) that can identify an individual from the individual log data of the semi-structured personal conduct extracted for each individual personal representative record, , And deletes all representative log records identical to at least one personal behavior individual log data for the representative log data integrated for each personal representative record.

유사성 제거는, 미리 정의된 유사도 함수에 근거하여, 개인신상 대표레코드와 하나 이상의 원본 개인신상 개별레코드와의 유사도 값이 최대유사도 임계치 값(δ) 보다 클 경우 해당 개인신상 대표 레코드는 삭제하고 생성하지 않는 것이다..Similarity removal is performed based on a predefined similarity function, if the similarity value between the personal representative record and one or more original personal personal record is greater than the maximum similarity threshold value (?), The corresponding personal representative record is deleted and not created I will not ..

원본 개인행위 개별 로그데이터를 T라 하고, 가공된 개인행위 대표데이터를 S라 할 때, T와 S 간의 유사도는 아래와 같이 정의된다.When the individual log data of the original personal behavior is T and the representative personal behavior representative data is S, the similarity between T and S is defined as follows.

log_sim(S,T) = |TS| / |S| (:교집합, | |:원소갯수)          log_sim (S, T) = | TS | / | S | (: Intersection, | |: number of elements)

연속성 제거는, 개인행위 대표 로그데이터 셋의 로그 식별자를 자신에게 해당되는 개인신상 대표레코드의 식별자 번호와 연계하여 정의함으로써 대표 로그데이터 식별자 값이 동일 개인에 대해서 동일한 값으로 지속적으로 사용되는 것을 방지하는 것을 의미한다.Continuity removal is defined by associating the log identifier of the personal behavior representative log data set with the identifier number of the corresponding personal representative record to prevent the representative log data identifier value from being continuously used to the same value for the same individual .

100 : 데이터 서버 120: 사용자 단말
111 : 처리부 112 : 저장부
113 : 통신부
100: data server 120: user terminal
111: Processor 112:
113:

Claims (3)

통신부, 처리부 및 저장부를 구비하는 데이터서버에서 수행되는 빅데이터 처리방법에 있어서,
유무선 네트워크를 통해 연결된 단말로부터상기 통신부를 통해 수집되는 원본 데이터가 상기 데이터서버의 저장부에 저장하는 단계;
상기 처리부가, 상기 저장부에 저장된 원본 데이터에 포함된 개인신상 데이터 중 적어도 하나 이상의 속성을 그룹핑키로 하여, 다수의 개인신상 개별 레코드를 하나의 개인신상 대표레코드로 그룹화하는 단계;
상기 처리부가, 그룹화된 각각의 개인신상 대표 레코드에 대해, 해당개인신상 대표 레코드에 포함된 각각의 개인을 특정할수 있는 속성을 대응시켜 개인 식별 리스트를 생성하는 단계
상기 처리부가, 상기 저장된 원본 데이터에 포함된 개인행위 로그 데이터로부터, 상기 각각의 개인 식별리스트에 속해 있는 모든 개인의 개인행위 개별 로그데이터를 추출하여, 상기 각각의 개인신상 대표 레코드에 대한 개인행위개별 로그데이터 세트로 생성하는 단계;
상기 처리부가, 상기 개인행위 개별 로그데이터 세트를, 적어도 하나이상의 속성을 기준으로 통합하여, 하나의 개인행위 대표 로그데이터를 생성하는 단계;
상기 처리부가, 상기 개인신상 대표 레코드와 상기 개인행위 대표 로그데이터를 상기 저장부에 저장하는 단계;
를 포함하는 것을 특징으로 하는 유통용 비식별 빅데이터 처리 방법.
A big data processing method performed in a data server having a communication unit, a processing unit, and a storage unit,
Storing original data collected through a communication unit from a terminal connected through a wire / wireless network in a storage unit of the data server;
Grouping the plurality of individual person individual records into a single personal representative record by grouping at least one or more attributes of the personal information data included in the original data stored in the storage unit as the grouping key;
The processing unit generates an individual identification list by associating, with each grouped individual personal representative record, an attribute capable of specifying each individual included in the individual personal representative record
Wherein the processing unit extracts individual log data of individual actions of all individuals belonging to the respective individual identification lists from the individual activity log data included in the stored original data, Generating a log data set;
The processing unit integrating the individual behavior individual log data sets based on at least one or more attributes to generate one personal behavior representative log data;
Storing the personal representative representative record and the personal behavior representative log data in the storage unit;
Identifying a big non-identifying data for distribution.
제 1 항에 있어서,
상기 개인신상 대표 레코드로의 그룹화 단계는 개인신상 정보의 비식별화 단계을 포함하되,
상기 비식별화 단계는,
상기 원본 데이터에 포함된 상기 개인신상 개별 레코드로부터 개개인을 특정할 수 있는 속성값을 제거하는 유일성 제거 단계와;
그룹화된 상기 개인신상 대표 레코드의 어느속성값이, 원본 데이터에 포함된 상기 개인신상 개별 레코드의 해당 속성값과 동일한 경우, 개인신상 대표 레코드의 해당 속성값을 보정함으로서, 동일한 속성에 대해 개인신상 대표 레코드의 속성값이 원본 데이터에 포함된 개인신상 정보중의 해당 속성값과 모두 상이하도록 하는 동일성 제거 단계와;
사용자가 미리 정의한유사도 계산함수에 근거하여, 상기 개인신상 대표레코와 이의 생성에 적용되는 하나 이상의 상기 개인신상 개별레코드와의 유사도 값이 미리 설정된 최대유사도 임계치 값 보다 클 경우, 해당 개인신상 대표레코드를 삭제하는 유사성 제거 단계와;
미리 설정된 기간이 경과된 이후에는, 상기 개인신상 대표레코드에 포함되는 개인신상 개별레코드가 동일인에 대해서 동일한 그룹으로 재 그룹화되는 것을 방지하도록 하는 연속성 제거 단계; 중 적어도 어느 하나 이상의 단계를 포함하는 것을 특징으로 하는유통용 비식별 빅데이터 처리 방법.
The method according to claim 1,
The step of grouping into the personal representative record includes a step of non-identifying the personal information,
Wherein the non-
An uniqueness removal step of removing an attribute value that can specify an individual from the individual individual record included in the original data;
If the attribute value of the grouped individual personal representative record is the same as the corresponding attribute value of the individual personal individual record included in the original data, the corresponding attribute value of the individual personal representative record is corrected, The attribute value of the record is different from the attribute value of the personal information included in the original data;
If the similarity value between the individual personal representative record and one or more individual personal record applied to the generation of the personal representative representative record is greater than a predetermined maximum similarity threshold value based on a similarity calculation function predefined by the user, Removing similarity;
A continuity removal step of preventing individual individual record included in the individual personal representative record from being regrouped into the same group for the same person after a predetermined period of time has elapsed; The method comprising the steps of;
제 1 항 또는 제 2 항에 있어서,
상기 개인신상 대표 레코드로의 그룹화 단계는,
동일한 개인신상 대표레코드에 그룹핑된 개인신상 개별 레코드들의 상기 그룹핑키의 속성값 분포정보를 그룹핑키 분포속성으로 상기 개인신상 대표 레코드에 추가하는 단계와;
동일한 개인신상 대표레코드에 그룹핑된 개인신상 개별레코드의 속성중 상기 그룹핑키가 아닌 속성중 적어도 어느 하나 이상의 속성값 분포정보를 그룹 분포속성으로 상기 개인신상 대표레코드에 추가하는 단계; 중 적어도 어느 하나 이상의 단계를 포함하는 것을 특징으로 하는 유통용 비식별 빅데이터 처리 방법.
3. The method according to claim 1 or 2,
The grouping into the personal representative record may include:
Adding the attribute value distribution information of the group fingerprint of the individual person individual records grouped in the same individual person representative record to the personal name representative record as a group fingerprint distribution attribute;
Adding at least one attribute value distribution information among attributes of the individual person individual records grouped in the same individual person representative record to the personal representative record as a group distribution attribute; The method comprising the steps of;
KR1020140170846A 2014-12-02 2014-12-02 Data Processing Method for Distributable and Unidentifiable Big Data KR101630752B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140170846A KR101630752B1 (en) 2014-12-02 2014-12-02 Data Processing Method for Distributable and Unidentifiable Big Data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140170846A KR101630752B1 (en) 2014-12-02 2014-12-02 Data Processing Method for Distributable and Unidentifiable Big Data

Publications (2)

Publication Number Publication Date
KR20160066454A true KR20160066454A (en) 2016-06-10
KR101630752B1 KR101630752B1 (en) 2016-06-16

Family

ID=56190759

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140170846A KR101630752B1 (en) 2014-12-02 2014-12-02 Data Processing Method for Distributable and Unidentifiable Big Data

Country Status (1)

Country Link
KR (1) KR101630752B1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180119104A (en) * 2017-04-24 2018-11-01 주식회사 그리즐리 Personal data de-identification method for formless big data
KR20210039538A (en) * 2019-10-01 2021-04-12 (주) 더존비즈온 Method and system for generating multi-dimension analytic report
KR102252873B1 (en) * 2020-08-26 2021-05-17 연세대학교 산학협력단 Method and system for managing clinical data based on cloud
KR20210152825A (en) * 2020-06-09 2021-12-16 주식회사 토브데이터 Method and system for analysing data de-identification risk
KR102352356B1 (en) * 2021-07-09 2022-01-18 주식회사 넥스인테크놀로지 Method, apparatus and computer program for preprocessing personal information using pre-trained artificial intelligence model

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101704702B1 (en) * 2016-04-18 2017-02-08 (주)케이사인 Tagging based personal data de-identification system and de-identification method of personal data
KR102105368B1 (en) * 2017-11-29 2020-04-28 주식회사 아이디케이스퀘어드 Data storage and analysis methods and programs in the cloud to prevent the leakage of important information
KR102357935B1 (en) 2021-07-05 2022-02-08 주식회사 데이타스 Pseudonym information processing and re-identification potential evaluation system
KR20240027439A (en) 2022-08-23 2024-03-04 비씨카드(주) Method and device providing anonymous information of card payments

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090077659A (en) * 2008-01-11 2009-07-15 주식회사 케이티프리텔 Apparatus, system and method for generating intelligent personalized information in wired/wireless convergence network based on ip multimedia subsystem
KR101463974B1 (en) * 2014-05-26 2014-11-26 (주)시엠아이코리아 Big data analysis system for marketing and method thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090077659A (en) * 2008-01-11 2009-07-15 주식회사 케이티프리텔 Apparatus, system and method for generating intelligent personalized information in wired/wireless convergence network based on ip multimedia subsystem
KR101463974B1 (en) * 2014-05-26 2014-11-26 (주)시엠아이코리아 Big data analysis system for marketing and method thereof

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180119104A (en) * 2017-04-24 2018-11-01 주식회사 그리즐리 Personal data de-identification method for formless big data
KR20210039538A (en) * 2019-10-01 2021-04-12 (주) 더존비즈온 Method and system for generating multi-dimension analytic report
KR20210152825A (en) * 2020-06-09 2021-12-16 주식회사 토브데이터 Method and system for analysing data de-identification risk
KR102252873B1 (en) * 2020-08-26 2021-05-17 연세대학교 산학협력단 Method and system for managing clinical data based on cloud
KR20220030870A (en) * 2020-08-26 2022-03-11 연세대학교 산학협력단 Method and system for managing clinical data based on cloud
KR102352356B1 (en) * 2021-07-09 2022-01-18 주식회사 넥스인테크놀로지 Method, apparatus and computer program for preprocessing personal information using pre-trained artificial intelligence model

Also Published As

Publication number Publication date
KR101630752B1 (en) 2016-06-16

Similar Documents

Publication Publication Date Title
KR101630752B1 (en) Data Processing Method for Distributable and Unidentifiable Big Data
JP6829762B2 (en) Big data deidentification processing method
US20120330959A1 (en) Method and Apparatus for Assessing a Person&#39;s Security Risk
Sarkar Big data for secure healthcare system: a conceptual design
US9661010B2 (en) Security log mining devices, methods, and systems
US20140317756A1 (en) Anonymization apparatus, anonymization method, and computer program
US9177249B2 (en) Scientometric methods for identifying emerging technologies
Kim et al. An analysis on movement patterns between zones using smart card data in subway networks
CN110929125A (en) Search recall method, apparatus, device and storage medium thereof
CN110659396B (en) Missing attribute information complementing method, device, computer equipment and storage medium
CN110727852A (en) Method, device and terminal for pushing recruitment recommendation service
KR102192235B1 (en) Device for providing digital document de-identification service based on visual studio tools for office
Cheng et al. Mining research trends with anomaly detection models: the case of social computing research
Dwivedi et al. Internet of things'(iot's) impact on decision oriented applications of big data sentiment analysis
US8396877B2 (en) Method and apparatus for generating a fused view of one or more people
US9672275B2 (en) Recommendation apparatus, recommendation method, and storage medium
US9589230B1 (en) Entity location traceability and prediction
CN110580304A (en) Data fusion method and device, computer equipment and computer storage medium
CN110598124B (en) Numerical attribute mining method, device, computer equipment and storage medium
Borradaile et al. Whose tweets are surveilled for the police: an audit of a social-media monitoring tool via log files
Jayashree et al. A collaborative approach of IoT, big data, and smart city
KR102640123B1 (en) De-identification processing method for big data
JP7194562B2 (en) Information processing method and information processing system
CN113239126A (en) Business activity information standardization scheme based on BOR method
US9338049B2 (en) Server device, annotation system, annotation method, and computer program product

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190330

Year of fee payment: 4