KR20190109664A - Big data de-identification system and method - Google Patents

Big data de-identification system and method Download PDF

Info

Publication number
KR20190109664A
KR20190109664A KR1020180027783A KR20180027783A KR20190109664A KR 20190109664 A KR20190109664 A KR 20190109664A KR 1020180027783 A KR1020180027783 A KR 1020180027783A KR 20180027783 A KR20180027783 A KR 20180027783A KR 20190109664 A KR20190109664 A KR 20190109664A
Authority
KR
South Korea
Prior art keywords
big data
data
query
file
management unit
Prior art date
Application number
KR1020180027783A
Other languages
Korean (ko)
Other versions
KR102113680B1 (en
Inventor
심기창
김동례
Original Assignee
(주)이지서티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)이지서티 filed Critical (주)이지서티
Priority to KR1020180027783A priority Critical patent/KR102113680B1/en
Publication of KR20190109664A publication Critical patent/KR20190109664A/en
Application granted granted Critical
Publication of KR102113680B1 publication Critical patent/KR102113680B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof

Abstract

The present invention relates to a big data de-identification system and a method thereof. According to the present invention, the big data de-identification method comprises: a step of detecting meta information including table information and column information of a table from a big data management unit, which stores and manages big data; a step of providing a user interface, which visualizes the meta information, to receive a selection of a column corresponding to data to be extracted; a step of generating a query to extract the data to be extracted corresponding to the selected column from the big data management unit; a step of using the query to extract the data to be extracted from the big data management unit and generate a file thereof; a step of receiving the file from the big data management unit; and a step of performing a de-identification on the data to be de-identified included in the file. The present invention aims to provide a big data de-identification processing system and a method thereof, which are able to provide an interlocking technology between the big data platform and the de-identification unit in performing de-identification processing by extracting the data to be de-identified from the big data environment.

Description

빅 데이터 비식별화 처리 시스템 및 방법{BIG DATA DE-IDENTIFICATION SYSTEM AND METHOD}Big data de-identification processing system and method {BIG DATA DE-IDENTIFICATION SYSTEM AND METHOD}

본 발명은 데이터 비식별 처리 시스템 및 방법에 관한 것으로, 특히 빅 데이터 환경에서 비식별화 처리 대상 데이터를 추출하여 비식별 처리를 수행함에 있어 빅 데이터 플랫폼과 비식별화 처리부 간의 연동 기술에 관한 것이다.The present invention relates to a data non-identification processing system and method, and more particularly, to an interworking technique between a big data platform and a non-identification processing unit in performing de-identification processing by extracting de-identification processing target data from a big data environment.

현대에 이르러 공공기관 및 민간기업이 보유하고 분석해야 하는 데이터양이 기하급수적으로 늘어나고 있다. 각 기관 및 기업들은 데이터 센터 구축 시 관계형 데이터베이스(RDB) 보다는 하둡(Hadoop) 등 빅 데이터 플랫폼을 고려하고 있다. 빅 데이터 플랫폼 내 방대한 데이터를 활용하기 위해서는 개인정보 제거를 위한 비식별 처리를 수행해야 한다.In modern times, the amount of data that public institutions and private companies must possess and analyze is increasing exponentially. Organizations and companies are looking to big data platforms such as Hadoop rather than relational databases when building data centers. In order to utilize the vast amount of data in the big data platform, it is necessary to perform de-identification processing to remove personal information.

한국등록특허 제1784265호(등록공고일자 2017년 10월 12일)와 같이 빅 데이터를 비식별화하는 방법에 대한 관심이 높아지고 있다. 그런데 추출된 빅 데이터를 비식별화하는 것도 중요하지만, 비식별 처리 이전에 빅 데이터 플랫폼에서 데이터를 추출하여 가공하고 연계하는 데에 적지 않은 시간과 비용이 소요되므로 이에 대한 해결 방법도 함께 요구되고 있다.There is a growing interest in methods for de-identifying big data, such as Korean Patent Registration No. 1784265 (Registration Publication Date October 12, 2017). It is also important to de-identify the extracted big data, but it requires a lot of time and money to extract, process and link the data from the big data platform before de-identification processing. .

따라서 본 발명이 해결하고자 하는 기술적 과제는 빅 데이터 환경에서 비식별화 처리 대상 데이터를 추출하여 비식별 처리를 수행함에 있어 빅 데이터 플랫폼과 비식별화 처리부 간의 연동 기술을 제공하는 것이다.Therefore, the technical problem to be solved by the present invention is to provide an interworking technique between the big data platform and the non-identification processing unit in performing the non-identification processing by extracting the de-identification processing data in the big data environment.

상기한 기술적 과제를 해결하기 위한 본 발명에 따른 빅 데이터 비식별화 처리 방법은 빅 데이터를 저장관리하는 빅 데이터 관리부로부터 테이블 정보와 테이블의 컬럼 정보를 포함하는 메타 정보를 탐지하는 단계, 상기 메타 정보를 시각화한 사용자 인터페이스를 제공하여 추출 대상 데이터에 대응하는 컬럼을 선택받는 단계, 상기 선택된 컬럼에 대응하는 추출 대상 데이터를 상기 빅 데이터 관리부로부터 추출하기 위한 쿼리를 생성하는 단계, 상기 쿼리를 이용하여 상기 빅 데이터 관리부에서 추출 대상 데이터를 추출하여 파일로 생성시키는 단계, 상기 파일을 상기 빅 데이터 관리부로부터 제공받는 단계, 그리고 상기 파일에 포함된 비식별 대상 데이터에 대한 비식별화를 수행하는 단계를 포함한다.In the method for processing big data de-identification according to the present invention for solving the above technical problem, detecting meta information including table information and column information of a table from a big data management unit storing and managing big data, the meta information. Providing a user interface visualized to select a column corresponding to the extraction target data, generating a query for extracting extraction target data corresponding to the selected column from the big data manager, using the query Extracting the data to be extracted from the big data management unit to generate a file, receiving the file from the big data management unit, and performing de-identification on the non-identification target data included in the file. .

테이블 선택, 컬럼 선택 및 선택된 컬럼에 대응하는 데이터의 추출 범위 선택을 포함하는 데이터 추출 조건을 상기 메타 정보를 시각화한 사용자 인터페이스를 통해 사용자로부터 선택받을 수 있다.Data extraction conditions including table selection, column selection, and extraction range selection of data corresponding to the selected column may be selected by the user through a user interface visualizing the meta information.

상기 파일은 상기 빅 데이터 관리부 내의 미리 정해진 위치에 생성되어 전송될 수 있다.The file may be generated and transmitted at a predetermined location in the big data manager.

상기 빅 데이터 관리부는 빅 데이터를 분산 파일 형태로 저장 관리하는 분산 파일 시스템을 포함할 수 있다.The big data manager may include a distributed file system that stores and manages big data in the form of a distributed file.

상기 분산 파일 시스템은 하둡 분산 파일 시스템(HDFS)이고, 상기 쿼리는 아파치 하이브 쿼리(Apache-Hive Query)로서,상기 사용자로부터 선택된 데이터 추출 조건에 따라 동적으로 생성되며, 상기 쿼리는 상기 빅 데이터 관리부의 하이브(hive)를 통해 처리되어 상기 빅 데이터 관리부 내의 미리 정해진 위치에 상기 파일을 생성할 수 있다.The distributed file system is a Hadoop Distributed File System (HDFS), and the query is an Apache-Hive Query, which is dynamically generated according to a data extraction condition selected by the user, and the query is the big data manager. The file may be processed through a hive to generate the file at a predetermined location in the big data manager.

상기한 기술적 과제를 해결하기 위한 본 발명에 따른 빅 데이터 비식별화 처리 시스템은, 빅 데이터를 저장하는 빅 데이터 관리부로부터 테이블 정보와 테이블의 컬럼 정보를 포함하는 메타 정보를 탐지하고, 상기 메타 정보를 시각화한 사용자 인터페이스를 제공하여 추출 대상 데이터에 대응하는 컬럼을 선택받는 메타정보 시각화부, 상기 선택된 컬럼에 대응하는 추출 대상 데이터를 상기 빅 데이터 관리부로부터 추출하기 위한 쿼리를 생성하는 쿼리 생성부, 그리고 상기 쿼리를 이용하여 상기 빅 데이터 관리부에서 추출된 데이터로 이루어진 파일을 상기 빅 데이터 관리부로부터 제공받고, 상기 파일에 포함된 비식별 대상 데이터에 대한 비식별화를 수행하는 비식별 처리부를 포함한다.The big data de-identification processing system according to the present invention for solving the above technical problem, detects the meta information including the table information and the column information of the table from the big data management unit that stores the big data, and the meta information A meta information visualization unit for selecting a column corresponding to the extraction target data by providing a visualized user interface, a query generation unit generating a query for extracting extraction target data corresponding to the selected column from the big data management unit, and the It includes a non-identification processing unit for receiving a file consisting of data extracted from the big data management unit using a query from the big data management unit, and de-identification of the non-identification target data included in the file.

본 발명에 의하면 빅 데이터 환경에서의 비식별 대상 데이터에 대한 생성 및 전처리, 연계에 소요되는 시간을 줄일 수 있다.According to the present invention, it is possible to reduce the time required for generation, preprocessing, and linkage of non-identification target data in a big data environment.

도 1은 본 발명의 일 실시예에 따른 빅 데이터 비식별화 처리 시스템의 구성을 나타낸 도면이다.
도 2 내지 도 4는 본 발명의 일 실시예에 따른 시각화된 사용자 인터페이스에서 데이터 추출 조건을 선택받는 과정을 설명하기 위해 제공되는 도면이다.
도 5는 본 발명에 따라 동적으로 생성된 아파치 하이브 쿼리(Apache-Hive Query)를 예시한 도면이다.
도 6은 본 발명에 따른 액티브 하이브 쿼리에 파일 생성 구문이 추가된 예이다.
1 is a diagram showing the configuration of a big data de-identification processing system according to an embodiment of the present invention.
2 to 4 are views provided to explain a process of selecting a data extraction condition in a visualized user interface according to an embodiment of the present invention.
5 is a diagram illustrating an Apache-Hive Query dynamically generated according to the present invention.
6 is an example in which a file generation syntax is added to an active hive query according to the present invention.

그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention.

도 1은 본 발명의 일 실시예에 따른 빅 데이터 비식별화 처리 시스템의 구성을 나타낸 도면이다.1 is a diagram showing the configuration of a big data de-identification processing system according to an embodiment of the present invention.

도 1을 참고하면, 본 발명에 따른 빅 데이터 비식별화 처리 시스템은 빅 데이터 관리부(100)와 비식별 처리부(200)를 포함할 수 있다.Referring to FIG. 1, the big data de-identification processing system according to the present invention may include a big data management unit 100 and a non-identification processing unit 200.

빅 데이터 관리부(100)는 분산 파일 시스템인 HDFS(Hadoop Distributed File System)(110)와 분산처리를 위한 맵리듀스(MapReduce)(120)로 구성된 빅데이터 플랫폼으로 구현될 수 있다.The big data manager 100 may be implemented as a big data platform including a Hadoop Distributed File System (HDFS) 110 which is a distributed file system and a MapReduce 120 for distributed processing.

빅 데이터 관리부(100)는 HDFS에 분산 파일 시스템 형태로 저장된 빅 데이터를 요약, 쿼리 및 분석을 수행할 수 있는 데이터 웨어하우스 시스템으로 하이브(Hive)(130)를 포함할 수 있다.The big data manager 100 may include a hive 130 as a data warehouse system capable of summarizing, querying, and analyzing big data stored in a distributed file system in HDFS.

하이브(130)는 하이브 쿼리(Hive Query)를 사용하여 HDFS(110)에 저장된 빅 데이터로부터 비식별 대상 데이터를 추출하여 파일 형태로 생성할 수 있다.The hive 130 may extract the non-identification target data from the big data stored in the HDFS 110 using a hive query to generate a file form.

도 1에서는 하둡 2.0(HADOOP 2.0)으로 구현된 빅데이터 플랫폼을 예시하였으나 그 외 다른 빅데이터 플랫폼에도 적용 가능하다.Although FIG. 1 illustrates a big data platform implemented with Hadoop 2.0, it can be applied to other big data platforms.

비식별 처리부(200)는 메타정보 시각화부(210), 쿼리 생성부(220) 및 비식별 처리 엔진부(230)를 포함할 수 있다.The non-identification processing unit 200 may include a meta information visualization unit 210, a query generation unit 220, and a non-identification processing engine unit 230.

메타정보 시각화부(210)는 빅 데이터 관리부(100)로부터 테이블 정보와 테이블의 컬럼 정보를 포함하는 메타 정보를 탐지하고, 메타 정보를 시각화한 사용자 인터페이스를 제공할 수 있다. 예컨대 도 1에서와 같이 메타 정보는 빅 데이터 관리부(100)에 구축된 빅 데이터를 구성하는 정보 분류(table) 리스트와, 각 정보 분류에 포함되는 정보 요소(column)에 대한 정보를 포함할 수 있다. The meta information visualization unit 210 may detect meta information including table information and column information of the table from the big data management unit 100, and provide a user interface that visualizes the meta information. For example, as shown in FIG. 1, the meta information may include an information table list constituting big data constructed in the big data management unit 100 and information on information columns included in each information classification. .

메타정보 시각화부(210)는 메타 정보를 시각화한 사용자 인터페이스에서 사용자로부터 빅데이터 플랫폼에서 추출하고자 하는 데이터 추출 조건을 설정받을 수 있다. 예컨대 메타정보 시각화부(210)는 빅데이터 플랫폼에 저장된 빅 데이터의 테이블 리스트를 제공하여 선택받을 수 있으며, 선택된 테이블에 포함된 컬럼 정보를 제공하여 추출 대상 데이터에 대응하는 컬럼을 선택받을 수 있다. 그리고 선택된 컬럼의 데이터에 적용할 처리 함수나 추출 범위에 대한 조건을 선택받을 수도 있다.The meta information visualization unit 210 may receive a data extraction condition to be extracted from the user in the big data platform in the user interface visualized meta information. For example, the meta information visualization unit 210 may be selected by providing a table list of big data stored in the big data platform, and may select a column corresponding to the extraction target data by providing column information included in the selected table. You can also select the processing function or conditions for the extraction range to apply to the data in the selected column.

도 2 내지 도 4는 본 발명의 일 실시예에 따른 시각화된 사용자 인터페이스에서 데이터 추출 조건을 선택받는 과정을 설명하기 위해 제공되는 도면이다.2 to 4 are views provided to explain a process of selecting a data extraction condition in a visualized user interface according to an embodiment of the present invention.

도 2를 참고하면, 예컨대 메타정보 시각화부(210)는 명령어 'show databases'를 하이브(130)에 전달하여 빅데이터 플랫폼에 저장된 빅 데이터의 정보분류 테이블(Table) 리스트를 제공받을 수 있다. 그리고 메타정보 시각화부(210)는 테이블 리스트를 시각화하여 제공할 수 있다. 도 2에서는 테이블 리스트에서 사용자가 '고객정보(TB_OOOO_01)'와 '카드사용정보(TB_OOOO_06)'를 선택한 것을 예시하였다. 테이블 선택을 위해서 체크박스 등의 UI를 지원할 수 있다.Referring to FIG. 2, for example, the meta-information visualization unit 210 may receive a command list table of big data stored in the big data platform by transmitting the command 'show databases' to the hive 130. The meta information visualization unit 210 may visualize and provide a table list. 2 illustrates that the user selects 'customer information TB_OOOO_01' and 'card usage information TB_OOOO_06' from the table list. It can support UI such as checkbox for table selection.

도 3을 참고하면, 사용자가 '고객정보' 테이블을 선택하면, 메타정보 시각화부(210)는 명령어 'describe TB_OOOO_01'를 하이브(130)에 전달하여 해당 테이블에 포함된 정보요소에 대응하는 컬럼 정보를 제공받고 이를 시각화하여 제공할 수 있다. 마찬가지로 테이블 리스트에서 '카드사용정보' 테이블을 선택하면, 메타정보 시각화부(210)는 명령어 'describe TB_OOOO_06'를 하이브(130)에 전달하여 해당 테이블에 포함된 정보요소에 대응하는 컬럼 정보를 제공받고 이를 시각화하여 제공할 수 있다. 도 3에서는 사용자가 고객정보(TB_OOOO_01) 테이블에서는 주소, 연령, 신용등급, 연체료 컬럼을 추출 대상 정보 요소로 선택하였고, 카드사용정보(TB_OOOO_06) 테이블에서는 카드사용횟수, 카드사용금액 컬럼을 추출 대상 정보 요소로 선택한 것을 예시하였다. 마찬가지로 추출 대상 정보요소에 대응하는 컬럼 선택을 위해 체크박스 UI를 지원할 수 있다.Referring to FIG. 3, when the user selects the 'customer information' table, the meta information visualization unit 210 transmits the command 'describe TB_OOOO_01' to the hive 130 and column information corresponding to the information element included in the table. Can be provided and visualized to provide it. Similarly, when the 'card use information' table is selected in the table list, the meta information visualization unit 210 receives the column information corresponding to the information elements included in the table by transmitting the command 'describe TB_OOOO_06' to the hive 130. This can be visualized and provided. In FIG. 3, the user selects the address, age, credit rating, and late fee columns as extraction target information elements in the customer information (TB_OOOO_01) table, and extracts the card usage count and card usage amount columns in the card usage information (TB_OOOO_06) table. The selection as an element is illustrated. Similarly, the checkbox UI may be supported for selecting columns corresponding to the extraction target information element.

한편 마스터 테이블 레코드(Master Table Record)(Key Record)에 대한 서브 테이블 레코드(Sub Table Record)와의 1:n 관계에 대한 데이터 그룹핑(Grouping)을 위해 컬럼 선택 시 별도의 처리함수를 지정할 수 있도록 처리 함수 선택 UI를 지원할 수 있다. 도 3에서는 데이터 그룹핑을 위해 카드사용정보 테이블(TB_OOOO_06)에 포함된 카드사용횟수, 카드사용금액에 대해서 각각 MAX(최대값) 함수와 SUM(합계) 함수를 처리 함수로 지정한 것을 예시하였다.Processing function to specify a separate processing function when selecting a column for data grouping on a 1: n relationship with a sub table record for a master table record (key record) Can support optional UI. In FIG. 3, MAX (maximum value) and SUM (sum) functions are designated as processing functions for the card usage count and the card usage amount included in the card usage information table TB_OOOO_06 for data grouping.

도 4를 참고하면, 추출 대상으로 선택된 컬럼 중에서 추출 범위에 대한 조건을 선택받는 것도 가능하다. 도 4에서는 '고객정보' 테이블에 포함된 신용등급 컬럼에 대해서는 신용등급이 1부터 5까지만 포함되도록 추출 범위 조건이 설정된 것을 예시하였다. 그리고 '카드사용정보' 테이블의 일자 컬럼에 대해서는 2018년에 카드사용정보만 포함되도록 추출 범위 조건이 설정된 것을 예시하였다.Referring to FIG. 4, it is also possible to receive a condition for an extraction range from among columns selected for extraction. In FIG. 4, an extraction range condition is set such that credit ratings are included only from 1 to 5 for the credit rating column included in the 'customer information' table. For example, in the date column of the 'card usage information' table, an extraction range condition is set to include only card usage information in 2018.

다시 도 1을 참고하면, 쿼리 생성부(220)는 빅 데이터 플랫폼의 메타 정보를 시각화한 사용자 인터페이스에서 사용자로부터 선택된 컬럼에 대응하는 비식별 대상 데이터를 빅 데이터 관리부(100)로부터 추출하기 위한 쿼리를 생성할 수 있다.Referring back to FIG. 1, the query generator 220 extracts a query for extracting, from the big data manager 100, non-identifying target data corresponding to a column selected from a user in a user interface visualized by meta information of the big data platform. Can be generated.

도 5는 본 발명에 따라 동적으로 생성된 아파치 하이브 쿼리(Apache-Hive Query)를 예시한 도면이다.5 is a diagram illustrating an Apache-Hive Query dynamically generated according to the present invention.

도 5를 참고하면, 쿼리 생성부(220)는 사용자로부터 도 3에서 선택된 컬럼에 대한 Select 절을 생성할 수 있으며, 하나 이상의 테이블이 선택된 경우 메타 정보에 표기된 키(key) 값을 활용하여 Join 문을 생성할 수 있다. Join 문의 경우 마스터 테이블 레코드(Master Table Record)(Key Record)에 대한 서브 테이블 레코드(Sub Table Record)와의 1:n 관계에 대한 데이터 그룹핑(Grouping)을 위한 컬럼 선택 시 별도의 처리함수를 지정할 수 있도록 구현할 수 있다. 그리고 컬럼 선택 후 데이터 추출 범위를 선택하도록 지정된 조건에 따라 하이브 쿼리 내 Where 절을 생성할 수 있다.Referring to FIG. 5, the query generator 220 may generate a select clause for a column selected in FIG. 3 from a user, and when one or more tables are selected, a join statement using key values indicated in meta information. Can be generated. In the case of Join statement, a separate processing function can be specified when selecting a column for grouping data for a 1: n relationship with a sub table record for a master table record (key record). Can be implemented. Then, you can create a Where clause within the hive query based on the criteria specified to select the data extraction range after column selection.

도 5에서 자동생성구문은 사용자로부터 체크박스 형태로 선택을 받으면 자동으로 생성되는 구문으로, [선택], [그룹]에 해당하는 구문은 사용자가 도 2 및 도 3에서 테이블을 선택하고, 컬럼을 선택한 것만으로 자동으로 생성될 수 있다.In FIG. 5, the auto-generating statement is a phrase automatically generated when a user selects a check box. The phrase corresponding to [selection] and [group] means that the user selects a table in FIGS. 2 and 3 and selects a column. It can be created automatically by just selecting it.

별도추출구문은 도 4에 예시한 것과 같이 선택된 컬럼의 추출 범위를 선택하기 위해 사용자로부터 일정한 값을 직접 입력받는 경에 생성되는 구문으로, [조건]에 해당하는 구문은 사용자로부터 추출 범위 조건에 해당하는 값을 직접 입력받아 생성될 수 있다.The separate extraction statement is generated when a certain value is directly input from the user to select the extraction range of the selected column as illustrated in FIG. 4, and the syntax corresponding to [condition] corresponds to the extraction range condition from the user. Can be generated by directly inputting

다시 도 1을 참고하면, 쿼리 생성부(220)는 생성된 쿼리를 빅 데이터 관리부(100)의 하이브(130)로 전달할 수 있다.Referring back to FIG. 1, the query generator 220 may transfer the generated query to the hive 130 of the big data manager 100.

그러면 하이브(130)는 파일 생성 기능을 활용하여, 쿼리에 대응하는 비식별 대상 데이터를 HDFS(120)에서 추출하여 빅 데이터 관리부(100) 내에 미리 정해진 위치에 로데이터(Raw Data) 파일로 생성할 수 있다.Then, the hive 130 utilizes a file generation function to extract the non-identification target data corresponding to the query from the HDFS 120 to generate a raw data file at a predetermined position in the big data management unit 100. Can be.

도 6은 본 발명에 따른 액티브 하이브 쿼리에 파일 생성 구문이 추가된 예이다.6 is an example in which a file generation syntax is added to an active hive query according to the present invention.

빅 데이터 관리부(100)는 미리 정해진 위치에 생성된 파일을 비식별 처리부(200)로 로데이터(Raw Data) 파일 전송을 성공하면, 해당 파일을 빅 데이터 관리부(100) 내에서 삭제할 수 있다. 파일 전송은 SSH(Secure Shell) 프로토콜을 이용하여 이루어질 수 있다. 물론 실시예에 따라 다른 보안 전송 프로토콜을 이용하는 것도 가능하다.The big data management unit 100 may delete the file generated at the predetermined location from the raw data management unit 100 when the raw data file is successfully transmitted to the non-identification processing unit 200. File transfer can be accomplished using SSH (Secure Shell) protocol. Of course, it is also possible to use other secure transport protocols depending on the embodiment.

마지막으로 비식별 처리부(200)는 전송된 파일에 대해서 비식별 처리 엔진부()에서 비식별 처리, 예컨대 가명처리, 총계처리, 데이터삭제, 데이터범주화, 데이터마스킹 등의 기법과 k-익명성, l-다양성, l-근접성 등의 프라이버시 모델 등에 따라 비식별 처리를 수행할 수 있다. 물론 여기서 예시한 것 이외의 비식별 처리를 수행하는 것도 가능하다.Finally, the de-identification processing unit 200 performs a de-identification process such as pseudo-processing, aggregate processing, data deletion, data categorization, data masking, k-anonymity, etc. in the non-identification processing engine unit () for the transmitted file. De-identification may be performed according to privacy models such as l-diversity and l-proximity. Of course, it is also possible to perform de-identification processes other than those illustrated here.

본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 앞서 설명한 빅 데이터 비식별화 처리 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구성된 하드웨어 장치 등이 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.Embodiments of the invention include a computer readable medium containing program instructions for performing various computer-implemented operations. This medium records a program for executing the big data de-identification processing method described above. The media may include, alone or in combination with the program instructions, data files, data structures, and the like. Examples of such media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CDs and DVDs, floppy disks and program commands such as magnetic-optical media, ROM, RAM, flash memory, and the like. Hardware devices configured to store and perform such operations. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.

Claims (10)

빅 데이터를 저장관리하는 빅 데이터 관리부로부터 테이블 정보와 테이블의 컬럼 정보를 포함하는 메타 정보를 탐지하는 단계,
상기 메타 정보를 시각화한 사용자 인터페이스를 제공하여 추출 대상 데이터에 대응하는 컬럼을 선택받는 단계,
상기 선택된 컬럼에 대응하는 추출 대상 데이터를 상기 빅 데이터 관리부로부터 추출하기 위한 쿼리를 생성하는 단계,
상기 쿼리를 이용하여 상기 빅 데이터 관리부에서 추출 대상 데이터를 추출하여 파일로 생성시키는 단계,
상기 파일을 상기 빅 데이터 관리부로부터 제공받는 단계, 그리고
상기 파일에 포함된 비식별 대상 데이터에 대한 비식별화를 수행하는 단계
를 포함하는 빅 데이터 비식별화 처리 방법.
Detecting meta information including table information and column information of a table from a big data management unit storing and managing big data,
Providing a user interface visualizing the meta information and selecting a column corresponding to the data to be extracted;
Generating a query for extracting extraction target data corresponding to the selected column from the big data manager;
Extracting the extraction target data from the big data management unit using the query to generate a file;
Receiving the file from the big data management unit, and
Performing de-identification on non-identification target data included in the file
Big data de-identification processing method comprising a.
제 1 항에서,
테이블 선택, 컬럼 선택 및 선택된 컬럼에 대응하는 데이터의 추출 범위 선택을 포함하는 데이터 추출 조건을 상기 메타 정보를 시각화한 사용자 인터페이스를 통해 사용자로부터 선택받는 빅 데이터 비식별화 처리 방법.
In claim 1,
And a data extraction condition including a table selection, a column selection, and an extraction range selection of data corresponding to the selected column, through a user interface visualizing the meta information.
제 2 항에서,
상기 파일은 상기 빅 데이터 관리부 내의 미리 정해진 위치에 생성되어 전송되는 빅 데이터 비식별화 처리 방법.
In claim 2,
And the file is generated and transmitted at a predetermined position in the big data management unit.
제 3 항에서,
상기 빅 데이터 관리부는 빅 데이터를 분산 파일 형태로 저장 관리하는 분산 파일 시스템을 포함하는 빅 데이터 비식별화 처리 방법.
In claim 3,
And the big data manager comprises a distributed file system configured to store and manage the big data in the form of a distributed file.
제 4 항에서,
상기 분산 파일 시스템은 하둡 분산 파일 시스템(HDFS)이고,
상기 쿼리는 아파치 하이브 쿼리(Apache-Hive Query)로서, 상기 사용자로부터 선택된 데이터 추출 조건에 따라 동적으로 생성되며,
상기 쿼리는 상기 빅 데이터 관리부의 하이브(hive)를 통해 처리되어 상기 빅 데이터 관리부 내의 미리 정해진 위치에 상기 파일을 생성하는 빅 데이터 비식별화 처리 방법.
In claim 4,
The distributed file system is Hadoop Distributed File System (HDFS),
The query is an Apache-Hive Query, which is dynamically generated according to a data extraction condition selected from the user.
And the query is processed through a hive of the big data manager to generate the file at a predetermined location in the big data manager.
빅 데이터를 저장하는 빅 데이터 관리부로부터 테이블 정보와 테이블의 컬럼 정보를 포함하는 메타 정보를 탐지하고, 상기 메타 정보를 시각화한 사용자 인터페이스를 제공하여 추출 대상 데이터에 대응하는 컬럼을 선택받는 메타정보 시각화부,
상기 선택된 컬럼에 대응하는 추출 대상 데이터를 상기 빅 데이터 관리부로부터 추출하기 위한 쿼리를 생성하는 쿼리 생성부, 그리고
상기 쿼리를 이용하여 상기 빅 데이터 관리부에서 추출된 데이터로 이루어진 파일을 상기 빅 데이터 관리부로부터 제공받고, 상기 파일에 포함된 비식별 대상 데이터에 대한 비식별화를 수행하는 비식별 처리 엔진부
를 포함하는 빅 데이터 비식별화 처리 시스템.
Meta information visualization unit that detects meta information including table information and column information of a table from a big data management unit storing big data, and selects a column corresponding to the extraction target data by providing a user interface visualizing the meta information. ,
A query generator for generating a query for extracting extraction target data corresponding to the selected column from the big data manager; and
A non-identification processing engine unit for receiving a file consisting of data extracted by the big data management unit from the big data management unit using the query, and performing de-identification on the non-identification target data included in the file.
Big data de-identification processing system comprising a.
제 6 항에서,
테이블 선택, 컬럼 선택 및 선택된 컬럼에 대응하는 데이터의 추출 범위 선택을 포함하는 데이터 추출 조건을 상기 메타 정보를 시각화한 사용자 인터페이스를 통해 사용자로부터 선택받는 빅 데이터 비식별화 처리 시스템.
In claim 6,
And a data extraction condition including a table selection, a column selection, and an extraction range selection of data corresponding to the selected column, through a user interface visualizing the meta information.
제 7 항에서,
상기 파일은 상기 빅 데이터 관리부 내의 미리 정해진 위치에 생성되어 전송되는 빅 데이터 비식별화 처리 시스템.
In claim 7,
And the file is generated and transmitted at a predetermined location in the big data management unit.
제 8 항에서,
상기 빅 데이터 관리부는 빅 데이터를 분산 파일 형태로 저장 관리하는 분산 파일 시스템을 포함하는 빅 데이터 비식별화 처리 시스템.
In claim 8,
The big data management unit includes a distributed data system for storing and managing big data in a distributed file format.
제 9 항에서,
상기 분산 파일 시스템은 하둡 분산 파일 시스템(HDFS)이고,
상기 쿼리는 아파치 하이브 쿼리(Apache-Hive Query)로서,상기 사용자로부터 선택된 빅 데이터 추출 조건에 따라 동적으로 생성되며,
상기 쿼리는 상기 빅 데이터 관리부의 하이브(hive)를 통해 처리되어 상기 빅 데이터 관리부 내의 미리 정해진 위치에 상기 파일을 생성하는 빅 데이터 비식별화 처리 시스템.
In claim 9,
The distributed file system is Hadoop Distributed File System (HDFS),
The query is an Apache-Hive Query, which is dynamically generated according to a big data extraction condition selected from the user.
And the query is processed through a hive of the big data manager to generate the file at a predetermined position in the big data manager.
KR1020180027783A 2018-03-09 2018-03-09 Big data de-identification system and method KR102113680B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180027783A KR102113680B1 (en) 2018-03-09 2018-03-09 Big data de-identification system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180027783A KR102113680B1 (en) 2018-03-09 2018-03-09 Big data de-identification system and method

Publications (2)

Publication Number Publication Date
KR20190109664A true KR20190109664A (en) 2019-09-26
KR102113680B1 KR102113680B1 (en) 2020-05-20

Family

ID=68067970

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180027783A KR102113680B1 (en) 2018-03-09 2018-03-09 Big data de-identification system and method

Country Status (1)

Country Link
KR (1) KR102113680B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102279359B1 (en) * 2021-02-22 2021-07-20 주식회사 지란지교데이터 Method and device for use selective non-identifying personal information

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090063092A (en) * 2007-12-12 2009-06-17 한국전자통신연구원 Metadata based indexing and retrieving apparatus and method
KR101463974B1 (en) * 2014-05-26 2014-11-26 (주)시엠아이코리아 Big data analysis system for marketing and method thereof
KR20150119108A (en) * 2013-02-13 2015-10-23 페이스북, 인크. Hive table links

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090063092A (en) * 2007-12-12 2009-06-17 한국전자통신연구원 Metadata based indexing and retrieving apparatus and method
KR20150119108A (en) * 2013-02-13 2015-10-23 페이스북, 인크. Hive table links
KR101463974B1 (en) * 2014-05-26 2014-11-26 (주)시엠아이코리아 Big data analysis system for marketing and method thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102279359B1 (en) * 2021-02-22 2021-07-20 주식회사 지란지교데이터 Method and device for use selective non-identifying personal information

Also Published As

Publication number Publication date
KR102113680B1 (en) 2020-05-20

Similar Documents

Publication Publication Date Title
US11558429B2 (en) Data processing and scanning systems for generating and populating a data inventory
US11036771B2 (en) Data processing systems for generating and populating a data inventory
US10282370B1 (en) Data processing systems for generating and populating a data inventory
US10438016B2 (en) Data processing systems for generating and populating a data inventory
US20240045877A1 (en) Facilitating queries of encrypted sensitive data via encrypted variant data objects
US10642870B2 (en) Data processing systems and methods for automatically detecting and documenting privacy-related aspects of computer software
EP3707635B1 (en) Online determination of result set sensitivity
US20230195759A1 (en) Data processing systems and methods for automatically detecting and documenting privacy-related aspects of computer software
EP2570943B1 (en) Protection of data privacy in an enterprise system
US20210124752A1 (en) System for Data Collection, Aggregation, Storage, Verification and Analytics with User Interface
US20240127379A1 (en) Generating actionable information from documents
KR102113680B1 (en) Big data de-identification system and method
US11138242B2 (en) Data processing systems and methods for automatically detecting and documenting privacy-related aspects of computer software
US20220377088A1 (en) Data management computer and data management method
US10073868B1 (en) Adding and maintaining individual user comments to a row in a database table
CN117932645A (en) Tenant management method and device of distributed database and readable storage medium
WO2023114164A1 (en) Data certification process for cloud database platform
CN117112531A (en) Data service method and device
WO2019023509A1 (en) Data processing and scanning systems for generating and populating a data inventory

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right